Samenvatting (NL)

Achtergrond

Naarmate meer en meer (multi-modale) archieven, kranten, tijdschriften en tekst-corpora in het algemeen, elektronisch beschikbaar komen, groeit de behoefte om spraak- en met name taaltechnologie te gebruiken voor het ontsluiten van deze enorme hoeveelheid gegevens. Zoeken naar "gelijksoortige" documenten, het detecteren van het "sentiment" van een tekstdocument, het selecteren van data die voldoen aan de criteria A, B en C, en het automatisch detecteren van "name entities" zijn typisch zaken die goed met de huidige taaltechnologie gedaan kunnen worden. Het is echter een enorme verspilling van energie wanneer iedere gebruiker of onderzoeker de bestaande technologie opnieuw voor zijn of haar project moet fine tunen, iets dat nu dikwijls moet omdat de zoektechnologie van Universiteit A nu niet geschikt is voor de data van organisatie B. Willen we bovendien niet alleen Nederlandstalige teksten gebruiken maar ook anderstalige teksten, dan wordt de hoeveel inspanning per project waarschijnlijk zo groot, dat het dikwijls de moeite niet meer waard is.

Doelstelling

CLARIN beoogt hier iets aan te doen door het bronmateriaal in een internationaal geaccepteerde standaard om te zetten en door tools te ontwikkelen die met deze internationale standaarden kunnen omgaan. Doordat dit niet alleen in Nederland gedaan wordt maar in zoveel mogelijk Europese landen, zal er straks een infrastructuur komen waarmee geschiedenisonderzoekers uit Napels op dezelfde wijze in (CLARIN approved) archieven in Napels, Amsterdam en Helsinki kan zoeken als een taalkundeonderzoeker uit Amsterdam dat in tekstbestanden in Utrecht, Frankfurt en Madrid kan doen. Lees de showcases voor voorbeelden hoe de CLARIN-infrastructuur van pas kan komen bij verschillende soorten onderzoek uit de geesteswetenschappen.

Structuur

Er is een Europese CLARIN organisatie (www.clarin.eu) die verantwoordelijk is voor de coördinatie van het Europese project (samenwerking, uitwisseling van gegevens, zoeken van de juiste mensen en organisaties, etc.). In ieder deelnemend land (nu 25) is er een nationale organisatie die dan ook door de nationale overheid betaald wordt: in Nederland is dit CLARIN-NL (www.clarin.nl). Voor de komende 6 jaar is €9.000.000 beschikbaar voor CLARIN-NL.

Projecten

In mei 2009 is de eerste call for proposals geopend. Voorstellen voor kleine onderzoeksprojecten konden worden ingediend (6 maanden, €60K). Deze projecten richten zich enerzijds op het cureren (aan de CLARIN standaard aanpassen) van bestaande corpora en en anderzijds op het uitvoeren van kleine, aansprekende demonstratie projecten die de mogelijkheden van CLARIN duidelijk maken.

Een jaar later konden opnieuw projecten worden ingediend (Call 2). Zowel de maximaal aante vragen hoeveelheid geld als de duur van het project waren verdubbeld (12 maanden, 120K).

Ook het derde jaar was er weer een call, die qua inhoud gelijk was aan Call 2.

Waarschijnlijk komt er in het voorjaar van 2012 nog een laatste call.