Korpuslingvistik kallas metoden att använda en korpus, en stor samling språkliga data, för språkstudier.[1] Termen myntades först på 1980-talet, men metoden började användas flera årtionden dessförinnan. En svensk pionjär på 1960-talet var Sture Allén med Nusvensk frekvensordbok.
Korpus
En korpus är en stor samling språkliga data, det kan röra sig om (transkriberat) talat eller tecknat språk, eller skriven text. Det finns olika sätt att definiera en korpus, men vanligen lagras en korpus elektroniskt med syfte att vara representativ för språket i fråga.
En korpus kan vara synkron eller diakron. Det vanliga är att en korpus har en bestämd (finit) storlek, men det finns också korpusar/korpora som växer med tiden, kallade monitorkorpusar. En korpus kan innehålla mer än ett språk, och kallas då parallellkorpus eller jämförbar korpus. En parallellkorpus är i allmänhet också en översättningskorpus, det vill säga att den innehåller texter på ett språk som kopplas samman med översättningar till ett annat språk och vice versa.
Tidiga korpusar var ofta noggrant viktade så att man valde texter från en noga genomtänkt blandning av genrer, till exempel både skönlitteratur och många olika sorters facklitteratur, och texter av många olika författare. Ett exempel på en sådan korpus som framställts i Sverige är Uppsalakorpusen, som innehåller en miljon ord. Idag är de flesta korpusar för språkvetenskaplig forskning betydligt större. Korpusar används bland annat för att ta fram ordböcker.
Man kan också tala om det material som ligger till grund för en viss artikel eller avhandling som en korpus.
Exempel på korpusar:
- En stor mängd svenska korpusar finns tillgängliga genom "Korp" i Språkbanken vid Göteborgs universitet[2]
- SUC[3]
- Svensk teckenspråkskorpus [4] vid Stockholms universitet
- Europarl[5]
- British National Corpus[6]
- Uppsalakorpusen[7]
- Tjeckiska nationalkorpusen[8]
Ett exempel på en svensk forskare inom korpuslingvistik är Sture Allén.[9]
Referenser
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.