Konraad de Smedt: ”Nettkompendium i korpuslingvistikk”
Korpus
Korpus: Samling av språkmaterialer (tekst eller tale) som er spesielt tilrettelagt med tanke på språkvitenskaplige undersøkelser, for eksempel Oslo-korpuset.
Korpuslingvistikk: Den lingvistiske metoden som bygger på material fra korpus.
Arkiv: Oftest en samling som brukes til litteraturvitenskaplige, historiske osv. formål, for eksempel Wittgensteinarkivet.
Konkordans: En liste over ord eller termer som forekommer i et korpus.
Typer korpus
1. Standardkorpus: Skal være representativt for hele språket, for eksempel British National Corpus.
2. Monitorkorpus: Varierende innhold over tid, for eksempel Norsk aviskorpus.
3. Spesialkorpus: Har ikke til hensikt å være representativ for språket som helhet, men inneholder material fra bestemte språkbrukergrupper, for eksempel Norsk andrespråkskorpus (ASK).
4. Diakront korpus: Material samlet fra ulike perioder.
5. Oversettelseskorpus: Tekster parallellstilt med oversettelser til ett eller flere språk, for eksempel English-Norwegian Parallell Corpus.
6. Flerspråklige korpus: Tekster med sammenlignbart innhold (men ikke oversettelser) på ulike språk.
Konstruksjon av korpus
Det er flere hensyn å ta i spørsmålet om sammensetting av et korpus.
1. Materialkilder: Aktuelle kilder er i økende grad elektroniske
· online publikasjoner, for eksempel nettaviser
· elektroniske tekster fra offentlige instanser, institusjoner og forlag
· skanning av trykte tekster
· inntasting av trykte tekster
· eksisterende taleopptak fra radio og tv
· direkte opptak av tale fra informanter
2. Utvalgskriterier: Et ballansert korpus skal ta hensyn til mange utvalgskriteriet, bl.a.:
· modus (talespråk, skriftspråk)
· sjanger, domene og tema
· tekststørrelse
· medium
· tid og sted
· mottaker og forfatter/taler (kjønn, alder, sosial klasse, dialekt, osv.)
3. Annotasjon: Det å legge til ekstra lingvistisk informasjon i et korpus, for eksempel merking av ordklasser.
· trebanker: er syntaktisk analyserte korpus.
· regulære uttrykk tillater en å spesifisere et mønster fremfor en streng av tegn. For eksempel med bruk av * i ”do*”
4. Koding: All informasjon i datamaskinen må kodes for å kunne prosesseres. Tagger for tekststrukturer og tilleggsinformasjon (annotasjon) må kodes ved hjelp av spesielle markører.
Frekvens
Frekvens: Det er relativt enkelt å lage frekvenslister over antall ord. Er korpuset annotert, kan man også lage frekvenslister over antallet tagger (for eksempel ordkategorier).
Normalisering av frekvens: For å sammenligne materiale fra ulike korpus må man betrakte frekvensene i forhold til korpusets størrelse. Vanlig å normalisere til 1 mill.
Kollokasjon
Bigram: To ord som opptrer sammen.
Trigram: Tre ord som opptrer sammen.
Kollokasjoner: Ord som gjerne opptrer sammen.
Forventet bigramfrekvens: Frekvens av det ene ordet delt på antall ord i korpuset ganger frekvensen av det andre ordet.
Kollokasjonens signifikans: På grunnlag av faktisk og forventet frekvens kan kollokasjonens signifikans regnes ut, blant annet gjennom t-score eller Mutual Information (MI).
Comments (0)
You don't have permission to comment on this page.