| 
  • If you are citizen of an European Union member nation, you may not use this service unless you are at least 16 years old.

  • You already know Dokkio is an AI-powered assistant to organize & manage your digital files & messages. Very soon, Dokkio will support Outlook as well as One Drive. Check it out today!

View
 

Korpus - noen begreper

Page history last edited by PBworks 16 years, 4 months ago
Konraad de Smedt: ”Nettkompendium i korpuslingvistikk”
Korpus
Korpus: Samling av språkmaterialer (tekst eller tale) som er spesielt tilrettelagt med tanke på språkvitenskaplige undersøkelser, for eksempel Oslo-korpuset.
 
Korpuslingvistikk: Den lingvistiske metoden som bygger på material fra korpus.
Arkiv: Oftest en samling som brukes til litteraturvitenskaplige, historiske osv. formål, for eksempel Wittgensteinarkivet.
Konkordans: En liste over ord eller termer som forekommer i et korpus.
Typer korpus
1.      Standardkorpus: Skal være representativt for hele språket, for eksempel British National Corpus.
2.      Monitorkorpus: Varierende innhold over tid, for eksempel Norsk aviskorpus.
3.      Spesialkorpus: Har ikke til hensikt å være representativ for språket som helhet, men inneholder material fra bestemte språkbrukergrupper, for eksempel Norsk andrespråkskorpus (ASK).
4.      Diakront korpus: Material samlet fra ulike perioder.
5.      Oversettelseskorpus: Tekster parallellstilt med oversettelser til ett eller flere språk, for eksempel English-Norwegian Parallell Corpus.
6.      Flerspråklige korpus: Tekster med sammenlignbart innhold (men ikke oversettelser) på ulike språk.
Konstruksjon av korpus
Det er flere hensyn å ta i spørsmålet om sammensetting av et korpus.
1.      Materialkilder: Aktuelle kilder er i økende grad elektroniske
·         online publikasjoner, for eksempel nettaviser
·         elektroniske tekster fra offentlige instanser, institusjoner og forlag
·         skanning av trykte tekster
·         inntasting av trykte tekster
·         eksisterende taleopptak fra radio og tv
·         direkte opptak av tale fra informanter
2.      Utvalgskriterier: Et ballansert korpus skal ta hensyn til mange utvalgskriteriet, bl.a.:
·         modus (talespråk, skriftspråk)
·         sjanger, domene og tema
·         tekststørrelse
·         medium
·         tid og sted
·         mottaker og forfatter/taler (kjønn, alder, sosial klasse, dialekt, osv.)
3.      Annotasjon: Det å legge til ekstra lingvistisk informasjon i et korpus, for eksempel merking av ordklasser.
·         trebanker: er syntaktisk analyserte korpus.
·         regulære uttrykk tillater en å spesifisere et mønster fremfor en streng av tegn. For eksempel med bruk av * i ”do*”
4.      Koding: All informasjon i datamaskinen må kodes for å kunne prosesseres. Tagger for tekststrukturer og tilleggsinformasjon (annotasjon) må kodes ved hjelp av spesielle markører.
 
Frekvens
Frekvens: Det er relativt enkelt å lage frekvenslister over antall ord. Er korpuset annotert, kan man også lage frekvenslister over antallet tagger (for eksempel ordkategorier).
Normalisering av frekvens: For å sammenligne materiale fra ulike korpus må man betrakte frekvensene i forhold til korpusets størrelse. Vanlig å normalisere til 1 mill.
Kollokasjon
Bigram: To ord som opptrer sammen.
Trigram: Tre ord som opptrer sammen.
Kollokasjoner: Ord som gjerne opptrer sammen.
Forventet bigramfrekvens: Frekvens av det ene ordet delt på antall ord i korpuset ganger frekvensen av det andre ordet.
Kollokasjonens signifikans: På grunnlag av faktisk og forventet frekvens kan kollokasjonens signifikans regnes ut, blant annet gjennom t-score eller Mutual Information (MI).

Comments (0)

You don't have permission to comment on this page.