Fra talesprog til ordbog
Sociolingvistiske interviews
DGCSS' korpus består af sociolingvistiske interviews optaget fra 1970’erne til 2010. Formålet med sociolingvistiske interviews er at optage talesprog i en uformel, afslappet situation hvor informanten (den interviewede) taler så ”almindeligt” eller hverdagsagtigt som muligt. Derfor er sociolingvistiske interviews meget anderledes end eksempelvis nyhedsinterviews. I sociolingvistiske interviews taler informanten om sin familie, sin barndom, ferieoplevelser eller andre emner hvor informanten kan tale frit fra leveren. Derfor har sociolingvistiske interviews oftest mere form af en samtale end et egentligt interview. Interviewet eller samtalen optages på bånd og i nogle tilfælde også på video. Læs mere om opbygningen af korpusset
Udskrivning af optagelser
Optagelserne udskrives i ortografi, det vil sige almindelig skrift med udgangspunkt i retskrivningsordbogen. Det gør det muligt at søge efter bestemte ord eller ordforbindelser i de mange optagelser, og det gør det lettere at arbejde med data uden at skulle høre alle lydfilerne igennem gang på gang.
Søgning i korpus
Når ODT vil undersøge et bestemt ord, for eksempel en interjektion, søger vi i det udskrevne korpus. Søgningens resultater består af alle fremkomster af målordet i kontekst med information om taleren i form af fødeår, social klasse, geografisk oprindelse mv. Ofte optræder et ord så mange gange i korpusset at det praktisk talt er umuligt at undersøge alle forekomster. Så bliver det nødvendigt at lave en stikprøve. Stikprøven bliver så vidt muligt lavet så den har samme sammensætning som hele korpusset i forhold til køn, alder, geografisk oprindelse mv.
Trækopmærkning
Efter korpussøgningen går redaktøren i gang med at beskrive hver enkel forekomst at målordet i forhold til udtale, betydning/funktion og placering i samtalen. ODT har udarbejdet et sæt betydnings- og beskrivelsesenheder til at beskrive målord. Dette kalder vi et trækinventar. Redaktøren har altså et fast sæt enheder at beskrive et målord med. ODT’s trækinventar kan opdeles i tre dele: semantik/pragmatik (ordets betydning/funktion), interaktion (ordets placering i samtalen) og fonetik (ordets udtale).
Sortering af betydninger
Når alle forekomster af målordet er opmærket med træk, sorteres de ud i forskellige betydninger. Hvis alle forekomster af ordet er opmarkeret med de samme træk, grupperes de alle sammen som eksempler på ét lemma (opslagsord) eller én funktionssvariant. Ofte viser det sig i kraft af trækopmærkningen at der i virkeligheden er tale om to eller tre forskellige lemmaer eller funktionssvarianter. Et eksempel på dette ses i demoordbogen, hvor der er to forskellige nja-lemmaer.
Statistiske beregninger
Fordi korpusset er opmærket med sociolingvistiske variable som køn, alder og socialklasse, er det muligt at finde information om ”den typiske taler” af et givet lemma, altså hvem der oftest bruger ordet. Det viser sig tit at et givet lemma oftest bruges af eksempelvis enten gamle eller unge eller mænd eller kvinder. Korpusset er også opmærket med samtaletyper. Det vil sige at det er muligt at undersøge i hvilke typer samtaler et lemma oftest forekommer. Alt dette er med til bedre at beskrive et lemma.
Den færdige artikel
Til sidst bliver hele undersøgelsens resultater sammenfattet i en kort artikel som på mange måder ligner en traditionel ordbogsartikel. Artiklen beskriver altså lemmaets udtale og betydning/funktion. I modsætning til mange traditionelle ordbøger vil artiklerne dog også indeholde faktabokse med interessante statistiske tendenser som beskrevet ovenfor. Derudover vil det være muligt at læse og høre eksempler på lemmaerne og se forbindelser til beslægtede lemmaer.