Transcript Problems
Ordgruppering i talspråkskorpus Ordgruppering i talad dialog Leif Grönqvist & Magnus Gunnarsson Presentation på OFTI 20 (2002) 21/9 - 2002 OFTI 20 - Leif & Magnus 1 Bakgrund NordTalk and SweDanes: Jens Allwood, Elisabeth Ahlsén, Peter Juel Henrichsen, Leif & Magnus Två jämförbara korpora: en svensk och en dansk 1,3 miljoner ord vardera, naturligt talspråk Vi är intresserade av talspråk snarare än skriftspråk 21/9 - 2002 OFTI 20 - Leif & Magnus 2 Peter Juel Henrichsens idéer Ordtyper som ofta förekommer i liknande kontext kallas siblings Några ordpar bestående av ett danskt och ett svenskt ord med nästan identisk betydelse väljs ut och kallas cousins Grupper av siblings tillsammans med de manuellt utvalda kusinerna används för att automatiskt generera fler kusiner 21/9 - 2002 OFTI 20 - Leif & Magnus 3 Siblings som ordgrupper Vi utgår från Peters definition av siblings Vi vill inte använda traditionella ordklasser eftersom de är utvecklade för skriftspråk. Vissa talspråksfenomen saknas helt enkelt. Som enda indata använder vi korpusen Vi tittar på en liten kontext: 1+1 ord Inga lexikon eller morfologisk analys 21/9 - 2002 OFTI 20 - Leif & Magnus 4 Peters formel för Siblings 21/9 - 2002 OFTI 20 - Leif & Magnus 5 Våra justeringar av sibling-måttet Symmetri: ggsib(x1, x2)= ggsib(x2, x1) Siblings kan i vissa fall ha annorlunda högerkontex men nästan identisk vänsterkontext 21/9 - 2002 OFTI 20 - Leif & Magnus 6 Träd istället för grupper 1. 2. 3. Ggsib-måttet används iterativt: Räkna ut ggsib mellan samtliga ordpar över en bestämd frekvenströskel Ordpar med ggsib-värde över en tröskel Sth läggs i en lista L För varje par i L: byt ut alla förekomster av orden i korpusen mot det vanligare 21/9 - 2002 OFTI 20 - Leif & Magnus 7 Träd istället för grupper (forts) 4. 5. Om L är tom: minska Sth lite Kör från steg 1 igen om Sth inte kommit ner till ett förbestämt slutvärde Resultatet av detta kan tolkas som träd! 21/9 - 2002 OFTI 20 - Leif & Magnus 8 Ett exempelträd 21/9 - 2002 OFTI 20 - Leif & Magnus 9 Implementation Egentligen ganska enkelt att implementera: Peter gjorde ett litet program i Perl Men… Tyvärr tar ett iterationssteg ca 100 timmar med ett Perlprogram Vi gjorde därför ett optimerat C-program som kan köra 100 iterationer på mindre än 100 timmar 21/9 - 2002 OFTI 20 - Leif & Magnus 10 Most important optimizations Starting point: we have enough memory but not enough time A compiled low level language instead of an interpreted high level Frequencies for words and word pairs are stored in letter trees instead of hash tables Try to move computation and counting out in the loop hierarchy 21/9 - 2002 OFTI 20 - Leif & Magnus 11 Optimizations (letter trees) Retrieving information from the letter trees is done at constant time to the size of the lexicon (compared to log(n) for hash tables) But in linear time to the average length of the words, but this is constant when the lexicon grows. Another drawback: our example needs 1GB to run (each node in the tree is an array of all possible characters), but who cares. 21/9 - 2002 OFTI 20 - Leif & Magnus 12 Optimizations (more) An example of moving computation to an outer loop is to calculate the set of all context words once, and use it for comparisons with all other words The set may be stored as an array of pointers to nodes (between words in word pairs) in the letter tree 21/9 - 2002 OFTI 20 - Leif & Magnus 13 Pronomen 21/9 - 2002 OFTI 20 - Leif & Magnus 14 Lågfrekventa ord 21/9 - 2002 OFTI 20 - Leif & Magnus 15 Vad är det för grupper? Ingen a priori definition, som ordklasser e.dyl. Approximation av syntaktisk funktion. Synonymer? 21/9 - 2002 OFTI 20 - Leif & Magnus 16 Utvärdering Ingen ”gold standard”. Stämmer med intuition. Fungerar även för synkategorematiska ord. Uttalsvarianter avslöjas. Instabilt för lågfrekventa ord och ”helyttrandeord” Homonymer problematiskt. När är grupperingen klar? 21/9 - 2002 OFTI 20 - Leif & Magnus 17 Slutsatser Metoden är ett intressant sätt att hitta ordgrupper. Fungerar för alla sorters ord (synkategorematiska såväl som kategorematiska). Problem med lågfrekventa ord, ”helyttrandeord” och homonymer. Beräkningseffektivt? 21/9 - 2002 OFTI 20 - Leif & Magnus 18 Fortsatt forskning Jämföra med andra klustringsmetoder. ”Använda” grupperna. Hitta sätt att ”sluta i rätt tid”. 21/9 - 2002 OFTI 20 - Leif & Magnus 19 21/9 - 2002 OFTI 20 - Leif & Magnus 20 Funna grupper: färgord 21/9 - 2002 OFTI 20 - Leif & Magnus 21 21/9 - 2002 OFTI 20 - Leif & Magnus 22 ”Kognitionsverb” 21/9 - 2002 OFTI 20 - Leif & Magnus 23 Återkopplingsord 21/9 - 2002 OFTI 20 - Leif & Magnus 24 Riktningsadverb 21/9 - 2002 OFTI 20 - Leif & Magnus 25