Transcript Slide 1
INMIDE Informaatioteknologian Keski-Suomen koulutushanke Jyväskylän yliopisto Euroopan Yhteisö ITKD50 Tekstitiedonhaku Luento III: Tiedonhaku käsite-, ilmaisu- ja esiintymätasolla. 23.03.2005 Anne Honkaranta Jy/Digitaalinen media [email protected] tel. 3041, C514.3 Länsi-Suomen lääninhallitus Yhteystiedot: Jyväskylän yliopisto Informaatioteknologian tiedekunta PL 35, 40014 Jyväskylän yliopisto Sisältö • • • • • Tiedon tallennuksen ja haun tasoperiaate. Tiedonhaku käsitetasolla. Tiedonhaku ilmaisutasolla. Tiedonhaku esiintymätasolla. Tenttivinkkejä. 23.3.2005 JY /AHo, ITK D50 2 Tiedontallennuksen ja haun tasoperiaate Käsitetaso Dokumenttien ja hakutehtävien käsiterakenteet Ilmaisutaso Dokumenttien ja hakutehtävien kielelliset ilmaisurakenteet (asiasanastot, tesaurukset) Esiintymätaso Dokumenttien ja hakutehtävien data, merkkijonot 23.3.2005 JY /AHo, ITK D50 Hakuaiheen käsiteanalyysi Hakustrategiasta päättäminen Luonnollisen kielen ongelmat Käsitteistä hakuavaimiksi Hakuavainten valinta Kyselykieli ja käyttöliittymä Hakutaktikka: haun kaventaminen ja laajentaminen. Lähde: Järvelin, 1995 3 Tiedonhaku käsitetasolla: käsiteanalyysi • Tavoitteena on tunnistaa hakuaiheen keskeiset käsitteet ja käsitteiden suhteet. • Rinnakkainet suhde => tai konnektiivi. • Rajaava suhde => ja tai ei konnektiivi. • Käsiteanalyysin tulos: käsitteellinen hakusuunnitelma. • Aspekti on hakuaiheeseen liittyvä näkökulma. • Hierarkiasuhde -> alakäsite, yläkäsite. • Esim. – IT ->digitaalinen media, elektroninen liiketoiminta. – Dokumenttien hallinta v digitaalisen sisällön hallinta 23.3.2005 JY /AHo, ITK D50 4 Käsitteellisen hakusuunnitelman tyhjentävyys, tarkkuus ja kattavuus • Hakusuunnitelman tyhjentävyys ->kuinka moni hakuaihetta jäsentävistä aspekteista on mukana hakusuunnitelmassa. – Liittyy aspektien välisiin rajaaviin suhteisiin. • Hakusuunnitelman tarkkuus -> kuinka täsmällisillä käsitteillä hakusuunnitelman eri aspekteja kuvataan. – Liittyy käsitteiden välisiin hierarkkisiin suhteisiin. • Hakusuunnitelman kattavuus -> kuinka monella tiedontarpeeseen sisältyvällä käsitteellä hakusuunnitelman eri aspekteja hakusuunnitelmassa kuvataan. – Liittyy hakuaiheen aspektien rinnakkaisiin suhteisiin. 23.3.2005 JY /AHo, ITK D50 5 Käsitteellisen hakusuunnitelman tyhjentävyys, tarkkuus ja kattavuus Hakusuunnitelman muutos Vaikutus saantiin Vaikutus tarkkuuteen Vaikutus hakutulosten määrään Parannetaan Pienenee /kärsii paranee tyhjentävyyttä (haku kapenee) vähenee Parannetaan Pienenee /kärsii Paranee tarkkuutta (haku kapenee) vähenee Parannetaan Paranee kattavuutta (haku laajenee) 23.3.2005 Pienenee /kärsii kasvaa JY /AHo, ITK D50 6 Käsiteanalyysi • Mistä käsitteet? – Tunnistetaan haun /tietotarpeen kuvauksesta. – Erityissanaston termeistä (esim. Viira, lupus lupus). – Aiheen osittaminen (hierarkiasuhteet, käsitteiden osittaminen). – Assosiaatioiden ideointi. • Rajaavien käsitteiden lisääminen tai poistaminen: halutunkaltaisen hakutuloksen sääntely (halutaanko muutamia vai satoja tuloksia?) 23.3.2005 JY /AHo, ITK D50 7 Käsitteellisestä hakusuunnitelmasta hakustrategiaan • Hakustrategia: kokonaissuunnitelma tai lähestymistapa haun suorittamiseen. • Hakutaktiikka: askel/askeleet, jotka suoritetaan haun edistämiseksi (esiintymätasolla). • Hakustrategiatyypit: – – – – – 23.3.2005 Pikahaku. Lohkohaku. Helmenkasvatushaku. Lohkojen peräkkäishaku. Selailuhaku. JY /AHo, ITK D50 8 Hakustrategiat • Pikahaku: – Yksi hakukomento, muutama hakuavain. – Tavoite, esim: muutamien relevanttien dokumenttien läytäminen, aloitus helmenkasvatushaulle, tai bibliografisen tiedon tarkastus. • Lohkohaku. – Säädellään tarkkuutta ja tuloksen kokoa vuorovaikutteisesti. – Eteneminen: tunnista käsitteet, valitse kullekin käsitteelle hakuavaimet (käsite->lohko), hae erikseen kuhunkin käsitteeseen liittyvien tulosdokumenttien joukkoja, yhdistä joukot. 23.3.2005 JY /AHo, ITK D50 9 Hakustragegiat • Helmenkasvatushaku (analogiahaku). – Valitaan esimerkkidokumentti(-mentit), joista tutkitaan mahdolliset hakuavaimet. Haetaan uusia dokumentteja valittujen avainten yhdistelmillä. Voidaan jatkaa jollain muulla hakustrategialla (kuten lohkohaku). – Sopiva, jos on esimerkkidokumentteja jotka kuvaavat hakutarpeen riittävän laajasti. • Lohkojen peräkkäishaku. – Lohkohaun muunnelma: ei muodosteta lohkoa kaikille käsitteille. Voidaan valita esim. Spesifein lohko ensin tai pienimmän tuloksen lohko . Lohkoja lisätään tarpeen mukaan. • Selailuhaku. – Aihealueen tai käsitteiden valintaan, lähtökohdaksi muille hauille. 23.3.2005 JY /AHo, ITK D50 10 Tiedonhaku ilmaisutasolla • Dokumentti itse on ilmaisutason esitys. Sitä voidaan täydentää muilla dokumentin sisältöä kuvaavilla luonnollisen kielen sanoilla, esim. metatietoon liitettävät asiasanat. • Käsitteiden ilmaisutavat: luonnollisen kielen sanat tai esim. Dokumentaatiokielen termit. • Dokumentaatiokielen keskeinen tehtävä on standardoida käsitteiden ilmaisut mahdollisimman yhdenmukaisiksi. • Jos tiedon tallennus ja haku ei perustu ihmisen suorittamaan sisällönanalyysiin, voidaan dokumenttien ja hakutehtävien käsiterakenteet ilmaista luonnollisen kielen avulla. 23.3.2005 JY /AHo, ITK D50 11 Tiedonhaku ilmaisutasolla • Kommunikoitavat käsitteet ja niiden suhteet kuvataan: – – – – – luonnollisen kielen ilmauksilla sanat sanaliitot fraasit aihepiirin erikoiskielen ilmauksilla. • Esim. H2SO4 => H2SO4, Hg(OAc)2 => Hg(OAc)2 23.3.2005 JY /AHo, ITK D50 12 Luonnollisen kielen ongelmia • • • • • Kieli ei ole yhteistä; alakulttuurit. Kieli kehittyy; tarkoituksenmukaisuus. Monitulkintaisuus; “oli vähän hyvää ruokaa”. Homografia eli merkitys riippuu asiayhteydestä (esim. sanat ”kuusi”, ”voi”). Synonymia (~sama käsite, eri termi tai sana) – Päämerkitys eli denotaatio – Sivumerkitys eli konnotaatio. • • Kiertoilmaukset eli parafraasit. Anaforiset ilmaisut (viittaus aiemmin esiteltyyn asiaan). 23.3.2005 JY /AHo, ITK D50 13 Luonnollisen kielen ongelmia • Samaan teemaan voidaan viitata monella eri tavalla, – • • esim. ydinvoima Greenpeacen ja Fortumin raporteissa. Yhdyssanat ja sanaliitot (tiedontarve vs. tiedon tarve). Yhdyssanan loppuosa ilmaisee pääluokan ja alkuosa alaluokan: – – – – – – – 23.3.2005 substantiivi-substantiivi (informaatioteknologia) adjektiivi-substantiivi (kallisarvoinen) erisnimi-substantiivi (Boolen algebra) substantiivi-partisiippi (tietokonetuettu) substantiivi-adjektiivi (ihmisläheinen) adverbi-partisiippi (sisäänotettu) adjektiivi-adjektiivi (kuuromykkä). JY /AHo, ITK D50 14 Luonnollisen kielen ongelmia • Etu- ja loppuliitteet (esi-, jälki-, -inen, -lainen). • Sanojen taipuminen – yksiköt ja monikot, sijamuodot. • Johdokset – uusia sanoja vanhoista; kirja ->kirjonta, kirjasto. • ”Kirotusvireet”. 23.3.2005 JY /AHo, ITK D50 15 Luonnollisen kielen ongelmia • Suomenkielen erityisongelmia: – Taivutusmuotohomografiat (kahdella perusmuotoisella sanalla on yhteisiä taivutusmuotoja, esim. Hauissa ->hauki tai haku, Minä en voi syödä voita). – Sanojen ja niiden vartaloiden taipuminen. – Yhdyssanat ja sanaliitot tavallisia. – Johdoksia käytetään paljon. 23.3.2005 JY /AHo, ITK D50 16 Haku ilmentymätasolla- hakuavainten löytäminen? Käsitetaso Käsitteellinen hakusuunnitelma (Haku) käsitteet Ilmaisutaso Hakuavaimet (Erikoiskielten) Hakutermit Sanaperusteiset hakutermit Ilmaisutason hakusuunnitelma (Yleiset) Koodit ja lyhenteet Luonnollisen kielen hakuilmaisut Koodiperusteiset hakutermit Hakusanat Esiintymätaso Kysely Merkkijonot Merkkijonokaaviot 23.3.2005 Merkkijonovakiot JY /AHo, ITK D50 17 Haku ilmentymätasolla- hakuavaimet ja hakutermit • Hakuavain- yleissana tai tietyn dokumentaatiokielen termi (kun ei haluta tehdä eroa) • Hakutermi- dokumentaatiokielen termi. • Hakuavainten käytön etuja ja haittoja: + Joustavia ja tuttuja tiedonhakijoille, + usein tarkkoja erityissanastojen osalta. – Eivät aina täsmällisiä, erityistermejä ei huomioida useinkaan yleisluontoisissa tekstikannoissa. • Indeksitermien käytön etuja ja haittoja: + Käsitteiden haku yksinkertaista jos löytyy sopiva indeksitermi, + voidaan hyödyntää dokumentaatiokielen rakennetta tai tesaurusta. – Indeksitermit ovat indeksoijan käsitys asiasta, voivat olla joustamattomia, tai tuntua keinotekoisilta, eivät sisällä uusimpia termejä. 23.3.2005 JY /AHo, ITK D50 18 Tiedonhaku esiintymätasolla • Konkreettinen tiedonhaku tapahtuu aina esiintymätasolla. • Esiintymätasolla rakennetaan kysely, joka määrittelee hakujärjestelmälle, miten sen tulee toimia. • Esiintymätasolla puhutaan vain merkkijonoista, koska hakujärjestelmät käsittelevät vain niitä. 23.3.2005 JY /AHo, ITK D50 19 Tiedonhaku esiintymätasolla • Käyttöliittymä – Hakujärjestelmää käytetään kyselykielen (komentokieli, command language, query language) avulla – komennot (command) – komentosanat (command name) – parametrit eli määritteet (parameter) • Kohdennuskomennot: valitaan tietokannan sisällön osia tarkastelun kohteeksi: – – – – – joukko-opin perusoperaatiot tekstihakuoperaatiot termioperaatiot dokumenttien selaus tekstin selaus • Käsittelykomennot: – saanti ja esitys; tulostus ja tulostuksen muotoilu – päivitys; tietueiden lisäys, poisto ja muutos 23.3.2005 JY /AHo, ITK D50 20 Tiedonhaku esiintymätasolla • Kyselykielten eroja: – sallitaanko loogisia operaatioita perushakukomennossa esim. SELECT a AND b vai SELECT a ; SELECT b ; COMBINE s1 AND s2, – sallitaanko loogisia operaatioita hakusanojen ja joukkojen yhdistelmille esim. COMBINE s1 AND KEUHKOSYÖPÄ, – mikä on loogisten operaatioiden suoritusjärjestys, ja – mitä tulostetaan ja missä muodossa. 23.3.2005 JY /AHo, ITK D50 21 Tiedonhaku esiintymätasolla: Merkkijonokaaviot ja jokerimerkit • • • Merkkijonokaavio on malli, joka täsmää useisiin hakemiston merkkijonoihin, joilla on tietyt yhteiset osat ja vaihtelua tietyissä osissa. Vastaa disjunktiolauseketta (“tai”); esim. autom* > automatka automaatti automaatio automaattinen ... Kaavio muodostetaan korvaamalla merkkijonovakion yksittäisiä merkkejä tai kokonaisia osajonoja jokerimerkeillä. • Merkkijonon katkaisu jokerimerkillä lopusta on merkkijonokaavion tavallisin käyttötapa. 23.3.2005 JY /AHo, ITK D50 22 Tiedonhaku esiintymätasolla: Merkkijonokaaviot ja jokerimerkit • # - korvaa yhden aakkosnumeerisen merkin a-ö, 0-9, ei esim. välilyöntiä. Voidaan toistaa. • ? – korvaa aakkosnumeerisen merkkijonon, muttei välilylöntiä. • ?n (esim. ?5) - merkinnällä voi määritellä, montako merkkiä korvataan. 23.3.2005 JY /AHo, ITK D50 23 Tiedonhaku esiintymätasolla: Läheisyysoperaatiot ja sanaliitot • Jos hakujärjestelmä sallii fraasi-indeksoinnin dokumenttien tallennuksessa, voidaan sanaliittoja (kuten “digitaalinen media”) käyttää hakulausekkeissa. • Sanaindeksoinnin takia pilkkoutuneet sanaliitot voidaan koota uudelleen hakuvaiheessa läheisyysoperaation (adjacency operation, proximity operation) avulla. • Pelkkiä indeksitermejä käytettäessä läeisyysoperaattoreilla ei ole merkitystä, ellei myös sanaliittoja ole indeksoitu. 23.3.2005 JY /AHo, ITK D50 24 Tiedonhaku esiintymätasolla: Läheisyysoperaatiot ja sanaliitot • Sanaliittojen täsmäytys: – – – – 23.3.2005 1. Hakuavaimet täsmäytetään esitysjärjestyksessään suoraan peräkkäin, esim. “FIND digital media”. 2.T äsmäytys esitysjärjestyksessä, mutta hakuavainten keskinäinen etäisyys voi vaihdella; tällöin operaattorina !n , jossa n on välissä olevien sanojen sallittu määrä. Pelkkä ! edellyttää sanojen peräkkäisyyttä. 3. Täsmäytys missä tahansa järjestyksessä, keskinäinen etäisyys voi vaihdella. Tällöin operaattorina %n, jossa n on hakuavainten välissä olevien sanojen sallittu määrä. Pelkkä % edellyttää peräkkäisyyttä. Mitä ”FIND Digital ! Media” hakee? Entä ”FIND Digital %6 Media”? Entä ”FIND Dig? !2 Medi##”? JY /AHo, ITK D50 25 Tenttivinkkejä • Soveltava. Kaikki materiaali saa olla mukana. • Keskeiset käsitteet: – saanti, tarkkuus, relevanssi, hakuavain, hakutermi, dokumentaatiokieli, käänteistiedosto, sanakirjatiedosto, boolen logiikka.. • Tiedonhakujärjestelmän yleisrakenne. • Saannin ja tarkkuuden suhde, miten niitä voi säädellä hakutaktiikoilla? • Hakustrategia vs. hakutaktiikka? • Luonnollinen kieli tiedonhaussa? • Indeksointi, metatietomääritykset, ja hakuavaimet: yhtäläisyyksiä, eroja, etuja, haittoja? • Boolen logiikka, Vennin diagrammit, totuustaulut, ja käänteistiedoston käyttö tiedonhaussa. 23.3.2005 JY /AHo, ITK D50 26 Harjoitus • Määrittele esim. Gradu- tai kandityötäsi varten haku. • Tee hakusi aspekteihin liittyvä käsiteanalyysi. Kuvaile käsitteiden valintaa ja ideointia. • Kerro, mitä hakustrategiaa käyttäisit tai kuinka yhdistelisit hakustrategioita? • Mitä hakuavaimia käyttäisit? Kuinka hakuavaimet valitaan? Kuinka hakuavaimia voi yhdistellä, ja mitkä niistä olisivat eniten kokonaistulosta rajaavia? Miten hakutuloksen saantia, tarkkuutta ja määrää voisi säätää hakuavaimia ja haun konjuktiiveja muuttelemalla? 23.3.2005 JY /AHo, ITK D50 27