1 Verkkotiedonhaun yleisistä periaatteista 2 Eri hakutavat 3 Keskeisten hakupalveluiden yleisiä piirteitä 4 Aihehakemistot ja virtuaalikirjastot 5 Hakuohjelmat 6 Muut hakutavat
Teoriassa
Käytännössä?
Hakukysymyksen aihealueen jäsentäminenja käsitteellistäminen.
Tiedontarpeen arviointi: kattavuus, syvyys, ajantasaisuus, kieli, tallennusmuoto ym.
Tiedonlähteiden valinta: lähteiden (hakupalveluiden) tietosisällön kattavuuden tunteminen(aineistomuodot, sisällöllinen, ajallinen ja maantieteellinen kattavuus), luetteloinnin laajuuden, syvyyden ja kattavuuden tunteminen(esim. kuvailutietojen taso eri aineistolajien kohdalla, asiasanoituksen ajallinen kattavuus) sekä esim. relevanssin määrittymisen periaatteiden tunteminen. Usean hakupalvelun hyödyntäminen.
Tietokanta- ja hakupalvelukohtaisten hakusääntöjen hallinta.
Yleisten hakutekniikoiden tunteminen (hakulauseen rakentaminen), operaattorit, haun rajaaminen.
Hakutuloksen arviointi: luotettavuus, laatu, ajantasaisuus, kattavuus, toimivuus.
Etsitään pääasiassa yhteys- ja tapahtumatietoja, ajankohtaisia asioita, viihdettä (av-aineisto), palveluita, tuotetietoa, teknisiä yksityiskohtia ym. Pääosin virtuaalista kanssakäymistä, täsmätietoa ja asiointia tukevaa tiedonhakua.
Käytetään yhtä hakupalvelua, ei tunneta juuri muita vaihtoehtoja tai tiedonlähteitä (kuten painettua aineistoa).
Haetaan kokeilemalla, ei tunneta hakuominaisuuksia, hakulauseen rakentamisen periaatteita, hakutuloksen jatkokäsittelyä yms.
Tyydytään hakutuloksen ensimmäisen sivun viitteisiin.
Kritiikittömyys hakupalveluita, tuloksia ja tiedonlähteitä kohtaan.
Internet-tiedonhaussa voidaan periaatteessa erottaa useita erilaisia hakutapoja. Käytännössä kuitenkin lähes kaikissa tärkeimmissä hakupalveluissa on mahdollista etsiä usealla eri hakutavalla. Tiedonhakijan ei tätä tarvitse yleensä edes tietää, sillä haussa, haun ja selailun tuloksissa sekä haun jatkamisessa on usein automaattisesti yhdistetty useita hakutapoja. Internet-tiedonhaun keskeisiä hakutapoja ovat:
Navigoimiseen tai verkon käyttöön liittyvä hakutapa
Suoraan etsittyyn kohteeseen (osoitteen kirjoittamalla selaimeen).
Aiheenmukainen selaus ja haku
Aihehakemistot- toimitusten valitsemaa ja järjestämää verkkoaineistoa. Linkit on järjestetty aiheenmukaisiin ryhmiin. Aiheenmukainen selaus ja haku.Virtuaalikirjastot - kirjastojen tuottamat linkkikokoelmat, tarkimmin valittu, kuvailtu ja systemaattisimmin järjestetty aineisto.
Haku
Hakuohjelmat- haku erittäin laajoista tietokannoista, joihin www-sivuja on automaattisesti indeksoitu. Indeksoinnissa huomioidaan myös sivujenvälinen linkitysrakenne ja sivujen käyttö. Tehokkaat haut, relevantin aineiston löytäminen edellyttää yleensä haun tarkkaa rajaamista. Sähköpostiosoitteille, tiedostoille, audiovisuaaliselle aineistolle, keskusteluille on omia hakuohjelmia. Monihaut eri hakupalveluista ja tietokannoista.
Foorumit
Vuorovaikutteinen tiedonhaku, virtuaaliyhteisöjen tuottaman ja jakaman tiedon hyödyntäminen.Keskustelufoorumit - keskusteluiden seuraaminen tai haku niiden sisällöstä.Kirjastojen etätietopalvelut - tiedonhaun ammattilaisen tietämys. Useita palvelukanavia, haku vastausarkistoista. Muut "tietopalvelut".
Muut
Erityistietokannat- sisällöltään rajatut, erilliset tietokannat, esim. kirjastojen kokoelmatietokannat (kuten HelMet) tai kirjastoissa käytettävät kokotekstitietokannat (kuten Ebsco).Seurantapalvelut - esim. yritystietojen ja markkinoiden seurantaa.Informaatioagentit - automaattinen haku useista hakupalveluista, mm. hakutulosten analyysi, sivujen seuranta halutun hakuprofiilin ja aikataulun mukaan.Surfaaminen - hypertekstilinkkien assosiatiivinen seuraaminen - vrt. sattumanvarainen kirjahyllyjen selailu.Hajautetut järjestelmät - esim. musiikkitiedostojen haku käyttäjien tietokoneista (esim. FastTrack, Gnutella).
Hakutavan valinta tiedontarpeen ja kysymyksen luonteen mukaan:
Kysymyksen luonne
Hakutapa verkkotiedonhaussa
Täsmällinen, helposti rajattavissa
Haku Monihaut
Laaja tai tarvitaan syvällisempää tietoa tietystä aiheesta
Hakemistojen selaus Haku hakemistoista Erityis- ja kokoelmatietokannat (avoimet tai lisensoidut) Informaatioagentit, seurantapalvelut
Uusi tieto
Keskusteluiden seuraaminen, verkkouutispalvelut, verkkolehdet, seurantapalvelut Artikkelitietokannat
Vaikea aihe, ei tarkempaa käsitystä
Kirjastojen etätietopalvelut Erityis- ja kokoelmatietokannat (avoimet tai lisensoidut)
Kirjastojen tietopalvelut
Keskeiset hakupalvelut ovat olleet varsin yhdenmukaisia ja pääosin yhdysvaltalaisia portaaleja. Ne ovat koostuneet yleensä mahdollisimman laajasta www-sivuja hakevasta hausta, aihehakemistoista, ajankohtaispalveluista ym. ja ovat sisältäneet usein samoja palveluita. Hakutuloksista on usein linkkejä toisen hakupalvelun tuloksiin.
Googlen saavutettua lähes monopoliaseman verkkotiedonhaussa on tilanne kuitenkin muuttunut. Googlen myötä painopiste on siirtynyt tiedonhaun kehittämiseen yleisportaalien tarjoamisen sijaan. Toisaalta ostetun relevanssin merkitys kasvaa kokoa ajan. Googlen ohella kannattaa pyrkiä käyttämään aktiivisesti myös Ask Jeevesiä, Vivisimoa, erityishakupalveluita, avoimia ("Deeb web") ja lisensoituja tietokantoja, virtuaalikirjastoja sekä Kirjastot.fi:n Kysy kirjastonhoitajalta -verkkotietopalvelua) ja Kirjastot.fi:n Tieto-listaa (vain kirjastoille).
Yleinen, verkon sisällön automaattiseen indeksointiin perustuva tiedonhaku
Google: käytetyin hakupalvelu, relevanteimmat tulokset, laajin tietokanta Muita:Alta VistaAsk Jeeves - perustuu osin tietämystietokantaanFast Teoma - "Subject-Specific Popularity"Vivisimo - kehittynyt monihaku ja tulosten ryhmittelyWiseNut
Aihehakemistoja
Laajimmissa noin pari miljoonaa linkkiä - merkitys vähentynyt
Fennica.net Suomi24.fi WebInfo Britannica.com LookSmart Open Directory - laajin hakemisto, perustuu vapaaehtoisten panokseen, mukana mm. Googlen tuloksissaYahoo
Erityishakupalveluita
CompletePlanet, Invisible-web.net - automaattisen indeksoinnin tavoittamattomat tietokannat ja erityishakupalvelutCountrywatch.comInternet ArchiveScirus Scientific - yli 150 miljoonaa tieteellistä verkkosivua
Virtuaalikirjastoja Kirjastojen tietokannat
Infomine - yli 100 000 käsin luetteloitua sekä puoliautomaattisesti tai automaattisesti luetteloitua tieteellistä linkkiä LinkkikirjastoMakupalat.fiMCL World InfoRenardus - yli 60 000 eurooppalaisten tieteenalakohtaisten virtuaalikirjastojen käsin luetteloitua linkkiä. Suomalainen versio: Tieteen linkkitaloSuomalaiset verkkolehdetVirtuaalikirjastoja / Kirjastot.fi
Kirjastojen tietokantoja / Kirjastot.fi: Kirjastot-kanava Esim. Helsingin kaupunginkirjaston Digitaalinen aineisto ja tietokannatKirjastojen tuottamia tiedonlähteitä / Kirjastot.fi-kirjastotietokanta:erikoiskokoelmat
Kirjastot.fi-monihaut
Kysy kirjastonhoitajalta Tieto-lista
Kirjastot.fi:n Tiedonhaun portti yhdistää kaikki hakutavat.
Käytetyimmät hakupalvelut Yhdysvalloissa joulukuussa 2004:
Suosituimmat kävijöiden mukaan
Google Yahoo MSN AOL Ask Jeeves
Lähde: Nielsen NetRatings: Search Engine Ratings (Search Engine Watch).
Media Metrixin mukaan käytetyimmät verkkopalvelut tiedonhaussa olivat Yhdysvalloissa toukokuussa 2003:
Palvelu
Hakuteknologia
Google 32 % Yahoo 25 % AOL 19 % MSN 15 % Ask Jeeves 3% Muut 6 %
Google 76 % MSN 15 % Ask Jeeves 3% Muut 6
Suosituimmat hakupalvelut Euroopassa: ks. Nielsen NetRatings European Search Engine Ratings (Search Engine Watch).
Suosituimpiin hakupalveluihin tehdään satoja miljoonia käyntejä kuukaudessa. Esim. Googleen kohdistuu vuorokaudessa yli 250 milj. hakua. Ks. Search Engine Watch: Searches Per Day.
NPD Search and Portal Site Study -tutkimuksessa on kartoitettu n 40 000 tiedonhakijan kokemuksia verkon hakupalveluista vuodesta 1997 lähtien. Vuonna 2000 tyytyväisyys tuloksiin oli 81 prosenttia. Mielenkiintoista oli, että jos haku ei heti tuottanut haluttua tulosta, niin 77 prosenttia vastaajista kuitenkin jatkoi samalla hakupalvelulla. 41 prosenttia etsi usealla hakusanalla, 31 prosenttia yhdellä sanalla. Tutkimuksen mukaan Googlen hakutuloksiin oltiin selvästi tyytyväisimpiä. Ks. NPD Search and Portal Site Study (Search Engine Watch). Lisää hakupalveluiden käyttöön liittyviä tutkimuksia: Search Engine Watch: Ratings, Reviews and Tests.
Virtuaalikirjastot Etsittäessä syvempää tietoa tietystä aiheesta ja erityisesti tieteellistä tietoa, kannattaa haku monesti aloittaa virtuaalikirjastoista.
Virtuaalikirjastot ovat kirjastojen tuottamia, verkkoaineistoa jäsentäviä linkkikokoelmia, joissa aineisto on tarkimmin valittu ja systemaattisimmin järjestetty aiheen mukaan. Aineisto on usein kuvailtu, jolloin haku voidaan kohdistaa myös kuvailutietoihin.
Virtuaalikirjastojen heikkous on ollut niiden suppea kattavuus, sillä linkkejä niissä on paljon vähemmän kuin aihehakemistoissa. Tunnettuja virtuaalikirjastoja:
BUBL Link Infomine Renardus SOSIG Muita virtuaalikirjastoja
Suomalaisia virtuaalikirjastoja:
Linkkikirjasto Tieteen linkkitalo
Aihehakemistot Virtuaalikirjastoja laajempia aiheenmukaisia ryhmittelyjä ovat aihehakemistot, joista tiedon etsintä kannattaakin useimmiten aloittaa. Aihehakemistojen ylläpidosta vastaa yleensä toimitus tai toimitustyö voi olla hajautettu esim. vapaaehtoisille.
Aihehakemistoihin on aineisto yleensä toimituksen valitsemaa, joskin valintakriteerit ovat virtuaalikirjastojen kriteereitä väljemmät.
Hakemistot toimivat tiedon valikoinnin ja suodattamisen välineenä, niiden avulla voidaan jollain tavoin ennakoida hakutulosten laatua.
Lähes kaikissa hakemistoissa on lisäksi aiheryhmätasolle tarkennettavissa oleva haku, jolloin haussa päästään jossain määrin lähelle erityistietokantojen hakuominaisuuksia.
Aihehakemistoihin linkit kerätään yleensä siten, että tiedontuottaja ilmoittaa sivunsa erityisellä hakulomakkeella ja valitsee aiheenmukaisen sijoituspaikan. Joissakin hakemistoissa toimitus kerää aineiston itse. Kaikissa toimitetuissa hakemistoissa valittava aineisto arvioidaan tiettyjen kriteerien mukaan. Joissakin hakemistoissa aineiston keruu on automaattista.
On selvää, että ainoa tapa täysin varmistaa aineiston laatu, konteksti ja relevanssi laatu on ihmisvoimin tehty valikointi, arviointi ja kuvailu. Se on kuitenkin työlästä, hidasta ja kallista ja voi kattaa vain pienen osan Internetin sisällöstä. Sisällönkuvailun mielekkyyttä vähentää aineiston jatkuva sisällön ja sijainnin muuttuminen, vanhentuminen tai häviäminen. Aiheryhmät on muodostettu yleensä varsin joustavasti suosituimpien aihealueiden mukaan.
Laajimmat hakemistot
Linkkejä
Toimituskunnan koko
Open Directory
yli 3,8 milj.
yli 58 000
LookSmart
n. 2,5 milj.
200
Yahoo
n. 1,8 milj.
100
Lähde: Search Engine Watch: Web directory sizes ja Search Engine Showdown: Internet Subject Directories.
Internetin yleisten hakuohjelmien tietokantoihin pyritään indeksoimaan automaattisesti mahdollisimman laajalti julkisia www-sivuja, tiedostoja ja sekä keskusteluita. Internetin valtavan suuren informaatiomäärän vuoksi automaattiseen indeksointiin perustuvat hakupalvelut ovat välttämättömiä.
Haut ovat nopeita ja tehokkaita, mutta tulosjoukko voi usein olla aivan olla liian suuri ja saadut viitteet epärelevantteja tai laadultaan epätasaisia.
Indeksointitekniikan kehittyminen on parantanut tulosten relevanssia ja kattavuutta yleisesti.
Yleisten hakuohjelmien lisäksi on eri alojen erikoishakuohjelmia sekä mm. sähköpostiosoitteiden ja tiedostojen hakuja.
Indeksoinnin ulkopuolelle jäävät yleensä erityistietokantojen ("Deep web") sisältö.
Tärkeimmät hakuohjelmat:
Hakuohjelma
Tietokantaan indeksoituja sivuja
Tietokannan koko 2003 testin mukaan, sivuja
Google
yli 8 mrd.
3083 milj.
Fast
miljardeja.
2106 milj.
Inktomi
3000 milj.
Teoma
1500 milj.
500 milj.
Lähteet: Search Engine Watch: Search Engine Sizes (9/2003), Search Engine Showdown: Search engine Statistics: Database Total Size Estimates (12/2002).
Laajimmat yksittäiset tietokannat ovat kattaneet noin kolmanneksen kaikista julkisista, indeksoitavissa olevista www-sivuista. Kattavuus on kuitenkin kasvanut koko ajan (Internetin koko: ks. Internet tiedonlähteenä).
Search Engine Showdownin testin mukaan tietokannoissa ei olisi kovin suurta päällekkäisyyttä. Testijoukossa puolet sivuista löytyi vain yhdellä kymmenestä hakuohjelmasta, eikä hakuohjelma ollut aina sama. Noin 80 prosenttia sivuista löytyi kolmella hakuohjelmalla. Google löysi eniten sellaisia sivuja, joita muut hakuohjelmat eivät löytäneet.
Ks. Search Engine Showdown: Search Engines Statistics: Database Overlap. Ks. myös VeriTestin Web Search Relevance Test (3/2003, pdf-tiedosto)
Automaattinen indeksointi
Haku Internetin sisältöä automaattisesti indeksoivan hakupalvelun haulla on käytännössä sama kuin haku tietokannasta. Haku ei kohdistu suoraan ja samanaikaisesti Internet-verkon kaikkiin palvelimiin, vaan tietokantoihin, joihin hakuohjelmien indeksointiohjelmat ("robotit") indeksoivat verkon julkista sisältöä.
Haku tärkeimpien hakuohjelmien tietokannoista on erittäin nopeaa, vaikka www-sivuja on indeksoitu tietokantoihin satoja miljoonia, hakutulokset ovat suuria ja samanaikaisia hakupyyntöjä miljoonia.
Indeksointiohjelmat tutkivat tietyn reitin ja aikataulun mukaan palvelinten www-hakemistoja ja indeksoivat sekä kopioivat www-sivujen body-tekstin (pääsääntöisesti yleisimpiä sanoja lukuun ottamatta) omaan tietokantaansa. Indeksointiohjelmat seuraavat sivujen linkkejä. Osa indeksointiohjelmista kerää tiedot myös linkeistä, vaikka eivät indeksoisi itse sivua.
Indeksointiohjelmista osa indeksoi mahdollisimman paljon www-sivuja palvelimesta, osa taas vain sivustojen ylimmät sivut tai sivut, joihin on enemmän linkkejä. Linkkien määrä sivulle vaikuttaa joissakin indeksointiohjelmissa myös siihen, kuinka useasti sivu indeksoidaan. Indeksoinnissa luodaan sivuista tiivistelmä, yleensä sivun alusta.
Indeksoinnissa lasketaan yleensä sanojen esiintymistiheys ja määritetään avainkäsitteet, merkitään sanojen sijainti ja sanojen välinen etäisyys.
Joissakin tietokannoissa tunnistetaan myös fraasit, kieli, käsitteiden väliset semanttiset suhteet ja lauseiden syntaksit. Näiden pohjalta luodaan tesauruksia ja vertailusanastoja. Eräissä kuvahakuohjelmissa indeksoidaan jollakin tavoin myös grafiikkaa.
Tietokantojen päivitystiheys vaihtelee, samoin niiden kattavuus ja indeksointitapa. Hakutulosten painotusmenetelmät ovat erilaisia.
Hakutulosten relevanssi
Hakuohjelmat määrittävät tietokantoihinsa indeksoitujen sivujen relevanssin hakusanoihin nähden pääsääntöisesti seuraavien periaatteiden mukaan:
a) Suhteellinen frekvenssi: hakusanan esiintymistiheys sivulla. b) Hakusanan esiintyminen sivun alussa, title-kentässä, URL-osoitteessa, metakentissä, tyylilliset korostukset (kuten fontti, tummennus jne.). c) Hakusanat esiintyvät useammin kuin toisella sivulla. d) Hakusanojen läheisyys. e) Muita periaatteita (edellisiä täydentäen): - Sivujen välisen linkitysrakenteen analyysi, linkkien määrä, konteksti ja linkittävän sivun painoarvo (erityisesti Google). - Hakutulosten käytön määrä ja linkityssuhteet (kuten Directs Hits, Alexa). - Käsiteperustainen haku (semanttisten suhteiden tunnistaminen). - Automaattinen fraasin tunnistus, hakusanojen syntaksin ja semantiikan tunnistaminen. - Esimerkinmukainen haku. - Tulosten klusterointi. - Ostettu relevanssi (esim. GoTo). Tästä tarkemmin Search Engine Watch: Paid listings. - Kysymys-vastaus -parien tietämystietokanta (Ask Jeeves). - Suodattimet - hakutulosten suodattaminen etukäteen. - Linkin esiintyminen myös hakupalvelun aihehakemistossa lisää relevanssia haussa.
Hakutulosten pisteytys toimii yleensä luotettavammin 20 ensimmäisten tuloksen kohdalla, kuin esim. 100 ensimmäisen tuloksen kohdalla.
Audiovisuaalisten tiedostojen haku kohdistuu tiedostojen nimiin ja alt-teksteihin sekä sivuun, ei itse sisältöön.
Kun indeksointi suoritetaan täysin automaattisesti, se ei voi olla täysin luotettavaa, kattavaa eikä ajantasaista. Aineiston laadun, kontekstin ja relevanssin arvioiminen on vaikeaa automaattisesti.
Hakuohjelmien tietokantojen päivittymisessä on huomattavia eroja. Tavanomainen indeksoitujen sivujen indeksoinnin päivitystiheys on 1 vuorokausi - 2 kuukautta. Vuonna 1999 arvioitiin, että uudet sivut indeksoidaan keskimäärin 186 päivän kuluttua, jollei sivua ole ilmoitettu hakupalveluun. (Lawrence & Giles: Accessibility and Distribution of Information on the Web, 1999.)
Indeksoinnin kattavuutta, syvyyttä ja luotettavuutta vaikeuttavat mm.: - Informaation suuri määrä ja jatkuva muuttuminen. - Informaation kontekstin, laadun ja relevanssin tunnistaminen ei ole riittävää. Paras menetelmä on ollut toistaiseksi linkitysrakenteen analyysi. - Palvelinten ja tietoliikenteen toimintahäiriöt. - Palvelinten www-hakemistoissa tai sivuilla olevat indeksointiohjelmien estot, salasanalla suojatut sivut, indeksointiohjelmien rajoitukset. - Dynaamisesti muodostuvaa, tietokantapohjaisten palveluiden ("Deep Web") varsinaista sisältöä tai erillisten tietokantojen sisältöä ei yleensä indeksoida automaattisesti ulkopuolisilla indeksointiohjelmilla. - Kaikki ohjelmat eivät indeksoi kehystettyjen sivustojen sisältösivuja, kuvien alt-tekstejä eikä imagemappien tekstejä. - Muuttuneet ja toimimattomat osoitteet, rinnakkaisosoitteet. - Tahallinen indeksointiin vaikuttaminen ("spamming", paljon hakusanoja meta-kenttiin ja sivun alkuun, "sisääntulosivut", indeksointiohjelman tunnistaminen ja tietojen syöttö suoraan, hyvin pisteytettyjen sivujen tietojen kopioiminen, keinotekoinen linkitys. - Kuvailutietojen puuttuminen ja standardoimattomuus (meta-kenttien heikko hyödyntäminen). - Virheet ja puutteet html-rakenteessa.
Hakuohjelmien ongelmia: - Hakuohjelmia on useita ja tähän asti useamman hakuohjeman käyttö on ollut tarpeellista. - Hakuohjelmissa on erilaiset hakusäännöt. - Tietokantojen indeksoinnissa, päivitystiheydessä ja hakutuloksen painottamisessa on eroja. - Linkkien määrä sivulle vaikuttaa yhä merkittävimmän relevanssiin, mikä voi kaventaa vähän linkitettyjen, mutta laadukkaiden sivujen löytymistä. - Tietokantojen kattavuus ei ole ollut tähän mennessä kovinkaan täydellistä ja sitä on vaikea arvioida. - Hakutuloksissa on suppeat tai epärelevantit viitetiedot. - Haussa painotutuu saanti tarkkuuden sijaan. - Hakuohjelmien toiminnoissa on ollut katkoksia tai epätäsmällisyyksiä, haku ei huomioi täysin oikein hakulauseen syntaksia, hakutulosten todellista määrää on monesti vaikea nähdä (mm. tulosten klusteroinnin vuoksi). - Hakulomakkeissa ei ole riittäviä opasteita, monipuolisempi haku ei oletuksena.
Hakuohjelmia ajatellen tiedon tuottajan kannattaa huomioida seuraavat seikat ("Search engine optimization"): - Omien sivujen aktiivinen ilmoittaminen hakupalveluihin: ilmoitetut sivut indeksoidaan yleensä muutaman vuorokauden kuluessa. - Joidenkin palveluiden avulla voidaan sivu ilmoittaa useaan hakupalveluun samanaikaisesti ja mm. tarkistaa, miten sivun relevanssiarvo määräytyy erilaisilla hakulauseilla. - Title-kentän pitää olla mahdollisimman tarkka ja kuvaava. - Tekstin alkuun kannattaa kirjoittaa runsaasti keskeisiä sanoja, mieluiten tiivistelmä, ei kuvia sivun alkuun; kuviin aina tekstikuvaus alt-kenttään. - Sisältöä kuvaavat keskeiset sanat tulisi esiintyä sivuston kaikissa keskeisessä osissa, muttei kuvissa. - Sivuston sisäiset linkit tulisi olla myös tekstilinkkeinä. Sivukartta auttaa indeksointia ja sen voi erikseenkin ilmoittaa indeksoitavaksi. - Sivuille kannattaa sijoittaa linkkejä tunnetuille sivustoille. - Meta-kentät ovat suositeltavia: <meta name="description" content="kuvaus.."> <meta name="keywords" content="asiasanat.."> - Kehystettyihin sivustoihin noframes-kenttään kuvaus sisältösivuista. - Jos sivun indeksointi halutaan estää, sivulla voidaan käyttää metakenttää meta name="robots" content="noindex"> tai robots.txt-tiedostoa. Aiheesta tarkemmin: Search Engine Watch: Search Engine Submission Tips,The Big List of Web Robots, Pandia Search Engine Marketing 101 ja The Web Robots Database.
Mikäli tärkeimmät hakupalvelut ryhtyisivät hyödyntämään indeksoinnissa Dublin Core-metadataformaattia ja tiedontuottajat soveltamaan sitä yhdenmukaisesti, paranisi haun tarkkuus ja tulosten viitetietojen laatu todennäköisesti merkittävästi.
Tiedonhaun yleisiä piirteitä Internet-tiedonhaussa pätevät tietokantahaun yleiset periaatteet. - Arvioi kysymyksen aihealueen laajuus sekä tulosten kattavuuden ja syvyyden tarve. - Määritä keskeiset haun käsitteet. - Valitse sopivat hakusanat. - Tarkista niiden rinnakkaistermit ja sanojen kirjoitusmuoto. - Lue hakuohjelman ohjeet. - Käytä tarvittaessa useita eri hakutapoja.
Hakulauseen rakentaminen: kun sopivat hakusanat ja niiden mahdolliset rinnakkaistermit sekä rajoittimet on mietitty valmiiksi, voidaan hakulauseen rakentamisessa käyttää yleensä seuraavia keinoja:
Hakusanojen yhdistäminen
Boolen operaattorit: JA, TAI, EI Sulut: esim. hakusana1 JA (hakusana2A TAI hakusana2B) Läheisyysoperaattorit: Hakusanojen välisen etäisyyden ja järjestyksen määrittäminen - fraasi: hakusanat peräkkäin, esim. "Yleiset kirjastot", muita: esim. NEAR, ADJ, esim. Yleiset NEAR kirjastot Muut: esim. luonnollisen kielen haku, käsiteperusteinen haku, haku esimerkin mukaan
Rajaaminen
Kentät: esim. title:Kirjastot.fi Muut rajoittimet: kieli, päivitys- tai julkaisupäivämäärä, maantieteellinen sijainti, tiedostomuoto, tiedonlähde Katkaisu: esim. tie#, esim. autom?tti Iso kirjaimet: esim. WebRank Suodattimet lasten aineiston haussa
Tulosjoukko
Supistaminen, laajentaminen, uusi haku saatuun joukkoon Relevanssin määrittäminen, listaukset mm. palvelimen mukaan, temaattisen kartan hyödyntäminen, esimerkinmukainen haku.
Hakusanojen yhdistäminen (Boolen operaattorit): - JA-operaattorilla rajoitetaan ja täsmennetään hakua. JA yhdistää dokumentit yhteisen kriteerin mukaan eli hakee dokumentteja, joissa esiintyvät kaikki hakusanat. - TAI-operaattorilla laajennetaan hakua. TAI yhdistää ne dokumentit, joissa esiintyy jokin hakusanoista. - EI-operaattorilla suljetaan tiettyjä hakusanoja sisältäviä dokumentteja hakutuloksen ulkopuolelle. - Operaattorien voimakkuusjärjestys on ei, ja, tai. Sulkujen sisällä oleva hakulause toteutetaan ensin. Käytä sulkuja, jos kirjoitat eri operaattoreita samaan lauseeseen. - Yleensä hakuohjelmissa ja, tai ja ei täytyy kirjoittaa esim. lainausmerkkeihin, jos niitä käytetään hakulauseessa muina kuin operaattoreina. - Vältä monimutkaisia hakulauseita. Esim. "yleiset kirjastot" and (yleiset near kirjastot)
Tulosjoukon supistaminen ja laajentaminen yleisesti:
Supistaminen: - Kohdistetaan haku kenttiin, käytetään asiasanoja, luokkaa, rajataan hakua rajoittimilla. - Siirretään katkaisumerkkiä oikealle. - Vähennetään TAI-kytkettyjä käsitteitä, lisätään JA-kytkettyjä, käytetään EI-operaattoria.
Laajentaminen: - Käytetään vapaatekstihakua. - Siirretään katkaisumerkkiä vasemmalle. - Vähennetään JA-kytkentöjä, lisätään TAI-kytkentöjä. - Poistetaan rajaukset.
Käytännössä Internet-tiedonhaussa ei tarvitse miettiä hakusanojen yhdistämistä. Yleensä kannattaa kirjoittaa mahdollisimman monta hakusanaa ja välttää niiden katkaisua. Monipuolisimmissa hakulomakkeissa hakusanojen yhdistämisen ja rajaamisen voi tehdä valmiiden valikoiden ym. avulla.
Internet-tiedonhaun erityisiä piirteitä: - Hakuohjelmissa pääsääntö on haku tarkemmasta laajempaan eli aloita haku mahdollisimman rajaavalla hakusanalla ja täsmällisellä hakulauseella, mieluiten fraasilla. esim. yleiset kirjastot. - Vältä yleisiä hakusanoja, kuten Internet.Useimmat hakuohjelmat eivät etsi yleisimpiä sanoja. - Kirjoita avainkäsitteet hakulauseen alkuun. Käytä rinnakkaistermejä. - Käytä kaikkia rajausmahdollisuuksia: esim. läheisyysoperaattoreita, kenttiä, aikarajausta, kielirajausta, maantieteellistä rajausta, tiedostotyypin rajausta, isoja kirjaimia. - Boolen operaattorit, sulut, kentät, isot kirjaimet ja erikoismerkit eivät Internet-tiedonhaussa välttämättä toimi täysin oikein ja luotettavasti. - Vältä monimutkaisia hakulauseita ja sulkuja. - Käytä hyväksi hakutulosten muokkaus- ja järjestämismahdollisuuksia sekä tarkista tulosjoukon määrittämiseen liittyvät vaihtoehdot. Tulokset kannattaa järjestää palvelimen mukaan, jos se on mahdollista. - Jos mahdollista, toista haku myöhemmin. - Käytä monipuolisempia (lisähaku, expert, power, custom, advanced. pro ym. search) hakulomakkeita. - Käytä aihehakemistoissa myös hakumahdollisuutta ja haun jatkamista muilla hakuohjelmilla. - Huomioi monihakuohjelmissa, että niihin sisältyvissä yksittäisissä hakuvälineissä saattaa olla erilaiset hakusäännöt, eikä monihaussa voida aina hyödyntää yksittäisen hakuohjelman kaikkia hakuominaisuuksia. - Monesti nopein tapa etsiä on yrittää kirjoittaa etsittävän sivun osoite selaimen osoiteriville. Organisaatioiden ja palveluiden osoitteet ovat usein muotoa www.nimi.maatunnus tai www.nimi.com tai www.nimi.net. Esim. www.nokia.com,www.helsinki.fi - Jos osoite antaa virheilmoituksen, voi osoitetta lyhentää, jolloin yleensä pääsee eteenpäin. Uusimpiin selaimiin on integroitu yleisiä hakupalveluita tai niitä voi itse lisätä selaimeen. Hakusanan voi tällöin kirjoittaa selaimen osoiteriville. - Tiedon seurantaan ja esim. toistuviin, laajoihin hakuihin kannattaa kokeilla informaatioagentteja.
Keskustelut
Keskusteluiden (foorumit, uutisryhmät, keskustelulistat, chat-kanavat )seuraaminen on usein paras vaihtoehto erityisesti uuden tiedon etsintään ja tietyn alan ja aihepiirin kehityksen seurantaan. Keskustelut ja muu käyttäjäyhteisöjen synnyttämä ja jakama tietämys voi olla tiedonhaun kannalta erittäin hyödyllistä, täsmällistä ja ainutkertaista. Keskusteluiden sisältöä voidaan etsiä niiden arkistoista tai yleisillä hakupalveluilla (esim. Googlen uutisryhmähaku). Myös päivikirjamaiset tai keskustelunomaiset web-blogit ovat suosittuja tiedonlähteitä Ks. Keskusteluiden haku ja Uutisten ja blogien haku.
Seurantapalvelut
Pääsääntöisesti maksullisia palveluita, joiden avulla voidaan seurata systemaattisesti tiettyä alaa. Nämä palvelut ovat yleensä varsin monipuolisia ja kehittyneitä ja suurin niistä liittyy yritystiedon ja markkinoiden seurantaan. Myös portaaleissa, uutispalveluissa, verkkolehdissä ja artikkelitietokannoissa on usein seurantapalveluita. Internet-tiedonhaun keskeisiä seurantapalveluita ovat Search Engine Watchja Search Engine Showdown.
Informaatioagentit
"Informaatioagentit" ovat yleensä ohjelmia, jotka esim. automaattisesti valikoivat ja etsivät tietoa tai seuraavat sivuilla tapahtuvia muutoksia määriteltyjen profiilien mukaan. Kehittyneimmät agentit ovat oppivia ja ymmärtävät temaattisia karttoja. Yksinkertaisemmat agentit ovat omalle työasemalle asennettavia ohjelmia, jotka mm. tekevät monihaun useista hakupalveluista ja seuraavat sivujen muutoksia ja ovat usein ajastettavissa. Ks. Search Engine Watch: Search Utilities.Osin tai täysin automaattisesti luodut "tietopalvelut" ovat nekin eräänlaisia agentteja. Uusimmissa selaimissa on myös informaatioagentteihin viittaavia hakuominaisuuksia.
Hajautetut järjestelmät
Esimerkiksi musiikkitiedostoja (mp3) voidaan etsiä käyttäjien tietokoneista (esim. FastTrack, Gnutella).
Kirjastojen verkkotietopalvelut
Myös Internet-tiedonhaussa kannattaa kääntyä kirjastojen tietopalveluiden puoleen. Kirjastot yhdistävät laajat painetun aineiston kokoelmat ja siihen liittyvän tietämyksen Internet-tiedonhakuun. Kirjastoilla on yhteinen Kysy kirjastonhoitajalta -verkkotietopalvelu. Ks. Kirjastojen verkkotietopalveluita
Muut tietopalvelut
Muita kuin kirjastojen tietopalveluita ovat esim. ExpertCentral ja Allexperts. Nämä palvelut perustuvat paljolti vapaaehtoisten vastaajien verkostoihin. Esim. Google tarjoaa maksullista tietopalvelua. Ks. Suomalaisia eri alojen kysy-palveluita.
Kirjastojen tietokannat ja erityistietokannat
Kirjastojen kokoelmatietokannat ovat yleensä vapaasti käytettävissä. Kirjastojen työasemilta on lisäksi käytettävissä viite- ja kokotekstitietokantoja, kuten Ebsco, Aleksi, Linnea-tietokannat sekä kansallisen elektronisen kirjaston FinELibin tietokannat. Ks. tarkemmin Kirjastot-kanava.Internet-verkon kautta on tavoitettavissa satoja tuhansia eri alojen tietokantoja ja hakupalveluita, joiden sisältöä ei ole indeksoitu yleisten hakuohjelmien tietokantoihin. Ks. esim. CompletePlanet.
Lähteet