Johdanto | Internetin sisällön laajuus | Internetin sisältö | Internetistä tiedonlähteenä
Internet on yksinkertaisesti määritettynä maailmanlaajuinen, toisiinsa yhteydessä olevien tietokoneiden avoin verkko. Internetin rakennetta tiedonlähteenä voidaan kuvata kaksitasoisena:
Informaationsiirtoverkko: - Kaikki digitaalinen informaatio on siirrettävissä verkossa. - WWW-hypertekstijärjestelmä: informaation välitys ja linkittäminen. - Maailmanlaajuinen, vapaa kommunikaatiokanava (sähköposti, keskustelut) - Tietokoneohjelmien ja tiedostojen siirto ja välitys. - Yhdyskäytävät (haku- ja ylläpitoliittymät) erillisiin tietokantoihin. - Myös paperijulkaisujen siirtokanava (digitaalinen siirto, tulostaminen paperille).
Informaatiovarasto: - Erittäin suuri, hajautettu ja linkitysrakenteeseen perustuva "kokotekstitietokanta", jossa informaatio on heti saatavilla kaikissa eri muodoissaan. - Vapaa, tehokas ja rajaton julkaisukanava, jossa informaation jakelukustannukset ovat alhaiset. Hajautettu tiedontuotanto. - Uuden, ajankohtaisen, ajantasaisen, vuorovaikutteisen ja "matalan julkaisukynnyksen" informaation julkaisukanava. - Informaation sisältö ja sijainti muuttuvaa. - Informaation ajantasaisuus, laatu ja luotettavuus vaihtelevat suuresti ja kuvailutiedot ovat puutteellisia. - "Demokraattinen tiedonhaku": vapaa julkaisuoikeus, vapaa ja suora linkitys sivujen välillä, automaattinen indeksointi, virtuaalisen yhteisöllisyyden hyödyntäminen tiedonhaussa, tietämyksen tasa-arvoinen vaihto. - Markkinavetoinen ja käyttäjälähtöinen tiedonhakupalveluiden kehittyminen, tiedonhaun, aineistomuotojen ja käyttötapojen nopea kehitys. - Helppokäyttöiset, räätälöitävät, oppivat, automatisoitavat ja vuorovaikutteiset hakupalvelut, relevanssin määrittyminen myös informaation käytön ja viittausten mukaan. - Kirjastojen kokoelmien ja osaamisen helppo saavutettavuus. - Käyttöliittymät tietoon vs. tietokantakeskeinen tiedonhaku. - Eri tiedonlähteiden yhdistäminen samaan hakuliittymään: monihaut. - Suurin osa aineistosta on maksutonta ja kaupallista informaatiota.
Internetin sisältämän informaation määrän (tiedostojen, sivujen, sivustojen, palvelinten ym.) laskeminen ei ole yksinkertainen tehtävä. Ohessa on esitelty viime vuosien keskeisten tutkimusten tuloksia Internetin sisällön laajuudesta.
Nec Research Insititute 1999: - Noin 800 miljoonaa julkista sivua. (Mukaan ei ole laskettu suojattuja ja piilotettuja sivuja, sivuja, joissa on indeksoinnin esto, eikä dynaamisesti tietokannoista luotuja sivuja.) - Noin 2,8 miljoonaa palvelinta, joissa julkisia sivuja, sivuja palvelimessa keskimäärin 289. - 2500 palvelimen otos Lawrence & Giles: Accessibility and Distribution of Information on the Web. Nature, 400, s. 107-109, 1999.
Cyveillance 2000: - Yli 2,1 miljardia julkista www-sivua (rinnakkaiset osoitteet eivät ole luvussa mukana). - Kasvu 7,3 miljoonaa sivua päivässä. - Linkityksen analyysin perustuva jatkuva seuranta.Sizing the Internet / Cyveillance Inc.
Cyveillance-tilastokooste: - Sivuja: 6 yli miljardia. - Rekisteröityjä verkkotunnuksia (domains): 45 miljonaa. - Toimivia verkkotunnuksia, joissa on enemmän kuin 50 sivua sisältöä: 2,5 miljoonaa. - Uutisryhmiä: yli 65 000. - Chat-ryhmiä: yli 80 000. - Foorumeita: yli 1 miljoonaa. - P2P: 10 verkkoa, yli 6 miljoonaa käyttäjää (tiedostojen vaihto käyttäjän koneelta toiselle). - Roskapostia n. 70 % postin määrästä, - Cyveillance Quick Stats
Deep Web 2000-2002: - Tietokantapohjaiset, dynaamisesti luodut verkkosivut ja tietokannat: noin 550 miljardia dokumenttia (viitetietuetta). - Yli 200 000 sivustoa (tietokantaa). - 7500 terabittiä informaatiota. - 95 prosenttia julkisia dokumentteja. - 17 000 tietokannan analyysi LexiBot-tekniikalla.The Deep Web: Surfacing Hidden Value / BrightPlanet.com.
OCLC 2002: - Sivustoja 9 040 000 (rinnakkaiset osoitteet eivät ole luvussa mukana). - Julkisia sivustoja 3 080 000, suojattuja sivustoja 2 ,489 000, "keskeneräisiä" sivustoja 3 143 000.OCLC:n Web Characterization Project.
Rekisteröityjä verkko-osoitteita oli Internet-verkossa tammikuussa 2005 317 646 084( Internet domain survey)
Muita Internetiin ja tietoyhteiskuntaan liittyviä tilastoja: Tieteen linkkitalo
Internetin sisällön koon tutkimuksissa on pyritty myös selvittämään sisällön jakautumista aihepiirien, tuottajien, julkaisumaan ja -kielen mukaan.
Julkisista sivuista on: - kaupallista informaatiota 83 %, - tieteellistä tietoa, koulutukseen liittyvää tietoa 6 %, - lääketieteellistä ja terveydenhoitoon liittyvää tietoa 2,7 %, - yksityishenkilöiden sivuja 2,4 %, - yhteiskuntatieteellistä tietoa 1,8 %, - pornoa 1,5 %, - yhteisöjen sivuja 1,4 %, - julkishallinnon tuottamaa tietoa 1,3 %, - uskonnollisia sivuja 0,8 %.
Sivujen jakaantuminen domainien mukaan: - .com 55 % - .net 8 % - .edu 7 % - .org 4,4 % - .gov 1,2 % - .mil 0,2 %
Lähde: Nec Research Insititute 1999.
OCLC:n tutkimuksen mukaan julkisten sivustojen tuottajat jakautuvat maittain seuraavasti 2002:
Yhdysvallat 55 % Saksa 6 % Japani 5 % Englanti 3% Kanada 3 % Italia 2 % Ranska 2 % Hollanti 2 % Muut 18 % Tuntematon 4%
Sivustojen julkaisukieli vuonna 2002 saman tutkimuksen mukaan:
Englanti 72% Saksa 7 % Japani 6 % Espanja 3 % Ranska 3 % Italia 2 % Hollanti 2 % Kiina 2 % Korea 1 % Portugali 1 % Venäjä 1 % Puola 1 %
Lähde: OCLC.
Nua Internetin mukaan vuonna 2002 maailmassa oli arviolta 605 200 000 Internetin käyttäjää. Käyttäjät ( määritelmä ) jakautuivat maanosittain seuraavasti:
Eurooppa 190,91 milj. Aasia - Oseania 187,24 milj. Pohjois-Amerikka 182,67 milj. Keski- ja Etelä-Amerikka 33,35 milj. Afrikka 6,31 milj. Lähi-Itä 5,12 milj.
Lähde: Nua Internet How Many Online
Deep Web-tutkimuksessa selvitettiin yleisten hakupalveluiden ja www-sivujen automaattisen indeksoinnin ulkopuolelle jäävien tietokantojen ja tietokantapohjaisten palveluiden sisältämän informaation määrää. Tutkimuksessa löydettiin yli 200 000 tietokantaa tai tietokantapohjaista palvelua.
Tutkimuksen mukaan: - "Deep Web" (eli tietokannat ym.) sisältää 400-550 kertaa enemmän informaatiota kuin muu Internet. - Tietokantojen käyttö on keskimääriin 50 prosenttia suurempaa ja niiden sisältämän laadukkaan informaation määrä on 1000-2000 kertaa suurempi verrattuna muuhun Internetiin. - Tietokantojen sisältö kasvaa selvästi muuta Internetiä nopeammin. - Yli puolet tietokannoista on erityisalojen tietokantoja, 13 prosenttia sisäisiä sivustoja, 11 prosenttia artikkeleita. - 60 laajinta tietokantaa sisältää huomattavasti enemmän informaatiota kuin koko muu verkko. Yli gigatavun kokoisia tietokantoja ovat:
National Climatic Data Center (NOAA)NASA EOSDIS National Oceanographic (combined with Geophysical) Data Center (NOAA) Alexa Right-to-Know Network (RTK Net) MP3.com Terraserver HEASARC (High Energy Astrophysics Science Archive Research Center) US PTO - Trademarks + Patents Informedia (Carnegie Mellon Univ) Alexandria Digital Library JSTOR Project
The Deep Web: Surfacing Hidden Value / BrightPlanet.com
"Deep Webin" sisältöä voidaan etsiä erityisillä hakupalveluilla, esim. CompletePlanet ja Invisible-web.net.
Internet mahdollistaa tiedonhaun, joka ylittää niin maantieteelliset, institutionaaliset kuin eri tasoisten informaatiovarastojen ja eri aineistomuotojen väliset rajat. Internet on hajautettu, vapaaseen linkitysrakenteeseen perustuva verkko, jota ei ole alunperin rakennettu tai organisoitu järjestelmällistä tiedonhakua varten. Internetiin ei ole yhtä kattavaa hakemistoa, eivätkä hakuohjelmat läpikäy koko verkon julkista sisältöä - Internetissä ei ole yhtä keskustietokonetta eikä keskitettyä portinvartijamekanismia.
Tänä päivänä Internet sisältää informaatiota kaikilta aloilta ja kaikista aiheista. Karkeasti arvioiden Internetistä löytyy helposti:
- tiedonhakupalvelut, - kaikki tietotekniikkaan ja erityisesti internetiin itseensä liittyvä aineisto, - kaupalliset palvelut, - populaarikulttuuri ja viihde, - mielipiteet, - yhteystiedot, kotisivut, yksityishenkilöiden tuottamaa aineistoa, - luonnontieteet ja tekniikka, - uudet asiat, ajankohtaistieto (mm. uutiset, sää, urheilu, pörssikurssit), - Yhdysvaltoihin liittyvät asiat, - julkiset palvelut.
Suurin osa Internetin sivuista ja palveluista ovat ilmaisia. Pääasiallinen sivujen tuotannon rahoitustapa on mainostaminen, muu vastaava tuki sekä verovarat. Maksullisia palveluita ovat lähinnä erilaiset tiedonjalostuspalvelut, sanoma- ja aikauslehtien arkistot, ns. aikuisten palvelut sekä useat tietokannat ja hakuteostyyppiset palvelut. Tietokantoihin ja muuhun lisensoituun aineistoon on usein vapaa pääsy kirjastojen asiakastyöasemilta.
Internetin yleisiä heikkouksia tiedonlähteenä
Informaation suuri määrä: - suuret tulosjoukot, informaation suodattamattomuus ja järjestämättömyys, - automaattisen indeksoinnin ja informaationkäsittelyn rajoitukset.
Vapaa julkaisu- ja kommunikaatiokanava: - matala julkaisukynnys, - aineisto on hyvin eritasoista, - tiedon luotettavuus ja ajantasaisuus vaihtelevat suuresti.
Hajautettu tiedontuotanto: - julkaisutiedot puutteelliset, - ei yhtenäisiä julkaisustandardeja, - aineistoa liitetään, muutetaan, poistetaan ja kuvaillaan vapaasti, - aineiston pysyvyys, säilytys ja arkistointi epävarmaa.
Ei-kontrolloitu aineiston kuvailu: - ei bibliografista "kontrollia" millään organisaatiolla, - kuvailu on satunnaista, epäyhtenäistä, puutteellista, - html-kielen kentät ovat muodostaneet keskeisen "luettelointiformaatin". - Peruskuvailutietoja sisältäviä meta-kenttiä ei ole läheskään kaikilla sivuilla, Dublin Core -formaatista puhumattakaan.
Verkkoaineiston luetteloinnin yleisiä ongelmia: - informaation suuri määrä, - kuvailutietojen ajantasaisuuden varmistaminen, - aineiston valinta ja kokoelman profilointi, - aineiston luotettavuuden arviointi, - audiovisuaalisen ja multimedian kuvailun vaikeus.
Lähteet