Infos 2000 - Home Úvod   Obsah   Abstrakt   Summary   Zusammenfassung    Zoznam

Nové stratégie vo vyhľadávaní informácií pre rok 2000
Soňa MAKULOVÁ

Úvod

Máloktorá oblasť ľudského poznania prechádza takými zmenami ako svet internetu. Jeho globálny charakter a enormný nárast núti vedcov stále inovovať a vyvíjať nové nástroje navigovania a vyhľadávania informácií. Je to dané aj tým, že webové stránky vyhľadávacích nástrojov patria k najnavštevovanejším a majú pekné zisky z predaja reklamného priestoru. Platí priama úmera: ak stránka ponúka sofistikované možnosti vyhľadávania informácií, je navštevovanejšia a má lepšie možnosti na predaj reklamného priestoru. Cieľom predloženej štúdie je analyzovať súčasné trendy vo vyhľadávaní informácií v internete a načrtnúť niektoré nové stratégie vo vyhľadávaní informácií pre rok 2000.

Niektoré údaje o náraste internetu a webových stránok

Je to neuveriteľné, ale v januári 2000 obsahoval internet 72 398 092 hostiteľských počítačov oproti 43 230 000 presne pred rokom. S nárastom hostiteľských počítačov úzko súvisí aj nárast webových stránok. Dr. Steve Lawrence a Dr. C. Lee Giles z NEC Research Institute of Princeton, N. J. vykonali vo februári 1999 známy prieskum týkajúci sa informácií vo webe. Podľa výsledkov prieskumu WWW obsahoval vo februári 1999 približne 800 miliónov stránok oproti 320 miliónom v decembri 1997. K závažným zisteniam patrilo, že najviac využívaných 11 prieskumových strojov pokrývalo približne iba 42 % webového priestoru a 335 milónov stránok, čo je iba 42 % z celého webu oproti 60 % v roku 1997.

V januári 2000 spoločnosť Inktomi a NEC Research Institute ukončili ďalší výskum, podľa ktorého web obsahoval viac ako jednu miliardu jedinečných webovských stránok a 4 951 247 webových sídiel. Uvádzam niektoré ďalšie zaujímavé zistenia (Inktomi Webmap http://www.inktomi.com/webmap/). Najväčšou doménou je com (54,68 %), za ňou nasleduje doména net (7,82 %), edu (6,69 %), org (4,35 %), gov (1,15%) a mil (0,17 %). O tom, že prevládajúcim jazykom vo webe je angličtina, svedčí skutočnosť, že až 86,55 % dokumentov je v jazyku anglickom. Najčastejším názvom stránky je contact.html a pravdepodobne najväčší počet 751 974 spojení vedie na stránku Yahoo (http://www.yahoo.com).

 

Vývoj vyhľadávacích nástrojov internetu

S nárastom používateľov internetu bolo potrebné riešiť problém organizovania a vyhľadávania informácií. Problematika vývoja aj kategorizácia vyhľadávania informácií v prostredí internetu je podrobne analyzovaná v štúdii Informačný prieskum v prostredí globálnych počítačových sietí. Problémy, východiská, postupy (Makulová 1999 a).

O prvých prieskumových strojoch sa môžeme dočítať v odbornej literatúre približne pred piatimi rokmi v roku 1994. Boli logickým dôsledkom nárastu webových stránok, čo veľmi sťažovalo ich vyhľadávanie. Už pred prieskumovými strojmi sme mohli pozorovať prvé pokusy o organizovanie informácií v internete. Išlo predovšetkým o systém gopherov, ktoré umožňovali prostredníctvom ponukových zoznamov jednoduchšie surfovanie po internete. Celé uplynulé roky boli poznačené súperením o čo najväčšiu bázu dát. V máji 1999 sa objavil nový prieskumový stroj FAST, ktorý už za dva mesiace indexoval najväčšiu časť webovského priestoru.

V súčasnosti sme svedkami neustáleho vývoja a zdokonaľovania prieskumových strojov vzhľadom na spomínané zisky z predaja reklamného priestoru. Je to jeden z dôvodov, prečo spoločnosti prevádzkujúce prieskumové stroje sú náchylné podliehať mnohým módnym zmenám. V roku 1996 a 1997 väčšina strojov pridávala k možnosti jednoduchého vyhľadávania aj rozšírené vyhľadávanie (advanced). V roku 1998 predstavili možnosť personalizácie vyhľadávania, čo bola predovšetkým pre skúsených rešeršérov významná pomôcka. Posledným módnym hitom je transformácia prieskumových strojov do webových portálov. Portály patria k nesmierne cenným zdrojom informácií. Portál môže obsahovať tisícky strán a stovky ďalších užitočných nástrojov. Vzhľadom na to, že predstavujú pomerne nový trend, veľa používateľov ešte nedokáže využiť všetky možnosti, ktoré ponúkajú. K nesmierne užitočným nástrojom patrí systém Traffick.com (http://www.traffick.com), ktorý predstavuje vynikajúcu vstupnú bránu k webovým portálom.

V minuloročnom príspevku na seminári INFOS ´99 Vývoj systémov vyhľadávania informácií v prostredí internetu (Makulová 1999 b) sme analyzovali veľkosť indexu najviac využívaných prieskumových strojov z konca januára 1999. V nasledujúcej tabuľke uvádzame veľkosti indexu prieskumových strojov pred rokom a v januári 2000.

Prieskumový stroj FAST GG AltaVista NL Excite Inktomi
veľkosť (mil. stránok) 150 120 110
(január 1999)
veľkosť (mil. stránok)
(február 2000) 300 254 250 211 214

Ako vidieť z tabuľky, v januári 1999 viedla AltaVista, za ktorou nasledoval Northern Light a Inktomi (podporuje HotBot a MSN Search). Zatiaľ čo roky 1997 a 1998 boli poznačené súperením o najväčší index medzi AltaVista a Inktomi, rok 1999 je v znamení boja medzi systémemi FAST, Northern Light, Google (GG) a AltaVista. O dynamike zmien v oblasti prieskumových strojov nás presvedčia údaje z 3. februára 2000. V roku 1999 sa na scéne objavil nový prieskumový stroj FAST (http://www.alltheweb.com), ktorý už vo februári uvádza veľkosť indexu až 300 miliónov stránok, nasleduje Google (254 miliónov stránok) a AltaVista (250 miliónov stránok).

Ak ale predpokladáme, že podľa spomínaného výskumu obsahoval web v januári vyše miliardy webových stránok, aj prieskumový stroj FAST nepokrýva ani tretinu webového priestoru. V odbornej literatúre sa objavuje termín neviditeľný web (invisible web). Prečo prieskumové stroje nedokážu indexovať viac ako dve tretiny webového priestoru? Je to dané tým, že prieskumové stroje nedokážu indexovať dynamicky meniace sa stránky (informácie sa generujú z bázy dát), prístup na niektoré stránky je chránený heslom, na pripojenie sa do online katalógov knižníc sa musíme zalogovať a až potom máme prístup k ďalším generovaným informáciám, niektoré prieskumové stroje neindexujú rámce, obrázkové mapy a pod., veľa prieskumových strojov má obmedzenie na počet indexovaných stránok z určitej domény, väčšina prieskumových strojov preferuje indexovanie populárnych stránok.

K najznámejším systémom monitorujúcim neviditeľný web patrí Direct Search (http://gwis2.circ.gwu.edu/~gprice/direct.htm), ktorý udržiava Gary Price z Gelmanovej knižnice Univerzity Georga Washingtona. Stránka poskytuje vyše tisíc anotovaných spojení k interaktívnym bázam dát. Ďalej je to Invisible Web Catalog spoločnosti Lycos. Ide o sprievodcu po takmer 7 000 bázach dát, ktoré by podľa technológov spoločnosti IntelliSeek skoro mali dosiahnuť hranicu 10 000 báz dát. Nájdeme ho na adrese http://dir.lycos.com/Reference/Searchable_Databases/.

WebData.com (http://www.webdata.com/) predstavuje databázový portál špecializujúci sa na kategorizáciu a vyhľadávanie online báz dát v internete s anotovanými spojeniami aj recenzovanými prehľadmi báz dát.

K ďalším užitočným sprievodcom po bázach dát v internete patrí systém Infomine (http://infomine.ucr.edu/search.phtml) University of California s prístupom k vyše 15 000 bázam dát, ktoré predstavujú bohatý informačný zdroj predovšetkým pre akademickú komunitu, a AlphaSearch (http://www.calvin.edu/library/searreso/internet/as/) ako vynikajúca brána k tisíckam ďalších báz dát v internete.

S vylepšovaním webových technológií je trendom upúšťať od statických webových stránok a sprístupňovať obsah v bázach dát, čo bude viesť k čoraz zložitejšiemu vyhľadávaniu webových stránok. Dôvody, ktoré vedú k neviditeľnému webu, ako aj metainformačné systémy internetu, ktoré ho monitorujú, boli podrobne opísané v štúdii Nové smery vyhľadávania informácií v internete (Makulová 1999 c).

V súčasnosti je viac jako jasné, že problém vyhľadávania informácií v internete nevyriešia prieskumové stroje, aj keď monitorujú ďaleko väčšiu časť webového priestoru ako adresáre. Výhodou adresárov je ľudský faktor pri triedení a klasifikácii informácií, ktorý však nestačí držať krok s neuveriteľným nárastom internetu. V súčasnosti sme svedkami novej stratégie k organizácii informácií v internete. Je založená na hodnotení a triedení zdrojov pomocou ľudského faktora. Jedným zo systémov využívajúci tento prístup predstavuje systém Open Directory Project (OPD), ktorý si podrobnejšie opíšeme.

 

Open Directory Project (OPD)

Open Directory predstavuje nový prístup k organizácii informácií v internete. Jeho vznik sa datuje 5. júnom 1998, keď si Rich Skrenta a Bob Truel sklamaní  mnohými mŕtvymi spojeniami a príliš dlhým časom na zaradenie sa do systému Yahoo uvedomili nutnosť zmeny. Bolo jasné, že vzhľadom na viac ako 100%-ný nárast webu ho ani prieskumové stroje ani adresáre s malým počtom editorov nedokážu monitorovať. Cieľom Open Directory Project je vytvoriť najúplnejší adresár webu v spolupráci s veľkým počtom externých redaktorov. Sloganom ODP je ”humans do it better”, čiže pri zaraďovaní a kontrole webových sídiel do projektu sa spoliehajú predovšetkým na ľudský faktor. Prvý názov systému bol Gnuhoo (kombinácia Gnu a Yahoo), o rok neskôr sa premenoval na Open Directory Project. Adresár sa využíva čoraz viac, predstavuje integrálnu súčasť prieskumových strojov HotBot, Lycos a Netscape, ako aj mnohých ďalších vyhľadávacích nástrojov. Je na URL adrese http://www.dmoz.org. Tvorcovia správne vychádzajú z predpokladu, že s nárastom webu súvisí aj nárast jeho používateľov, z ktorých mnohí tvoria experti z určitých vedných disciplín. Títo sa môžu starať o monitorovanie určitej časti webového priestoru tak, aby bola zaručená vysoká kvalita obsahu. Ide o otvorený projekt, ktorý dáva možnosť prispievať každému, kto má záujem. 20. januára 2000 systém monitoroval 1 435 523 webových sídiel na základe spolupráce s 21 725 redaktormi. Adresár obsahoval informácie v 209 984 kategóriách. O mesiac neskôr, presne 21. februára 2000, boli štatistiky nasledovné: 1 523 393 webových sídiel, 22 555 redaktorov, 224 133 kategórií. Na nasledujúcom obrázku vidíte vstupnú obrazovku systému.

 
Obr. Vstupná obrazovka systému Open Directory Project

Ako vidieť už zo vstupnej obrazovky systému, celý systém sa skladá z 15 kategórií a neobsahuje žiadne iné aktivity také príznačné pre webové portály. Už priamo z titulnej webovej stránky systém ponúka možnosť stať sa redaktorom tohto jedinečného systému. Cieľom projektu je vytvoriť najrozsiahlejší adresár webu pri externej spolupráci veľkého množstva dobrovoľníkov v duchu demokratického princípu internetu. V krátkom čase existencie systém získal 20 prestížnych ocenení, čo svedčí o jeho kvalite a inovačnom prístupe k organizovaniu informácií vo webe.

 

Záver

Podľa výsledkov mnohých výskumov je v súčasnosti najväčším problémom v internete nájsť kvalitnú relevantnú informáciu. Táto studnica bohatstva bude prístupná internetovej verejnosti iba vtedy, ak dokáže vzájomne spolupracovať a riešiť enormný nárast internetu novými metódami prístupu a k organizovaniu informácií vo webe. Systém Open Directory Project je toho vynikajúcim príkladom.

 

Literatúra

About the Open Directory Project http://www.dmoz.org/about.html

Internet Domain Survey, January 2000 http://www.isc.org/ds/WWW-200001/report.html

Sherman, Chris. Best of the Net for 1999 http://websearch.about.com/internet/websearch/library/weekly/aa011400a.htm

Sherman, Chris. Inside the Open Directory http://websearch.about.com/internet/websearch/library/weekly/aa081799.htm

Inktomi Webmap http://www.inktomi.com/webmap/

Lawrence, Steve - Giles, Lee. 1999. Accessibility and Distribution of Information on the Web. Nature. Vol. 400. 8 July. 1999. s. 107 - 109.

Makulová, Soňa. Informačný prieskum v prostredí globálnych počítačových sietí Problémy, východiská, postupy. 1999 a. - In: Zborník Filozofickej fakulty Univerzity Komenského : Knižničná a informačná veda : Roč. 18. - Bratislava : Univerzita Komenského, 1999, s. 79 - 95.

Makulová, Soňa. Vývoj systémov vyhľadávania informácií v prostredí internetu. 1999 b. - In: INFOS ´99. Zborník z 29. informatického seminára, ktorý sa konal v dňoch 19. - 22. apríla 1999 v Starej Lesnej. Bratislava : Spolok slovenských knihovníkov, 1999, s. 57 – 64.

Makulová, Soňa. Nové smery vyhľadávania informácií v internete. 1999 c. - In: Internet v riadení a obchode firmy. Zborník z 5. medzinárodnej konferencie konanej v dňoch 11. – 12. októbra 1999 v Bratislave. Bratislava : EL&T, 1999, s. 39 – 46.

Príspevok bol spracovaný v rámci grantového projektu VEGA 1/5259/98.

Na začiatok stránky

Úvod      Obsah    Abstrakt     Summary     Zusammenfassung      Zoznam