Infos 2000 - Home Úvod   Obsah   Abstrakt   Summary   Zusammenfassung    Zoznam

Elektronické archívy vědecké literatury a jejich integrace
Eva BRATKOVÁ

1. Komunikace vědeckých poznatků v elektronickém síťovém prostředí

Komunikaci informací ve vědě očekávají s nástupem nového tisíciletí a století, jak předvídají mnozí odborníci [lit. 1-7] i jak signalizují již některé novodobé formy a systémy elektronického publikování v prostoru Internetu, zřejmě rozsáhlé proměny. Je zajímavé, ale i příznačné, že o nové směry a způsoby komunikace vědeckých informací, k nimž patří elektronické archívy vědecké literatury (silně podporovaná forma), elektronické diskusní skupiny apod., se zasazují především vědci. Uveďme například fyzika P. Ginsparga (tvůrce elektronického archívu arXiv.org), matematika A. Odlyzka, počítačového vědce C. Lagoza psychologa S. Harnada (tvůrce archívu CogPrints) a jiné. Společným jmenovatelem jejich snah, teoretických i praktických, je postupné prosazování novodobé, z ekonomického hlediska efektivní, rychlé a bezplatné komunikace poznatků z aktuálních výzkumů mezi vědci navzájem, resp. mezi vědci a jinými skupinami uživatelů prostřednictvím specifických systémů dostupných v počítačové síti. Existující analýzy současné situace a zejména vize jednotlivých odborníků se liší, pokud jde o charakter, místo a význam nových forem komunikace v dosavadní i budoucí struktuře systému celkové komunikace vědeckých poznatků ve společnosti. Zaznívají jak radikálnější názory, jejichž obsahem je větší či menší popírání existence vydavatelské sféry zajišťující publikování vědeckých časopisů nebo dokonce i existence vědeckých knihoven v budoucí elektronické komunikaci, tak názory umírněnější, které zařazují nové formy k alternativám dosavadního standardního řetězce komunikace vědeckých informací, jenž, jak známo, zahrnuje vydavatele vědeckých časopisů, knihovny, producenty bibliografických informací i jejich zprostředkovatele (databázová centra, firmy CD-ROM aj.).

Hlavní formou pro komunikaci nových vědeckých poznatků v období papírových nosičů byl především odborný časopis. Vědecké poznatky se k uživatelům dostávaly přes časově zdlouhavý řetězec činností zahrnující jak jejich přípravu včetně důležité recenzní činnosti, výrobu a distribuci ve sféře komerčních vydavatelů, tak jejich získávání, zpracování, ukládání a zpřístupňování ve sféře knihovnicko-informačních institucí. Pro zjišťování komplexnějších informací o dokumentech pak společnost vytvořila další, v období papírové komunikace důležité, bibliografické nástroje (referátové časopisy aj.). Automatizace těchto nástrojů do podoby bibliografických databází zpřístupňovaných online či na CD-ROM přispěla ke zlepšení a zrychlení celkové komunikace, nicméně cesta vědeckého poznatku zůstala stále dlouhá a také, jak často zdůrazňují výše uvedení odborníci, značně nákladná (viz např. rozbor A. Odlyzka [6]). Ekonomická stránka komunikace vědeckých informací je jedním z hlavních argumentů odborníků snažících se prosadit její nové, racionální a v podstatě levné způsoby či formy. Vědecké komunity, zejména na univerzitách, u nás i v zahraničí (zejména v rozvojových zemích), často trpí nedostatkem odborné časopisecké literatury nebo bibliografických databází, na které se z důvodů vysokých cen nedostává z rozpočtů univerzitních knihoven. Jsou knihovny (mohu uvést příklad vlastního univerzitního pracoviště), které nemají téměř žádné prostředky na zahraniční vědecké časopisy, o bázích dat ani nemluvě. Kritikové tohoto neutěšeného stavu poukazují na specifickou, situaci, kdy vědci, badatelé či univerzitní učitelé, kteří tvoří nové poznatky v rámci vědeckého výzkumu a předávají je do vědeckých časopisů k publikování jako ”dar” (zdarma a bez honoráře; totéž se týká recenzentů rukopisů či preprintů článků), potřebují k získání vědeckých poznatků, které tvoří jiní vědci, značné prostředky na jejich získání. V rámci papírové komunikace poznatků byla cena publikací zdůvodňována potřebnými náklady na jejich přípravu, výrobu a distribuci. V současné době komunikace informací přes síť Internet, kdy se do popředí zájmu dostaly časopisy elektronické, jejichž výrobní a distribuční náklady jsou relativně nízké (píše se až o 90% úsporách), se mnozí ptají, kdo vlastně dnes profituje ze zisků z prodeje za toto informační zboží, jehož ceny se dokonce mnohdy zvyšují [4].

Jedním z podstatných faktorů, které přispěly ke vzniku novodobých forem komunikace vědeckých informací v rámci sítě Internet, byla i rychlost předávání nového poznatku od autora k uživateli. V tradičních podmínkách trval a i nadále trvá v řadě oborů velmi dlouho (i dva roky), než se nová informace dostane na stůl příslušnému uživateli. Značný podíl na tom má i recenzní činnost ve vydavatelské sféře, která v některých oborech ale hraje mimořádnou roli (matematika, fyzika aj.). I proto se mezi vědci již dávno rozvinula forma poskytování tištěných preprintů s novými získanými poznatky. Význam této literatury, jejíž příprava a distribuce byly v papírové formě nákladné, je velký. Preprint článku do časopisu se i proto, jakmile se rozvinula technologie komunikace informací na Internetu, stal předmětem velkého zájmu vědců, kteří připravili a zprovoznili první systémy elektronických archívů tohoto typu vědecké literatury, poskytované tentokráte zdarma a to každému uživateli, který o ni projeví zájem. Dá se říci, že preprint díky Internetu nabyl nových rysů i významu ve vědecké komunikaci (může se v archívu například vyskytovat v několika verzích, jež vznikají v průběhu několika měsíců na základě připomínek jiných vědců). Archív preprintů budovaný několik let podává unikátní svědectví o rozvoji dané disciplíny v čase. Plné texty preprintů nebo i dalších typů vědeckovýzkumné literatury (především z exaktních disciplín) jsou dostupné přes Internet zdarma jednak na nespočetných distribuovaných FTP serverech, jednak v centralizovaných, dobře organizovaných elektronických (digitálních) archívech. Další text referátu je věnován základní charakteristice stavu i dalšímu rozvoji centralizovaných elektronických archívů.

 

2. Archívy pro elektronické tisky a jejich aktuální stav

Pojem ”elektronický archív” centralizovaného typu představuje systém, k jehož základním funkcím patří: 1. ukládání elektronických textových informací (popřípadě i jiných typů informací) do subsystému označovaného výrazem ”repozitář” (”digitálního skladiště”), a to přímo jejich tvůrci, a 2. vyhledávání a distribuce těchto digitálních informací jejich uživatelům. K provozování systému je nutný potřebný výkonný počítač, spolehlivý aplikační program a zejména počítačová síť, která umožňuje přístup k archívu jak pro autory, tak uživatele. Elektronické archívy jsou považovány za jednu z forem elektronického publikování [3, kap. 2] - v tomto směru vlastně mohou nahrazovat tradičního vydavatele. Lze je však také považovat za typ informačního systému s digitálním fondem se zdůrazněním depozitní (archivní) funkce. V tomto směru mohou nahrazovat tradiční knihovnu (je pravdou, že na WWW se často tyto systémy objevují v seznamech digitálních knihoven). Elektronické archívy jsou zatím specializované na určité vědní obory (dominují přírodní vědy), perspektivně ale dojde k jejich účelnému virtuálnímu propojování. Přístup k archívům je zcela volný a zdarma. Nezbytné náklady na provoz systému v dané chvíli zpravidla sponzorují a podporují státní organizace nebo nadace, tato otázka je však otevřená. Specifickým rysem archívů jsou autoři (tvůrci), kteří do něho ukládají dokumenty a doprovodná metadata dle stanovených zásad a pravidel, a to na dobrovolné bázi (nejsou honorováni). Vedle základních metadat (informací o dokumentech) k  popisu těchto dokumentů hraje v systému důležitou roli identifikátor digitálních objektů, který zabezpečuje příslušný identifikační subsystém. Věcný popis dokumentů, který se liší podle velikosti a dílčí organizace archívu a také podle vědních oblastí, zahrnuje především abstrakta a různá třídění.

 

2.1 Průkopnický archív elektronických tisků ”arXiv.org”

Z mnoha hledisek unikátní elektronický archív vědecké literatury ”arXiv.org” (http://arXiv.org/ nebo http://xxx.lanl.gov/) vznikl v roce 1991 v Národní laboratoři v Los Alamos (LANL, New Mexico, USA). Je znám také pod zkratkou ”XXX”. Pokud jde o typ literatury, dominuje v archívu preprint článku, který může a nemusí být publikován v tištěném komerčním časopise. Trendem je rozšířit v budoucnu záběr typů dokumentů. Již nyní archív obsahuje i řadu konferenčních referátů, reprinty a dokonce i disertační práce. Provoz je financován a dosud podporován U.S. Department od Energy na bázi kontraktu a U.S National Science Foundation podle dohody, která je platná do září roku 2000. Otázka dalšího financování této významné aktivity v oblasti vědy se řeší.

Systém zahrnuje významné obory přírodních věd. Nejstarší (od r. 1991) a nejrozsáhlejší část tvoří celkem 12 dílčích archívů pro oblast fyziky. V r. 1992 byl zahájen provoz archívu pro matematiku, v r. 1993 pro nelineární vědy a v r. 1994 pro počítačovou vědu. Posledně jmenovaný archív má od září 1998 novou podobu: po dohodě tří významných amerických partnerů je budován kooperativní systém ”CoRR” (Computing Research Repository), a to na bázi osvědčeného programového systému archívu XXX (viz dále část 2.2).

Vstup systému představuje proces online uploadingu plného textu do zvoleného dílčího archívu včetně metadat. Tento proces zajišťují v systému registrovaní autoři, kteří si po odevzdání dokumentu ponechávají svá autorská práva. Editoři archívu kontrolují správné zařazování dokumentů do jeho dílčích částí nebo přidělené třídníky. Předávání dokumentů se realizuje buď přes WWW rozhraní, pomocí elektronické pošty nebo přes FTP. Specifikem systému je ukládání aktualizovaných či opravených verzí příslušné zprávy (viz záznam 2. verze preprintu na obr. č. 2).

Plné texty lze v systému ukládat v několika formátech. Prioritním požadovaným zdrojovým formátem je formát TeX a jeho různé varianty. Volba tohoto formátu je dána potřebou zápisu speciálních znaků a symbolů užívaných ve fyzice a matematice. Nově mohou autoři již také používat formát HyperTeX (rozšířená verze), která umožňuje vzájemné hypertextové navigování mezi texty či texty a záznamy. K dalším přijímaným formátům patří HTML (včetně obrázků ve formátu PNG nebo GIF), PDF a PostScript. Platí však zásada, že autor nesmí uložit formát PDF nebo PostSript, který byl připraven konverzí z původního formátu TeX. Obrazové informace lze ukládat ve formátech PostScript (kresby), JPEG (fotografie), PNG (nefotografický materiál) a GIF.

Podstatnou součástí ukládaných digitálních objektů jsou medatata. Záznamy jsou tvořeny v anglickém jazyce (stejně jako plné texty) a podle stanovených zásad v souladu s internetovou normou RFC 1807 (http://www.ietf.org/rfc/rfc1807.txt). Zahrnují následující metadata (viz také obr. č. 1):

  • Název (Title) - povinný prvek
  • Autoři (Authors) - povinný prvek
  • Poznámky (Comments) - volitelný prvek
  • Číslo zprávy (Report-no.) - povinný prvek, jde-li o dokument od autora z nějaké instituce
  • Předmětové třídění (Subject-class) - povinný prvek podle dílčího archívu
  • Informace o časopise (Journal-ref.) - doplňkové údaje o publikování dokumentu
  • Klasifikace MSC (MSC-class) - povinný pouze pro matematiku
  • Klasifikace ACM (ACM-class) - povinný prvek pouze v archívu počítačové vědy
  • Referát (Abstract) - povinný prvek.

Pro každý ukládaný dokument je generován jedinečný identifikátor (angl. Identifier nebo Handle), který se vyskytuje ve formě arch-ive/yymmnnn (například hep-th/9603067).

 Obr. č. 1: záznam metadat k preprintu konferenčního referátu uloženého v elektronickém archívu LANL s identifikátorem cs.DL/9908015 (uvedená syntax a forma zápisu je povinná)

K únoru 2000 měl archív LANL v repozitáři uloženo již zhruba 123.000 dokumentů (číslo nezahrnuje verze). Počet přírůstků za jeden měsíc vykazuje podle statistik vzrůstající tendenci (v poslední době 2.500 dokumentů). Roční přírůstek činí asi 25.000 dokumentů.

Elektronický archív má podle denně získávaných statistik značnou návštěvnost ze strany uživatelů z celého světa (průměrně 35.000 uživatelů denně). Počet spojení v posledním období se pohybuje kolem 120.000 denně.

Základní vyhledávání informací je realizováno přes index vytvářený na základě metadat. Počet selekčních údajů je racionální a operativní. Indexace plných textů není v archívu přímo realizována (takovou službu však poskytuje pro část archívu externí služba serveru CERN). Vyhledávat lze dvojím základním způsobem:

  • prohlížením seznamů záznamů (v dílčích archívech nebo tematických skupinách, v časově vymezených skupinách podle data uložení: přírůstky z posledního dne, týdne, měsíce a roku)
  • přímým vyhledáváním pomocí formuláře; selekčními údaji mohou být identifikátor, název, autoři, slova z abstraktu, číslo výzkumné zprávy, třídník, poznámky, název časopisu u publikovaného článku; prohledávat lze i celý záznam najednou; od září 1999 lze využívat základní booleovské operátory, podporováno je také vyhledávání frází, automatické rozšíření selekčního údaje aj.

Třetí a zcela nový způsob hypertextového vyhledávání dokumentů prostřednictvím citací se v současné chvíli v systému rodí. Tyto nové prvky vznikají na bázi kooperace s dalšími systémy v národním i mezinárodním měřítku (viz dále 3. část).

Úplné záznamy dokumentů zahrnují již v tuto chvíli řadu důležitých hypertextových odkazů, pomocí nichž lze navigovat mezi záznamy nebo k jejich množinám (viz obr. 2). Navigovat lze také přes hypertextový odkaz k záznamům jiných verzí téhož dokumentu (mají stejný identifikátor) nebo k seznamu záznamů dokumentů jednoho autora. Ze záznamu se lze po volbě výstupního formátu dostat k plnému textu. Podstatnou novinkou jsou funkční hypertextové odkazy ze záznamů citací v plném textu na záznamy citovaných dokumentů, pokud jsou součástí archívu. U některých záznamů jsou již také v abstraktu vidět hypertextové odkazy na jiné záznamy dokumentů uložených v archívu (viz obr. č. 2).

Důležitou novinkou je služba zobrazovaní jednak seznamu citovaných dokumentů v daném dokumentu, jednak seznamu citací na daný dokument, kterou zajišťuje externě systém známé databáze ”SPIRES-HEP” (http://www-spires.slac.stanford.edu/find/hep), provozované Stanfordskou univerzitou. Seznamy se vyvolávají z odkazů v záznamech (”refers to” a ”cited by” - viz taktéž na obr č. 2). Jde však o vlastnosti, které jsou předmětem dalšího zdokonalování v nových projektech.

Obr. č. 2: záznam revidované 2. verze preprintu článku (uložené v lednu 2000 do archívu ”hep-ph”) ve výstupním formátu s abstraktem

Texty dokumentů včetně abstrakt lze získat z archívu zdarma a ve více formátech. Jejich nabídka je ovlivněna vstupním formátem. Běžné je zobrazování plného textu ve formátu zdrojovém (varianty TeX), formátu PosScript nebo jiných formátech (DVI, PDF aj.).

Archív XXX LANL je zrcadlově kopírován na řadu dalších serverů v různých částech světa. Některé jeho specializované části jsou dostupné také prostřednictvím speciální služby (http://preprints.cern.ch/), kterou provozuje Dokumentační středisko Evropské organizace pro jaderný výzkum (CERN). Standardní výstupy a služby LANL jsou v tomto případě obohaceny o prohlížení nejnovějších dokumentů přes pro uživatele atraktivní JAVA aplet. Služba nabízí i extrahované obrázky z dokumentů, vyhledávání z plného textu dokumentu aj.

2.2 Spolupráce elektronického archívu s elektronickou knihovnou - systém CoRR

Bezesporu významnou fázi v rozvoji elektronického archívu XXX znamená kooperace s dalšími systémy, v tomto případě virtuální digitální knihovnou. Kooperace se týká digitálních dokumentů typu vědeckovýzkumných zpráv z oblasti počítačové vědy, které byly do té doby dostupné buď v řadě jednotlivých distribuovaných repozitářů (FTP archívů) v celosvětovém rámci nebo prostřednictvím virtuální digitální knihovny NCSTRL (Networked Computer Science Technical Reference Library, Cornell University), která zajišťuje propojení těchto distribuovaných fondů přes jednotný systém vyhledávání v indexech a distribuce dokumentů (http://www.ncstrl.org/). Vyhledávání informací v několika systémech po sobě bylo pro uživatele nevýhodné, a proto v roce 1998 po jednání a dohodě zástupců ACM, archívu XXX LANL a digitální knihovny NCSTRL vznikl a byl uveden do provozu nový kooperativní systém elektronického archívu pro obor počítačové vědy (http://xxx.lanl.gov/archive/cs/intro.html), jehož cílem je co nejrychlejší archivování výzkumných zpráv a preprintů v centrálním repozitáři a jejich okamžité zpřístupňování uživatelům. Nový archív dostal jméno ”CoRR” (Computing Research Repository) a je k dispozici na adrese: http://xxx.lanl.gov/archive/cs/intro.html.

Na základě implementace specifického protokolu (Dienst protocol) CoRR kombinuje otevřenou architekturu digitální knihovny NCSTRL se spolehlivými a osvědčenými technologickými praktikami přístupu (vstupy, ukládání i výstupy) do archívu LANL XXX. Tato architektura umožňuje integraci s jinými archívy.

CoRR provozuje repozitář, do kterého mohou všichni členové komunity nezávisle předkládat preprinty, reprinty, konferenční referáty a výzkumné zprávy. Zároveň CoRR nabízí uživatelům přívětivé rozhraní, pomocí něhož mohou v archívu vyhledávat i jiní uživatelé. Ti se mohou z druhé strany stát po registraci jeho novými autory.

Je zajímavé, že CoRR, který pracuje na bázi protokolu ”Dienst” pro komunikaci dat uvnitř systému, se stal zároveň součástí (je uzlem) digitální knihovny NCSTRL, tj. obsah archívu může být prohledáván jako kterýkoliv jiný repozitář účastníka knihovny NCSTRL.

Počet uložených dokumentů dosáhl od svého založení (1998- ) počtu 1200, z toho 900 jich bylo převedeno z původního archívu LANL XXX. Nové přírůstky v roce 1999 přibývaly zatím ne ve velkém objemu. Příčinou jsou především organizační problémy. Systém CoRR řeší v současné chvíli ještě následující okruhy problémů:

  1. Třídění dokumentů: příslušná společná komise musela rozřešit kompromisem otázku věcného pořádání dokumentů. ACM požadovala své třídění, které zahrnuje 100 kategorií uspořádaných hierarchicky ve třech úrovních, představitelé archívu XXX navrhli vlastní třídění s 33 základními kategoriemi. Autoři musejí prozatím zařadit svůj dokument podle obou třídění.
  2. Copyright: příslušná komise rozhodla, že autoři, kteří ukládají dokumenty do repozitáře, si ponechají copyright, resp. jinou formu autorských práv. Tato otázka se však musí řešit i nadále, protože řada autorů navíc publikuje své výzkumy i v komerčních časopisech, takže naráží na podmínku předávání copyrightu. Někteří vydavatelé jsou tolerantní, jiní nikoliv.
  3. Doba uložení dokumentu v archívu: CoRR má výraznou archívní (depozitní) funkci, tj. předpokládá se, že dokument zůstane trvale v archívu. Autoři nemohou měnit již jednou uložené dokumenty, resp. nahrazovat je aktuálními verzemi, mohou však připojovat verze nové (datum uložení je přesně zaregistrováno, takže nemůže dojít k záměně). Nejnovější verze je uživateli nabízena běžně jako první, v systému však jsou zabudovány křížové odkazy, které ho ke starším verzím dovedou.
  4. Formát digitálního objektu: otázka formátu, ve kterém autoři dodávají své dokumenty, je jednou z nejvíce diskutovaných. Vzhledem k tomu, že v elektronickém archívu LANL XXX je preferován formát TeX, bylo rozhodnuto prozatím zůstat u preference tohoto formátu i v rámci CoRR. Autoři nemohou odevzdávat dokument např. v oblíbeném PDF formátu, pokud existuje původní forma ve zdrojovém formátu TeX. Systém na základě zdrojového formátu poskytuje uživatelům texty v různých výstupních formátech na základě automatické konverze: různé platformy formátu PostScript, PDF aj.
  5. Organizační a finanční zabezpečení: velkým a otevřeným problémem je otázka organizace celého nového systému (palčivý je vztah CoRR k NCSTRL). Autoři z řady institucí, které jsou členy virtuální knihovny NCSTRL, doposud ukládali své dokumenty lokálně v repozitářích, resp. v FTP archívech svých institucí. Nyní je začínají ukládat do CoRR. Otázkou je, co udělají další archívy. Dojde k reorganizaci systému NCSTRL? Problém zůstává otevřen. Na jeho řešení v dalších letech budou působit jistě i další faktory ovlivňující současnou komunikaci vědeckých informací ve společnosti. Finanční zabezpečení je neméně problematickou otázkou. Elektronický archív XXX je doposud sponzorován ze strany různých státních institucí USA podporujících vědu a výzkum. Nový archív CoRR sponzoruje v tuto chvíli ACM.

Základní principy a postupy (registrace autorů, ukládání dokumentů, tvorba metadat, vyhledávání informací, výstupy plných textů atd.) v elektronickém archívu CoRR jsou stejné jako v archívu LANL (viz část 2.1).

2.3 Elektronický archív pro kognitivní vědy CogPrints

Jeden z elektronických archívů budovaných na principu systému XXX pro oblast kognitivních věd je budován jako aktivita Oddělení elektroniky a počítačové vědy Univerzity v Southamptonu ve Velké Británii (http://cogprints.soton.ac.uk/). Jeho tvůrcem je prof. Stevan Harnad, pod jehož vedením je archív, který dostal jméno ”CogPrints” (Cognitive Sciences E-Print Archive), v současné době reorganizován za účelem jeho propojení s dalšími archívy v USA. ”CogPrints” byl doposud budován s finanční podporou britské Společné komise pro informační systémy (JISC) při Radě pro financování vysokých škol ve Velké Británii v rámci známého programu ”The Electronic Libraries (eLib) Programme”. Z hlediska obsahu archív zahrnuje psychologii, neurovědu, lingvistiku, filozofii, antropologii a částečně biologii a počítačovou vědu.

Vstupy archívu jsou zajišťovány stejným způsobem jako v Los Alamos. Pestřejší je záběr typů dokumentů (výzkumné zprávy, konferenční referáty, ale často i reprinty článků z elektronických časopisů). V CogPrints je jiná preference formátů: HTML, PDF, Plain text (ASCII) a PosScript. Autoři v rámci ukládání metadat často zapisují i URL, existuje-li dokument na WWW. Systém využívá vlastní velmi hrubé třídění se 6 základními třídami, které se dále dělí do dílčích skupin.

Vyhledávání informaci je podobné jako v archívu v Los Alamos.

Archív CogPrints se, jak předpokládají nové projekty [5], stane součástí virtuálního systému, který propojí zainteresované stávající i případné nové archívy vědecké literatury v globálním měřítku (viz další třetí část).

 

3. Propojování elektronických archívů na bázi online citací

Archív XXX se během 9 let stal pozoruhodným veřejně dostupným digitálním fondem aktuální vědecké literatury ve fyzice. Jeho tvůrci uvádějí, že jde až o 50% z celkového objemu současné časopisecké literatury [5, část 2.0]. Fond se rozrůstá, statistiky vykazují zvyšování tempa nových přírůstků (přibývají noví autoři) a narůstá i počet jeho uživatelů.

Archív elektronických preprintů se stal nepostradatelným alternativním informačním zdrojem zejména pro celosvětovou komunitu fyziků. Aktivně do něho přispívají i čeští fyzikové (tento fakt potvrdil pracovník MFF UK). Informace o uložení si zpětně vykazují i na WWW (viz http://www-ucjf.troja.mff.cuni.cz/iso-8859-2/teorie/publikace.html). Na rozdíl od fyziků čeští matematikové preferují volné vystavování preprintů (v angličtině) pouze na lokálním veřejném webovském serveru v rámci oficiálních preprintových edic (jejich ukládání do archívu LANL neprobíhá, jak potvrdil jeden z odpovědných editorů preprintů na MFF UK Praha). Jednu ze stránek s odkazy na preprinty českých matematiků lze navštívit na adrese: http://adela.karlin.mff.cuni.cz/kma-preprints/. Toto stanovisko se vyskytuje nejen na domácí scéně. Na základě analýz zahraničních odborníků bylo konstatováno, že jde o názor uplatňovaný poměrně často. Bude proto vzato v potaz v plánovaném virtuálním propojování elektronických archívů vědecké literatury, pro které se budou připravovat podmínky v rámci nové iniciativy ”The Open Archives Initiative” (http://www.openarchives.org/) založené v loňském roce na jejím první zasedání v Santa Fee (New Mexico, USA).

Otázka, kterou si kladou tvůrci archívu a mnozí další odborníci, zní: je možné zdokonalit a rozšířit vlastnosti tohoto systému a implementovat ho i v dalších komunitách vědců? Byla by architektura, technologie a zkušenosti získané z provozu archívu LANL ideální k následování v dalších oborech? Odpovědi jsou většinou příznivé, optimistické, k realizaci této myšlenky je však nutné řešit řadu problémů. Řešení se připravuje v rámci několika nových projektů a iniciativ. Důležitou roli budou hrát i faktory, jako jsou vůle a ochota podílet se na rozvoji této efektivní formy komunikace poznatků ve vědě.

Jedním z klíčů ke zdokonalení funkčnosti tohoto systému může být, jak bylo naznačeno již výše v textu, citační propojování digitálních dokumentů. Ve srovnání s hypertextovými vazbami mezi webovskými dokumenty jsou pro vědu podstatné formální vazby typu citace jednoho dokumentu jiným dokumentem. V  komunikaci papírových dokumentů bylo sledování citačních vazeb značně namáhavé. Pokrokem se dnes jeví zjišťování citačních vazeb prostřednictvím nejnovějšího vyhledávacího systému citačních indexů pojmenovaného ”Web of Science” z produkce ISI ve Philadelphii. Nalézání citačních vazeb je pohodlné, záznamy však nejsou hypertextově propojeny s dokumenty a navíc jde o komerční systém, který není volně dostupný. Podobné problémy ”finančních bariér” zaznamenávají i některé nové systémy komerčních vydavatelů, které uplatňují propojování článků z online časopisů přes citace.

Zdá se, že velmi dobré předpoklady k realizaci  hypertextového propojování dokumentů prostřednictvím citací mají ale elektronické archívy se svými volně přístupnými fondy digitálních dokumentů. Archív XXX jako jeden z prvních v tuto chvíli již demonstruje, že citační odkaz může být okamžitě vykonán: například z textu dokumentu (hep-ph/9912313), prezentovaného záznamem na obr. 2, lze přejít přes hypertextový odkaz k záznamu disertační práce (hep-th/9503210) a následně k jejímu plnému textu. Zpětnou vazbu (z citované disertace na citující preprint) systém předvádí v rámci experimentálně zavedené funkce ”cited by” (citován kým), která se vyvolává z plného záznamu dokumentu. Tato vlastnost je současnosti zajišťována externím systémem databáze SPIRES-HEP, protože archív XXX nemá zatím přístup ke všem dokumentům, které autoři citují. Archív XXX je v tuto chvíli považován za jistý model (mikrosvět) možného budoucího směru komunikace poznatků ve vědě. Jeho další vývoj směřuje k realizaci dávného snu každého vědce: - mít přímo ze svého stolu pohodlný online přístup ke všem dokumentům ze všech oborů, jež by byly propojené přes citační vazby. Předpokladem by ale byl volný přístup k těmto dokumentům.

Otázky integrace a propojování elektronických archívů prostřednictvím citačních vazeb řeší v současné době tříletý (1999-2001) společný americko-britský projekt ”OpCit, The Open Citation Project” (http://journals.ecs.soton.ac.uk/x3cites/), který je veden jako dílčí úkol mezinárodního programu ”International Digital Libraries Collaborative Research” (http://www.dli2.nsf.gov/intl.html). Významnou úlohu při řešení technologických a jiných otázek by měla sehrát i již zmíněná iniciativa ”The Open Archives initiative”, v rámci níž jsou rozvíjeny také zkušenosti získané z provozu ”CoRR” i zkušenosti z experimentálního projektu online časopisu ”The Open Journal Project” (http://journals.ecs.soton.ac.uk).

V rámci nového projektu se řeší následující základní problémy či otázky:

  • nový design univerzálnějšího depozitního systému pro autory včetně jeho rozhraní a infrastruktury deponovaných digitálních textů, který musí vyhovovat jakékoli vědecké komunitě; v rámci tohoto problému se musí řešit problematika unifikace formátu pro citace (autoři nyní používají různé formáty); protože komunita fyziků je již značně závislá na archívu XXX, objevil se v roce 1998 v některých časopisech dokonce nový způsob citace - zapisuje se pouhý identifikátor dokumentu v archívu XXX; řešitelé předpokládají podrobnou analýzu této specifické citační vazby, protože má dynamický charakter
  • metadata, tj. struktura a obsah údajů o ukládaných dokumentech; předpokládá se také budoucí využití jazyka XML a jeho dalších aplikací (pro matematiku např. jazyk MathML)
  • extrakce údajů citací ze všech textů uložených v archívu v takové formě, aby mohla být použita pro hypertextové propojování
  • generování hypertextových vazeb pro všechny citace zahrnuté v archívu
  • systém automatického doplňování hypertextových vazeb do dokumentů uložených v archívu; poslední 3 problémové okruhy tvoří jádro celého projektu
  • nový design univerzálnějšího uživatelského rozhraní včetně jeho nových vlastností a infrastruktury
  • možnosti využívání citačních nástrojů jiných systémů (u komerčních se jeví jako velký problém finanční bariéra)
  • bibliometrické analýzy dokumentů na základě citačních vazeb; možné bude nejen analyzovat obsah archívu, ale nově i jeho využívání, což dříve nebylo možné.

Řešitelé projektu v rámci zdokonalování systému zvažují realizaci následujících hypertextových vazeb:

  1. vazby mezi dokumenty na základě vybraných údajů, jako jsou klíčová slova, jména autorů, třídníky nebo hesla z řízených slovníků apod.
  2. vazby na jednotlivé verze či aktualizace uloženého dokumentu
  3. vazby na komentáře k uloženým preprintům, resp. i odpovědi jejich autorů (uvnitř archívu)
  4. vazby na externí elektronické archívy časopisů s publikovanými články
  5. vazby na recenze publikovaných článků (předpokládá se, že recenzent si může online převzít finální verzi preprintu, kterou autor takto označí); texty recenzí budou dostupné pravděpodobně jenom přes password
  6. vazby na externí komerční bibliografické databáze (např. INSPEC aj.)
  7. vazby na jiné elektronické archívy
  8. vazby na server autora dokumentu uloženého v archívu.

 

4 Závěr

Novodobé elektronické archívy vědecké literatury provozované v posledním desetiletí 20. století přinesly spolu s dalšími projevy elektronického publikování na Internetu jedinečnou zkušenost, která znamená příslib a šanci pro efektivní a rychlý rozvoj vědy i celé společnosti v novém století. I když jde zatím jen o některé obory, které tuto formu využívají jako významný alternativní informační zdroj, je možné předpokládat, že se postupně (nikoliv okamžitě) rozšíří i do jiných oblastí. Je nutné řešit řadu problémů s tímto procesem spojených. Silnou argumentací je nejen rozvoj efektivních a levných forem elektronického publikování na Internetu, ale i další rozvoj a zdokonalování samotných systémů elektronických archívů směrem k jejich propojování. Z obecného pohledu bude pro společnost určitě výhodné a užitečné přesunovat postupně finanční prostředky ze sféry neefektivního publikování a zprostředkovávání informací do sféry vlastní tvůrčí činnosti, jakou je například věda. Nástup nových forem a systémů publikování a zpřístupňování vědeckých informací neznamená, že by musela v blízké budoucnosti zmizet sféra vydavatelů nebo dokonce i knihoven. V celkové struktuře komunikace vědeckých informací ve společnosti budou mít v nejbližší budoucnosti i nadále své místo, nutné však asi bude redefinovat jejich charakter, funkce a úlohy.

Literatura

  1. BACHRACH, S. et al. Intellectual Property : Who Should Own Scientific Papers? Science [online]. September 1998, vol. 281, no. 5382, s. 1459-1460. Přístup z: <http://www.sciencemag.org/cgi/content/full/281/5382/1459>
  2. GINSPARG, P. Winners and Losers in the Global Research Village [online]. 1996 [cit. 2000-01-17]. Přístup z: <http://xxx.lanl.gov/blurb/pg96unesco.html>
  3. HALPERN, J.Y.; LAGOZE, C. The Computing Research Repository : Promoting the Rapid Dissemination and Archiving of Computer Science Research [online]. August 1999 [cit. 2000-01-17]. 12 s. Přístup z: <http://www.cs.cornell.edu/lagoze/papers/DL99/dl99.pdf>
  4. HARNAD, S. Free at Last : The Future of Peer-Reviewed Journals. D-Lib Magazine [online]. 1999, vol. 5, no. 12 [cit. 2000-01-17]. Přístup z: <http://www.dlib.org/dlib/december99/12harnad.html>
  5. Integrating and navigating EPrint archives through citation linking [online]. Last modif. 1999 [cit. 2000-01-17]. Přístup z: <http://www.cogsci.soton.ac.uk/~harnad/citation.html>
  6. ODLYZKO, A. Competition and Cooperation : Libraries and Publishers in the Transition to Electronic Scholarly Journals. JEP : the journal of elecronic publishing [online]. 1999, vol. 4, no. 4 [cit. 2000-01-17]. Přístup z: <http://www.press.umich.edu/jep/04-04/odlyzko0404.html>
  7. ODLYZKO, A. Tragic loss or good riddance? The impending demise of traditional scholarly journals? Notices Amer. Math. January 1995, vol. 42, s. 49-53. Přístup ke zkrácené verzi z: <http://www.research.att.com/~amo/doc/tragic.loss.short.pdf>

Na začiatok stránky

Úvod      Obsah    Abstrakt     Summary     Zusammenfassung      Zoznam