Dokumentačné identifikátory Identifikačný systém a informačná reťaz Identifikácia informačných prameňov je prierezová disciplína informačnej vedy, ktorá sa rozvinula na historických základoch knižničnej praxe a v súčasnosti predstavuje súhrn teórií, metód a nástrojov na riešenie problémov integrácie a efektívnej kooperácie v procese tvorby, spracovania a sprístupňovania dokumentov a informačných prameňov vo všetkých ich súčasných podobách. Cieľom identifikácie nie je iba často úzko chápaná tvorba morfologickej charakteristiky informačného prameňa vo forme špeciálneho kódu, katalógového alebo bibliografického záznamu, ale predovšetkým praktická realizácia intelektuálneho vkladu subjektu, ktorý sprostredkuje cestu a navádza používateľa k informačnému prameňu akéhokoľvek druhu. Tento informačný proces možno charakterizovať ako uzavretú “informačnú reťaz”, v ktorej sa uskutočňuje komunikácia subjektov zúčastnených na tvorbe a využívaní dokumentu. Identifikačné systémy poskytujú nástroje na efektívnu realizáciu tohto dialógu a prenosu informácií.
Problém identifikácie sa pritom dotýka každého prvku informačnej reťaze, t. j. zúčastnených subjektov, informačných objektov a procesov. Individuálny používateľ sa identifikuje na účely registrácie v knižnici a tiež z dôvodu prípadného krytia nákladov za používanie diela. Autor alebo vlastník autorských práv, vydavateľstvo alebo agentúra sa identifikujú v rámci systémov správy autorských práv. Knižnica sa identifikuje ako miesto uloženia, sprístupnenia alebo sprostredkovania informačného prameňa. Primárna pozornosť sa však tradične venuje identifikácii a bibliografickému spracovaniu dokumentov. Dokument je nosičom (záznamom) informácie, s ktorým možno narábať ako s jednotkou v informačnom a dokumentačnom procese bez ohľadu na jeho fyzickú formu a charakteristiku. Identifikácia sa teda dotýka nielen tradičných zapísaných alebo vytlačených materiálov na papieri či zachytených na mikrofilme, ale aj netlačových médií (film, zvukový záznam, CD-ROM) a nových elektronických foriem (počítačové súbory).
Poslanie identifikačného systému V knižničnej praxi sa pod pojmom identifikácia dokumentov bežne chápe klasický menný popis knižničnej jednotky, t. j. tvorba identifikačného záznamu sekundárneho informačného systému alebo prameňa [1]. Cieľom procesu identifikácie je tvorba nástrojov na pružné, rôznorodé a komplexné narábanie s dokumentmi a informačnými prameňmi vo všetkých oblastiach a fázach ich tvorby a využitia. Osobitná je funkcia signálneho katalógového záznamu typu “Books in Print”, podstatne iné nároky sa kladú na bibliografický záznam registrujúcej národnej bibliografie. Rôzny pohľad a požiadavky na identifikáciu dokumentu má vydavateľ, obchodník, informatik alebo čitateľ. Nové informačné technológie obohatili náš svet o nové druhy dokumentov, komplexné formy komunikácie a zároveň s tým nastolili požiadavku na zvládnutie problému navigácie a informačnej orientácie v globálnom kybernetickom priestore. Pozornosť sa upriamuje na návrh a overovanie starších i nových identifikačných systémov, ktoré siahajú od využitia jednoduchých identifikátorov, identifikačných kódov a čísel až po komplexné identifikačné schémy a procesy. Popis a podrobná morfologická charakteristika dokumentu nepatrí viac k hlavným úlohám týchto systémov, môže ale aj nemusí byť ich súčasťou. Hlavnou úlohou sa stáva monitorovanie “života”, lokalizácia “sídla” a sledovanie “pohybu” informačného prameňa v záujme jeho tvorcu, ochrancu i spotrebiteľa. Osobitnú výzvu v tomto ohľade predstavujú digitálne informačné objekty a sieťové informačné pramene, pre ktoré sa identifikátory stávajú základnou súčasťou príslušných technologických systémov zameraných napríklad na:
Vzhľadom na rôznorodosť požiadaviek a funkcií jednotlivých článkov informačnej reťaze a rozmanitosť informačných objektov sa doposiaľ nepodarilo uviesť do praxe univerzálny identifikačný systém, hoci niektoré iniciatívy (projekty EU BIBLINK, EXCEL a ďalšie) sa uberajú týmto smerom [2]. A azda by to ani nebolo účelné. Viaceré špecializované identifikačné systémy, ako sú ISBN, ISSN a niektoré ďalšie, sa už v informačnej praxi udomácnili a nadobudli formu svetových štandardov a medzinárodne koordinovaných postupov. Podobne sa v prostredí internetu ustálili niektoré základné identifikačné nástroje (URL, URN a ďalšie), ktoré vo svojom ďalšom vývoji čerpajú inšpiráciu práve z knižničnej oblasti. Vedecké princípy identifikácie informačných prameňov sa tak stávajú základňou na riešenie a zvládnutie praktických problémov nastupujúcej informačnej revolúcie.
Vlastnosti identifikačných systémov Asociácia vedeckých, technických a medicínskych vydavateľov - Association of Scientific, Techical & Medical Publishers (STM), ktorú založili American Chemical Society, American Institute of Physics, American Mathematical Society, American Physical Society, vydavateľstvo Elsevier Science a IEEE sformulovala základné požiadavky na systém identifikácie dokumentov [3]. Podľa týchto princípov má identifikačný systém na dokumenty STM dovoľovať:
- obsah dokumentu je dôležitejší ako jeho prezentácia,
- v kóde možno kvalifikovať rôzne verzie dokumentu (PostScript, SGML);
- alfanumerické znaky (žiadne špeciálne znaky),
Informačné identifikátory sa stali predmetom záujmu STM najmä vzhľadom na ich potenciálne využitie. Pozornosť sa upriamila najmä na rozvoj identifikačných systémov, ktoré sú založené na použití jednoduchých identifikátorov (ISWC, PII) v spojení s referenčnými bázami údajov a tiež na vývoj komplexných identifikačných schém, v ktorých sú obsiahnuté sekundárne informácie o identifikovaných prameňoch (DOI, URN). V prípade elektronických dokumentov sa sekundárne (bibliografické) údaje dopĺňajú o inštrukcie na prezentáciu dokumentu, údaje o formáte (tzv. document computing information) a o údaje potrebné na zabezpečenie správy autorských a vydavateľských práv a príslušných finančných transakcií. V tejto súvislosti možno pozorovať trend zjemňovania identifikácie na úroveň časti dokumentu - príspevku v časopise a podobne. Napriek mnohým iniciatívam na strane knižníc a ostatných neziskových inštitúcií hlavné stimuly na rozvoj identifikačných systémov vychádzajú zo strany publikačného priemyslu, autorských organizácií a najmä z požiadaviek prudko sa rozvíjajúceho elektronického obchodu.
Účely identifikácie Systémy na identifikáciu dokumentov vznikali a navrhujú sa na konkrétny účel a obvykle plnia svoju funkciu vo vymedzenej oblasti informačných alebo obchodných aktivít. Pôvodné ciele a možnosti tradičného využitia vo vydavateľstvách a knižniciach sa postupne rozširujú do viacerých oblastí. Dnes sem napríklad patrí elektronický obchod, správa autorských práv, elektronický prenos dokumentov, metainformačné systémy a ďalšie obchodné a informačné procesy založené na nových informačných technológiách [4]. Jednoznačná identifikácia dokumentu obsahu slúži najmä na podporu:
Univerzálne identifikačné systémy by mali dovoľovať identifikovať obsah aj jeho fyzickú podobu. Identifikačný systém, založený na jednotnom trvalom identifikátore, má dovoľovať najmä tieto rutinné transakcie:
Identifikátory tovaru sú rozhodujúcim faktorom úspešnosti implementácie všetkých foriem elektronického obchodu. Dnes si už napríklad nemožno predstaviť, že by sa mohlo rozvinúť elektronické objednávanie kníh bez univerzálne prijatého ISBN. V digitálnom prostredí, ak sa uvažuje s obchodovaním menších častí dokumentov, ako je napríklad celá kniha alebo časopis, sa vyžaduje podobný univerzálny systém. Uplatnenie jednotných identifikátorov sa týka viacerých oblastí, ako sú napríklad EDI transakcie - vrátane transakcií pri kontrole autorských práv, elektronické obsahy, bibliografické a tovarové informácie, systémy správy autorských práv. Vydavatelia pritom postupne menia svoj ohraničený a predovšetkým iba na svoje problémy zameraný (publisher centric) pohľad na identifikáciu a podporujú používanie univerzálnych štandardov. Nemožno pritom zabudnúť na iné sektory (TV, film, hudba) a nemali by sa ignorovať požiadavky ostatných subjektov knižnej publikačnej reťaze, ako sú tvorcovia, spotrebitelia obsahu, ale aj sprostredkovatelia - teda knižnice, knižný obchod a agentúry. Internet predstavuje úplne nové prostredie na obchod. Ako taký vyžaduje nové techniky na ochranu používateľa aj vydavateľa. Systémy identifikácie musia zabezpečiť, aby používateľ dostal to, čo žiada, a súčasne tvorca informácie si musí byť istý, že sa rešpektujú a chránia jeho autorské práva. Publikovanie v internete vyžaduje nové nástroje na spracovanie a organizáciu obsahu. V klasických publikáciách, ako sú knihy a časopisy, sa možno orientovať podľa stránok, na ktorých je informácia vytlačená. Digitálny obsah vyžaduje iné metódy identifikácie. Je to dôležité pre vnútorný manažment obsahu a výroby publikácie v rámci vydavateľstva, tak aj kvôli distribúcii dokumentu prostredníctvom elektronických sietí. Najmä v prípade elektronickej formy dokumentu sa počas výskytu (virtuálneho) diela často mení samotný obsah, umiestnenie elektronických súborov a nezriedka sa menia aj vlastníci práv. Treba však zachovať nemennosť identifikátora a udržať pritom aktuálnosť väzieb k vlastníkom práv a obsahu. V rámci procesu identifikácie sa vzhľadom na jej účel a predmet stanovuje identifikačná jednotka, ktorá je pre každý zo systémov špecifická. Napríklad v oblasti vedecko-technických publikácií možno z hľadiska identifikácie rozlišovať tri hierarchické úrovne členenia dokumentov [5]:
So súborom dokumentov, ktorý je podľa uvedeného členenia hierarchicky najvyššou identifikačnou jednotkou, sa bežne stretáme v knižničnej praxi. Môže to byť kniha zložená z viacerých autorských či obsahových častí, zborník príspevkov z konferencie, časopis obsahujúci viacero článkov alebo aj báza údajov. V knižnici sa takýto dokument eviduje ako samostatná popisná jednotka, ktorá sa obvykle identifikuje v rámci príslušného medzinárodného systému číslovania monografií alebo seriálov (ISBN, ISSN). Na druhej hierarchickej úrovni možno identifikovať samostatné dokumenty, ktoré sú komponentmi súboru dokumentov. Takouto ucelenou identifikačnou jednotkou môžu byť príspevky jednotlivých autorov alebo kapitoly jednej knihy, samostatné články v časopise alebo iné typy obsahovo ucelených dokumentov a príbuzných informačných objektov [6]. Na najnižšej, tretej hierarchickej úrovni možno identifikovať časti dokumentu, typovo alebo obsahovo vymedzené komponenty, ktorými môže byť tabuľka, obrázok alebo abstrakt, obsah, príloha a podobne. Hierarchia a úroveň rozlíšenia identifikačných jednotiek v príslušnom systéme a s tým spojená rozlišovacia schopnosť daného identifikačného kódu sa označuje termínom granularita. Problém granularity identifikačného systému alebo kódu spočíva na riešení otázky - do akej hĺbky (podrobnosti) má byť obsah identifikovaný. Číslo ISBN identifikuje celú knihu, kód SICI možno použiť na vydanie časopisu a prípadne článok v časopise. V niektorých prípadoch sa žiada relačná identifikácia, kde sú menšie časti identifikované vo vzťahu k celku, z ktorého pochádzajú. Granularita bude rôzna v rôznych aplikáciách - niekde vyhovuje označenie súborného diela, v inom prípade sa vyžaduje až na úroveň kapitoly knihy či časopiseckého článku. Pri návrhu štruktúry identifikačného kódu (identifikačnej schémy) sa popri funkčných požiadavkách musí rešpektovať predpokladaný počet identifikačných jednotiek. Kódy s pevnou štruktúrou (ISSN, ISBN) majú kapacitu danú svojou dĺžkou a syntaxou. Napríklad osemmiestny číselný kód ISSN s jedným kontrolným znakom poskytuje teoretickú možnosť identifikácie desiatich miliónov jednotiek (max. číslo 9999-999X, X je kontrolný znak). V súčasnosti obsahuje báza údajov ISSN Register približne 900 000 záznamov. Ročný prírastok bázy údajov Journal Citation Reports (ISI, USA) predstavuje viac než 670 000 záznamov o článkoch z približne 6000 titulov časopisov. Podľa odhadu vydavateľstva Elsevier Science predstavuje tento počet asi 75 % objemu dokumentov, ktoré by sa mali ročne identifikovať (900 000?). Ročná svetová produkcia odborných článkov sa pritom blíži k počtu dva milióny, z čoho autori z USA publikujú asi 35 - 40 % [7]. V prípade zámeru identifikovať aj jednotlivé časti článkov by sa vyžadovala ročná kapacita v rozsahu bilióna čísel. Počet internetových dokumentov, WWW stránok, od hypertextov a multimédií až po elektronické dokumenty v rôznych formátoch (HTML, PDF, DOC, a ďalších) sa odhaduje na viac než 50 miliónov a nevídaným tempom sa zvyšuje.
Členenie identifikačných nástrojov Jednou zo základných otázok je rozhodnutie o tom, či má byť identifikačný systém založený na kvalifikovanom komplexnom identifikátore (tzv. “inteligentnom” kóde) alebo jednoduchom prírastkovom čísle (tzv. “neinteligentnom” kóde). “Neinteligentné” kódovanie čiže priebežné číslovanie dokumentov sa obvykle opiera o prírastkové číslo, ktoré sa interpretuje v spojení s odkazom v centrálnej referenčnej báze údajov. Číslo nemožno osobitne vyhodnotiť, jeho obsah nič nehovorí o tom, aký objekt identifikuje. Niektoré číselné identifikátory môžu mať istú mieru sémantického obsahu. Príkladom “inteligentného” kódu je medzinárodné štandardné číslo knihy ISBN. Jeho prvá časť identifikuje krajinu, jazyk alebo geografickú oblasť v ktorej sa kniha vydala, druhá časť identifikuje vydavateľa, ktorému sa kód pridelil. ISBN sa niekedy kritizuje ako príliš orientované na vydavateľa (publisher centric). Trend v informačnej technológii smeruje k návrhu identifikátorov bez vnútorného významu. Organizácia a zabezpečenie dlhodobej údržby systému čísel s “reálnou inteligenciou” je totiž v súčasných podmienkach dynamického nárastu počtu a pohybu dokumentov takmer neuskutočniteľná. Všetky dokumenty však nie sú v elektronickej forme. V súčasnosti sa identifikuje obsah vo väzbe na fyzickú podobu obsahu - vydania. Číslovacie systémy by mali poskytovať čo najkomplexnejšie operácie - mali by dovoľovať odvodenie fyzického produktu alebo bibliografického záznamu z jedinečného identifikačného čísla. Treba však ustáliť najmenší možný počet univerzálnych štandardov, ktoré by vyhovovali obchodu v digitálnom prostredí. N. Paskin uvádza nasledujúce členenie [4]: Jednoduchý identifikátor (nazýva sa niekedy ako prostý smerník - dumb pointer) alebo návestie (label) nie je určený na to, aby niesol nejakú doplnkovú informáciu. V zásade slúži ako jednoznačné návestie. Analógiou je sériové číslo nejakého výrobku, ktoré nedáva informáciu o samotnom predmete, ale do istej miery poskytuje doplnkovú informáciu. Napríklad evidenčné číslo vozidla nám môže prezradiť, kde je automobil registrovaný, pre používateľa to však nie je podstatné. Komplexný identifikátor (niekedy nesprávne nazývaný “inteligentný”) sa na rozdiel od predošlého explicitne navrhuje na to, aby neniesol iba referenciu jednotne identifikujúcu daný dokument, ale aj nejaký význam alebo interpretovateľnú informáciu o dokumente, napríklad informáciu o práve na duševné bohatstvo. Pri spätnom vyhodnotení možno z takéhoto kódu odvodiť významnú informáciu o dokumente, aj keď tento nie je k dispozícii “de visu”. Obidva typy však slúžia na ten istý účel, ak sa odčlení koncept “jedinečného návestia” (jednoduchý identifikátor objektu) a údaje o objekte (metaúdaje). Jednoduchý identifikátor možno použiť na prepojenie s tabuľkou údajov alebo registrom metaúdajov. Obidva typy identifikátorov - jednoduchý aj komplexný - môžu byť užitočné v komerčnom prostredí, a s rôznymi dôsledkami. Komplexný identifikátor odstraňuje potrebu centrálneho registra metaúdajov, ale spôsobuje, že identifikátor je príliš dlhý a komplexný na využitie. Možno si predstaviť varietu metaúdajov požadovaných v rôznych prípadoch rôznymi stranami pri každej transakcii objektu. Napríklad fyzické umiestnenie, vydavateľ, autor, objednávacia referencia, vlastník autorských práv, poplatok za použitie diela a podobne. Ukazuje sa, že komplexné identifikátory sa budú využívať v špeciálnych prípadoch, budú obsahovať malé množstvá metaúdajov (napr. informáciu na objednávku produktu, údaje o hudobnom zázname). Koncept jednoduchých identifikátorov ukazujúcich na separátne metainformačné údaje je tiež flexibilnejší a vhodný pre svet, kde nemožno vopred špecifikovať všetky metaúdaje, ktoré budú v rôznych situáciách potrebné a mali by sa pripojiť k objektu. Koncept metaúdajov je komplexnejší, ich záber je podstatne širší a nadobúda čoraz väčší význam v internete aj v knižniciach. Argumenty na hodnotenie výhodnosti alebo rozdielov medzi tzv. inteligentnými a neinteligentnými systémami strácajú v súčasnosti svoj význam. Vývoj smeruje k používaniu číselných radov bez osobitného vnútorného (zakódovaného) obsahu. Identifikácia sa zakladá na mechanizme zaručenia jednoznačnosti priradenia identifikátora informačnému prameňu a jeho identifikačného záznamu vrátane údajov o dostupnosti dokumentu. Identifikačné systémy vznikali a začali sa spontánne používať v logickej nadväznosti na klasickú identifikáciu dokumentov, t. j. tvorbu sekundárnych informačných prameňov (zoznamov, katalógov, bibliografií) tak, ako vznikali nové požiadavky na organizáciu zbierok a prístupu k dokumentom. Expanzia knižného obchodu si vyžiadala vznik systému ISBN, práca s elektronickými dokumentmi vyžaduje iné nástroje (DOI, URN). Identifikácia sa postupne rozšírila na všetky druhy dokumentov a tvorivých diel. V nasledujúcej tabuľke sa uvádza prehľad v súčasnosti používaných informačných identifikátorov. Legenda:
C - správa autorských práv (copyright management) A - agentúra (subscription agency) B - na začiatku výroby, pred vydaním G - medzinárodná norma
Hodnotenie identifikačných schém Riešenie problémov identifikácie a vývoj identifikačných nástrojov vyplýva zo samotnej podstaty práce s informačnými prameňmi. Identifikačné systémy vznikali postupne na základe rôznych iniciatív s rozmanitými cieľmi, tak ako ich prinášala informačná a knižničná prax. Spomedzi mnohých využívaných sa viaceré identifikačné schémy prijali a rozšírili na úrovni celosvetových štandardov, vývoj a štandardizácia ďalších neustále pokračuje. Informačná prax globálnej informačnej spoločnosti v prostredí globálnych informačných sietí a nových informačných technológií prináša nové požiadavky na identifikačné systémy. V zásade však rezonujú požiadavky na univerzálnosť, operatívnosť a účinnosť týchto nástrojov. Napríklad v projekte BIBLINK [5] sa vychádza z nasledujúcich požiadaviek na identifikačnú schému:
Podľa týchto požiadaviek má identifikátor slúžiť nielen na identifikáciu obsahu ale aj na špecifikáciu formátu a nosiča informačného prameňa. Na účely depozitu postačuje rozlíšenie (granularita) na úrovni knižničnej jednotky alebo samostatnej publikačnej jednotky, ktorá sa individuálne registruje a s ktorou sa manipuluje. Univerzálny identifikátor nemá obsahovať údaj o umiestnení informačného prameňa. Najmä v prípade sieťových - elektronických dokumentov sa tento údaj často mení. Identifikácia a lokalizácia sa zabezpečuje v rámci previazaného identifikačného reťazca (identifikátor - báza metaúdajov - dokument). Napriek rôznorodosti používaných identifikačných nástrojov možno niektoré ich vlastnosti porovnať a na tom základe posúdiť ich vhodnosť či perspektívnosť. Na hodnotenie identifikačnej schémy sa v projekte BIBLINK použila nasledujúca metodika [5]:
Na základe takto stanovených kritérií sa odporučili na súčasné a perspektívne využitie v depozitných zbierkach tieto schémy: Legenda:
Záver V domácich odborných kruhoch často zaznieva názor, že bibliografický záznam je čosi zásadne odlišné od katalógového záznamu alebo iných sekundárnych záznamov o dokumentoch, o číselných kódoch na označenie publikácií radšej ani nehovoriac. Prirodzená, niekedy azda až prílišná upätosť na publikáciu ako hlavný predmet odborného spracovania v knižnici môže viesť niekedy k zúženiu pohľadu, ako keby jediným cieľom odborného spracovania bol samotný bibliografický záznam alebo vyčerpávajúca až absolútna bibliografická kontrola. Ako keby sme občas zabúdali, že prapôvodným zmyslom práce a poslaním správcu archívu či knižnice je organizácia zbierok a predovšetkým kliesnenie cesty používateľa k dokumentom, poznatkom a informáciám. Historicky tak vzniklo a dodnes vzniká množstvo nástrojov na pomoc pri intelektuálnom spracovaní a opise dokumentov, ktoré možno označiť súhrnným názvom identifikácia dokumentov. Bibliografický záznam, CIP, katalógový lístok alebo štruktúrovaný blok metaúdajov v elektronickom dokumente - to všetko sú produkty intelektuálneho vkladu odborného personálu knižnice, výsledky procesu identifikácie a zároveň základné komunikačné prvky informačnej reťaze. Podobne ako iba génius vie obsiahnuť definíciu ľudského poznania v skratke, sú informačné identifikátory onou geniálnou skratkou na ceste používateľa k dokumentu a na dráhe dokumentu k používateľovi. A to tým väčšmi, čím väčšmi sa dávno vyšliapané chodníčky k regálom s knihami menia na bludiská informačných sietí, čim väčšmi sa náš život opiera o poznatky a informácie, ktoré si treba osvojiť a treba ich preto nájsť.
Literatúra http://pubs.acs.org/journals/pubiden.html [3] Green, B., Bide, M.: Unique Identifiers: a brief introduction. http://www.bic.org.uk/bic/uniquid[4] Paskin, Norman: Information Identifiers. In: LEARNED PUBLISHING, Vol 10, No. 2,1997, pp. 135-156. [5] Telematics for libraries project BIBLINK (LB4034). http://hosted.ac.ukoln.uk/biblink/ |