|
Kooperační systém
článkové bibliografie a báze ANL, NAL FULL Úvod Informace, které jsou včasné, rychlé, konkrétní přizpůsobené informačním potřebám koncových uživatelů jsou nezbytné pro vývoj moderní společnosti. Současná informační věda hovoří umění informaci či znalost vyhledat a použít (vytěžování médií – media mining) a umět informaci nebo znalost organizovat tak, aby byla využitelná dále. Rozvoj Internetu, elektronického publikování (jeho výhody a nevýhody), typy elektronický dokumentů (primárně elektronické, elektronické verze tištěných dokumentů nebo jejich doplňky) a jejich vlastnosti ovlivňují tradiční metody získávání (volný přístup k elektronickým dokumentům na Internetu, volný přístup k elektronické formě/verzi dokumentu v rámci předplatného, přístup k elektronickému dokumentu zakoupenému od vydavatele, přístup přes dodavatelskou/distribuční firmu, povinný výtisk), zpracování (automatická indexace/extrakce, metadata Dublin Core), archivace, vyhledávání a zpřístupňování dokumentů (XHTML, XML, intuitivní vyhledávání a dialogové interaktivní systémy). Objevují se pokusy rozšířit či zkvalitnit obsah elektronické publikace pomocí prostředků, které nabízí Internet. Dochází tak ke kombinaci tradičně katalogizovaných dat s katalogizací vzdálených zdrojů, s dodáváním metadat od autora, vydavatele/nakladatele/distributora i dat získaných na základě automatizovaného sběru. Na druhé straně se mění způsoby informačního chování uživatele při vyhledávání, ve středu zájmu je komunikace člověk – počítač (human-computer interaction). Na základě zpětné vazby relevance (relevance feedback) může uživatel zpřesňovat svůj dotaz a spolupracovat se systémem. Kombinace bibliografických a plnotextových databází představuje efektivní přístup k plnému textu. Vyhledávání s přidanou hodnotou a intelektuální indexace věcná zvyšují možnost získání relevantních informací. Kvalitní zpřístupnění informací o článcích či statích publikovaných novinách, časopisech, sbornících aj. periodicky vydávaných dokumentech je důležité pro oblast státní správy a samosprávy, pro oblast vzdělávání a výzkumu. Nutnost nových modelů zpracování a zpřístupňování bibliografických informací je evidentní. 1. Současné trendy ve zpřístupňování článkových informací s ohledem na zpřístupnění informací na Internetu Elektronické dokumenty (ať už jsou to elektronické mutace tištěných dokumentů nebo existující primárně v elektronické formě), mezi něž patří i plné texty článků publikovaných v seriálech – specificky v novinách, časopisech, sbornících z konferencí, v rámci monografických edic - jsou zpřístupňovány prostřednictvím nakladatelství, distributorských firem, informačních institucí či služeb a jejich produktů, dále pak pro- střednictvím digitálních knihoven a služeb vznikajících na základě projektů, konzorcií a licencí. Na Internetu se navíc objevují elektronické dokumenty, např. časopisy jako doplňky k papírovým formám, které nejsou kopií tištěných dokumentů, ale doplňují je (obsahují aktuální zpravodajství, články které nejsou v tištěné formě časopisu, odkazy aj.). Velké vydavatelské domy vydávají periodika v tištěné formě, k tomu na Internetu také tyto dokumenty zpřístupňují virtuálně. Je možno vyhledávat současně ve všech nebo v určité skupině časopisů, přes bibliografické záznamy s možností objednat či zpřístupnit plný text. Přístup k plným textů je zajišťován přes různé formy bibliografií a soupisů, obsahů časopisů a plnotextových databází. Vyhledávání v plných textech zvyšuje komfort přístupu uživatelů k informacím. Zpřístupnění relevantních, resp. pertinentních informací uživateli předpokládá jasná pravidla pro vytváření dokumentů jak na úrovni sémantické, tak na úrovni strukturální. Pro popis webovských informačních zdrojů navržen formát Dublinské jádro (DC) jako základní soubor údajů pro popis zdrojů (obsahuje 15 prvků k identifikaci zdroje). Dublin Core může být vytvářen autorem, vydavatelem, distributorem těchto zdrojů, knihovníkem. Zdá se, že možným nástrojem na úrovni strukturální je přijatelný fomát či jazyk XHTML, XML (eXtensible Markup Language,. XML považován v současné době za nástupce jazyka HTML (prostředek k zapsání strukturovaného textu, odděluje popis dat od jejich prezentace). Jeho aplikací je RDF (Resource Description Framework), který má definovanou standardní DTD (Document Type Definition). Implementace souboru metadat DC (i MARC) ve struktuře RDF/XML je předpokladem efektivního vyhledávání a využívání digitálních informací, tj. efektivní komunikace na www. Hovoří se o popisu dokumentu v hierarchii jako manifestace díla (čtyřúrovňový model manifestace díla FRBR - vztahy mezi dílem, jeho vyjádřením, projevem a exemplářem). Připravuje se revize AACR2R vzhledem k tomuto modelu a struktuře ISBD. Připravuje se přechod z UNIMARCu na MARC 21. Národní autority vedou k integraci jmenného a věcného zpracování dokumentů a jejich význam a aplikace při zpracování elektronických dokumentů je evidentní. V oblasti verbálního věcného popisu je všeobecným trendem harmonizace věcných selekčních prvků pomoci souboru věcných autorit, harmonizace různých typů heslářů, integrace tradičních pořádacích systému do procesu vyhledávání v plnotextových databázích, v oblasti systematické věcné notace konvergence mezi MDT a DDT, propojení verbálního a systematického selekčního jazyka. Pozornost je věnována standardizaci popisu fondů (tzv. metoda konspektu, v ČR aplikovaná též na popis informačních zdrojů), informačním branám (v ČR např. Jednotná informační brána), portálům. Vzhledem k poměrně nestálé povaze elektronických zdrojů, vzhledem k jejich zpracování i zpřístupňování je důležitá jejich identifikace - URL (Uniform Resource Locator), PURL (Persistent URL), Uniform Resource Name URN (Uniform Resource Name), DOI (Document Object Identifier), SICI (Serial Item and Contribution Identifier). Identifikace informačních zdrojů souvisí s agendou autorských práv, elektronickým obchodem, s nakladatelskou praxí. Propojení mezi dokumenty může být statické i dynamické, na základě „base URL“ a „open URL“. Velká pozornost se věnuje protokolům pro komunikaci a sdílení dat (např. Z39.50 a Bath Profile). Získávání, zpracování a zpřístupňování elektronických dokumentů je třeba zabezpečit z právního hlediska na základě dohod s vybranými vydavateli, zákona o povinném výtisku, formulace zásad licenční politiky vzhledem k vlastníkům, producentům a distributorům plných textů a bází dat. Harmonizace v oblasti autorského práva vzhledem k doporučením EU je nutným předpokladem řešení celé problematiky. 2. Zpřístupňování článků na Internetu a článková bibliografie v České republice Zpracování a zpřístupňování článků v České republice je poměrně rozsáhlé co do zdrojů, které se zpracovávají, tak co do typů institucí, které tuto činnost provozují. 2.1 Systém zpřístupňování článků na Internetu - některé instituce a projekty, metody, nástroje, které souvisejí se zpřístupněním plných textů v ČR a zpracováním elektronických dokumentů
2. 2 Vývoj článkové bibliografie v České republice - r. 1953-2002
3. Produkty ČNB, smluvní a legislativní zajištění národní bibliografie, organizační zajištěníV ČR existují dva hlavní produkty článkové bibliografie v rámci České národní bibliografie: báze BMC (vznikající v Národní lékařské knihovně) obsahuje české a slovenské časopisy z lékařských oborů (od r. 2001 jen česko-slovenské časopisy vydávané tiskovým střediskem České lékařské společnosti). Komplexní databáze vychází na CD-ROM „Bibliomedica“ (vyhledávací SW Tornádo, vydávaná Národní lékařkou knihovnu ve spolupráci s AIP Beroun). Novinkou databáze je citační rejstřík, ukazující citovanost autorů v různých zdrojích. Báze ANL vzniká v rámci Kooperačního systému článkové bibliografie (KOSABI). Je vydávána jako řada České národní bibliografie Články v českých novinách , časopisech a sbornících (vyhledávací SW Tornádo, vydávaná Národní knihovna České republiky ve spolupráci s AIP Beroun). Dostupná je též internetová verze. V současné době zhruba třetina běžného přírůstku metadat resp. bibliografických záznamů báze ANL tvoří metadata báze ANL FULL, která vznikají v rámci linky automatické extrakce v NKČR. Báze ANL je propojena s plnými texty báze ANL FULL. Báze ANL obsahuje též hypertextová propojení na volně přístupné plné texty na Internetu.Vydání ANL na CD-ROM resp. DVD a měsíční aktualizace obsahují zatím pouze propojení na volně přístupné plné texty. KOSABI je právně ošetřen pouze Smlouvou o sdružení pro Českou národní bibliografii (z r. 1998) a Dodatkem č. 3 (z r. 2001), který zajišťuje pokračování článkové bibliografie v přechodném období související se změnou státoprávního uspořádání ČR. Přebírání a předávání titulů ke zpracování od bývalých státních vědeckých knihoven v podmínkách nového uspořádání krajů musí být plynulé a koordinováno tak, aby konvenovalo podmínkám jak technickým, tak personálním v nově konstituovaných krajských bývalých okresních knihovnách. S odbornými knihovnami spolupracujícími v KOSABI jsou každoročně uzavírány separátní smlouvy. Zákon ze dne 19. června 2001 o knihovnách a podmínkách provozování veřejných knihovnických a informačních služeb stanoví úlohu a povinnosti jednotlivých typů knihoven v rámci systému knihoven ČR. Krajské knihovny spolupracují s NKČR při zpracování národní bibliografie a souborného katalogu, koordinují plnění regionálních funkcí základních knihoven v kraji, zajišťují zprostředkování vnějších informačních zdrojů zejména informací ze státní správy a samosprávy.Specializovaná knihovna je součástí systému knihoven a spolupracuje s Národní knihovnou při zpracování národní bibliografie a při zpracování souborného katalogu. Organizační, metodické a standardizační otázky se řeší kromě Pracovní skupiny pro analytické zpracování na pravidelných poradách SDRUK - Sekce pro bibliografii a poradách pracovníků bibliografických a rešeršních oddělení vědeckých, technických a specializovaných knihoven v STK. 4. Projekty řešené v Národní knihovně České republiky v současné době V současnosti se v NKČR řeší kromě jiných dva projekty – výzkumný záměr Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, 1999-2003), programový projekt Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, 2000-2004) - které se zabývají moderními metodami zpracování a zpřístupňování bibliografických informací o článcích s vazbou na plné texty. 4.1 Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů Anotace (zadání) Cílem výzkumného záměru je optimalizace přístupu uživatelů k plným textům dokumentů domácí provenience (nikoli zahraniční). Základem je propojení analytických záznamů o článcích s plnými texty, které jsou dostupné na Internetu a/nebo CD-ROM. Okamžitě bude k dispozici účinný rešerší nástroj – analytické záznamy zpracované v Kooperačním systému české článkové bibliografie, které jsou součástí České národní bibliografie. Jejich postupné propojení s plnými texty ústředních i regionálních periodik výrazně zvýší uživatelský komfort při jejich využití. Plnění V rámci projektu v r. 1999 proběhlo v NK výběrové řízení a byla vypracována výzva k podání nabídky pro společnost Anopress. Během řešení projektu byla vyvinuta iniciativa k vytvoření konzorcia Anopress pro přístup do plnotextové databáze TamTam, která byla podepsána mezi SKIP a Anopressem v r. 2000. Periodikum Národní knihovna bylo v Anopressu převedeno do digitální formy a zpřístupněno na Internetu v Anopressu a bázi ANL FULL. Kromě toho se vyvíjí v NKČR samostatná aplikace pro zpřístupnění periodika v html a pdf. Tato aplikace bude propojena přes www rozhraní s bází ANL FULL. Projekt je analyticko koncepční a připravuje půdu pro praktickou realizaci programového projektu.Koncepce má flexibilní charakter, reflektuje vývoj v oblasti zpřístupnění plných textů a pohybuje se zhruba v mantinelech uvedených v bodě 1. V rámci projektu byla vypracována základní koncepce zpracování bibliografických záznamů plných textů v lince automatické indexace/extrakce (TTDE – TamTam Data Extractor) a zpřístupnění plných textů v bázi ANL FULL a koncepce týkající se optimalizace integrace a správy heterogenních dat v rámci KOSABI v systému Oracle (prakticky popsáno v bodu 4.2). V rámci záměru byla částečně vypracována Metodika popisu článků ve formátu UNIMARC, která vycházejí především ze struktury ISBD (CP) a v příslušných oblastech aplikují AACR2R. Tento trend je patrný i v současnosti, kdy se harmonizují AACR2R s ISBD. Dosavadní verzi pravidel bude nutno v budoucnu ošetřit více vzhledem k ISBD(ER) a revidovanému standardu ISBD pro seriály International Standard Bibliographic Description for Serial and other Continuing Resources – ISBD(CR). Vzhledem k vlastnostem elektronických dokumentů vzniká nová kategorie pokračujících zdrojů, která zahrnuje integrující zdroje (aktualizace zdrojů, které nemohou být samostatné) - publikace na volných listech, webovská sídla aj. a seriály - časopisy, magazíny, elektronické časopisy, pokračující adresáře, roční zprávy, noviny, mono- grafické edice. Do kategorie pokračujících zdrojů patří též ukončené pokračující zdroje vycházející po částech, číslované a periodické, ale jejich trvání je ohraničeno, dále pak reprinty seriálů a ukončené integrující zdroje. V budoucnu bude třeba reflektovat při popisu FRBR - Functional Requirements for Bibliographic Records, což umožní integraci elektronických dokumentů s tradičními. Velmi významná je studie Současný stav a trendy automatické indexace dokumentů, ze které vyplývá potvrzení hypotézy a současného trendu v této oblasti „směřující k vývoji vyhledávacích metod, které budou za pomoci technologií umělé inteligence pracovat přímo s plným textem a k automatické indexaci (rozuměj indexaci přiřazováním - pozn. I.A.) v původním slova smyslu nebude vůbec docházet; dojde k posunu od systémů založených na externí bázi pojmů či znalostí (knowledge-based systems) k systémům založených přímo na zpracování plného textu dokumentů (text-based systems) …Při dostupnosti plných textů dokumentů se dnes již spíše používá některé z pokročilých vyhledávacích metod, jejichž vývoj a implementace je obdobně technicky i finančně náročný jako u automatické indexace, ale v řadě případů přináší adekvátnější výsledky.“ Vývoj projektu v následujících letech se bude tedy patrně orientovat spíše na automatickou extrakci a využití inteligentního vyhledávání systému TOPIC, dále pak na skloubení poj-mového vyhledávání s intelektuální indexací věcnou a zabudování věcných termínů přímo do topiků (tj. pojmů, strukturovaných dotazů v rámci systému TOPIC - viz bod 4.2) než na automatické přiřazování věcných termínů. Analýza automatické indexace potvrdila nutnost intelektuální indexace věcné, která je stále kvalitnější než automatické přiřazování termínů. V r. 2002 byla provedena analýza selekční úplnosti topiků v bázi ANL FULL (která je přibližně 80 % a byly vyvozeny praktické závěry pro zkvalitnění funkce topiků (ladění a interaktivní předmětové zpracování a využití topiků). V r. 2002 byla navržena a částečně vyvinuta internetová verze linky poloautomatické indexace (TTDE - Tamtam Data Extractor). 4.2 Projekt Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat a jeho vliv na KOSABI Anotace (zadání) Náplní projektu je optimalizace integrace a správy heterogenních dat souborné databáze Kooperačního systému článkové bibliografie. Bibliografické záznamy článků, publikovaných v českém periodickém tisku a zpracovávané spolupracujícími knihovnami, budou postupně propojované s elektronickou podobou článku a takto prezentované na Internetu. Obě části souborné databáze - vznikající databáze plných textů a báze bibliografických záznamů ve formátu UNIMARC - vyžadují permanentní kvalitní SW a HW podporu. Budování, doplňování, správu a údržbu plnotextové databáze s možností vyhledávání zajistí informační agentura ANOPRESS (systém TOPIC). Zároveň půjde o vývoj manažerského systému pro příjem a správu dat kooperačního systému. Hlavním cílem projektu je zkvalitnění bibliograficko-informačních služeb. Plnění Kooperační systém článkové bibliografie prochází v současnosti transformací po stránce technologické, standardizační, koncepční i organizační. Hledají se metody optimalizace propojení analytických bibliografických záznamů s plnými texty, integrace a správy heterogenních dat za současného plného provozu KOSABI při zachování objemu zpracovávaných dokumentů s ohledem na nejnovější trendy v oblasti získávání, zpracovávání a zpřístupňování elektronických dokumentů. KOSABI a použité technologie V krajských knihovnách v Kladně a Liberci se články popisují v systému RAPID, v MZK v Brně v ALEPH, v Olomouci též. V Ostravě, v Českých Budějovicích a Ústí nad Labem v systému T-Series. V Hradci Králové, ÚZPI, STK, SPKK-ÚIV přetrvává ISIS. V krajské knihovně v Plzni se články zpracovávají v systému KIMS. V nově konstituovaných rajských knihovnách v Pardubicích a Zlíně se používá KP-Sys, v Karlových Varech a Havlíčkově Brodě systém LANIUS, resp. Clavius. Postupně se ladí metodika ukládání v nových systémech a řeší se otázky převoditelnosti do báze ANL a UNIMARCu. Tato činnost je poměrně náročná v detailech a je založena na úzké spolupráci s příslušnými knihovnami. Plnohodnotné předávání záznamů do národní článkové bibliografie u knihoven vlastnících Tinlib závisí na dotažení konverzního programu Tinlib – UNIMARC (je-li možné). Knihovny pracující v ALEPHu spolupracují dobře. U knihoven pracujících v KP-sysu je třeba dopracovat převod do UNIMARCu. Knihovny pracující v Rapidu spolupracují též bez problémů. Krajská knihovna v Plzni přešla na zpracování v KIMSu a v r. 2002 záznamy nedodávala. S nově jmenovanými a konstituovanými krajskými knihovnami v Pardubicích, Havlíčkově Brodě, Zlíně a Karlových Varech byla navázána dobrá spolupráce. Ladí se převod záznamů do UNIMARCu i metodika a zvažují možnosti zpracování některých titulů. NKČR používá při zpracování a zpřístupnění bibliografických záznamů z plných textů technologie vyvíjené v rámci projektu VaV. Standardizace Data jsou zpracovávána ve nebo konvertována do formátu UNIMARC, respektují se pravidla popisu AACR2 s respektováním mezinárodních standardů věcného popisu - MDT-MRF pro oblast systematické indexace. V oblasti verbální věcné indexace se kombinují klíčová slova, předmětové kategorie a předmětová hesla. Vyváženost vazby mezi jednotlivými vrstvami popisu je klíčovým momentem. Většina knihoven vybavuje záznamy předmětovými kategoriemi, které jsou jednotícím prvkem souborné databáze. Oddělení analytického zpracování přistupuje k intenzivnějšímu využívání souborů autorit v NK, korekturám báze ANL a připravuje podklady pro soubory v jmenných a věcných autorit. K záznamům se zatím nepřidělují skupiny konspektu. Záznamy respektují metodický materiál Záznam pro soubornou data-bázi : UNIMARC a Záznam pro soubornou databázi: Výměnný formát. Dle možností je aktualizována pracovní verze příručky pro zpracování článků v UNIMARCu - Metodika popisu článků ve formátu UNIMARC a vystavena na Internetu s názornými příklady. Pořadí kategorií, předmětových hesel odpovídá pořadí MDT. MDT vztahující se k osobám a formě článku se uvádí na konec věcného popisu (osoby, forma). Kategorie: obecné zařazení tématiky dokumentu pod obecné hlavní téma (615a) a zpřesnění (615x). Předmětové heslo: vystihuje hlavní téma dokumentu. Klíčová slova: variantní selekční termíny k předmětovým heslům uvádíme zatím z důvodů postupného propojování báze ANL na soubory autorit, v současné době se eliminují - s postupným provázání věcného popisu na autority i s ohledem ke zpřístupnění plných textů v bázi ANL prostřednictvím báze ANL FULL. Ve většině kooperujících institucí se používá kombinace těchto tří prvků věcného popisu v různé míře. Předmětová hesla se aplikují pro osoby, korporace, typ dokumentu, geografické téma. Předmětová hesla tematická (pole 606 UNIMARC) se užívají zejména v NK, ve většině knihoven se praktikují klíčová slova (pole 610 UNIMARC). Vazba na autority se objevuje ve větší míře v NK a v krajské knihovně v Kladně. Je třeba důsledněji používat pole 660 Geografický kód. Předmětové kategorie v rámci ANL (ANL FULL) je nutno důkladně zrevidovat. Domníváme se, že možno je používat paralelně se skupinami konspektu. Předpokládá se, že je bude možno zabudovat do topiků v rámci báze ANL FULL spolu s předmětovými hesly (viz dále). V rámci linky automatické indexace/extrakce se používá 14 prvků Dublin Core a 14 prvků ANL Core, které jsou zároveň generovány v UNIMARCu formátech HTML, XHTML, XML.. O definici topiků viz dále. Excerpční (titulová) základna V KOSABI se popisují periodika ze všech oborů, okrajově se popisuje oblast lékařství a zdravotnictví. V rámci kooperačního systému byla stanovena pravidla pro výběr titulů k popisu (na základě územní gesce - tituly regionální a celostátní provenience a dále pak na základě odborného zaměření). V rámci KOSABI jsou stanoveny zásady výběru článků co do úplnosti i co typů. Zpracovávané typy titulů a výběr článků z hlediska úplnosti: jsou zpracovávány články a statě české novinové, časopisecké a periodické sborníkové produkce (sborníky vysokých škol, muzeí, archivů, materiály z konferencí, ročenky, odborné i polytematické časopisy, kulturně-politické časopisy a populárně-naučné časopisy). A: Seriály vydávané AVČR a vysokými školami v ČR (časopisy, sborníky,
ročenky) 1=excerpce je prováděna v úplnosti (100-80% počtu článků) A: 1 B: 1 (sborníky ročenky), 1-2 (odborné časopisy) C: 2,3 D: 3 Báze ANL - obsahuje kategorie A-D, báze ANL FULL zatím kategorie C, z kategorie B periodikum Národní knihovna (též samostatná aplikace ve formátech HTML, PDF). Typy článků: faktograficky přínosné články, články odborné, články s dokumentární a uměleckou hodnotou, oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení), zprávy a informace o kulturních, sportovních, politických, vědeckých aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích), souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře. Dále jsou zachyceny reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky), literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné), recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod. Obě báze jsou výběrové. Počet záznamů k 15.1.2003: ANL přes cca 750 600 bibliografických záznamů, ANL FULL přes cca 100 000 plných textů s metadaty. Počet zpracovávaných titulů: ANL - cca 212 v NKČR, 217 v regionech, 108 v odborných knihovnách, celkem cca 537 titulů; časové pokrytí - ANL 190/91 -, ANL FULL 1997- . V lince automatické indexace/extrakce jsou pravidelně zpracovávány a importovány plné texty do ANL FULL a bibliografické záznamy článků do ANL z 16 titulů, v bázi ANL jsou naopak propojovány záznamy s plnými texty z 13 zdrojů. Záznamy NKČR tvoří 79,5 procent báze ANL. Záznamy regionů tvoří 14,1 procent. Záznamy specializovaných knihoven tvoří 6,4 procent. 4.3 Aplikace moderní technologie zpracování a zpřístupnění bibliografických informací 4.3.1 Architektura systému zpracování zpřístupňování plných textů. Linka automatické indexace/extrakce a báze ANL FULL v systému TOPIC Současným výsledkem řešení projektu je poloprovoz linky pro získávání a zpracování biblio-grafických záznamů z plných textů (TTDE) s následným importem záznamů do báze ANL s propojením na plný text v bázi ANL FULL a paralelním importem plných textů s metadaty UNIMARC a DC do báze ANL FULL a jejich zpřístupnění v systému TOPIC včetně automaticky generovaných formátů HTML, XHTML, XML v kvalifikované i nekvalifikované formě. Velká pozornost je věnována definici báze ANL FULL v systému TOPIC, zejména vyhledávání (prostý dotaz, formulářový dotaz, topiky, rejstříky). Je nainstalován formulář pro registraci uživatelů. Plné texty článků deníků a některých časopisů jsou průběžně stahovány z databáze TamTam (Anopress), zpracovávány v lince zpracování bibliografických záznamů z plných textů a zpřístupňovány v bázi ANL a ANL FULL. Plné texty s metadaty jsou zpřístupňovány v několika uživatelských formátech, v několika formátech lze exportovat metadata a plné texty. Plné texty a metadaty jsou běžně přístupná zatím pouze v NKČR, zkušebně jsou plné texty možné po registraci a přihlášení pro externí uživatele na 7 dnů. Společnost Anopress souhlasí se zpřístupněním báze ANL FULL v rámci konsorcia knihoven pro přístup do báze TamTam v rámci VISK 8 na podzim roku 2003. Jak bude nutné zpřístupnění báze v rámci konsorcia ještě v některých případech doladit po stránce smluvní (vydavatelé) ukáže budoucnost. Není vyloučena určitá forma reciprocity. Zpřístupnění externím uživatelům bude vyžadovat řešení v této oblasti zcela jistě. Na serveru full.nkp.cz je také funkční portál pro zpřístupnění volně dostupných textů na Internetu ve struktuře tematické a regionální s popisem zdrojů. V projektu se dále řeší aplikace pro správu a údržbu KOSABI, která vychází z aplikací vyvinutých v rámci SK CASLIN (přijímání záznamů, konverze, úpravy a kontrola záznamů).. Architektura systému zpracování (linka automatické indexace/extrakce) a zpřístupňování plných textů v systému TOPIC (v současné době Portal One)
4.3.2 Systém TOPIC, a pojmové vyhledávání. Báze ANL FULL v systému TOPIC TOPIC (pojmově orientovaný vyhledávací systém, concept based retrieval) je systém třetí generace založený na následujících principech: rozklad pojmu na podpojmy, vážení jednotlivých podpojmů (větví pojmového stromu), neostré vyhodnocování dotazů. Kromě jiného lze v něm vyhledávat podle tzv. topiků (pojmů), což jsou předem strukturované dotazy určené k vyhledávání v plných textech. Dotaz v systému třetí generace reprezentuje pojem, resp. ideu vyhledávaného tématu. Jádrem dotazu je stromová hierarchická struktura, která rozkládá hledané téma na podtémata a přiřazuje jednotlivým částem váhy, které vyjadřují, do jaké míry příslušné téma přispívá k celkovému určení tématu. Systém dále vypočítá míru relevance vyhledaných dokumentů. Oproti běžně používaným operátorům TOPIC používá fuzzy operátor ACCRUE se specifickými vlastnostmi. Tento operátor sbližuje operátory and a or. Každý topik obsahuje tedy tři základní charakteristiky - strukturu, váhy a operátory (viz dále). Fulltextové vyhledávání pomocí topiců se vyznačuje úplností, značnou přesností a vysokou mírou přizpůsobivosti individuálním potřebám uživatelů. Úplnost (recall) znamená, že systém zachytí prakticky všechny dokumenty, které se v té či oné míře týkají daného tématu. Přesnost (precision) vyhledávání souvisí s hodnotou skóre: platí, že text, který obsahuje větší počet slovních kombinací typických pro určité téma, se k tomuto tématu váže. Soubor vytvořených topiců tvoří tzv. znalostní bázi. Pomocí široké škály operátorů lze stanovit způsob vyhodnocování důležitosti dokumentů vzhledem k dotazu. Toto číslo se nazývá relevance a nabývá hodnot 0,001 až 1.00. Dále systém umožňuje shlukovat (clustering) vyhledané dokumenty podle možného společného kontextu. Shlukování je založeno na statistické analýze obsahu prováděné při jeho indexaci. Pro každý dokument je vybrána řada slov (významový vektor), která s určitou pravděpodobností vystihuje obsah dokumentu, a na základě něj se vytváří automatická anotace v podobě nejvýznamnějších vět z dokumentu (summary). Báze ANL FULL v systému TOPIC. Jak se zaregistrovat. Jak vyhledávat. Výsledky vyhledávání a zobrazení, výstupy Jak se zaregistrovat Externí uživatelé se mohou zatím zaregistrovat pomocí formuláře v nabídce Registrace na dobu 7 dnů. Po vyplnění jména a hesla ve formuláři přihlášení lze vyhledávat v plných textech. Jak vyhledávat. Druhy dotazů v databázi ANL FULL a systému TOPIC Báze ANL FULL obsahuje jak bibliografický popis (metadata) v různé míře podrobnosti podle vývoje systému, tak plný text, přičemž obě tyto části jsou indexovány a lze z nich paralelně vyhledávat a docílit tím větší míru relevance výsledku vyhledávání k položenému dotazu. Systém umožňuje velmi sofistikované kladení dotazů vyžadující určitou zkušenost. Na druhé straně je možné položit dotaz velmi jednoduchým způsobem. Systém umožňuje tři způsoby hledání: vyhledávání (searching) pomocí formulářů (základní, rozšířený, rozšířený s tématy) a pole dotaz, pomocí topiců - předem strukturovaných dotazů v rámci rozšířeného formuláře, prohlížení (browsing) rejstříků. Prostý dotaz obsahuje slova nebo fráze oddělené čárkami nebo logickými spojkami, formulace mohou obsahovat různé konvence. Při vyhledávání se všechna slova skloňují a mají stejnou váhu. Formulářový dotaz obsahuje kromě možnosti pro zadání hledaného slova nebo fráze jako u prostého dotazu i pole pro zadání podmínek pro jednotlivé položky strukturované části textové databáze. Jde o rozšíření prostého dotazu. Tematický dotaz, resp. topic - definuje jednotlivá témata. Jsou rozdělena do tří úrovní. Témata jsou uspořádána do 8 oblastí, ty se dělí do 25 tematických skupin a skupiny obsahují zatím 114 detailních témat. Je nadefinováno 17 rejstříků. Výsledky vyhledávání, zobrazení výsledků. Způsoby zobrazení seznamu výsledků (názvů vyhledaných článků) V záhlaví seznamu výsledků je uveden počet vyhledaných článků. Počet vyhledaných dokumentů na stránku je dán volbou v poli Výsl./str. V závislosti na této volbě se potom zobrazuje počet stran s možností listování. U jednotlivých článků zobrazeny vždy, resp. standardně (zleva): tři formáty pro zobrazení údajů o článku, skóre relevance, datum vydání, název článku, velikost plného textu: jednoduchý (standardní zobrazení), se souhrnem (standardní zobrazení plus souhrn), seskupený (standardní zobrazení plus články uspořádané do skupin podle shody v klíčových slovech podle společného kontextu, clustering). Třídění seznamu výsledků (názvů vyhledaných článků) Třídění: dle skóre (relevance), dle názvu, zdroje, data (vydání), stran, a to sestupně nebo vzestupně. Zobrazení údajů o článku - formáty zobrazení Uživatelské formáty Citace článku, souhrn - bibliografické údaje o článku, resp. metadata s odkazy pro další hledání . Citace článku, plný text - bibliografické údaje o článků, resp. metadata s odkazy pro další hledání a plný text článku. DC/HTML – Dubline Core Metadata Název článku hypertextově aktivní – zobrazení citace a plného textu bez odkazů . Pracovní formáty V záhlaví plného textu jsou navíc různé pracovní formáty - klíčová slova, UNIMARC, Dublin Core – formát pro zpřístupňování elektronických dokumentů a jeho aplikace, které obsahují metadata (DC/HTML/META, DC/XHTML kvalifikovaný a nekvalifikovaný, DC/XML kvalifikovaný a nekvalifikovaný). Jsou určeny pro budoucí vývoj systému a zpřístupnění plných textů. Export a tisk článků Plné texty lze exportovat a ukládat na počítač uživatele v různých formátech (text, HTML, XML, RTF). 4.3.3 Periodika na WWW - strukturovaný portál na serveru full.nkp.cz Portál obsahuje volně přístupná periodika na Internetu se dále bude doplňovat, event. jejich uspořádání měnit. Nejsou zde zahrnuta periodika firemní, inzertní, bulvární, propagující hnutí potlačující lidská práva, sportovní, zpravodajská (zprávy z tiskových agentur bez dalšího kontextu) aj. periodika efemérní povahy.Takto zpřístupněná volně dostupná periodika jsou strukturována do přehledné formy portálu na úrovni krajské, tématické a institucionální. 4.3.4 Management Kooperačního systému článk ové bibliografie (aplikace MNG KOSABI)Na základě zadání pro řízení a správu kooperačního systému a za využití již vyvinutých řešení v rámci Souborného katalogu CASLIN probíhají práce na vývoji aplikace pro KOSABI na serveru ANL (systém LINUX a ORACLE) Ve stádiu ladění je aplikace pro příjem a automatizované zpracování dat (příjímání analytických záznamů, integrace stávajících programů pro konverzi analytických záznamů, globální úpravy analytických záznamů, vývoj programů na formálně logické kontroly kooperujících knihoven - test na UNIMARC pro analytické záznamy). Je vyvinut základ aplikace pro evidenci zpracovávaných titulů a test na duplicitu záznamů (klíčů) mimo ALEPH. V zásadě funkční je aplikace pro evidenci excerpční základny KOSABI. 5. Perspektivy - další možný vývoj prezentovaného systému, předpoklady, cíl Marc 21, zvážení možnosti a efektivnosti spojení automatické sklizně dat a linky zpracování (návaznost na Webarchiv), zabudování řízeného věcného popisu do topiků, napojení ANL FULL na autority, řešení le- gislativně právních otázek a otázek plateb (jasné oddělení textů poskytovaných zdarma a za úplatu), rozšíření linky zpracování na další instituce a aplikace moderních metod zpracování a zpřístupnění na spolupracující instituce v rámci KOSABI (zpracování pomocí linky TTDE je jednoduché a propojení s plnými texty automatické), usnadnění chodu, administrativy a správy KOSABI,orientace na další typy seriálových publikací, resp. pokračujících zdrojů po stránce obsahové a formální - předpoklad: dostatečné personální obsazení, pro uživatele zpřístupnění báze ANL FULL v rámci konzorcia Anopress, resp. celostátní licence (VISK 8), zpřístupnění báze ANL FULL v rámci Jednotné informační brány přes http protokol závisí na strategii tvůrců Metalibu (předpokládá připojit full.nkp.cz do Metalibu pro vyhledávání, připojit full.nkp.cz do SFX), spolupráce s nakladateli a vydavateli - začlenění linky zpracování do předpokládaného možného vývoje - předpoklad: strukturované údaje, resp. údaje Dublin Core v textových formátech, resp. HTML formátu. Cíl: automatické či poloautomatické zpracování bibliografických záznamů z plných textů a intelektuální indexace věcná. Popsaná linka zpracování je použitelná po úpravě vstupním filtrem i na data existující v jiné databázi, event. v komunikaci mezi autorem, nakladatelstvím, bibliografickou agenturou, knihovnou/informační institucí a naopak. Předpokládá však do jisté úrovně strukturovaný vstupní text, ze kterého data mohou být extrahována. 1) Pro identifikaci článků ve struktuře textu pro další zpracování v lince jsou důležité následující údaje z možných 15 prvků DC: Název (Title) Popis (Description) ve formě abstraktu Práva (Rights) Identifikátor (Identifier) 2) Pro konverzi či zápis údajů obsažených v hlavičce textu dokumentu je možno použít schéma definované na základě pokynů pro přispěvatele do časopisů (v běžném editoru), je možno použít i speciálních maker. #NAZ#Název článku#/NAZ# 3) Zobrazení metadat po konverzi do DC v lince zpracování <META name="DC.Title" content="Název"> 4) V rámci linky zpracování se potom údaje mohou dále editovat a následně konvertovat do HTML podoby a příslušných formátů. Do budoucna je možné uvažovat o několika subsystémech zpracování z hlediska typů titulů:
Závěr Základním cílem státní informační politiky je vybudovat a rozvíjet informační společnost a tím vytvořit předpoklady zejména pro zlepšení kvality života jednotlivých občanů, zefektivnění státní správy a samosprávy a zkvalitnění podpory rozvoje podnikání, zajištění bezbariérového přístupu k informacím v procesu výchovy a vzdělávání i pro vědecko výzkumnou činnost. Toto je i cílem institucí spolupracujících v KOSABI. Celkem dobře se daří napojení na plné texty publikované v novinách a některých časopisech díky vhodné situaci v této oblasti. Do budoucna nás čeká úkol složitější: propojení bibliografických záznamů plnými texty a zpracování elektronických zdrojů odborné, vědecké potažmo výzkumné povahy české provenience. Předpokladem je jejich publikování na Internetu a podpora tohoto publikování jak ze strany státu, tak ze strany jednotlivých subjektů, které tyto texty vlastní a produkují a transparentní, otevřený přístup všech zúčastněných. Vždyť se jedná o informace vznikající především ve veřejném sektoru. Zpřístupnění těchto informací se však neobejde bez spolupráce se soukromým sektorem. Domnívám se, že knihovny ani např. vysoké školy na to samy nestačí. Některé paralely a odlišnosti týkající se zpracování článků v Česku a na Slovensku:
Praktické výsledky projektů prezentované na www. Použitá literatura se nachází na níže uvedených adresách. Uvádím pouze nově publikovanou stať, která v této literatuře není.
|
| |