Nyílt könyvtári gyűjtemények az Interneten

Szabványos metaadatok: átjárhatóság

Tapolcai Ágnes

MEK Osztály tapolcai@mek.oszk.hu

2002. május 24.

Néhány évvel ezelőtt könyvtáros körökben vita folyt arról, hogy legyen-e egy közös integrált könyvtári rendszer a magyar könyvtárakban vagy sem. A közös rendszer megkönnyítette volna az együttműködést, de a kivitelezés megvalósíthatatlannak bizonyult. Még a Tinlibet használó könyvtárak körén belül sem tudtunk igazán egységes feldolgozást kialakítani. Az Internet elterjedésével a kérdés úgy merül fel, hogy térben távoli, esetleg más-más nyelven feldolgozott gyűjtemények együttes kereshetőségét kellene megvalósítani. Tudjuk, ami nem érhető el valamilyen nagyobb rendszer keretében, az elvész az Internet óceánjában. Arról persze szó sem lehet már, hogy közös rendszert találjunk, vagy megbeszéljük, hogyan is végezzük a feldolgozást. A helyzet a következő jelenségeket hívta életre illetve használja fel:

1. Nyílt rendszerek használata

2. XML leíró nyelv használata

3. Metaadatok szabványosítása

4. Összetett rendszerek: archíválás, közös lekérdezés

Ezek technikai megoldások, a továbbiakban részletezem is, összességükben azt jelentik, hogy a technika immár korlátlan lehetőséget nyújt ahhoz, hogy az Interneten az elektronikus formában meglévő katalógusokat, teljes dokumentumokat és egyéb alkotásokat jól használható módon megjelenítsük. Az egyes helyi rendszerek nagy szabadsággal rendelkeznek, hogy saját igényeik szerint alakítsák belső szerkezetüket, miközben ha az átjárókat, az adatcserét biztosító közös elemeket is beépítik, integrálódnak az országos vagy még nagyobb szolgáltatásokba.

1. A nyílt rendszerek

A nyílt rendszer azt jelenti, hogy olyan részekből áll, melyek egységes, gyártófüggetlen és nemzetközileg elfogadott szabványokon alapuló felületeket nyújtanak. Ennek következtében az egyes részek rugalmasan összekapcsolhatóak, valamint segítenek összehangolni a különböző hardver és szoftver termékek használatát. A nyílt rendszerek alapvető előnye a gyártófüggetlenség. Mivel a különböző gyártóktól származó szabványos rendszerkomponensek kompatibilisek egymással, a felhasználó minden összetevőt attól szerezhet be, aki az adott területen a legjobb minőséget vagy árat produkálja. Ráadásul később is áttérhet másik programkomponensre anélkül, hogy a rendszere osszeomlana. Időtálló megoldások tehát a nyílt rendszerek és természetesen képesek egymással kommunikálni és adatokat cserélni.

2. Az XML leíró nyelv

Az XML platform független leíró nyelv. Vagyis minden számítógép, bármilyen hardvert és szoftvert használ, tudja értelmezni. Egyszerű karakterekből álló szöveg, teljesen egyértelmű addig, amíg csak angol betűk vannak benne. A szövegek ebben az ábrázolási formában könnyen továbbíthatóak a hálózaton és nemcsak homogén szövegfolyamként. A HTML nyelvhez hasonlóan, magában a szövegben elhelyezett, szintén karakteres elemek struktúrálják. A formai megkötések nyílt szabványban az Interneten olvashatóak, azoknak értelmezését bármely programba bele lehet írni, ily módon egyetlen gyártó sem tudja kisajátítani magának, valamint komoly reményt nyújt arra, hogy a jövőbeli programok is el tudják olvasni. Például így nézhet ki (némi egyszerűsítéssel) egy könyv leírása:

<konyv>

<szerzo>

<vezeteknev>Neil </vezeteknev>

<keresztnev>Bradley</keresztnev>

</szerzo>

<cim>-az XML kézikönyv</cim>

<kiado>Szak Kiadó</kiado>

<hely>Budapest</hely>

<ev>2000</ev>

</konyv>

Ideális eszköz tehát a tartalom alkalmazások közötti átvitelére. Az így elraktározott adatokat persze át kell alakítani, ha más alkalmazás kéri, néha többször is, pl. fölösleges adatelemeket kiszűrhetünk, az elemek neveit megváltoztathatjuk, megjelenítési formátumot alakíthatunk ki. Ez utóbbira nincs szükség akkor, ha adatbázis kéri az adatot. Valójában eléggé elválik egymástól a logikai rendszer és a külső megjelenítés, ez utóbbi többféle is lehet ugyanazon adathalmazról. Az angol karakterektől eltérő betűk kódolására különböző szabványok vannak, ez nem érinti az XML szerkezetet, mindössze a fejlécben kell lennie egy bejegyzésnek, hogy melyiket használtuk.

Tehát az XML az alkalmazások közötti adatátvitelre alkalmas, mert:

1. Platform független, minden rendszer tudja alkalmazni, időtálló

2. Nyílt szabvány

3. Szöveges adat, könnyű a hálózati továbbítás

4. Egyszeri adatfelvitel, sokféle formába átalakítható

 

3. A metaadatok

A metaadatok jelentése: struktúrált adatok az adatokról, pl. ilyenek a könyvtári katalógusok tárgyszó indexek, és újabb formájukban a Weben található dokumentumok leíró adatai. A Web gyors növekedése sürgősen szükségessé tette hogy nemzetközi szabványokat dolgozzanak ki az egyes területekre, ez a folyamat 1995 körül kezdődött. Az egyes metaadat szabványok között eleinte zavar támadt, mivel párhuzamos fejlesztések folytak, és akik valamilyen szabványhoz akartak igazodni, pl. a nyílt rendszerek gyártói, nem tudták, melyik lesz a végső. Mára azonban tisztult a kép: a hasonló projektek elkezdtek együtt dolgozni, és az egyes területeken lassan világossá vált, melyik lesz végül az igazi szabvány. Ezen kívül megszülettek a domináns formátumok közti konverziók illetve kereszttáblák, (pl. A Dublin Core és a MARC között is) a domének közti átjárhatóság biztosítására. Az átjárhatóság különböző szinteken valósulhat meg: a közel rokon gyűjtemények között részletes, mély megfeleltetés végezhető el, ugyanakkor nagyobb körben is integrálhatóak a szerverek, és akkor a megfeleltetés (vagyis a kereshetőség) kevésbé mély, részletes. A SCHEMAS nevű projekt a szabványok fejlődésének bonyolult folyamatát követi, mégpedig a programfejlesztők szemszögéből, akik rendszereik átjárhatóságát ezek alapján biztosítják. Ezért az Interneten folyamatosan publikálja a szabványok legújabb verzióit: http://www.schemas-forum.org/project-info/objectives.htm Az elektronikus dokumentumok leírására a Dublin Core a legfontosabb szabvány pillanatnyilag http://dublincore.org/

A Dublin Core adatelemek

1. Title (cím)

2. Creator (alkotó)

3. Subject and Keywords (téma és kulcsszavak)

4. Description (leírás)

5. Publisher (kiadó)

6. Contributor (közreműködő)

7. Date (dátum)

8. Type (dokumentumtípus)

9. Format (fájl formátum)

10. Resource Identifier (azonosító a hálózaton)

11. Source (származási hely)

12. Language (nyelv)

13. Relation (kapcsolatok)

14. Coverage (hatókör)

15. Rights (jogok)

Az adatelemeket XML formátumba konvertálják adatcsere céljára, sematikusan ábrázolva ilyenformán néz ki:

<record-list>
<dc-record>
<title>cím</title>
<creator>első  szerző</creator>
 <creator>második szerző</creator>
...
</dc-record>

<dc-record>
<title>másik  cím</title>
<creator>másik szerző</creator>
</dc-record>
 ...
 </record-list>
4. Archíválás és közös lekérdezés

A fenti technológiai háttéren érdekes megoldások jöttek létre az elektronikus dokumentumok kezelésére. A probléma két fő köre különböző szerverekől származó gyűjtemények közös lekérdezése, valamint az archíválás és rendszerezés. A nyílt rendszerek és a szabványos metaadatok felhasználásával a közös lekérdezés megoldható. Az Open Archive Initiative (OAI, http://www.openarchives.org/ ), keretrendszert ajánl a csatlakozó dokumentumgyűjtemények közös kereshetőségére. Kétféle résztvevőt különböztet meg:

- data provider, adatszolgáltató szerver és
- service provider, a nyilvános szolgáltatást nyújtó szerver.

Középpontjában az OAI Metadata Harvesting Protocol áll. Az adatcserét az OAI szabvánnyal kompatibilis, Dublin Core adatelem készlet biztosítja. A dokumentum maga az adatszolgáltató szerverén marad, sőt itt vannak a metaadatok is, akár adatbázisban, akár más módon szervezve. A központi szerver átadja a kérést, és az adatszolgáltató szerver válaszként megadja a metaadatok listáját. A metaadatok között többnyire szerepel egy link a teljes dokumentumra is. A Dublin Core elemei között az Identifier szolgál erre a célra. Mindazonáltal nem kötelező ezt a linket beletenni, az adatszolgáltató dönthet úgy, hogy csak a metaadatokat adja át, ha pl. a tartalom nyilvános közlésére nem jogosult. Az elv hasonló a Z39.50-hez, de annál kevésbé átfogó, ezért egyszerűbb, könnyebben telepíthető. A közös készlet a Dublin Core 15 alapeleme, XML formában. Saját adatelemeiket ehhez rendelik hozzá az adatszolgáltató szerverek, de párhuzamos megjelenítési formátumok is lehetnek, ha azok jobban illeszkedhetnek a gyűjtemény természetéhez. Mindazonáltal az alternatív formátumok adatelemeit is XML formában kell megadni. A szoftver készen van és ingyenesen letölthető a webről. A gondosan tesztelt 2.0-ás verziót 2002. második negyedére igérik, amikor kellő publicitást is kap ez a tény.

Az elektronikus dokumentumok archíválása és szolgáltatása

Az elektronikus dokumentumok archívumának kezelésére több ingyenes szoftver is elérhető. Ezek egyike az eprints.org szoftver ( http://www.eprints.org ), amelyről részletes cikk 2002. ápr. 11-én jelent meg az Ariadne 31. számában ( http://www.ariadne.ac.uk/issue31/eprint-archives/ ). A szoftver két egyetemen már működik kísérleti jelleggel: http://www-db.library.nottingham.ac.uk/eprints/ , http://eprints.lib.gla.ac.uk/ Az egyetemi, kutatóintézeti e-archívum létrehozása különösen hasznos, mert a legfrissebb eredmények így sokkal jobban hasznosulnak, valamint archíválásuk is megoldódik. Ahhoz, hogy jól használható és ismert legyen egy archívum, kell egy bizonyos mennyiségű tartalom. Ezután már önmagától gyarapszik, mert a közismert helyekre szívesen felteszik az emberek alkotásaikat.

 

Összefoglalva a lehetőségek igen kibővültek a technika oldaláról. Létrehozhatóak lennének egyetemi publikációs archívumok és alternatív elektronikus folyóiratok, metaadat szinten összekapcsolhatnánk a meglevő hazai digitális könyvtárak gyűjteményeit, közös lekérdező felületet vagy közös elosztott adatbázist lehetne csinálni a magyar cikkbibliográfia és a TOC adatbázisokhoz stb. Mindehhez alapvetően az kell, hogy mindenki a nyílt megoldásokat használja, vagy legalább adatcsere szinten képes legyen ezek kezelésére, mert az együttműködő rendszereké a jövő.