GŐZ ÁGNES: AZ INTERNETEN ELÉRHETŐ INFORMÁCIÓFORRÁSOK KATALOGIZÁLÁSA

GŐZ ÁGNES

AZ INTERNETEN ELÉRHETŐ INFORMÁCIÓFORRÁSOK KATALOGIZÁLÁSA

Az Internet állandóan "építés alatt" van. A róla publikált cikkek, vagy könyvek gyakran már a kiadásuk időpontjában elavultnak számítanak. A legkurrensebb és legrelevánsabb információ többnyire csak magán az Interneten található meg. Nagyon sok tanulmány éppen ezért az Interneten elérhető forrásokra épül, még akkor is, ha ezek a források általában tűnékenynek számítanak, vagy a szerzőik provenanciája olykor kétséges. Valamekkora minőségi biztosítékot jelent azonban az, ha olyan elektronikus dokumentumokat használunk fel, amelyek valamely szakmai szervezet jóvoltából érhetők el, és a dokumentumokat még akkor is el tudjuk érni valahol, ha az Interneten való elérési címük, azaz URL-jük (Uniform Resource Locator) időközben megváltozik (Woodward, 1996). Sajnos azonban ez nem mindig lehetséges, mert nagyon sok kiváló dokumentum nem tartalmaz megfelelő információt a származására, vagy közreadójára vonatkozóan.

A web oldalak és az egyéb Interneten elérhető források exponenciális növekedésével az Interneten, és annak legközkedveltebb felületén, a World Wide Weben, egyre nehezebb megtalálni az éppen szükséges információt. A robotokkal felszerelt keresőoldalak, mint például az Infoseek vagy az AltaVista, folyamatosan fejlesztik ugyan az általuk biztosított keresési lehetőségeket, de a gyakorlatlan keresők számára továbbra is sokszor csalódásokat okoznak. A tárgy szerinti felosztású, kategória-orientált listák, mint például a Yahoo!, könnyű kereshetőséget kínálnak, de a lefedett területek mérete és kiterjedtsége meglehetősen korlátozott. Függetlenül tehát attól, hogy milyen keresőrendszert használnak, még a gyakorlott felhasználók is gyakran elgondolkoznak, hogy vajon létezne-e jobb megoldás a keresésre (Braun és Fleming, 1996).

A jelenleg létező több millió Internet forrás szerverek ezrein oszlik el. "Ez az anyag alig rendszerezett, minősége és stabilitása változó, nehéz értelmezni, böngészni, keresni, vagy hivatkozni rá" (Levy, 1995). Joshua Quittner már 1992-ben felhívta a figyelmet arra, hogy az Internet legnagyobb problémája az, hogy olyan sok információt tartalmaz, hogy nemcsak hogy nehéz megtalálni azt az információt, amire szükségünk van, de sokszor még azt sem tudjuk, hogy azt egyáltalán hogy, illetve hol kezdjük el a keresést. Ed Krol, az "Autóstopposok kézikönyve az Internethez" szerzője, szintén úgy jellemezte az Internetet, hogy az nem más, mint egy könyvtár, ahol a könyvek szanaszét hevernek a padlón és nincs katalógus. A rendszerezésre való igény tehát már elég korán megvolt a számítógépes szakemberek részéről, és közülük többen is könyvtári analógiákat használtak, viszont nem gondoltak arra, hogy a könyvtárosok által már kialakított rendszereket használjanak az elektronikus dokumentumok rendszerezésére (Taylor, 1994).

Lehet-e egyáltalán rendszerezni az Internetet? Ha igen, akkor a válasz a világháló rendezetlenségére vajon a technológiában (azaz a nagyobb, gyorsabb keresőprogramokban), vagy pedig a humán erőforrásokban (azaz a kicsi, de bizonyos szempontok szerint értékelt hypertext kapcsolatokból [linkekből] álló gyűjteményekben) rejlik? Elképzelhető, hogy az Internet nagyjából szervezetlen, rendezetlen marad a változékonysága, a publikálásban mindenki számára egyenlőséget biztosító jellege miatt, de ugyanakkor egyre nő az olyan projektek száma, amelyek kisérletet tesznek az Internet források valamiféle rendszerezésére, és ezen törekvésük során vagy új rendszerezési technikák kifejlesztésével, vagy pedig a könyvtárakban már bevált és évtizedek óta használt rendszerek felhasználásával próbálkoznak (Braun és Fleming, 1996).

Lehet-e rendszerezni az Internetet?

Sok könyvtáros megkérdőjelezi, hogy az Internet a jelenlegi állapotában egyáltalán rendszerezhető-e, mert úgy tartják, hogy az Internet jelenleg túlságosan instabil az üzleti versengésből származó újabb és újabb technológiák és termékek gyakori megjelenése miatt. Priscilla Caplan néhány évvel ezelőtt még a következő kérdéseket tette fel a MARC és az AACR szabványok online dokumentumokra való kiterjesztése kapcsán: "Érdemes-e a könyvtárosoknak az Interneten talált anyagok katalogizálásával foglalkozni? Ha igen, akkor a MARC a legmegfelelőbb erre a célra? Az olyan hálózati eszközök, mint az Archie vagy a gopher vajon nem teszik-e fölöslegessé a könyvtári katalógusokat?" (Caplan, 1993).

Erik Jul (1996) a könyvtári szakemberek Internet források katalogizálására vonatkozó reakcióit megvizsgálva három okot jelöl meg, amelyek miatt a könyvtárosok sokszor idegenkednek az Internet forrásainak katalogizálásától. Az első ok az, hogy sokan még mindig úgy tartják, hogy az Interneten nincs semmi, ami katalogizálásra érdemes lenne. Ezt többnyire az magyarázza, hogy az Interneten nagyon sok az olyan, könnyen elérhető anyag, ami a könyvtárak gyűjtőkörén kívül esik. Ha azonban belegondolunk a hagyományos könyvtári gyűjteményszervezésbe, akkor nyilvánvaló, hogy a könyvtárak a nyomtatott anyagokat illetően is szelektálnak, tehát az Internet esetében sem kell, illetve lehet teljességre törekedniük. Az Internet források teljes kizárása viszont olyan értékes dokumentumok elvesztését jelentheti, amelyek adott esetben nemcsak hogy megfelelnek a könyvtár gyűjtőkörének, de elengedhetetlen fontosságúak is.

A második általános feltételezés az Internet forrásait illetően az, hogy minden, ami az Interneten ma megtalálható, az holnap már elérhetetlen lesz. Igaz, hogy a megbízható, hosszú-távú hozzáférés az Internet források esetében még megoldatlan problémát jelent, de ez nem jelenti azt, hogy valamennyi Internet forrás annyira tűnékeny lenne. Érthető módon, vannak olyan források, amelyek épp a jellegüknél fogva rövid életűek. Sok egyéb forrás viszont a URL változása miatt lesz elérhetetlen, és így a használó számára értéktelen. A fontosabb Internet források létrehozói azonban megbízhatóságra törekednek, és a fő céljuk az, hogy a használóik könnyűszerrel, és hosszú távon tudjanak hozzáférni a web oldalaikhoz. A katalogizálóknak tehát elsősorban a stabil, megbízható források katalogizálására kell törekedniük. Természetesen a szelekció önmagában nem mentesíti a katalogizálást végző intézményt a források rendszeres reviziója alól. Alternatív megoldásként ugyan megemlíthetők az Egységes Forrás Nevek (URNs = Uniform Resource Names) és az Állandó Egységes Forrás Lokalizálók (URLs = Uniform Resource Locators). A URN rendszer egy világszerte egyedi és tárolási helytől független elnevezést támogat, amelynek segítségével kideríthető a forrás tárolási helye. A PURL lényege az, hogy minden egyes aktuális URL-hez egy állandó URL-t rendel hozzá.

A harmadik, igen gyakori érv az Internet forrásainak katalogizálása ellen az, hogy az eredetileg nyomtatott dokumentumokra kifejlesztett szabványok, mint a MARC vagy az AACR2, egyébként sem lennének alkalmasak a hálózati források leírására. Ez a probléma időről időre felmerül az új médiumok megjelenésekor. Sokan szeretnék, ha a MARC sokkal rugalmasabb lenne. Igaz, nem tökéletes, de mégis az egyik legelfogadottabb szabvány a gépek közti kommunikációra és a bibliográfiai adatcserére. A MARC Internet forrásokra való adaptálásának nagyon sok, közvetlen előnye van: jelenleg már sok MARC-alapú rendszer létezik; az osztott katalogizálás előnyeit továbbra is élvezhetik a könyvtárak; lehetséges az Internet források rekordjainak a helyi katalógusokban való megjelenítése. Hasonló a helyzet az AACR2 szabályokat illetően. Az AACR2 szintén folyamatos revizióra szorul, hogy alkalmazkodni tudjon a változó technológiákhoz.

Jelenleg a World Wide Web legismertebb keresőoldalai nem könyvtárosok munkái. Rendszerezettségük mindig a web keresőoldal létrehozójának "egyéni" elgondolásait tükrözi. A legtöbb keresőszolgáltatás elsősorban a kulcsszavakon alapul és lehetővé teszi a Bool-féle logika szerinti keresést. A csak kulcsszavakon alapuló Internet indexelés azonban problematikus lehet. A WAIS (Wide Area Information Server) és az ahhoz hasonló eszközök súlyozott relevancia értékelést alkalmaznak, de még nagyon messze vannak a természetes nyelvi feldolgozás teljes kihasználásától, mivel nem képesek a kontextus értékelésére. Az eddigi tapasztalatok alapján a tárgyi hozzáférés majdnem mindig preferáltabb, mint a kulcsszó szerinti keresés. Ha valakinek keresést kell végeznie, akkor sokkal sikeresebb a tárgyi felosztású fastruktúrák használata során, mint a szóalapú keresési stratégiával, különösen akkor, ha a kereső nem jártas az adott szakterületen, vagy az adott nyelven.

A könyvtáros szakmában az elektronikus dokumetumok nagyszámú megjelenésével az utóbbi években a "falak nélküli könyvtár" fogalma teljesen ismertté és elfogadottá vált. A hagyományos könyvtárak filozófiájában jelentős változás ment végbe: a hangsúly a dokumentumok fizikai birtoklásáról az információ elérhetővé tétele felé tolódott. A CATRIONA (Cataloging and Retrieval of Information Over Networks Applications) projekt úgy fogalmazza meg a problémát, hogy ahhoz, hogy a falak nélküli könyvtár realitássá váljon, először azt a problémát kell megoldani, hogy a felhasználó hogyan tudja az igényeinek megfelelő forrásokat és szolgáltatásokat megtalálni. Jelenleg úgy tűnik, hogy a megoldás az új szoftver technológiák és a már elismert könyvtári módszerek és gyakorlatok kombinációjában rejlik. Az Argus Clearinghouse (1996) azt hangsúlyozza, hogy ahhoz, hogy az Internet egy sokkal hasznosabb információs környezetté váljon, humán erőfeszítéseket kell kombinálni a kereső és böngésző technológiákkal. Csak szoftveres megoldás nem elegendő. Az automatizált rendszerek számára a nyelv és a fogalmak egyszerűen túlságosan kétértelműek ahhoz, hogy azokat megfelelően azonosítani és értékelni tudják. Jelenleg úgy tűnik, hogy a mesterséges intelligencia a közeljövőben még nem lesz képes megfelelni ennek az elvárásnak.

Mindennek ellenére ezt a nézetet láthatóan nem osztja az átlagos Internet felhasználók és szolgáltatók többsége. Steinberg a Wired Magazinban azt írja, hogy bár a könyvtártudomány tűnik a legnyilvánvalóbb helynek, ahova az Internet rendszerezésének problémájával fordulhatunk, az mégsem tud segíteni, hiszen maga a szakma is elégedetlen a jelenlegi osztályozási rendszerekkel. (Woodward, 1996) Cikkében Steinberg arra a következtetésre jut, hogy az osztályozási rendszerek csak a polcon való elrendezésre alkalmasak és alkalmatlanok az elektronikus dokumentumok rendszerezésére.

A Yahoo!, az egyik legelső és legsikeresebb web keresőrendszer, abból a meggyőződésből kiindulva, hogy a meglévő osztályozási rendszerek nem tudtak lépést tartani a tudomány fejlődésével, megpróbált kitalálni egy új osztályozási rendszert. Ugyanakkor a Yahoo! katalogizálói panaszkodnak arról, hogy az egyes dokumentumok esetében milyen nehéz megtalálni azt az egy elérési pontot, amelynek alapján azt valamelyik kategóriához kapcsolják. Minden egyes URL számára egy rekord készül, és a rekord csak egy helyre kerül be a Yahoo! hierarchikus struktúrájába. Ha a Yahoo! a facettás osztályozás adta lehetőségeket használná, akkor nem kerülne ilyen nehéz helyzetbe. Az elektronikus világban az osztályozásnak nem kell a polcok számára kifejlesztett lineáris elrendezést követnie. Azaz a Yahoo! inkább visszább lépett az időben, mintsem előre (Woodward, 1996).

Digitális könyvtárak

A "digitális könyvtár" kifejezésben a könyvtár szó ugyan tökéletesen tükrözi a projektek jellegét, ám maguk a projektek nagyon kevés hagyományos könyvtári szaktudást tükröznek. A digitális könyvtárak felhasználják ugyan a könyvtárosok gyűjteményépítő tapasztalatait, amikor a saját felhasználói közösségük igényeinek megfelelően válogatnak mind a helyileg elérhető szövegfájlok, képek, videó vagy hang-fájlok, mind pedig az Interneten elérhető dokumentumok milliói közül, a digitális könyvtárakban levő források azonban rendszerint nem a könyvtárosok elvei szerint katalogizáltak, sem a fizikai, sem a tartalmi leírást illetően (Woodward, 1996).

A digitális könyvtári projektek nagyon sok támogatást kaptak már eddig is olyan szoftverek kifejlesztésére, amelyek ezeknek a könyvtáraknak a kiépítését támogatják. A szakirodalom szintén bővelkedik az új, innovatív visszakeresésről és szöveganalizáló alkalmazásokról szóló cikkekben. A hagyományos osztályozás és bibliográfiai leírás azonban csak nagyon kevésszer kerül említésre. Ezeket a technikákat általában úgy említik, hogy túlságosan sokba kerülnének az időigényes humán munka miatt, vagy pedig úgy kezelik, mintha elhanyagolhatók lennének a fejlődő információvisszakeresés új megoldásainak megjelenésével.

A természetes nyelvi feldolgozási technikákat, kulcsszavas indexelést, és a kifinomult keresőprogramokat egyre gyakrabban említik az Internet elérési problémáira való potenciális megoldásként. Az AltaVista keresőrendszere jó példa a gyors keresésre. A gyors keresés azonban nem feltétlenül jelent jobb minőségű keresést is (Taylor és Clemson, 1996). Nem mindenki van tehát meggyőződve arról, hogy a szoftver az egyetlen megoldás. A technikai szakemberek azonban hajlamosak csak a technikai infrastruktúrát figyelembe venni, és elhanyagolják a láthatatlan szociális infrastrukturát, aminek a segítségével a legtöbb dolog, nem csak a könyvtárak, működik.

A dokumentum fogalma a digitális könyvtárak korában

A digitális könyvtárak alapvető funkciója nem magának az Internetnek, hanem az Interneten megtalálható dokumentumoknak a katalogizálása. A katalogizálás szempontjából az Internet nem katalogizálási egység, mivel nem tekinthetjük egy önálló könyvtárnak. Része lehet azonban annak a technológiai infrastruktúrának, ami támogat egy könyvtárat, de továbbra sem lesz könyvtár, legalábbis nem abban az értelemben, ahogyan egy könyvtári intézmény hozzáférést biztosít egy gyűjteményhez. Hagyományos értelemben az Interneten elérhető anyagok nem alkotnak egy könyvtári gyűjteményt, hiszen az Internet nem egy bizonyos felhasználói kör igényeinek a kielégítésére törekszik (Levy, 1995).

Az elektronikus források (dokumentumok) világában a könyvtárosok, az információs szakemberek, éppúgy mint a hagyományos nyomtatott dokumentumok kiadói, kissé zavarodottan szemlélik a technológiában, jogi kérdésekben bekövetkező radikális változásokat. Az egyik legalapvetőbb fogalom az információs szakemberek számára, ami egyértelműen átgondolásra szorul, a dokumentum fogalma. Azaz, az elektronikus források rendszerezésénél az első felmerűlő kérdés az, hogy az elektronikus környezetben mit is értünk dokumentum alatt. A hagyományos fogalom olyan feltételezéseken alapul, amelyek nem veszik figyelembe az elektronikus formátum jellegzetességeit és használatát. Nem foglalkozik olyan kérdésekkel, hogy vajon a hypertext kapcsolatok (linkek) által egymáshoz kapcsolt dokumentumok egy dokumentumnak tekinthetők-e, az elektronikus üzenetek (e-mail) egy sorozata egy dokumentumot alkot-e, ki a szellemi birtokosa a hyperlinkekkel egymáshoz kapcsolt dokumentumok egy bizonyos csoportjának.

Mi tekinthető tehát dokumentumnak? Nyilvánvaló, hogy az elektronikus dokumentumoknak vannak bizonyos egyértelmű jellegzetességei, amelyek megkülönböztetik őket a nyomtatott dokumentumoktól. Ilyen jellegzetességek például a könnyű manipulálhatóság, külső és belső linkek hozzáadásának lehetősége, egyszerű transzformálhatóság, azonnali adatátvitel, korlátlan másolhatóság. Az elektronikus publikálásban tehát a legnyugtalanítóbb aspektus a változtathatóság. Ez, a bibliográfiai kontrol mellett, olyan fontos kérdéseket is érint, mint a szellemi tulajdonjog problémája, vagy bizonyos foglalkozások (pl. a kiadás) szerepe a dokumentum- vagy információ-szolgáltatásban. A bibliográfiai kontroll szempontjából a dokumentumok legfontosabb jellemzője azok "megfoghatatlansága," átmeneti, képlékeny, folyton fejlődő, változó természete, egyszerre több felhasználó számára való elérhetősége és az egyes felhasználók igényeihez való adaptálhatósága.

Az elektronikus dokumentumok természete a dokumentum fogalmának átgondolására késztet. Hogyan módosíthatjuk a dokumentum fogalmát úgy, hogy az pontosabban fejezze ki a jelenleg használatos valamennyi dokumentumtípus jellemzőit? Schamber (1996) a következő kategóriák átgondolását javasolja a dokumentum újradefiniálásával kapcsolatban:

(1) Homogén dokumentum: Hagyományosan a dokumentumot egyetlen fizikai entitásként értelmezzük, amelyet egy vagy több szerző alkotott, és ami véges terjedelmű, állandó, lineáris tartalommal bír. Ezen típusú dokumentumok heterogén gyűjteményét általában tárgy szerinti csoportosításban, vagy médium szerint tárolják.

(2) Hyperlinkekkel összekapcsolt heterogén dokumentum: Az információs központok katalógusokon és index-rendszereken keresztül biztosítanak információhozzáférést. Ezek az eszközök lehetővé teszik dokumentumrekordok valamely közös jellemző alapján való visszakeresését. Az így visszakeresett halmazt felfoghatjuk úgy, mint egy céltudatosan egyesített meta-adatot. Jelenleg, az információs központok gyakran használnak külön tárgy és médium szerinti katalógusokat. Ideális esetben egy elektronikus rendszer teljes mértékben képes integrálni a heterogén dokumentumokhoz való hozzáférést. Az összekapcsolt számítógépes hálózatok világában a linkekkel összekapcsolt dokumentumrészek leírása magába kell hogy foglalja a web oldalakhoz való elérési útvonalat.

(3) A kapcsolódó dokumentumok kontextuális megjelenítése: A kifinomult elektronikus rendszerek vissza tudnak hívni olyan dokumentumhalmazokat, amelyekben az egyes rekordok a tárgyi hasonlóság mértéke alapján rangsorolva vannak. Az igazán kreatív tervezők kifejlesztettek olyan háromdimenziós megjelenítési formákat (piramisok, szobák, stb.), amelyek segítenek elképzelni a rangsorolt halmazokat. Ebben az esetben az egész halmaz egy meta-adatot képvisel.

(4) A felhasználó által létrehozott heterogén dokumentum: A hypertext világában a felhasználó összekapcsol és manipulál dokumentumokat vagy dokumentumok részeit, és így új dokumentumokat hoz létre. A dokumentum továbbra is változtatható marad, és a végtelenségig vagy legalábbis mindaddig módosítható, amíg a felhasználó új kapcsolatokat (kapcsolódó linkeket) fedez fel. A dokumentumnak ezen dinamikus fogalma alapján a tartalom a felhasználó kontrollja alatt áll. A dokumentum tehát egyedi és nem állandó, és ezért valahogyan a dinamikus linkek segítségével kell leírni.

Mindezek az elképzelések olyan megközelítésen alapulnak, amely a dokumentumokat, mint alkotásokat/tárgyakat veszi figyelembe. Ha arra gondolunk, hogy a végső cél nem az alkotások/tárgyak, hanem az információ biztosítása a felhasználó számára, akkor a dokumentum definiálásakor egy folyamat-orientált megközelítést célszerű használnunk. Természetesen a legfontosabb dolog nem az, hogy egyetlen definíciót alkossunk, amely kifejezi az elektronikus dokumentumok valamennyi jellemzőjét. A hangsúly a fogalom újragondolásán van. A bibliográfiai kontroll újragondolása pedig az olyan új fogalmak beépítését jelenti a mindennapi gyakorlatba, mint a hypertext, linkek, web oldalak, megjelenítési formátumok, verziók, navigációs lehetőségek, stb.

Az elektronikus dokumentumok

Egy Internet katalógus létrehozásának egyik fő problémája az Internet dokumentumok és szolgáltatások tűnékeny természete. Az Internet használók egyik állandó frusztrációja a nem érvényes linkek gyakorisága. Valószínüleg a jövőben az Internet nagyobb stabilitással bír majd, jelenleg azonban meg mindig átalakulóban van. Guedon (1994) úgy véli, hogy az elektronikus kiadás esetében egy külön osztályozási rendszert kell kialakítani, amely megfelel az elektronikus dokumentumok jellemzőinek. Ezek a tulajdonságok pedig meglehetősen eltérőek a nyomtatott dokumentumokétól. Az elektronikus kiadást inkább egy kommunikációs eszköznek fogja fel, és nem az információ állandóvá és széles körben való elérhetővé tételének.

Az Internet dokumentumok flexibilitása és nyitottsága az interaktív párbeszédek és a módosíthatóság iránt egyértelműen pozitív dolgok, viszont a katalogizáló könyvtárosok szemében ezek inkább akadályok, mintsem előnyök. Woodward szerint az OCLC kissé naívnak tűnik, amikor azt feltételezi, hogy az Interneten információt szolgáltató intézményekkel való megegyezések révén az elektronikus dokumentumok lelőhelye állandósítható. Valójában, egy központi katalógus szolgáltatójának vállalnia kell azt, hogy rendszeresen ellenőrzi a rekordok érvényességét. Nagyon sok forrás vándorol egyik szerverről a másikra a weben való jelenléte során. A URN, a PURL, vagy az Egységes Forrás Azonosítók (URIs = Uniform Resource Indentifiers) segíthetnek minimalizálni ezt a problémát, de az Internet dokumentumok mozgása elkerülhetetlen. Valójában magának a dokumentumnak a változása is igen gyakori. Módosítások, kiegészítések, törlések nagyon gyakran előfordulnak, és felmerül a kérdés, hogy mekkora mértékű változás után tekinthető egy módosított forrás új dokumentumnak. Az elektronikus dokumentumok esetében érvénytelen az az állandóság, amit a nyomtatott dokumentumokkal asszociálunk. Ezeket a változásokat pedig tükrözni kell a katalógus rekordokban, ami azt jelenti, hogy valakinek fel kell vállalnia a változások követését (Woodward, 1996).

Az online információs források legalább két, jól elkülöníthető kategóriába sorolhatók: elektronikus adatforrások, valamint online rendszerek/szolgáltatások. Az első kategória azokat az elektronikus forrásokat foglalja magába, amelyek vagy online, vagy offline módon érhetők el, és amelyeket viszonylag könnyen le tudunk írni a jelenlegi MARC bibliográfiai formátumban. Ezeknél az anyagoknál felmerül a probléma, hogy hogyan határozzuk meg a "lelőhelyüket," amikor az adatok egy távoli rendszer vagy szolgáltatás révén érhetők el, és nem egy hagyományos könyvtáron vagy archívumon keresztül. A második kategória sokkal inkább a szolgáltatói közösség információs formátumához hasonlít, mintsem a bibliográfiai adatokhoz (Caplan, 1992).

Az elektronikus adatforrások kategóriájába olyan dokumentumok tartoznak, mint a számítógépes szoftverek, géppel olvasható formátumban tárolt szövegek, vagy képek, bibliográfiai, numerikus, vagy egyéb adatok adatbázisai. Ezek a dokumentumok lehetnek csak elektronikusak, de előfordul, hogy vannak nyomtatott megfelelőik is. A számítógépes rendszerek, vagy szolgáltatások külön kategóriát képviselnek. Lehetnek teljesen nyilvánosak, de lehetnek csak egy bizonyos közösség számára elérhetőek. A fő jellemzőjük az, hogy többnyire csak hálózaton át érhetők el.

Meta-adatok

A könyvtárak már régóta használják a katalógus tételeket és a MARC rekordokat, illetve biztosítanak elérést a nyomtatott irodalomhoz. Mivel a digitális gyűjtemények rég túlnőttek a könyvtárak falain, ezek a jól ismert és kedvelt eszközök túlságosan részletesek, és következésképpen sokak szerint alkalmatlanok a digitális dokumentumok leírására. A legközismertebb kezdeményezés, ami új formátumot nyújt a digitális dokumentumok leírására, egy 1995 óta tartó nemzetközi konferencia sorozat eredményeképpen alakult ki, és a "Dublin Core meta-adatok" vagy "Warwick Framework" néven vált ismertté (Klemperer és Chapman, 1994).

Különböző típusú intézmények egyik legkurrensebb nemzetközi vitatémája az, hogy a kutatók hogyan tudják hatékonyabban megtalálni a számukra szükséges információkat az Internet és a web-alapú források használata során, illetve a meta-adatok mennyire lehetnek hasznosak ebben a keresésben. Könyvtárosoknak, levéltárosoknak, múzeumi szakembereknek, éppúgy mint az információs szabványok, hálózatok szakértőinek számára a meta-adat kifejezés különböző konnotációkat hordoz. Míg egyrészt a MARC formátum használata is meta-adattal való foglalkozást jelent, manapság egyre inkább a digitális fájlok fejlécében (header) található deszkriptív információ azonosítását értik alatta.

Stuart Weibel, akit a Dublin Core kitalálójaként szoktak emlegetni, a meta-adatokat olyan egyszerű leírási formátumként definiálja, amelyeknek a célja a weben való keresés javítása egy nemzetközi megegyezés segítségével. Nagyon sok eltérő adatmodellel rendelkező adatbázis létezik, de bizonyos fokig valamennyi leírható a Dublin Core-nak nevezett közös adatmodellel. A Dublin Core fő célja, hogy a tartalom és a tartalmat leíró szintaktikai kifejezés közti függetlenséget fenntartsa. Korábban, a katalogizálás során, a könyvtárosok valamennyire megengedték a szintaktikai kifejezések összevegyítését az adat tartalom modellel. A Dublin Core esetében azonban, e két dolog elkülönítésére most ők is figyeltek. Könyvtáros berkekben már régóta folyik a meta-adatok létrehozása, ezeket az adatokat azonban hagyományosan katalógus adatoknak nevezzük. Ez a kifejezés régimódinak tűnik az Internet világában, ezért sokan (elsősorban a nem könyvtári szakemberek) a meta-adat kifejezést szívesebben használják.

A Dublin Core már úgymond de facto szabványként használatos, ami remélhetőleg (a mostani érdeklődésből kiindulva) formális szabvánnyá válik majd. Jelenleg az egyik legkurrensebb feladat az Internet dokumentumok leírásainak nemzetközivé tétele. A web jelenlegi infrastruktúrájában több helyen is előfordulnak különböző nyelvekhez kapcsolódó különböző karakterhalmazok, amiknek kezelésére ugyan jelenleg még nincs megoldás, de 16 ország adatleírói folyamatosan dolgoznak egy nemzetközi Dublin Core prototípus kialakításán. Ez azt jelenti, hogy van esély arra, hogy nemzetközileg egységes megoldás szülessen a hálózaton elérhető források katalogizálására.

Eredetileg a meta-adatok létrehozása egyetemi kutatók ötlete volt, de azóta egy nagyon széleskörű gyakorlati témává vált, ami jelenleg a legnagyobb prioritású a web architektúrával foglalkozók körében. Egy ilyen jellegű szabvány létrehozásakor felmerül a kérdés, hogy a meta-adatok problémája elsősorban a kutatói környezetre korlátozódik-e. Ha figyelembe vesszük azt, hogy például az üzleti világban mindenkinek képesnek kell lennie arra, hogy létrehozza a saját meta-adat halmazát anélkül, hogy más meta-adat halmazokat ismerne, hiszen az erre irányuló kooperáció időigényes és drága lenne, akkor a válasz egyértelműen nem. Ezen kívül magát a kódot, ami a Dublin Core használatát teszi lehetővé, olyan cégek fogják beépíteni a keresőkbe (browser) és a szerverekbe, mint a Microsoft és a Netscape. A könyvtárosok szerepe az információrendszerezés terén a legfontosabb. A Dublin Core potenciális hasznosságát nem csak a végfelhasználóknak, hanem valamennyi adatszolgáltató intézménynek is fontos felismernie a web használatán túl is, hiszen az információszolgáltató intézményeknek hasznos lehet az, hogy hogyan lehet használni egy átfogó meta-adat térképet arra, hogy a felhasználók jobban tudjanak tájékozódni az információ világában.

Az 1997 nyarán megalakult Metadata Working Group, amely javaslatot tett az egyes Dublin Core definíciók módosítására, valamint elkészítette az irányelveket arra vonatkozóan, hogy a Dublin Core elemek használatát hogyan lehet kiterjeszteni más információtípusokra is. A meta-adatoknak nem csak az a funkciójuk, hogy a web indexeiben való keresést megkönnyítsék, hanem az is, hogy a hagyományos dokumentumok meta-adatait is megjelenítsék a weben. A felhasználók ugyanis hajlamosak azt hinni, hogy ami nincs a weben, az nem is létezik, ezért emlékeztetnünk kell őket arra, hogy hatalmas mennyiségű kitűnő információforrás létezik a weben kivül is.

A meta-adatokra több metafóra is létezik. Az egyik, a méhek példáját felhasználva, úgy definiálja a Dublin Core szerepét, hogy az tulajdonképpen egy felhasználói felület a könyvtárosok és a számítógépes szakemberek között. Ha ugyanis két méhcsaládot csak úgy összeengednek, akkor az a családok közti harchoz vezet. Ezzel szemben, ha egy kilyukasztott újságpapírt helyeznek a két család közé, akkor azok fokozatosan ismerik meg egymást és vegül egy családdá olvadnak.

A Dublin Core Elemek

A Dublin Core Elements, azaz a Dublinban 1996-ban született megegyezés azon 15 alap információs elem--más néven meta-adat deszkriptor--kialakításáról, amelyeket a web oldalakon való indexelés és absztrakt készítés során használnak a keresési eredmények javítása céljából, igazi mérföldkőnek számít. A Dublin Core folyamatos fejlesztés alatt áll, amelyet az érdekelt területek szakértői rendszeres találkozókon vitatnak meg, illetve vizsgálnak felül.

1997 júliusában a Research Library Group találkozóján például megvitatásra került, hogy a dublin core elemei hogyan használhatók olyan anyagok elérésére, amelyek nem a weben keresztül érhetők el. A kérdés az, hogy milyen típusú meta-adatokat szükséges az olyan különböző típusú forrásokhoz kapcsolni, mint a hagyományos könyvtári anyagok, online könyvtári katalógusok, elektronikus szövegek, és múzeumi tárgyak. Jelenleg az a fő probléma ezekkel a forrásokkal, hogy a weben keresztül ugyan elérhető bizonyos információ ezekről az anyagokról, de maguk a dokumentumok nem web-alapúak és jelenleg gyakran csak önálló, inkompatibilis indexelő és kereső protokollokon keresztül érhetők el.

A Dublin Core meta-adat elemek jelenlegi verziója 1996 decemberében lett véglegesítve. Az adatelemek és azok definíciója valószínüleg nem változik alapvetően a közeljövőben, bár néhány adatelem alkalmazása jelenleg kisérleti szinten folyik és az értelmezése implementációnként változhat. Az elemek elnevezései azok szemantikai értelmezését próbálják tükrözni. Minden elemhez kapcsolódik egy egyszavas név is, amely az elemek szintaktikai meghatározását teszi egyszerűbbé a kódolási rendszerek számára. Valamennyi elem opcionális és ismételhető (Weibel, 1997).

Cím (cím): A forrás létrehozója vagy kiadója által meghatározott neve.

Szerző vagy létrehozó (létrehozó): Az(ok) a személy(ek) vagy szervezet(ek), amely(ek) elsődlegesen felelős(ek) a forrás szellemi tartalmának létrehozásáért. Az írott dokumentumok esetében például a szerzők, a vizuális források esetében a művészek, fényképészek, vagy illusztrátorok.

Tárgy és kulcsszavak (tárgy): A forrás témája. Általában a dokumentum tárgyát kulcsszavak fejezik ki. A kontrollált szótárak és formális osztályozási rendszerek használata preferált.

Leírás (leírás): A forrás tartalmának szöveges leírása, amely a dokumentum-típusú tárgyak esetében az absztraktot, a vizuális források esetében a tartalmi leírást jelenti.

Kiadó (kiadó): Az(ok) a személy(ek) vagy szervezet(ek), amely(ek) a forrás jelen formájában való közreadásáért felelős(ek).

Egyéb közreműködő (közreműködő): Az(ok) a létrehozóként nem említett személy(ek) vagy szervezet(ek), amely(ek) jelentősen hozzájárult(ak) a forrás szellemi tartalmához, de a közreműködése(/ük) másodlagos a létrehozóként megnevezett személy(ek) vagy szervezet(ek) szerepéhez képest. Példa: szerkesztő, fordító, illusztrátor, stb.

Dátum (dátum): Az a dátum, amikor a forrás a jelenlegi fomájában elérhetővé vált. A dátum ajánlott formátuma a következő: év (4 karakter) - hónap (2 karakter) - nap (2 karakter). Sok egyéb formátum lehetséges. Használatuk esetén az egyértelműséget biztosítani kell.

Forrás típus (típus): A forrás kategóriája, mint például "web lap," "regény," "vers," "tanulmány," "szótár," stb. Az egységesség és a rendszerek közti átjárhatóság érdekében a típust egy megadott listából kell kiválasztani. Jelenleg ez a lista még nem végleges. A legújabb verziója a http://sunsite.berkeley.edu/Metadata/types.html címen található meg.

Formátum (formátum): A forrás adatformátuma. Azonosítja a szoftvert és optimális esetben a hardvert is, amely a forrás megjelenítéséhez vagy működtetéséhez szükséges. A forrás típushoz hasonlóan, az egységesség érdekében a formátum típusát is egy előre összeállított listából kell kiválasztani.

Forrás azonosító (azonosító): Olyan betű- vagy számkombináció, amely egyértelműen azonosítja a forrást. A hálózati források esetében ilyen azonosító lehet a URL, vagy a URN. Nem online források esetében ez lehet olyan világszerte használt azonosító, mint az ISBN vagy egyéb formális név.

Forrás (forrás): Olyan betű- vagy számkombináció, amely egyértelműen azonosítja azt a művet, amelyből a forrás származik. Például egy regény PDF verziója forrásként tartalmazhatja annak a fizikai könyvnek az ISBN számát, amelyből a PDF verzió származik.

Nyelv (nyelv): A forrás szellemi tartalmának nyelve(i).

Kapcsolat (kapcsolat): Az adott forrás kapcsolata más forrásokkal. Ezen adatelem célja, hogy lehetőséget biztosítson az egyébként önálló források közti formális kapcsolatok jelölésére. Például egy dokumentum képei, egy könyv fejezetei, vagy egy gyűjtemény egységei között. Ezen adatelem használata és a specifikációinak kialakítása jelenleg kisérleti fázisban van.

Lefedett téma (téma): A forrás helyi és/vagy időbeli jellemzői. Ezen adatelem használata és a specifikációinak kialakítása jelenleg kisérleti fázisban van.

Szerzői jog (jog): Link a szerzői jogi megjegyzéshez, vagy ahhoz a szolgáltatóhoz, ahol a forráshoz való hozzáférésre vonatkozó információ érhető el. Ezen adatelem használata és a specifikációinak kialakítása jelenleg kisérleti fázisban van.

A meta-adatok jelentősége

A katalógusrekordok előállításának költségei jelentősen csökkenthetők, ha a MARC rekordoknak legalább egy része automatikusan előállítható egy olyan szoftver használatával, mint például az InterCat projekt részeként kifejlesztett szoftver, amely ki tud választani bizonyos adatelemeket a dokumentumokból, és tárolni tudja azokat a megfelelő MARC mezőkben. Ezek a programok a MARC rekordok létrehozásához már különböző szabványokon (mint például a TEI = Text Encoding Initiative, vagy a URC = Uniform Resource Citation) alapuló meta-adatokat használnak (Woodward, 1996).

A Spectrum például egy olyan szoftver-rendszer, amely el tudja végezni ezeket a feladatokat, és így egy kevéssé költséges Internet adatbázist hoz létre. Ez a költségmegtakarítás lehetővé teszi az OCLC számára, hogy egy nyilvános katalógust működtessen az Inerneten, amely mindenki számára elérhető, míg a projektben résztvevő intézmények számára egy sokkal kifinomultabb OPAC elérést biztosít. Az egyik legérdekesebb dolog a Spectrummal kapcsolatban az, hogy különböző formátumú adatokból képes MARC rekordokat létrehozni.

A TEI egy fontos nemzetközi projekt, amelyet az Association for Computers and the Humanities (ACH), az Association for Computational Linguistics (ACL), és az Association for Literary and Linguistic Computing (ALLC) támogat. Feladata irányvonalak kifejlesztése és terjesztése a géppel olvasható szövegek kódolására, közvetíthetőségére, és cserélhetőségére, valamint javaslatok tétele új szövegek kódolására. A TEI javaslata a szövegek kódolására az SGML (Standard Generalized Markup Language) meta-nyelv. Az SGML egy nemzetközi szabvány az elektronikus szövegek kódolására, amely lehetővé teszi, hogy sok különböző szöveg egy egymással kompatibilis formátumban legyen kódolva, és analizálható legyen az SGML-t támogató szoftverekkel. Ez a kódolási formátum az elektronikus szövegek számára igen jól használható, de még nem MARC kompatibilis. A Spectrum lehetővé teszi a MARC rekordok, TEI fejlécek, vagy az URC-k egy adatbázisba való összegyűjtését és azok hagyományos technikákkal való kereshetőségét. Bár a Spectrum három fontos folyamatot tud elvégezni: rekordok létrehozását, adatbázisépítést, és rekord-visszakeresést, ezek közül a legfontosabb a rekordok létrehozása. A bibliográfiai rekordok átkonvertálása TEI vagy URC formátumból MARC formátumba a legjelentősebb funkció.

Meta-adat szabványok

Az inkompatibilis szabványok és technológiák egy másik, igen fontos problémát jelentenek az Interneten elérhető dokumentumok katalogizálásában. Ahogyan Caplan (1992) leírja, a meta-adat nem más, mint adat az adatról. Ennek megfelelően egy katalógus rekord is meta-adat, sőt egy TEI fejléc, vagy egyéb más leírási forma is. A meta-adatoknak a létrehozását hívhatnánk továbbra is katalogizálásnak, de ez a kifejezés nagyon sok mindenki számára olyan jelentéseket hordoz, ami magába foglalja az AACR2 vagy a USMARC szabványokat is. Ezért, az Internet világában a semlegesebb és újabb meta-adat kifejezés a preferált.

A MARC szabvány egy igazán kifinomult eszköz a könyvtári források leírására, de más intézmények nem igazán használják. Annak érdekében, hogy a MARC elfogadhatóbb legyen egy tágabb közönség számára, az OCLC és a National Center for Supercomputing Applications (NCSA) egy meta-adat workshopot kezdeményezett, amely különböző információ-szolgáltatókat (mint például kiadók, szoftver fejlesztők és kutatók) is bevont a beszélgetésekbe.A workshop munkájának eredményeképpen megszületett a Dublin Core, amely a USMARC egy leegyszerűsített változatának tekinthető.

A másik meta-adat szerkezet, a Harvest, a University of Coloradoban került kifejlesztésre az Advanced Research Projects Agency (ARPA) támogatásával. A Harvest-nek olyan eszközei vannak, amelyek megkönnyítik az információ megtalálását a fájlokban, és automatikusan indexet tudnak építeni. A saját keresőprogramját és protokollját felhasználva különböző felhasználói csoportok számára készít katalógusokat. Annak ellenére, hogy nem MARC alapú, közös platformként szolgálhat a hálózati adatbázisok között. A Harvest egy tartalmi összefoglalást is készít minden általa összegyűjtött információs tárgyról. Ezek a rekordok egy Summary Object Interchange Format (SOIF) nevű formátumban kerülnek tárolásra. A tartalmi összefoglalások bizonyos mértékig megfelelnek a MARC rekordokban alkalmazottakhoz. Neuss és Kent a bibliográfiai kontrol hagyományos módszereinek a Harvest-tel való kombinációján dolgoznak. A könyvtártudomány és a fogalmi analízis ötleteinek kombinációjával a hálózati információs források, különösen a WWW fogalmi analízisére fejlesztenek ki eszközöket. A hálózati információs források szövegfájlokat, WAIS adatbázisokat, és web dokumentumokat foglalnak magukba. Neuss és Kent szerint ezeket a forrásokat célszerűbb inkább fogalmi osztályoknak, mintsem tárgyaknak tekinteni, és következésképpen a hálózati információs források rendszerezésére és leírására egy fogalomorientált megközelítést alkalmaznak (Woodward, 1996).

A Text Encoding Initiative (TEI) által létrehozott szabvány, a TEI P3-t, a humán tudományok szövegeinek digitális kódolására irányul, és magába foglal egy javaslatot egy elektronikus fejléc létrehozására, amely minden egyes dokumentum esetén a címoldalhoz hasonló információkat tartalmaz. Steve Kirsch, az InfoSeek keresőszolgáltatás kifejlesztője, más keresőprogramok szolgáltatóival együttműködve, szintén folyamatosan dolgozik egy meta-adat szabvány kifejlesztésén. Ez a szabvány nem MARC-alapú, de mint a Z39.50 egyik kiterjesztése támogatja a MARC fomátumot. A Working Group on Document Identifiers, amely az Internet Engineering Task Force része, az Egységes Forrás Jellemzők (URCs = Uniform Resource Characteristics) szabványosításával foglalkozik.

A fent említett szabványosítási kisérletek mellett egyre nagyobb szükség van olyan szabványokra, amelyek a különböző rendszerek közti átjárhatóságot biztosítják. Az elektronikus források számának növekedésével együtt súlyosbodik a különböző rendszerekben tárolt információ elérhetőségének problémája. Ez a probléma nem csak a felhasználók, hanem az eltérő adatbáziskezelő rendszerek és az elektronikus információcsere szintjén is jelentkezik. A Z39.50 amerikai nemzeti szabvány egy új lépés a formátumok nagyobb kompatibilitása felé. A Z39.50 feladata azon üzenetek kódolása, amelyek két számítógépes rendszer közti kommunikációhoz szükségesek az információkeresés és visszahívás során. A szabvány eredetileg ugyan könyvtári célokra lett kifejlesztve, de teljesen független a közvetített információ típusától. Jelenleg több egyetemi intézmény és információszolgáltató használja. A Kongresszusi Könyvtár, az OCLC, és a Research Library Information Network (RLIN) például bibliográfiai rekordok cseréjére alkalmazza, de a szabvány alkalmas az Interneten való használatra is.

Meta-adatok és az elsődleges források

Az olyan elsődleges forrásokkal foglalkozó intézmények, mint az irattárak, speciális gyűjtemények, kéziratokkal, ritka könyvekkel, múzeumi tárgyakkal, művészeti alkotásokkal, vagy egyéb ritka és egyedi anyagokkal foglalkozók, szintén erősen érdeklődnek a meta-adatok felhasználása iránt, különös tekintettel azok lehetséges használatára az egyedi anyagok weben való elérhetővé tételétben. 1997 őszén az Research Libraries Group-on belül külön archívumi meta-adat csoport alakult azzal a céllal, hogy megállapítsa ennek lehetőségeit. A csoport egyik feladata, hogy megvizsgálja a már létező meta-adat elemeket és megállapítsa, hogy azokon kívül milyen más elemekre van még szükség az archívumok számára, valamint, hogy megállapodásra jusson a különböző nemzetközi meta-adat szabványokat illetően.

A meta-adatokkal kapcsolatos viták tehát már csak azért sem korlátozódnak nemzeti szintre, mert az egyes nemzeti kulturális örökséget reprezentáló anyagok a nemzetközi közösség részei. Ebből a felismerésből kiindulva, valamint figyelembe véve azt, hogy csak a széleskörű érdekek figyelembevételével érhetők el a legjobb eredmények, foglalkozik például a Canadian Heritage Information Network (CHIN) a meta-adatok nemzetközi felhasználásával a szöveges és képi adatok összekapcsolásában. A CHIN projektjének célja, hogy létrehozza a kanadai múzeumok gyűjteményeinek nemzeti online elérésű leltárát. Jelenleg ez még csak egy szöveges gyűjtemény, ami több mint 25 millió szépművészeti, irodalmi, természettudományi és egyéb tárgyat reprezentál. A legújabb cél az, hogy a szöveges adatokhoz tartozó képeket is elérhetővé tegyék. Ehhez azonban új adatelemekre van szükség, ami új problémákat vet fel a források leírásában.

A meta-adatok egyik problémája az, hogy vajon létrehozható-e egy olyan univerzális elemhalmaz, ami valamennyi típusú információforrásra alkalmazható és a kereső számára egy általános áttekintést ad az információra vonatkozóan, függetlenül annak típusától. Az információforrások leírása azonban nem az egyetlen probléma. A hagymához hasonlóan, a meta-adatoknak több szintje létezik a kereső és a forrás között, és ezzel kapcsolatban többen aggodalmukat fejezték ki, hogy vajon a felhasználóknak hogyan lehet egyértelműen jelezni, hogy adott helyzetben az információnak melyik szintjével találkoznak. Ez a szint lehet a leíró rekordoknak egy teljes adatbázisa, az adatbázis egyetlen rekordja, vagy pedig egy rekord által leírt dokumentum képe. Ahogyan azt Lyn Elliot Sherwood megfogalmazta: "Meg kell találni a módját annak, hogy hogyan lehet nagy katalógusokat a hálózati rendszerben elérhetővé tenni, és célszerű eldönteni, hogy milyen szinten legyenek azok láthatók. Vajon érdemes-e katalógustételek millióit megjeleníteni a weben való keresés első fázisában? Valószínüleg nem. Mindannyian belefulladnánk az adatokba. A kérdés tehát az, hogy hogyan segítsük az iteratív keresési folyamatot." (Research Libraries Group, 1997)

További megoldásra váró probléma, hogy néhány, a web számára kialakított Dublin Core elem kevéssé hasznos az olyan elsődleges források leírásánál, amelyeket a weben digitális reprodukciók képviselnek. A nem web dokumentumokat illetően a két legproblémásabb Dublin Core elem a dátum és a kiadó. Ezek olyan specifikusan vannak definiálva, hogy használatuk a digitális szurrogátumok leírásánál zavaró lehet. A dátum adatelem definíciója a következő: "az a dátum, amikor a forrás a jelenlegi formájában elérhetővé vált." Ugyanakkor, ha valaki például Van Gogh egyik festményét keresi a weben, akkor nagy valószinüséggel inkább az fogja érdekelni, hogy maga a festmény mikor készült, és nem pedig az, hogy mikor lett digitalizálva. Hasonló a helyzet a kiadó esetében is, amit úgy definiáltak, hogy az "az a személy/testület, amely az információforrást a jelenlegi állapotában létrehozta." El kell tehát gondolkoznunk azon, hogy hogyan lehet különbséget tenni egy műalkotás digitalizált szurrogátuma és a maga az alkotás között. Vajon a forrás információ magára az alkotásra vonatkozik, vagy pedig annak a fotójára? A dátum az alkotás elkészültének a dátuma, vagy pedig azt jelöli, hogy a fotót mikor készítették? A létrehozó a művész, vagy a fényképész? A Dublin Core jelenleg még nem alkalmas a következetes alkalmazásra és a használata problematikussá válik, ha nem eredetileg elektronikus módon létrehozott információval, vagy ha műalkotások elektronikus reprezentációival van dolgunk (Research Libraries Group, 1997).

Rendszerezési törekvések az Interneten

Jelenleg nagyon sok, az Internet rendszerezésére irányuló tevékenység folyik. Meglehetősen nagyszabású katalógusok és indexek vannak használatban már évek óta. A Yahoo!, vagy az Alex csak két példa erre. Folyamatos kisérletek folynak a digitális dokumentumok katalogizálása terén. A két legismertebb példa erre a British Library által támogatott CATRIONA projekt, valamint az OCLC Internet források katalogizálásának programja, az InterCat.

Új szabványok jelennek meg és a már meglévők módosulnak, amelyek a digitális dokumentumokat, és az azokról készített meta-adatokat reprezentálják. Egyre több az Internet katalogizálásával foglalkozó konferencia és egyéb szakmai találkozó. Cikkek jelennek meg ebben a témában az Interneten, éppúgy mint a nyomtatott időszaki kiadványokban. Sok Internet listán (Autocat, Pacs-l, Emedia, vagy Intercat) folyik a vita katalogizálási témákban. 1996 óta a Haworth Press, Inc. kiadásában nemzetközi elektronikus folyóirat jelenik meg az Interneten Journal of Internet Cataloging címmel (http://jic.libraries.psu.edu). (A folyóiratnak csak a tartalomjegyzéke és az absztraktjai nyilvánosak. A teljes szövegeket csak az előfizetők olvashatják.)

Az Internet megjelenésével a könyvtáraknak nem csak a bibliográfiai elérés, hanem a teljes szövegekhez való hozzáférés biztosítására kell törekedniük. A felhasználók eligazítása a nem helyileg tárolt információk világában fokozatosan átalakítja a katalógusról kialakult képet. A hálózati információk elterjedésével olyan eszközre van szükség, amely egyaránt tudja kezelni mind a helyi, mind pedig a hálózaton tárolt információkat, szöveget és képeket, hozzáférést biztosít adatokhoz, információkhoz és információ-tároló eszközökhöz. Összehasonlítva a hagyományos katalógust a digitális könyvtári katalógussal a következő alapvető különbségeket állapíthatjuk meg. A hagyományos katalógus elérést biztosít a helyileg tárolt anyagokhoz, amelyek elsősorban tárgyi dokumentumok. A hozzáférést lelőhelyekre mutató információ formájában biztosítja. A hagyományos katalógus önálló bibliográfiai eszköz. Ezzel szemben az új, halózati forrásokat is számbavevő katalógus egyaránt biztosít elérést mind a helyileg, mind pedig a máshol (valahol a hálózaton) tárolt anyagokhoz. Következésképpen nem csak az információt tartalmazó tárgyakhoz, hanem magukhoz az elektronikus információkhoz is hozzáférést biztosít. Magát az elektronikus információt szolgáltatja, és nem a lelőhelyet.

A felhasználó egy közös felhasználói felülettel találkozik, amely többféle információ keresésére alkalmas. A könyvtárosoknak minden oka megvan arra, hogy nagyra értékeljék az információ megjelenítés következetességét, hiszen a felhasználóknak kevesebb tájékoztatásra van szükségük, és gyorsabban tudnak mozogni a különböző források között. Mindenképpen egy grafikus felhasználói felületre van szükség, amelyet a nyilvános elérésű számítógépes rendszer (Public Access Computer System) irányít, és amelynek egyik összetevője az online közvetlen elérésű katalógus keresőprogramja. A rekordok definíciója kibővül a máshol elérhető fizikai dokumentumok és a helyileg vagy máshol elérhető elektronikus dokumentumok információival (Graham, 1994). A dokumentum fogalmát itt tágan értelmezzuk. Azt a feljegyzett információt értjük alatta, ami lehet elektronikus vagy nyomtatott: könyv, cikk, vagy egyéb szöveg; grafikus, vagy audio információ. A felhasználó szempontjából a dokumentumok két csoportba sorolhatók: azok a dokumentumok, amelyek közvetlenül elérhetők lesznek a kapcsolódó linkek segítségével, valamint azok a dokumentumok, amelyekhez a katalógus csak elérési helyet szolgáltat. A felsorolt különbségek ellenére, a katalógus fogalma olyan értelemben nem változik meg, hogy továbbra is rendszerezett információt szolgáltat, amelyre a legjobb példa a nevek, címek, és a tárgy egységesítése és az utalórendszer alkalmazása; valamint továbbra is prekoordinált és következetes marad, ami mindenképpen hozzáértő könyvtárosok munkáját követeli meg.

Az Internet forrásainak rendszerezése: katalogizálói megközelítés

Miért katalogizáljuk az Internet dokumentumokat? Egyrészt azért, mert nagyon sok értékes információ érhető el az Interneten keresztül. Másrészt azért, mert ezeket a forrásokat valahogyan rendszerezni kell ahhoz, hogy hozzáférhetőek legyenek. Valamint azért, mert a már létező könyvtári technikák és munkafolyamatok felhasználása, és visszakeresésre alkalmas rekordok létrehozása a már létező online katalógusok számára a leghatékonyabb ezen források elérésére.

Kérdés az, hogy mit katalogizáljunk. Vannak akik a hasznos web oldalak katalogizálását javasolják az Interneten elérhető anyagok elérhetővé tétele első lépéseként. Mások a projektben résztvevő intézmények saját elektronikus anyagainak a katalogizálását látják hasznosabbnak. A University of Missouri, Columbia könyvtárának belső használatra kialakított katalogizálói prioritásai az Internet források rendszerezését és katalogizálásat illetően például a következőek: a helyi rendszerben tárolt és fenntartott Internet források; a helyi felhasználók számára fontos kutatási anyagok; azon eszközök, amelyek fejleszthetik a tájékoztató szolgáltatásokat; és végül azon eszközök, amelyek a könyvtári személyzet készségeit és tudását fejlesztik.

A számítógépes fájlok katalogizálása az egyik legproblematikusabb terület. Ez a médium nagyon gyorsan változik, fejlődik. Mire megismerkedünk az éppen használatban levő technológia terminológiájával és jellemzőivel, addigra a legújabb fejlesztések kiszorítják azt. [Az ISBD szabványok Számítógépes Fájlokra második kiadása, aminek a jelenlegi cime "ISBD Elektronikus Forrásokra" (International Standard Bibliographic Description for Electronic Resources, ISBD (ER)), 1994 óta folyamatos módosítás alatt áll (Olson, 1997).]

Általános útmutatás azonban, hogy bármit is katalogizáljunk, a katalogizálóknak figyelembe kell venniük a nemzeti és nemzetközi szabványokat. Amennyiben helyi okok miatt bizonyos külön terminológiára, leírásra, megjegyzésekre, stb. van szükség, akkor a rekordokat a helyi gyakorlatnak megfelelően ki lehet egészíteni. Az Egyesült Államokban az AACR2 által előírt katalogizálási szabályok adnak általános útmutatást. Ezek a szabályok bármilyen típusú dokumentumra alkalmazhatók. Az általános szabályok és irányelvek áttekintése mindig hasznos lehet, ha valamilyen új problémával állunk szemben.

CATRIONA

Több kutatási projekt témája az Internet forrásainak katalogizálása. Erre a két legnagyobb, és legrégebbi példa a CATRIONA, amely Nagy-Britanniában indult, valamint az OCLC InterCat projektje, amely az Egyesült Államokban folyik. Mindkét projekt célja egy, az Internet dokumentumait számbavevő katalógus létrehozása, amely hasonlít és egyben kompatibilis a könyvtári nyilvános online katalógusok helyi adatbázisaival. Mindkét projekt a MARBI által kezdeményezett Elektronikus Hely és Elérésre kijelölt 856-os mezőt használja. (A MARBI az Amerikai Könyvtáros Egyesület [ALA] azon testülete, amely a Kongresszusi Könyvtár tanácsadó szerveként működik a USMARC fomátumot érintő kiegészítésekben és módosításokban.)

A CATRIONA (Cataloging and Retrieval of Information Over Networks Applications) projekt a BUBL Subject Tree Initiative kezdeményezésére jött létre 1993-ban, és alig egy évvel később már több mint 8000 Internet linket tartalmazott. A projekt fő támogatója a British Library Research and Development Department. A projekt célja azon technikai, szervezeti, és pénzügyi követelmények vizsgálata, amelyek hálózatokon át közvetített dokumentumok és egyéb források katalogizálására, osztályozására, és visszakeresésére szolgáló alkalmazási programok és folyamatokhoz szükségesek. A projekt egy könyvtári rendszer használhatóságát is vizsgálja. Az OCLC-vel ellentétben, CATRIONA az Internet forrásoknak egy olyan katalógusának létrehozására törekszik, amelyeket a Z39.50 szabványon alapuló könyvtári OPAC felületek fognak össze, és nem pedig egy központi adatbázis. A projekt egy Z39.50 GUI OPAC klienst választott ki, amely képes a távoli Z39.50 OPAC-okban való keresésre, és olyan MARC rekordok visszahívására, amelyek a 856-os mező $u almezőjében URL információt tárolnak és az elektronikus dokumentumok megjelenítésére automatikusan betöltik a megfelelő megjelenítő programot (Mosaic, Netscape, Geac image viewe).

InterCat

Az InterCat az Egyesült Államok nemzeti koordinált projektje a felsőoktatási intézmények és könyvtárak között egy olyan USMARC formátumú rekordokból álló adatbázis létrehozására, bevezetésére, tesztelésére, és értékelésére, amely az Interneten elérhető anyagok esetében kiegészül az elekronikus tárolásra és elérésre vonatkozó információval (USMARC 856-os mező). A projekt azt vizsgálja, hogy hogyan lehet a könyvtári szolgáltatásokat kiterjeszteni az Internet forrásaira, azaz, hogyan lehet olyan szintű hozzáférést biztosítani az Internet forrásokhoz, amilyet egy könyv esetében elvárunk a könyvtártól (Jul, 1997). A projekt fő koordinátora, Eric Jul hangsúlyozza, hogy az InterCat csak egy lehetséges módszer az Interneten keresztül elérhető dokumentumok keresésére, amely az információt keresők számára viszonylag egyszerű keresést biztosít. Jelenleg azonban ez a legnagyobb szabású projekt az Internet dokumentumok elérhetővé tételére. A projekt elindítása előtt az OCLC tanulmányozta az elektronikus információ tulajdonságait, és azoknak a szisztematikus elérésével kapcsolatban felmerülő problémákat. A projekt céljai a következők: (1) lokalizálni és beazonosítani az Interneten elérhető elektronikus információk típusait, (2) kialakítani ezen információk taxonómiáját, (3) összegezni azokat a problémákat, amelyekkel a könyvtáraknak meg kell küzdeniük ezen információk beszerzése, katalogizálása, indexelése, tárolása, visszakeresése, és továbbítása során. Az elektronikus irodalom értékének megállapítására szolgáló módszerek kialakítása után a projekt célja annak megállapítása, hogy ez a folyamat mennyire automatizálható. Végül a projekt javaslatokat tesz ezen típusú információk elérési módszereire és szintjeire.

Az InterCat projekt részeként az OCLC azt is vállalta, hogy megvizsgálja a bibliográfiai rekordon belüli kódolt információ alkalmazhatóságát a közvetlen felhasználói elérés biztosítására. A 856-os USMARC mezőt a Uniform Resource Locator információjának tárolására hozták létre. A katalógusban megtalált URL címet a felhasználók valószínüleg nem szivesen másolnák le és gépelnék be újra, ezzel lehetőséget adva a gépelési hibákra. A tapasztalt Internet használók hyperlinkek használatát várják el, amelyek a katalógustól közvetlenül a kívánt dokumentumhoz vezetnek. Mind a CATRIONA, mind pedig az OCLC projekt az OPAC-ok kifinomult visszakeresési módszereinek, a MARC rekord szabványnak, és a hypertext kapcsolatainak a kombinációját képzeli el. Az OCLC, a résztvevő könyvtárak és egyéb felsőoktatási intézmények által létrehozott rekordokból egyetlen nagy adatbázist épít, amely közvetlen elérést biztosít az Interneten tárolt dokumentumokhoz. A projekt fő célja, hogy megállapítsa a USMARC formátum lehetséges használatát az Interneten keresztül elérhető dokumentumokhoz való hozzáférése során, azaz teszteli a 856-os MARC mező használhatóságát a nem helyileg tárolt dokumentumok elérésében (OCLC).

Alcuin

A North Carolina State University Libraries Alcuin Project-je szintén a 856-os mező használatán alapul. Már 1994-ben kisérleteztek a 856-os mező használatával, amikor a helyi OPAC adatbázisába beépítették a URL információt. A projektet az teszi azonban igazán érdekessé, hogy az Alcuin fejlesztői a gopher elérésre kialakított Internet címek "dBaseIV" adatbázisát, amit "Alex"-nek hívtak, olcsón és kevés kiegészítő input hozzáadásával átkonvertálták egy új, MARC-alapú OPAC adatbázissá, amit Alcuinnak neveztek el.

Az Alcuin web oldalai web felhasználói felülettel rendelkező katalógusokat tartanak nyilván. A projekt nem törekszik teljességre. A célja az, hogy segítséget nyújtson azon könyvtárosok számára, akik egy World Wide Web alapú közvetlen elérésű online katalógus létrehozásának a lehetőségei iránt érdeklődnek. A projekt másik célja annak megállapítása, hogy a könyvtárosság hagyományos gyakorlata hogyan alkalmazható az Internet források gyűjtésére, rendszerezésére, osztályozására, és terjesztésére.

Catholic University of America

Ingrid Hsieh-Yee, a Catholic University of America (Washington D.C.), School of Library and Information Science professzora, 160 Internet forrás katalogizálása után arra a következtetésre jutott, hogy a források teljes leírása nagyon időigényes, és több, az AACR2R szerint definiált adatelem fölösleges a keresők számára. Hamar nyilvánvalóvá vált, hogy a jelenlegi szabványok alapján egy eltérő mélységű leírási formát kell kialakítani, ami tükrözi az Internet dinamikus jellegét. A rekord létrehozás sebessége és a rekordok minősége, valamint a rekordkészítés sebessége és az Internet források gyors hozzáférése közti egyesúly biztosítása érdekében egy minimális leírást biztosító szabványra tettek javaslatot. Ezen módosított szabvány célja, hogy a katalógus kereső, értékelő, rendszerező, és dokumentum lokalizáló funkcióit biztosítsa csak azon adatelemek felhasználásával, amelyek az Internet források azonosításához és tárgyi rendszerezéséhez a legszükségesebbek. Ez az M szintűnek nevezett katalogizálás az AACR2R adatcsoport elválasztójeleit és adatcsoportjait használja, de az adatelemek közül több is egyszerüsített változatban szerepel.

University of Missouri Columbia

A University of Missouri Columbia Jogi Karának Könyvtárában a következő irányelveket fejlesztették ki az Internet forrásainak katalogizálására. Az Internet forrásai két csoportba oszthatók: (1) rendszerek és szolgáltatások, beleértve a direktorikat és aldirektorikat, amelyek egynél több bibliográfiai egységet tartalmaznak; (2) önálló direktorik, aldirektorik, és fájlok, amelyek egy bibiliográfia egység egyetlen példányát tartalmazzák. A könyvtár minden (1) kategóriába tartozó dokumentumot nyitott monográfiaként katalogizál. A (2) kategóriába tartozó dokumentumokat sorozatként katalogizálják, amennyiben azok elektronikus sorozatok, és az egyes dokumentumok tartalmaznak információt arról, hogy a jövőben új változatok jelennek meg (pl. ver. 1.0). Ettől eltérő esetben ez utóbbi dokumentumokat is monográfiaként írják le. Ha az elektronikus források lelőhelye gyakran változik, akkor csak magát a rendszert, vagy szolgáltatást katalogizálják, a 859-es mezőben jelezve a direktorikat és/vagy a fájlokat. Az elektronikus dokumentumok valamennyi verzióját (HTML, ASCII) ugyanabban a rekordban írják le, külön 856-os mezőt használva minden verzióra. Ha a rendszer és az önálló direktori vagy fájl egyaránt katalogizálásra kerül, akkor használják az 580-as és a 773-as mezőket az 1 első indikátorral, vagy az önálló direktori vagy fájl esetén a 773-as mezőt a 0 első indikátorral.

Az Internet forrásainak rendszerezése: nem katalogizálói megközelítés

Bármilyen nyomtatott indexről vagy katalógusról legyen is szó, a hatékony keresés biztosításához elengedhetetlen a kereső mechanizmus megértése, az adott adatbázis méretének, tartalmának és az alkalmazott indexelési stratégiának ismerete. Ugyanez igaz a hálózatokon elektronikusan tárolt információ esetében is. Valamennyi keresőprogramnak megvannak a saját tartalmi korlátai. Az adatelem halmaz, amin a keresés folyik szintén korlátozott. Ráadásul, mindegyik keresőprogram esetében adott, hogy a keresési eredményeket milyen formában fogja megjeleníteni. A legnagyobb problémát azonban az jelenti, hogy nagyon nehéz megállapítani, hogy mi az, amit a keresés magába foglal. Sok keresőprogram írja ki a keresési eredményekre vonatkozóan, hogy "mennyi" a releváns találat, de azt nem, hogy "miből." Ha ugyanazt a keresést elvégeztetjük több keresőprogrammal is, akkor hamar kiderül, hogy egyetlen indexelő szolgáltatás sem képes mindent elérni az Interneten és a keresések igen vegyes és kiszámíthatatlan eredményeket szolgáltatnak.

Valamennyi Internet keresőprogramnak megvannak a maga előnyei és hátrányai. Az előnyök általában a következők: ezek az indexek naponta 24 órán át használhatók; minden keresés eredményeként egy listát kapunk, amelyek az elemei hozzá vannak kapcsolva magukhoz a dokumentumokhoz, így azok szinte azonnal elérhetők; az Internet források folyamatosan bővülnek; ezek az indexek többdimenziósak, azaz rajtuk keresztül más könyvtári katalógusokhoz, vagy indexekhez is eljuthatunk. A hátrányok között a következőket sorolhatjuk fel: a keresési eredmények között sok az ismétlődő elem; az eredmények kiszámíthatatlanok; az eredmények félrevezetőek lehetnek, hiszen egyes keresések üres halmazt eredményeznek egy bizonyos keresőprogrammal, ugyanakkor egy másikkal több releváns forrást is találnak; egyes keresőprogramok nem adnak információt az adatbázisaik tartalmáról, vagy arról, hogy milyen szempontok szerint válogatnak a dokumentumok között, hogy bekerüljön-e egy adott dokumentum az adatbázisukba, vagy nem; a szótáraik nem kontrolláltak, az írásjelek, valamint a kis- és nagybetűk használata nem szabványosított; a kapcsolatok és a relevancia megállapítása sokszor nem lehetséges maguknak a dokumentumoknak a megvizsgálása nélkül (Taylor és Clemson, 1996).

Az Internet világában való eligazodásra használt jelenleg elérhető segédeszközök (archie, veronica, jughead, és azoknak a World Wide Web megfelelői) igen hasznosak, de összehasonlítva egy átlagos könyvtári katalógus vagy folyóiratindex kifinomultságával és precízségével még mindig nagyon kezdetlegesek. A problémát részben az jelenti, hogy a könyvtárosok még mindig inkább csak reagálnak a számítógépes szakemberek által javasolt technikai újításokra, ahelyett, hogy maguk is javaslatokat tennének, míg a számítógépes szakemberek nem igazán foglalkoznak a könyvtártudomány megismerésével, és így folyamatosan próbálják újra feltalálni azokat a fogalmakat, amelyeket a könyvtárosok már évtizedek óta használnak. Talán ennél nagyob probléma azonban, hogy a számítógépes területen elterjedt az a nézet, hogy minden humán értékelés nagyon időigényes és drága, éppen ezért hasznosabb a robotok használata ezen feladatokra.

Prentice Riddle, aki a RiceInfo adminisztrátora a Rice Egyetemen, kisérletett tett arra, hogy a könyvtárosok által használt szelekciós és osztályozási elveket felhasználva számítógépet használjon az Internet források rendszerezésére. Egy programot írt arra, hogy a nem helyileg tárolt, előre kiválasztott kompatibilis gopher tárgyi menüket beolvassza a helyi gopher menübe, így létrehozva egy igazán átfogó gopher fastruktúrát. Ennek a megközelítésnek azonban több hátránya is van. Egyrészt az információs zaj, másrészt pedig az, hogy ez a program a gopher szerkezetén alapszik, amit nehéz lenne a World Wide Webre is alkalmazni. A legnagyobb probléma pedig az, hogy az Internet források besorolása egy maréknyi kategóriába az Internet jelenlegi gyors növekedése mellett lehetetlen.

A könyvtári osztályozás rendszereit felhasználó projektek többsége a hierarchikus osztályozást választotta az Internet forrásainak rendszerezésére. A gopher menük felépítése egyértelműen a hiearchikus osztályozási rendszerek hatását mutatja. A World Wide Weben a CyberDewey a nevében is jelzi, hogy a Dewey Tizedes Osztályozás elveit követi. A WWW Virtual Library és a CyberStacks a Kongresszusi Könyvtár osztályozási rendszerét adaptálta. Nagy-Britanniában a BUBL (Bulletin Board for Libraries) Subject Tree projekt az Egyetemes Tizedes Osztályozást használta fel. A fent említett projektekben az Internet forrásokhoz a megfelelő osztályozási alapuló jelzetek kapcsolódnak. Maguk a források azonban nem teljesen katalogizáltak, és a tárgyi hozzáférés is meglehetősen korlátozott. A felhasználó a követett osztályozási rendszer szintjeinek többé-kevésbé megfelelő hierarchia minden egyes szintjén szűkíti a keresést. Minden egyes képernyőn kiválasztva a megfelelő témát, a felhasználó végezetül megérkezik a keresett információhoz. Ez tulajdonképpen olyan, mintha a felhasználó az osztályozási táblázatban követne egy útvonalat az általánostól a specifikusig. Annak ellenére, hogy a felhasználónak sok képernyőn kell áthaladnia, ami lelassítja a keresés folyamatát, a keresés ezen típusa többnyire sikeresebb és kevesebb zsákutcát eredményez, mint a kulcsszó szerinti keresés. Meg kell jegyezni, hogy a CyberDewey, a CyberStacks és a WWW Virtual Library esetében a kiválasztott osztályozási rendszert egyszerüsített jelzetek képviselik.

CyberDewey

A CyberDewey láthatóan nem könyvtárosok által készített projekt. Létrehozója, David Mundie saját számítógépes fájljai rendszerezése során ismerkedett meg a Dewey Tizedes Osztályozással, miután sok egyéb, nem könyvtári rendszerezési formát kipróbált. Lelkesedését csak növelte a felismerés, hogy a Dewey Osztályozási Rendszer a könyvtárosok állandó reviziója alatt van, így soha többé "nincs egyedül" az osztályozási jelzeteket létrehozását érintő döntésekben. Sajnos ez a fajta felismerés még hiányzik nagyon sok más Internet szolgáltatónál.

WWW Virtual Library

A WWW Virtual Library a CyberDewey-nál jóval kiterjedtebb projekt, amely a Kongresszusi Könyvtár Osztályozási Rendszerét felhasználva sokkal hatékonyabban is osztályozza a szakreferensek és a végfelhasználók által kiválasztott forrásokat. A Virtual Library a web egyik legrégibb katalógusa. Készitője Tim Berners-Lee, aki magának a webnek is az egyik létrehozója. Az egyéb web katalógusokkal és keresőprogramokkal ellentétben a Virtual Library-t olyan önkéntesek építik, akik jártasak valamely témában és csak az abban a témában hasznosnak tartott web oldalak URL címeit gyűjtik. A Virtual Library által lefedett terület talán nem olyan nagy, mint az egyes kereskedelmi, robotokat alkalmazó keresőoldalaké, de az általa gyűjtött web oldalak általában sokkal hasznosabbak, mivel az egyes szakterületek szakértőinek a minőségi ellenőrzésén mentek át. A Virtual Library nem egyetlen adatbázis. Önálló indexek szerverek százain találhatók az egész világon. Ezeknek a listáknak egy URL gyűjteményét tartja fenn Gerard Manning a Stanford University-n. Ennek a katalógusnak további példányai találhatók a Penn State University (Egyesult Államok), East Anglia (Nagy-Britannia), és Geneva (Svédország) web oldalain.

CyberStacks (sm)

A CyberStacks (sm) 1995-ben egy World Wide Web virtuális könyvtárként jött létre, azzal a céllal, hogy megvizsgálja a hagyományos könyvtári osztályozási rendszerek alkalmazhatóságát az Internet forrásainak rendszerezésére. A CyberStacks (sm) a Kongresszusi Könyvtár osztályozási rendszerét adaptálta a kiválasztott Internet források közti kapcsolatok jelölésére. Annak ellenére, hogy a CyberStacks a természettudományok és a technológia témaköreire korlátozódik, a projekt a hagyományos osztályozás felhasználásának egy nagyon érdekes prototípusává fejlődhet, mivel a létrehozója, Gerry McKiernan egy hypertext tezaurusz kialakítását is tervezi.

Beyond Bookmarks

Az Internet források Beyond Bookmarks nevű gyűjteménye a CyberStacks projekthez kapcsolódóan jött létre. Hogy a hagyományos könyvtári módszereknek az Internet forrásainak rendszerezésére való alkalmazhatóságát növeljék, és hogy a CyberStacks model fejlesztéséhez új, alternatív megközelítéseket találjanak, a CyberStacks projekt résztvevői több fórumon (listserv, newsgroups) kértek információt olyan forrásokra vonatkozóan, amelyek szabványos és nem-szabványos könyvtári osztályozási rendszereket és kontrollált szótárakat alkalmaznak a Web forrásainak rendszerezésére. A javasolt forrásokat átnézték, kategóriákba sorolták, és a hyperlinkek segítségével beépítették egy gyűjteménybe, amelyet Beyond Bookmarks-nak neveztek el.

Project Aristotle

A hagyományos könyvtári osztályozási rendszerek és a kontrollált szótárak igen hasznos szervezeti keretet kínálnak a web források azonosítására és használatára, az alkalmazásuk azonban a jelenlegi környezetben, igen nagy erőfeszítéseket igényel, mind a létrehozás, mind a fenntartás terén. A CyberStacks személyzete tehát elhatározta, hogy megvizsgálja a web források automatizált kategorizálását. 1996 nyarán több tucat olyan projektet és szolgáltatást vizsgáltak meg, amelyek az automatikus rendszerezés valamilyen formáját alkalmazzák.

BUBL Subject Tree

A BUBL (Bulletin Board for Libraries) Subject Tree tűnik a leginkább könyvtár-orientált projektnek. A BUBL volt az első olyan szolgáltatás az Egyesült Királyságban, amely tárgy szerinti felosztású hozzáférést biztosított az Internet forrásokhoz. Létrehozásakor a projekt szintén egyedi volt abból a szempontból, hogy gopher források és World Wide Web dokumentumok feldolgozását egyaránt magába foglalta (Steele, 1995). Jelenleg a BUBL személyzete és az Egyesült Királyság egész területéről származó önkéntes szakreferensek közösen dolgoznak a tárgyi hierarchia részeinek fenntartásán. Csak olyan forrásokat dolgoznak fel, amelyek az egyetemi körök érdeklődésére számot tarthatnak. Meggyőződésük, hogy az egyetemi körök számára hasznos Internet források felfedezése és nyilvántartása a helyi szintű, valamint a nemzeti és nemzetiközi kooperatív katalogizálással együttesen oldható meg.

A BUBL Subject Tree egy érdekes változata a NISS (National Information Services and Systems), amely a hagyományos katalogizálás előnyeit próbálja hasznosítani a merev katalogizálási szabályok, a professzionális katalogizálói szaktudás, és egy nagy központi intézmény nélkül. Az Egyesült Királyság könyvtárosai arra lettek felkérve, hogy egy Forrás Leírási Űrlap kitöltése révén küldjenek be forrásleírásokat (forrásrekordokat) a NISS-hez. Ezek az űrlapok meg sem kisérelik, hogy a MARC rekordok formátumát utánozzák, bár egyaránt tartalmaznak fizikai jellemzőket leíró és tartalomra vonatkozó mezőket. A BUBL Subject Tree koncepciója a NISS projektben a tárgy és kulcsszó szerinti kereséssel egészül ki.

ROADS

A ROADS (Resource Organisation and Discovery in Subject-Based Services) projekt egy másik olyan osztályozáson/katalogizáláson alapuló projekt, amely tárgy szerinti hozzáférést és bibliográfiai információt egyaránt tartalmaz. A fő célja, hogy oly módon biztosítson hozzáférést a hálózati forrásokhoz, hogy a felhasználók számára észrevétlen maradjon a különbözö szolgáltatások közti mozgás. A ROADS egy közös platformot kínál több tárgyi felosztású információ-szolgáltató rendszerben való kereséskor.

Összegzés

Hagyományosan az információ rendszerezés elvei a következőket foglalják magukba: annak megállapítása, hogy milyen források léteznek, és azok közül a felhasználói igényeknek megfelelőek kiválasztása; a kiválasztott források leírása; elérési pontok biztosítása, és azok egységesítése; a kiválasztott források tartalmi analízise; valamint ezeknek a forrásoknak a lokalizálásához szükséges információ biztosítása. Összehasonlítva a könytárakat és a keresőprogramokat, vagy az Internet keresőszolgáltatásait, a könyvtárak sokkal alkalmasabbnak tűnnek a források kiválasztására, hiszen hagyományosan sokkal nagyobb gyakorlattal rendelkeznek a különböző formátumú anyagok felhasználói igények alapján történő kiválasztásában és beszerzésében.

Az Internet források értékelése, kiválasztása, leírása és tárgyi analízise mindenképpen szükséges az azokhoz való hatékonyabb hozzáférés érdekében. A könyvtárosok szaktudása a gyarapítás terén biztosítja a felhasználók számára hasznos Internet források értékelését és kiválasztását is. A katalogizálók már régóta növelik az információhordozó anyagok értékét azzal, hogy rendszerezik azokat, és ahogyan azt nehány katalogizálási projekt is mutatja, az általuk használt információ-rendszerezésre vonatkozó irányelvek hatékonyan alkalmazhatók az Internet források esetében is (Hsieh-Yee, 1996). Függetlenül tehát attól, hogy minek is hívjuk az Internet dokumentumainak rendszerezésére tett kisérleteket (bibliográfiák, katalógusok, listák, stb.), azok létrehozása, fenntartása mindenképpen humán erőforrásokat igényel.

Ezen kívül természetesen sok nyitott kérdés marad, amire az egyes digitális könyvtárak célkitűzései adják meg a választ. Milyen típusú anyagokat kell, illetve érdemes katalogizálnunk? Hogyan különböznek a digitális katalógusok a hagyományostól? Képzett katalogizálók fogják fenntartani azokat? Milyen ismeretek szükségesek az új típusú katalógusok létrehozásához és hogyan lehet azokat elsajátítani? Milyen mértékben alapulnak majd ezek a katalógusok a már létező szabványokon, mint a MARC vagy az AACR? Lesz-e, elképzelhető-e a digitális anyagok egyetemes katalógusa? (Levy, 1995)

Az Internet egészét rendszerező információs rendszer létrehozása igazán csábítónak tűnik, azonban egy ilyen rendszer létrehozása nem lehetséges és nem is lenne hasznos a következő okok miatt: az Internet túl sok forrást tartalmaz; sok forrás minősége erősen kétséges, vagy tartalmánál fogva értéktelen a felhasználók számára. Sokkal hasznosabbnak és megvalósíthatóbbnak tűnik az OCLC által követett model, amely több intézmény együttműködésén alapul. A résztvevő könyvtárak a saját használói körük igényei alapján értékelik az Interneten elérhető információs forrásokat, és a helyi felhasználók számára releváns dokumentumokról szolgáltatnak be rekordokat a közös adatbázisba. Ez a gyakorlat nagyon hasonlít az OCLC eredeti programjához, itt azonban a katalogizálás leíró része jelentősen leegyszerüsített. Ez az együttműködés nagy mennyiségű minőségi Internet forrás számbavételét teszi lehetővé. Egy ilyen, vagy ehhez hasonló információs rendszer a minőségi rekordjai és a hatékony információvisszahívása révén válik közkedveltté a felhasználók körében.

A meta-adat a legfontosabb dolog, ami a jövőbeni könyvtári osztályozási és katalogizálási projekteket befolyásolja majd az Interneten. Az új meta-adat specifikációk és a katalogizálási rekordok közti párhuzamok nyilvánvalóak. A TEI fejléc és a MARC formátum egymásba konvertálhatósága, vagy legalábbis az erre mutató törekvések egyértelműen jelzik, hogy a katalogizálási gyakorlat és a katalogizálási szabványok nagy mértékben hozzájárulhatnak az Internet források rendszerezéséhez. A könyvtári meta-adat szabvány, a MARC, módosítások során ment keresztül, hogy tükrözze az elektronikus kor követelményeit. Különösen fontos az új 856-os mező létrehozása, amely lehetővé teszi a felhasználók számára azt, hogy a könyvtári online katalógusból vagy a hálózaton elérhető katalógusból közvetlenül eljussanak az elektronikus dokumentumokhoz. A meta-adatok nem csak a könyvtárosok, hanem valamennyi Internet szolgáltató számára alapvető fontosságúak. Sokan úgy vélik, hogy az olyan szabványok, mint a Harvest, vagy a TEI a legalkalmasabbak a hálózati használatra (Woodward, 1996). Az OCLC viszont azt szeretné, ha a Dublin Core válna nemzetközi szabvánnyá. Jelenleg azonban még nem világos, hogy mely szabványok nyernek széleskörű elismerést és válnak nemzetközileg elfogadottá.

Az Interneten levő hatalmas mennyiségű információ rendszerezésével kapcsolatos problémákat összegezve nyilvánvaló, hogy az online világnak igenis szüksége van azokra a tapasztalatokra és ismeretekre, amelyeket a könyvtárosok az információ rendszerezés során kifejlesztettek: az információhordozó anyagok beszerzésére; szerző, cím, és tárgyi hozzáférés biztosítására ezekhez a dokumentumokhoz; valamint információ szolgáltatására a dokumentumok "fizikai" elérhetőségéről. A használók átsegítése az online információs források labirintusán nagyon hasonlít a felhasználóknak a különböző referensz-könyvek, katalógusok, és osztályozási rendszerek útvesztőjében való eligazításához (Taylor, 1994). A digitális gyűjtemények kialakításakor pedig az Interneten elérhető online dokumentumok "beszerzése" a hagyományos könyvtári gyűjteményépítéshez szükséges ismereteket és a hagyományos osztályozási rendszerek használatát követeli meg.

FELHASZNÁLT IRODALOM

Alcuin: Online Catalogs with "Webbed" Interfaces.
<http://www.lib.ncsu.edu/staff/morgan/alcuin/wwwed-catalogs.html>

Argus Clearinghouse. (1996). Mission and Philosophy.
<http://www.clearinghouse.net/docs/mission.html>

Beyond Bookmarks: Schemes for Organizing the Web.
<http://www.public.iastate.edu/~CYBERSTACKS/CTW.htm>

Braun, Linda W. and Fleming, Jennifer. (1996, September/October). From the Desktop: Editor's Note Internet Trend for Libraries, 1(4).
<http://www.public.iastate.edu/~CYBERSTACKS/ITW.htm>

BUBL [Bulletin Board for Libraries] Information Service. (1996). BUBL WWW Subject Tree-Arranged by Universal Decimal Classification.
<http://www.bubl.bath.ac.uk/BUBL/Tree.html>

Caplan, Priscilla. (1993). Cataloging Internet Resources. The Public-Access Computer Systems Review. 4(2): 61-66.
<http://www.nlc-bnc.ca/ifla/documents/libraries/cataloging/caplan.txt>

Caplan, Priscilla. (1992). Providing Access to Online Information Resources: A Paper for Discussion.
<http://www.nlc-bnc.ca/ifla/documents/libraries/cataloging/caplan2.txt>

Cataloging and Retrieval of Information Over Network Applications [CATRIONA]. (1995). CATRIONA Project: Documents.
<http://www.bubl.bath.ac.uk/BUBL/maincatriona.html>

CyberDewey. (1989). A Guide to Internet Resources Organized Using Dewey Decimal Classification codes.
<http://ivory.lm.com/~mundie/DDHC/DDH.html>

CyberStacks. (1997). CyberStacks Home Page.
<http://www.public.iastate.edu/~CYBERSTACKS/homepage.html>

Graham, Peter S. (1994). "The Mid-Decade Catalog and its Environment."
<http://aultnis.rutgers.edu/texts/cffc.html>

Guedon, Jean-Claude. (1994). Why are Electronic Publications Difficult to Classify?: The Orthogonality of Print and Digital Media.
<http://www.nlc-bnc.ca/ifla/documents/libraries/cataloging/guej1.txt>

Hsieh-Yee, Ingrid. (1996). Modifying Cataloging Practice and OCLC Infrastructure for Effective Organization of Internet Resources.
<http://www.oclc.org/oclc/man/colloq/hsieh.htm>

Intercat--Internet Cataloguing Project Home Page. (1996).
<http://www.oclc.org/oclc/man/catproj/catcall.htm>

Jul, Erik. (1997). Now that we Know the Answer, What Are the Questions?
<http://jic.libraries.psu.edu/jic1nr3-42.htm>

Jul, Erik. (1996, January). Why Catalog Internet Resources. Computers in Libraries, 16(1): 8-10.

Klemperer, Katharina and Chapman, Stephen. (1994). Digital Libraries: a Selected Source Guide.
<http://www.lita.org/ital/1603_klemperer.htm>

Library of Congress. (1997, August). Guidelines for the Use of Field 856.
<http://www.loc.gov/marc/856guide.html>

McKiernan, Gerry. (1996). Casting the Net: The Development of a Resource Collection for an Internet Database.
<http://www.library.ucsb.edu/untangle/mckiernan.html>

McKiernan, Gerry. (1996). The Once and Future Library.
<http://www.library.ucsb.edu/istl/96-fall/mckiernan.html>

Mundie, David A. (1995). Organizing Computer Resources: Or, How I Learned to Stop Worrying and Love the DDC. <http://ivory.lm.com/~mundie/DDHC/organizing_computers.html>

Levy, David M. (1995). Cataloging in the Digital Order. In Digital Libraries >95, The Second Annual Conference on the Theory and Practice of Digital Libraries, June 11-13, 1995, Austin, Texas, USA
<http://www.csdl.tamu.edu/DL95/papers/levy/levy.html>

Olson, Nancy B. (ed.) (1997). Cataloging Internet Resources: A Manual and Practical Guide. Second Edition.
<http://www.purl.org/oclc/cataloging-internet>

OCLC [Online Computer Library Center]. (1997). "Building a catalog of Internet resources." <http://www.oclc.org/oclc/man/catproj/catcall.htm>

Project Aristotle (sm): Automated Categorization of Web Resources.
<http://www.public.iastate.edu/~CYBERSTACKS/Aristotle.htm>

Quittner, Joshua. (1992). Plugged In: Internet plays growing role as world's electronic highway. Newsday, November 2. p.3.

Research Libraries Group. (1997). Metadata: Connecting Researchers with Relevant Resources. The Research Libraries Group, 44: 3-10.

Riddle, Prentice. (1994). Library culture, computer culture, and the Internet haystack.
<http://is.rice.edu/~riddle/dl94.html>

Sha, Vianna. (1995). Guidelines for Cataloging Internet Resources. University of Missouri Columbia, School of Law Library.
<http://www.nlc-bnc.ca/ifla/documents/libraries/cataloging/sha1.txt>

Schamber, Linda. (1996, September). What is a document? Rethinking the Concept in Uneasy Times. Journal of the American Society for Information Science, 47(9): 669-671.

Steele, Mary. (1995, May). The BUBL Subject Tree and Catriona (Cataloging and Retrieval of Information over Networks Applications). Computers in Libraries, 15(5): 63-65.

Taylor, Arlene G. (1994, July/August). The Information Universe: Will We Have Chaos or Control? American Libraries: 629-632.

Taylor, Arlene G. and Clemson, Patrice. (1996). Acess to Networked Documents: Catalogs? Search Engines? Both?
<http://www.oclc.org/oclc/man/colloq/taylor.htm>

Weibel, Stuart. (1997). Dublin Core Metadata Element Set: Reference Description.
<http://purl.org/metadata/dublin_core_elements_970711>

Woodward, Jeanette. (1996). Cataloging and Classifying Information Resources on the Internet. In M. E. Williams (Ed.). Annual Review of Information Science and Technology. Vol. 31. (pp. 189-220). Medford, NJ: Learned Information.

WWW Virtual Library.
<http://vlib.stanford.edu/Overview.html>