Az Internet állandóan "építés alatt" van. A róla publikált cikkek, vagy könyvek gyakran már a kiadásuk időpontjában elavultnak számítanak. A legkurrensebb és legrelevánsabb információ többnyire csak magán az Interneten található meg. Nagyon sok tanulmány éppen ezért az Interneten elérhető forrásokra épül, még akkor is, ha ezek a források általában tűnékenynek számítanak, vagy a szerzőik provenanciája olykor kétséges. Valamekkora minőségi biztosítékot jelent azonban az, ha olyan elektronikus dokumentumokat használunk fel, amelyek valamely szakmai szervezet jóvoltából érhetők el, és a dokumentumokat még akkor is el tudjuk érni valahol, ha az Interneten való elérési címük, azaz URL-jük (Uniform Resource Locator) időközben megváltozik (Woodward, 1996). Sajnos azonban ez nem mindig lehetséges, mert nagyon sok kiváló dokumentum nem tartalmaz megfelelő információt a származására, vagy közreadójára vonatkozóan.
A web oldalak és az egyéb Interneten elérhető források exponenciális növekedésével az Interneten, és annak legközkedveltebb felületén, a World Wide Weben, egyre nehezebb megtalálni az éppen szükséges információt. A robotokkal felszerelt keresőoldalak, mint például az Infoseek vagy az AltaVista, folyamatosan fejlesztik ugyan az általuk biztosított keresési lehetőségeket, de a gyakorlatlan keresők számára továbbra is sokszor csalódásokat okoznak. A tárgy szerinti felosztású, kategória-orientált listák, mint például a Yahoo!, könnyű kereshetőséget kínálnak, de a lefedett területek mérete és kiterjedtsége meglehetősen korlátozott. Függetlenül tehát attól, hogy milyen keresőrendszert használnak, még a gyakorlott felhasználók is gyakran elgondolkoznak, hogy vajon létezne-e jobb megoldás a keresésre (Braun és Fleming, 1996).
A jelenleg létező több millió Internet forrás szerverek ezrein oszlik el. "Ez az anyag alig rendszerezett, minősége és stabilitása változó, nehéz értelmezni, böngészni, keresni, vagy hivatkozni rá" (Levy, 1995). Joshua Quittner már 1992-ben felhívta a figyelmet arra, hogy az Internet legnagyobb problémája az, hogy olyan sok információt tartalmaz, hogy nemcsak hogy nehéz megtalálni azt az információt, amire szükségünk van, de sokszor még azt sem tudjuk, hogy azt egyáltalán hogy, illetve hol kezdjük el a keresést. Ed Krol, az "Autóstopposok kézikönyve az Internethez" szerzője, szintén úgy jellemezte az Internetet, hogy az nem más, mint egy könyvtár, ahol a könyvek szanaszét hevernek a padlón és nincs katalógus. A rendszerezésre való igény tehát már elég korán megvolt a számítógépes szakemberek részéről, és közülük többen is könyvtári analógiákat használtak, viszont nem gondoltak arra, hogy a könyvtárosok által már kialakított rendszereket használjanak az elektronikus dokumentumok rendszerezésére (Taylor, 1994).
Lehet-e egyáltalán rendszerezni az Internetet? Ha
igen, akkor a válasz a világháló rendezetlenségére
vajon a technológiában (azaz a nagyobb, gyorsabb
keresőprogramokban), vagy pedig a humán erőforrásokban
(azaz a kicsi, de bizonyos szempontok szerint értékelt
hypertext kapcsolatokból [linkekből] álló
gyűjteményekben) rejlik? Elképzelhető,
hogy az Internet nagyjából szervezetlen, rendezetlen
marad a változékonysága, a publikálásban
mindenki számára egyenlőséget biztosító
jellege miatt, de ugyanakkor egyre nő az olyan projektek
száma, amelyek kisérletet tesznek az Internet források
valamiféle rendszerezésére, és ezen
törekvésük során vagy új rendszerezési
technikák kifejlesztésével, vagy pedig a
könyvtárakban már bevált és évtizedek
óta használt rendszerek felhasználásával
próbálkoznak (Braun és Fleming, 1996).
Lehet-e rendszerezni az Internetet?
Sok könyvtáros megkérdőjelezi, hogy az Internet a jelenlegi állapotában egyáltalán rendszerezhető-e, mert úgy tartják, hogy az Internet jelenleg túlságosan instabil az üzleti versengésből származó újabb és újabb technológiák és termékek gyakori megjelenése miatt. Priscilla Caplan néhány évvel ezelőtt még a következő kérdéseket tette fel a MARC és az AACR szabványok online dokumentumokra való kiterjesztése kapcsán: "Érdemes-e a könyvtárosoknak az Interneten talált anyagok katalogizálásával foglalkozni? Ha igen, akkor a MARC a legmegfelelőbb erre a célra? Az olyan hálózati eszközök, mint az Archie vagy a gopher vajon nem teszik-e fölöslegessé a könyvtári katalógusokat?" (Caplan, 1993).
Erik Jul (1996) a könyvtári szakemberek Internet források katalogizálására vonatkozó reakcióit megvizsgálva három okot jelöl meg, amelyek miatt a könyvtárosok sokszor idegenkednek az Internet forrásainak katalogizálásától. Az első ok az, hogy sokan még mindig úgy tartják, hogy az Interneten nincs semmi, ami katalogizálásra érdemes lenne. Ezt többnyire az magyarázza, hogy az Interneten nagyon sok az olyan, könnyen elérhető anyag, ami a könyvtárak gyűjtőkörén kívül esik. Ha azonban belegondolunk a hagyományos könyvtári gyűjteményszervezésbe, akkor nyilvánvaló, hogy a könyvtárak a nyomtatott anyagokat illetően is szelektálnak, tehát az Internet esetében sem kell, illetve lehet teljességre törekedniük. Az Internet források teljes kizárása viszont olyan értékes dokumentumok elvesztését jelentheti, amelyek adott esetben nemcsak hogy megfelelnek a könyvtár gyűjtőkörének, de elengedhetetlen fontosságúak is.
A második általános feltételezés az Internet forrásait illetően az, hogy minden, ami az Interneten ma megtalálható, az holnap már elérhetetlen lesz. Igaz, hogy a megbízható, hosszú-távú hozzáférés az Internet források esetében még megoldatlan problémát jelent, de ez nem jelenti azt, hogy valamennyi Internet forrás annyira tűnékeny lenne. Érthető módon, vannak olyan források, amelyek épp a jellegüknél fogva rövid életűek. Sok egyéb forrás viszont a URL változása miatt lesz elérhetetlen, és így a használó számára értéktelen. A fontosabb Internet források létrehozói azonban megbízhatóságra törekednek, és a fő céljuk az, hogy a használóik könnyűszerrel, és hosszú távon tudjanak hozzáférni a web oldalaikhoz. A katalogizálóknak tehát elsősorban a stabil, megbízható források katalogizálására kell törekedniük. Természetesen a szelekció önmagában nem mentesíti a katalogizálást végző intézményt a források rendszeres reviziója alól. Alternatív megoldásként ugyan megemlíthetők az Egységes Forrás Nevek (URNs = Uniform Resource Names) és az Állandó Egységes Forrás Lokalizálók (URLs = Uniform Resource Locators). A URN rendszer egy világszerte egyedi és tárolási helytől független elnevezést támogat, amelynek segítségével kideríthető a forrás tárolási helye. A PURL lényege az, hogy minden egyes aktuális URL-hez egy állandó URL-t rendel hozzá.
A harmadik, igen gyakori érv az Internet forrásainak katalogizálása ellen az, hogy az eredetileg nyomtatott dokumentumokra kifejlesztett szabványok, mint a MARC vagy az AACR2, egyébként sem lennének alkalmasak a hálózati források leírására. Ez a probléma időről időre felmerül az új médiumok megjelenésekor. Sokan szeretnék, ha a MARC sokkal rugalmasabb lenne. Igaz, nem tökéletes, de mégis az egyik legelfogadottabb szabvány a gépek közti kommunikációra és a bibliográfiai adatcserére. A MARC Internet forrásokra való adaptálásának nagyon sok, közvetlen előnye van: jelenleg már sok MARC-alapú rendszer létezik; az osztott katalogizálás előnyeit továbbra is élvezhetik a könyvtárak; lehetséges az Internet források rekordjainak a helyi katalógusokban való megjelenítése. Hasonló a helyzet az AACR2 szabályokat illetően. Az AACR2 szintén folyamatos revizióra szorul, hogy alkalmazkodni tudjon a változó technológiákhoz.
Jelenleg a World Wide Web legismertebb keresőoldalai nem könyvtárosok munkái. Rendszerezettségük mindig a web keresőoldal létrehozójának "egyéni" elgondolásait tükrözi. A legtöbb keresőszolgáltatás elsősorban a kulcsszavakon alapul és lehetővé teszi a Bool-féle logika szerinti keresést. A csak kulcsszavakon alapuló Internet indexelés azonban problematikus lehet. A WAIS (Wide Area Information Server) és az ahhoz hasonló eszközök súlyozott relevancia értékelést alkalmaznak, de még nagyon messze vannak a természetes nyelvi feldolgozás teljes kihasználásától, mivel nem képesek a kontextus értékelésére. Az eddigi tapasztalatok alapján a tárgyi hozzáférés majdnem mindig preferáltabb, mint a kulcsszó szerinti keresés. Ha valakinek keresést kell végeznie, akkor sokkal sikeresebb a tárgyi felosztású fastruktúrák használata során, mint a szóalapú keresési stratégiával, különösen akkor, ha a kereső nem jártas az adott szakterületen, vagy az adott nyelven.
A könyvtáros szakmában az elektronikus dokumetumok nagyszámú megjelenésével az utóbbi években a "falak nélküli könyvtár" fogalma teljesen ismertté és elfogadottá vált. A hagyományos könyvtárak filozófiájában jelentős változás ment végbe: a hangsúly a dokumentumok fizikai birtoklásáról az információ elérhetővé tétele felé tolódott. A CATRIONA (Cataloging and Retrieval of Information Over Networks Applications) projekt úgy fogalmazza meg a problémát, hogy ahhoz, hogy a falak nélküli könyvtár realitássá váljon, először azt a problémát kell megoldani, hogy a felhasználó hogyan tudja az igényeinek megfelelő forrásokat és szolgáltatásokat megtalálni. Jelenleg úgy tűnik, hogy a megoldás az új szoftver technológiák és a már elismert könyvtári módszerek és gyakorlatok kombinációjában rejlik. Az Argus Clearinghouse (1996) azt hangsúlyozza, hogy ahhoz, hogy az Internet egy sokkal hasznosabb információs környezetté váljon, humán erőfeszítéseket kell kombinálni a kereső és böngésző technológiákkal. Csak szoftveres megoldás nem elegendő. Az automatizált rendszerek számára a nyelv és a fogalmak egyszerűen túlságosan kétértelműek ahhoz, hogy azokat megfelelően azonosítani és értékelni tudják. Jelenleg úgy tűnik, hogy a mesterséges intelligencia a közeljövőben még nem lesz képes megfelelni ennek az elvárásnak.
Mindennek ellenére ezt a nézetet láthatóan nem osztja az átlagos Internet felhasználók és szolgáltatók többsége. Steinberg a Wired Magazinban azt írja, hogy bár a könyvtártudomány tűnik a legnyilvánvalóbb helynek, ahova az Internet rendszerezésének problémájával fordulhatunk, az mégsem tud segíteni, hiszen maga a szakma is elégedetlen a jelenlegi osztályozási rendszerekkel. (Woodward, 1996) Cikkében Steinberg arra a következtetésre jut, hogy az osztályozási rendszerek csak a polcon való elrendezésre alkalmasak és alkalmatlanok az elektronikus dokumentumok rendszerezésére.
A Yahoo!, az egyik legelső és legsikeresebb web
keresőrendszer, abból a meggyőződésből
kiindulva, hogy a meglévő osztályozási
rendszerek nem tudtak lépést tartani a tudomány
fejlődésével, megpróbált kitalálni
egy új osztályozási rendszert. Ugyanakkor
a Yahoo! katalogizálói panaszkodnak arról,
hogy az egyes dokumentumok esetében milyen nehéz
megtalálni azt az egy elérési pontot, amelynek
alapján azt valamelyik kategóriához kapcsolják.
Minden egyes URL számára egy rekord készül,
és a rekord csak egy helyre kerül be a Yahoo! hierarchikus
struktúrájába. Ha a Yahoo! a facettás
osztályozás adta lehetőségeket használná,
akkor nem kerülne ilyen nehéz helyzetbe. Az elektronikus
világban az osztályozásnak nem kell a polcok
számára kifejlesztett lineáris elrendezést
követnie. Azaz a Yahoo! inkább visszább lépett
az időben, mintsem előre (Woodward, 1996).
Digitális könyvtárak
A "digitális könyvtár" kifejezésben a könyvtár szó ugyan tökéletesen tükrözi a projektek jellegét, ám maguk a projektek nagyon kevés hagyományos könyvtári szaktudást tükröznek. A digitális könyvtárak felhasználják ugyan a könyvtárosok gyűjteményépítő tapasztalatait, amikor a saját felhasználói közösségük igényeinek megfelelően válogatnak mind a helyileg elérhető szövegfájlok, képek, videó vagy hang-fájlok, mind pedig az Interneten elérhető dokumentumok milliói közül, a digitális könyvtárakban levő források azonban rendszerint nem a könyvtárosok elvei szerint katalogizáltak, sem a fizikai, sem a tartalmi leírást illetően (Woodward, 1996).
A digitális könyvtári projektek nagyon sok támogatást kaptak már eddig is olyan szoftverek kifejlesztésére, amelyek ezeknek a könyvtáraknak a kiépítését támogatják. A szakirodalom szintén bővelkedik az új, innovatív visszakeresésről és szöveganalizáló alkalmazásokról szóló cikkekben. A hagyományos osztályozás és bibliográfiai leírás azonban csak nagyon kevésszer kerül említésre. Ezeket a technikákat általában úgy említik, hogy túlságosan sokba kerülnének az időigényes humán munka miatt, vagy pedig úgy kezelik, mintha elhanyagolhatók lennének a fejlődő információvisszakeresés új megoldásainak megjelenésével.
A természetes nyelvi feldolgozási technikákat,
kulcsszavas indexelést, és a kifinomult keresőprogramokat
egyre gyakrabban említik az Internet elérési
problémáira való potenciális megoldásként.
Az AltaVista keresőrendszere jó példa a gyors
keresésre. A gyors keresés azonban nem feltétlenül
jelent jobb minőségű keresést is (Taylor
és Clemson, 1996). Nem mindenki van tehát meggyőződve
arról, hogy a szoftver az egyetlen megoldás. A technikai
szakemberek azonban hajlamosak csak a technikai infrastruktúrát
figyelembe venni, és elhanyagolják a láthatatlan
szociális infrastrukturát, aminek a segítségével
a legtöbb dolog, nem csak a könyvtárak, működik.
A dokumentum fogalma a digitális könyvtárak
korában
A digitális könyvtárak alapvető funkciója nem magának az Internetnek, hanem az Interneten megtalálható dokumentumoknak a katalogizálása. A katalogizálás szempontjából az Internet nem katalogizálási egység, mivel nem tekinthetjük egy önálló könyvtárnak. Része lehet azonban annak a technológiai infrastruktúrának, ami támogat egy könyvtárat, de továbbra sem lesz könyvtár, legalábbis nem abban az értelemben, ahogyan egy könyvtári intézmény hozzáférést biztosít egy gyűjteményhez. Hagyományos értelemben az Interneten elérhető anyagok nem alkotnak egy könyvtári gyűjteményt, hiszen az Internet nem egy bizonyos felhasználói kör igényeinek a kielégítésére törekszik (Levy, 1995).
Az elektronikus források (dokumentumok) világában a könyvtárosok, az információs szakemberek, éppúgy mint a hagyományos nyomtatott dokumentumok kiadói, kissé zavarodottan szemlélik a technológiában, jogi kérdésekben bekövetkező radikális változásokat. Az egyik legalapvetőbb fogalom az információs szakemberek számára, ami egyértelműen átgondolásra szorul, a dokumentum fogalma. Azaz, az elektronikus források rendszerezésénél az első felmerűlő kérdés az, hogy az elektronikus környezetben mit is értünk dokumentum alatt. A hagyományos fogalom olyan feltételezéseken alapul, amelyek nem veszik figyelembe az elektronikus formátum jellegzetességeit és használatát. Nem foglalkozik olyan kérdésekkel, hogy vajon a hypertext kapcsolatok (linkek) által egymáshoz kapcsolt dokumentumok egy dokumentumnak tekinthetők-e, az elektronikus üzenetek (e-mail) egy sorozata egy dokumentumot alkot-e, ki a szellemi birtokosa a hyperlinkekkel egymáshoz kapcsolt dokumentumok egy bizonyos csoportjának.
Mi tekinthető tehát dokumentumnak? Nyilvánvaló, hogy az elektronikus dokumentumoknak vannak bizonyos egyértelmű jellegzetességei, amelyek megkülönböztetik őket a nyomtatott dokumentumoktól. Ilyen jellegzetességek például a könnyű manipulálhatóság, külső és belső linkek hozzáadásának lehetősége, egyszerű transzformálhatóság, azonnali adatátvitel, korlátlan másolhatóság. Az elektronikus publikálásban tehát a legnyugtalanítóbb aspektus a változtathatóság. Ez, a bibliográfiai kontrol mellett, olyan fontos kérdéseket is érint, mint a szellemi tulajdonjog problémája, vagy bizonyos foglalkozások (pl. a kiadás) szerepe a dokumentum- vagy információ-szolgáltatásban. A bibliográfiai kontroll szempontjából a dokumentumok legfontosabb jellemzője azok "megfoghatatlansága," átmeneti, képlékeny, folyton fejlődő, változó természete, egyszerre több felhasználó számára való elérhetősége és az egyes felhasználók igényeihez való adaptálhatósága.
Az elektronikus dokumentumok természete a dokumentum fogalmának
átgondolására késztet. Hogyan módosíthatjuk
a dokumentum fogalmát úgy, hogy az pontosabban fejezze
ki a jelenleg használatos valamennyi dokumentumtípus
jellemzőit? Schamber (1996) a következő kategóriák
átgondolását javasolja a dokumentum újradefiniálásával
kapcsolatban:
(1) Homogén dokumentum: Hagyományosan a dokumentumot
egyetlen fizikai entitásként értelmezzük,
amelyet egy vagy több szerző alkotott, és ami
véges terjedelmű, állandó, lineáris
tartalommal bír. Ezen típusú dokumentumok
heterogén gyűjteményét általában
tárgy szerinti csoportosításban, vagy médium
szerint tárolják.
(2) Hyperlinkekkel összekapcsolt heterogén dokumentum:
Az információs központok katalógusokon
és index-rendszereken keresztül biztosítanak
információhozzáférést. Ezek
az eszközök lehetővé teszik dokumentumrekordok
valamely közös jellemző alapján való
visszakeresését. Az így visszakeresett halmazt
felfoghatjuk úgy, mint egy céltudatosan egyesített
meta-adatot. Jelenleg, az információs központok
gyakran használnak külön tárgy és
médium szerinti katalógusokat. Ideális esetben
egy elektronikus rendszer teljes mértékben képes
integrálni a heterogén dokumentumokhoz való
hozzáférést. Az összekapcsolt számítógépes
hálózatok világában a linkekkel összekapcsolt
dokumentumrészek leírása magába kell
hogy foglalja a web oldalakhoz való elérési
útvonalat.
(3) A kapcsolódó dokumentumok kontextuális
megjelenítése: A kifinomult elektronikus rendszerek
vissza tudnak hívni olyan dokumentumhalmazokat, amelyekben
az egyes rekordok a tárgyi hasonlóság mértéke
alapján rangsorolva vannak. Az igazán kreatív
tervezők kifejlesztettek olyan háromdimenziós
megjelenítési formákat (piramisok, szobák,
stb.), amelyek segítenek elképzelni a rangsorolt
halmazokat. Ebben az esetben az egész halmaz egy meta-adatot
képvisel.
(4) A felhasználó által létrehozott
heterogén dokumentum: A hypertext világában
a felhasználó összekapcsol és manipulál
dokumentumokat vagy dokumentumok részeit, és így
új dokumentumokat hoz létre. A dokumentum továbbra
is változtatható marad, és a végtelenségig
vagy legalábbis mindaddig módosítható,
amíg a felhasználó új kapcsolatokat
(kapcsolódó linkeket) fedez fel. A dokumentumnak
ezen dinamikus fogalma alapján a tartalom a felhasználó
kontrollja alatt áll. A dokumentum tehát egyedi
és nem állandó, és ezért valahogyan
a dinamikus linkek segítségével kell leírni.
Mindezek az elképzelések olyan megközelítésen
alapulnak, amely a dokumentumokat, mint alkotásokat/tárgyakat
veszi figyelembe. Ha arra gondolunk, hogy a végső
cél nem az alkotások/tárgyak, hanem az információ
biztosítása a felhasználó számára,
akkor a dokumentum definiálásakor egy folyamat-orientált
megközelítést célszerű használnunk.
Természetesen a legfontosabb dolog nem az, hogy egyetlen
definíciót alkossunk, amely kifejezi az elektronikus
dokumentumok valamennyi jellemzőjét. A hangsúly
a fogalom újragondolásán van. A bibliográfiai
kontroll újragondolása pedig az olyan új
fogalmak beépítését jelenti a mindennapi
gyakorlatba, mint a hypertext, linkek, web oldalak, megjelenítési
formátumok, verziók, navigációs lehetőségek,
stb.
Az elektronikus dokumentumok
Egy Internet katalógus létrehozásának egyik fő problémája az Internet dokumentumok és szolgáltatások tűnékeny természete. Az Internet használók egyik állandó frusztrációja a nem érvényes linkek gyakorisága. Valószínüleg a jövőben az Internet nagyobb stabilitással bír majd, jelenleg azonban meg mindig átalakulóban van. Guedon (1994) úgy véli, hogy az elektronikus kiadás esetében egy külön osztályozási rendszert kell kialakítani, amely megfelel az elektronikus dokumentumok jellemzőinek. Ezek a tulajdonságok pedig meglehetősen eltérőek a nyomtatott dokumentumokétól. Az elektronikus kiadást inkább egy kommunikációs eszköznek fogja fel, és nem az információ állandóvá és széles körben való elérhetővé tételének.
Az Internet dokumentumok flexibilitása és nyitottsága az interaktív párbeszédek és a módosíthatóság iránt egyértelműen pozitív dolgok, viszont a katalogizáló könyvtárosok szemében ezek inkább akadályok, mintsem előnyök. Woodward szerint az OCLC kissé naívnak tűnik, amikor azt feltételezi, hogy az Interneten információt szolgáltató intézményekkel való megegyezések révén az elektronikus dokumentumok lelőhelye állandósítható. Valójában, egy központi katalógus szolgáltatójának vállalnia kell azt, hogy rendszeresen ellenőrzi a rekordok érvényességét. Nagyon sok forrás vándorol egyik szerverről a másikra a weben való jelenléte során. A URN, a PURL, vagy az Egységes Forrás Azonosítók (URIs = Uniform Resource Indentifiers) segíthetnek minimalizálni ezt a problémát, de az Internet dokumentumok mozgása elkerülhetetlen. Valójában magának a dokumentumnak a változása is igen gyakori. Módosítások, kiegészítések, törlések nagyon gyakran előfordulnak, és felmerül a kérdés, hogy mekkora mértékű változás után tekinthető egy módosított forrás új dokumentumnak. Az elektronikus dokumentumok esetében érvénytelen az az állandóság, amit a nyomtatott dokumentumokkal asszociálunk. Ezeket a változásokat pedig tükrözni kell a katalógus rekordokban, ami azt jelenti, hogy valakinek fel kell vállalnia a változások követését (Woodward, 1996).
Az online információs források legalább két, jól elkülöníthető kategóriába sorolhatók: elektronikus adatforrások, valamint online rendszerek/szolgáltatások. Az első kategória azokat az elektronikus forrásokat foglalja magába, amelyek vagy online, vagy offline módon érhetők el, és amelyeket viszonylag könnyen le tudunk írni a jelenlegi MARC bibliográfiai formátumban. Ezeknél az anyagoknál felmerül a probléma, hogy hogyan határozzuk meg a "lelőhelyüket," amikor az adatok egy távoli rendszer vagy szolgáltatás révén érhetők el, és nem egy hagyományos könyvtáron vagy archívumon keresztül. A második kategória sokkal inkább a szolgáltatói közösség információs formátumához hasonlít, mintsem a bibliográfiai adatokhoz (Caplan, 1992).
Az elektronikus adatforrások kategóriájába
olyan dokumentumok tartoznak, mint a számítógépes
szoftverek, géppel olvasható formátumban
tárolt szövegek, vagy képek, bibliográfiai,
numerikus, vagy egyéb adatok adatbázisai. Ezek a
dokumentumok lehetnek csak elektronikusak, de előfordul,
hogy vannak nyomtatott megfelelőik is. A számítógépes
rendszerek, vagy szolgáltatások külön
kategóriát képviselnek. Lehetnek teljesen
nyilvánosak, de lehetnek csak egy bizonyos közösség
számára elérhetőek. A fő jellemzőjük
az, hogy többnyire csak hálózaton át
érhetők el.
Meta-adatok
A könyvtárak már régóta használják a katalógus tételeket és a MARC rekordokat, illetve biztosítanak elérést a nyomtatott irodalomhoz. Mivel a digitális gyűjtemények rég túlnőttek a könyvtárak falain, ezek a jól ismert és kedvelt eszközök túlságosan részletesek, és következésképpen sokak szerint alkalmatlanok a digitális dokumentumok leírására. A legközismertebb kezdeményezés, ami új formátumot nyújt a digitális dokumentumok leírására, egy 1995 óta tartó nemzetközi konferencia sorozat eredményeképpen alakult ki, és a "Dublin Core meta-adatok" vagy "Warwick Framework" néven vált ismertté (Klemperer és Chapman, 1994).
Különböző típusú intézmények egyik legkurrensebb nemzetközi vitatémája az, hogy a kutatók hogyan tudják hatékonyabban megtalálni a számukra szükséges információkat az Internet és a web-alapú források használata során, illetve a meta-adatok mennyire lehetnek hasznosak ebben a keresésben. Könyvtárosoknak, levéltárosoknak, múzeumi szakembereknek, éppúgy mint az információs szabványok, hálózatok szakértőinek számára a meta-adat kifejezés különböző konnotációkat hordoz. Míg egyrészt a MARC formátum használata is meta-adattal való foglalkozást jelent, manapság egyre inkább a digitális fájlok fejlécében (header) található deszkriptív információ azonosítását értik alatta.
Stuart Weibel, akit a Dublin Core kitalálójaként szoktak emlegetni, a meta-adatokat olyan egyszerű leírási formátumként definiálja, amelyeknek a célja a weben való keresés javítása egy nemzetközi megegyezés segítségével. Nagyon sok eltérő adatmodellel rendelkező adatbázis létezik, de bizonyos fokig valamennyi leírható a Dublin Core-nak nevezett közös adatmodellel. A Dublin Core fő célja, hogy a tartalom és a tartalmat leíró szintaktikai kifejezés közti függetlenséget fenntartsa. Korábban, a katalogizálás során, a könyvtárosok valamennyire megengedték a szintaktikai kifejezések összevegyítését az adat tartalom modellel. A Dublin Core esetében azonban, e két dolog elkülönítésére most ők is figyeltek. Könyvtáros berkekben már régóta folyik a meta-adatok létrehozása, ezeket az adatokat azonban hagyományosan katalógus adatoknak nevezzük. Ez a kifejezés régimódinak tűnik az Internet világában, ezért sokan (elsősorban a nem könyvtári szakemberek) a meta-adat kifejezést szívesebben használják.
A Dublin Core már úgymond de facto szabványként használatos, ami remélhetőleg (a mostani érdeklődésből kiindulva) formális szabvánnyá válik majd. Jelenleg az egyik legkurrensebb feladat az Internet dokumentumok leírásainak nemzetközivé tétele. A web jelenlegi infrastruktúrájában több helyen is előfordulnak különböző nyelvekhez kapcsolódó különböző karakterhalmazok, amiknek kezelésére ugyan jelenleg még nincs megoldás, de 16 ország adatleírói folyamatosan dolgoznak egy nemzetközi Dublin Core prototípus kialakításán. Ez azt jelenti, hogy van esély arra, hogy nemzetközileg egységes megoldás szülessen a hálózaton elérhető források katalogizálására.
Eredetileg a meta-adatok létrehozása egyetemi kutatók ötlete volt, de azóta egy nagyon széleskörű gyakorlati témává vált, ami jelenleg a legnagyobb prioritású a web architektúrával foglalkozók körében. Egy ilyen jellegű szabvány létrehozásakor felmerül a kérdés, hogy a meta-adatok problémája elsősorban a kutatói környezetre korlátozódik-e. Ha figyelembe vesszük azt, hogy például az üzleti világban mindenkinek képesnek kell lennie arra, hogy létrehozza a saját meta-adat halmazát anélkül, hogy más meta-adat halmazokat ismerne, hiszen az erre irányuló kooperáció időigényes és drága lenne, akkor a válasz egyértelműen nem. Ezen kívül magát a kódot, ami a Dublin Core használatát teszi lehetővé, olyan cégek fogják beépíteni a keresőkbe (browser) és a szerverekbe, mint a Microsoft és a Netscape. A könyvtárosok szerepe az információrendszerezés terén a legfontosabb. A Dublin Core potenciális hasznosságát nem csak a végfelhasználóknak, hanem valamennyi adatszolgáltató intézménynek is fontos felismernie a web használatán túl is, hiszen az információszolgáltató intézményeknek hasznos lehet az, hogy hogyan lehet használni egy átfogó meta-adat térképet arra, hogy a felhasználók jobban tudjanak tájékozódni az információ világában.
Az 1997 nyarán megalakult Metadata Working Group, amely javaslatot tett az egyes Dublin Core definíciók módosítására, valamint elkészítette az irányelveket arra vonatkozóan, hogy a Dublin Core elemek használatát hogyan lehet kiterjeszteni más információtípusokra is. A meta-adatoknak nem csak az a funkciójuk, hogy a web indexeiben való keresést megkönnyítsék, hanem az is, hogy a hagyományos dokumentumok meta-adatait is megjelenítsék a weben. A felhasználók ugyanis hajlamosak azt hinni, hogy ami nincs a weben, az nem is létezik, ezért emlékeztetnünk kell őket arra, hogy hatalmas mennyiségű kitűnő információforrás létezik a weben kivül is.
A meta-adatokra több metafóra is létezik. Az
egyik, a méhek példáját felhasználva,
úgy definiálja a Dublin Core szerepét, hogy
az tulajdonképpen egy felhasználói felület
a könyvtárosok és a számítógépes
szakemberek között. Ha ugyanis két méhcsaládot
csak úgy összeengednek, akkor az a családok
közti harchoz vezet. Ezzel szemben, ha egy kilyukasztott
újságpapírt helyeznek a két család
közé, akkor azok fokozatosan ismerik meg egymást
és vegül egy családdá olvadnak.
A Dublin Core Elemek
A Dublin Core Elements, azaz a Dublinban 1996-ban született megegyezés azon 15 alap információs elem--más néven meta-adat deszkriptor--kialakításáról, amelyeket a web oldalakon való indexelés és absztrakt készítés során használnak a keresési eredmények javítása céljából, igazi mérföldkőnek számít. A Dublin Core folyamatos fejlesztés alatt áll, amelyet az érdekelt területek szakértői rendszeres találkozókon vitatnak meg, illetve vizsgálnak felül.
1997 júliusában a Research Library Group találkozóján például megvitatásra került, hogy a dublin core elemei hogyan használhatók olyan anyagok elérésére, amelyek nem a weben keresztül érhetők el. A kérdés az, hogy milyen típusú meta-adatokat szükséges az olyan különböző típusú forrásokhoz kapcsolni, mint a hagyományos könyvtári anyagok, online könyvtári katalógusok, elektronikus szövegek, és múzeumi tárgyak. Jelenleg az a fő probléma ezekkel a forrásokkal, hogy a weben keresztül ugyan elérhető bizonyos információ ezekről az anyagokról, de maguk a dokumentumok nem web-alapúak és jelenleg gyakran csak önálló, inkompatibilis indexelő és kereső protokollokon keresztül érhetők el.
A Dublin Core meta-adat elemek jelenlegi verziója 1996
decemberében lett véglegesítve. Az adatelemek
és azok definíciója valószínüleg
nem változik alapvetően a közeljövőben,
bár néhány adatelem alkalmazása jelenleg
kisérleti szinten folyik és az értelmezése
implementációnként változhat. Az elemek
elnevezései azok szemantikai értelmezését
próbálják tükrözni. Minden elemhez
kapcsolódik egy egyszavas név is, amely az elemek
szintaktikai meghatározását teszi egyszerűbbé
a kódolási rendszerek számára. Valamennyi
elem opcionális és ismételhető (Weibel,
1997).
Cím (cím): A forrás létrehozója
vagy kiadója által meghatározott neve.
Szerző vagy létrehozó (létrehozó):
Az(ok) a személy(ek) vagy szervezet(ek), amely(ek) elsődlegesen
felelős(ek) a forrás szellemi tartalmának
létrehozásáért. Az írott dokumentumok
esetében például a szerzők, a vizuális
források esetében a művészek, fényképészek,
vagy illusztrátorok.
Tárgy és kulcsszavak (tárgy): A forrás
témája. Általában a dokumentum tárgyát
kulcsszavak fejezik ki. A kontrollált szótárak
és formális osztályozási rendszerek
használata preferált.
Leírás (leírás): A forrás
tartalmának szöveges leírása, amely
a dokumentum-típusú tárgyak esetében
az absztraktot, a vizuális források esetében
a tartalmi leírást jelenti.
Kiadó (kiadó): Az(ok) a személy(ek)
vagy szervezet(ek), amely(ek) a forrás jelen formájában
való közreadásáért felelős(ek).
Egyéb közreműködő (közreműködő):
Az(ok) a létrehozóként nem említett
személy(ek) vagy szervezet(ek), amely(ek) jelentősen
hozzájárult(ak) a forrás szellemi tartalmához,
de a közreműködése(/ük) másodlagos
a létrehozóként megnevezett személy(ek)
vagy szervezet(ek) szerepéhez képest. Példa:
szerkesztő, fordító, illusztrátor,
stb.
Dátum (dátum): Az a dátum, amikor
a forrás a jelenlegi fomájában elérhetővé
vált. A dátum ajánlott formátuma a
következő: év (4 karakter) - hónap (2
karakter) - nap (2 karakter). Sok egyéb formátum
lehetséges. Használatuk esetén az egyértelműséget
biztosítani kell.
Forrás típus (típus): A forrás
kategóriája, mint például "web
lap," "regény," "vers," "tanulmány,"
"szótár," stb. Az egységesség
és a rendszerek közti átjárhatóság
érdekében a típust egy megadott listából
kell kiválasztani. Jelenleg ez a lista még nem végleges.
A legújabb verziója a http://sunsite.berkeley.edu/Metadata/types.html címen
található meg.
Formátum (formátum): A forrás adatformátuma.
Azonosítja a szoftvert és optimális esetben
a hardvert is, amely a forrás megjelenítéséhez
vagy működtetéséhez szükséges.
A forrás típushoz hasonlóan, az egységesség
érdekében a formátum típusát
is egy előre összeállított listából
kell kiválasztani.
Forrás azonosító (azonosító):
Olyan betű- vagy számkombináció, amely
egyértelműen azonosítja a forrást.
A hálózati források esetében ilyen
azonosító lehet a URL, vagy a URN. Nem online források
esetében ez lehet olyan világszerte használt
azonosító, mint az ISBN vagy egyéb formális
név.
Forrás (forrás): Olyan betű- vagy számkombináció,
amely egyértelműen azonosítja azt a művet,
amelyből a forrás származik. Például
egy regény PDF verziója forrásként
tartalmazhatja annak a fizikai könyvnek az ISBN számát,
amelyből a PDF verzió származik.
Nyelv (nyelv): A forrás szellemi tartalmának
nyelve(i).
Kapcsolat (kapcsolat): Az adott forrás kapcsolata
más forrásokkal. Ezen adatelem célja, hogy
lehetőséget biztosítson az egyébként
önálló források közti formális
kapcsolatok jelölésére. Például
egy dokumentum képei, egy könyv fejezetei, vagy egy
gyűjtemény egységei között. Ezen
adatelem használata és a specifikációinak
kialakítása jelenleg kisérleti fázisban
van.
Lefedett téma (téma): A forrás helyi
és/vagy időbeli jellemzői. Ezen adatelem
használata és a specifikációinak kialakítása
jelenleg kisérleti fázisban van.
Szerzői jog (jog): Link a szerzői jogi megjegyzéshez,
vagy ahhoz a szolgáltatóhoz, ahol a forráshoz
való hozzáférésre vonatkozó
információ érhető el. Ezen adatelem
használata és a specifikációinak kialakítása
jelenleg kisérleti fázisban van.
A meta-adatok jelentősége
A katalógusrekordok előállításának költségei jelentősen csökkenthetők, ha a MARC rekordoknak legalább egy része automatikusan előállítható egy olyan szoftver használatával, mint például az InterCat projekt részeként kifejlesztett szoftver, amely ki tud választani bizonyos adatelemeket a dokumentumokból, és tárolni tudja azokat a megfelelő MARC mezőkben. Ezek a programok a MARC rekordok létrehozásához már különböző szabványokon (mint például a TEI = Text Encoding Initiative, vagy a URC = Uniform Resource Citation) alapuló meta-adatokat használnak (Woodward, 1996).
A Spectrum például egy olyan szoftver-rendszer, amely el tudja végezni ezeket a feladatokat, és így egy kevéssé költséges Internet adatbázist hoz létre. Ez a költségmegtakarítás lehetővé teszi az OCLC számára, hogy egy nyilvános katalógust működtessen az Inerneten, amely mindenki számára elérhető, míg a projektben résztvevő intézmények számára egy sokkal kifinomultabb OPAC elérést biztosít. Az egyik legérdekesebb dolog a Spectrummal kapcsolatban az, hogy különböző formátumú adatokból képes MARC rekordokat létrehozni.
A TEI egy fontos nemzetközi projekt, amelyet az Association
for Computers and the Humanities (ACH), az Association for Computational
Linguistics (ACL), és az Association for Literary and Linguistic
Computing (ALLC) támogat. Feladata irányvonalak
kifejlesztése és terjesztése a géppel
olvasható szövegek kódolására,
közvetíthetőségére, és
cserélhetőségére, valamint javaslatok
tétele új szövegek kódolására.
A TEI javaslata a szövegek kódolására
az SGML (Standard Generalized Markup Language) meta-nyelv. Az
SGML egy nemzetközi szabvány az elektronikus szövegek
kódolására, amely lehetővé
teszi, hogy sok különböző szöveg egy
egymással kompatibilis formátumban legyen kódolva,
és analizálható legyen az SGML-t támogató
szoftverekkel. Ez a kódolási formátum az
elektronikus szövegek számára igen jól
használható, de még nem MARC kompatibilis.
A Spectrum lehetővé teszi a MARC rekordok, TEI fejlécek,
vagy az URC-k egy adatbázisba való összegyűjtését
és azok hagyományos technikákkal való
kereshetőségét. Bár a Spectrum három
fontos folyamatot tud elvégezni: rekordok létrehozását,
adatbázisépítést, és rekord-visszakeresést,
ezek közül a legfontosabb a rekordok létrehozása.
A bibliográfiai rekordok átkonvertálása
TEI vagy URC formátumból MARC formátumba
a legjelentősebb funkció.
Meta-adat szabványok
Az inkompatibilis szabványok és technológiák egy másik, igen fontos problémát jelentenek az Interneten elérhető dokumentumok katalogizálásában. Ahogyan Caplan (1992) leírja, a meta-adat nem más, mint adat az adatról. Ennek megfelelően egy katalógus rekord is meta-adat, sőt egy TEI fejléc, vagy egyéb más leírási forma is. A meta-adatoknak a létrehozását hívhatnánk továbbra is katalogizálásnak, de ez a kifejezés nagyon sok mindenki számára olyan jelentéseket hordoz, ami magába foglalja az AACR2 vagy a USMARC szabványokat is. Ezért, az Internet világában a semlegesebb és újabb meta-adat kifejezés a preferált.
A MARC szabvány egy igazán kifinomult eszköz a könyvtári források leírására, de más intézmények nem igazán használják. Annak érdekében, hogy a MARC elfogadhatóbb legyen egy tágabb közönség számára, az OCLC és a National Center for Supercomputing Applications (NCSA) egy meta-adat workshopot kezdeményezett, amely különböző információ-szolgáltatókat (mint például kiadók, szoftver fejlesztők és kutatók) is bevont a beszélgetésekbe.A workshop munkájának eredményeképpen megszületett a Dublin Core, amely a USMARC egy leegyszerűsített változatának tekinthető.
A másik meta-adat szerkezet, a Harvest, a University of Coloradoban került kifejlesztésre az Advanced Research Projects Agency (ARPA) támogatásával. A Harvest-nek olyan eszközei vannak, amelyek megkönnyítik az információ megtalálását a fájlokban, és automatikusan indexet tudnak építeni. A saját keresőprogramját és protokollját felhasználva különböző felhasználói csoportok számára készít katalógusokat. Annak ellenére, hogy nem MARC alapú, közös platformként szolgálhat a hálózati adatbázisok között. A Harvest egy tartalmi összefoglalást is készít minden általa összegyűjtött információs tárgyról. Ezek a rekordok egy Summary Object Interchange Format (SOIF) nevű formátumban kerülnek tárolásra. A tartalmi összefoglalások bizonyos mértékig megfelelnek a MARC rekordokban alkalmazottakhoz. Neuss és Kent a bibliográfiai kontrol hagyományos módszereinek a Harvest-tel való kombinációján dolgoznak. A könyvtártudomány és a fogalmi analízis ötleteinek kombinációjával a hálózati információs források, különösen a WWW fogalmi analízisére fejlesztenek ki eszközöket. A hálózati információs források szövegfájlokat, WAIS adatbázisokat, és web dokumentumokat foglalnak magukba. Neuss és Kent szerint ezeket a forrásokat célszerűbb inkább fogalmi osztályoknak, mintsem tárgyaknak tekinteni, és következésképpen a hálózati információs források rendszerezésére és leírására egy fogalomorientált megközelítést alkalmaznak (Woodward, 1996).
A Text Encoding Initiative (TEI) által létrehozott szabvány, a TEI P3-t, a humán tudományok szövegeinek digitális kódolására irányul, és magába foglal egy javaslatot egy elektronikus fejléc létrehozására, amely minden egyes dokumentum esetén a címoldalhoz hasonló információkat tartalmaz. Steve Kirsch, az InfoSeek keresőszolgáltatás kifejlesztője, más keresőprogramok szolgáltatóival együttműködve, szintén folyamatosan dolgozik egy meta-adat szabvány kifejlesztésén. Ez a szabvány nem MARC-alapú, de mint a Z39.50 egyik kiterjesztése támogatja a MARC fomátumot. A Working Group on Document Identifiers, amely az Internet Engineering Task Force része, az Egységes Forrás Jellemzők (URCs = Uniform Resource Characteristics) szabványosításával foglalkozik.
A fent említett szabványosítási kisérletek
mellett egyre nagyobb szükség van olyan szabványokra,
amelyek a különböző rendszerek közti
átjárhatóságot biztosítják.
Az elektronikus források számának növekedésével
együtt súlyosbodik a különböző
rendszerekben tárolt információ elérhetőségének
problémája. Ez a probléma nem csak a felhasználók,
hanem az eltérő adatbáziskezelő rendszerek
és az elektronikus információcsere szintjén
is jelentkezik. A Z39.50 amerikai nemzeti szabvány egy
új lépés a formátumok nagyobb kompatibilitása
felé. A Z39.50 feladata azon üzenetek kódolása,
amelyek két számítógépes rendszer
közti kommunikációhoz szükségesek
az információkeresés és visszahívás
során. A szabvány eredetileg ugyan könyvtári
célokra lett kifejlesztve, de teljesen független a
közvetített információ típusától.
Jelenleg több egyetemi intézmény és
információszolgáltató használja.
A Kongresszusi Könyvtár, az OCLC, és a Research
Library Information Network (RLIN) például bibliográfiai
rekordok cseréjére alkalmazza, de a szabvány
alkalmas az Interneten való használatra is.
Meta-adatok és az elsődleges források
Az olyan elsődleges forrásokkal foglalkozó intézmények, mint az irattárak, speciális gyűjtemények, kéziratokkal, ritka könyvekkel, múzeumi tárgyakkal, művészeti alkotásokkal, vagy egyéb ritka és egyedi anyagokkal foglalkozók, szintén erősen érdeklődnek a meta-adatok felhasználása iránt, különös tekintettel azok lehetséges használatára az egyedi anyagok weben való elérhetővé tételétben. 1997 őszén az Research Libraries Group-on belül külön archívumi meta-adat csoport alakult azzal a céllal, hogy megállapítsa ennek lehetőségeit. A csoport egyik feladata, hogy megvizsgálja a már létező meta-adat elemeket és megállapítsa, hogy azokon kívül milyen más elemekre van még szükség az archívumok számára, valamint, hogy megállapodásra jusson a különböző nemzetközi meta-adat szabványokat illetően.
A meta-adatokkal kapcsolatos viták tehát már csak azért sem korlátozódnak nemzeti szintre, mert az egyes nemzeti kulturális örökséget reprezentáló anyagok a nemzetközi közösség részei. Ebből a felismerésből kiindulva, valamint figyelembe véve azt, hogy csak a széleskörű érdekek figyelembevételével érhetők el a legjobb eredmények, foglalkozik például a Canadian Heritage Information Network (CHIN) a meta-adatok nemzetközi felhasználásával a szöveges és képi adatok összekapcsolásában. A CHIN projektjének célja, hogy létrehozza a kanadai múzeumok gyűjteményeinek nemzeti online elérésű leltárát. Jelenleg ez még csak egy szöveges gyűjtemény, ami több mint 25 millió szépművészeti, irodalmi, természettudományi és egyéb tárgyat reprezentál. A legújabb cél az, hogy a szöveges adatokhoz tartozó képeket is elérhetővé tegyék. Ehhez azonban új adatelemekre van szükség, ami új problémákat vet fel a források leírásában.
A meta-adatok egyik problémája az, hogy vajon létrehozható-e egy olyan univerzális elemhalmaz, ami valamennyi típusú információforrásra alkalmazható és a kereső számára egy általános áttekintést ad az információra vonatkozóan, függetlenül annak típusától. Az információforrások leírása azonban nem az egyetlen probléma. A hagymához hasonlóan, a meta-adatoknak több szintje létezik a kereső és a forrás között, és ezzel kapcsolatban többen aggodalmukat fejezték ki, hogy vajon a felhasználóknak hogyan lehet egyértelműen jelezni, hogy adott helyzetben az információnak melyik szintjével találkoznak. Ez a szint lehet a leíró rekordoknak egy teljes adatbázisa, az adatbázis egyetlen rekordja, vagy pedig egy rekord által leírt dokumentum képe. Ahogyan azt Lyn Elliot Sherwood megfogalmazta: "Meg kell találni a módját annak, hogy hogyan lehet nagy katalógusokat a hálózati rendszerben elérhetővé tenni, és célszerű eldönteni, hogy milyen szinten legyenek azok láthatók. Vajon érdemes-e katalógustételek millióit megjeleníteni a weben való keresés első fázisában? Valószínüleg nem. Mindannyian belefulladnánk az adatokba. A kérdés tehát az, hogy hogyan segítsük az iteratív keresési folyamatot." (Research Libraries Group, 1997)
További megoldásra váró probléma,
hogy néhány, a web számára kialakított
Dublin Core elem kevéssé hasznos az olyan elsődleges
források leírásánál, amelyeket
a weben digitális reprodukciók képviselnek.
A nem web dokumentumokat illetően a két legproblémásabb
Dublin Core elem a dátum és a kiadó.
Ezek olyan specifikusan vannak definiálva, hogy használatuk
a digitális szurrogátumok leírásánál
zavaró lehet. A dátum adatelem definíciója
a következő: "az a dátum, amikor a forrás
a jelenlegi formájában elérhetővé
vált." Ugyanakkor, ha valaki például
Van Gogh egyik festményét keresi a weben, akkor
nagy valószinüséggel inkább az fogja
érdekelni, hogy maga a festmény mikor készült,
és nem pedig az, hogy mikor lett digitalizálva.
Hasonló a helyzet a kiadó esetében
is, amit úgy definiáltak, hogy az "az a személy/testület,
amely az információforrást a jelenlegi állapotában
létrehozta." El kell tehát gondolkoznunk azon,
hogy hogyan lehet különbséget tenni egy műalkotás
digitalizált szurrogátuma és a maga az alkotás
között. Vajon a forrás információ
magára az alkotásra vonatkozik, vagy pedig annak
a fotójára? A dátum az alkotás
elkészültének a dátuma, vagy pedig azt
jelöli, hogy a fotót mikor készítették?
A létrehozó a művész, vagy a
fényképész? A Dublin Core jelenleg még
nem alkalmas a következetes alkalmazásra és
a használata problematikussá válik, ha nem
eredetileg elektronikus módon létrehozott információval,
vagy ha műalkotások elektronikus reprezentációival
van dolgunk (Research Libraries Group, 1997).
Rendszerezési törekvések az Interneten
Jelenleg nagyon sok, az Internet rendszerezésére irányuló tevékenység folyik. Meglehetősen nagyszabású katalógusok és indexek vannak használatban már évek óta. A Yahoo!, vagy az Alex csak két példa erre. Folyamatos kisérletek folynak a digitális dokumentumok katalogizálása terén. A két legismertebb példa erre a British Library által támogatott CATRIONA projekt, valamint az OCLC Internet források katalogizálásának programja, az InterCat.
Új szabványok jelennek meg és a már meglévők módosulnak, amelyek a digitális dokumentumokat, és az azokról készített meta-adatokat reprezentálják. Egyre több az Internet katalogizálásával foglalkozó konferencia és egyéb szakmai találkozó. Cikkek jelennek meg ebben a témában az Interneten, éppúgy mint a nyomtatott időszaki kiadványokban. Sok Internet listán (Autocat, Pacs-l, Emedia, vagy Intercat) folyik a vita katalogizálási témákban. 1996 óta a Haworth Press, Inc. kiadásában nemzetközi elektronikus folyóirat jelenik meg az Interneten Journal of Internet Cataloging címmel (http://jic.libraries.psu.edu). (A folyóiratnak csak a tartalomjegyzéke és az absztraktjai nyilvánosak. A teljes szövegeket csak az előfizetők olvashatják.)
Az Internet megjelenésével a könyvtáraknak nem csak a bibliográfiai elérés, hanem a teljes szövegekhez való hozzáférés biztosítására kell törekedniük. A felhasználók eligazítása a nem helyileg tárolt információk világában fokozatosan átalakítja a katalógusról kialakult képet. A hálózati információk elterjedésével olyan eszközre van szükség, amely egyaránt tudja kezelni mind a helyi, mind pedig a hálózaton tárolt információkat, szöveget és képeket, hozzáférést biztosít adatokhoz, információkhoz és információ-tároló eszközökhöz. Összehasonlítva a hagyományos katalógust a digitális könyvtári katalógussal a következő alapvető különbségeket állapíthatjuk meg. A hagyományos katalógus elérést biztosít a helyileg tárolt anyagokhoz, amelyek elsősorban tárgyi dokumentumok. A hozzáférést lelőhelyekre mutató információ formájában biztosítja. A hagyományos katalógus önálló bibliográfiai eszköz. Ezzel szemben az új, halózati forrásokat is számbavevő katalógus egyaránt biztosít elérést mind a helyileg, mind pedig a máshol (valahol a hálózaton) tárolt anyagokhoz. Következésképpen nem csak az információt tartalmazó tárgyakhoz, hanem magukhoz az elektronikus információkhoz is hozzáférést biztosít. Magát az elektronikus információt szolgáltatja, és nem a lelőhelyet.
A felhasználó egy közös felhasználói
felülettel találkozik, amely többféle
információ keresésére alkalmas. A
könyvtárosoknak minden oka megvan arra, hogy nagyra
értékeljék az információ megjelenítés
következetességét, hiszen a felhasználóknak
kevesebb tájékoztatásra van szükségük,
és gyorsabban tudnak mozogni a különböző
források között. Mindenképpen egy grafikus
felhasználói felületre van szükség,
amelyet a nyilvános elérésű számítógépes
rendszer (Public Access Computer System) irányít,
és amelynek egyik összetevője az online közvetlen
elérésű katalógus keresőprogramja.
A rekordok definíciója kibővül a máshol
elérhető fizikai dokumentumok és a helyileg
vagy máshol elérhető elektronikus dokumentumok
információival (Graham, 1994). A dokumentum fogalmát
itt tágan értelmezzuk. Azt a feljegyzett információt
értjük alatta, ami lehet elektronikus vagy nyomtatott:
könyv, cikk, vagy egyéb szöveg; grafikus, vagy
audio információ. A felhasználó szempontjából
a dokumentumok két csoportba sorolhatók: azok a
dokumentumok, amelyek közvetlenül elérhetők
lesznek a kapcsolódó linkek segítségével,
valamint azok a dokumentumok, amelyekhez a katalógus csak
elérési helyet szolgáltat. A felsorolt különbségek
ellenére, a katalógus fogalma olyan értelemben
nem változik meg, hogy továbbra is rendszerezett
információt szolgáltat, amelyre a legjobb
példa a nevek, címek, és a tárgy egységesítése
és az utalórendszer alkalmazása; valamint
továbbra is prekoordinált és következetes
marad, ami mindenképpen hozzáértő
könyvtárosok munkáját követeli
meg.
Az Internet forrásainak rendszerezése: katalogizálói
megközelítés
Miért katalogizáljuk az Internet dokumentumokat? Egyrészt azért, mert nagyon sok értékes információ érhető el az Interneten keresztül. Másrészt azért, mert ezeket a forrásokat valahogyan rendszerezni kell ahhoz, hogy hozzáférhetőek legyenek. Valamint azért, mert a már létező könyvtári technikák és munkafolyamatok felhasználása, és visszakeresésre alkalmas rekordok létrehozása a már létező online katalógusok számára a leghatékonyabb ezen források elérésére.
Kérdés az, hogy mit katalogizáljunk. Vannak akik a hasznos web oldalak katalogizálását javasolják az Interneten elérhető anyagok elérhetővé tétele első lépéseként. Mások a projektben résztvevő intézmények saját elektronikus anyagainak a katalogizálását látják hasznosabbnak. A University of Missouri, Columbia könyvtárának belső használatra kialakított katalogizálói prioritásai az Internet források rendszerezését és katalogizálásat illetően például a következőek: a helyi rendszerben tárolt és fenntartott Internet források; a helyi felhasználók számára fontos kutatási anyagok; azon eszközök, amelyek fejleszthetik a tájékoztató szolgáltatásokat; és végül azon eszközök, amelyek a könyvtári személyzet készségeit és tudását fejlesztik.
A számítógépes fájlok katalogizálása az egyik legproblematikusabb terület. Ez a médium nagyon gyorsan változik, fejlődik. Mire megismerkedünk az éppen használatban levő technológia terminológiájával és jellemzőivel, addigra a legújabb fejlesztések kiszorítják azt. [Az ISBD szabványok Számítógépes Fájlokra második kiadása, aminek a jelenlegi cime "ISBD Elektronikus Forrásokra" (International Standard Bibliographic Description for Electronic Resources, ISBD (ER)), 1994 óta folyamatos módosítás alatt áll (Olson, 1997).]
Általános útmutatás azonban, hogy
bármit is katalogizáljunk, a katalogizálóknak
figyelembe kell venniük a nemzeti és nemzetközi
szabványokat. Amennyiben helyi okok miatt bizonyos külön
terminológiára, leírásra, megjegyzésekre,
stb. van szükség, akkor a rekordokat a helyi gyakorlatnak
megfelelően ki lehet egészíteni. Az Egyesült
Államokban az AACR2 által előírt katalogizálási
szabályok adnak általános útmutatást.
Ezek a szabályok bármilyen típusú
dokumentumra alkalmazhatók. Az általános
szabályok és irányelvek áttekintése
mindig hasznos lehet, ha valamilyen új problémával
állunk szemben.
CATRIONA
Több kutatási projekt témája az Internet forrásainak katalogizálása. Erre a két legnagyobb, és legrégebbi példa a CATRIONA, amely Nagy-Britanniában indult, valamint az OCLC InterCat projektje, amely az Egyesült Államokban folyik. Mindkét projekt célja egy, az Internet dokumentumait számbavevő katalógus létrehozása, amely hasonlít és egyben kompatibilis a könyvtári nyilvános online katalógusok helyi adatbázisaival. Mindkét projekt a MARBI által kezdeményezett Elektronikus Hely és Elérésre kijelölt 856-os mezőt használja. (A MARBI az Amerikai Könyvtáros Egyesület [ALA] azon testülete, amely a Kongresszusi Könyvtár tanácsadó szerveként működik a USMARC fomátumot érintő kiegészítésekben és módosításokban.)
A CATRIONA (Cataloging and Retrieval of Information Over Networks
Applications) projekt a BUBL Subject Tree Initiative kezdeményezésére
jött létre 1993-ban, és alig egy évvel
később már több mint 8000 Internet linket
tartalmazott. A projekt fő támogatója a British
Library Research and Development Department. A projekt célja
azon technikai, szervezeti, és pénzügyi követelmények
vizsgálata, amelyek hálózatokon át
közvetített dokumentumok és egyéb források
katalogizálására, osztályozására,
és visszakeresésére szolgáló
alkalmazási programok és folyamatokhoz szükségesek.
A projekt egy könyvtári rendszer használhatóságát
is vizsgálja. Az OCLC-vel ellentétben, CATRIONA
az Internet forrásoknak egy olyan katalógusának
létrehozására törekszik, amelyeket a
Z39.50 szabványon alapuló könyvtári
OPAC felületek fognak össze, és nem pedig egy
központi adatbázis. A projekt egy Z39.50 GUI OPAC
klienst választott ki, amely képes a távoli
Z39.50 OPAC-okban való keresésre, és olyan
MARC rekordok visszahívására, amelyek a 856-os
mező $u almezőjében URL információt
tárolnak és az elektronikus dokumentumok megjelenítésére
automatikusan betöltik a megfelelő megjelenítő
programot (Mosaic, Netscape, Geac image viewe).
InterCat
Az InterCat az Egyesült Államok nemzeti koordinált projektje a felsőoktatási intézmények és könyvtárak között egy olyan USMARC formátumú rekordokból álló adatbázis létrehozására, bevezetésére, tesztelésére, és értékelésére, amely az Interneten elérhető anyagok esetében kiegészül az elekronikus tárolásra és elérésre vonatkozó információval (USMARC 856-os mező). A projekt azt vizsgálja, hogy hogyan lehet a könyvtári szolgáltatásokat kiterjeszteni az Internet forrásaira, azaz, hogyan lehet olyan szintű hozzáférést biztosítani az Internet forrásokhoz, amilyet egy könyv esetében elvárunk a könyvtártól (Jul, 1997). A projekt fő koordinátora, Eric Jul hangsúlyozza, hogy az InterCat csak egy lehetséges módszer az Interneten keresztül elérhető dokumentumok keresésére, amely az információt keresők számára viszonylag egyszerű keresést biztosít. Jelenleg azonban ez a legnagyobb szabású projekt az Internet dokumentumok elérhetővé tételére. A projekt elindítása előtt az OCLC tanulmányozta az elektronikus információ tulajdonságait, és azoknak a szisztematikus elérésével kapcsolatban felmerülő problémákat. A projekt céljai a következők: (1) lokalizálni és beazonosítani az Interneten elérhető elektronikus információk típusait, (2) kialakítani ezen információk taxonómiáját, (3) összegezni azokat a problémákat, amelyekkel a könyvtáraknak meg kell küzdeniük ezen információk beszerzése, katalogizálása, indexelése, tárolása, visszakeresése, és továbbítása során. Az elektronikus irodalom értékének megállapítására szolgáló módszerek kialakítása után a projekt célja annak megállapítása, hogy ez a folyamat mennyire automatizálható. Végül a projekt javaslatokat tesz ezen típusú információk elérési módszereire és szintjeire.
Az InterCat projekt részeként az OCLC azt is vállalta,
hogy megvizsgálja a bibliográfiai rekordon belüli
kódolt információ alkalmazhatóságát
a közvetlen felhasználói elérés
biztosítására. A 856-os USMARC mezőt
a Uniform Resource Locator információjának
tárolására hozták létre. A
katalógusban megtalált URL címet a felhasználók
valószínüleg nem szivesen másolnák
le és gépelnék be újra, ezzel lehetőséget
adva a gépelési hibákra. A tapasztalt Internet
használók hyperlinkek használatát
várják el, amelyek a katalógustól
közvetlenül a kívánt dokumentumhoz vezetnek.
Mind a CATRIONA, mind pedig az OCLC projekt az OPAC-ok kifinomult
visszakeresési módszereinek, a MARC rekord szabványnak,
és a hypertext kapcsolatainak a kombinációját
képzeli el. Az OCLC, a résztvevő könyvtárak
és egyéb felsőoktatási intézmények
által létrehozott rekordokból egyetlen nagy
adatbázist épít, amely közvetlen elérést
biztosít az Interneten tárolt dokumentumokhoz. A
projekt fő célja, hogy megállapítsa
a USMARC formátum lehetséges használatát
az Interneten keresztül elérhető dokumentumokhoz
való hozzáférése során, azaz
teszteli a 856-os MARC mező használhatóságát
a nem helyileg tárolt dokumentumok elérésében
(OCLC).
Alcuin
A North Carolina State University Libraries Alcuin Project-je szintén a 856-os mező használatán alapul. Már 1994-ben kisérleteztek a 856-os mező használatával, amikor a helyi OPAC adatbázisába beépítették a URL információt. A projektet az teszi azonban igazán érdekessé, hogy az Alcuin fejlesztői a gopher elérésre kialakított Internet címek "dBaseIV" adatbázisát, amit "Alex"-nek hívtak, olcsón és kevés kiegészítő input hozzáadásával átkonvertálták egy új, MARC-alapú OPAC adatbázissá, amit Alcuinnak neveztek el.
Az Alcuin web oldalai web felhasználói felülettel
rendelkező katalógusokat tartanak nyilván.
A projekt nem törekszik teljességre. A célja
az, hogy segítséget nyújtson azon könyvtárosok
számára, akik egy World Wide Web alapú közvetlen
elérésű online katalógus létrehozásának
a lehetőségei iránt érdeklődnek.
A projekt másik célja annak megállapítása,
hogy a könyvtárosság hagyományos gyakorlata
hogyan alkalmazható az Internet források gyűjtésére,
rendszerezésére, osztályozására,
és terjesztésére.
Catholic University of America
Ingrid Hsieh-Yee, a Catholic University of America (Washington
D.C.), School of Library and Information Science professzora,
160 Internet forrás katalogizálása után
arra a következtetésre jutott, hogy a források
teljes leírása nagyon időigényes,
és több, az AACR2R szerint definiált adatelem
fölösleges a keresők számára. Hamar
nyilvánvalóvá vált, hogy a jelenlegi
szabványok alapján egy eltérő mélységű
leírási formát kell kialakítani, ami
tükrözi az Internet dinamikus jellegét. A rekord
létrehozás sebessége és a rekordok
minősége, valamint a rekordkészítés
sebessége és az Internet források gyors hozzáférése
közti egyesúly biztosítása érdekében
egy minimális leírást biztosító
szabványra tettek javaslatot. Ezen módosított
szabvány célja, hogy a katalógus kereső,
értékelő, rendszerező, és dokumentum
lokalizáló funkcióit biztosítsa csak
azon adatelemek felhasználásával, amelyek
az Internet források azonosításához
és tárgyi rendszerezéséhez a legszükségesebbek.
Ez az M szintűnek nevezett katalogizálás az
AACR2R adatcsoport elválasztójeleit és adatcsoportjait
használja, de az adatelemek közül több is
egyszerüsített változatban szerepel.
University of Missouri Columbia
A University of Missouri Columbia Jogi Karának Könyvtárában
a következő irányelveket fejlesztették
ki az Internet forrásainak katalogizálására.
Az Internet forrásai két csoportba oszthatók:
(1) rendszerek és szolgáltatások, beleértve
a direktorikat és aldirektorikat, amelyek egynél
több bibliográfiai egységet tartalmaznak; (2)
önálló direktorik, aldirektorik, és
fájlok, amelyek egy bibiliográfia egység
egyetlen példányát tartalmazzák. A
könyvtár minden (1) kategóriába tartozó
dokumentumot nyitott monográfiaként katalogizál.
A (2) kategóriába tartozó dokumentumokat
sorozatként katalogizálják, amennyiben azok
elektronikus sorozatok, és az egyes dokumentumok tartalmaznak
információt arról, hogy a jövőben
új változatok jelennek meg (pl. ver. 1.0). Ettől
eltérő esetben ez utóbbi dokumentumokat is
monográfiaként írják le. Ha az elektronikus
források lelőhelye gyakran változik, akkor
csak magát a rendszert, vagy szolgáltatást
katalogizálják, a 859-es mezőben jelezve
a direktorikat és/vagy a fájlokat. Az elektronikus
dokumentumok valamennyi verzióját (HTML, ASCII)
ugyanabban a rekordban írják le, külön
856-os mezőt használva minden verzióra. Ha
a rendszer és az önálló direktori vagy
fájl egyaránt katalogizálásra kerül,
akkor használják az 580-as és a 773-as mezőket
az 1 első indikátorral, vagy az önálló
direktori vagy fájl esetén a 773-as mezőt
a 0 első indikátorral.
Az Internet forrásainak rendszerezése: nem katalogizálói
megközelítés
Bármilyen nyomtatott indexről vagy katalógusról legyen is szó, a hatékony keresés biztosításához elengedhetetlen a kereső mechanizmus megértése, az adott adatbázis méretének, tartalmának és az alkalmazott indexelési stratégiának ismerete. Ugyanez igaz a hálózatokon elektronikusan tárolt információ esetében is. Valamennyi keresőprogramnak megvannak a saját tartalmi korlátai. Az adatelem halmaz, amin a keresés folyik szintén korlátozott. Ráadásul, mindegyik keresőprogram esetében adott, hogy a keresési eredményeket milyen formában fogja megjeleníteni. A legnagyobb problémát azonban az jelenti, hogy nagyon nehéz megállapítani, hogy mi az, amit a keresés magába foglal. Sok keresőprogram írja ki a keresési eredményekre vonatkozóan, hogy "mennyi" a releváns találat, de azt nem, hogy "miből." Ha ugyanazt a keresést elvégeztetjük több keresőprogrammal is, akkor hamar kiderül, hogy egyetlen indexelő szolgáltatás sem képes mindent elérni az Interneten és a keresések igen vegyes és kiszámíthatatlan eredményeket szolgáltatnak.
Valamennyi Internet keresőprogramnak megvannak a maga előnyei és hátrányai. Az előnyök általában a következők: ezek az indexek naponta 24 órán át használhatók; minden keresés eredményeként egy listát kapunk, amelyek az elemei hozzá vannak kapcsolva magukhoz a dokumentumokhoz, így azok szinte azonnal elérhetők; az Internet források folyamatosan bővülnek; ezek az indexek többdimenziósak, azaz rajtuk keresztül más könyvtári katalógusokhoz, vagy indexekhez is eljuthatunk. A hátrányok között a következőket sorolhatjuk fel: a keresési eredmények között sok az ismétlődő elem; az eredmények kiszámíthatatlanok; az eredmények félrevezetőek lehetnek, hiszen egyes keresések üres halmazt eredményeznek egy bizonyos keresőprogrammal, ugyanakkor egy másikkal több releváns forrást is találnak; egyes keresőprogramok nem adnak információt az adatbázisaik tartalmáról, vagy arról, hogy milyen szempontok szerint válogatnak a dokumentumok között, hogy bekerüljön-e egy adott dokumentum az adatbázisukba, vagy nem; a szótáraik nem kontrolláltak, az írásjelek, valamint a kis- és nagybetűk használata nem szabványosított; a kapcsolatok és a relevancia megállapítása sokszor nem lehetséges maguknak a dokumentumoknak a megvizsgálása nélkül (Taylor és Clemson, 1996).
Az Internet világában való eligazodásra használt jelenleg elérhető segédeszközök (archie, veronica, jughead, és azoknak a World Wide Web megfelelői) igen hasznosak, de összehasonlítva egy átlagos könyvtári katalógus vagy folyóiratindex kifinomultságával és precízségével még mindig nagyon kezdetlegesek. A problémát részben az jelenti, hogy a könyvtárosok még mindig inkább csak reagálnak a számítógépes szakemberek által javasolt technikai újításokra, ahelyett, hogy maguk is javaslatokat tennének, míg a számítógépes szakemberek nem igazán foglalkoznak a könyvtártudomány megismerésével, és így folyamatosan próbálják újra feltalálni azokat a fogalmakat, amelyeket a könyvtárosok már évtizedek óta használnak. Talán ennél nagyob probléma azonban, hogy a számítógépes területen elterjedt az a nézet, hogy minden humán értékelés nagyon időigényes és drága, éppen ezért hasznosabb a robotok használata ezen feladatokra.
Prentice Riddle, aki a RiceInfo adminisztrátora a Rice Egyetemen, kisérletett tett arra, hogy a könyvtárosok által használt szelekciós és osztályozási elveket felhasználva számítógépet használjon az Internet források rendszerezésére. Egy programot írt arra, hogy a nem helyileg tárolt, előre kiválasztott kompatibilis gopher tárgyi menüket beolvassza a helyi gopher menübe, így létrehozva egy igazán átfogó gopher fastruktúrát. Ennek a megközelítésnek azonban több hátránya is van. Egyrészt az információs zaj, másrészt pedig az, hogy ez a program a gopher szerkezetén alapszik, amit nehéz lenne a World Wide Webre is alkalmazni. A legnagyobb probléma pedig az, hogy az Internet források besorolása egy maréknyi kategóriába az Internet jelenlegi gyors növekedése mellett lehetetlen.
A könyvtári osztályozás rendszereit
felhasználó projektek többsége a hierarchikus
osztályozást választotta az Internet forrásainak
rendszerezésére. A gopher menük felépítése
egyértelműen a hiearchikus osztályozási
rendszerek hatását mutatja. A World Wide Weben a
CyberDewey a nevében is jelzi, hogy a Dewey Tizedes Osztályozás
elveit követi. A WWW Virtual Library és a CyberStacks
a Kongresszusi Könyvtár osztályozási
rendszerét adaptálta. Nagy-Britanniában a
BUBL (Bulletin Board for Libraries) Subject Tree projekt az Egyetemes
Tizedes Osztályozást használta fel. A fent
említett projektekben az Internet forrásokhoz a
megfelelő osztályozási alapuló jelzetek
kapcsolódnak. Maguk a források azonban nem teljesen
katalogizáltak, és a tárgyi hozzáférés
is meglehetősen korlátozott. A felhasználó
a követett osztályozási rendszer szintjeinek
többé-kevésbé megfelelő hierarchia
minden egyes szintjén szűkíti a keresést.
Minden egyes képernyőn kiválasztva a megfelelő
témát, a felhasználó végezetül
megérkezik a keresett információhoz. Ez tulajdonképpen
olyan, mintha a felhasználó az osztályozási
táblázatban követne egy útvonalat az
általánostól a specifikusig. Annak ellenére,
hogy a felhasználónak sok képernyőn
kell áthaladnia, ami lelassítja a keresés
folyamatát, a keresés ezen típusa többnyire
sikeresebb és kevesebb zsákutcát eredményez,
mint a kulcsszó szerinti keresés. Meg kell jegyezni,
hogy a CyberDewey, a CyberStacks és a WWW Virtual Library
esetében a kiválasztott osztályozási
rendszert egyszerüsített jelzetek képviselik.
CyberDewey
A CyberDewey láthatóan nem könyvtárosok
által készített projekt. Létrehozója,
David Mundie saját számítógépes
fájljai rendszerezése során ismerkedett meg
a Dewey Tizedes Osztályozással, miután sok
egyéb, nem könyvtári rendszerezési formát
kipróbált. Lelkesedését csak növelte
a felismerés, hogy a Dewey Osztályozási Rendszer
a könyvtárosok állandó reviziója
alatt van, így soha többé "nincs egyedül"
az osztályozási jelzeteket létrehozását
érintő döntésekben. Sajnos ez a fajta
felismerés még hiányzik nagyon sok más
Internet szolgáltatónál.
WWW Virtual Library
A WWW Virtual Library a CyberDewey-nál jóval kiterjedtebb
projekt, amely a Kongresszusi Könyvtár Osztályozási
Rendszerét felhasználva sokkal hatékonyabban
is osztályozza a szakreferensek és a végfelhasználók
által kiválasztott forrásokat. A Virtual
Library a web egyik legrégibb katalógusa. Készitője
Tim Berners-Lee, aki magának a webnek is az egyik létrehozója.
Az egyéb web katalógusokkal és keresőprogramokkal
ellentétben a Virtual Library-t olyan önkéntesek
építik, akik jártasak valamely témában
és csak az abban a témában hasznosnak tartott
web oldalak URL címeit gyűjtik. A Virtual Library
által lefedett terület talán nem olyan nagy,
mint az egyes kereskedelmi, robotokat alkalmazó keresőoldalaké,
de az általa gyűjtött web oldalak általában
sokkal hasznosabbak, mivel az egyes szakterületek szakértőinek
a minőségi ellenőrzésén mentek
át. A Virtual Library nem egyetlen adatbázis. Önálló
indexek szerverek százain találhatók az egész
világon. Ezeknek a listáknak egy URL gyűjteményét
tartja fenn Gerard Manning a Stanford University-n. Ennek a katalógusnak
további példányai találhatók
a Penn State University (Egyesult Államok), East Anglia
(Nagy-Britannia), és Geneva (Svédország)
web oldalain.
CyberStacks (sm)
A CyberStacks (sm) 1995-ben egy World Wide Web virtuális
könyvtárként jött létre, azzal
a céllal, hogy megvizsgálja a hagyományos
könyvtári osztályozási rendszerek alkalmazhatóságát
az Internet forrásainak rendszerezésére.
A CyberStacks (sm) a Kongresszusi Könyvtár osztályozási
rendszerét adaptálta a kiválasztott Internet
források közti kapcsolatok jelölésére.
Annak ellenére, hogy a CyberStacks a természettudományok
és a technológia témaköreire korlátozódik,
a projekt a hagyományos osztályozás felhasználásának
egy nagyon érdekes prototípusává fejlődhet,
mivel a létrehozója, Gerry McKiernan egy hypertext
tezaurusz kialakítását is tervezi.
Beyond Bookmarks
Az Internet források Beyond Bookmarks nevű gyűjteménye
a CyberStacks projekthez kapcsolódóan jött
létre. Hogy a hagyományos könyvtári
módszereknek az Internet forrásainak rendszerezésére
való alkalmazhatóságát növeljék,
és hogy a CyberStacks model fejlesztéséhez
új, alternatív megközelítéseket
találjanak, a CyberStacks projekt résztvevői
több fórumon (listserv, newsgroups) kértek
információt olyan forrásokra vonatkozóan,
amelyek szabványos és nem-szabványos könyvtári
osztályozási rendszereket és kontrollált
szótárakat alkalmaznak a Web forrásainak
rendszerezésére. A javasolt forrásokat átnézték,
kategóriákba sorolták, és a hyperlinkek
segítségével beépítették
egy gyűjteménybe, amelyet Beyond Bookmarks-nak neveztek
el.
Project Aristotle
A hagyományos könyvtári osztályozási
rendszerek és a kontrollált szótárak
igen hasznos szervezeti keretet kínálnak a web források
azonosítására és használatára,
az alkalmazásuk azonban a jelenlegi környezetben,
igen nagy erőfeszítéseket igényel,
mind a létrehozás, mind a fenntartás terén.
A CyberStacks személyzete tehát elhatározta,
hogy megvizsgálja a web források automatizált
kategorizálását. 1996 nyarán több
tucat olyan projektet és szolgáltatást vizsgáltak
meg, amelyek az automatikus rendszerezés valamilyen formáját
alkalmazzák.
BUBL Subject Tree
A BUBL (Bulletin Board for Libraries) Subject Tree tűnik a leginkább könyvtár-orientált projektnek. A BUBL volt az első olyan szolgáltatás az Egyesült Királyságban, amely tárgy szerinti felosztású hozzáférést biztosított az Internet forrásokhoz. Létrehozásakor a projekt szintén egyedi volt abból a szempontból, hogy gopher források és World Wide Web dokumentumok feldolgozását egyaránt magába foglalta (Steele, 1995). Jelenleg a BUBL személyzete és az Egyesült Királyság egész területéről származó önkéntes szakreferensek közösen dolgoznak a tárgyi hierarchia részeinek fenntartásán. Csak olyan forrásokat dolgoznak fel, amelyek az egyetemi körök érdeklődésére számot tarthatnak. Meggyőződésük, hogy az egyetemi körök számára hasznos Internet források felfedezése és nyilvántartása a helyi szintű, valamint a nemzeti és nemzetiközi kooperatív katalogizálással együttesen oldható meg.
A BUBL Subject Tree egy érdekes változata a NISS
(National Information Services and Systems), amely a hagyományos
katalogizálás előnyeit próbálja
hasznosítani a merev katalogizálási szabályok,
a professzionális katalogizálói szaktudás,
és egy nagy központi intézmény nélkül.
Az Egyesült Királyság könyvtárosai
arra lettek felkérve, hogy egy Forrás Leírási
Űrlap kitöltése révén küldjenek
be forrásleírásokat (forrásrekordokat)
a NISS-hez. Ezek az űrlapok meg sem kisérelik, hogy
a MARC rekordok formátumát utánozzák,
bár egyaránt tartalmaznak fizikai jellemzőket
leíró és tartalomra vonatkozó mezőket.
A BUBL Subject Tree koncepciója a NISS projektben a tárgy
és kulcsszó szerinti kereséssel egészül
ki.
ROADS
A ROADS (Resource Organisation and Discovery in Subject-Based
Services) projekt egy másik olyan osztályozáson/katalogizáláson
alapuló projekt, amely tárgy szerinti hozzáférést
és bibliográfiai információt egyaránt
tartalmaz. A fő célja, hogy oly módon biztosítson
hozzáférést a hálózati forrásokhoz,
hogy a felhasználók számára észrevétlen
maradjon a különbözö szolgáltatások
közti mozgás. A ROADS egy közös platformot
kínál több tárgyi felosztású
információ-szolgáltató rendszerben
való kereséskor.
Összegzés
Hagyományosan az információ rendszerezés elvei a következőket foglalják magukba: annak megállapítása, hogy milyen források léteznek, és azok közül a felhasználói igényeknek megfelelőek kiválasztása; a kiválasztott források leírása; elérési pontok biztosítása, és azok egységesítése; a kiválasztott források tartalmi analízise; valamint ezeknek a forrásoknak a lokalizálásához szükséges információ biztosítása. Összehasonlítva a könytárakat és a keresőprogramokat, vagy az Internet keresőszolgáltatásait, a könyvtárak sokkal alkalmasabbnak tűnnek a források kiválasztására, hiszen hagyományosan sokkal nagyobb gyakorlattal rendelkeznek a különböző formátumú anyagok felhasználói igények alapján történő kiválasztásában és beszerzésében.
Az Internet források értékelése, kiválasztása, leírása és tárgyi analízise mindenképpen szükséges az azokhoz való hatékonyabb hozzáférés érdekében. A könyvtárosok szaktudása a gyarapítás terén biztosítja a felhasználók számára hasznos Internet források értékelését és kiválasztását is. A katalogizálók már régóta növelik az információhordozó anyagok értékét azzal, hogy rendszerezik azokat, és ahogyan azt nehány katalogizálási projekt is mutatja, az általuk használt információ-rendszerezésre vonatkozó irányelvek hatékonyan alkalmazhatók az Internet források esetében is (Hsieh-Yee, 1996). Függetlenül tehát attól, hogy minek is hívjuk az Internet dokumentumainak rendszerezésére tett kisérleteket (bibliográfiák, katalógusok, listák, stb.), azok létrehozása, fenntartása mindenképpen humán erőforrásokat igényel.
Ezen kívül természetesen sok nyitott kérdés marad, amire az egyes digitális könyvtárak célkitűzései adják meg a választ. Milyen típusú anyagokat kell, illetve érdemes katalogizálnunk? Hogyan különböznek a digitális katalógusok a hagyományostól? Képzett katalogizálók fogják fenntartani azokat? Milyen ismeretek szükségesek az új típusú katalógusok létrehozásához és hogyan lehet azokat elsajátítani? Milyen mértékben alapulnak majd ezek a katalógusok a már létező szabványokon, mint a MARC vagy az AACR? Lesz-e, elképzelhető-e a digitális anyagok egyetemes katalógusa? (Levy, 1995)
Az Internet egészét rendszerező információs rendszer létrehozása igazán csábítónak tűnik, azonban egy ilyen rendszer létrehozása nem lehetséges és nem is lenne hasznos a következő okok miatt: az Internet túl sok forrást tartalmaz; sok forrás minősége erősen kétséges, vagy tartalmánál fogva értéktelen a felhasználók számára. Sokkal hasznosabbnak és megvalósíthatóbbnak tűnik az OCLC által követett model, amely több intézmény együttműködésén alapul. A résztvevő könyvtárak a saját használói körük igényei alapján értékelik az Interneten elérhető információs forrásokat, és a helyi felhasználók számára releváns dokumentumokról szolgáltatnak be rekordokat a közös adatbázisba. Ez a gyakorlat nagyon hasonlít az OCLC eredeti programjához, itt azonban a katalogizálás leíró része jelentősen leegyszerüsített. Ez az együttműködés nagy mennyiségű minőségi Internet forrás számbavételét teszi lehetővé. Egy ilyen, vagy ehhez hasonló információs rendszer a minőségi rekordjai és a hatékony információvisszahívása révén válik közkedveltté a felhasználók körében.
A meta-adat a legfontosabb dolog, ami a jövőbeni könyvtári osztályozási és katalogizálási projekteket befolyásolja majd az Interneten. Az új meta-adat specifikációk és a katalogizálási rekordok közti párhuzamok nyilvánvalóak. A TEI fejléc és a MARC formátum egymásba konvertálhatósága, vagy legalábbis az erre mutató törekvések egyértelműen jelzik, hogy a katalogizálási gyakorlat és a katalogizálási szabványok nagy mértékben hozzájárulhatnak az Internet források rendszerezéséhez. A könyvtári meta-adat szabvány, a MARC, módosítások során ment keresztül, hogy tükrözze az elektronikus kor követelményeit. Különösen fontos az új 856-os mező létrehozása, amely lehetővé teszi a felhasználók számára azt, hogy a könyvtári online katalógusból vagy a hálózaton elérhető katalógusból közvetlenül eljussanak az elektronikus dokumentumokhoz. A meta-adatok nem csak a könyvtárosok, hanem valamennyi Internet szolgáltató számára alapvető fontosságúak. Sokan úgy vélik, hogy az olyan szabványok, mint a Harvest, vagy a TEI a legalkalmasabbak a hálózati használatra (Woodward, 1996). Az OCLC viszont azt szeretné, ha a Dublin Core válna nemzetközi szabvánnyá. Jelenleg azonban még nem világos, hogy mely szabványok nyernek széleskörű elismerést és válnak nemzetközileg elfogadottá.
Az Interneten levő hatalmas mennyiségű információ
rendszerezésével kapcsolatos problémákat
összegezve nyilvánvaló, hogy az online világnak
igenis szüksége van azokra a tapasztalatokra és
ismeretekre, amelyeket a könyvtárosok az információ
rendszerezés során kifejlesztettek: az információhordozó
anyagok beszerzésére; szerző, cím,
és tárgyi hozzáférés biztosítására
ezekhez a dokumentumokhoz; valamint információ szolgáltatására
a dokumentumok "fizikai" elérhetőségéről.
A használók átsegítése az online
információs források labirintusán
nagyon hasonlít a felhasználóknak a különböző
referensz-könyvek, katalógusok, és osztályozási
rendszerek útvesztőjében való eligazításához
(Taylor, 1994). A digitális gyűjtemények kialakításakor
pedig az Interneten elérhető online dokumentumok
"beszerzése" a hagyományos könyvtári
gyűjteményépítéshez szükséges
ismereteket és a hagyományos osztályozási
rendszerek használatát követeli meg.
Alcuin: Online Catalogs with "Webbed" Interfaces.
<http://www.lib.ncsu.edu/staff/morgan/alcuin/wwwed-catalogs.html>
Argus Clearinghouse. (1996). Mission and Philosophy.
<http://www.clearinghouse.net/docs/mission.html>
Beyond Bookmarks: Schemes for Organizing the Web.
<http://www.public.iastate.edu/~CYBERSTACKS/CTW.htm>
Braun, Linda W. and Fleming, Jennifer. (1996, September/October).
From the Desktop: Editor's Note Internet Trend for Libraries,
1(4).
<http://www.public.iastate.edu/~CYBERSTACKS/ITW.htm>
BUBL [Bulletin Board for Libraries] Information Service. (1996).
BUBL WWW Subject Tree-Arranged by Universal Decimal Classification.
<http://www.bubl.bath.ac.uk/BUBL/Tree.html>
Caplan, Priscilla. (1993). Cataloging Internet Resources. The
Public-Access Computer Systems Review. 4(2): 61-66.
<http://www.nlc-bnc.ca/ifla/documents/libraries/cataloging/caplan.txt>
Caplan, Priscilla. (1992). Providing Access to Online Information
Resources: A Paper for Discussion.
<http://www.nlc-bnc.ca/ifla/documents/libraries/cataloging/caplan2.txt>
Cataloging and Retrieval of Information Over Network Applications
[CATRIONA]. (1995). CATRIONA Project: Documents.
<http://www.bubl.bath.ac.uk/BUBL/maincatriona.html>
CyberDewey. (1989). A Guide to Internet Resources Organized Using
Dewey Decimal Classification codes.
<http://ivory.lm.com/~mundie/DDHC/DDH.html>
CyberStacks. (1997). CyberStacks Home Page.
<http://www.public.iastate.edu/~CYBERSTACKS/homepage.html>
Graham, Peter S. (1994). "The Mid-Decade Catalog and its
Environment."
<http://aultnis.rutgers.edu/texts/cffc.html>
Guedon, Jean-Claude. (1994). Why are Electronic Publications Difficult
to Classify?: The Orthogonality of Print and Digital Media.
<http://www.nlc-bnc.ca/ifla/documents/libraries/cataloging/guej1.txt>
Hsieh-Yee, Ingrid. (1996). Modifying Cataloging Practice and OCLC
Infrastructure for Effective Organization of Internet Resources.
<http://www.oclc.org/oclc/man/colloq/hsieh.htm>
Intercat--Internet Cataloguing Project Home Page. (1996).
<http://www.oclc.org/oclc/man/catproj/catcall.htm>
Jul, Erik. (1997). Now that we Know the Answer, What Are the Questions?
<http://jic.libraries.psu.edu/jic1nr3-42.htm>
Jul, Erik. (1996, January). Why Catalog Internet Resources. Computers
in Libraries, 16(1): 8-10.
Klemperer, Katharina and Chapman, Stephen. (1994). Digital Libraries:
a Selected Source Guide.
<http://www.lita.org/ital/1603_klemperer.htm>
Library of Congress. (1997, August). Guidelines for the Use of
Field 856.
<http://www.loc.gov/marc/856guide.html>
McKiernan, Gerry. (1996). Casting the Net: The Development of
a Resource Collection for an Internet Database.
<http://www.library.ucsb.edu/untangle/mckiernan.html>
McKiernan, Gerry. (1996). The Once and Future Library.
<http://www.library.ucsb.edu/istl/96-fall/mckiernan.html>
Mundie, David A. (1995). Organizing Computer Resources: Or, How
I Learned to Stop Worrying and Love the DDC. <http://ivory.lm.com/~mundie/DDHC/organizing_computers.html>
Levy, David M. (1995). Cataloging in the Digital Order. In Digital
Libraries >95, The Second Annual Conference on the Theory and
Practice of Digital Libraries, June 11-13, 1995, Austin, Texas,
USA
<http://www.csdl.tamu.edu/DL95/papers/levy/levy.html>
Olson, Nancy B. (ed.) (1997). Cataloging Internet Resources: A
Manual and Practical Guide. Second Edition.
<http://www.purl.org/oclc/cataloging-internet>
OCLC [Online Computer Library Center]. (1997). "Building
a catalog of Internet resources." <http://www.oclc.org/oclc/man/catproj/catcall.htm>
Project Aristotle (sm): Automated Categorization of Web Resources.
<http://www.public.iastate.edu/~CYBERSTACKS/Aristotle.htm>
Quittner, Joshua. (1992). Plugged In: Internet plays growing role
as world's electronic highway. Newsday, November 2. p.3.
Research Libraries Group. (1997). Metadata: Connecting Researchers
with Relevant Resources. The Research Libraries Group,
44: 3-10.
Riddle, Prentice. (1994). Library culture, computer culture, and
the Internet haystack.
<http://is.rice.edu/~riddle/dl94.html>
Sha, Vianna. (1995). Guidelines for Cataloging Internet Resources.
University of Missouri Columbia, School of Law Library.
<http://www.nlc-bnc.ca/ifla/documents/libraries/cataloging/sha1.txt>
Schamber, Linda. (1996, September). What is a document? Rethinking
the Concept in Uneasy Times. Journal of the American Society
for Information Science, 47(9): 669-671.
Steele, Mary. (1995, May). The BUBL Subject Tree and Catriona
(Cataloging and Retrieval of Information over Networks Applications).
Computers in Libraries, 15(5): 63-65.
Taylor, Arlene G. (1994, July/August). The Information Universe:
Will We Have Chaos or Control? American Libraries: 629-632.
Taylor, Arlene G. and Clemson, Patrice. (1996). Acess to Networked
Documents: Catalogs? Search Engines? Both?
<http://www.oclc.org/oclc/man/colloq/taylor.htm>
Weibel, Stuart. (1997). Dublin Core Metadata Element Set: Reference
Description.
<http://purl.org/metadata/dublin_core_elements_970711>
Woodward, Jeanette. (1996). Cataloging and Classifying Information
Resources on the Internet. In M. E. Williams (Ed.). Annual
Review of Information Science and Technology. Vol. 31. (pp.
189-220). Medford, NJ: Learned Information.
WWW Virtual Library.
<http://vlib.stanford.edu/Overview.html>