onsdag 25 maj 2011

GUB: Bildfångst påbörjad

Göteborgs universitetsbibliotek har nu påbörjat det praktiska skanningsarbetet. Där vi först planerade att rikta in oss på avhandlingar utgivna av Göteborgs universitet, har vi nu efter en beställning från pedagogiska institutionen istället beslutat att digitalisera ungefärligen 120 st av deras rapporter, skrivna mellan 1960-2000. Innehållsmässigt behandlar rapporterna hur en rad olika faktorer påverkar både ungdomars och vuxnas vilja och möjlighet till utbildning. Till formen/dimensionerna är materialet av väldigt olika karaktär och innefattar tunna A5-häften på några få sidor såväl som tjockare A4-sammansättningar på uppemot 200 s. Gemensamt för många av objekten är dock att de har limmade ryggar, de har lätt-OCR:ade typsnitt och att de inte är skrivna på mer än fem olika västeuropeiska språk, vilket också underlättar vid OCR-processen. Vi kommer köra flertalet av rapporterna i treventusroboten. Får vi tillstånd av institutionen kan vi också komma att skära vissa av objekten och låta hantera dem i en arkskanner för att kunna jämföra de olika skanningsmetoderna med varandra.

Under arbetets gång försöker vi gå systematiskt tillväga och dokumentera vårt förfarande så att vi i ett senare läge lättare kan felsöka och rätta till de märkliga fel och beteenden som uppstår med jämna mellanrum. I nuläget verkar vi dock ha fått in ett ganska bra flöde på själva bildfångsten, vi tycks ha kommit till bukt med de tidigare problem vi hade med limmade ryggar där arken satt tätt ihop vilket gjorde att bladvändning inte fungerade som den skulle. Men så inte längre. Vi har också blivit bättre på att orientera oss i Scangates kryptiska gränssnitt och har lyckats få till en grundinställning som gör att både masterfiler och presentationsfiler (de som syns under ”work”- resp ”bitonal”-vyn) genereras vid ursprungsskanningen, istället för att man ska behöva ägna vad det känns som mycket längre tid åt att skapa presentationsfilerna vid ett senare tillfälle. En inställning som gör att endast högra sidor skannas (varannan sida i flera rapporter är en sida utan innehåll) gör att vi redan från början filtrerar bort onödig data som tynger ned efterbehandlingen. Vad som återstår att komma fram till vilka gammavärden vi skall lägga oss på, vissa sidor tenderar att bli lite väl bleka.

Det vi alltså hittills fokuserat på är själva bildfångsten. Tanken är att vi först när alla rapporter är inskannade och vi har säkerställt att kvaliteten är tillräckligt bra, påbörjar efterbehandlingen. I samband med efterbehandlingen börjar vi använda Scanflow som vi hittills experimenterat med men som vi måste bli bättre på om processen skall kunna flyta helt automatiskt. Och apropå flödesprogram kan vi också nämna att vi var på Comprimas presentation härom veckan där vi bl a fick en genomgång av DocWorks-e som åtminstone på pappret ser ut som en väldigt lovande programvara, inte minst för att den innehåller en komponent vilken (via z39.50) automatiskt kan hämta metadata från LIBRIS – vilket i nuläget är lite av en flaskhals i vår process. DocWorks-e bygger också på ett betydligt mer grafiskt gränssnitt som vid en första anblick verkar vara mycket lättare att förstå sig på än det vi är tvungna att arbeta med idag. Just gränssnittsfrågan är ju viktig om man tänker sig att man framöver vill låta studenter eller ny, ambulerande personal sköta skanningen men samtidigt har begränsat med tid att utbilda dem. Enklare gränssnitt = förkortad inlärningskurva.

Inga kommentarer:

Skicka en kommentar