måndag 5 september 2011

GUB: Halvautomatik

Tillbaka igen efter semesteruppehållet har digitalduon på GUB ägnat de senaste veckorna åt att finjustera vårt Scanflow-flöde. Och till vår stora glädje verkar vi ha kommit ett par steg närmare en till stora delar automatiserad process. Som vi tidigare nämnt kan programmet vara oerhört känsligt, det kraschar med jämna mellanrum och det är sällan helt uppenbart varför detta sker. Något som vi kämpat med ett tag är avbrutna flöden, där automatiken avbrutits eftersom programmet inte fått tillräcklig information för att utföra en viss operation. Eftersom Scanflow i sådana fall bara (i bästa fall) ger feedback i formen av: ”nu har någonting gått fel” och inte vidare specificerar hur problemet kan rättas till, är det lätt att fastna i långa perioder av felsökning. Så när vi testat har det varit silkesvantar på hela vägen och varje uppgift (task) har isolerats och testats grundligt innan vi passat in den i en mer komplex sekvens.

Slutprodukterna av vårt testflöde är masterfiler i TIFF (separerade sidor) samt en bitonal sökbar pdf i 400 dpi, med omslag i färg, som är redo för metadataberikning och därefter tillgängliggörande i GUPEA (lokal databas) och LIBRIS.


Så här har vi jobbat fram till idag:

Förberedelser

  1. Objekten har skickats till oss från pedagogiska institutionen.
  2. Utifrån ett antal kriterier har objekten sorterats i två grupper; de som ska hanteras i treventusrobot resp. arkmatare.
  3. Varje objekt har sedan registrerats i en specialgjord databas, där vi tilldelat ett objekt id-nummer, registrerat dess titel och författare, v ilken typ av skanner som det ska hanteras i, samt vilken status det har (skannat/oskannat ).

  4. Objektens databasposter har skrivits ut på papper som placerats i de fysiska objekten.
  5. Bokbinderiet har skurit och sprättat objekten som ska hanteras i arkskannern.


Scangate (manuell)

Samtliga osprättade objekt har skannats i treventusroboten. Processen ser ut enligt följande:

  1. Ett nytt jobb skapas och döps till det id-nummer det är registrerat under i databasen. Programmet skapar automatiskt en mapp i Windows som den sedan placerar alla skannade sidor i.
  2. Verket skannas och masterfiler genereras. Varken framsidor, baksidor eller eventuella lösa ark skannas dock i detta läge.
  3. Efter skanningen avslutats kontrolleras det att digitaliseringen av verket är fullständig. Vid ofullständig digitalisering kompletteras verket då så är möjligt. Går verket inte att komplettera noteras detta på pappret som ligger i objektet.
  4. Work-filer genereras.
  5. I Work-vyn räknas ramvärdena ut (calculate borders).
  6. I Work-vyn sätts en beskärningsram.
  7. Arbetet sparas och skickas in i flödet (finalize task).


Scanflow (automatisk)

Stegen ovan upprepas för varje objekt. Efter punkt 7, tar det automatiska flödet vid. Man kan förbereda hur många objekt man vill innan man startar det automatiska flödet. Den automatiska processen kan ske helt obevakad (under förutsättning att nätverket fungerar som det ska, annars kommer flödet stanna vid ocr-hanteringen).

  1. Byt till Work-vy (display work). Denna uppgift är en säkerhetsåtgärd som garanterar att programmet inte genomför några förändringar på masterfilen.
  2. Beskärning (cropping). Sidorna beskärs efter de värden vi gett beskärningsramen under punkt 5 ovan.
  3. Räta upp (deskew). Eftersom vi tidigare räknat ut ramvärdena vet programmet nu hur skev varje sida är och kan utifrån denna data räta upp dem som behövs. Är inte ramvärdena uträknade justerar programmet ingenting, utan går vidare till nästa uppgift i flödet.
  4. Kontrastjustering. För att öka kontrasten mellan text och bakgrund och därigenom öka läsbarheten, sänks programmets standardvärden för brightness till -35.
  5. Bilderna görs bitonala (binarize).
  6. Texten görs sökbar. Bilderna skickas till OCR-servern som gör texten sökbar och därefter slår ihop alla sidor till en PDF-fil. Därefter skickas filen tillbaks till treventusdatorn.
  7. Kopiera till ”Klara”. Masterfilerna kopieras från treventusdatorn till en lagringsserver, därefter kopieras PDF-filen = visningsfilen till samma ställe.

Som en sista uppgift skulle man kunna låta programmet radera treventusdatorns master-, work- och bitonala bilder, eftersom både mastern och visningsfilen nu finns lagrad på annan plats. Denna uppgift kommer vi lägga till när vi är säkra på att flödet alltid sker med en hundraprocentig tillförlitlighet.


Komplettering och kontroll (manuell)

Skanningsarbetet avlutas med ett sista manuellt flöde.

  1. Omslag, lösa ark och ev de sidor som ej tidigare kunnat skannas, skannas i en flatbäddsskanner.
  2. Omslag och sidor läggs i den masterfilkatalog de tillhör.
  3. De lösa arken och andra tillkomna sidor görs bitonala. Omslagen lämnas orörda.
  4. Omslag och bitonala sidor integreras i aktuell visningsfil. (Adobe Acrobat)
  5. Tomma sidor som inte har en inverkan på visningsfilens paginering tas bort. (Adobe Acrobat)
  6. Ev skuggor tas bort genom manuell beskärning. (Adobe Acrobat)
  7. Anti-aliasing appliceras på texten för ökad läskomfort. (Adobe Acrobat)
  8. I databasen noteras att verket är färdigskannat.

Slutresultatet är bra med en god läsbarhet. Vi har dock vissa problem med objekt där innehållet går ända ut i marginalerna. I somliga fall är det svårt och ibland rent av helt omöjligt att komma åt all information på sidan, eftersom skannerhuvudet inte kan gå tillräckligt djupt ner. Vi har också en del problem med skuggade sidor. Skuggorna kan vara knappt märkbara på masterbilderna, men när de binäriseras, förvandlas skuggpartierna till kompakta helsvarta områden, vilket påtagligt stör när man läser. Eftersom skuggorna kan vandra ganska långt in på sidorna, går det heller inte att lösa problemet genom att skära bort dessa områden i scanflow (vi använder samma, statiska beskärningsram för samtliga sidor), då detta skulle innebära att vi också skar bort delar av informationen på sidan. Tills vidare löser vi problemet med en manuell hantering i Adobe Acrobat.

Nu går vi in i nästa fas i arbetsflödet, fasen som innefattar metadataberikningen och tillgängliggörandet av materialet i GUPEA och LIBRIS. Mer om detta arbete i vår nästa bloggpost som vi hoppas kunna lägga upp i början av oktober.

fredag 2 september 2011

Google och British Library - läs avtalet!

Google Books är intressant ur väldigt många perspektiv. För ett projekt kring arbetsflöden för digitalisering vore det förstås oerhört intressant att se hur Googles arbetsflöden för detta ser ut. Google håller dock processen så hemlig att de inte låter sina ordinarie anställda blandas med företagets scanneroperatörer. Likaså har de avtal Google skrivit med sina bibliotekspartners hållits hemliga, vilket lett till en hel del spekulationer kring de juridiska villkoren för digitaliseringsprojekten.

I juni detta år annonserades ett samarbete mellan Google och British Library att digitalisera 250 000 böcker ur bibliotekets samlingar. Avtalet mellan BL och Google har, tack vare arbete från Open Rights Group, blivit tillgängligt och finns att läsa här.

Avtalet är väldigt intressant läsning!