Arbetsflöden för digitalisering

måndag 31 oktober 2011

Europeiskt kompetenscentrum kring digitalisering invigt

24-25 oktober höll det stora EU-projektet IMPACT (Improving access to text) sin avslutande konferens i British Library, London, ”Digitisation & OCR: Better, faster, cheaper”.

Under två välfyllda dagar fick vi ta del av ett 20-tal presentationer som sträckte sig från övergripande strategier kring digitalisering från stora aktörer som British Library och Europeiska kommissionen, över konkreta fallstudier kring effekten av ändrade skanningsmetoder, förbättrade historiska lexikon mm för tolkningsresultatet, till presentation av konkreta verktyg tillgängliga för nerladdning. Dag två av konferensen invigdes det utlovade kompetenscentret, Impact Centre of Competence med grundläggande information fritt tillgängligt för alla (och ytterligare resurser för betalande medlemmar). Anmäl dig på hemsidan, länk nedan.
Vi var sammanlagt 150 deltagare från drygt 20-talet länder. Många spännande personliga möten och intressanta presentationer, tipsar om några nedan.

Först några allmänna länkar:
Impact Centre of Competence, se http://www.digitisation.eu/
Impact-projektet har också en omfattande blogg, se http://www.impact-project.eu/home/
Presentationer (powerpoint) från denna – och andra – konferenser finns tillgängliga via slideshare, se http://www.slideshare.net/impactproject

För det praktiska skanningsarbetet var Apostolos Antonacopolos presentation ”Case study: Scanning parameters” väldigt intressant. Vilken betydelse har upplösningen, valet av svart-vit, gråskale eller färgskanning mm, se http://www.slideshare.net/impactproject/impact-conference-2011
Intressant att se nya verktyg utvecklade vid det grekiska centret för bildanalys, NCSR ”Demokritos” för att hantera de defekter som ofta finns i äldre böcker, skeva ”bubbliga” sidor pga fukt eller felaktiga inbindningar, se http://www.slideshare.net/impactproject/impact-final-conference-research-parallel-sessions02-research-sessionncsrtools Det är också möjligt att ladda ner demo-versioner av verktygen.
Spännande var också att se IBMs programvara CONCERT demonstreras. Såg ut som ett verktyg som ger användarna möjlighet att på ett intuitivt sätt enkelt korrigera stora mängder ocr-tolkade data. Prislappen oklar, sannolikt hög - men en intressant produkt, se http://www.slideshare.net/impactproject/impact-final-conference-asaf-tzadok

Många andra intressanta presentationer värda att titta på, välj utifrån konferensprogrammet här: http://www.impact-project.eu/news/ic2011/conference-programme/

Fick också tillfälle att prata med personer insatta i Googles och ProQuests pågående projekt, leverantörer som gärna sålde skanningsrobotar såväl som efterbearbetningstjänster i form av textsegmenteringverktyg eller färdiga produkter i form av ePub-böcker (för en billig penning direkt från Indien) och många fler. Berättar mer över en kopp kaffe ...

måndag 5 september 2011

GUB: Halvautomatik

Tillbaka igen efter semesteruppehållet har digitalduon på GUB ägnat de senaste veckorna åt att finjustera vårt Scanflow-flöde. Och till vår stora glädje verkar vi ha kommit ett par steg närmare en till stora delar automatiserad process. Som vi tidigare nämnt kan programmet vara oerhört känsligt, det kraschar med jämna mellanrum och det är sällan helt uppenbart varför detta sker. Något som vi kämpat med ett tag är avbrutna flöden, där automatiken avbrutits eftersom programmet inte fått tillräcklig information för att utföra en viss operation. Eftersom Scanflow i sådana fall bara (i bästa fall) ger feedback i formen av: ”nu har någonting gått fel” och inte vidare specificerar hur problemet kan rättas till, är det lätt att fastna i långa perioder av felsökning. Så när vi testat har det varit silkesvantar på hela vägen och varje uppgift (task) har isolerats och testats grundligt innan vi passat in den i en mer komplex sekvens.

Slutprodukterna av vårt testflöde är masterfiler i TIFF (separerade sidor) samt en bitonal sökbar pdf i 400 dpi, med omslag i färg, som är redo för metadataberikning och därefter tillgängliggörande i GUPEA (lokal databas) och LIBRIS.

Så här har vi jobbat fram till idag:

Förberedelser

Objekten har skickats till oss från pedagogiska institutionen.
Utifrån ett antal kriterier har objekten sorterats i två grupper; de som ska hanteras i treventusrobot resp. arkmatare.
Varje objekt har sedan registrerats i en specialgjord databas, där vi tilldelat ett objekt id-nummer, registrerat dess titel och författare, v ilken typ av skanner som det ska hanteras i, samt vilken status det har (skannat/oskannat ).
Objektens databasposter har skrivits ut på papper som placerats i de fysiska objekten.
Bokbinderiet har skurit och sprättat objekten som ska hanteras i arkskannern.

Scangate (manuell)

Samtliga osprättade objekt har skannats i treventusroboten. Processen ser ut enligt följande:

Ett nytt jobb skapas och döps till det id-nummer det är registrerat under i databasen. Programmet skapar automatiskt en mapp i Windows som den sedan placerar alla skannade sidor i.
Verket skannas och masterfiler genereras. Varken framsidor, baksidor eller eventuella lösa ark skannas dock i detta läge.
Efter skanningen avslutats kontrolleras det att digitaliseringen av verket är fullständig. Vid ofullständig digitalisering kompletteras verket då så är möjligt. Går verket inte att komplettera noteras detta på pappret som ligger i objektet.
Work-filer genereras.
I Work-vyn räknas ramvärdena ut (calculate borders).
I Work-vyn sätts en beskärningsram.
Arbetet sparas och skickas in i flödet (finalize task).

Scanflow (automatisk)

Stegen ovan upprepas för varje objekt. Efter punkt 7, tar det automatiska flödet vid. Man kan förbereda hur många objekt man vill innan man startar det automatiska flödet. Den automatiska processen kan ske helt obevakad (under förutsättning att nätverket fungerar som det ska, annars kommer flödet stanna vid ocr-hanteringen).

Byt till Work-vy (display work). Denna uppgift är en säkerhetsåtgärd som garanterar att programmet inte genomför några förändringar på masterfilen.
Beskärning (cropping). Sidorna beskärs efter de värden vi gett beskärningsramen under punkt 5 ovan.
Räta upp (deskew). Eftersom vi tidigare räknat ut ramvärdena vet programmet nu hur skev varje sida är och kan utifrån denna data räta upp dem som behövs. Är inte ramvärdena uträknade justerar programmet ingenting, utan går vidare till nästa uppgift i flödet.
Kontrastjustering. För att öka kontrasten mellan text och bakgrund och därigenom öka läsbarheten, sänks programmets standardvärden för brightness till -35.
Bilderna görs bitonala (binarize).
Texten görs sökbar. Bilderna skickas till OCR-servern som gör texten sökbar och därefter slår ihop alla sidor till en PDF-fil. Därefter skickas filen tillbaks till treventusdatorn.
Kopiera till ”Klara”. Masterfilerna kopieras från treventusdatorn till en lagringsserver, därefter kopieras PDF-filen = visningsfilen till samma ställe.

Som en sista uppgift skulle man kunna låta programmet radera treventusdatorns master-, work- och bitonala bilder, eftersom både mastern och visningsfilen nu finns lagrad på annan plats. Denna uppgift kommer vi lägga till när vi är säkra på att flödet alltid sker med en hundraprocentig tillförlitlighet.

Komplettering och kontroll (manuell)

Skanningsarbetet avlutas med ett sista manuellt flöde.

Omslag, lösa ark och ev de sidor som ej tidigare kunnat skannas, skannas i en flatbäddsskanner.
Omslag och sidor läggs i den masterfilkatalog de tillhör.
De lösa arken och andra tillkomna sidor görs bitonala. Omslagen lämnas orörda.
Omslag och bitonala sidor integreras i aktuell visningsfil. (Adobe Acrobat)
Tomma sidor som inte har en inverkan på visningsfilens paginering tas bort. (Adobe Acrobat)
Ev skuggor tas bort genom manuell beskärning. (Adobe Acrobat)
Anti-aliasing appliceras på texten för ökad läskomfort. (Adobe Acrobat)
I databasen noteras att verket är färdigskannat.

Slutresultatet är bra med en god läsbarhet. Vi har dock vissa problem med objekt där innehållet går ända ut i marginalerna. I somliga fall är det svårt och ibland rent av helt omöjligt att komma åt all information på sidan, eftersom skannerhuvudet inte kan gå tillräckligt djupt ner. Vi har också en del problem med skuggade sidor. Skuggorna kan vara knappt märkbara på masterbilderna, men när de binäriseras, förvandlas skuggpartierna till kompakta helsvarta områden, vilket påtagligt stör när man läser. Eftersom skuggorna kan vandra ganska långt in på sidorna, går det heller inte att lösa problemet genom att skära bort dessa områden i scanflow (vi använder samma, statiska beskärningsram för samtliga sidor), då detta skulle innebära att vi också skar bort delar av informationen på sidan. Tills vidare löser vi problemet med en manuell hantering i Adobe Acrobat.

Nu går vi in i nästa fas i arbetsflödet, fasen som innefattar metadataberikningen och tillgängliggörandet av materialet i GUPEA och LIBRIS. Mer om detta arbete i vår nästa bloggpost som vi hoppas kunna lägga upp i början av oktober.

fredag 2 september 2011

Google och British Library - läs avtalet!

Google Books är intressant ur väldigt många perspektiv. För ett projekt kring arbetsflöden för digitalisering vore det förstås oerhört intressant att se hur Googles arbetsflöden för detta ser ut. Google håller dock processen så hemlig att de inte låter sina ordinarie anställda blandas med företagets scanneroperatörer. Likaså har de avtal Google skrivit med sina bibliotekspartners hållits hemliga, vilket lett till en hel del spekulationer kring de juridiska villkoren för digitaliseringsprojekten.

I juni detta år annonserades ett samarbete mellan Google och British Library att digitalisera 250 000 böcker ur bibliotekets samlingar. Avtalet mellan BL och Google har, tack vare arbete från Open Rights Group, blivit tillgängligt och finns att läsa här.

Avtalet är väldigt intressant läsning!

måndag 11 juli 2011

Kartläggning av digitaliseringsprocessen vid KB

Vid KB utfördes under hösten 2010 en kartläggningen av hela digitaliseringsprocessen för linje 2 (digitalisering med småbildskamera). Målet var initialt att enbart analysera efterbearbetningen men eftersom en analys av hela processen inte skulle ta signifikant längre tid utvidgades uppdraget till att omfatta hela digitaliseirngsprocessen. Kartläggningen har efter genomförandet används för vidareutveckla och visualisera digitaliseringsprocessen vid KB. Processen har även infogats i KB:s övergripande processkarta.

Arbetet inleddes med att personal från alla delar i digitaliseringskedjan (från framtagning och bevarande till långtidslagring) möttes för att definiera och diskutera samtliga delsteg som ingår digitaliseringsprocessen. Detta möte resulterade, föga förvånande, i en mängd gula lappar på en vägg. De gula lapparna kondenserades sedan ned till ett processflöde varpå gruppen åter träffades för att se om flödet motsvarade verkligheten eller om delar behövde modiferas, läggas till eller tas bort. Diskusioner fördes även om hur dagens processflöde kan förbättras vilket ledde till att en andra, "optimal" processkarta för ett framtida flöde skapades.

Några av de punkter som noterades i kartläggningen redovisas var
- Ineffektivt arbete när materialet förbereds för digitalisering, såsom manuell registrering i Excelark
- Dålig kontroll av var i processen material befinner sig
- Deskriptiv metadata påförs effektivt genom egenutvecklade vertyg för filnamngivning
- Bildfångst utfördes effektivt men möjligheter till utökad automatisering i efterbearbetningen existerar
- Bildfilerna kontrollerades först efter att de långtidslagrats, något som bör ske innan lagring.

Sedan kartläggningen genomfördes har Enheten för digital produktion aktivt arbetat med flera av de identifierade prolemområdena. En produktionsdatabas för registrering av material har skapats och ska precis tas i bruk. Databasen underlättar förberedelserna inför digitalisering och det är även möjligt att se var i processen materialet befinner sig. Mjukvara för automatisk kvalitetskontroll och beskärning har utvecklas och kommer att produktionssättas under de närmaste månaderna.

Sammanfattningsvis så har KB och digial produktion haft stor nytta av processkartorna, både vid intern utveckling och vid kommunikation med andra enheter och institutioner.

Kartläggningen skickas gärna till de som är intresserade av den.

måndag 13 juni 2011

Konferensrapport från Archiving 2011

I mitten av maj hade några personer från KB förmånen att besöka konferensen Archiving 2011 i Salt Lake City. Konferensen anordnades av organisationen Imaging in Society and Technology och arrangerades i år i samarbete med mormonernas släktforskningsföretag Familysearch. Konferensen lockade i år 200 deltagare från framförallt USA och Europa. Majoriteten av deltagarna kom från minnesinstitutioner men det fanns också många deltagare från företag. Konferensen håller generellt en mycket hög klass vad det gäller kurser, föredrag och deltagare och när det gäller att knyta internationella kontakter inom vårt område så är den svårslagbar.

Innan konferensen deltog jag (Henrik) i två korta kurser om färgstyrda arbetsflöden. Kurserna var mycket bra och bekräftade att vårt flöde på KB ligger i framkant även internationellt. Detta bekräftades även under konferensens ordinarie program som innehöll ett antal presentationer inom detta område.

Ett tema som var framträdande redan på förra årets konferens och som i år getts ännu större fokus var långtidslagring och digitalt bevarande. Det pågår mycket forskning inom detta område och det är viktigt att vi håller oss uppdaterade så att vi alltid använder vedertagna standarder och verktyg.

Under konferensens sista dag presenterade jag Colorite, det verktyg som vi utvecklat på KB för automatisk mätning av bildkvalité. Presentationen gick mycket bra och vi fick mycket positiv feedback och flera förfrågningar om att få testa verktyget.

Vi hade slutligen också förmånen att knyta ett antal värdefulla kontakter, speciellt inom amerikanska riksarkivet (NARA) vars digitaliseringsarbete numera leds av en person som arbetade på gamla Statens ljud- och bildarkiv innan övergånghttp://www.blogger.com/img/blank.gifen till KB.

Nästa års konferens hålls i Köpenhamn och jag rekommenderar att så många som möjligt deltar. Jag tror dessutom att det är möjligt att få presentera arbetsflödesprojekt och upphandlingen av digitaliseringsrobot på konferensen - vårt samarbete är mycket ovanligt och skulle säkerligen intressera deltagarna. De nordiska länderna ligger faktiskt långt fram inom många digitaliseringsområden, ibland bra mycket längre fram än vad vi tror själva.

Ni hittar konferensens hemsida här.

måndag 30 maj 2011

SUB: Studiebesök hos Norstedts

På Stockholms UB har vi under våren funderat på hur de svenska bokförlagen tänker och jobbar med digitalisering. Därför gjorde vi (Anders Söderbäck, Bodil Gustavsson och Finn Ljunggren) ett studiebesök på Norstedts för att se hur de arbetar med att digitalisera sin backlist, och med att ge ut denna både som e-böcker och som print on demand (eller som man säger i branschen och även i fortsättningen av denna text: ”pod”). På Norstedts togs vi emot av Fredrik Andersson, som är heltidsanställd för att jobba med denna fråga. Vi träffade även Eva Gedin, förlagschef för Norstedts skönlitteratur.

Norstedts började arbeta med print on demand 2010, och gjorde ganska snabbt erfarenheten att frågan var mer komplex än man först hade trott. Fredrik anställdes för att jobba heltid med frågan och bygga upp ett arbetsflöde – något som förstås intresserar oss eftersom vi håller på med precis samma sak.

Arbetsflödet hos Norstedts ser ut ungefär såhär:

Urval. Norstedts inriktar sig på att välja ut titlar ur backlist som lämpar sig för digitalisering. Här utgår man från vissa principer, till exempel att boken ska vara minst fem år gammal och utgången i alla format (utom som ljudbok).
Rättigheter. Norstedts äger inte rättigheten till utgivning som e-bok eller pod, och man behöver därför undersöka vem det är som äger denna rättighet. I det flesta fall är det författaren, men det kan också vara någon av författarens arvingar eller någon annan aktör.
Avtal. Norstedts har tillsammans med författarförbundet tagit fram ett standardavtal för e-boks- och podutgivning. Detta behöver skrivas på innan Norstedts går vidare med digitaliseringen.
Leta upp en fysisk förlaga. För denna utgivning har Norstedts oftast inte digitala filer (tryck-pdf:er eller liknande) att utgå från, så man behöver en fysisk förlaga. Dessa finns antingen i det egna lagret eller beställs via antikvariat.
Bildfångst. Norstedts skickar boken till något av de tryckerier som man redan har avtal med, som skär ryggen på boken, scannar boksidorna, och levererar en pdf tillbaka. Boksidorna får standardmåtten 135 * 210 cm.
Interna system. Pdf:en går nu in i Norstedts interna system. Man ger den ett standardomslag speciellt framtaget för podutgivningen.
Publicering som print on demand. Boken är nu redo att publiceras som pod. Detta sker via företaget Publit. Information om pod-utgivningen distribueras via Norstedts ordinarie distributionskanaler, och når den vägen fram till nätbokhandlarna.
Produktion av e-bok. Vid sidan av pod tar Publit även hand om att göra en e-bok i formatet epub. Detta innebär att boken behöver OCR-läsas och texten granskas, vilket sker i Indien. Den granskade texten används för att ta fram en e-bok, som publiceras via Publit och distribueras via Elib.

Ingenting publiceras utan att kvaliteten först har godkänts manuellt. Hela flödet från urval till publicering tar idag som mest en månad, och kräver någon form av handpåläggning hela vägen. Målet är att kunna automatisera så mycket som möjligt, men automatisering är inte så självklart som man först trodde att det skulle vara. Administration och kontroll av var en viss bok befinner sig i flödet görs idag i ett exceldokument. Norstedts har som ambition att föra in digitalisering och pod i de interna system som finns för att hantera Norstedts ordinarie utgivning. Att göra detta är en ganska stor utmaning, eftersom de system man använder idag inte har byggts upp för att hantera en mer ”traditionell” form av utgivning.

En annan fråga Norstedts upplevde som problematisk var hanteringen av ISBN. De elektroniska utgåvorna är föränderliga och det är svårt att veta vilka resurser som ska få nytt ISBN. Från bibliotekshåll instämde vi i att hanteringen av ISBN ofta fungerar dåligt för e-böcker, och att de flesta förlag, även internationellt, har problem med detta.

Norstedts har ännu inte börjat marknadsföra pod-utgivningen särskilt hårt, eftersom man först vill komma upp i en större mängd tillgängliga böcker. Under det år Norstedts jobbat med pod har man hunnit lägga ut ungefär 100 böcker, och målet för 2011 är att dubblera den siffran. Det skulle idag inte vara möjligt för Norstedts att fatta beslut om att digitalisera hela sin backlist, dels eftersom man behöver sluta nya avtal för varje individuell utgivning och dels eftersom kostnaden per bok skulle bli för hög.

Eva och Fredrik menar att det funkat bra för Norstedts att initialt ha en liten grupp specialister som bygger upp verksamheten och sedan rullar ut den i resten av organisationen. För svenska förlag är print on demand ännu ganska nytt, så de flesta testar sig fram. Eva nämner också att majnumret av Svensk Bokhandel innehåller en stor artikel om hur olika svenska förlag arbetat.

Som avslutning kan vi konstatera att Norstedts pod-utgivning ligger inom ett annat område än både de e-böcker Stockholms universitetsbibliotek köper licenser för och de böcker vi vill digitalisera i de egna samlingarna. Däremot finns flera likheter i behovet av att hitta rationella arbetsprocesser och i känslan av att än så länge befinna sig i relativt outforskade marker. Vi är därför väldigt glada över att Norstedts tog sig tid att berätta om sin verksamhet för oss, och återgäldar det gärna om Norstedts någon gång skulle vilja besöka Stockholms UB.

onsdag 25 maj 2011

GUB: Bildfångst påbörjad

Göteborgs universitetsbibliotek har nu påbörjat det praktiska skanningsarbetet. Där vi först planerade att rikta in oss på avhandlingar utgivna av Göteborgs universitet, har vi nu efter en beställning från pedagogiska institutionen istället beslutat att digitalisera ungefärligen 120 st av deras rapporter, skrivna mellan 1960-2000. Innehållsmässigt behandlar rapporterna hur en rad olika faktorer påverkar både ungdomars och vuxnas vilja och möjlighet till utbildning. Till formen/dimensionerna är materialet av väldigt olika karaktär och innefattar tunna A5-häften på några få sidor såväl som tjockare A4-sammansättningar på uppemot 200 s. Gemensamt för många av objekten är dock att de har limmade ryggar, de har lätt-OCR:ade typsnitt och att de inte är skrivna på mer än fem olika västeuropeiska språk, vilket också underlättar vid OCR-processen. Vi kommer köra flertalet av rapporterna i treventusroboten. Får vi tillstånd av institutionen kan vi också komma att skära vissa av objekten och låta hantera dem i en arkskanner för att kunna jämföra de olika skanningsmetoderna med varandra.

Under arbetets gång försöker vi gå systematiskt tillväga och dokumentera vårt förfarande så att vi i ett senare läge lättare kan felsöka och rätta till de märkliga fel och beteenden som uppstår med jämna mellanrum. I nuläget verkar vi dock ha fått in ett ganska bra flöde på själva bildfångsten, vi tycks ha kommit till bukt med de tidigare problem vi hade med limmade ryggar där arken satt tätt ihop vilket gjorde att bladvändning inte fungerade som den skulle. Men så inte längre. Vi har också blivit bättre på att orientera oss i Scangates kryptiska gränssnitt och har lyckats få till en grundinställning som gör att både masterfiler och presentationsfiler (de som syns under ”work”- resp ”bitonal”-vyn) genereras vid ursprungsskanningen, istället för att man ska behöva ägna vad det känns som mycket längre tid åt att skapa presentationsfilerna vid ett senare tillfälle. En inställning som gör att endast högra sidor skannas (varannan sida i flera rapporter är en sida utan innehåll) gör att vi redan från början filtrerar bort onödig data som tynger ned efterbehandlingen. Vad som återstår att komma fram till vilka gammavärden vi skall lägga oss på, vissa sidor tenderar att bli lite väl bleka.

Det vi alltså hittills fokuserat på är själva bildfångsten. Tanken är att vi först när alla rapporter är inskannade och vi har säkerställt att kvaliteten är tillräckligt bra, påbörjar efterbehandlingen. I samband med efterbehandlingen börjar vi använda Scanflow som vi hittills experimenterat med men som vi måste bli bättre på om processen skall kunna flyta helt automatiskt. Och apropå flödesprogram kan vi också nämna att vi var på Comprimas presentation härom veckan där vi bl a fick en genomgång av DocWorks-e som åtminstone på pappret ser ut som en väldigt lovande programvara, inte minst för att den innehåller en komponent vilken (via z39.50) automatiskt kan hämta metadata från LIBRIS – vilket i nuläget är lite av en flaskhals i vår process. DocWorks-e bygger också på ett betydligt mer grafiskt gränssnitt som vid en första anblick verkar vara mycket lättare att förstå sig på än det vi är tvungna att arbeta med idag. Just gränssnittsfrågan är ju viktig om man tänker sig att man framöver vill låta studenter eller ny, ambulerande personal sköta skanningen men samtidigt har begränsat med tid att utbilda dem. Enklare gränssnitt = förkortad inlärningskurva.