måndag 30 maj 2011

SUB: Studiebesök hos Norstedts

På Stockholms UB har vi under våren funderat på hur de svenska bokförlagen tänker och jobbar med digitalisering. Därför gjorde vi (Anders Söderbäck, Bodil Gustavsson och Finn Ljunggren) ett studiebesök på Norstedts för att se hur de arbetar med att digitalisera sin backlist, och med att ge ut denna både som e-böcker och som print on demand (eller som man säger i branschen och även i fortsättningen av denna text: ”pod”). På Norstedts togs vi emot av Fredrik Andersson, som är heltidsanställd för att jobba med denna fråga. Vi träffade även Eva Gedin, förlagschef för Norstedts skönlitteratur.

Norstedts började arbeta med print on demand 2010, och gjorde ganska snabbt erfarenheten att frågan var mer komplex än man först hade trott. Fredrik anställdes för att jobba heltid med frågan och bygga upp ett arbetsflöde – något som förstås intresserar oss eftersom vi håller på med precis samma sak.

Arbetsflödet hos Norstedts ser ut ungefär såhär:

  1. Urval. Norstedts inriktar sig på att välja ut titlar ur backlist som lämpar sig för digitalisering. Här utgår man från vissa principer, till exempel att boken ska vara minst fem år gammal och utgången i alla format (utom som ljudbok).
  2. Rättigheter. Norstedts äger inte rättigheten till utgivning som e-bok eller pod, och man behöver därför undersöka vem det är som äger denna rättighet. I det flesta fall är det författaren, men det kan också vara någon av författarens arvingar eller någon annan aktör.
  3. Avtal. Norstedts har tillsammans med författarförbundet tagit fram ett standardavtal för e-boks- och podutgivning. Detta behöver skrivas på innan Norstedts går vidare med digitaliseringen.
  4. Leta upp en fysisk förlaga. För denna utgivning har Norstedts oftast inte digitala filer (tryck-pdf:er eller liknande) att utgå från, så man behöver en fysisk förlaga. Dessa finns antingen i det egna lagret eller beställs via antikvariat.
  5. Bildfångst. Norstedts skickar boken till något av de tryckerier som man redan har avtal med, som skär ryggen på boken, scannar boksidorna, och levererar en pdf tillbaka. Boksidorna får standardmåtten 135 * 210 cm.
  6. Interna system. Pdf:en går nu in i Norstedts interna system. Man ger den ett standardomslag speciellt framtaget för podutgivningen.
  7. Publicering som print on demand. Boken är nu redo att publiceras som pod. Detta sker via företaget Publit. Information om pod-utgivningen distribueras via Norstedts ordinarie distributionskanaler, och når den vägen fram till nätbokhandlarna.
  8. Produktion av e-bok. Vid sidan av pod tar Publit även hand om att göra en e-bok i formatet epub. Detta innebär att boken behöver OCR-läsas och texten granskas, vilket sker i Indien. Den granskade texten används för att ta fram en e-bok, som publiceras via Publit och distribueras via Elib.
Ingenting publiceras utan att kvaliteten först har godkänts manuellt. Hela flödet från urval till publicering tar idag som mest en månad, och kräver någon form av handpåläggning hela vägen. Målet är att kunna automatisera så mycket som möjligt, men automatisering är inte så självklart som man först trodde att det skulle vara. Administration och kontroll av var en viss bok befinner sig i flödet görs idag i ett exceldokument. Norstedts har som ambition att föra in digitalisering och pod i de interna system som finns för att hantera Norstedts ordinarie utgivning. Att göra detta är en ganska stor utmaning, eftersom de system man använder idag inte har byggts upp för att hantera en mer ”traditionell” form av utgivning.

En annan fråga Norstedts upplevde som problematisk var hanteringen av ISBN. De elektroniska utgåvorna är föränderliga och det är svårt att veta vilka resurser som ska få nytt ISBN. Från bibliotekshåll instämde vi i att hanteringen av ISBN ofta fungerar dåligt för e-böcker, och att de flesta förlag, även internationellt, har problem med detta.

Norstedts har ännu inte börjat marknadsföra pod-utgivningen särskilt hårt, eftersom man först vill komma upp i en större mängd tillgängliga böcker. Under det år Norstedts jobbat med pod har man hunnit lägga ut ungefär 100 böcker, och målet för 2011 är att dubblera den siffran. Det skulle idag inte vara möjligt för Norstedts att fatta beslut om att digitalisera hela sin backlist, dels eftersom man behöver sluta nya avtal för varje individuell utgivning och dels eftersom kostnaden per bok skulle bli för hög.

Eva och Fredrik menar att det funkat bra för Norstedts att initialt ha en liten grupp specialister som bygger upp verksamheten och sedan rullar ut den i resten av organisationen. För svenska förlag är print on demand ännu ganska nytt, så de flesta testar sig fram. Eva nämner också att majnumret av Svensk Bokhandel innehåller en stor artikel om hur olika svenska förlag arbetat.

Som avslutning kan vi konstatera att Norstedts pod-utgivning ligger inom ett annat område än både de e-böcker Stockholms universitetsbibliotek köper licenser för och de böcker vi vill digitalisera i de egna samlingarna. Däremot finns flera likheter i behovet av att hitta rationella arbetsprocesser och i känslan av att än så länge befinna sig i relativt outforskade marker. Vi är därför väldigt glada över att Norstedts tog sig tid att berätta om sin verksamhet för oss, och återgäldar det gärna om Norstedts någon gång skulle vilja besöka Stockholms UB.


onsdag 25 maj 2011

GUB: Bildfångst påbörjad

Göteborgs universitetsbibliotek har nu påbörjat det praktiska skanningsarbetet. Där vi först planerade att rikta in oss på avhandlingar utgivna av Göteborgs universitet, har vi nu efter en beställning från pedagogiska institutionen istället beslutat att digitalisera ungefärligen 120 st av deras rapporter, skrivna mellan 1960-2000. Innehållsmässigt behandlar rapporterna hur en rad olika faktorer påverkar både ungdomars och vuxnas vilja och möjlighet till utbildning. Till formen/dimensionerna är materialet av väldigt olika karaktär och innefattar tunna A5-häften på några få sidor såväl som tjockare A4-sammansättningar på uppemot 200 s. Gemensamt för många av objekten är dock att de har limmade ryggar, de har lätt-OCR:ade typsnitt och att de inte är skrivna på mer än fem olika västeuropeiska språk, vilket också underlättar vid OCR-processen. Vi kommer köra flertalet av rapporterna i treventusroboten. Får vi tillstånd av institutionen kan vi också komma att skära vissa av objekten och låta hantera dem i en arkskanner för att kunna jämföra de olika skanningsmetoderna med varandra.

Under arbetets gång försöker vi gå systematiskt tillväga och dokumentera vårt förfarande så att vi i ett senare läge lättare kan felsöka och rätta till de märkliga fel och beteenden som uppstår med jämna mellanrum. I nuläget verkar vi dock ha fått in ett ganska bra flöde på själva bildfångsten, vi tycks ha kommit till bukt med de tidigare problem vi hade med limmade ryggar där arken satt tätt ihop vilket gjorde att bladvändning inte fungerade som den skulle. Men så inte längre. Vi har också blivit bättre på att orientera oss i Scangates kryptiska gränssnitt och har lyckats få till en grundinställning som gör att både masterfiler och presentationsfiler (de som syns under ”work”- resp ”bitonal”-vyn) genereras vid ursprungsskanningen, istället för att man ska behöva ägna vad det känns som mycket längre tid åt att skapa presentationsfilerna vid ett senare tillfälle. En inställning som gör att endast högra sidor skannas (varannan sida i flera rapporter är en sida utan innehåll) gör att vi redan från början filtrerar bort onödig data som tynger ned efterbehandlingen. Vad som återstår att komma fram till vilka gammavärden vi skall lägga oss på, vissa sidor tenderar att bli lite väl bleka.

Det vi alltså hittills fokuserat på är själva bildfångsten. Tanken är att vi först när alla rapporter är inskannade och vi har säkerställt att kvaliteten är tillräckligt bra, påbörjar efterbehandlingen. I samband med efterbehandlingen börjar vi använda Scanflow som vi hittills experimenterat med men som vi måste bli bättre på om processen skall kunna flyta helt automatiskt. Och apropå flödesprogram kan vi också nämna att vi var på Comprimas presentation härom veckan där vi bl a fick en genomgång av DocWorks-e som åtminstone på pappret ser ut som en väldigt lovande programvara, inte minst för att den innehåller en komponent vilken (via z39.50) automatiskt kan hämta metadata från LIBRIS – vilket i nuläget är lite av en flaskhals i vår process. DocWorks-e bygger också på ett betydligt mer grafiskt gränssnitt som vid en första anblick verkar vara mycket lättare att förstå sig på än det vi är tvungna att arbeta med idag. Just gränssnittsfrågan är ju viktig om man tänker sig att man framöver vill låta studenter eller ny, ambulerande personal sköta skanningen men samtidigt har begränsat med tid att utbilda dem. Enklare gränssnitt = förkortad inlärningskurva.

måndag 9 maj 2011

Workshop kring arbetsflöden för digitalisering

Göteborgs UB, Kungliga biblioteket, Lunds UB, Stockholms UB, Umeå UB och Uppsala UB ingår alla i ett KB-finansierat projekt för att samarbeta kring arbetsflöden för digitalisering. I slutet av mars träffades representanter från dessa sex bibliotek för att workshoppa kring hur vi tänker oss våra arbetsflöden, och kring vad vi vill ha ut av ett samarbetsprojekt.

Bakre raden (fr. v.): Wilhelm Widmark (SUB), Anders Söderbäck (SUB), Per Cullhed (UUB), Torsten Håkansson (SUB), Lars-Åke Persson (UmUB), Lennart Stark (GUB)
Mittersta raden (fr. v): Krister Östlund (UUB), Mats Danielsson (UmUB), Sirpa Salmi (UmUB)
Främre raden (fr. v.): Britt-Marie Lindahl (LUB), Henrik Johansson (KB), Bo Jaensson (UUB), Björn Odenbring (GUB), Per-Erik Svedlund (KB)


För att mjuka upp oss inledde vi med vad som brukar kallas en reverse brainstorming utifrån temat "Hur ska vi göra för att skapa så dåliga arbetsflöden som möjligt?" Vi tog på detta sätt fram en mängd dåliga idéer. Flera av dessa idéer berörde risken att fastna i problemen innan man ens börjat arbeta ("skriv en telefonkatalogtjock utredning", "lös upphovsrättfrågan innan ni börjar digitalisera", "lös frågan om långtidsbevarande innan ni börjar", "vänta på en nationell digitaliseringsstrategi", "prat istället för utförande"). Tydliga teman handlade om att lägga ribban för högt ("skyhöga kvalitetskrav på OCR") eller för lågt ("otillräckliga metadata"). Andra dåliga idéer handlade om leverantörsinlåsningar och proprietära filformat, liksom om kommunikation och förankring både inom den egna organisationen och med andra aktörer som sysslar med samma sak. Många dåliga idéer handlade också om att konstruera arbetsflöden som gör det svårt att gå tillbaka och korrigera eller förbättra arbete i efterhand.


Därefter presenterade vi den verksamhet som just nu finns hos de olika deltagarna. Detta ser olika ut; några institutioner har arbetat längre med digitalisering än andra, organisationen inom de olika universitetsbiblioteken skiljer sig från varandra, man har inriktat sig på olika typer av material, och har dessutom koncentrerat sig på olika delar av arbetsprocessen. Inom projektet finns en tydlig vilja till att se digitalisering som en helhet och en process som berör flera delar av biblioteket, istället för att betrakta det hela som en avgränsad teknisk fråga. Vi kunde också konstatera att flera av de deltagande universitetsbiblioteken stod i begrepp att påbörja digitalisering av lärosätets äldre avhandlingar.









Vi jobbade också kring frågan om hur ett optimalt arbetsflöde för digitalisering skulle kunna se ut. Målet var inte att redan nu konstruera ett idealt flöde, utan att upptäcka hur vi såg på detta samt vilka delar vi behövde jobba vidare med inom projektet. Projektdeltagarna använda olika bilder för att beskriva det ideala flödet, men det var ändå tydligt att det redan nu fanns en gemensam bild av ungefär hur det skulle se ut och vilka moment som behöver ingå. Även om vårt samarbetsprojekt har sin början i den gemensamma upphandling vi gjort av digitaliseringsrobot tänker vi oss alla flera metoder för bildfångst, där roboten är en källa av flera.


De frågor som dök upp handlade om lagring av masterfiler (och en eventuell nationell lösning för långtidslagring), automatisering av scanning samt bildbehandling, tillgängliggörande och visningsformat, hur vi kan automatisera hanteringen av metadata, samt möljigheten att koppla bibliotekens digitaliseringsverksamheter till LIBRIS. Detta projekt kommer framför allt att uppehålla sig vid möjligheterna att automatisera bildbehandling och metadata, samt kring hur vi kopplar det hela till LIBRIS. Långtidslagringen sätter vi, i enlighet med vad som kom upp i den inledande inventeringen av dåliga idéer, inom parentes än så länge. Vi räknar dock pragmatiskt med att vi alla någon gång i framtiden kommer att leverera innehållet i våra arkiv till KB.


Slutligen vidtog arbete med att ta fram tydliga mål för projektet. Under projektet kommer vi att göra en inventering av vilka olika programvaror som finns idag för att hantera och hålla koll på ett digitaliseringsflöde. Vi kommer att praktiskt testa två av dessa (Open Sourceprogramvaran Goobi, samt ScanFlow från Treventus - samma leverantör som vi upphandlat digitaliseringsrobot av.) Vi kommer också att ta fram en generell beskrivning av ett digitaliseringsflöde samt beskriva vilka pusselbitar som behöver ingå för att flödet ska fungera optimalt. Detta kommer att redovisas både i en skriftlig slutrapport samt i ett slutseminarium som är öppet för alla att vara med på. Slutseminariet planeras till mitten av december, och kommer att hållas på Stockholms Universitet. Vi hoppas också att i och med detta projekt hitta gemensamma mål som kan fungera som återkoppling till LIBRIS kring hur bibliotekens digitalisering kan samordnas och presenteras på nationell nivå.


Under projektets gång kommer vi att kommunicera både med varandra och med resten av världen genom denna blogg. Under våren kommer alla deltagande bibliotek att kartlägga och beskriva sina nuvarande (och önskade) arbetsflöden, och presentera i bloggen.


Hos alla som deltog i workshoppen fanns förväntningar kring erfarenhetsutbyte och möjlighet att genom att hitta gemensamma flöden kunna påverka digitaliseringsverksamheten vid de svenska biblioteken i positiv riktning. Eftersom digitalisering pågår på många andra platser än vid de sex bibliotek som deltar i projektet hoppas vi att våra erfarenheter kan vara till nytta för andra. Vi vill också gärna ta del av synpunkter och erfarenheter från annat håll!

måndag 2 maj 2011

Hello world

Bloggen "Arbetsflöden för digitalisering" är född. Syftet med bloggen är att dela kunskap och erfarenheter kring digitalisering vid sex stora svenska bibliotek: Göteborgs universitetsbibliotek, Kungliga biblioteket, Lunds universitetsbibliotek, Stockholms universitetsbibliotek, Umeå universitetsbibliotek och Uppsala universitetsbibliotek.

Dessa sex bibliotek deltar även i ett samarbetsprojekt kring arbetsflöden för digitalisering. Detta projekt är finansierat genom utvecklingsbidrag från Kungliga biblioteket.