Uppsala universitetsbibliotek

Dissertationer 1600-1855 i fulltext på internet

Vid universitetsbiblioteket pågår ett långsiktigt projekt som går ut på att katalogisera, scanna och OCR-läsa äldre dissertationer, det vill säga avhandlingar, från Uppsala universitet. Med äldre dissertationer menas sådana som har publicerats mellan åren 1602-1855.

Hittills har drygt 2000 dissertationer digitaliserats och gjorts tillgängliga i DiVA (Digitala Vetenskapliga Arkivet). Här finns dissertationer från både 1600- 1700 och 1800-talen. I denna första publiceringsomgång ligger dock tyngdpunkten på material från perioden mellan 1778 och 1855. Under den tiden skrevs en stor del av avhandlingarna på svenska, och en annan stor del på latin.

Målet är att göra dissertationerna tillgängliga som bildfiler och sökbara i fulltext i DiVA, och därigenom också sök- och läsbara via Google. Allt som allt rör det sig om ungefär 14 000 dissertationer på i genomsnitt 20 sidor – alltså cirka 280 000 sidor eller bildfiler. 

Det finns flera anledningar till att biblioteket har startat det här projektet. Först och främst är äldre tiders avhandlingar intressanta för forskningen, och de lånas flitigt här i vårt eget bibliotek. Det kommer också en hel del beställningar från utlandet på kopior av dissertationer.

För forskare i idéhistoria och vetenskapshistoria ger dissertationerna en snabb inblick i kunskapsläget i ett visst ämne i Sverige under en viss tidsperiod. Men även litteraturhistoriker och andra historiker använder sig av materialet, och språket i dem studeras av forskare inom klassiska och nordiska språk. Det finns också en social dimension av dissertationen som har uppmärksammats, till exempel hur den speglar sociala nätverk.

Sverige var periodvis också en av de ledande forskningsnationerna i världen, mest inom naturvetenskapen. Vi har därför en hel rad berömda namn särskilt från 1700-talet som man intresserar sig för internationellt, och dessa berömdheter har oftast antingen skrivit en dissertation eller varit handledare för en här vid Uppsala universitet. Det händer också att dissertationerna är förarbeten till banbrytande verk som publicerats på annat sätt senare.

Dissertationer 1600-1855 i fulltext på internet
Dissertationer 1600-1855 i fulltext på internet

Från en praktisk synvinkel kan man också konstatera att det finns en önskan att biblioteket skall digitalisera mer av sina kulturarvssamlingar. Just när det gäller dissertationerna finns det också redan en miljö att presentera dem i, nämligen DiVADär publiceras ju de avhandlingar som idag läggs fram digitalt.

Projektet pågår som en del av det löpande arbetet vid enheten för äldre tryck, Reproenheten och DiVA-enheten. Det praktiska arbetet sker i fyra steg:

  1. Katalogisering i LIBRIS – posterna ska sedan kopieras till DiVA
  2. Scanning
  3. OCR-läsning
  4. Uppladdning av bilder till DiVA-posten

Vi samarbetar med Södertörns högskolebibliotek i fråga om katalogiseringen. För varje arbetsdag blir ungefär 25 nya dissertationer sökbara.

Scanningen kommer att utföras med olika tekniker beroende på dissertationernas format, inbindning och skick. I den mån deras skick tillåter det hanteras dissertationerna av reproenhetens scanningsrobot. Kompletteringar sker genom sedvanlig scanning. Texterna kommer sedan att OCR-behandlas för att skapa sökbara fulltexter av bildfilerna. OCR-texterna kommer att vara av varierande kvalitet, beroende på från vilken tid och på vilka språk texterna är. När det gäller dissertationer på svenska (och även latin) från 1800 och framåt är OCR-texterna av god kvalitet, medan våra äldsta dissertationer på latin med många inslag av grekiska kommer att ha en lägre rättprocent. I framtiden hoppas vi kunna koppla de digitaliserade dissertationerna till en crowdsourcing-tjänst, där universitetsmedarbetare ges möjlighet att bidra till att höja kvaliteten på OCR-texten ytterligare.

Några exempel: