Käsin kirjoitetun tekstin tunnistuspalvelu

Information

4/1/2022 1:19 PM (GMT+02:00)
4/30/2022 3:00 PM (GMT+02:00)

Buyer

Kansallisarkisto Kansallisarkisto
Maria Kallio-Hirvonen
Rauhankatu 17
00170 Helsinki
Finland
0245885-9

Closing date has passed.

Short description

TIETOPYYNTÖ

Tämä tietopyyntö ei ole hankintailmoitus eikä tarjouspyyntö, eikä käynnistä kilpailutusta vaan on osa markkinakartoitukseen liittyvää vuoropuhelua. Hankintayksikkö voi käyttää teknisen vuoropuhelun vastauksia tulevan hankinnan suunnittelussa. Vastaaminen tietopyyntöön ja vuoropuheluun osallistuminen ei ole edellytys mahdolliseen myöhemmin toteutettavaan kilpailutukseen osallistumiselle eikä sido siihen osallistuvia tahoja. Vuoropuheluun osallistuneille tahoille ei makseta korvausta.

TAUSTA

Kansallisarkiston tehtävänä on varmistaa kansalliseen kulttuuriperintöön kuuluvien asiakirjojen säilyminen ja saatavuus sekä edistää niiden tutkimuskäyttöä. Kansallisarkiston kokoelmissa on yhteensä noin 220 hyllykilometrin edestä aineistoa, ja niitä digitoidaan jatkuvasti. Tällä hetkellä digitoituna on yli 120,7 miljoonaa tiedostoa. Kansallisarkisto on vuodesta 2016 alkaen hyödyntänyt käsin kirjoitetun tekstin automaattisen tunnistuksen teknologiaa parantaakseen digitoitujen aineistojen käytettävyyttä ja saatavuutta.

Käsin kirjoitetun tekstin automaattinen tunnistus perustuu koneoppimiseen ja opetusaineiston tuottamiseen käytetään eurooppalaisen osuuskunnan READ-COOP:in ylläpitämää Transkribus-ohjelmistoa. Tekstintunnistus on Kansallisarkistossa aloitettu renovoitujen tuomiokirjojen kokoelmasta, joka alkaa 1630-luvulta ja jatkuu aina 1970-luvulle saakka. Toistaiseksi tunnistaminen on keskittynyt autonomian ajan tuomiokirjojen prosessointiin eli vuosien 1809–1917 välillä syntyneeseen aineistoon. Kansallisarkisto on tuottanut niitä varten käsialamallin, joka koostuu yli 1,2 miljoonasta sanasta.

Kansallisarkisto tarjoaa tunnistettuja aineistoja omassa käyttöliittymässään, jonka kautta kaikki kiinnostuneet voivat tehdä hakuja tunnistettuun tekstisisältöön tai ladata kokonaisten dokumenttien sisällön itselleen. Palvelussa on myös avoin rajapinta, jonka kautta kaikki aineisto on ladattavissa esimerkiksi digitaalisia tutkimusmenetelmiä hyödyntävien tutkijoiden käyttöön. Tällä hetkellä tuomiokirja-aineistoja on prosessoitu yli 3 miljoonaa sivua, mutta pelkästään 1800-luvun tuomiokirjoista yli 7 miljoonaa sivua on vielä tunnistamatta.

Sisältöjen tunnistaminen käsin kirjoitetusta aineistosta on strateginen valinta ansallisarkiston toiminnassa. Toimintaa on tarkoitus jatkaa tulevina vuosina myös muiden kuin tuomiokirja-aineistojen prosessointiin.

TARPEET JA VAATIMUKSET

Kansallisarkisto haluaa selvittää, millaisia vaihtoehtoja markkinoilla on käsin kirjoitetun tekstin tunnistamiseksi, ja kartoittaa nyt palveluntuottajia, jotka voisivat tarjota seuraavia palveluita.

Käsin kirjoitetun tekstin tunnistuspalvelu

Kansallisarkiston tekstintunnistusta vaativat aineistot ovat digitaalisia kuvia arkistoaineistosta. Kuvat ovat jpg-muotoisia ja laadultaan 300 DPI.

Aineistot voivat olla taulukkomuotoisia ja voivat sisältää myös kuvia. Tekstintunnistuksessa on kyettävä tunnistamaan digitoidun aineiston rakenne sekä aineistossa esiintyvät ei-tekstuaaliset elementit. Esimerkiksi taulukkopohjaisen aineiston tekstin tunnistustuloksen on oltava käytettävissä taulukkomuodossa tai vähintään helposti muunnettavissa sellaiseen muotoon.

Tunnistuksessa on pystyttävä hyvään tarkkuuteen. Merkkikohtaisen virheprosentin (CER) tulee pysyä 5 % alla. Kansallisarkisto voi antaa jo nyt tuottamansa opetusaineistot palveluntarjoajan käyttöön.
Tunnistustulos täytyy voida tallentaa tekstimuodon lisäksi AltoXML 4.0 -formaatissa.

Kansallisarkisto etsii nyt kiinnostuneita toteuttajia käsin kirjoitetun tekstin tunnistuspalvelua varten. Kansallisarkisto haluaa vastauksissa kuulla erityisesti palvelun toteutuksesta ja hinnoittelumalleista. Yksikkökohtaisen (sivu/kuva) hinnan lisäksi tunnistuksen ostaminen palveluna riippumatta tunnistettujen yksiköiden määrästä on erityisenä kiinnostuksen kohteena.

Sisältötunnistettujen aineistojen hakukäyttöliittymä
Tuomiokirja-aineistoille on toteutettu oma hakukäyttöliittymä, Tuomiokirjahaku. Hakupalvelu sisältää tällä hetkellä 3 miljoonaa sivua sisältötunnistettua aineistoa sekä niihin liittyvät kuvat. Palvelun aineiston käyttöä varten on rakennettu myös avoin rajapinta. Tuomiokirjahaun nykyinen versio löytyy osoitteesta https://tuomiokirjat.narc.fi/

Tietopyynnön vastauksissa pyydetään ratkaisuja ensisijaisesti käsin kirjoitetun tekstin tunnistamiseen, mutta myös sisältötunnistettujen aineistojen palvelukokonaisuuden ylläpitoon. Vastaukset voivat siis kohdistua pelkästään tietopyynnön ensimmäiseen kohtaan.

LISÄTIEDOT

Pyydämme kaikilta kiinnostuneilta toimittajilta ratkaisuehdotuksia mahdollista hankintaa ajatellen. Ehdotukset tulee toimittaa sähköpostitse osoitteeseen kirjaamo@kansallisarkisto.fi otsikolla ”Käsin kirjoitetun tekstin tunnistuspalvelu”. Kiinnostuneet toimittajat voivat pyytää lisätietoja ja aineistoja osoitteesta kirjaamo@kansallisarkisto.fi.

Files (click "Show interest" to get access)

Name Size
Käsin kirjoitetun tekstin tunnistuspalvelu.pdf 224 KB

Mercell Holding AS

Part of the Mercell Group, one of Europe’s leading providers of e tender systems and information between buyers and suppliers in the professional market.

Contact us

Write to us

+47 21 01 88 00