Yandex lærte neurale netværk at dechifrere arkivalier med kompleks stavning
Miscellanea / / April 03, 2023
Historiske manuskripter, som er svære for en person at parse, bliver næsten øjeblikkeligt konverteret af kunstig intelligens til trykt tekst.
Yandex har lanceret en ny tjeneste kaldet Archive Search, som bruger neurale netværk til at dechifrere arkivalier med kompleks præ-revolutionær stavning.
Tjenesten giver adgang til mere end 2,5 millioner sider med historiske dokumenter med tekstudskrifter. Dens algoritme, bygget på grundlag af et optisk tegngenkendelsessystem, tager højde for egenskaberne ved håndskrift, genkender bogstaver, der har mistet deres relevans, og forstår den særlige struktur af arkivdokumenter.
Virksomhedens specialister trænede det neurale netværk på et dataarray af hundredtusindvis af håndskrevne linjer fra rigtige tekster fra det 18.-19. århundrede og titusinder af genererede eksempler.
Manuskripter, der er vanskelige for en uforberedt person at parse, bliver Yandex-teknologi næsten øjeblikkeligt til trykt tekst. Takket være dette kan du i tjenestens database hurtigt finde dokumenter med en omtale af efternavn, lokalitet eller andre ord.
"Søg i arkiver" vil øge effektiviteten af arbejdet for historikere, sociologer, demografer, slægtsforskere og vil hjælpe dem, der søger information om deres familie.
Den første fond, der blev præsenteret i tjenesten, var Moskvas hovedarkiv - det var på dets materialer, at udviklerne trænede det neurale netværk. Databasen indeholder også dokumenter fra arkiverne i Orenburg- og Novgorod-regionerne. Over tid vil antallet af lagerpladser og tilgængelige scannede filer stige.
Du kan søge efter materialer fra det 18. - tidlige 20. århundrede, som er mest populære blandt brugerne. Det er sognebøger, bekendelsesblade og revisionsfortællinger med resultaterne af folketællingen. Dokumenter kan findes i kataloget eller gennem søgefeltet. Der er filtre efter årstal, arkiver, fonde og opgørelser.
Ved siden af scanningen af hver side vises en linje-for-linje-afkodning lavet af neurale netværk. Hvis du holder markøren over det ønskede fragment, vil det straks blive fremhævet på den digitale kopi.