Szombaton részt vettünk a K-Monitor 'Adatozz okosan!' projektjén belüli rendezett hackathonon. Ez egyfajta programozási verseny volt, ahol a feladat kitűzése és a megvalósítás is egyaránt a csapatok feladata volt. A Civil Kapocs Egyesület a 2013-ban indított önkormányzati archívumának lehetséges újragondolását mutatta be.
A 'MÉG ÁTLÁTSZÓBB ÖNKORMÁNYZAT' saját projektünk lényegében arról szól, hogy az Alsónémedi Önkormányzat 1990-es alakulásától keletkezett iratokat tesszük először hozzáférhetővé, majd az általunk üzemeltetett Önkormányzati dokumentumtár-ba integrálva szórészletre is kereshetővé.
A projekt az 1990-2000 közötti időszakban keletkezett adatok igénylésével és digitalizálásával kezdődött. Erre az időszakra vonatkozóan több, mint húszezer oldalnyi iratot digitalizáltunk. Az is nehezítette a dolgunkat, hogy a kezdetekben még nem zárt ülésen tárgyalt szociális ügyeket a képviselő-testület, ezért jegyzőkönyvek több száz oldalon személyes adatokat is tartalmaztak. Lényegében a teljes anyagot oldalanként át kellett vizsgálnunk és szükség szerint személyes adatokat törölni.
Jelenleg már közel tíz évre vonatkozó irat ülésekre bontva hozzáférhető, ezeket az adatokat dolgoztuk fel a hackathon-on. A cél az volt, hogy a lefotózott iratokból valahogyan szöveget nyerjünk ki és megoldjuk az optikai karakter-felismerés által vétett hibák hatékony kijavítását.
Az első feladat az volt, hogy a pusztán képeket tartalmazó pdf fájlokba - külön rétegként- valahogyan a kép mögé varázsoljuk az OCR által felismert szöveget. A google ocr egészen jól működött, de a szöveget külön oldalakra tette, nem a fotózott kép mögé. Végül sikerült megtalálnunk egy online átalakítót (https://finereaderonline.com) ami igaz nem ingyenesen, de elviselhető költség mellett alkalmas lehet a teljes anyag feldolgozására. Az első akadályon túl voltunk.
A második feladat egy olyan osztott képernyős felület tervezése és kódolása volt, ahol a szövegben lévő hibás szó fölé helyezve a kurzort a program megjelölte azt a képrészt, ahonnan az szöveg lett kinyerve, ezáltal meggyorsítva és hatékonnyá téve az utólagos emberi feldolgozást. Ehhez rétegekre kellett bontani a pdf fájlokat és pozícióhelyesen megjeleníteni a kép mellé a szöveget.
A nap végére demo szinten mindez sikerült is: Felvázoltuk annak a műszaki lehetőségét, hogy egy webes felületen keresztül önkéntesek hogyan javíthatják párhuzamosan a több ezer oldalnyi iratból kinyert szövegeket.
A hackathon eredményhirdetésén az öttagú független zsűri a MÉG ÁTLÁTSZÓBB ÖNKORMÁNYZAT projektünk egynapos újragondolását egy megosztott első hellyel díjazta. Bizonyára sokat nyomott a latba az is, hogy - tényleges megvalósítás esetén - az eszköz társadalmilag nagyon hasznos lehet, hiszen az élet számos területén több millió oldalnyi papír alapú irat vár hatékony digitalizálásra és feldolgozásra
Köszönet Dr. Nagy Vilmosnak, aki az 'ötletcsapatot' segítette és Csősz Ignácnak, aki programozással töltötte ezt a napot.