Ψηφιακή πρόσβαση σε ανεκτίμητα ιστορικά κείμενα υπόσχονται οι καινοτόμες τεχνολογίες του ΕΚΕΦΕ «Δημόκριτος»

Το Eτήσιο Bραβείο από το Ινστιτούτο Πληροφορικής και Τηλεματικής (ΙΠΤΗΛ) του Εθνικού Κέντρου Έρευνας και Τεχνολογικής Ανάπτυξης για την καλύτερη διδακτορική διατριβή του 2011 δόθηκε στις 25 Απριλίου στον 28χρονο Νικόλαο Σταματόπουλο, ερευνητή του Εργαστηρίου Υπολογιστικής Ευφυΐας του Ινστιτούτου Πληροφορικής και Τηλεπικοινωνιών του ΕΚΕΦΕ «Δημόκριτος». Το θέμα της βραβευμένης εργασίας είναι η «Οπτική Επεξεργασία και Ανάλυση Ιστορικών Εγγράφων», μια έρευνα που ανοίγει νέους δρόμους για την ψηφιοποίηση ανεκτίμητων ιστορικών συγγραμμάτων, χειρόγραφων και μη, που αποτελούν έναν από τους βασικούς πυλώνες της πολιτιστικής μας κληρονομιάς.
Τα νέα ευρήματα εκτιμάται ότι θα λύσουν τα χέρια βιβλιοθηκονόμων και ιστορικών που για χρόνια έψαχναν ανάμεσα σε εκατοντάδες χιλιάδες τόμους, για να βρουν την πληροφορία που τους αφορούσε. Αν τέτοιες τεχνολογίες εφαρμοστούν ευρέως, με ένα και μόνο κλικ σε μια εύχρηστη μηχανή αναζήτησης, ο καθένας μας θα μπορεί να περιηγηθεί στα άδυτα των ιστορικών αρχείων της Ελλάδας και του εξωτερικού ακόμα και από το σπίτι του. Θα πούμε αντίο στις λίστες αναμονής των βιβλιοθηκών, αφού χιλιάδες χρήστες θα μπορούν να έχουν πρόσβαση στην πολύτιμη πληροφορία ταυτόχρονα, ενώ την ίδια στιγμή θα διατηρούνται σε καλή κατάσταση τα εύθραυστα και ιστορικής αξίας κειμήλια.
Πως όμως γίνεται αυτό στην πράξη;
Ενώ διαβάζετε αυτές τις λέξεις στην οθόνη του υπολογιστή σας, τα μάτια και το μυαλό σας αναγνωρίζουν τους χαρακτήρες χωρίς καν να το αντιλαμβάνεστε. Τα μάτια σας αιχμαλωτίζουν την εναλλαγή φωτός-σκότους από τα οποία αποτελούνται τα γράμματα, τα νούμερα και τα σημεία στίξης, ενώ το μυαλό σας χρησιμοποιεί αυτή την πληροφορία για να καταλάβει τι προσπαθώ να σας εξηγήσω, άλλες φορές διαβάζοντας επιμέρους χαρακτήρες, αλλά συνήθως σαρώνοντας ολόκληρη την λέξη ή ομάδες λέξεων μονομιάς.
Οι υπολογιστές μπορούν να κάνουν το ίδιο, αλλά γι’ αυτούς η παραπάνω αβίαστη διαδικασία είναι μια πολύ δύσκολη δουλειά. Το πρώτο πρόβλημα έγκειται στο ότι ο υπολογιστής δεν έχει μάτια, οπότε για να «δει» τη σελίδα ενός βιβλίου πρέπει αυτή να σαρωθεί ή να φωτογραφηθεί. Έτσι, είτε αυτή η εικόνα εμπεριέχει κείμενο είτε είναι η φωτογραφία της Ακρόπολης, με μια πρώτη ματιά ο υπολογιστής την εκλαμβάνει ως ένα ανούσιο συνοθύλευμα από pixel, τις μικροσκοπικές εκείνες τελείες και τετράγωνα που συνθέτουν κάθε φωτογραφία σε ηλεκτρονική μορφή. Αδυνατεί λοιπόν να «διαβάσει» τις λέξεις του κειμένου όπως μπορούν τα μάτια μας. Η Οπτική Αναγνώριση Χαρακτήρων ή OCR είναι μια διαδικασία μετατροπής της φωτογραφίας ενός εγγράφου -τυπωμένου ή ακόμα και χειρόγραφου- σε αρχείο κείμενου (αρχείο TXT ή DOC).
Αυτό βέβαια δεν είναι κάτι καινούργιο. Αν διαθέτεις ένα εκθαμβωτικά καθαρό χαρτί Α4, μη βιβλιοδετημένο, με ευδιάκριτους μοντέρνους χαρακτήρες, χωρίς περίτεχνα περιθώρια ή σχέδια, τότε μπορείς να χρησιμοποιήσεις ένα λογισμικό OCR του εμπορίου και με κάποιες μικρές δυσκολίες, διορθώσεις και καθυστερήσεις να καταφέρεις να ψηφιοποιήσεις το κείμενο με επιτυχία.
Τι γίνεται όμως στην περίπτωση «δύσκολων αποστολών», όπως στην επεξεργασία ιστορικών κειμένων ή παλιών χειρογράφων με πυκνή γραφή, αποτυπωμένων σε λεπτό και φθαρμένο χαρτί όπου εναλλάσονται αλφάβητα και γραμματοσειρές; Λόγω αυτών των δυσκολιών ένας μεγάλος αριθμός ιστορικών συγγραμμάτων και χειρογράφων δεν έχει μελετηθεί ακόμα και η πληροφορία που κρύβουν αυτά τα βαριά σκονισμένα βιβλία παραμένει ανεκμετάλλευτη.
Σε αυτή την πρόκληση ήρθε να δώσει λύσεις η βραβευμένη έρευνα του Καποδιστριακού Πανεπιστημίου Αθηνών και του Ινστιτούτου Πληροφορικής και Τηλεπικοινωνιών του ΕΚΕΦΕ «Δημόκριτος» που διεξήγαγε ο Δρ Σταματόπουλος. Με επιβλέποντα τον κύριο ερευνητή του «Δημόκριτου» Δρ. Βασίλειο Γάτο, ο Δρ Σταματόπουλος μελέτησε ένα-ένα τα καθοριστικά στάδια που προηγούνται της διαδικασίας ψηφιοποίησης του ιστορικού κειμένου. Συγκεκριμένα, το μοντέλο που ανέπτυξε εξάλειψε τα «τυπογραφικά» λάθη που εμφανίζονται με τα συνηθισμένα OCR προγράμματα και οφείλονται στην καμπυλότητα των σελίδων σκληρόδετων πολυσέλιδων συγγραμμάτων όσο και στα περίτεχνα περιθώρια και διαχωριστικά των σελίδων. Βελτίωσε τους μηχανισμούς αναγνώρισης διακριτών σειρών και χαρακτήρων, ειδικότερα στις περιπτώσεις χειρόγραφων κειμένων. Τέλος παρουσίασε μια μέθοδο που διευκολύνει την άμεση ψηφιοποίηση εγγράφων που αποτελούνται από κείμενο και εικόνα.
Ο Δρ Σταματόπουλος σπούδασε Πληροφορική στο Τμήμα Πληροφορικής και Τηλεπικοινωνιών του Εθνικού Καποδιστριακού Πανεπιστημίου Αθηνών, από όπου και έλαβε τον διδακτορικό του τίτλο το 2011. Με τα ευρήματα της διδακτορικής του διατριβής ανοίγει πόρτα στη διάδοση και αξιοποίηση της ιστορικής γνώσης και την πνευματική καλλιέργεια των Ελλήνων κάνοντας εύκολη και γρήγορη τη μελέτη ιστορικών κειμένων και σπάνιων χειρογράφων.
Ο Δρ Σταματόπουλος θα παραλάβει το Ετήσιο Βραβείο Καλύτερης Διδακτορικής Διατριβής από το Ινστιτούτο Πληροφορικής και Τηλεματικής, αξίας 600 ευρώ, σε εκδήλωση που θα πραγματοποιηθεί το Φθινόπωρο του 2012.