Γλωσσική τεχνολογία & επεξεργασία φυσικής γλώσσας

Ένα από τα βασικά ερευνητικά ενδιαφέροντα του HILab είναι η δημιουργία εργαλείων επεξεργασίας φυσικής γλώσσας. Ειδικότερα, η εφαρμογή τεχνικών μηχανικής μάθησης για την εξαγωγή γλωσσολογικής πληροφορίας από νεοελληνικά κείμενα. Οι πιο σημαντικές δραστηριότητες του εργαστηρίου στον χώρο αυτό παρατίθενται παρακάτω. Τα αρχεία των δεδομένων μάθησης, εφόσον είναι ολοκληρωμένα, είναι ελεύθερα διαθέσιμα για ερευνητική χρήση με αποστολή email.

Προσάρτηση Προθετικών Φράσεων στα Νέα Ελληνικά

Η προσάρτηση προθετικών φράσεων είναι ένα πρόβλημα συντακτικής αμφισημίας που απασχολεί την ερευνητική κοινότητα. Το HILab έχει προτείνει μια προσέγγιση στην άρση της αμφισημίας αυτής με χρήση τεχνικών μηχανικής μάθησης. Η προσέγγιση έχει δημοσιευτεί στο Πανελλήνιο Συνέδριο Πληροφορικής (PCI 2010). Τα δεδομένα μάθησης είναι ελεύθερα διαθέσιμα για ερευνητικούς σκοπούς με αποστολή email. Η χρήση τους καλείται να συνοδεύεται από αναφορά στην δημοσίευση.

Pavlos Nalmpantis, Romanos Kalamatianos, Konstantinos Kordas and Katia Kermanidis. 2010. Low Resources Prepositional Phrase Attachment. Proceedings of the Panhellenic Conference on Informatics (PCI). Tripolis, Greece, September 2010.

Ρηχή Συντακτική Ανάλυση στα Νέα Ελληνικά

Το HILab έχει ερευνήσει την αυτόματη αναγνώριση σχέσεων υποκειμένου-ρήματος-αντικειμένου σε νεοελληνικά κείμενα. Τα δεδομένα μάθησης των συντακτικών αυτών συσχετίσεων είναι διαθέσιμα για ερευνητικούς σκοπούς με αποστολή email. Ο ρηχός συντακτικός αναλυτής έχει δημοσιευτεί στο συνέδριο Artificial Intelligence Applications and Innovations Conference (AIAI 2011). Η χρήση των δεδομένων καλείται να συνοδεύεται από αναφορά στην δημοσίευση.

A. Karozou and K. Kermanidis. 2011. Learning Shallow Syntactic Dependencies from Imbalanced Datasets: A Case Study in Modern Greek and English. In Proceedings of the Joint International Conferences on Engineering Applications of Neural Networks (EANN) and Artificial Intelligence Applications and Innovations (AIAI). Corfu, Greece, September 15-18 2011.

Αναγνώριση της Μορφολογικής Πτώσης στα Νέα Ελληνικά

Η αναγνώριση της πτώσης σε κλιτές λέξεις των Νέων Ελληνικών είναι ερευνητική πρόκληση, μια και πολλές λέξεις εμφανίζονται με την ίδια ορθογραφική μορφή σε περισσότερες από μία πτώσεις. Από την άλλη, η αναγνώριση των πτώσεων είναι σημαντική μια και οι πτώσεις καθορίζουν σε μεγάλο βαθμό τους συντακτικούς και σημασιολογικούς ρόλους των στοιχείων μιας πρότασης. Το HILab προτείνει τεχνικές μηχανικής μάθησης στην αυτόματη αναγνώριση των πτώσεων. Tο σώμα δεδομένων είναι διαθέσιμο για ερευνητικούς σκοπούς. Η προσέγγιση δημοσιεύτηκε στο Πανελλήνιο Συνέδριο Τεχνητής Νοημοσύνης. Η χρήση των δεδομένων καλείται να συνοδεύεται από αναφορά στην δημοσίευση.

Antonis Koursoumis, Evangelia Gkatzou, Antigoni M. Founta, Vassiliki I. Mavriki, Karolos Talvis, Spyros Mprilis, Ahmad A. Aliwat, Katia Lida Kermanidis. Learning to Case-Tag Modern Greek Text. SETN 2012. Lamia, Greece, pp. 353-360

Αναγνώριση των Στοιχείων της Προσωπικότητας Από Γλωσσολογικά Δεδομένα

Πρότερη έρευνα έχει υποδείξει την σχέση μεταξύ των γλωσσολογικών χαρακτηριστικών του έργου ενός συγγραφέα και της προσωπικότητάς του. Το HILab προτείνει την εφαρμογή τεχνικών μηχανικής μάθησης για την αναγνώριση της τιμής καθενός από τους πέντε πυλώνες προσωπικότητας (Big Five personality traits) ενός συγγραφέα, μέσω γλωσσολογικής επεξεργασία των κειμένων του. Tο σώμα δεδομένων είναι διαθέσιμο για ερευνητικούς σκοπούς. Η προσέγγιση δημοσιεύτηκε στο 1ο Workshop on Mining Humanistic Data, που διοργανώθηκε από το HILab. Η χρήση των δεδομένων καλείται να συνοδεύεται από αναφορά στην δημοσίευση.

Vasileios Komianos, Eleni Moustaka, Maria Andreou, Eirini Banou, Sofia Fanarioti, Katia L. Kermanidis. Predicting Personality Traits from Spontaneous Modern Greek Text: Overcoming the Barriers. Artificial Intelligence Applications and Innovations – AIAI 2012 International Workshop: MHDW, Halkidiki, Greece, September 27-30, 2012, Proceedings, Part II 2012

Αυτόματη Διόρθωση Ορθογραφικών Λαθών σε ομόφωνες λέξεις των Νέων Ελληνικών

Τεχνικές μηχανικής μάθησης εφαρμόζονται για την αυτόματη διόρθωση ορθογραφικών λαθών σε ελληνικά επίθετα και ρήματα που ακούγονται ίδια, αλλά γράφονται διαφορετικά, με χρήση ελάχιστης γλωσσολογικής πληροφορίας. Το σετ δεδομένων είναι διαθέσιμο για ερευνητικούς σκοπούς σε μορφή csv και arff. Τα αρχεία με όνομα adataset είναι για τα επίθετα και vdataset για τα ρήματα. Τα *_f.arff είναι τα dataset μετά το Synthetic Minority Oversampling (SMOTE) ενώ τα άλλα είναι τα αυθεντικά.

Spyridon Sagiadinos, Petros Gasteratos, Vasileios Dragonas, Athanasia Kalamara, Antonia Spyridonidou, Katia Kermanidis. Knowledge-Poor Context-Sensitive Spelling Correction for Modern Greek. Artificial Intelligence: Methods and Applications. Lecture Notes in Computer Science, Volume 8445, 2014, pp 360-369. Springer.