Γλωσσική τεχνολογία & επεξεργασία φυσικής γλώσσας
Ένα από τα βασικά ερευνητικά ενδιαφέροντα του HILab είναι η δημιουργία εργαλείων επεξεργασίας φυσικής γλώσσας. Ειδικότερα, η εφαρμογή τεχνικών μηχανικής μάθησης για την εξαγωγή γλωσσολογικής πληροφορίας από νεοελληνικά κείμενα. Οι πιο σημαντικές δραστηριότητες του εργαστηρίου στον χώρο αυτό παρατίθενται παρακάτω. Τα αρχεία των δεδομένων μάθησης, εφόσον είναι ολοκληρωμένα, είναι ελεύθερα διαθέσιμα για ερευνητική χρήση με αποστολή email.
Προσάρτηση Προθετικών Φράσεων στα Νέα Ελληνικά
Η προσάρτηση προθετικών φράσεων είναι ένα πρόβλημα συντακτικής αμφισημίας που απασχολεί την ερευνητική κοινότητα. Το HILab έχει προτείνει μια προσέγγιση στην άρση της αμφισημίας αυτής με χρήση τεχνικών μηχανικής μάθησης. Η προσέγγιση έχει δημοσιευτεί στο Πανελλήνιο Συνέδριο Πληροφορικής (PCI 2010). Τα δεδομένα μάθησης είναι ελεύθερα διαθέσιμα για ερευνητικούς σκοπούς με αποστολή email. Η χρήση τους καλείται να συνοδεύεται από αναφορά στην δημοσίευση.
Ρηχή Συντακτική Ανάλυση στα Νέα Ελληνικά
Το HILab έχει ερευνήσει την αυτόματη αναγνώριση σχέσεων υποκειμένου-ρήματος-αντικειμένου σε νεοελληνικά κείμενα. Τα δεδομένα μάθησης των συντακτικών αυτών συσχετίσεων είναι διαθέσιμα για ερευνητικούς σκοπούς με αποστολή email. Ο ρηχός συντακτικός αναλυτής έχει δημοσιευτεί στο συνέδριο Artificial Intelligence Applications and Innovations Conference (AIAI 2011). Η χρήση των δεδομένων καλείται να συνοδεύεται από αναφορά στην δημοσίευση.
Αναγνώριση της Μορφολογικής Πτώσης στα Νέα Ελληνικά
Η αναγνώριση της πτώσης σε κλιτές λέξεις των Νέων Ελληνικών είναι ερευνητική πρόκληση, μια και πολλές λέξεις εμφανίζονται με την ίδια ορθογραφική μορφή σε περισσότερες από μία πτώσεις. Από την άλλη, η αναγνώριση των πτώσεων είναι σημαντική μια και οι πτώσεις καθορίζουν σε μεγάλο βαθμό τους συντακτικούς και σημασιολογικούς ρόλους των στοιχείων μιας πρότασης. Το HILab προτείνει τεχνικές μηχανικής μάθησης στην αυτόματη αναγνώριση των πτώσεων. Tο σώμα δεδομένων είναι διαθέσιμο για ερευνητικούς σκοπούς. Η προσέγγιση δημοσιεύτηκε στο Πανελλήνιο Συνέδριο Τεχνητής Νοημοσύνης. Η χρήση των δεδομένων καλείται να συνοδεύεται από αναφορά στην δημοσίευση.
Αναγνώριση των Στοιχείων της Προσωπικότητας Από Γλωσσολογικά Δεδομένα
Πρότερη έρευνα έχει υποδείξει την σχέση μεταξύ των γλωσσολογικών χαρακτηριστικών του έργου ενός συγγραφέα και της προσωπικότητάς του. Το HILab προτείνει την εφαρμογή τεχνικών μηχανικής μάθησης για την αναγνώριση της τιμής καθενός από τους πέντε πυλώνες προσωπικότητας (Big Five personality traits) ενός συγγραφέα, μέσω γλωσσολογικής επεξεργασία των κειμένων του. Tο σώμα δεδομένων είναι διαθέσιμο για ερευνητικούς σκοπούς. Η προσέγγιση δημοσιεύτηκε στο 1ο Workshop on Mining Humanistic Data, που διοργανώθηκε από το HILab. Η χρήση των δεδομένων καλείται να συνοδεύεται από αναφορά στην δημοσίευση.
Αυτόματη Διόρθωση Ορθογραφικών Λαθών σε ομόφωνες λέξεις των Νέων Ελληνικών
Τεχνικές μηχανικής μάθησης εφαρμόζονται για την αυτόματη διόρθωση ορθογραφικών λαθών σε ελληνικά επίθετα και ρήματα που ακούγονται ίδια, αλλά γράφονται διαφορετικά, με χρήση ελάχιστης γλωσσολογικής πληροφορίας. Το σετ δεδομένων είναι διαθέσιμο για ερευνητικούς σκοπούς σε μορφή csv και arff. Τα αρχεία με όνομα adataset είναι για τα επίθετα και vdataset για τα ρήματα. Τα *_f.arff είναι τα dataset μετά το Synthetic Minority Oversampling (SMOTE) ενώ τα άλλα είναι τα αυθεντικά.