Έρευνα μουσικής πληροφορίας

Η Έρευνα Μουσικής Πληροφορίας (ΕΜΠ), ή στην Αγγλική «Music Information Research» (MIR), είναι το ερευνητικό πεδίο που στοχεύει στην ανάπτυξη μεθόδων και τεχνικών για την ανάκτηση και εξόρυξη γνώσης από τη μουσική πληροφορία. Καθώς αυτοί οι δύο στόχοι είναι ευρύτατοι, η ΕΜΠ είναι ένα πεδίο ιδιαίτερα δια-επιστημονικό και αντλεί συνεισφορές από μια πληθώρα άλλων πεδίων όπως η μουσικολογία, η ψυχολογία, η επεξεργασία σήματος, η ανάκτηση πληροφορίας, η μηχανική μάθηση, η διάδραση ανθρώπου-μηχανής κ.λ.π.

Το σύνολο δεδομένων ‘Greek Audio Dataset

Το σύνολο δεδομένων Ελληνικής ακουστικής μουσικής (Greek Audio Dataset – GAD), είναι μια δωρεάν διαθέσιμη συλλογή χαρακτηριστικών (features) και μεταδεδομένων από χίλια δημοφιλή Ελληνικά τραγούδια. Ακολουθώντας τη μεθοδολογία ήδη διαθέσιμων συλλογών δεδομένων, το GAD δε διαθέτει το ηχητικό περιεχόμενο των αντίστοιχων τραγουδιών λόγω θεμάτων πνευματικής ιδιοκτησίας, ωστόσο διαθέτει σημαντικά για την ανάκτηση μουσικής πληροφορίας χαρακτηριστικά που εξάχθηκαν απευθείας από τα τραγούδια, τους στοίχους τους αλλά και χειρωνακτικά επιλεγμένα γένη και διάθεση (mood) των τραγουδιών. Επιπλέον, για κάθε τραγούδι διαθέτει (χειρωνακτικά επιλεγμένο) σύνδεσμο στο YouTube ώστε να είναι εφικτή η εξαγωγή περαιτέρω πληροφορίας από ερευνητές. Η επιλογή της κωδικοποίησης των χαρακτηριστικών βασίστηκε στη συλλογή Million Song Dataset ώστε να διευκολυνθούν οι ερευνητές όσο αφορά τη χρήση των προγραμματιστικών διεπαφών για τη χρήση του GAD.

Τα δεδομένα είναι διαθέσιμα στην https://hilab.di.ionio.gr/wp-content/uploads/2020/01/GAD_dataset.zip

Με τη χρήση των δεδομένων, παρακαλείστε να κάνετε αναφορά στη σχετική εργασία: Makris D., Kermanidis K. L., Karydis I. The Greek Audio Dataset. Conference on Artificial Intelligence Applications and Innovations (AIAI 2014): International Workshop on Mining Humanistic Data, MHDW 2014. Island of Rhodes, Greece, September 19-21, 2014. (presentation – bib)

Το σύνολο δεδομένων ‘Greek Music Dataset’

Το σύνολο δεδομένων Ελληνικής μουσικής (Greek Music Dataset – GMD), είναι η επέκταση του «Greek Audio Dataset» που πλέον έχει 1400 δημοφιλή Ελληνικά τραγούδια, ενώ για καθένα τραγουδι έχει

  • προ-υπολογισμένα χαρακτηριστικά από το ηχητικό μέρος, το συμβολικό μέρος έτοιμα για χρήση στην ΕΜΠ,
  • χειρωνακτικά επιλεγμένες ετικέτες σχετικά με το γένος (genre) και διάθεση (mood) των τραγουδιών,
  • πλήρη μεταδεδομένα,
  • χειρωνακτικά επιλεγμένο αντίστοιχο συμβολικό αρχείο τύπου MIDI (μόνο για 500 από τα 1400 αρχεία του GMD),
  • χειρωνακτικά επιλεγμένο σύνδεσμο στο YouTube ώστε να είναι εφικτή η εξαγωγή περαιτέρω πληροφορίας από ερευνητές.

Τα δεδομένα είναι διαθέσιμα στην: https://hilab.di.ionio.gr/wp-content/uploads/2024/05/GMD_dataset.zip

Με τη χρήση των δεδομένων, παρακαλείστε να κάνετε αναφορά στη σχετική εργασία: Makris, D., Karydis, I., Sioutas, S.: «The Greek Music Dataset», Proceedings Mining Humanistic Data Workshop, 2015. (presentation – bib)

Σύνθεση ρυθμού υπό όρους (conditions) με χρήση Νευρωνικώ Δικτύων Βαθιάς Μάθησης (Deep Learning)

Λαμβάνοντας υπόψη τη μουσική ως μια ακολουθία γεγονότων με πολλαπλές πολύπλοκες εξαρτήσεις σε διάφορα επίπεδα μιας σύνθεσης, οι αρχιτεκτονικές βασισμενες σε Long Short-Term Memory (LSTM) νευρωνικά δίκτυα, έχουν αποδειχθεί πολύ αποτελεσματικές στην εκμάθηση και την αναπαραγωγή μουσικών στυλ. Ωστόσο, η “απεριόριστη δύναμη” αυτών των αρχιτεκτονικών δεν τα καθιστά χρήσιμα για εφαρμογές που ενσωματώνουν τον ανθρώπινο παράγοντα ή γενικά περιορισμούς. Ένα τέτοιο παράδειγμα είναι η δημιουργία ρυθμών τυμπάνων κάτω από μια δεδομένη δομή μετρικής (ενδεχομένως συνδυάζοντας διαφορετικα μετρήματα – Time Signatures) πληροφορίας, συνοδεύοντας δεδομένα όργανα (π.χ. ηλεκτρικό μπάσο και κιθάρα).

Παρουσιάζουμε μια λύση που αξιοποιεί τα LSTM δίκτυα με την χρήση Feed-Forward (FF) νευρωνικών δικτύων τα οποία στην συγκεκριμένη περίπτωση τα ονομάζουμε “Conditional Layers”. Τα μπλοκ δικτύων LSTM και FF συγχωνεύονται σε ένα ενιαίο επίπεδο που λαμβάνει την τελική απόφαση για το επόμενο συμβάν τυμπάνων, λαμβάνοντας υπόψη τα προηγούμενα γεγονότα (επίπεδο LSTM) και τους τρέχοντες περιορισμούς (επίπεδο FF). Η προκύπτουσα αρχιτεκτονική ονομάζεται Conditional Neural Sequence Learner (CNSL).

Περισσότερες πληροφορίες Conditional Neural Sequence Learners for Generating Drums’ Rhythms και DeepDrum: An Adaptive Conditional Neural Network for generating drum rhythms.

Makris, Dimos, et al. “Combining LSTM and feed forward neural networks for conditional rhythm composition.” International Conference on Engineering Applications of Neural Networks. Springer, Cham, 2017.