Code Monkey home page Code Monkey logo

audio-diary's Introduction

Audio-Diary

Εγκατάσταση

Για να λειτουργήσει ως ορίστηκε η εφαρμογή χρειάζεται να κατεβάσετε και την έτοιμη εξωτερική βιβλιοθήκη μετατροπής ομιλίας σε κείμενο wav2vec2-0 και να την αποσυμπιέσετε στον φάκελο με τα παραπάνω αρχεία.

Είτε μπορείτε να τα κατεβάσετε όλα μάζι από τον Google Drive φάκελο.

Οδηγίες χρήσης - Λειτουργίες

  • Control - Delete

    Ο χρήστης επιλέγει και διαγράφει ένα από τα αρχεία καταγραφής, είτε ήχου είτε κειμένου.

  • Control - Play Voice

    Ο χρήστης επιλέγει και αναπαράγει ένα αρχείο ήχου.

  • Control - Read Text

    Ο χρήστης επιλέγει και ανοίγει ένα αρχείο κειμένου.

  • Record - Start

    Ο χρήστης αρχίζει και καταγράφει τον εαυτό του, η ομιλία έπειτα αποθηκεύεται σε αρχείο ήχου μετά το πάτημα του πλήκτρου Stop. Ενδιάμεσα δημιουργείται φάκελος για την αποθήκευση των εγγραφών με όνομα σύμφωνα τον μήνα που έγινε η καταγραφή. Για διευκόλυνση τα αρχεία ονομάζονται ως εξής YYYY.MM.DD--HH-MM-SS .

  • Record - Stop

    Εφόσον ο χρήστης δεν επιθυμεί να συνεχίσει περαιτέρω την καταγραφή, πατά το συγκεκριμένο πλήκτρο και αποθηκεύει την ομιλία του σε αρχείο ήχου. Έπειτα μέσω έτοιμης βιβλιοθήκης μετατροπής από ομιλία σε ήχο, speech-to-text conversion, χρησιμοποιείται ο αλγόριθμος μετατροπής και το αποτέλεσμα καταγράφεται σε αρχείο κειμένου καθώς παράλληλα εμφανίζεται σε μέρος της εφαρμογής.

  • Plot

    Ο χρήστης μπορεί να δει τη συχνότητα της φωνής του που κατέγραψε προηγουμένως.

  • Update File - Start

    Σε περίπτωση που ο χρήστης επιθυμεί να προσθέσει επιπλέον ομιλία σε καταγραφή που έχει ήδη αποθηκεύσει. Αφού αρχικά επιλέξει το αρχείο ήχου που θέλει να καταγράψει περαιτέρω.

  • Update File - Stop

    Εφόσον ο χρήστης δεν επιθυμεί να συνεχίσει περαιτέρω την καταγραφή, πατά το συγκεκριμένο πλήκτρο και αποθηκεύει την ομιλία του σε αρχείο ήχου. Τρέχει ο αλγόριθμος μετατροπής από ομιλία σε ήχο, αφού έχει τροποποιηθεί το αρχείο ήχου.

  • Emotion Recognition

    Η κύρια λειτουργία της εφαρμογής που αναγνωρίζει, με ανάλογο ποσοστό ακρίβειας, συναισθήματα. Υπάρχουν τέσσερα αισθήματα που κατανοεί η εφαρμογή, Happiness, Anger, Elation, Sadness. Ξεκινάει το στάδιο εξαγωγής χαρακτηριστικών μέσω του αλγορίθμου MFCC, Mel Frequency Cepstral Coefficient, από τη βάση με ηχητικά αρχεία που έχουν κατηγοριοποιηθεί σύμφωνα με τα παραπάνω συναισθήματα, train data. Για την εκπαίδευση χρησιμοποιείται ο αλγόριθμος μάθησης KNN, επιλέχθηκε με το κριτήριο της ταχύτητας ακόμη και εάν χάνεται μέρος ακρίβειας σε αντίθεση με Multi SVM που έχει καλύτερη απόδοση αλλά καθυστερεί πάρα πολύ. Στον κώδικα υπάρχουν και οι δύο αλγόριθμοι εκπαίδευσης, όμως ο Multi SVM είναι σημειωμένος με σχόλια και σε περίπτωση που ο χρήστης επιθυμεί να τον δοκιμάσει απλώς βγάζει αυτόν τον αλγόριθμο από τα σχόλια και προσθέτει στον άλλον σχόλια. Έπειτα επιλέγει ένα αρχείο ήχο και του δίνεται η πρόβλεψη σχετικά με το συναίσθημα. Ως τελικό σημείο εμφανίζεται το διάγραμμα MFCC ανάλογα με το αρχείο που επέλεξε προηγουμένως.

audio-diary's People

Contributors

antonypapako avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.