Φωνητική αναγνώριση

420,361.065,16 Με ΦΠΑ

Η τεχνολογία φωνητικής αναγνώρισης VeriSpeak διατίθεται ως πακέτο ανάπτυξης λογισμικού που επιτρέπει την ανάπτυξη εφαρμογών α) stand alone και β) web based σε πλατφόρμες Microsoft Windows, Linux, Mac OS X και Android.

Κωδικός προϊόντος: Μ/Δ Κατηγορία:
Εκκαθάριση

Περιγραφή

Η τεχνολογία φωνητικής αναγνώρισης Verispeak προσφέρει κειμενο-εξαρτώμενη / κειμενο-ανεξάρτητη αναγνώριση ομιλητή και είναι ικανό να αναγνωρίσει και να επαληθεύσει το φωνητικό αποτύπωμα θωρακίζοντας με αυτόν τον τρόπο την ασφάλεια του συστήματος. Τα πρότυπα φωνητικής ταυτοποίησης συνδυάζουν την 1 προς 1 και την 1 προς πολλούς επιβεβαίωση. Η Verispeak εξάγει ένα πρότυπο σε 0.6″ και μπορεί να αντιστοιχίσει 8000 φωνητικές ταυτότητες το δευτερόλεπτο σε Η/Υ. Ένα πρότυπο φωνητικής ταυτότητας απαιτεί περίπου 4 kilobytes, όταν χρησιμοποιούνται δείγματα των 5 δευτερολέπτων.

Δοκιμές αξιοπιστίας και απόδοσης

Τα πρότυπα του αλγόριθμου εξαγωγής και αντιστοίχισης του Verispeak έχει δοκιμαστεί σε φωνητικά δείγματα XM2VTS βάσεις δεδομένων και σε εσωτερικές βάσεις δεδομένων της Neurotechnology.

Εφαρμογές

  • Τράπεζες
  • Δημόσιο
  • Επιχειρήσεις
  • Πολυκαταστήματα
  • Ξενοδοχεία

Πλεονεκτήματα Verispeak SDK  

  • Ο αλγόριθμος βασίζεται σε κείμενο, προς αποτροπή μη εξουσιοδοτημένης πρόσβασης με ηχογραφημένη -εν αγνοία του χρήστη- φωνή.
  • Δύο επίπεδα ελέγχου ταυτότητας: α) Βιομετρικά χαρακτηριστικά φωνής και β) Έλεγχος φράσης γνησιότητας.
  • Έυκολη ηχογράφηση της φωνής: Κοινά μικρόφωνα και smartphones δίνουν αποδεκτό δείγμα φωνής.
  • Διαθέσιμο σαν ενα multiplatform SDK, που υποστηρίζει πολλές γλώσσες προγραμματισμού.

 

Χαρακτηριστικά και δυνατότητες της Verispeak 

Η Versispeak προσφέρει κειμενο-εξαρτώμενη / κειμενο-ανεξάρτητη αναγνώριση ομιλητή και είναι ικανή να αναγνωρίσει και να επαληθεύσει φωνητικό αποτύπωμα. Για την βελτίωση της ποιότητας της αναγνώρισης μπορούν να χρησιμοποιηθούν πολλαπλά δείγματα της ίδιας φράσης και αντιστοίχιση. Το σύστημα μπορεί να ζητήσει απο τους χρήστες να προφέρουν μερικές ειδικές φράσεις, κατά την διάρκεια της επαλήθευσης ή της αναγνώρισης του ομιλητή και να αντιστοιχίσει κάθε ακουστικό δείγμα στη βάση δεδομένων. Ο αλγόριθμος Verispeak μπορεί να συγχωνεύσει τα αποτελέσματα που ταιριάζουν απο κάθε μία φράση για να καλυτερεύσει την αξιοπιστία της αντιστοίχισης.

Συστάσεις και περιορισμοι για την αναγνώριση του ομιλητή Η Verispeak έχει συγκεκριμένες απαιτήσεις για τις ρυθμίσεις και τη θέση του μικροφώνου αλλά και συγκεκριμένες απαιτήσεις συμπεριφοράς του χρήστη και του περιβάλλοντος. Η φράση-κωδικός πρέπει να μείνει μυστική και να μην επαναλαμβάνεται σε χώρο που μπορεί να την ακούσουν και άλλοι.

Ελάχιστες Απαιτήσεις Verispeak 11.0 SDK  Οι ελάχιστες απαιτήσεις του λογισμικού είναι οι ακόλουθες :

Χαρακτηριστικό Ελάχιστες απαιτήσεις
Συμβατότητα Λειτουργικό σύστημα Windows (για x86 και x86-64), Linux (για x86 και x86-64), Mac OSX(για x86 και x86-64) και Android (για ARM-based επεξεργαστές).
Μικρόφωνο Για την ηχογράφηση της φωνής είναι κατάλληλο ένα συνηθισμένο μικρόφωνο ή ένα smartphone.

Απαιτήσεις Συστήματος

Η Versispeak μπορεί να τρέξει σε Η/Υ ή σε κινητές / ενσωματωμένες συσκευές. Υποστηρίζονται οι παρακάτω πλατφόρμες Windows (για x86 και x86-64), Linux (για x86 και x86-64), Mac OS X (για x86 και x86-64), Android για Αrm-based επεξεργαστές.Για την ηχογράφηση της φωνής είναι κατάλληλα τα κοινά μικρόφωνα και smartphones.

Για Η/Υ και Mac:

  • Η/Υ ή Mac με συμβατούς επεξεργαστές  x86(32-bit) ή  x86-64 (64 bit). Συνιστάται επεξεργαστής 2GHz ή καλύτερος.
  • Θα πρέπει ναείναι διαθέσιμα για την φαρμογή 128 MB ελεύθερης RAM. Απαιτείται επιπλέον RAM για εφαρμογές που εκτελούν 1 προς πολλούς ταυτοποίηση, καθώς όλα τα βιομετρικά πρότυπα πρέπει να αποθηκεύονται στη RAM για την αντιστοίχιση. Για παράδειγμα, 1000 πρότυπα (το καθένα με 1 φωνητική ηχογράφιση) απαιτεί περίπου 5MB πρίσθετης RAM.
  • Ελεύθερος χώρος στον σκληρό δίσκο(HDD):
    • Απαιτείται, τουλάχιστον 1GB για την ανάπτυξη.
    • Απαιτούνται, 100MB για την ανάπτυξη συνιστωσών τουVerispeak.
    • Επιπλέον χώρος απαιτείται στις παρακάτω περιπτώσεις:
      • Η Verispeak δεν απαιτεί το αρχικό δείγμα φωνής να αποθηκευτεί για την αντιστοίχιση αλλά θα πρέπει να αποθηκευτούν τα πρότυπα. Ωστόσο, συνιστάται η αποθήκευση των δειγμάτων φωνής στον σκληρό δίσκο για πιθανή χρήση στο μέλλον.
      • Συνήθως μια μηχανή βάσης δεδομένων εκτελείται σε έναν ξεχωριστό υπολογιστή (back-end server). Ωστόσο, μπορεί να εγκατασταθεί DB-μηχανή στον ίδιο υπολογιστή, για αυτόνομες εφαρμογές. Σε αυτή την περίπτωση, θα πρέπει να υπάρχει διαθέσιμος χώρος στον σκληρό δίσκο(HDD) για την αποθήκευση των προτύπων. Για παράδειγμα, 10.000 πρότυπα(που το καθένα περιέχει 1 εγγραφή φωνής η οποία εξάγεται απο φωνητικό δείγμα διάρκειας 5 δευτερολέπτων) αποθηκευμένα σε συγγενική βάση δεδομένων απαιτούν περίπου 50ΜΒ ελεύθερου χώρου στον σκληρό δίσκο. Επίσης, η ίδια μηχανή βάσης δεδομένων απαιτεί χώρο στον σκληρό δίσκο για να τρέξει. Παρακαλώ, ανατρέξτε στις απαιτήσεις χώρου του σκληρού δίσκου απο τους παρόχους διαχείρισης βάσης δεδομένων.

Για smartphones και tablet:

  • Smartphone ή tablet ή άλλη συσκευή η οποία τρέχει Android OS.
  • Συνιστάται, επεξεργαστής 1.5GHz για την επεξεργασία φωνητικού αποτυπώματος στον καθορισμένο χρόνο. Βραδύτεροι επεξεργαστές μπορούν να χρησιμοποιηθούν, αλλά η επεξεργασία του φωνητικού αποτυπώματος θα χρειαστεί περισσότερο χρόνο.
    • Θα πρέπει να είναι διαθέσιμα τουλάχιστον 20MB ελεύθερου χώρου στη RAM για την εφαρμογή. Πρόσθετη RAM απαιτείται για εφαρμογές που εκτελούν την 1 προς πολλούς ταυτοποίηση, για τον λόγο οτι όλα τα βιομετρικά πρότυπα πρέπει να ποθηκεύονται στη μνήμη RAM για να γίνεται η αντιστοίχιση. Για παράδειγμα, 1000 πρότυπα(που το καθένα περιέχει 1 ηχογράφηση φωνητικού αποτυπώματος) απαιτούν περίπου 5MB επιπλέον μνήμη RAM.
  • Ελεύθερος χώρος αποθήκευσης(built-in flash ή εξωτερική κάρτα μνήμης):Μικρόφωνο: Κάθε μικρόφωνο που υποστηρίζεται απο το λειτουργικό σύστημα, μπορεί να χρησιμοποιηθεί.
    • 30MB, απαιτούνται για την ανάπτυξη ενσωματωμένων φωνητικών συνιστωσών για κάθε ξεχωριστή εφαρμογή.
    • Απαιτείται πρόσθετος χώρος αν μία εφαρμογή πρέπει να αποθηκεύσει τα αρχικά ακουστικά δείγματα. Το Verispeak δεν απαιτεί το αρχικό δείγμα φωνής να αποθηκεύεται για την αντιστοίχιση αλλά θα πρέπει να αποθηκεύονται τα πρότυπα.
  •  
  • Δίκτυο / σύνδεση LAN(TCP / IP) για client / server εφαρμογές. Επίσης, απαιτείται σύνδεση δικτύου για τη χρήση αντίστοιχων διακομιστή. Η επικοινωνία με τον διακομιστή αντιστοιχίσης δεν είναι κρυπτογραφημένη, ως εκ τούτου, αν η επικοινωνία πρέπει να είναι ασφαλής, συνιστάται ενα ειδικό δίκτυο (μη προσβάσιμο έξω απο το σύστημα) ή ενός ασφαλούς δικτύου (όπως VPN. Το VPN θα πρέπει να ρυθμιστεί με τη χρήση του λειτουργικού συστήματος ή με εργαλεία τρίτων).
  • Μηχανή βάσης δεδομένων ή σύνδεση με αυτή: Τα πρότυπα του Verispeak μπορούν να αποθηκευτούν σε οποιοδήποτε DB(συμπεριλαμβανομένων των αρχείων) που υποστηρίζουν αποθήκευση δυαδικών δεδομένων. Η Verspeak extended SDK περιλαμβάνει τις ακόλουθες ενότητες υποστήριξης για τον διακομιστή αντιστοίχισης:
    • Microsoft SQL Server(μόνο για πλατφόρμα Microsoft Windows)
    • My SQL, Oracle, Postgre SQL(για πλατφόρμα Microsoft Windows και Linux)
    • SQLite(για πλατφόρμα Microsoft Windows, Linux,Mac OS X)

Τα πρότυπα του αλγορίθμου εξαγωγής και αντιστοίχισης της Verispeak έχει δοκιμαστεί σε φωνητικά δείγματα XM2VTS βάσεις δεδομένων και σε εσωτερικές βάσεις δεδομένων της Neurotechnology. Τα παρακάτω πειράματα αντιστοίχισης φωνητικών προτύπων διεξήχθησαν με την κειμενο-εξαρτώμενη μηχανή Verispeak 11.0:

  • 1ο Πείραμα: Στο 1ο Πείραμα, χρησιμοποιήθηκαν φωνητικά πρότυπα απο τις βάσεις δεδομένων XM2VTS. Όλα τα φωνητικά πρότυπα περιλαμβάνουν την ίδια φράση-κλειδί, την οποία έχουν προφέρει όλα τα υποκείμενα του πειράματος (βλέπε εικόνα 1).
  • 2ο Πείραμα: Στο 1ο Πείραμα, χρησιμοποιήθηκαν φωνητικά πρότυπα απο τις βάσεις δεδομένων 1 Νευροτεχνολογίας. Όλα τα φωνητικά πρότυπα περιλαμβάνουν την ίδια φράση-κλειδί, την οποία έχουν προφέρει όλα τα υποκείμενα του πειράματος (βλέπε εικόνα 2).
  • 3ο Πείραμα: Στο 3ο Πείραμα, χρησιμοποιήθηκαν φωνητικά πρότυπα απο τις βάσεις δεδομένων 2 Νευροτεχνολογίας. Κατά την διάρκεια της ηχογράφησης, κάθε υποκείμενο πρόφερε μία μοναδική φράση-κλειδί.

Οι γραμμικές καμπύλες του “Χαρακτηριστικού Λειρουργίας Δέκτη” (ROC-Receiver Operation Characteristic), χρησιμοποιούνται συνήθως για να αποδείξουν την ποιότητα της αναγνώρισης ενός αλγορίθμου. Οι καμπύλες ROC δείχνουν την αντιστοιχία των ψευδών ποσοστών απόρριψης (FRR-False Rejection Rate) σε σχέση με τα ποσοστά εσφαλμένης αποδοχής (FAR-False Acceptance Rate).

Παρακάτω βλέπετε τα γραφήματα με τις γραμμικές καμπύλες ROC για κάθε πείραμα.

  • 1ο Πείραμα:

https://www.neurotechnology.com/res/verispeak_roc_xm2vts_db.gif

  • 2ο και 3ο Πείραμα:

 

https://www.neurotechnology.com/res/verispeak_roc_neurotechnology_internal_db.gif

VeriSpeak 11.0 text-dependent algorithm tests with XM2VTS and Neurotechnology’s internal databases
  Exp. 1 Exp. 2 Exp. 3
Total voice samples in the database 2360 309 305
Subjects in the database 295 42 42
Recording sessions per subject 8 1 – 10 1 – 10
Average voice sample length (seconds) 6.167 4.975 6.214
FRR at 0.1 % FAR 4.055 % 5.473 % 0.285 %