Software

Τεχνολογία ΑI δημιουργεί πορτρέτα ακούγοντας τη φωνή ενός ανθρώπου

pttl team 9 Απριλίου 2022 4 λεπτά ανάγνωσης

Τεχνολογία ΑI δημιουργεί πορτρέτα ακούγοντας τη φωνή ενός ανθρώπου

Ακόμα μία φοβερή τεχνολογία έρχεται από τον κόσμο της τεχνητής νοημοσύνης για να εντυπωσιάσει.

Οι επιστήμονες στο Εργαστήριο Επιστήμης Υπολογιστών και Τεχνητής Νοημοσύνης του MIT (CSAIL) δημοσίευσαν σε μια εργασία το 2019 έναν αλγόριθμο τεχνητής νοημοσύνης που ονομάζεται Speech2Face.

Πρόκειται για μία τεχνολογία για την ανακατασκευή του προσώπου ενός ατόμου χρησιμοποιώντας μόνο μια σύντομη ηχογράφηση της φωνής αυτού του ατόμου που μιλάει και τα αποτελέσματα αν και όχι πολύ ακριβή είναι εντυπωσιακά.

Οι ερευνητές αρχικά σχεδίασαν και εκπαίδευσαν ένα βαθύ νευρωνικό δίκτυο χρησιμοποιώντας εκατομμύρια βίντεο από το YouTube και το Διαδίκτυο που δείχνουν ανθρώπους να μιλάνε. Κατά τη διάρκεια αυτής της εκπαίδευσης, η AI έμαθε συσχετισμούς μεταξύ του ήχου των φωνών και της εμφάνισης του ομιλητή. Αυτοί οι συσχετισμοί του επέτρεψαν να κάνει τις καλύτερες εικασίες ως προς την ηλικία, το φύλο και την εθνικότητα του ομιλητή.

Δεν υπήρχε ανθρώπινη ανάμειξη στη διαδικασία εκπαίδευσης, καθώς οι ερευνητές δεν χρειαζόταν να επισημάνουν με μη αυτόματο τρόπο οποιαδήποτε υποσύνολα δεδομένων – η τεχνητή νοημοσύνη έλαβε απλώς ένα τεράστιο αριθμό βίντεο και επιφορτίστηκε με τον εντοπισμό συσχετισμών μεταξύ των χαρακτηριστικών φωνής και των χαρακτηριστικών του προσώπου.

Για να αναλύσουν περαιτέρω την ακρίβεια των ανακατασκευών του προσώπου, οι ερευνητές κατασκεύασαν έναν «αποκωδικοποιητή προσώπου» που δημιουργεί μια τυποποιημένη ανακατασκευή του προσώπου ενός ατόμου από ένα ακίνητο πλαίσιο, ενώ αγνοεί «άσχετες παραλλαγές» όπως η στάση και ο φωτισμός.

Υπήρχαν ορισμένες περιπτώσεις στις οποίες η τεχνητή νοημοσύνη δυσκολεύτηκε να καταλάβει πώς μπορεί να μοιάζει ο ομιλητής. Παράγοντες όπως η προφορά, η γλώσσα και το ύψος της φωνής ήταν πράγματα που προκάλεσαν «αναντιστοιχίες ομιλίας-προσώπου» στις οποίες το φύλο, η ηλικία ή η εθνικότητα ήταν λανθασμένα.

Τα άτομα με ψηλές φωνές (συμπεριλαμβανομένων των νεότερων αγοριών) συχνά αναγνωρίζονταν ως γυναίκες ενώ τα άτομα με χαμηλή φωνή χαρακτηρίζονταν ως άνδρες. Ένας Ασιάτης που μιλούσε αγγλικά είχε ως αποτέλεσμα λιγότερο ασιατική εμφάνιση από ό,τι όταν μιλούσε κινέζικα.

Οι ερευνητές σημειώνουν ότι υπάρχουν ηθικοί προβληματισμοί γύρω από αυτό το έργο.

Το μοντέλο μας έχει σχεδιαστεί για να αποκαλύπτει στατιστικές συσχετίσεις που υπάρχουν μεταξύ των χαρακτηριστικών του προσώπου και των φωνών των ομιλητών στα δεδομένα εκπαίδευσης. Τα δεδομένα εκπαίδευσης που χρησιμοποιούμε είναι μια συλλογή εκπαιδευτικών βίντεο από το YouTube και δεν αντιπροσωπεύουν εξίσου ολόκληρο τον παγκόσμιο πληθυσμό. Επομένως, το μοντέλο —όπως συμβαίνει με οποιοδήποτε μοντέλο μηχανικής μάθησης— επηρεάζεται από αυτήν την άνιση κατανομή δεδομένων. Συμβουλεύουμε ότι οποιαδήποτε περαιτέρω έρευνα ή πρακτική χρήση αυτής της τεχνολογίας θα δοκιμαστεί προσεκτικά για να διασφαλιστεί ότι τα δεδομένα εκπαίδευσης είναι αντιπροσωπευτικά του πληθυσμού των χρηστών που προορίζονται. Εάν δεν συμβαίνει αυτό, θα πρέπει να συλλεχθούν ευρέως πιο αντιπροσωπευτικά δεδομένα.

Όσο αφορά την ηθική οι ερευνητές αναφέρουν:

Όπως αναφέρθηκε, η μέθοδός μας δεν μπορεί να ανακτήσει την αληθινή ταυτότητα ενός ατόμου από τη φωνή του (δηλαδή, μια ακριβή εικόνα του προσώπου του). Αυτό οφείλεται στο γεγονός ότι το μοντέλο μας έχει εκπαιδευτεί να καταγράφει οπτικά χαρακτηριστικά (που σχετίζονται με την ηλικία, το φύλο, κ.λπ.) που είναι κοινά σε πολλά άτομα και μόνο σε περιπτώσεις όπου υπάρχουν αρκετά ισχυρά στοιχεία για τη σύνδεση αυτών των οπτικών χαρακτηριστικών με χαρακτηριστικά φωνής/ομιλίας στο δεδομένα. Ως εκ τούτου, το μοντέλο θα παράγει μόνο πρόσωπα μέσης εμφάνισης, με χαρακτηριστικά οπτικά χαρακτηριστικά που συσχετίζονται με την ομιλία εισόδου. Δεν θα παράγει εικόνες συγκεκριμένων ατόμων.

Μία εφαρμογή της τεχνολογίας αυτής είναι η δυνατότητα της αστυνομίας να μπορέσει να την χρησιμοποιήσει για να ανακατασκευάσει το πρόσωπο ενός εγκληματία που για παράδειγμα φοράει κουκούλα ή μιλάει στο τηλέφωνο, από την φωνή του.Από την άλλη στα μη κατάλληλα χέρια θα μπορούσε να αποκαλύψει το πρόσωπο ενός μάρτυρα που είναι υπό προστασία.

Όπως και να έχει η τεχνολογία τεχνητής νοημοσύνης ξεκλειδώνει πάρα πολλές δυνατότητες και μένει να δούμε τι άλλα εντυπωσιακά πράγματα μπορεί να δούμε στο μέλλον.

Θα βρείτε όλη την εργασία εδώ.

PTTL_AL_4

pttl team

Το PTTL Team αποτελείται από επαγγελματίες φωτογράφους, συντάκτες και δημιουργούς περιεχομένου με εξειδίκευση στη φωτογραφία, το βίντεο και την τεχνολογία εικόνας. Η ομάδα καλύπτει καθημερινά τις εξελίξεις σε φωτογραφικό και κινηματογραφικό εξοπλισμό, δοκιμές προϊόντων, νέες τεχνολογίες και τάσεις της αγοράς, προσφέροντας αξιόπιστη και τεκμηριωμένη ενημέρωση για δημιουργούς κάθε επιπέδου.