Τεχνολογία ΑI δημιουργεί πορτρέτα ακούγοντας τη φωνή ενός ανθρώπου


Τεχνολογία ΑI δημιουργεί πορτρέτα ακούγοντας τη φωνή ενός ανθρώπου

Ακόμα μία φοβερή τεχνολογία έρχεται από τον κόσμο της τεχνητής νοημοσύνης για να εντυπωσιάσει.

Οι επιστήμονες στο Εργαστήριο Επιστήμης Υπολογιστών και Τεχνητής Νοημοσύνης του MIT (CSAIL) δημοσίευσαν σε μια εργασία το 2019 έναν αλγόριθμο τεχνητής νοημοσύνης που ονομάζεται Speech2Face.

Πρόκειται για μία τεχνολογία για την ανακατασκευή του προσώπου ενός ατόμου χρησιμοποιώντας μόνο μια σύντομη ηχογράφηση της φωνής αυτού του ατόμου που μιλάει και τα αποτελέσματα αν και όχι πολύ ακριβή είναι εντυπωσιακά.

Οι ερευνητές αρχικά σχεδίασαν και εκπαίδευσαν ένα βαθύ νευρωνικό δίκτυο χρησιμοποιώντας εκατομμύρια βίντεο από το YouTube και το Διαδίκτυο που δείχνουν ανθρώπους να μιλάνε. Κατά τη διάρκεια αυτής της εκπαίδευσης, η AI έμαθε συσχετισμούς μεταξύ του ήχου των φωνών και της εμφάνισης του ομιλητή. Αυτοί οι συσχετισμοί του επέτρεψαν να κάνει τις καλύτερες εικασίες ως προς την ηλικία, το φύλο και την εθνικότητα του ομιλητή.

Δεν υπήρχε ανθρώπινη ανάμειξη στη διαδικασία εκπαίδευσης, καθώς οι ερευνητές δεν χρειαζόταν να επισημάνουν με μη αυτόματο τρόπο οποιαδήποτε υποσύνολα δεδομένων – η τεχνητή νοημοσύνη έλαβε απλώς ένα τεράστιο αριθμό βίντεο και επιφορτίστηκε με τον εντοπισμό συσχετισμών μεταξύ των χαρακτηριστικών φωνής και των χαρακτηριστικών του προσώπου.

Για να αναλύσουν περαιτέρω την ακρίβεια των ανακατασκευών του προσώπου, οι ερευνητές κατασκεύασαν έναν «αποκωδικοποιητή προσώπου» που δημιουργεί μια τυποποιημένη ανακατασκευή του προσώπου ενός ατόμου από ένα ακίνητο πλαίσιο, ενώ αγνοεί «άσχετες παραλλαγές» όπως η στάση και ο φωτισμός.

Υπήρχαν ορισμένες περιπτώσεις στις οποίες η τεχνητή νοημοσύνη δυσκολεύτηκε να καταλάβει πώς μπορεί να μοιάζει ο ομιλητής. Παράγοντες όπως η προφορά, η γλώσσα και το ύψος της φωνής ήταν πράγματα που προκάλεσαν «αναντιστοιχίες ομιλίας-προσώπου» στις οποίες το φύλο, η ηλικία ή η εθνικότητα ήταν λανθασμένα.

Τα άτομα με ψηλές φωνές (συμπεριλαμβανομένων των νεότερων αγοριών) συχνά αναγνωρίζονταν ως γυναίκες ενώ τα άτομα με χαμηλή φωνή χαρακτηρίζονταν ως άνδρες. Ένας Ασιάτης που μιλούσε αγγλικά είχε ως αποτέλεσμα λιγότερο ασιατική εμφάνιση από ό,τι όταν μιλούσε κινέζικα.

Οι ερευνητές σημειώνουν ότι υπάρχουν ηθικοί προβληματισμοί γύρω από αυτό το έργο.

Το μοντέλο μας έχει σχεδιαστεί για να αποκαλύπτει στατιστικές συσχετίσεις που υπάρχουν μεταξύ των χαρακτηριστικών του προσώπου και των φωνών των ομιλητών στα δεδομένα εκπαίδευσης. Τα δεδομένα εκπαίδευσης που χρησιμοποιούμε είναι μια συλλογή εκπαιδευτικών βίντεο από το YouTube και δεν αντιπροσωπεύουν εξίσου ολόκληρο τον παγκόσμιο πληθυσμό. Επομένως, το μοντέλο —όπως συμβαίνει με οποιοδήποτε μοντέλο μηχανικής μάθησης— επηρεάζεται από αυτήν την άνιση κατανομή δεδομένων. Συμβουλεύουμε ότι οποιαδήποτε περαιτέρω έρευνα ή πρακτική χρήση αυτής της τεχνολογίας θα δοκιμαστεί προσεκτικά για να διασφαλιστεί ότι τα δεδομένα εκπαίδευσης είναι αντιπροσωπευτικά του πληθυσμού των χρηστών που προορίζονται. Εάν δεν συμβαίνει αυτό, θα πρέπει να συλλεχθούν ευρέως πιο αντιπροσωπευτικά δεδομένα.

Όσο αφορά την ηθική οι ερευνητές αναφέρουν:

Όπως αναφέρθηκε, η μέθοδός μας δεν μπορεί να ανακτήσει την αληθινή ταυτότητα ενός ατόμου από τη φωνή του (δηλαδή, μια ακριβή εικόνα του προσώπου του). Αυτό οφείλεται στο γεγονός ότι το μοντέλο μας έχει εκπαιδευτεί να καταγράφει οπτικά χαρακτηριστικά (που σχετίζονται με την ηλικία, το φύλο, κ.λπ.) που είναι κοινά σε πολλά άτομα και μόνο σε περιπτώσεις όπου υπάρχουν αρκετά ισχυρά στοιχεία για τη σύνδεση αυτών των οπτικών χαρακτηριστικών με χαρακτηριστικά φωνής/ομιλίας στο δεδομένα. Ως εκ τούτου, το μοντέλο θα παράγει μόνο πρόσωπα μέσης εμφάνισης, με χαρακτηριστικά οπτικά χαρακτηριστικά που συσχετίζονται με την ομιλία εισόδου. Δεν θα παράγει εικόνες συγκεκριμένων ατόμων.

Μία εφαρμογή της τεχνολογίας αυτής είναι η δυνατότητα της αστυνομίας να μπορέσει να την χρησιμοποιήσει για να ανακατασκευάσει το πρόσωπο ενός εγκληματία που για παράδειγμα φοράει κουκούλα ή μιλάει στο τηλέφωνο, από την φωνή του.Από την άλλη στα μη κατάλληλα χέρια θα μπορούσε να αποκαλύψει το πρόσωπο ενός μάρτυρα που είναι υπό προστασία.

Όπως και να έχει η τεχνολογία τεχνητής νοημοσύνης ξεκλειδώνει πάρα πολλές δυνατότητες και μένει να δούμε τι άλλα εντυπωσιακά πράγματα μπορεί να δούμε στο μέλλον.

Θα βρείτε όλη την εργασία εδώ.

To pttlgr στηρίζεται για την λειτουργία του στους αναγνώστες του!
Μπορείς να βοηθήσεις με μία μικρή δωρεά!
Υποστηρίξτε το pttlgr ακόμα και με μόλις 1€ – χρειάζεται μόνο ένα λεπτό. Εάν μπορείτε, σκεφτείτε να μας υποστηρίξετε με ένα ποσό κάθε μήνα.
Σας ευχαριστούμε.

Στηρίξτε το pttlgr και την προσπάθεια μας για έγκυρη και άμεση ενημέρωση ακολουθώντας μας
σε InstagramYouTube και Facebook!

Ακολουθήστε το pttlgr στα Google News, εδώ!

Δες την εβδομαδιαία μας φωτογραφική εκπομπή Angle of View στο YouTube ή άκουσε την ως Podcast σε Spotify, Google ή Apple!

Κάνε Εγγραφή / Subscribe στο κανάλι μας στο YouTube, αποκλειστικά για φωτογραφία και φωτογραφικό εξοπλισμό!

Πριν φύγετε δείτε

ΔΕΙΤΕ ΑΚΟΜΑ

Ετικέτες:

AI
author

Η ομάδα του pttlgr αποτελείται από φωτογράφους συντάκτες που αγαπούν την φωτογραφία και την ενημέρωση!

Ποιά είναι η γνώμη σου;

Σας παρακαλούμε να σχολιάζετε με σεβασμό στους συνομιλητές σας και να χρησιμοποιείτε την ελληνική γλώσσα και όχι greeklish (παρά μόνο στην περίπτωση που δεν μπορείτε λόγω ρυθμίσεων του Η/Υ). Επίσης αποφεύγετε να γράφετε τα σχόλια σας με κεφαλαία γράμματα. Όλα τα σχόλια περνάνε από έλεγχο πριν την δημοσίευση τους, οπότε πρέπει να περιμένετε για να εγκριθεί το σχόλιο σας.