Software

Η OpenAI έχει ήδη τεχνολογία ΑΙ για την δημιουργία ηχητικών από κείμενο, βασισμένο σε 15″ ομιλίας του χρήστη!

pttl team 31 Μαρτίου 2024 2 λεπτά ανάγνωσης

Η OpenAI, γνωστή για τις καινοτομίες της στον τομέα της τεχνητής νοημοσύνης, παρουσιάζει μια νέα πλατφόρμα παραγωγής φωνής από κείμενο με την ονομασία Voice Engine.

Αυτή η πλατφόρμα έχει τη δυνατότητα να δημιουργεί μια συνθετική φωνή βασισμένη σε ένα δείγμα φωνής 15 δευτερολέπτων. Η φωνή που παράγεται από την AI μπορεί να αναπαράγει κείμενα κατόπιν εντολής, είτε στην ίδια γλώσσα με τον ομιλητή είτε σε άλλες γλώσσες.

Η OpenAI μέσα από μια ανάρτηση στο επίσημο blog της αναφέρει: «Αυτές οι μικρής κλίμακας εφαρμογές βοηθούν στη διαμόρφωση της προσέγγισής μας, των μέτρων ασφαλείας και του τρόπου σκέψης σχετικά με το πώς το Voice Engine θα μπορούσε να χρησιμοποιηθεί για καλό σε διάφορους κλάδους».

Εταιρείες που έχουν πρόσβαση σε αυτή την τεχνολογία περιλαμβάνουν την εταιρεία εκπαιδευτικής τεχνολογίας Age of Learning, την πλατφόρμα οπτικής αφήγησης HeyGen, τον παραγωγό λογισμικού υγείας Dimagi, τον δημιουργό εφαρμογών επικοινωνίας AI Livox και το υγειονομικό σύστημα Lifespan.

Σε δείγματα που δημοσίευσε η OpenAI, μπορεί κανείς να ακούσει πώς η Age of Learning χρησιμοποιεί την τεχνολογία για τη δημιουργία προ-καταγεγραμμένου περιεχομένου φωνητικού περιεχομένου, καθώς και γιατην ανάγνωση «προσωποποιημένων απαντήσεων σε πραγματικό χρόνο» προς τους μαθητές που γράφτηκαν από το GPT-4.

Η OpenAI ξεκίνησε την ανάπτυξη του Voice Engine στα τέλη του 2022 και η τεχνολογία έχει ήδη χρησιμοποιηθεί για την παραγωγή presets φωνών για το API μετατροπής κειμένου σε ομιλία και την λειτουργία Διάβασέ το Δυνατά του ChatGPT. ».

Η δημιουργία φωνής από κείμενο σε ήχο αποτελεί έναν εξελισσόμενο τομέα της AI.

Η OpenAI αναφέρει ότι οι συνεργάτες της συμφώνησαν να συμμορφώνονται με τις πολιτικές χρήσης που λένε πως δεν θα χρησιμοποιήσουν τη Γεννήτρια Φωνής για να υποκριθούν ανθρώπους ή οργανισμούς χωρίς τη συγκατάθεσή τους. Απαιτείται επίσης από τους συνεργάτες να λάβουν την «ρητή συγκατάθεση» του αρχικού ομιλητή, να μην δημιουργήσουν τρόπους για τους μεμονωμένους χρήστες να δημιουργήσουν τις δικές τους φωνές, και να αποκαλύπτουν στους ακροατές ότι οι φωνές παράγονται από AI. Η OpenAI πρόσθεσε επίσης υδατογραφήματα στα ηχητικά κλιπ για να εντοπίζει την προέλευσή τους και παρακολουθεί ενεργά το πώς χρησιμοποιείται το ηχητικό.

PTTL_AL_3

pttl team

Το PTTL Team αποτελείται από επαγγελματίες φωτογράφους, συντάκτες και δημιουργούς περιεχομένου με εξειδίκευση στη φωτογραφία, το βίντεο και την τεχνολογία εικόνας. Η ομάδα καλύπτει καθημερινά τις εξελίξεις σε φωτογραφικό και κινηματογραφικό εξοπλισμό, δοκιμές προϊόντων, νέες τεχνολογίες και τάσεις της αγοράς, προσφέροντας αξιόπιστη και τεκμηριωμένη ενημέρωση για δημιουργούς κάθε επιπέδου.