Microsoft VASA-1: Μετατρέπει εικόνα του προσώπου ενός ατόμου σε βίντεο που μιλάει ή τραγουδάει!

Σπανουδάκης Γιώργος22 Απριλίου 2024

13 1 λεπτό ανάγνωσης

Η Microsoft αποκάλυψε το VASA-1, ένα νέο λογισμικό τεχνητής νοημοσύνης που παράγει ρεαλιστικό deepfake βίντεο από μια εικόνα προσώπου.

Αγριεύουν τα πράγματα! Το VASA-1 (Visual Affective Skills Audio) είναι ένα νέο ισχυρό μοντέλο τεχνητής νοημοσύνης της Microsoft που φιλοδοξεί να φέρει τα πάνω κάτω. Μπορεί και παράγει απίστευτα ρεαλιστικά deepfake βίντεο από μια μόνο φωτογραφία με το πρόσωπο ενός ανθρώπου. Και μάλιστα, με μια σύντομη ηχογράφηση της φωνής του συγκεκριμένου ατόμου παράγει και ρεαλιστικό ήχο! Η ικανότητα του VASA-1 να μιμείται τις φυσικές κινήσεις του κεφαλιού σε συνδυασμό με την προσομοίωση μιας μεγάλης γκάμας συναισθημάτων είναι απαράμιλλη και αποδεικνύει το πόσο γρήγορα “τρέχουν” οι εξελίξεις στην τεχνολογία. Να αναφέρουμε ότι η συγκεκριμένη τεχνολογία είναι ακόμη στο στάδιο ανάπτυξης, αλλά ήδη τα αποτελέσματα είναι τρομακτικά. Δείτε για παράδειγμα τη Mona Lisa να “ραπάρει”:

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

Όσο αφορά τον ρεαλισμό, δείτε το παρακάτω παράδειγμα:

2. Realism and liveliness – example 1 pic.twitter.com/Kz0Bm2NRNy
— Min Choi (@minchoi) April 18, 2024

Η Microsoft παρουσίασε το VASA-1 χρησιμοποιώντας τα μοντέλα DALL-E 3 και StyleGAN2 για τη δημιουργία προσώπων τεχνητής νοημοσύνης, αλλά η εταιρία λέει ότι θα μπορούσαν να χρησιμοποιηθούν και πραγματικές φωτογραφίες ανθρώπων και προσθέτει το εξής:

Η έρευνά μας επικεντρώνεται στη δημιουργία οπτικών συναισθηματικών δεξιοτήτων για εικονικά avatars τεχνητής νοημοσύνης με στόχο τις θετικές εφαρμογές και δεν προορίζεται για τη δημιουργία περιεχομένου που χρησιμοποιείται για παραπλάνηση ή εξαπάτηση.

Ωστόσο, έχουμε δει στο παρελθόν παρόμοιες δηλώσεις περί ασφαλούς χρήσης τεχνητής νοημοσύνης αλλά στη συνέχεια υπήρξαν πολλά περιστατικά κακόβουλης χρήσης. Η Microsoft τονίζει ότι είναι αντίθετη σε οποιαδήποτε συμπεριφορά που περιλαμβάνει δημιουργία παραπλανητικού ή επιβλαβούς περιεχομένου πραγματικών προσώπων.

Ενδιαφερόμαστε να εφαρμόσουμε την τεχνική μας για την προώθηση της ανίχνευσης πλαστογραφίας. Προς το παρόν, τα βίντεο που δημιουργούνται με αυτήν τη μέθοδο εξακολουθούν να περιέχουν ατέλειες και η αριθμητική ανάλυση δείχνει ότι υπάρχει ακόμα δρόμος μέχρι να επιτευχθεί η αυθεντικότητα των πραγματικών βίντεο.

Μπορείτε να δείτε αν θέλετε περισσότερα παραδείγματα του μοντέλου VASA-1 της Microsoft εδώ.