Sponsored
Software

Η Google παρουσίασε το Gemini Omni Flash για δημιουργία βίντεο

Επεξεργασία βίντεο με συνομιλία και φυσική γλώσσα

Η Google ανακοίνωσε το Gemini Omni Flash για δημιουργία και επεξεργασία βίντεο.
Η Google ανακοίνωσε το Gemini Omni Flash για δημιουργία και επεξεργασία βίντεο.

Summary

  • Παρουσιάστηκε το Gemini Omni ως νέα οικογένεια μοντέλων της Google
  • Πρώτο μοντέλο είναι το Gemini Omni Flash
  • Υποστηρίζει είσοδο από εικόνα, κείμενο, ήχο και βίντεο για παραγωγή βίντεο
  • Επιτρέπει επεξεργασία βίντεο με διαδοχικές εντολές σε φυσική γλώσσα
  • Η Google υπόσχεται καλύτερη κατανόηση φυσικής και γνώσης του κόσμου
  • Όλα τα βίντεο περιλαμβάνουν SynthID και δυνατότητες επαλήθευσης
  • Η διάθεση ξεκίνησε σε Gemini app, Google Flow, YouTube Shorts και YouTube Create
Contents
  1. Επεξεργασία βίντεο με φυσική γλώσσα
  2. Πιο ρεαλιστικά αποτελέσματα με γνώση και κατανόηση του κόσμου
  3. Δημιουργία βίντεο από πολλαπλές εισόδους
  4. Ψηφιακά άβαταρ και όρια στην αλλαγή φωνής
  5. Υδατογράφημα και εργαλεία επαλήθευσης
  6. Πού διατίθεται το Gemini Omni Flash
  7. Τι πιστεύουμε
  8. Συχνές ερωτήσεις

Η Google παρουσίασε το Gemini Omni, μια νέα οικογένεια μοντέλων που ξεκινά από τη δημιουργία και επεξεργασία βίντεο με είσοδο από πολλαπλά μέσα.

Πρόκειται για το νέο βήμα της Google στην πολυτροπική τεχνητή νοημοσύνη, με πρώτο μοντέλο το Gemini Omni Flash, το οποίο μπορεί να συνδυάζει εικόνα, ήχο, βίντεο και κείμενο ως είσοδο και να παράγει βίντεο υψηλής ποιότητας, βασισμένο στη γνώση του Gemini για τον πραγματικό κόσμο. Η εταιρεία αναφέρει επίσης ότι το μοντέλο επιτρέπει επεξεργασία βίντεο μέσα από συνομιλία, με διαδοχικές εντολές σε φυσική γλώσσα.

Η ανακοίνωση έχει σημασία γιατί δείχνει πού κατευθύνεται πλέον η Google: από την απλή παραγωγή περιεχομένου σε εργαλεία που συνδυάζουν λογική, κατανόηση πλαισίου και δημιουργία. Η εταιρεία υπενθυμίζει ότι πέρυσι το Nano Banana έφερε τις δυνατότητες του Gemini στη δημιουργία και επεξεργασία εικόνας, ενώ τώρα το επόμενο βήμα είναι το βίντεο, με στόχο στο μέλλον να προστεθούν και άλλες μορφές εξόδου, όπως εικόνα και ήχος.

Επεξεργασία βίντεο με φυσική γλώσσα

Σύμφωνα με τη Google, το Gemini Omni δίνει τη δυνατότητα επεξεργασίας βίντεο με απλές λεκτικές οδηγίες. Κάθε νέα εντολή «χτίζει» πάνω στην προηγούμενη, ώστε οι χαρακτήρες να παραμένουν συνεπείς, η φυσική του σκηνικού να διατηρείται και η σκηνή να θυμάται ό,τι έχει ήδη προηγηθεί.

Η εταιρεία δίνει παραδείγματα όπου ένα αντικείμενο αλλάζει υλικό, μια σκηνή αποκτά εντελώς διαφορετική ατμόσφαιρα ή μεταβάλλεται η ίδια η δράση μέσα στο πλάνο. Παρουσιάζει επίσης σενάρια στα οποία ο χρήστης μπορεί να προσθέσει χαρακτήρες και αντικείμενα, να αλλάξει την κίνηση, να τροποποιήσει τη γωνία λήψης ή να μεταφέρει έναν μουσικό σε άλλο περιβάλλον, χωρίς να χάνεται η συνοχή του αρχικού βίντεο.

Πιο ρεαλιστικά αποτελέσματα με γνώση και κατανόηση του κόσμου

Η Google υποστηρίζει ότι το Gemini Omni δεν περιορίζεται στη δημιουργία σκηνών που μοιάζουν απλώς αληθοφανείς, αλλά «σκέφτεται» και τι πρέπει να συμβεί στη συνέχεια. Για αυτό συνδυάζει, όπως αναφέρει, καλύτερη διαισθητική κατανόηση της φυσικής με τη γνώση του Gemini σε τομείς όπως η ιστορία, η επιστήμη και το πολιτισμικό πλαίσιο.

Στην πράξη αυτό σημαίνει πιο ακριβή απόδοση δυνάμεων όπως η βαρύτητα, η κινητική ενέργεια και η δυναμική των ρευστών, αλλά και δυνατότητα να μετατρέπονται πιο σύνθετες ιδέες σε οπτικές αφηγήσεις. Η Google δείχνει παραδείγματα από αλυσιδωτές κινήσεις αντικειμένων μέχρι επεξηγηματικά βίντεο για θέματα όπως η αναδίπλωση πρωτεϊνών.

Prompt: Ένα βίντεο με μία βιολονίστα να παίζει ένα τραγούδι.
Prompt: Όταν το άτομο αγγίζει τον καθρέφτη, κάνε τον καθρέφτη να κυματίζει όμορφα σαν υγρό, και το χέρι του ατόμου να μετατρέπεται σε ανακλαστικό υλικό καθρέφτη.
Prompt: Φτιάξτε το γλυπτό από φυσαλίδες.
Prompt: Δυναμικό βίντεο σε ύφος ταινίας επιστημονικής φαντασίας, βασισμένο στο image_0.png. Τα στοιχεία φωτίζονται παρόμοια με το video_0.mp4, συγχρονισμένα με τον ρυθμό της μουσικής από το audio_0.wav.

Δημιουργία βίντεο από πολλαπλές εισόδους

Ένα από τα βασικά στοιχεία του Gemini Omni είναι ότι μπορεί να χρησιμοποιεί ως αναφορά σχεδόν κάθε είδος εισόδου, είτε πρόκειται για εικόνα, κείμενο, βίντεο ή ήχο, και να τα μετατρέπει σε ένα ενιαίο αποτέλεσμα. Στην αρχή, για τις ηχητικές εισόδους θα υποστηρίζονται φωνητικές αναφορές, ενώ η Google αναφέρει ότι αργότερα θα προστεθούν και άλλοι τύποι ήχου.

Η λογική αυτή επιτρέπει στον χρήστη να ξεκινά από υλικό που ήδη έχει: μια φωτογραφία χαρακτήρα, ένα σχέδιο, ένα βίντεο κίνησης ή ένα δείγμα ύφους. Το μοντέλο μπορεί να μεταφέρει κίνηση από ένα βίντεο σε έναν χαρακτήρα εικόνας, να κρατά το περιβάλλον και να αλλάζει μόνο το ύφος, ή να εφαρμόζει εφέ και οπτική γλώσσα με βάση τόσο αναφορές όσο και περιγραφές σε φυσική γλώσσα.

Ψηφιακά άβαταρ και όρια στην αλλαγή φωνής

Η Google συνδέει το Gemini Omni και με τη δυνατότητα δημιουργίας βίντεο μέσω του Avatars, το οποίο φτιάχνει μια ψηφιακή εκδοχή του ίδιου του χρήστη, ώστε να μπορεί να παράγει βίντεο που μοιάζουν και ακούγονται σαν εκείνον.

Την ίδια ώρα, ξεκαθαρίζει ότι σε ό,τι αφορά την επεξεργασία βίντεο για αλλαγή ήχου και ομιλίας, η δυνατότητα αυτή βρίσκεται ακόμη υπό δοκιμή, καθώς η εταιρεία αναφέρει ότι θέλει πρώτα να κατανοήσει καλύτερα πώς μπορεί να τη διαθέσει με υπεύθυνο τρόπο.

Υδατογράφημα και εργαλεία επαλήθευσης

Η Google αναφέρει ότι όλα τα βίντεο που δημιουργούνται με το Omni περιλαμβάνουν το αόρατο ψηφιακό υδατογράφημα SynthID. Παράλληλα, σημειώνει ότι τα βίντεο που έχουν παραχθεί με το Gemini Omni μπορούν να επαληθευθούν μέσω της εφαρμογής Gemini, του Gemini στον Chrome και της Αναζήτησης Google.

Η έμφαση αυτή δείχνει ότι η εταιρεία προσπαθεί να δώσει μεγαλύτερη διαφάνεια γύρω από το πώς δημιουργείται και επεξεργάζεται περιεχόμενο με τεχνητή νοημοσύνη, σε μια περίοδο όπου η προέλευση του οπτικοακουστικού υλικού γίνεται όλο και πιο κρίσιμο ζήτημα. Το δεύτερο σκέλος αυτής της εκτίμησης αποτελεί συμπέρασμα από όσα ανακοίνωσε η εταιρεία για τα εργαλεία διαφάνειας και επαλήθευσης.

Πού διατίθεται το Gemini Omni Flash

Το πρώτο μοντέλο της οικογένειας, το Gemini Omni Flash, ξεκίνησε να διατίθεται παγκοσμίως στους συνδρομητές Google AI Plus, Pro και Ultra μέσω της εφαρμογής Gemini και του Google Flow. Παράλληλα, η Google ανακοίνωσε ότι ξεκινά να το διαθέτει χωρίς κόστος και στους χρήστες των YouTube Shorts και YouTube Create μέσα στην ίδια εβδομάδα.

Η εταιρεία προσθέτει ότι μέσα στις επόμενες εβδομάδες θα ξεκινήσει η διάθεση και σε προγραμματιστές καθώς και σε εταιρικούς πελάτες μέσω διεπαφών προγραμματισμού.

Τι πιστεύουμε

Η Google δεν παρουσίασε απλώς ακόμη ένα εργαλείο δημιουργίας βίντεο, αλλά ένα μοντέλο που επιχειρεί να κάνει τη συνομιλία βασικό τρόπο επεξεργασίας πολυμεσικού περιεχομένου. Αν οι δυνατότητες που υπόσχεται περάσουν στην πράξη με την ίδια συνοχή και αξιοπιστία, τότε το Gemini Omni Flash μπορεί να εξελιχθεί σε μία από τις πιο ουσιαστικές προσθήκες της Google στο δημιουργικό κομμάτι της τεχνητής νοημοσύνης. Η εκτίμηση αυτή βασίζεται στις δυνατότητες που ανακοίνωσε η εταιρεία και μένει να επιβεβαιωθεί από τη χρήση στην πράξη.

Συχνές ερωτήσεις

Τι είναι το Gemini Omni;

Είναι μια νέα οικογένεια μοντέλων της Google που συνδυάζει λογική και δημιουργία περιεχομένου, ξεκινώντας από το βίντεο.

Ποιο είναι το πρώτο μοντέλο που κυκλοφορεί;

Το πρώτο μοντέλο είναι το Gemini Omni Flash.

Τι είδους εισόδους υποστηρίζει;

Η Google αναφέρει ότι μπορεί να χρησιμοποιεί εικόνα, κείμενο, βίντεο και ήχο ως είσοδο, με αρχική υποστήριξη φωνητικών αναφορών για το ηχητικό μέρος.

Πού είναι διαθέσιμο τώρα;

Διατίθεται μέσω Gemini app και Google Flow για συνδρομητές Google AI Plus, Pro και Ultra, ενώ ξεκινά και η διάθεσή του σε YouTube Shorts και YouTube Create χωρίς χρέωση.

Υπάρχει κάποια μορφή σήμανσης στα βίντεο;

Ναι, όλα τα βίντεο που δημιουργούνται με Omni περιλαμβάνουν το αόρατο ψηφιακό υδατογράφημα SynthID.

Comments

Leave a comment