Sponsored
Photography

Η OpenAI περνά την παραγωγή εικόνας σε άλλη εποχή με το Images 2.0

Η OpenAI περνά την παραγωγή εικόνας σε άλλη εποχή με το Images 2.0
Ένα φωτορεαλιστικό, αυθόρμητο πορτρέτο-στιγμιότυπο δύο φίλων έξω από έναν χώρο εκδήλωσης τη νύχτα, τραβηγμένο με compact point-and-shoot κάμερα και άμεσο φλας. Μικρή απόσταση από τα πρόσωπα, καθαρή λεπτομέρεια στο προσκήνιο, βαθιές σκιές που πέφτουν απότομα, ελαφρώς ωμή και αυθόρμητη ενέργεια, ατμόσφαιρα νυχτερινής εξόδου και η αδιαμφισβήτητη αισθητική μιας φωτογραφίας με φλας των αρχών της δεκαετίας του 2000.

Summary

  • Η OpenAI παρουσίασε το ChatGPT Images 2.0 ως διάδοχο του περσινού ChatGPT Images
  • Το νέο μοντέλο δίνει έμφαση στην ακριβή τήρηση οδηγιών και στη χρηστική παραγωγή εικόνων
  • Υποστηρίζει καλύτερη τοποθέτηση αντικειμένων, πυκνό κείμενο και διαφορετικές αναλογίες κάδρου
  • Είναι το πρώτο μοντέλο εικόνας της OpenAI με δυνατότητες σκέψης
  • Μπορεί να αναζητά πληροφορίες σε πραγματικό χρόνο, να δημιουργεί πολλές εικόνες και να ελέγχει τα αποτελέσματά του
  • Η OpenAI αναφέρει σημαντικές βελτιώσεις σε γλώσσες όπως ιαπωνικά, κορεατικά, κινεζικά, χίντι και βεγγαλικά
  • Το μοντέλο είναι διαθέσιμο από σήμερα σε ChatGPT, Codex και API
Contents
  1. Από την απόδοση εικόνας στον στρατηγικό σχεδιασμό
  2. Μεγαλύτερη ακρίβεια στις οδηγίες και στη σύνθεση
  3. Παραδείγματα χρήσης που δείχνουν το εύρος
  4. Το πρώτο μοντέλο εικόνας της OpenAI με δυνατότητα σκέψης
  5. Καλύτερη απόδοση σε πολλές γλώσσες
  6. Διαθεσιμότητα
  7. Τι πιστεύουμε

Οι εικόνες δεν είναι διακόσμηση αλλά γλώσσα, και αυτό ακριβώς επιχειρεί να αποδείξει η OpenAI με το νέο ChatGPT Images 2.0.

Η εταιρεία ανακοίνωσε το ChatGPT Images 2.0 ως το επόμενο βήμα μετά το περσινό ChatGPT Images, παρουσιάζοντάς το ως ένα νέο μοντέλο παραγωγής εικόνας που μπορεί να αναλάβει πιο σύνθετες οπτικές εργασίες και να παραδώσει ακριβή, άμεσα αξιοποιήσιμα οπτικά αποτελέσματα. Αφορά δημιουργούς, επαγγελματίες, εκπαιδευτικούς, ομάδες σχεδιασμού και γενικά όσους χρειάζονται εικόνες που δεν είναι απλώς εντυπωσιακές αλλά λειτουργικές.

Η σημασία της ανακοίνωσης βρίσκεται στο ότι η OpenAI δεν περιγράφει το νέο μοντέλο μόνο ως μια αναβάθμιση αισθητικής ποιότητας, αλλά ως ένα σύστημα που φέρνει την παραγωγή εικόνας πιο κοντά στον σχεδιασμό με πρόθεση. Σύμφωνα με την εταιρεία, το Images 2.0 βελτιώνει δραστικά την τήρηση λεπτομερών οδηγιών, την ακριβή τοποθέτηση και συσχέτιση αντικειμένων, την απόδοση πυκνού κειμένου και τη δημιουργία σε διαφορετικές αναλογίες κάδρου.

Από την απόδοση εικόνας στον στρατηγικό σχεδιασμό

Η OpenAI ξεκινά από μια βασική θέση: μια καλή εικόνα λειτουργεί όπως μια καλή πρόταση. Επιλέγει, οργανώνει και αποκαλύπτει. Μπορεί να εξηγήσει έναν μηχανισμό, να χτίσει μια ατμόσφαιρα, να δοκιμάσει μια ιδέα ή να διατυπώσει ένα επιχείρημα.

Σε αυτό το πλαίσιο, το Images 2.0 παρουσιάζεται ως μοντέλο που δεν περιορίζεται στην οπτική απόδοση, αλλά μεταφέρει την παραγωγή εικόνας από το στάδιο της απλής δημιουργίας στο στάδιο του στρατηγικού σχεδιασμού. Η εταιρεία τονίζει ότι συνδυάζει τη νοημοσύνη των συλλογιστικών μοντέλων της OpenAI με μια εκτεταμένη κατανόηση του οπτικού κόσμου, ώστε να βοηθά τους χρήστες να μετατρέπουν ιδέες σε αποτελέσματα που μπορούν να κατανοήσουν, να μοιραστούν, να χρησιμοποιήσουν στη διδασκαλία και να αξιοποιήσουν στην πράξη.

Μεγαλύτερη ακρίβεια στις οδηγίες και στη σύνθεση

Ένα από τα βασικά σημεία της παρουσίασης είναι ο έλεγχος. Η OpenAI υποστηρίζει ότι το Images 2.0 φέρνει πρωτοφανές επίπεδο εξειδίκευσης και πιστότητας στη δημιουργία εικόνας. Το μοντέλο δεν αρκείται στο να «συλλαμβάνει» μια σύνθετη εικόνα, αλλά μπορεί να την υλοποιεί με μεγαλύτερη ακρίβεια, ακολουθώντας οδηγίες, διατηρώντας τις ζητούμενες λεπτομέρειες και αποδίδοντας στοιχεία που συχνά δυσκολεύουν τέτοιου είδους μοντέλα.

Σε αυτά περιλαμβάνονται μικρό κείμενο, εικονογραφικά σύμβολα, στοιχεία διεπαφής, πυκνές συνθέσεις και διακριτικοί υφολογικοί περιορισμοί. Στο API, η OpenAI αναφέρει ότι η απόδοση φτάνει έως τα 2K. Η πρακτική υπόσχεση είναι σαφής: αντί ο χρήστης να παίρνει ένα αποτέλεσμα απλώς κοντά σε αυτό που ζήτησε, να παίρνει κάτι που μπορεί όντως να χρησιμοποιήσει.

Μια φωτορεαλιστική, αυθόρμητη ταξιδιωτική σκηνή με ένα άτομο να στέκεται σε σημείο στάσης δίπλα σε παραθαλάσσιο δρόμο, ένα συννεφιασμένο πρωινό, τραβηγμένη σε φιλμ 35mm. Φυσικό, ατελές κάδρο, εμφανές grain, διαθέσιμο φυσικό φως, μουντά χρώματα, ο αέρας να κινεί τα ρούχα και τα μαλλιά, κινηματογραφικός ρεαλισμός και η αίσθηση μιας βιωμένης φωτογραφίας ντοκουμέντου.

Παραδείγματα χρήσης που δείχνουν το εύρος

Η εταιρεία συνοδεύει την ανακοίνωση με παραδείγματα που θέλουν να αναδείξουν ακριβώς αυτή τη χρηστική διάσταση. Ανάμεσά τους αναφέρονται στιγμιότυπο διεπαφής, κολάζ περιοδικού, σωρός από ρύζι, σελίδα επιστημονικού περιοδικού και χειρόγραφο κείμενο.

Χαρακτηριστικό είναι και το παράδειγμα προτροπής που περιγράφει ένα στιγμιότυπο του ChatGPT μέσα σε πρόγραμμα περιήγησης σε υπολογιστή macOS, όπου ο χρήστης γράφει «draw me a dog», το ChatGPT σχεδιάζει έναν σκύλο με χαρακτήρες ASCII και στο παρασκήνιο η επιφάνεια εργασίας είναι ακατάστατη, με πολλά τυχαία ανοιχτά παράθυρα όπως τερματικό. Η OpenAI το χρησιμοποιεί για να δείξει ότι το μοντέλο μπορεί να διαχειριστεί σύνθετες σκηνές με πολλά επιμέρους στοιχεία και συγκεκριμένες χωρικές σχέσεις.

Το πρώτο μοντέλο εικόνας της OpenAI με δυνατότητα σκέψης

Για τις πιο σύνθετες εργασίες, η OpenAI προχωρά ένα βήμα παραπέρα. Το Images 2.0 είναι, σύμφωνα με την εταιρεία, το πρώτο της μοντέλο εικόνας με δυνατότητες σκέψης.

Όταν στο ChatGPT επιλέγεται λειτουργία σκέψης ή επαγγελματική λειτουργία, το Images 2.0 μπορεί να αναζητά πληροφορίες στο διαδίκτυο σε πραγματικό χρόνο, να δημιουργεί πολλές διαφορετικές εικόνες από μία μόνο προτροπή και να επανελέγχει τα δικά του αποτελέσματα. Η OpenAI υποστηρίζει ότι αυτό του επιτρέπει να αναλαμβάνει μεγαλύτερο μέρος της δουλειάς ανάμεσα στην ιδέα και την τελική εικόνα, ιδιαίτερα όταν ζητούνται ακρίβεια, ενημερωμένα δεδομένα, συνέπεια και οπτική συνοχή.

Καλύτερη απόδοση σε πολλές γλώσσες

Ένα ακόμη σημαντικό σημείο της ανακοίνωσης είναι η πολυγλωσσική απόδοση. Η OpenAI παραδέχεται ότι μέχρι σήμερα τα μοντέλα παραγωγής εικόνας της ήταν πιο συνεπή στα αγγλικά και γενικά στις γλώσσες με λατινικό αλφάβητο, αλλά λιγότερο ακριβή σε άλλες περιπτώσεις, ειδικά όταν το κείμενο ήταν σύνθετο ή πυκνό.

Με το Images 2.0 η εταιρεία υποστηρίζει ότι ξεπερνά αυτό το εμπόδιο, προσφέροντας ισχυρότερη πολυγλωσσική κατανόηση και σημαντική βελτίωση στην απόδοση μη λατινικών γραφών, ιδιαίτερα στα ιαπωνικά, κορεατικά, κινεζικά, χίντι και βεγγαλικά. Όπως αναφέρει, το μοντέλο μπορεί να δημιουργεί εικόνες με μη αγγλικό κείμενο που δεν αποδίδεται απλώς σωστά, αλλά και με γλώσσα που ρέει με συνοχή μέσα στον ίδιο τον σχεδιασμό.

Η OpenAI σημειώνει επίσης ότι αυτό δεν περιορίζεται σε μια απλή μετάφραση ετικετών, αλλά αφορά τη δημιουργία οπτικά συνεκτικών αποτελεσμάτων όπου η γλώσσα αποτελεί οργανικό μέρος της σύνθεσης. Το σχετικό σημείο της ανακοίνωσης, πάντως, στο υλικό που δόθηκε σταματά απότομα πριν ολοκληρωθεί το παράδειγμα.

Διαθεσιμότητα

Η OpenAI αναφέρει ότι το νέο μοντέλο είναι διαθέσιμο από σήμερα για όλους τους χρήστες στο ChatGPT, στο Codex και στο API.

Τι πιστεύουμε

Η πιο ενδιαφέρουσα πλευρά του ChatGPT Images 2.0 δεν είναι μόνο ότι υπόσχεται καλύτερες εικόνες, αλλά ότι η OpenAI επιχειρεί να τοποθετήσει την εικόνα ως εργαλείο επικοινωνίας, εξήγησης και εργασίας. Αν οι υποσχέσεις για καλύτερη τήρηση οδηγιών, καθαρότερη απόδοση κειμένου και ισχυρότερη πολυγλωσσική λειτουργία επιβεβαιωθούν στην πράξη, τότε πρόκειται για μια από τις σημαντικότερες κινήσεις στην εξέλιξη της παραγωγής εικόνας με τεχνητή νοημοσύνη.

Comments

Leave a comment