Épisode 1143 : Les choses vont vites, très vite ! Open Ai vient d’annoncer la troisième itération majeur de son IA ChatGPT et nous sort Chat GPT-4omni

Le nouveau modèle est capable de parler, de voir et d’interagir avec l’utilisateur de manière intégrée et transparente.

-GPT-4o.  Le « o » signifie « omni » comme omnimodal ou omniscient
Pourquoi ? ET bien parce que Chat GPT a la capacité de gérer du texte, de la parole et de la vidéo. 

Que peut faire GPT-4 ?

GPT-4 est déjà un modèle multimodal, il est capable d’accepter à la fois du texte et des images en entrée et de produire un texte en retour.

Par exemple, si vous scannez une feuille de calcul avec GPT-4, il sera capable de la scanner et de produire les réponses aux questions associées. 

OpenAi propose un nouveau point de vue sur l’avenir de l’interaction entre nous et les machines

Chat GPT4-Turbo était déjà sacrément puissant. Il pouvait analyser des images et du texte de façon hallucinante. 

Avec GPT-4, OpenAi ajoute la parole au mélange.

Et ça change beaucoup de chose dans la manière d’interagir avec l’IA.
Avec l’ajout d’un mode vocal évolué, CHatGPT devient un véritable assistant.

Par exemple, les utilisateurs peuvent poser une question à ChatGPT alimenté par GPT-4o et interrompre ChatGPT pendant qu’il répond. 

Le modèle offre une réactivité « en temps réel »


GPT4-Omini est aussi en capacité de comprendre les nuances de la voix d’un utilisateur, générant en réponse des voix dans « une gamme de styles émotionnels différents ». GPT4 comprend la tristesse, la joie, l’humour, le questionnement… et répond en adaptant sa synthèse vocale. C’est ouf ! 

Avec cette version de GPT, OpenAi souhaite retourner la table. Alors que les modèles de langages devient de plus en plus complexes, Open Ai souhaite que l’expérience d’interaction devienne plus naturelle, que l’on oublie l’interface utilisateur pour parvenir à une vraie collaboration humain-machine.

En gros GPT4-o à l’ambition de devenir plus qu’un outil.


Les capacités audio de GPT-4o sont inédites

GPT-4o est deux fois plus rapide que GPT4 Turbo mais l’avancée la plus intéressante est la vitesse du modèle lorsqu’il modèle communique par la voix. 

C’est la première fois qu’il y a un délai de réponse presque nul et vous pouvez interagir avec GPT-4o de la même manière que vous interagissez dans les conversations quotidiennes avec les gens.

Quelques exemples d’usages envisagable avec GPT4-o par OpenAI.

GPT4-o participe à vos visios

OpenAi a proposé une démo ouf dans laquelle on voit GPT intégré directement dans une Visio à 4 personnes.

Peut avoir une fonction de maitre du temps, de médiateur voir même faire en sorte que l’on puisse respecter un ordre du jour.

GPT4-o. La force de ce nouveau modèle c’est qu’il peut comprendre qu’il y a plusieurs personnes qui parlent, détecter leurs tonalités. On peut par exemple imaginer que Chat GPT puisse décoder de lui même de donner la parole à celui ou celle qui a le moins parlé.

GPT4-o participe à vos brainstormings

Je peux demander à GPT4-o de participer a un brainstorming d’équipe.

Je lui explique avant la méthodologie de brainstorming, le rôle que j’attend qu’il joue.

Je le met autour de la table et il va écouter l’intégralité de la conversation et pouvoir intervenir comme un atout complémentaire en apportant des idées.

GPT4-o traduit en temps réel une conversation entre 2 personnes

Par exemple, je suis français et je dois discuter avec une amie espagnole. Ni moi, ni elle ne parlions la langue de l’autre.
GPT4-o peut jouer un rôle de traducteur en temps réel et passer. Il va reconnaître quand c’est moi qui parle et traduire en espagnole et reconnaitre quand il faut traduire vers le français. Il va pouvoir aussi retranscrire ma tonalité de voix, ou l’émotion que je souhaite donner à ma voix et la retranscrire. 

Les capacités vidéo de GPT-4o sont bluffantes

OpenAi avait déjà scotché tout le monde avec GPT Vision. Un outil permettant à l’IA d’analyser des images. T

u lui envoies une image et il peut la comprendre et répondre à tes questions.

GPT4-o va plus loin puisqu’il a la capacité de visualiser et de comprendre la vidéo et l’audio à partir d’un fichier vidéo téléchargé ou même filmé en temps réel.

Concrètement je peux échanger avec l’application mobile de GPT, lui montrer en visio l’intérieur de mon appartement et il va pouvoir me dire ce qu’il voit.

OpenAi, imagine que GPT puisse par exemple être outil parfait pour les personnes en situation de handicap visuel. 

Dans une démo posté par OpenAI, on voit quelqu’un qui se filmer en direct en train d’écrire une équation. GPT comprend la vidéo et en temps réel lui donne des indications pour résoudre l’équation.

La génération d’image est encore améliorée

Dall-e avait déjà impressionné mais là on va passer un niveau supérieur.

Ce qui m’a le plus impressionné c’est la gestion du texte au coeur des images générées.

GPT4-o est par exemple en capacité de créer de toute pièce des typographies. Je peux par exemple lui donner un prompt du type : « génère une photo hyper réaliste d’un poème en 3 ligne écrit au feutre sur une feuille de carnet de texte. Le texte ressemble a un texte écrit par un enfant. »

https://blog.roboflow.com/content/images/size/w1600/2024/05/SCR-20240514-lhur.png

L’experience vocale de Gpt4-o sera disponible le mois prochain

L’expérience vocale ChatGPT améliorée soutenue par GPT-4o arrivera en version alpha pour les utilisateurs Plus le mois prochain

GPT4-O est capable d’analyser des vidéos en temps réel

—–
Le Super Daily est le podcast quotidien sur les réseaux sociaux. Il est fabriqué avec une pluie d’amour par les équipes de Supernatifs. Nous sommes une agence social media basée à Lyon : https://supernatifs.com. Ensemble, nous aidons les entreprises à créer des relations durables et rentables avec leurs audiences. Ensemble, nous inventons, produisons et diffusons des contenus qui engagent vos collaborateurs, vos prospects et vos consommateurs.



Partager cet épisode

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *