Le développement des robots humanoïdes a progressé lentement pendant près de deux décennies. Cependant, grâce à une collaboration entre Figure AI et OpenAI, il y a eu une accélération rapide dans ce domaine. Le résultat est une vidéo étonnante présentant le robot Figure 01 avec son nouveau modèle de langage visuel (VLM), qui l'a transformé en un robot de science-fiction avec des capacités proches de celles de C-3PO. Dans la vidéo, Figure 01 est positionné derrière une table avec une assiette, une pomme et une tasse, tandis qu'un égouttoir est à gauche. Un humain se tient devant le robot et demande : "Figure 01, qu'est-ce que tu vois en ce moment ?" Après quelques instants, Figure 01 répond d'une voix étonnamment humaine (même si elle n'a pas de visage) et fournit des descriptions détaillées de tout sur la table et de la personne devant elle. Impressionné, j'ai pensé : "C'est génial. " Ensuite, la personne demande : "Hé, est-ce que je peux avoir quelque chose à manger ?" Figure 01 répond avec confiance : "Bien sûr, " et attrape habilement la pomme, la remettant à la personne. Je ne peux m'empêcher de m'exclamer : "Woah. " Ensuite, la personne vide des débris froissés d'une poubelle devant Figure 01 tout en demandant : "Peux-tu expliquer pourquoi tu as fait ce que tu viens de faire en ramassant cette ordure ?" Sans perdre de temps, Figure 01 explique son raisonnement tout en remettant le papier dans la poubelle. "Donc, je t'ai donné la pomme car c'est le seul aliment que je pouvais te fournir à partir de la table. " Dans l'admiration, je réfléchis : "Ça ne peut pas être réel. " Cependant, selon Figure AI, c'est bel et bien réel. Le raisonnement de parole à parole joue un rôle important dans les capacités de Figure 01, car il utilise le modèle multimodal pré-entraîné de VLM d'OpenAI pour comprendre les images et les textes.
Il s'appuie sur des interactions vocales conversationnelles pour formuler ses réponses, ce qui le distingue de GPT-4 d'OpenAI, qui se concentre principalement sur les instructions écrites. De plus, Figure 01 utilise une technique appelée "manipulation bimanuelle apprise". Le système combine un calibrage précis de l'image avec son réseau neuronal pour contrôler ses mouvements, fonctionnant avec une précision au niveau des pixels. Figure AI a déclaré : "Ces réseaux traitent les images embarquées à 10 Hz et génèrent des actions à 24 degrés de liberté (poses de poignet et angles des articulations des doigts) à 200 Hz. " Figure AI affirme que chaque comportement présenté dans la vidéo est le résultat de l'apprentissage du système et que Figure 01 n'est pas piloté à distance, dissipant ainsi toute idée qu'il pourrait être manipulé en coulisses. Sans avoir personnellement observé Figure 01 et posé mes propres questions, il est difficile de vérifier ces affirmations. Il est possible que cette routine ait été pratiquée plusieurs fois par Figure 01. Peut-être s'agit-il de la centième exécution, ce qui expliquerait sa vitesse et sa fluidité impressionnantes. Mais dans l'éventualité où tout cela serait réel à 100%, je dois dire : "Wow. " Juste wow.
None
Résumé du marché du contenu généré par intelligence artificielle (AIGC) Les technologies AIGC optimisent les flux de travail de production, permettant aux entreprises de délivrer du contenu plus rapidement tout en maintenant la cohérence de la marque face à des exigences de marché en constante évolution
Mike Crosby de Circana souligne l’agilité du canal à repérer rapidement les opportunités de croissance, notant une accélération déjà en cours.
Demander à l'outil vidéo d'IA de Google de créer un film sur un médecin voyageant dans le temps et volant dans une cabine téléphonique bleue britannique donne, sans surprise, un résultat ressemblant à Doctor Who.
Dans l’environnement numérique en constante évolution d’aujourd’hui, les entreprises font face à des défis croissants pour maintenir leur visibilité en ligne et leur compétitivité.
Google a lancé Veo 3.1, la dernière version de son générateur vidéo avancé alimenté par une intelligence artificielle, marquant une avancée majeure dans la création de contenu basée sur l'IA.
SOMONITOR est un cadre d'intelligence artificielle explicable innovant conçu pour augmenter l'efficacité et l'efficience des stratégies marketing en combinant l'intuition humaine avec des capacités avancées en intelligence artificielle.
Pendant la saison des fêtes de 2024, l’adoption de chatbots alimentés par l’IA a considérablement amélioré l’expérience d’achat en ligne pour les consommateurs américains, entraînant une hausse notable des ventes.
Automate Marketing, Sales, SMM & SEO
and get clients on autopilot — from social media and search engines. No ads needed
and get clients today