L’été 2024 a été une nouvelle période de forte accélération dans le domaine de l’intelligence artificielle, rappelant l’intensité et les rebondissements du film « Souviens-toi… l’été dernier » (d’où mon titre). Cette période a vu de multiples annonces d’envergure par Open AI, Meta, Mistral AI, Apple, Google, X.AI, Midjourney, témoignant d’une intensité concurrentielle toujours très élevée, même au coeur de l’été, sur la période entre le 15/07 et le 23/08. C’est la revue de presse des actualités IA générative de l’été.
Cet article vous permettra de rattraper votre retard sur les actualités IA afin de faire votre rentrée en étant à jour sur ce secteur dynamique ! Cela sonne aussi l’heure de ma propre rentrée en matière de veille IA. Bonne lecture.
Les actus d’Open AI, Meta, Mistral, Apple Intelligence et Midjourney en juillet
En Juillet, les actualités IA générative concernaient majoritairement des annonces de modèles et de nouvelles versions. A noter toutefois le retard du côté d’Apple… voici le détail :
18/07 – Annonce de GPT4o mini : OpenAI a annoncé la sortie de GPT-4o mini, un modèle d’intelligence artificielle (IA) conçu pour être plus abordable et efficace en termes de coûts. Ce modèle est capable de traiter un large éventail de tâches, notamment la compréhension de texte, la vision, et même la multimodalité, tout en offrant des performances supérieures à celles de GPT-3.5 Turbo. GPT-4o mini est disponible dans les API d’OpenAI et est proposé à un tarif compétitif, avec des coûts réduits de 99% par rapport à des modèles précédents. A lire ici : https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
23/07 – Sortie de Llama 3.1 405b : Meta a annoncé la sortie de Llama 3.1, un modèle d’intelligence artificielle (IA) open source qui rivalise avec les meilleurs modèles actuels en termes de capacités et de performances. Llama 3.1 405B est le plus grand modèle open source disponible, offrant des capacités avancées en matière de connaissance générale, de mathématiques, d’utilisation d’outils et de traduction multilingue. Ce modèle est capable de traiter des tâches complexes telles que la résumé de texte long, les agents conversationnels multilingues et les assistants de codage. Llama 3.1 est disponible en téléchargement et peut être personnalisé par les développeurs pour leurs besoins spécifiques. Pour en savoir plus : https://ai.meta.com/blog/meta-llama-3-1/
24/07 – Mistral lance Mistral Large 2 : Mistral AI a annoncé la sortie de Mistral Large 2, un modèle d’intelligence artificielle (IA) qui pousse les limites de l’efficacité en termes de coûts, de vitesse et de performances. Ce modèle est capable de traiter un large éventail de tâches, notamment la compréhension de texte, la vision, et même la multimodalité, tout en offrant des performances supérieures à celles de GPT-4o, Claude 3 Opus, et Llama 3 405B. Mistral Large 2 est disponible sur la Plateforme et est proposé sous la licence Mistral Research, permettant son utilisation et sa modification pour la recherche et les usages non commerciaux. Ce modèle est également disponible sur les plateformes cloud de Google, Azure, Amazon et IBM, facilitant ainsi son accès à un public mondial. Pour le détail sur Mistral AI Large 2.
25/07 – Open AI dégaine Search GPT en prototype : OpenAI a annoncé le lancement de SearchGPT, un prototype de fonctionnalités de recherche basées sur l’intelligence artificielle (IA) conçu pour fournir des réponses rapides et pertinentes avec des sources claires et pertinentes. Ce prototype combine les capacités conversationnelles des modèles d’IA d’OpenAI avec des informations en temps réel du web pour offrir une expérience de recherche plus efficace et plus intuitive. SearchGPT permet aux utilisateurs de poser des questions de suivi et fournit des liens directs vers les sources pertinentes, favorisant ainsi la découverte de contenu de qualité et l’engagement avec les éditeurs et les créateurs. Ce prototype est actuellement testé avec un groupe restreint d’utilisateurs et d’éditeurs, et les meilleures fonctionnalités seront intégrées à ChatGPT à l’avenir. A suivre ici pour les informations sur le prototype de Search GPT.
29/07 – Apple Intelligence va être en retard : Apple a annoncé un retard dans le déploiement de ses premières fonctionnalités d’intelligence artificielle (IA), appelées Apple Intelligence, qui devaient initialement être intégrées à iOS 18 et iPadOS 18 en septembre. Selon des sources proches du dossier, ces fonctionnalités, qui incluent des améliorations de Siri et l’intégration de ChatGPT, seront désormais disponibles avec la mise à jour logicielle iOS 18.1 et iPadOS 18.1 prévue pour octobre. Cette décision permet à Apple de tester et de recueillir des retours des développeurs avant la sortie publique, étant donné les inquiétudes concernant la fiabilité de ces nouvelles fonctionnalités. Les utilisateurs devront attendre octobre, ainsi que la compétitivité d’Apple face à des acteurs majeurs comme Microsoft, Google et OpenA.
29/07 – Meta SAM 2 est disponible : Meta a annoncé la sortie de Segment Anything Model 2 (SAM 2), un modèle d’intelligence artificielle (IA) capable de segmenter n’importe quel objet dans les images et les vidéos en temps réel. SAM 2 étend les capacités du modèle original en permettant la segmentation vidéo, malgré les défis posés par les mouvements rapides des objets, les changements d’apparence et les occultations. Ce modèle ouvre de nouvelles possibilités pour l’édition vidéo, la génération de contenu et les expériences en réalité mixte. Il pourrait également être utilisé pour suivre des objets cibles dans les vidéos, facilitant ainsi l’annotation de données visuelles pour les systèmes de vision par ordinateur, y compris ceux utilisés dans les véhicules autonomes. Découvrir le modèle de segmentation SAM 2.
30/07 – Midjourney annonce sa version 6.1 : Midjourney a annoncé la sortie de la version 6.1 de son générateur d’images par intelligence artificielle (IA), apportant des améliorations significatives en termes de qualité d’image, de cohérence et de texte. Cette nouvelle version offre des images plus précises et détaillées, avec des textures améliorées et une réduction des bugs de pixels. Les outils de redimensionnement ont également été améliorés pour garantir une meilleure qualité. De plus, les modèles personnalisés sont plus efficaces et dotés d’un code pour chaque génération, permettant une réutilisation facile. La génération standard d’images est 25% plus rapide, et une nouvelle commande permet de rallonger le temps de génération pour une meilleure qualité de rendu. Cependant, cette version 6.1 pourrait être une version de transition, car Midjourney prévoit de lancer la version 6.2 à la rentrée.
31/07 – Open AI déploie (lentement) le mode Advanced Voice : OpenAI a commencé à déployer son nouveau mode vocal avancé pour ChatGPT auprès d’un groupe sélectionné d’abonnés à ChatGPT Plus. Ce mode, initialement présenté lors de l’événement de lancement de GPT-4 en mai, a été retardé pour des raisons de sécurité après avoir fait l’objet de critiques pour sa ressemblance avec la voix de Scarlett Johansson. Le nouveau mode vocal offre des améliorations notables, notamment la capacité à ajuster son récit en réponse aux interruptions, et a été testé par plus de 100 testeurs externes pour garantir sa robustesse. OpenAI a également mis en place des filtres pour bloquer les demandes de génération de musique ou d’audio protégé par le droit d’auteur.
Les actualités IA générative de Black Forest, Google, Tiktok, Sam Altman, Sakana, x.AI/Grok en août
Contrairement à l’an dernier, le mois d’août 2024 n’a pas vraiment été un moment de ralentissement pour les actualités IA générative ! Beaucoup d’annonces, de spéculations et de bataille concurrentielle avec notamment Grok 2 et Flux.1 !
01/08 – Black Forest lance Flux.1 et retourne Internet : Les créateurs de Stable Diffusion ont lancé Black Forest Labs, une nouvelle startup qui a sécurisé 31 millions de dollars en financement pour développer FLUX.1, un modèle d’intelligence artificielle (IA) de génération d’images. FLUX.1 est disponible en trois versions : FLUX.1 [pro] pour un usage commercial via API, FLUX.1 [dev] pour un usage non commercial, et FLUX.1 [schnell], une version plus rapide pour le développement personnel et local. Ce modèle, doté de 12 milliards de paramètres, utilise une architecture hybride de diffusion multimodale et parallèle, offrant des performances supérieures à celles de modèles populaires comme Midjourney v6.0 et DALL-E 3. Black Forest Labs vise à développer des modèles de deep learning pour les images et les vidéos, en mettant l’accent sur l’accessibilité et la transparence.
05/08 – Google absorbe les talents de Character.AI : Google a annoncé l’embauche des cofondateurs de Character.AI, Noam Shazeer et Daniel De Freitas, ainsi que d’une partie de leur équipe de recherche. Cette décision fait partie d’une tendance croissante où les grandes entreprises technologiques, comme Microsoft et Amazon, absorbent des startups d’intelligence artificielle (IA) pour renforcer leurs capacités en IA. Character.AI, connu pour son chatbot permettant aux utilisateurs d’interagir avec des personnages réels ou fictifs, avait reçu 150 millions de dollars en financement en mars 2023, mais a finalement été rattrapé par les géants du secteur.
07/08 – ByteDance (TikTok) vient entrer en compétition avec Sora : ByteDance, la société mère de TikTok, a lancé Jimeng AI, une application de génération de vidéos par intelligence artificielle (IA) qui pourrait potentiellement transformer le paysage numérique et concurrencer des acteurs comme OpenAI’s Sora. Actuellement disponible uniquement en Chine, Jimeng AI permet aux utilisateurs de convertir des invites textuelles en vidéos courtes, avec la particularité de supporter les invites en chinois. L’application propose des abonnements mensuels et annuels pour accéder à ses fonctionnalités avancées. Bien que limitée à la Chine pour le moment, l’impact potentiel de Jimeng AI sur le marché mondial de la génération de vidéos par IA est considérable, étant donné la capacité de ByteDance à évoluer rapidement et à dominer les marchés, comme en témoigne son succès avec TikTok.
08/08 – Sam Altman tease le projet Strawberry et crée une rumeur persistante sur 𝕏 : Sam Altman, le PDG d’OpenAI, a teasé un nouveau projet appelé « Project Strawberry » sur la plateforme 𝕏. Bien que les détails soient encore rares, il est spéculé que ce projet pourrait être lié à une nouvelle intelligence artificielle (IA) capable de navigation autonome sur Internet et de recherche approfondie. Les rumeurs suggèrent que Project Strawberry pourrait être une étape importante dans l’évolution des capacités d’IA d’OpenAI, potentiellement dépassant les fonctionnalités de ChatGPT. La communauté de l’IA est en ébullition avec des spéculations sur les fonctionnalités et les implications potentielles de ce projet encore secret.
13/08 – Sakana lance AI Scientist : Sakana AI a lancé « The AI Scientist », une intelligence artificielle (IA) générative capable de mener des recherches scientifiques de manière autonome. Ce modèle, basé sur de grands modèles de langage (LLM), peut générer des idées de recherche, rédiger des articles scientifiques, exécuter des expériences, visualiser les résultats et décrire ses processus de recherche. L’objectif de Sakana AI est de révolutionner la recherche scientifique en automatisant le processus de recherche et de développement, permettant ainsi aux chercheurs de se concentrer sur des tâches plus complexes et créatives. Le coût de production d’un article scientifique avec « The AI Scientist » est estimé à seulement 15 dollars, ce qui est considérablement moins cher que les méthodes traditionnelles.
13/08 – Google bat OpenAI sur le mode vocal avancé et revient (un peu) dans la course : Google a lancé Gemini Live, une fonctionnalité de voix avancée pour son modèle d’intelligence artificielle (IA) Gemini, qui permet aux utilisateurs d’interagir avec l’IA en langage naturel et même d’interrompre la conversation comme lors d’un appel téléphonique. Cette fonctionnalité est disponible en anglais sur l’application Gemini pour les appareils Android avec un abonnement Gemini Advanced à 19,99 dollars par mois, et une version iOS ainsi que le support pour d’autres langues sont prévus dans les prochaines semaines. Gemini Live offre des conversations fluides et naturelles, idéales pour le brainstorming, la préparation de conversations importantes ou simplement pour discuter de divers sujets. L’IA peut répondre et s’adapter en temps réel, et peut même fonctionner en mode mains libres, permettant aux utilisateurs de continuer leurs interactions même lorsque leur appareil est verrouillé ou exécute d’autres applications en arrière-plan.
15/08 – Lancement de Grok 2 mini (avec Flux.1) puis de Grok 2 sur 𝕏 : Elon Musk a annoncé le lancement de Grok 2, une nouvelle intelligence artificielle (IA) développée par X.ai, la société d’intelligence artificielle qu’il a fondée. Grok 2 est conçu pour offrir des réponses plus précises et plus utiles que son prédécesseur, avec une capacité améliorée à comprendre le contexte et à fournir des informations pertinentes. Cette mise à jour est une étape importante dans l’évolution de l’IA de X.ai, visant à fournir des outils plus performants et plus fiables pour les utilisateurs. Grok 2 est aujourd’hui un modèle de classe GPT4 associé à un des meilleurs générateurs d’image (Flux.1) pour le prix le plus faible du marché, le tout, lancé sur une base de plusieurs centaines de millions d’utilisateurs de 𝕏.
21/08 – OpenAI ouvre le fine-tuning sur GPT4o : OpenAI a annoncé la disponibilité de la personnalisation fine (fine-tuning) pour son modèle d’intelligence artificielle (IA) GPT-4o, ce qui permet aux développeurs d’adapter le modèle à leurs besoins spécifiques. Cette fonctionnalité permet d’améliorer les performances du modèle pour des tâches particulières, telles que l’ajustement du ton et de la structure des réponses, ainsi que la capacité à suivre des instructions complexes spécifiques à un domaine. Les développeurs peuvent désormais personnaliser GPT-4o pour améliorer son efficacité et réduire les coûts, avec des tarifs de 25 dollars par million de tokens pour la formation et de 3,75 dollars par million de tokens d’entrée et 15 dollars par million de tokens de sortie pour l’inférence. De plus, OpenAI offre jusqu’à 1 million de tokens de formation gratuits par jour jusqu’au 23 septembre pour encourager l’expérimentation et l’adoption de cette technologie.
22/08 – Ideogram 2.0 vient aussi concurrencer Midjourney : Ideogram a lancé la version 2 de son modèle d’intelligence artificielle (IA) pour la génération d’images, et marque une étape importante dans l’évolution de ses capacités. Cette nouvelle version offre des améliorations significatives en termes de personnalisation, de photoréalisme et d’orientation design. Les utilisateurs peuvent désormais spécifier des schémas de couleurs personnalisés et contrôler plus précisément le type et le style d’image générée à partir de prompts textuels. La fonctionnalité « Magic Prompt » permet de prendre une requête simple et de la raffiner à l’aide de l’IA, tandis que les options de rendu rapide ou de qualité sont toujours disponibles. Ideogram 2 se démarque par sa capacité à suivre précisément les prompts, y compris la spécification de polices et de couleurs, et à générer des images réalistes d’objets et de lieux. La fonction « design » permet de créer des images à plat, dessinées plutôt que photographiques, offrant ainsi une grande flexibilité pour les créateurs.
23/08 – Salesforce lance ses agents IA : Salesforce a annoncé le lancement d’agents d’intelligence artificielle (IA) conçus pour soutenir les équipes de vente. Ces agents IA sont capables d’automatiser des tâches répétitives, d’analyser des données pour identifier des opportunités de vente, et de fournir des recommandations personnalisées pour améliorer l’efficacité des ventes. Les équipes de vente peuvent intégrer ces agents IA dans leurs processus pour gagner du temps et se concentrer sur des tâches à valeur ajoutée.
Ces annonces du mois d’août qui ont rythmé les acualités IA générative ne doivent pas non plus faire oublier la mise en application effective en Europe de l’AI Act depuis le début du mois !
Si vous ne l’avez pas encore parcouru, je vous rappelle l’étude FNEGE sur l’impact de l’IA générative dans l’enseignement supérieur en management. Je sens que la rentrée va être dense au regard de toutes ces annonces, d’autant que ce que j’ai pu écrire pour la rentrée 2023, il y a un an reste tout à fait valable.
Voici les liens de rattrapage :