Publicité
Les performances de l'IA dans la
manipulation du langage
Article d'expert

Vendredi 05 Mars 2021 à 10h14 par ATLANTIC FINANCE

Les performances de l'IA dans la manipulation du langage


En dépit de leur performance, les outils de traitement automatique de langues dont sont friands les utilisateurs, car leur suggèrent des mots avec lesquels finir leurs phrases, inquiètent parfois. Le GPT-3 élaboré par OpenAI et sorti en mi-2020 en est un exemple, une application capable de produire des textes tellement naturels qu’il est difficile de les différencier des ceux écrits par des hommes. Il y a aussi BERT élaboré par Google qui fournit l’analyse sémantique indispensable à un grand nombre d’applications. Ces dernières vont de la recherche d’informations jusqu’à la traduction automatique.

Qu’est-ce que ces applications peuvent réellement faire ? Comment s’y prennent-elles ? Que risque-t-on en les utilisant ?

Concrètement, le fonctionnement de ces IA se base sur l’analyse des gigantesques volumes d’informations langagières pour en obtenir un modèle de langage spécifique. GPT-3 s’y prend par exemple en fournissant un nouveau mot pour compléter une suite de mots ou d’unités linguistiques dans un ordre conventionnel. Il parvient ainsi à construire une phrase ou un passage correct dans la langue travaillée. L’outil est cependant conçu pour ne pas fournir la même phrase ou le même paragraphe via un fragment préalable. Il est finement élaboré pour générer une quantité illimitée de textes à partir de ces mêmes éléments. Cela en fait un outil très performant dont les utilisateurs adorent se servir.

Un tel fonctionnement n’est toutefois pas une nouveauté en soi, car on l’a déjà analysé et exploité depuis le début du 20ème siècle au moins. En effet, les outils de correction orthographique, de transcription de paroles ou de traduction automatique se servaient déjà de cette technique depuis les années 70.

Dans la transcription de la parole, l’outil choisit par exemple parmi différents mots possibles le mot le plus adéquat suivant les 2 ou 3 mots qui le précèdent. C’est une technique simple, mais très performante, surtout quand le nombre de mots à travailler est relativement important, car permet d’obtenir des résultats précis.

Ce modèle vient d’une étape d’observation appelée apprentissage. Il s’agit de l’étude d’un gigantesque nombre d’exemples, ensuite de l’encodage des informations comme l’enregistrement du contexte gauche de tous les mots d’un passage ou d’une phrase donnée.

Une Intelligence artificielle fait beaucoup de « lectures »

Leur complexité différencie toutefois les modèles de langage récents de ceux qui existaient auparavant. En effet, les tout récents ont nécessité un énorme volume de textes voire des milliers et des milliards de mots pour être parfaitement mis au point. Cette complexité se définit suivant le nombre de paramètres utilisés, pouvant aller jusqu’à des centaines par mot et qui représentent des contextes d’utilisation spécifiques. Pour GPT-3, on en compte jusqu’à 175 Mds, le volume de documents utilisés pour la conception du modèle l’est aussi. Le modèle a nécessité des centaines de milliards de mots existants sur le Net, ce qui dépasse largement ce qu’une personne adorant lire peut espérer faire toute sa vie.

D’ailleurs, il ne s’agit plus de restreindre le contexte aux mots sur la gauche du mot concerné, les réseaux de neurones entrent aussi en compte. Il en est de même pour les modèles récents appelés transformers ou les « T » dans BERT et GPT-3. Ceux-ci ont en effet facilité le développement de techniques performantes en explorant dans le contexte les contenus linguistiques favorables à l’analyse même s’il s’agit de séquences discontinues par exemple.

Ces modèles sont très efficaces, mais sont également trop variés et complexes qu’ils sont difficiles à comprendre. En théorie, ils enregistrent des données sur les mots et sur leur usage dans les différents contextes existants. Ainsi, dans la pratique, ils peuvent généraliser comme le fait GPT-3 quand générant un texte, il arrive à gérer sans aucune faute les accords de verbe ainsi que la concordance des temps, même dans des phrases complexes. Certes, il peut faire des erreurs, mais très rarement, sur des phénomènes internes à la phrase.

Comment ces erreurs peuvent-elles exister ? GPT-3 a bien-t-il enregistré toutes les possibilités certifiées ou existantes dans les informations qui ont servi à l’apprentissage ? A-t-il peut-être déduit une règle plus généralisée sur le concept d’accord ? Ces questions suscitent de vifs débats et une partie importante de la recherche actuelle vise à explorer ces modèles et à appréhender leur fonctionnement ainsi que l’information encodée.

Répéter sans comprendre le sens

Ce dont on est sûr est qu’en dépit de leur prouesse légendaire, ces applications restent quand même très « idiotes ». Certes, elles manipulent des mots, produisent des phrases réalistes, mais ne connaissent rien du monde réel. Ce ne sont que des perroquets qui répètent les mots sans en comprendre le sens. Comme les données avec lesquelles on les a conçues incluent aussi des informations chiffrées ou des programmes informatiques, ces outils peuvent effectuer de simples opérations mathématiques et générer du code informatique. Certains de leurs calculs peuvent ainsi être faussés, même sur des cas simples sans qu’on sache pourquoi.

C’est exactement ce qui se passe quand, au début, leurs textes sont corrects, mais deviennent de plus en plus absurdes après 1 ou 2 paragraphes. Cela vient de leur conception même qui ne permet pas de contrôler ce que ces outils vont produire. Aussi, il n’est pas si aisé de les combiner avec des bases de connaissances structurées extérieures pour les rendre tels des systèmes capables de répondre correctement à des questions judicieuses sur le domaine juridique ou médical par exemple. Quoi qu’il en soit, même à ce niveau, on reconnaît déjà leur performance obtenue des données accumulées depuis la Toile.

Les côtés négatifs du langage artificiel

À l’instar de tout progrès scientifique, ces applications ont leurs côtés positifs et côtés négatifs. Parmi les premiers, il y a leur capacité à produire des textes pratiquement corrects et cohérents tant sur le plan grammatical que syntaxe et même sur la tonalité. En effet, relativement simples, ils s’adaptent à différents usages :

 générer des textes,

 concevoir des quizz ou des questions-réponses,

 traduire automatiquement des phrases, etc.

Ce sont les utilisations les plus recherchées en ligne actuellement.

Les côtés négatifs de ces applications se traduisent en outre par le risque d’inonder le Net d’un nombre incalculable de fake news et de textes erronés. La recherche et l’usage de ces modèles sont aussi susceptibles de faire monter de manière conséquente l’empreinte carbone du monde digital. En effet, ce dernier a déjà des conséquences néfastes sur l’environnement et en proposer d’autres soi-disant moins polluants ne règle pas le problème.
L’autre souci auquel on ne trouve pas encore de solution est que ces outils reflètent les informations sur lesquelles ils sont entraînés. Ils risquent ainsi de produire encore plus de biais dans la société en général.

On a aussi précisé qu’il n’y a que les GAFA, outre quelques entreprises numériques de grande envergure, qui peuvent produire ces applications. Cela pose la question quant aux relations entre ces entreprises et les États concernant leur puissance et leur régulation.


Pour en savoir plus


ATLANTIC FINANCE

Conseil en Fusion Acquisition dédié au secteur IT. ESN, Editeurs de logiciels, technologies et Internet. Le coeur de notre activité est de vous présenter des cédants ou des acquéreurs.
ATLANTIC FINANCE
Ile-de-France ( France )
Les dernières actualités de ATLANTIC FINANCE
11/09/2025 ATLANTIC FINANCE conseil l'ESN IDEANOVA dans sa cession à SIMPHONIS
15/04/2025 ATLANTIC FINANCE conseille l'éditeur de logiciels JLB INFORMATIQUE dans sa cession à CALICO
14/04/2025 ATLANTIC FINANCE a accompagné les actionnaires d'EDILOGIC dans le cadre de leurs négociations avec WESOFT
10/04/2025 ATLANTIC FINANCE conseille l'éditeur de logiciels 7OPTEAM dans sa cession à NOMADIA
25/11/2024 Qu’est-ce que les produits constatés d’avance ou PCA ?
14/10/2024 Dispositif Dutreil et transmission d'entreprise familiale
08/10/2024 Anticiper les difficultés d’entreprise
30/09/2024 Le bilan du barème des indemnités de licenciement
26/07/2024 Nomination d'un commissaire aux comptes dans une SAS : Obligatoire ou non ?
18/06/2024 L'accord de confidentialité ou NDA
31/05/2024 Comment valoriser une entreprise en bourse ?
20/05/2024 Tout sur les ESN ou les SSII
26/03/2024 ATLANTIC FINANCE conseille l'éditeur de logiciels WELLNESS MANAGEMENT dans sa cession à MEDISPACE
22/03/2024 Bien rédiger la lettre d'intention, LOI, pour sécuriser la transaction
12/03/2024 Comment instaurer une politique de sécurité informatique performante ?
26/02/2024 La procédure de notation Banque de France
12/02/2024 ATLANTIC FINANCE conseille l'éditeur SAVSOFT dans sa cession au groupe LE 16 CORP
12/02/2024 Quel avenir pour le Mainframe ?
29/01/2024 La chute des NFT en chiffres
12/01/2024 Les USA se décident à encadrer l'IA
29/12/2023 Pénurie de profils en sécurité informatique
15/12/2023 URSSAF : Procédure d'un contrôle
04/12/2023 La place du numérique dans les TPE et PME
21/11/2023 Cinq manières d’optimiser la sécurité informatique de son entreprise
07/11/2023 Qu'est-ce qu'un Pacte d'Associés ?
23/10/2023 Conseils d'experts : Les cabinets de fusions acquisitions spécialisés
09/10/2023 Comment trouver un conseil pour vendre une entreprise informatique ?
22/09/2023 Comment préparer la cession d'une entreprise informatique ?
18/09/2023 ATLANTIC FINANCE conseille l'éditeur de logiciels PROSIM dans sa cession au groupe industriel FIVES
11/09/2023 Le support en informatique
28/08/2023 Tendances 2023 du marché informatique en France
28/07/2023 Impact de l'IA sur l'IT
18/07/2023 Tout sur le système de gestion intégré
05/07/2023 Tout sur le low-code
19/06/2023 La Data Science
19/05/2023 Le contrat freelance en informatique (IT)
05/05/2023 Qu'est-ce que le SaaS, Software as a Service ?
24/04/2023 Qu'est-ce qu'un Owner Buy Out ou OBO ?
07/04/2023 Les emplois IT nés des TIC
27/03/2023 Les concepts essentiels en gestion de projets en ESN
10/03/2023 Piratage de cryptomonnaie : Pourquoi ?
13/02/2023 Quels outils utiliser pour digitaliser son siège d'entreprise ?
27/01/2023 Qu’est-ce que le feature engineering ?
13/01/2023 Qu'est-ce que le portefeuille d'identité numérique européen ?
04/01/2023 Tout sur le système expert
19/12/2022 No code : Les développeurs n’écrivent plus de lignes de codes
05/12/2022 Contrat de licence logiciel et contrat SaaS : Quelles différences ?
25/11/2022 Fusion-acquisition dans les centres de données : Chiffre record pour 2022
18/11/2022 Tout sur le blog : définition et caractéristiques
14/11/2022 Les métiers IT qui recrutent le plus dans l’Hexagone
07/11/2022 Qu'est-ce que le Data Mining ?
28/10/2022 Qu’est-ce que le Cloud hybride ?
21/10/2022 Plateformes de Cloud Computing : lutter contre les menaces informatiques
14/10/2022 Le machine learning
12/10/2022 ATLANTIC FINANCE sur l’émission Tech&Co de BFM Business
07/10/2022 Responsable de données : pourquoi un turnover élevé ?
30/09/2022 Les employés IT ukrainiens dans les tourmentes de la guerre
23/09/2022 Sécurité informatique : le cadre réglementaire européen va être renforcé
19/09/2022 Qu’est-ce que la data préparation en machine learning et comment fonctionne-t-elle ?
09/09/2022 Qu’est-ce le deep learning ou l’apprentissage profond ?
02/09/2022 Comment réussir son projet de Robotic Process Automation ?
26/08/2022 Le DNS, un élément fondamental de l’entreprise, mais aussi une faille de sécurité
24/08/2022 Qu’est-ce la data preparation en machine learning et comment fonctionne-t-elle ?
05/08/2022 Qu'est-ce qu'un leveraged buy-out ou LBO ?
29/07/2022 Cyberattaque par e-mail : Comment continuer ses activités d’entreprise ?
25/07/2022 Informatique quantique, à l’origine de changements dans l'Intelligence Artificielle
15/07/2022 Perte de profils techniques chez les ESN : les raisons
11/07/2022 Qu’est-ce une base de connaissances ?
04/07/2022 Ce que les crédits cloud gratuits cachent
27/06/2022 Tous les chiffres sur le marché de l’Internet des objets en France
17/06/2022 Qu'est-ce qu'une ESN et comment fonctionne-t-elle ?
10/06/2022 Tout sur le machine learning
03/06/2022 Quand les éditeurs de logiciels contrôlent les données de leurs clients pour mieux les rendre dépendants
30/05/2022 Les ESN doivent s’occuper de leur propre mutation digitale
20/05/2022 La relance économique numérique profite aux numéros un français de la tech
16/05/2022 La virtualisation numérique, une technologie en passe d'envahir le monde
14/04/2022 ATLANTIC FINANCE conseille GAMMA SOFT dans sa cession à l'éditeur américain TALEND
11/04/2022 Comment choisir sa licence open source : guide
01/04/2022 Quels facteurs SEO influenceront le référencement local en 2022 ?
28/03/2022 CNIL, bientôt un texte sur l'obligation des commerçants à informer leurs clients sur l'utilisation de leurs données
22/03/2022 Le Web3, la nouvelle version d’Internet
14/03/2022 Le numérique comme thème de la campagne présidentielle ?
04/03/2022 Les ESN en France
25/02/2022 Big Data : Interpréter des données pour créer de la valeur
18/02/2022 Des opérateurs télécom se mettent à vendre leurs antennes
14/02/2022 Regain d'intérêt des opérateurs télécom pour le satellite
04/02/2022 Cybersécurité, association de Google et Thales pour un « cloud de confiance »
28/01/2022 Le dual track ou le plan B des startup
27/01/2022 La relance économique numérique profite aux numéros un français de la tech
10/01/2022 Hausse exceptionnelle des salaires des talents dans les secteurs IT
03/01/2022 Fibre optique : La France vers l'atteinte de son objectif
27/12/2021 Vote définitif de la loi sur le piratage
20/12/2021 Les entreprises dans la Tech se disputent les talents en IT
10/12/2021 Financement des startups : 1 Mrd€ investis depuis 10 ans par le BPIFRANCE
03/12/2021 Les milliards d'investissements dédiés aux start-ups
30/11/2021 French tech : un CA record en 2020
22/11/2021 Les fintechs harcelées par les investisseurs
15/11/2021 Les start-ups allemandes misent sur les robots intelligents
05/11/2021 Non fungible token, un marché de plus de 3 Mds de dollars
04/11/2021 Levée du plus grand fonds tech européen de croissance par EURAZEO
22/10/2021 Fusions acquisitions : Montée en flèche des prix
13/10/2021 Les start-ups de la sécurité informatique ont de l’ambition
31/05/2021 Les data centers de plus en plus nombreux dans l'Hexagone
21/05/2021 Cybercriminalité : rançongiciels et assurances
17/05/2021 Cryptomonnaies et fusions acquisitions
10/05/2021 Intelligence Artificielle et moralité dans les entreprises
04/05/2021 RGPD : grosses sanctions
22/04/2021 Le secteur numérique et les femmes
15/04/2021 Les métiers qui vont émerger de l’intelligence artificielle
08/04/2021 La tech sous la menace d’attaques informatiques
02/04/2021 C'est quoi une ESN, Entreprise de Services Numériques ?
29/03/2021 Capital-risque : bonne résistance de la France
12/03/2021 La santé digitale évolue
05/03/2021 Les performances de l'IA dans la manipulation du langage
26/02/2021 Sociétés IT en Bourse : très belle année 2020 pour la tech
19/02/2021 La santé digitale mise à l’honneur au CES
15/02/2021 2 milliards pour les technologies quantiques
05/02/2021 La Covid accélère la digitalisation
29/01/2021 Les cibles françaises attirent les acquéreurs
21/01/2021 Responsabilité pénale d’une société absorbante
19/01/2021 Rachat d'une société en redressement judiciaire par ses actionnaires
08/01/2021 Augmenter le capital social ?
31/12/2020 L'obligation du dividende dans un contexte difficile
28/12/2020 Les opérations de distressed M&A
18/12/2020 Les prix repartent à la hausse dans la fusion-acquisition
11/12/2020 La gérance de fait : les risques juridiques et sociaux
09/12/2020 Sécuriser les données des sociétés acqusises
08/12/2020 Impacts d'une mauvaise évaluation en Private Equity
Dispositif Dutreil et transmission d'entreprise familiale
Qu’est-ce que les Produits Constatés d’Avance ou PCA ?
Qu’est-ce que les Produits Constatés d’Avance ou PCA ?