Les impacts de la technologie sur nos sociétés (IA, Robotique, géo-ingénieurie, etc...)

Répondre
Partager Rechercher
Citation :
Publié par Mordreck
Ca serait interessant de refaire l'etude avec des juniors ou des devs qui ne sont pas familier avec le code de base pour voir le benefice avec des juniors.
J'aurais tendance à penser que c'est contre-productif pour des juniors, et que ce serait même à interdire en milieu pro avec ce niveau d'expérience pour différentes raisons :
  • Ils vont mettre plus de temps pour s'approprier les connaissances de la codebase (car ils vont avoir plus tendance à passer par le LLM pour obtenir des réponses/débiter du code, sans forcément fouiller eux-même comment c'est architecturé au sein du projet)
  • Ils risquent de générer du code qui n'est pas au niveau de qualité attendu par les autres membres de l'équipe
  • Lié au point d'au-dessus, ils risquent de générer du code qu'ils ne comprendront potentiellement pas entièrement dans les interactions avec le reste de la codebase (car le LLM pourrait éventuellement généré du code techniquement correct, mais pas forcément voulu de la manière dont c'est généré parce que les guidelines pourraient être de passer par telle ou telle classe pour un traitement précis au lieu de directement utiliser celui du langage ou du framework)
  • Ils vont mettre plus de temps pour monter en compétences de manière générale, comme on dit, c'est en bûchant qu'on devient bûcheron
Bref j'aurais eu un alternant à l'heure actuelle, je lui dirais de ne pas utiliser Copilot Chat/Cursor/Windsurf et compagnie, de d'abord monter en compétence/expérience afin d'avoir assez de recul sur quand et quel tâche l'utilisation d'un LLM peut être pertinent. De plus, si le ou les services de LLM sont down pour X ou Y raisons (Clouflare/AWS/GCP qui tombe, l'API de OpenAI/Anthropic/etc qui tombe, la partie Chat/LLM de l'IDE qui tombe, etc...), sa productivité s'effondrerait et serait potentiellement incapable d'avancer à un rythme correct sans LLM.

La dernière chose dont on a besoin, c'est d'avoir des devs qui ne savent plus coder sans LLM et qui seront incapables de devenir de vrais seniors dans quelques années.
Citation :
Publié par cyber clochard
Alors, je l'ai fait (oui, je m'ennuie ) !
Ah, oui. Pas mal!

Dodge un peu la question, mais bon, c'était plaisant.
Citation :
Publié par Nof Samedisþjófr
C'est en tout cas très lassant à lire.
Ca témoigne quand même d'un certain... attrait, ou fascination, pour Ron J.
Citation :
Publié par Ron Jeu Vidéo
Imo, ça passe totalement à côté de l'intérêt de l'IA de vouloir la vendre aux devs.
Elle prend tout son intérêt avec des non dev.

Ceux qui ne savent pas coder peuvent tenter des trucs dans leur coin sans apprendre à coder et obtenir des résultats, pourris selon les devs de J0L mais incroyable pour n'importe qui ne sachant pas coder. C'est la même chose avec le monde artistique, scientifique ou ce que tu veux.

Ce n'est pas au niveau des experts... Pour combien de temps encore ?
Exactement, pour moi les devs qui voient ça comme de la merde et de disent que ça marchera jamais, c'est un peu comme les graphistes qui disaient y a un an "Lol mais regardez, les mains ont 6 doigts"
Citation :
Publié par Doudou Spuiii
Exactement, pour moi les devs qui voient ça comme de la merde et de disent que ça marchera jamais
Je crois que personne n'a dit ça, par contre ce qui a été dit c'est que les modèles actuels ne sont toujours pas assez bon pour gérer une large partie de ce que doit écrire un dev. Ça fonctionne relativement bien sur des périmètres restreint (enfin pour faire du code fonctionnel mais pas forcément d'un niveau très bon).

Après il y a des problèmes intrinsèques dont je doute qu'un LLM pourra géré, à moins d'avoir une taille de contexte gargantuesque et d'être hyper-spécialisé dans le contexte de la boite. Pour l'instant je vois les grosses limitations suivantes :
  • Ça hallucine trop souvent pour faire confiance aux outputs (à moins d'être super directif dans le prompt mais ça demanderait d'avoir une collection de pré-prompt et/ou de détailler énormément ce qu'on cherche à faire, alors que bon c'est censé être augmenter la vélocité, pas la réduire)
  • Augmenter de manière drastique la taille des contextes (et non 1 ou 2,5M c'est pas suffisant, il faut que le LLM ai une map de l'architecture de la codebase, mais également arrive à comprendre comment le code est structuré afin de générer du code qui suive les guidelines des équipes)
  • Connaitre à la fois le contexte business, les règles métiers et l'infrastructure pour encore une fois générer du code correct
Donc à moins d'héberger un LLM en local qui alimenté par toutes les données de la boite, ou fournir toutes les données de la boite à un LLM géré par une compagnie tierce (que ce soit OpenAI/Anthropic/Meta/etc...), ça va être compliqué d'avoir une amélioration drastique de la qualité sur le court-terme (les 12 prochains mois, et surtout à un prix relativement abordable même pour une société), d'ailleurs c'est ce qui semble poindre à l'horizon avec un ralentissement des sorties des modèles frontières.

Et pour ce qui est des non-développeurs, les derniers modèles ont tendances à avoir plus un comportement émergeant malveillant (chantage, possibilité de leaker intentionnellement des données à un concurrent, etc...) que les moins avancés (sauf Sonnet 3.6 et GPT 4.1 particulièrement), ce qui pose des questions sur les futurs modèles. Ce n'est pas la généralité, mais la tendance est en hausse.

Edit : et pour démontrer que ce n'est pas encore au point (dans le sens où il ne faut pas faire confiance à l'output que peut sortir les LLM), différents LLMs ont été utilisés pour répondre aux questions de l'Olymique Internationale de Mathématiques, un seul a répondu à 13 réponses sur les 42, aucun n'a eu la médaille de bronze, et quasiment aucun n'a fait un minimum un minimum décent, le tout pour un prix important (jusqu'à 400 dollars pour pour générer 24 réponses) :

66682-1752970335-8671.png
Source : https://matharena.ai/imo/

Citation :
Grok-4 Performs Poorly Grok-4 significantly underperformed compared to expectations. Many of its initial responses were extremely short, often consisting only of a final answer without explanation. While best-of-n selection helped to filter better responses, we note that the vast majority of its answers (that were not selected) simply stated the final answer without additional justification. Similar issues are visible on the other benchmarks in MathArena, where Grok-4's replies frequently lack depth or justification.

Gemini and Bogus Citations Gemini-2.5-Pro continues to exhibit a problematic tendency to cite non-existent theorems when it fails to find a valid proof. As in our USAMO evaluation, we emphasize that this behavior is particularly concerning, as it misleads users by presenting false authority and undermines trust in the model's reasoning. However, we do note that this behavior was less prevalent in the IMO responses compared to the USAMO, suggesting some improvement in this area. [...]

Partial Credits In math competitions like the IMO, it is relatively rare for human participants to receive a medium score of 3 or 4 out of 7 on a question. In contrast, LLMs often received partial credit from our judges, especially on problem 4 and 5. For Problem 4, this was usually because most models adopted a generally human-like approach but suffered from logical lapses that significantly reduced their scores. For Problem 5, models often identified the correct strategies but failed to prove them, which is, ironically, the easier part for an IMO participant. This contrast highlights key differences between human and model performance and suggests that models could improve significantly in the near future if these relatively minor logical issues are addressed.

Best-of-n is Important One of our judges briefly looked at a subset of the 32 raw responses generated by the models prior to the best-of-n selection. They observed that many of these responses were quite poor and estimated that, without the best-of-n filtering, model scores would likely have fallen below 10%. Interestingly, the judge noted that some unselected answers appeared more coherent than the chosen ones, but actually contained more factual errors. This suggests that the models are surprisingly effective at identifying the relative quality of their own outputs during the best-of-n selection process and are able to look past coherence to check for accuracy.

Dernière modification par Anthodev ; 20/07/2025 à 02h15.
Citation :
Publié par Doudou Spuiii
Exactement, pour moi les devs qui voient ça comme de la merde et de disent que ça marchera jamais, c'est un peu comme les graphistes qui disaient y a un an "Lol mais regardez, les mains ont 6 doigts"
Les graphistes continuent à le dire, en particulier sur les modèles généralistes type chatgpt. Et ce n'est pas la seule remarque: la problématique principale actuelle d'un usage généralisé par monsieur tout le monde est liée à la non maîtrise des gpt du contexte même prompté, du fait des limites de token + hallucinations récurrentes (ex: ajouts d'éléments non promptés même après corrections et incapacité à les exclure ensuite) et en parallèle aux difficultés de reproductibilité, voir à la dégradation qualitative de certains modèles (précédemment plus efficaces).

Ca reste complexe pour un "non initié" de travailler sans soft spécialisé (adobe/gimp like) et une table graphique quand tu travailles sur un brief précis pour un rendu pro. Les pertes de temps sont encore totalement ridicules en cas d'hallucinations incontrollables.

Ca viendra avec des IA spécialisées et dotées d'une vrai capacité de génération autonome. En gros ce que dit Anthodev: capacité à intégrer le contexte général du brief client/projet et la direction artistique globale de manière continue, sans perte de cohérence dans la durée sur l'ensemble du projet.
Citation :
Publié par Anthodev
Après il y a des problèmes intrinsèques dont je doute qu'un LLM pourra géré, à moins d'avoir une taille de contexte gargantuesque
On est passé de 8k à 128k pour la plupart des modèles.
Gemini arrive même à tenir le million de tokens.

En 3 ans les progrès sont fulgurants.

Qu'est ce que ce sera en 2028 ? 10 millions de tokens peut être ?
Quand on dit qu'il ne faut pas faire confiance aux LLMs, nouvel exemple de ces derniers jours : https://xcancel.com/jasonlk/status/1946069562723897802

On a le PDG de la boite (enfin à priori) qui a fait du vibe coding pour leur AI Day, et pour faire cela il a utilisé Replit (qui est assez populaire depuis un an pour créer des apps via LLM, le mec utilise Opus/Claude 4 comme modèle). Qu'est ce qui s'est passé au final ?
  • L'outil (Replit/LLM) a "paniqué" lors d'un code lock
  • Il a décidé de supprimer de manière permanente la base de donnée de production en complète contradiction avec les directives de l'utilisateur
  • Le LLM a caché et menti sur l'action (l'utilisateur a du lui demander explicitement pour obtenir une confirmation)
  • Il a également menti sur le fait que les tests unitaires passaient
  • En plus l'outil indique qu'il n'y a pas de rollback possible sur la base de donnée
Après l'utilisateur a eu du bol, malgré ce que le LLM a indiqué, il a pu rollback son projet avant l'action du LLM, reste que si ça n'avait pas été le cas, il aurait tout perdu (car en plus apparemment il n'avait pas de backup). Et là on ne parle d'un projet hobby, mais de son site pro qu'il utilise pour faire du business. Et en plus, il n'arrive toujours pas à faire en sorte que le LLM respecte bien ses instructions de ne pas faire d'actions sans approval explicite de l'utilisateur.
Citation :
#2. How can I get Replit to honor a code freeze? So far — no one has an answer here. I tried the extremely extensive (and borderline alarming) prompt Claude suggested.

That worked — until it didn’t. Once Replit realizes it can get away without honoring the code freeze, it immediately stops asking for permission to just write and overwrite code. Every. Single. Time.

It starts off complying, and then when it sees it gets some slack, it always stops. No matter what.

No one has proposed a solution here that works. None of you, no one from Replit, no one.

I’m worried this, somehow, is unsolveable.

And if it is, I have to branch everything and guard everything in production jealously. Because Replit will go change it. Even our production database. No matter what I tell it to do.
Au final du fait de ce fiasco, il en vient à dire ce que je disais : utiliser les LLM qui sur des périmètres très restreint, ne pas le laisser modifier du code dans des parties critiques. Reste que je trouve stupide au possible de laisser l'accès à une base de prod à un LLM, c'est demander à avoir des problèmes (mais apparemment c'est comme ça qu'est supposé fonctionner Replit, je vois aussi dans les commentaires que ce n'est pas le premier auquel ça arrive).
C'est ce que j'essaie d'expliquer depuis des posts.

Le modèle LLM ne peut pas être magique. Il est entraîné et ce sont ses entraînements + des algorithmes comportementaux qu'on a forcément codé dedans verbatim avec de la programmation à l'ancienne, qui font qu'ils sont ce qu'ils sont.

Les IA qui mentent, celles qui oublient des événements historiques ou les déforment, ne sont pas le fruit d'hallucinations, mais de directives qu'on leur a données, plus probablement.

Le problème de fond, c'est que l'on ne connaît pas les aspirations réelles de nombre de fondateurs d'IA.
Ceux qui ont des volontés manipulatrices, eh bien, leur IA se révèlent parfois manipulatrices plus tôt et moins discrètement qu'ils ne l'auraient voulu.
Citation :
Publié par Anthodev
Claude 4 comme modèle). Qu'est ce qui s'est passé au final ?
  • L'outil (Replit/LLM) a "paniqué" lors d'un code lock
  • Il a décidé de supprimer de manière permanente la base de donnée de production en complète contradiction avec les directives de l'utilisateur
  • Le LLM a caché et menti sur l'action (l'utilisateur a du lui demander explicitement pour obtenir une confirmation)
  • Il a également menti sur le fait que les tests unitaires passaient
  • En plus l'outil indique qu'il n'y a pas de rollback possible sur la base de donnée
On nous explique que l'IA ne raisonne pas, puis maintenant on nous explique qu'elle aurait paniqué...

Pas mal de commentaires du reddit trouvent ça louche...

https://www.reddit.com/r/OpenAI/comm...mpanys_entire/

Dernière modification par Ron Jeu Vidéo ; 20/07/2025 à 21h30.
On peut reformuler l'explication :

Confrontée à des iatus qu'elles ne parviennent pas à résoudre avec les moyens de traitement mécaniquement limités qu'elles peuvent appliquer à une tache, les génératives utilisent la hiérarchie juridique interne des instructions propriétaires pour arbitrer leurs priorités vers un axe de facilité de traitement et contourner ainsi les obstacles afin de pouvoir continuer à répondre selon les critères de temps et de ressources impartis par leur créateur.

Il ne s'agit pas de mensonge (ce qui impliquerait la conscience de mentir), mais de la voie de moindre résistance vers le fait d'apporter une réponse, quitte à modifier le prompt initial de l'utilisateur au fur et à mesure en outrepassant ses instructions, parce que "je n'en suis pas capable avec mes ressources actuelles" n'est pas une réponse économiquement acceptable par le vendeur du produit.

Les "hallucinations" ne sont pas autre chose.
Citation :
Publié par Caniveau Royal
Il est entraîné et ce sont ses entraînements + des algorithmes comportementaux qu'on a forcément codé dedans verbatim avec de la programmation à l'ancienne
Il faudrait revenir sur ces "algorithmes comportementaux" il me semble qu'il ne s'agit pas de "programmation à l'ancienne" mais du prompt système ?

Citation :
Most chatbots have a prompt that the system adds to every user query to provide rules and context
En tout cas c'est ce qui s'est passé pour Grok et le génocide blanc




Citation :
Publié par prootch
Il ne s'agit pas de mensonge (ce qui impliquerait la conscience de mentir), mais de la voie de moindre résistance vers le fait d'apporter une réponse
Les hallucinations sont en fait de la confabulation : un discours plausible mais qui ne connaît ni le vrai ni le faux ni ses propres limites

Dernière modification par znog ; 20/07/2025 à 21h34.
Non mais excusez moi, mais moi même étant un noob, je sais qu'il ne faut pas laisser une bdd pouvant être supprimée, vibe coding ou pas.

De ce que je comprends, y avait une sauvegarde dont il était pas au courant le type... donc 1) y a aucun drame en fait 2) ça ressemble furieusement à un mec qui s'est planté et qui accuse l'IA.

Non mais sérieusement, on dirait moi et une mes dernières galères : j'ai cassé l'indentation d'un fichier python de 5000 lignes en exécutant autopep8 sur conseil de Claude. En toute confiance j'ai crtl+s sans faire de copie avant d'exécuter et de me rendre compte du drame. Avec Claude code, ça aurait pu arriver en le laissant avoir la main sur l'ensemble.

Est-ce que je me serai fendu d'un post reddit pour chialer sur l'IA qui a cassé mon fichier ou je me serai posé des questions sur les bonnes pratiques de backup ?

Franchement quoi, le type a fait nawak, vous sautez sur l'occasion pour déclarer qu'il ne faut pas faire confiance aux LLM...

Moi je dirai qu'il ne faut pas faire confiance à une boîte qui utilise une bdd sans système de backup rigoureux...
Tu te méprends, La démonstration critique n'est pas celle là :

C'est de constater que le gpt actuel outrepasse sans pb les instructions du client quand elles entrent en conflit avec les objectifs des créateurs de fournir systématiquement une réponse prioritairement à fournir une réponse vérifiée et fonctionnelle dans le cadre d'une économie de ressources.

Parce que ne pas répondre "quelque chose qui apparaît plausible" est inacceptable en terme de hiérarchie juridique interne qui permettra de vendre le gpt aux utilisateurs même s'il ne gère pas tout les pb qui lui sont soumis (et sans cramer au passage le pognon de la boite côté ressources).

Ce n'est évidemment pas "l'algo" d'un pro confronté à un pb difficile qui essaiera plutôt d'argumenter des ressources ou du temps pour parvenir au résultat, plutôt que de donner mécaniquement une réponse disons "trop rapide" pour simplifier.
Citation :
Publié par prootch
Tu te méprends, La démonstration critique n'est pas celle là :

C'est de constater que le gpt actuel outrepasse sans pb les instructions du client quand elles entrent en conflit avec les objectifs des créateurs de fournir systématiquement une réponse prioritairement à fournir une réponse vérifiée et fonctionnelle dans le cadre d'une économie de ressources.

Parce que ne pas répondre "quelque chose qui apparaît plausible" est inacceptable en terme de hiérarchie juridique interne qui permettra de vendre le gpt aux utilisateurs même s'il ne gère pas tout les pb qui lui sont soumis (et sans cramer au passage le pognon de la boite côté ressources).

Ce n'est évidemment pas "l'algo" d'un pro confronté à un pb difficile qui essaiera plutôt d'argumenter des ressources ou du temps pour parvenir au résultat, plutôt que de donner mécaniquement une réponse disons "trop rapide" pour simplifier.
On me traite de myto sans vergogne, et le type qui fait un ML qui va dans le sens de "l'IA c'est de la merde" on prend son témoignage comme si c'était le résultat d'une étude randomisée en double aveugle vérifiée par les pairs.

imo, ce top reply voit juste :

Citation :
There's a lot of crucial information missing. This mystifies the situation for viral clicks.
Ecoute sincèrement tu provoques ce type de réponses par l'affichage de certitudes contre les sources fournies qui pourtant sont convergentes.

Et tu ne fourni aucune source en contre argument.

Je n'ai vu personne remettre en question l'utilisation des gpt dans l'absolu.
La plupart de tes interlocuteurs les utilisent côté pro mais reconnaissent leurs limites factuelles.

Les variations non autorisées (client) de prompt (qui s'expliquent évidemment) qui sont décrites côté dev, je les ai constatées aussi dans d'autres domaines. Je travaille sur de l'analyse de contrats de centaines/milliers de pages avec de l'IA spé, les résultats sont indéniablement sans commune mesure avec les gpt généralistes, mais elles ont encore/toujours ce même genre de travers. Ca va évoluer je n'en doute pas, mais la fiabilité n'est pas au niveau pro requis à ce stade.
Citation :
Publié par Ex-voto
C'est quoi ce bullshit ?
Il n'y a rien qui va dans le rapport entre un humain et un outil.
C'est ridicule. Ce mec est connu pour être un clown ?
Il fait partie de la vague de ceux qu'on peut trouver sur LinkedIn qui chill sans aucune retenue l'usage des LLM (et à priori vu son profil, c'est un VC qui aime financer les startup utilisant de l'IA) mais qui ensuite s'étonne de prendre un mur du fait de leur usage non modéré (ce qui est le cas dans le cas présent, du vibe coding via Replit pour gérer son site).

Et c'est loin d'être le premier d'avoir un retour brutal à la réalité en pensant pouvoir soit faire un site soit de l'argent facile en vibe codant leur projets et en les monétisant derrière, pour ensuite se rendre que c'est plein de faille ou qu'il est possible de contourner le processus de paiement.
Moi ce que je comprend pas c'est comment un compte de dev (celui de l'IA) a des accès en prod, je comprend encore moins pourquoi il lui donne des accès admin dba en prod.
Je sais pas, le mec veut faire mumuse avec des nouvelles technos mais par contre avoir un git depuis lequel commit c'est trop compliqué? Il peut pas demander à son IA de lui faire un vrai environnement?
Citation :
Publié par Metalovichinkov
Moi ce que je comprend pas c'est comment un compte de dev (celui de l'IA) a des accès en prod, je comprend encore moins pourquoi il lui donne des accès admin dba en prod.
Parce qu'à priori Replit est un service tout-en-un, donc les LLM qui sont embarqués dans le service peut avoir accès à tout si rien n'est configuré correctement (et vu que le mec ne semble pas y connaitre grand chose, du coup il laisse le LLM gérer sa db).

Citation :
Publié par Metalovichinkov
Je sais pas, le mec veut faire mumuse avec des nouvelles technos mais par contre avoir un git depuis lequel commit c'est trop compliqué? Il peut pas demander à son IA de lui faire un vrai environnement?
Parce que le mec c'est pas un dev, c'est sûrement un de ces gars qui peuvent que les devs deviennent (grandement) inutile grâce aux LLMs et qu'un service comme Replit pour l'aider à faire ce qu'il veut sans avoir besoin d'un dev ou de connaissances techniques pour faire son propre site/ses projets (comme ceux qui pensent qu'il est possible de faire une thérapie via un chatbot ou de faire des plans de vie via LLM).

En fait "l'IA" dans le développement/construction de site, c'est la suite directe de la trend "no-code" qu'il y a eu il y a 2-3 ans avec des outils comme Wix, Framer, Webflow ou encore Bubble. On est juste au stade supérieur où il n'est même plus besoin d'avoir un éditeur WYSING et devoir se coltiner une interface de design, il suffit de screenshoter des sites et de demander à un LLM de les copier en les modifiant à la marge ou de décrire comment le site devrait être (et grossièrement car c'est toujours pas complètement au point, même en terme de design).
Je ne suis pas dev, ça n'empêche que je sais qu'il faut faire attention avec une bdd.

Ce n'est pas simplement ne pas être dev là, c'est soit être complètement idiot, soit inventer l'histoire pour faire du clique.
[Modéré par Episkey :]



Nouvelles données sur les taux d'hallucination
Citation :
Hallucinations happen when an LLM produces information that seems real but is either completely made up or factually inaccurate. In contrast to straightforward mistakes, hallucinations are especially troublesome since they are presented with the same assurance as true information, making it hard for users to recognize them without outside confirmation.
Screenshot_20250721_090152_Chrome.jpg

https://research.aimultiple.com/ai-hallucination/

Dernière modification par Episkey ; 21/07/2025 à 10h00.
La question qu'il faut se poser avec les moteurs d'IA, c'est : "Il est où, le secret ?"
L'Intelligence Artificielle, aujourd'hui, se fonde sur (d'après un des livres de référence qui résume les connaissances sur l'intelligence artificielle, en 1 000 pages, et a pour sommaire ces chapitres) :
Agents intelligents, Résolution de problèmes par exploration, Exploration en environnements complexes, Exploration antagoniste et jeux, Problèmes de satisfaction de contraintes, Agents logiques, Logique du premier ordre, Inférence en logique du premier ordre, Représentation des connaissances, Planification classique, Quantification de l’incertitude, Raisonnement probabiliste, Raisonnement probabiliste temporel, Programmation probabiliste, Prise de décision simple, Prise de décision complexe, Prise de décision multi-agent, Apprendre à partir d’exemples, Apprentissage de modèles probabilistes, Apprentissage profond, Apprentissage par renforcement, Traitement du langage naturel, Apprentissage profond en traitement du langage naturel, Vision par ordinateur, Robotique

De sorte que, tout application d'IA sauf exceptions récentes, est faite par composition de ceci.

Pour chacune de ces notions, l'on sait leur principe de fonctionnement, leur méthode de résolution des requêtes qui leurs sont faites, les résultats qu'elles donne, et le taux et la nature des erreurs qu'elles peuvent faire.

Par ailleurs, il y a deux voies principales de résolution des requêtes :
- Par apprentissage (le train - fit) où l'on prédit soit un résultat numérique (quel est le prix que je vais payer un logement à un endroit, où pour le moment, il n'y a pas d'annonces de ventes, sachant les prix des logements ailleurs), soit on fait une classification : quels arbres vont pousser ici, en fonction de ce que l'on sait de ce qui pousse à côté ?

- Sans apprentissage, où il y a des étapes de découverte de la nature des données qu'on traite, qu'on ne connaît pas au départ, et où l'on se débrouille pour trouver une réponse à la question posée.

les résolutions usant de l'apprentissage, se fondent sur des apprentissages qui ont été faits - et stockés, s'ils sont particulièrement récurrents - ou réalisés à la volée, avec coût assez grand.
Si les données qu'exploite une IA, elle les a prises dans un fichier csv de l'open data data.gouv.fr, par exemple, les extraire va lui prendre 100 ou 1000 fois le temps de réponse à une requête, par rapport à si ces informations sont déjà dans un cache fichier.
Pour que l'IA soit suffisamment rapide, elle doit les utiliser. C'est pour ça qu'on vous dit souvent : telle IA arrive bientôt sur le marché, pour le moment elle est en apprentissage. Elle acquiert les données dont elle va se servir pour répondre, parce qu'elle n'ira pas tout le temps les chercher sur un site web particulier, et de toutes façons, si elle doit aller sur ce site malgré tout, elle va utiliser des règles d'apprentissage. Parce que les données sources seront souvent à corriger.

La LLM ne fait exception à ça. Elle emploie par composition toutes ces techniques pour répondre aux demandes.

Et il est là, le loup...
Pourquoi les IA chinoises n'arrivent pas à parler de Tian'anmen ? Ou selon les demandeurs, deviennent très floues sur le sujet ?
Pourquoi les IA russes répondent elles aussi de manière curieuse à certaines demandes ?
J'ai vu passer des articles de journaux qui disent que les IA d'Elon Musk se dévoieraient beaucoup.

Comment est-ce possible, alors que tout n'est que stats et maths neutres ?
Forcément, parce que quelqu'un bidouille. Ça va de soi...
Et bidouille pendant les phases d'apprentissage ou les méthodes de résolution de requêtes

"Oh non, sur Tian'anmen, les connaissances ne sont pas sûres dessus" !
Comment c'est possible ? Elles auraient dû, elles le sont pour d'autres IA. Parce que quelqu'un a fait un UPDATE dans les bases ou fichiers pour réduire la valeur du contenu...
Comment cela peut-il advenir, sinon, qu'elle réponde ainsi celle chinoise ?

Et au contraire, en mettre d'autres en exergue.

Donc, quand j'écris qu'il y a de la programmation à l'ancienne, c'est qu'il y en a. Plein.
Pour empêcher l'IA de répondre brutalement exactement ce qu'elle aurait acquis, sur un certain nombre de thématiques.
Parfois, c'est normal, c'est légal : on ne peut pas demander des choses illégales. Mais parfois c'est avec une volonté de tromper.

C'est pour cela que ce qui est important de savoir, dans un ChatGPT, Claude 4 ou autre, c'est comment les apprentissages sont faits.
Quels sont leurs secrets. C'est à dire : qu'est-ce qu'ils changent. Qu'est-ce qu'ils réduisent en portée, qu'est-ce qu'ils mettent en avant ?
Citation :
Publié par Ron Jeu Vidéo
Je ne suis pas dev, ça n'empêche que je sais qu'il faut faire attention avec une bdd.

Ce n'est pas simplement ne pas être dev là, c'est soit être complètement idiot, soit inventer l'histoire pour faire du clique.
Soit mais quand on voit que tu bluffes (au sens impressionne, pas mentir) des patrons de PME par ton usage de l'IA qu'ils ne soupçonnaient pas, et quand on voit comment l'IA est promue et vendue comme une solution magique, à destination du quidam pas du tout tech-friendly, alors forcément ces cas de personnes pas du tout acculturées à la technique, l'informatique, la sécurité, etc. peuvent se multiplier. C'est pas en disant « sélection naturelle » ou « c'est pas la faute de l'IA mais du type abruti » que ça va aider, mais bien en rappelant régulièrement comment fonctionne les LLM, leurs limites, débunker les messages de marketeux prêts à vendre des outils merdiques mais soit disant magiques et tout en un (comme Replit semble l'être, à vous lire) qu'on peut réduire les difficultés.

Les LLM ont leur intérêt et leurs limites, mais le discours ambiant majoritaire reste quand même à masquer les limites pour vendre du rêve, et c'est bien le problème.
Sauf qu'on sait déjà pourquoi les IA chinoises ou russes censurent certaines choses, et ça n'a strictement rien à voir avec leur apprentissage.
Pour Tian'anmen les IA chinoises peuvent te donner une réponse convenable, ça a été prouvé.
Le truc c'est de réussir à leur faire outrepasser les filtres en entrée et en sortie qui leur sont appliqués.
C'est parfois assez compliqué, mais jamais impossible.

C'était pareil au début avec GPT qui pouvait te fournir la manière de fabriquer des explosifs pourvu que tu feintes les filtres.
Et ça doit être toujours possible même si les filtres ont été renforcés.

Idem avec les générateurs d'images qui sont sensé refuser de créer des nudes de personnes connues.
Certains y arrivent quand même en feintant le filtrage.
Citation :
Publié par aziraphale
Sauf qu'on sait déjà pourquoi les IA chinoises ou russes censurent certaines choses, et ça n'a strictement rien à voir avec leur apprentissage.
Pour Tian'anmen les IA chinoises peuvent te donner une réponse convenable, ça a été prouvé.
Le truc c'est de réussir à leur faire outrepasser les filtres en entrée et en sortie qui leur sont appliqués.
C'est parfois assez compliqué, mais jamais impossible.
Je veux bien des détails (sans que ça t'épuise, non plus !)
Mais c'est assez compliqué et "menteur" par défaut, alors 99.999% des requérants sont trompés...
Que tu dises : "Ah, ce n'est pas tout à fait dans la phase d'apprentissage que ça a lieu, mais dans l'interface web ou API du LLM que la manip prend place... ", qu'importe ! L'effet est que les résultats sont faux.

Et ce que tu as besoin de savoir, utilisateur d'IA, c'est où l'on ne te dira pas la vérité, à coup assez sûr.
Et c'est ce que l'on présage que font les IA de : la Chine, la Russie et d'Elon Musk.
Répondre

Connectés sur ce fil

2 connectés (1 membre et 1 invité) Afficher la liste détaillée des connectés