L'utilisation de l'anglais en France

Répondre
Partager Rechercher
Citation :
Publié par Borh
Non parce que de plus en plus de mots ne sont pas traduits ou alors sont mal traduits en oubliant qu'il s'agit de faux amis.
Un exemple classique en séquençage d'ADN : library qu'on a traduit par librairie.

En fait l'immense majorité des mots techniques anglais, mêmes nouveaux, ont des origines françaises/latines plutôt que germaniques (je ne sais pas pourquoi). Donc on les reprends souvent tels quels, même quand ce sont de faux amis. En génétique : sequencing : séquençage, sequencer : sequenceur, alignment : alignement, library : librarie, coverage : couverture
Bon y a des exceptions avec des mots d'origine germanique, mais souvent on a même pas de traduction française, on utilise le terme anglais tel quel : base calling, variant calling, ça se dit tel quel sans traduire.
L'explication est simple, Guillaume le conquérant et ses descendants ont imposé le français chez la noblesse d'ou sera dérivé les matières scientifique, la langue saxonne elle est restée la langue du peuple. Du coup le langage conceptuel est dérivé du français et le langage usuel est dérivé du saxon.

Si tu n'es pas allergique a l'anglais, la vidéo est super intéressante.
Citation :
Publié par Jyharl
Bon bah ça doit juste être moi qui ne sait pas traduire les termes de mon domaine en français vu que je les utilise pas. Désolé.
Pareil. Si tu me demande de traduire "SNP calling" j'en suis incapable. Et ya plein de terme comme ca comme l'a montré Borh dans le domaine de la génétique/bioinfo.

J'ai essayé 2-3 fois de présenter mes posters (ça se dit comme ca en français? Je sais même plus) à des chercheurs en français. C'est juste pas possible. Je suis vite repassé sur l'anglais lol.

Dernière modification par ~Boumy~ ; 31/05/2024 à 11h56.
Même chose ici. Il y a une traduction officielle, mais si je l'utilise personne ne comprendra ce que je dis. Les termes ne sont pas transparents.
Par contre on vient de faire un tournoi pour un nouveau jeu à Lille. On a donc pris pas mal de Français dans le staff, qui disaient parler anglais. Et on a eu un problème récurrent : ils refusaient d'essayer, et dès que quelqu'un leur parlait en anglais, ils cherchaient paniqués un autre arbitre pour s'en occuper à leur place.
Citation :
Publié par ShlacK
- Quand dans mon passage bref a l'aphp, on cherchait a publier notre recherche et l'idee était: les recherches pas tellement intéressantes on publie en francais et le gros travail en anglais pour un impact plus grand.
En fait les articles en Français, c'est généralement des articles didactiques pour de l'enseignement/formation, ou de la vulgarisation.
Ce qu'on appelle les research articles, c'est à dire des articles qui apportent des données scientifiques nouvelles, c'est en Anglais exclusivement.

Les derniers journaux francophones qui publiaient des research articles on disparu je crois à la fin des années 80, mais c'était déjà des journaux marginaux depuis longtemps.
Test :

https://arxiv.org/pdf/2405.19057

Citation :
With the development of high-throughput technologies, genomics datasets rapidly grow in size, including functional genomics data. This has allowed the training of large Deep Learning (DL) models to predict epigenetic readouts, such as protein binding or histone modifications, from genome sequences. However, large dataset sizes come at a price of data consistency, often aggregating results from a large number of studies, conducted under varying experimental conditions. While data from large-scale consortia are useful as they allow studying the effects of different biological conditions, they can also contain unwanted biases from confounding experimental factors. Here, we introduce Metadata-guided Feature Disentanglement (MFD) - an approach that allows disentangling biologically relevant features from potential technical biases. MFD incorporates target metadata into model training, by conditioning weights of the model output layer on different experimental factors. It then separates the factors into disjoint groups and enforces independence of the corresponding feature subspaces with an adversarially learned penalty. We show that the metadata-driven disentanglement approach allows for better model introspection, by connecting latent features to experimental factors, without compromising, or even improving performance in downstream tasks, such as enhancer prediction, or genetic variant discovery. The code for our implemementation is available at https://github.com/HealthML/MFD
Citation :
Publié par chat GPT 3.5
Bien sûr ! Voici la traduction de l'abstract en français :

"Avec le développement des technologies à haut débit, les ensembles de données génomiques croissent rapidement en taille, y compris les données de génomique fonctionnelle. Cela a permis l'entraînement de grands modèles d'apprentissage profond (Deep Learning, DL) pour prédire les résultats épigénétiques, tels que la liaison des protéines ou les modifications des histones, à partir des séquences du génome. Cependant, la grande taille des ensembles de données a un coût en termes de cohérence des données, souvent en agrégeant les résultats d'un grand nombre d'études, réalisées dans des conditions expérimentales variées. Bien que les données provenant de grands consortiums soient utiles car elles permettent d'étudier les effets de différentes conditions biologiques, elles peuvent également contenir des biais indésirables dus à des facteurs expérimentaux confondants. Ici, nous introduisons le Démêlage de Caractéristiques Guidé par les Métadonnées (MFD) - une approche qui permet de démêler les caractéristiques biologiquement pertinentes des biais techniques potentiels. MFD intègre les métadonnées cibles dans l'entraînement du modèle, en conditionnant les poids de la couche de sortie du modèle sur différents facteurs expérimentaux. Il sépare ensuite les facteurs en groupes disjoints et impose l'indépendance des sous-espaces de caractéristiques correspondants avec une pénalité apprise de manière adversariale. Nous montrons que l'approche de démêlage guidée par les métadonnées permet une meilleure introspection du modèle, en reliant les caractéristiques latentes aux facteurs expérimentaux, sans compromettre, voire même améliorer les performances dans les tâches en aval, telles que la prédiction des amplificateurs ou la découverte de variantes génétiques. Le code de notre implémentation est disponible sur https://github.com/HealthML/MFD."
Question pour notre généticien préféré : ça vaut quoi comme traduction ? Je veux dire, c'est clairement "moche" d'un point de vue littéraire, mais est-ce qu'il y a des erreurs manifestes ?
Le problème de chatGPT, c'est que si on le précise pas, il va faire de la traduction hors contexte et littérale.

Globalement elle va la traduction, mais en vrai, y a des termes qu'on utilise tels quels, comme dataset ou enhancer. D'autres qu'on comprend mais le terme d'usage est différent (facteur de confusion au lien de facteur confondant).
Et il y a des trucs que je ne connais pas du tout, donc je ne sais pas si ce qui est utilisé en français. Démêlage par exemple, ça me paraît bizarre, mais c'est peut-être le bon terme, ça je sais pas.
Après Chat GPT n'est pas une IA spécialisée en traduction.

D'ailleurs si tu lui demande ce que vaut la qualité de sa trad par rapport à DeepL il va reconnaître à demi mots que DeepL est plus précis.

Ensuite faudrait connaître ton prompt parce que lui demander seulement de traduire fonctionne peu. Il faut lui donner le contexte, le ton, etc.

Note : Dans le screen ci dessous je ne lui ai pas demandé les qualités de ses concurrents mais comment se situait la qualité de sa traduction par rapport à la concurrence.
Miniatures attachées
Cliquez sur l'image pour la voir en taille réelle

Nom : Screenshot_20240531_125546_Chrome.jpg
Taille : 1440x3088
Poids : 592,8 Ko
ID : 727403  
Citation :
Publié par Jyharl
Après Chat GPT n'est pas une IA spécialisée en traduction.

D'ailleurs si tu lui demande ce que vaut la qualité de sa trad par rapport à Deep ML il va reconnaître à demi mots que Deep ML est plus précis.

Ensuite faudrait connaître ton prompt parce que lui demander seulement de traduire fonctionne peu. Il faut lui donner le contexte, le ton, etc.
"peux tu traduire cet abstract :[abstract]"

Je suis allé au plus basique, avec un moteur dépassé et un prompt indigent. Je pense que ces histoires de traduction (et le métier de traducteur… sauf pour les happy few de très haut niveau qui feront bosser les IA par dizaines) touchent à leurs fins.

Bref, à mon sens, d'ici dix ans, quand tu rédigeras un article scientifique, tu auras un outils qui pourra te le traduire en tagalog ou en elfique, en incorporant le lexique approprié en fonction du domaine concerné. Et inversement pour traduire dans ta langue un papier rédigé en hindi ou en vietnamien.

Et itou pour l'audio. En temps quasi-réel.
Les outils de traduction sur les documents techniques ça peut poser de gros problème de compréhension. J'ai eu ça y'a pas longtemps sur un doc en allemand que j'ai traduit avec deepl et le résultat était plutôt décevant car il traduisait des noms de logiciel et de méthodes alors qu'il aurait pas dû en assumant des fautes de frappe inexistantes (en gros le soft réarrange à sa sauce le mot inconnu et ça donne des trucs... Surprenants. A la limite du contre-sens), rendant le truc vraiment difficile à comprendre.
Quand tu utilise des IA de trad professionnelle, tu es censé lui fournir un glossaire, une liste des traductions préférée (dans le cas où plusieurs termes colleraient) et idéalement un document détaillant le ton à donner.

Et même ainsi il faudra compter au minimum trois mois de relecture et corrections pour entraîner l'IA et avoir un résultat proche voire supérieur à un natif.
Citation :
Publié par Jyharl
Et même ainsi il faudra compter au minimum trois mois de relecture et corrections pour entraîner l'IA et avoir un résultat proche voire supérieur à un natif.
Franchement, quand je vois comment écrivent et parlent les natifs, j'ai un doute.

Surtout, à moins que les modèles actuels n'aient percuté un mur et cessent de progresser, les restrictions et les limitations des softs de traduction récents vont probablement sauter assez vite.
Citation :
Publié par Jyharl
Et les français ils n'ont pas le droit à un traducteur ?
C'est pas dans la liste. L'allemand non plus. Ni l'italien.
la liste n'est pas exhaustive. Ils mettent généralement les langues les plus communément parlées dans la zone. (voire plus, c'est écrit en Khmer chez moi quand on entre a l'hôpital vu la grande communauté Khmer qui habite dans la zone)

la photo aussi que j'ai prise est random, celle que je vois plus souvent ressemble a celle la qui contient le français. des fois on doit trouver l'interprète d'une sous langue parlée dans un pays et vas-y le trouver a l'unique interprète qui parle cette langue car le patient ne communique qu'avec cette langue.

14828-1717172827-2710.png
Citation :
Publié par Aloïsius
Je suis allé au plus basique, avec un moteur dépassé et un prompt indigent. Je pense que ces histoires de traduction (et le métier de traducteur… sauf pour les happy few de très haut niveau qui feront bosser les IA par dizaines) touchent à leurs fins.
C'est exactement la raison pour laquelle, il y a 10 ans, je me suis réorienté professionnellement : la traduction artistique ne paie pas, et la traduction technique consistait déjà, de plus en plus, à relire ce qui était traduit par des bots, sans ML or LMM, mais juste piochant dans les bases de données constituées à partir des traductions déjà effectuées. Et je voyais tous les trimestres la qualité augmenter.
Citation :
Publié par Borh
En gros on n'existe pas.
Hmmmm

Citation :
Publié par Borh
Edit : je précise tout de même, pas la peine de parler un anglais parfait. Les anglophones dans le monde académique ont l'habitude de bosser avec des étrangers qui ont tous un accent, donc si on met pas les accents toniques au bon endroit, ça passe sans problème.
En gros tu précises tout de même que t'es d'accord mais fallait absolument que tu postes pour contredire de façon péremptoire 🤔
Les IA ont déja suffisamment de mal avec le français sans même parler de traduction. Si le langage courant est à peu près maitrisé, le langage professionnel n'y est pas encore. Je teste en ce moment read.ai et c'est de la grande rigolade dès que l'on emploie des termes métier, des noms propres ou des acronymes. On se retrouve avec des blagues du type "la certification de Bim et Doc chez la FNOR."
Du coup à ce stade il faut toujours relire. Je viens de passer 3 semaines à me taper de la doc de certification CE (si vous voulez un motif de suicide, c'en est un pas mal) qui est en anglais, j'ai par curiosité tenter de la traduire par divers biais automatiques (Google trad, Chat GPT etc) et c'est la cata, l'IA à ce stade ne sait pas traduire un acronyme anglais vers son équivalent français. Les documents réglementaires étant bien entendu bardés d'acronymes de partout. Le mieux étant un doc en anglais réfèrant une norme allemande avec son acronyme allemand.

Donc ok, ca avance, mais pour les usages de productivité, c'est pas encore ça. Pour faire de la "simple" traduction de langage courant, ca passe à peu près... mais je n'ai pas besoin d'une IA pour ça.
Citation :
Publié par Touful Khan
Les IA ont déja suffisamment de mal avec le français sans même parler de traduction. Si le langage courant est à peu près maitrisé, le langage professionnel n'y est pas encore. Je teste en ce moment read.ai et c'est de la grande rigolade dès que l'on emploie des termes métier, des noms propres ou des acronymes. On se retrouve avec des blagues du type "la certification de Bim et Doc chez la FNOR."
Du coup à ce stade il faut toujours relire. Je viens de passer 3 semaines à me taper de la doc de certification CE (si vous voulez un motif de suicide, c'en est un pas mal) qui est en anglais, j'ai par curiosité tenter de la traduire par divers biais automatiques (Google trad, Chat GPT etc) et c'est la cata, l'IA à ce stade ne sait pas traduire un acronyme anglais vers son équivalent français. Les documents réglementaires étant bien entendu bardés d'acronymes de partout. Le mieux étant un doc en anglais réfèrant une norme allemande avec son acronyme allemand.

Donc ok, ca avance, mais pour les usages de productivité, c'est pas encore ça. Pour faire de la "simple" traduction de langage courant, ca passe à peu près... mais je n'ai pas besoin d'une IA pour ça.
Mouais, un ChatGPT 4o, si tu lui files le contexte, il n'est pas si dégueulasse, en tout cas c'est bien mieux que beaucoup de traducteurs en ligne, je trouve. Surtout que si tu le corriges, il apprend de ses erreurs ensuite.
Après, c'est ptet pas le niveau d'un traducteur expert dans le domaine, mais pour 20 balles par mois, ça fait quand même le taff.
Citation :
Publié par Aloïsius
Je suis allé au plus basique, avec un moteur dépassé et un prompt indigent. Je pense que ces histoires de traduction (et le métier de traducteur… sauf pour les happy few de très haut niveau qui feront bosser les IA par dizaines) touchent à leurs fins.
Le métier ne va pas disparaître, il va juste être profondément modifié, tu ne seras plus traducteur mais relecteur d'IA (comme c'est déjà le cas en réalité via la MTPE).
Sauf que quand tu crevais déjà la gueule ouverte en étant freelance, bah là tu crèveras la gueule ouverte mais pour 50% moins cher qu'avant.
Citation :
Publié par Hark²
Le métier ne va pas disparaître, il va juste être profondément modifié, tu ne seras plus traducteur mais relecteur d'IA (comme c'est déjà le cas en réalité via la MTPE).
Sauf que quand tu crevais déjà la gueule ouverte en étant freelance, bah là tu crèveras la gueule ouverte mais pour 50% moins cher qu'avant.
Pas forcément. Je pense que la grande majorité des traducteurs vont trouver un nouveau job dans autre chose. Ceux qui resteront feront 50 fois plus de textes qu'avant. Le gros de leur travail consistera à éduquer leurs IA pour les spécialiser dans les domaines précis de leurs clients.

A moins que ce marché ne se fasse entièrement bouffer par les GAFAM bien sûr.
Citation :
Publié par Aloïsius
Pas forcément. Je pense que la grande majorité des traducteurs vont trouver un nouveau job dans autre chose. Ceux qui resteront feront 50 fois plus de textes qu'avant. Le gros de leur travail consistera à éduquer leurs IA pour les spécialiser dans les domaines précis de leurs clients.

A moins que ce marché ne se fasse entièrement bouffer par les GAFAM bien sûr.
éduquer une IA c'est aussi flinguer ta plus value à assez court terme. Mon secteur (composition musicale) est très impacté par l'IA "generative", ce qu'il va rester c'est en job humain c'est une validation et du coup les acteurs humains d'un secteur remplacé pas l'IA ça va être une groupe d'humain avec certes un maitrise technique de leur sujet mais ceux qui avant tout auront une aura d'influencers ie un rapport engagement social/expertise favorable.
Avec sa punchline Nabila à sûrement plus d'impact que n'importe quel spécialiste biologiste du cheveu et dans un souci marketing c'est à ce type d'expert que reviendra l'ultime validation.
A court terme (10 ans) y'a tellement de jobs qui sont flingués, la validation humaine va devenir secondaire.
La maitrise de l'anglais c'est has been, des IA vont classer la pertinence de travaux rédiger par des IA, elles écriraient déjà en martien entre elles que d'ici 5 ans personnes ne s'en rendrait compte
C'est l'étape suivante. Dans un premier temps, il y aura encore des types payés pour nettoyer les ventilos des serveurs, changer les plombs qui sautent etc.
Après, quand nos superbes IA pourront se passer des grouillots chargés de les astiquer...
terminator-director-james-cameron-on-ai-i-warned-you-guys-in_ygpc.1200.jpg

Moi je suis toujours très poli avec chat-GPT/basilisk, c'est plus prudent.
Citation :
Publié par Aloïsius
Test :

https://arxiv.org/pdf/2405.19057




Question pour notre généticien préféré : ça vaut quoi comme traduction ? Je veux dire, c'est clairement "moche" d'un point de vue littéraire, mais est-ce qu'il y a des erreurs manifestes ?
Avec ChatGPT 4o (dernière version) :


Citation :
Avec le développement des technologies à haut débit, les ensembles de données génomiques augmentent rapidement en taille, y compris les données de génomique fonctionnelle. Cela a permis l'entraînement de grands modèles d'apprentissage profond (DL) pour prédire des résultats épigénétiques, tels que la liaison des protéines ou les modifications des histones, à partir de séquences génomiques. Cependant, la taille importante des ensembles de données pose des problèmes de cohérence des données, car elles agrègent souvent des résultats provenant d'un grand nombre d'études réalisées dans des conditions expérimentales variées. Bien que les données des consortiums à grande échelle soient utiles pour étudier les effets de différentes conditions biologiques, elles peuvent également contenir des biais indésirables dus à des facteurs expérimentaux confondants. Ici, nous introduisons la Désentrelacement de Caractéristiques Guidée par les Métadonnées (MFD) - une approche qui permet de séparer les caractéristiques biologiquement pertinentes des biais techniques potentiels. MFD intègre des métadonnées cibles dans l'entraînement du modèle en conditionnant les poids de la couche de sortie du modèle sur différents facteurs expérimentaux. Il sépare ensuite les facteurs en groupes disjoints et impose l'indépendance des sous-espaces de caractéristiques correspondants avec une pénalité apprise de manière adversariale. Nous montrons que l'approche de désentrelacement guidée par les métadonnées permet une meilleure introspection du modèle, en reliant les caractéristiques latentes aux facteurs expérimentaux, sans compromettre, voire en améliorant, les performances dans les tâches en aval, telles que la prédiction des amplificateurs ou la découverte de variantes génétiques. Le code de notre implémentation est disponible sur https://github.com/HealthML/MFD.
Je lui ai demandé de relever les différences :


Citation :
1. Première phrase :
- gpt4o : "les ensembles de données génomiques augmentent rapidement en taille"
- gpt3.5 : "les ensembles de données génomiques croissent rapidement en taille"

2. Deuxième phrase :
- gpt4o : "d'apprentissage profond (DL)"
- gpt3.5 : "d'apprentissage profond (Deep Learning, DL)"

3. Troisième phrase :
- gpt4o : "à partir de séquences génomiques"
- gpt3.5 : "à partir des séquences du génome"

4. Quatrième phrase :
- gpt4o : "pose des problèmes de cohérence des données, car elles agrègent souvent des résultats"
- gpt3.5 : "a un coût en termes de cohérence des données, souvent en agrégeant les résultats"

5. Cinquième phrase :
- gpt4o : "Bien que les données des consortiums à grande échelle soient utiles pour étudier"
- gpt3.5 : "Bien que les données provenant de grands consortiums soient utiles car elles permettent d'étudier"

6. Cinquième phrase (suite) :
- gpt4o : "elles peuvent également contenir des biais indésirables dus à des facteurs expérimentaux confondants."
- gpt3.5 : "elles peuvent également contenir des biais indésirables dus à des facteurs expérimentaux confondants."

7. Sixième phrase :
- gpt4o : "Désentrelacement de Caractéristiques Guidée par les Métadonnées (MFD)"
- gpt3.5 : "Démêlage de Caractéristiques Guidé par les Métadonnées (MFD)"

8. Septième phrase :
- gpt4o : "dissocier les caractéristiques biologiquement pertinentes des biais techniques potentiels"
- gpt3.5 : "démêler les caractéristiques biologiquement pertinentes des biais techniques potentiels"

9. Huitième phrase :
- gpt4o : "incorpore des métadonnées cibles dans l'entraînement du modèle, en conditionnant les poids de la couche de sortie du modèle sur différents facteurs expérimentaux."
- gpt3.5 : "intègre les métadonnées cibles dans l'entraînement du modèle, en conditionnant les poids de la couche de sortie du modèle sur différents facteurs expérimentaux."

10. Neuvième phrase :
- gpt4o : "Il sépare ensuite les facteurs en groupes disjoints et impose l'indépendance des sous-espaces de caractéristiques correspondants avec une pénalité apprise de manière adversariale."
- gpt3.5 : "Il sépare ensuite les facteurs en groupes disjoints et impose l'indépendance des sous-espaces de caractéristiques correspondants avec une pénalité apprise de manière adversariale."

11. Dixième phrase :
- gpt4o : "Nous montrons que l'approche de désentrelacement guidée par les métadonnées permet une meilleure introspection du modèle, en reliant les caractéristiques latentes aux facteurs expérimentaux, sans compromettre, voire en améliorant les performances dans les tâches en aval, telles que la prédiction des amplificateurs ou la découverte de variantes génétiques."
- gpt3.5 : "Nous montrons que l'approche de démêlage guidée par les métadonnées permet une meilleure introspection du modèle, en reliant les caractéristiques latentes aux facteurs expérimentaux, sans compromettre, voire même améliorer les performances dans les tâches en aval, telles que la prédiction des amplificateurs ou la découverte de variantes génétiques."

Les différences concernent principalement le choix des mots ("augmenter" vs "croître", "désentrelacement" vs "démêlage"), l'ajout d'acronymes en anglais dans la deuxième phrase, ainsi que quelques variations mineures dans la formulation des phrases.

Pour terminer, je lui ai demandé laquelle est la plus rigoureuse :

Citation :
La traduction gpt4o semble plus rigoureuse pour plusieurs raisons :

1. Précision des termes :
- gpt4o utilise "augmentent rapidement en taille" au lieu de "croissent rapidement en taille". Le verbe "augmenter" est plus couramment utilisé dans ce contexte.

2. Clarté et cohérence :
- gpt4o : "d'apprentissage profond (DL)" est plus direct et évite la redondance, tandis que gpt3.5 ajoute "Deep Learning" entre parenthèses, ce qui est redondant pour un public francophone.
- "à partir de séquences génomiques" (gpt4o) est plus concis et fluide que "à partir des séquences du génome" (gpt3.5).

3. Structure et style :
- gpt4o : "pose des problèmes de cohérence des données, car elles agrègent souvent des résultats" est plus clair que "a un coût en termes de cohérence des données, souvent en agrégeant les résultats". La structure de la phrase est plus naturelle.
- "Bien que les données des consortiums à grande échelle" (gpt4o) est plus fluide que "Bien que les données provenant de grands consortiums" (gpt3.5).

4. Terminologie technique :
- gpt4o utilise "Désentrelacement de Caractéristiques Guidée par les Métadonnées (MFD)" qui est une traduction directe et précise de "Feature Disentanglement", alors que "Démêlage de Caractéristiques" (gpt3.5) est moins technique et pourrait manquer de précision.

5. Consistance terminologique :
- gpt4o reste consistant avec le terme "désentrelacement" et "dissocier", tandis que gpt3.5 utilise "démêlage" et "démêler", ce qui pourrait introduire une légère variation dans la perception technique.

En résumé, la traduction gpt4o est plus rigoureuse en termes de précision terminologique, clarté, cohérence et consistance.
Je pense qu'en utilisant certains plugins, par exemple des plugins de publications scientifiques, on doit pouvoir augmenter encore la rigueur de la traduction par chat GPT.

Et Chat GPT 5 arrive bientôt, cet été ou septembre (d'après moi).

Le rôle de l'humain dans la traduction prochainement, ça va être de prendre la responsabilité de la qualité de la traduction, imo.
La traduction de GPT 4o me paraît être du français plus agréable à lire. Mais il fait les mêmes erreurs de traduction hors contexte que GPT 3.5.
Citation :
Publié par Borh
La traduction de GPT 4o me paraît être du français plus agréable à lire. Mais il fait les mêmes erreurs de traduction hors contexte que GPT 3.5.
Je lui fais part de ta remarque :

Citation :
Avec le développement des technologies à haut débit, les ensembles de données génomiques augmentent rapidement en taille, y compris les données de génomique fonctionnelle. Cela a permis l'entraînement de grands modèles d'apprentissage profond (Deep Learning, DL) pour prédire des résultats épigénétiques, tels que la liaison des protéines ou les modifications des histones, à partir des séquences génomiques. Cependant, la grande taille des ensembles de données pose des problèmes de cohérence, souvent en agrégeant des résultats provenant d'un grand nombre d'études réalisées dans des conditions expérimentales variées. Bien que les données des grands consortiums soient utiles pour étudier les effets de différentes conditions biologiques, elles peuvent également contenir des biais indésirables dus à des facteurs expérimentaux confondants. Ici, nous introduisons le Démêlage de Caractéristiques Guidé par les Métadonnées (MFD) - une approche qui permet de dissocier les caractéristiques biologiquement pertinentes des biais techniques potentiels. MFD intègre les métadonnées cibles dans l'entraînement du modèle, en conditionnant les poids de la couche de sortie sur différents facteurs expérimentaux. Il sépare ensuite les facteurs en groupes disjoints et impose l'indépendance des sous-espaces de caractéristiques correspondants avec une pénalité apprise de manière adversariale. Nous montrons que l'approche de démêlage guidée par les métadonnées permet une meilleure introspection du modèle, en reliant les caractéristiques latentes aux facteurs expérimentaux, sans compromettre, voire en améliorant les performances dans les tâches en aval, telles que la prédiction des amplificateurs ou la découverte de variantes génétiques. Le code de notre implémentation est disponible sur https://github.com/HealthML/MFD.
Citation :
### Ajustements apportés :
Citation :
1. **Cohérence terminologique :**
Citation :
- Le terme "démêlage" est utilisé de manière cohérente tout au long du texte pour traduire "disentanglement".
Citation :
2. **Clarification des phrases :**
Citation :
- Les phrases ont été relues et ajustées pour une meilleure fluidité et clarté sans changer leur sens.
Citation :
3. **Vérification des termes techniques :**
Citation :
- Tous les termes techniques sont confirmés et correctement traduits.
Citation :
Cette version atteint un niveau de précision et de clarté optimal, tout en respectant le contexte scientifique de l'étude.
Je ne pense pas qu'il puisse faire mieux sans du prompt engenering d'un expert du domaine scientifique étudié ici.

Je lui ai demandé d'expliquer cette étude à des écoliers, des collégiens puis des lycées :

Citation :
### Pour des écoliers (8-11 ans) :
Citation :
Les scientifiques étudient les gènes, qui sont comme des instructions dans notre corps pour nous dire comment grandir et fonctionner. Ils utilisent des ordinateurs très puissants pour essayer de comprendre ces instructions. Mais, comme ils utilisent beaucoup d'informations venant de différentes expériences, cela peut être un peu confus. Alors, ils ont inventé une nouvelle méthode pour s'assurer que les informations qu'ils obtiennent sont correctes, même si elles viennent de différentes sources. C'est comme s'ils utilisaient une loupe spéciale pour voir les parties importantes sans être distraits par les choses moins importantes. Grâce à cette méthode, ils peuvent mieux comprendre comment les gènes travaillent et trouver de nouvelles choses importantes pour notre santé.
Citation :
### Pour des collégiens (12-14 ans) :
Citation :
Les scientifiques utilisent des technologies avancées pour étudier les gènes et comprendre comment ils fonctionnent. Ces études génèrent une énorme quantité de données. Cependant, ces données viennent souvent de nombreuses études différentes, ce qui peut créer des incohérences ou des erreurs. Pour résoudre ce problème, les chercheurs ont développé une méthode appelée "Démêlage de Caractéristiques Guidé par les Métadonnées" (MFD). Cette méthode aide à séparer les informations biologiques importantes des erreurs techniques possibles. En utilisant les métadonnées, qui sont des informations supplémentaires sur les conditions expérimentales, cette méthode améliore la précision et la fiabilité des résultats. Cela permet de mieux comprendre les processus biologiques et d'améliorer les découvertes scientifiques, comme la détection de variantes génétiques ou la prédiction de régions spécifiques du génome appelées amplificateurs.
Citation :
### Pour des lycéens (15-18 ans) :
Citation :
Avec les technologies de pointe, les ensembles de données génomiques augmentent considérablement, incluant des informations sur la fonction des gènes. Les modèles d'apprentissage profond (Deep Learning, DL) sont utilisés pour prédire des résultats épigénétiques, comme la liaison des protéines ou les modifications des histones, à partir de ces séquences génomiques. Cependant, la taille importante de ces ensembles de données entraîne des problèmes de cohérence, souvent dus à l'agrégation de résultats de nombreuses études réalisées dans des conditions expérimentales variées. Bien que ces données provenant de grands consortiums soient utiles pour étudier les effets de différentes conditions biologiques, elles peuvent contenir des biais indésirables dus à des facteurs expérimentaux confondants. Pour remédier à cela, les chercheurs ont introduit le Démêlage de Caractéristiques Guidé par les Métadonnées (MFD), une approche permettant de séparer les caractéristiques biologiquement pertinentes des biais techniques potentiels. En intégrant les métadonnées dans l'entraînement des modèles, MFD conditionne les poids de la couche de sortie sur différents facteurs expérimentaux, séparant ainsi les facteurs en groupes disjoints et imposant l'indépendance des sous-espaces de caractéristiques correspondants avec une pénalité apprise de manière adversariale. Cette approche permet une meilleure introspection du modèle, reliant les caractéristiques latentes aux facteurs expérimentaux, sans compromettre, voire en améliorant les performances dans les tâches en aval, telles que la prédiction des amplificateurs ou la découverte de variantes génétiques.
C'est tout de même merveilleux.
Répondre

Connectés sur ce fil

 
1 connecté (0 membre et 1 invité) Afficher la liste détaillée des connectés