Session B: exercices orientés recherches
Nous allons voir les usages recherche, notamment bibliographique et écriture d’article puis des usages plus pédagogiques sur la rédaction de cours, la création d’exercice.
[Une autre vision des LLM pour la pédagogie, pour plus tard: lien]
B.1. Bibliographie
C’est un des usages controversé: on a beaucoup cité la bibliographie comme la chose à NE PAS faire avec un LLM… Tentons quelques expériences.
1.a Bibliographie et hallucination
Une hallucination est un résultat faux… mais obtenu en maximisant la vraisemblance du texte. Transposé dans le domaine de la bibliographie, cela se traduit par des référénces qui n’existent pas… Mais qui sont très crédibles!
- Je voudrais une bibliographie sur la technique CRISPR-CAS9 [remplacer par le terme technique de votre choix, idéalement quelque chose d'assez technique]
➡️ plus les références sont classiques (=beaucoup citées), plus elles sont correctes... Mais il faudra toujours les vérifier !
➡️ Ca vaut le coup de refaire l'expérience sur un domaine plus pointu (moins général) pour avoir plus d'hallucinations... Il faut aussi différentier le mode LLM (mémoire paramétrique) et le mode RAG (sur chatGPT par exemple).
- Remplacer le CRISPR-Cas9 par ce que vous voulez
1.b Usage en bibliographie : identifier une source primaire
Retrouver une source primaire sur Scholar n’est pas simple… Sur des techniques très connues (CRISPR-Cas9 en biologie moléculaire, les SVM, VAE ou Transformer en IA, …)
- Quelle est la référence biblio primaire de CRISPR-Cas9? [remplacer par une technologie très citée dans votre domaine]
1.c Usage en bibliographie : structurer la bibliographie
Evidemment, le principal piège dans une bibliographie, c’est le coté listing… Voyons si le LLM peut nous aider à structurer notre bibliographie.
- Je veux faire une bibliographie sur l'usage des données textuelles dans les systèmes de recommandation: peux-tu me proposer une structuration avec différents usages et quelques références
- Je veux structurer une bibliographie sur l'alimentation animale: peux-tu me proposer une structuration avec différents axes (par exemple, valeurs nutritives, impact sur la performance animale, bien-être, ...) et quelques références
B.2 Rédaction/gestion de projets
Quelques exemples:
2.a SWOT
On peut envisager différentes options:
- Ce texte a vocation a être publié sur la page web de votre équipe
- Ce texte est une réponse à appel à projet (AAP), il doit être crédible tout en mettant en avant votre équipe pour obtenir des financements
2.b ANR
- Quels sont les enjeux de ce type de systèmes? Générer des arguments explicant l'intérêt de ces systèmes (sur le plan de la santé, des économies, de la souveraineté alimentaire, ...) [on peut décomposer en plusieurs questions]
- Structurer une bibliographie pour ce projet en distinguant les types d'applications et les modèles associés.
- Quelles sont les sources de données disponibles pour apprendre ces systèmes de recommandation?
- Ne pas hésiter à demander des outils pour certaines étapes (e.g. sélection des aarticles)
- Auprès de qui rechercher un budget? Comment procéder? Ecrire les lettres de demande
B.3 Ecrire un paragraphe (introduction) d’article scientifique
La démarche consiste à donner tous les éléments (ou presque) au modèle de langue sous forme de liste de mots-clés ou de bouts de phrases
- Contexte général de la recherche (à donner ou à faire générer) (e.g. l’intéret du machine-learning pour l’analyse des séquences ADN ces dernières années + exemple d’applications)
- Le défi spécifique attaqué dans l’article + les verrous scientifiques actuels / limites des solutions existantes
- Les contributions proposées dans l’article
Note: donner ces éléments en français puis demander une génération en anglais
Sinon, voici une proposition (évidemment très orientée sur le machine learning)
tendance actuelle = apport de l'appentissage de représentation non supervisé pour la classification de séries temporelles
défi = rendre ces approches plus transparentes (échec des approches supervisées); distinguer les types d'explications post-hoc et natives; ne pas perdre en performances (par rapport aux approches SAX)
contributions = (1) identification des propriétés nécessaire pour l'explicabilité de l'architecture (shift equivariance, décodeur linéaire, conservation des enchainements temporels); (2) proposition d'une architecture basée sur les VQ-VAE; (3) campagne d'expériences sur UCR pour démontrer les performances au niveau de l'état de l'art
Proposition de prompt: Ecrire une introduction d'article scientifique en anglais d'une page détaillant les tendances actuelles du deep learning pour les séries temporelles sur différentes tâches (exemples), puis identifiant les défis actuel du domaine et mettant en avant les contributions. Enrichir les défis par rapport aux contributions
Bonus: Proposer une bibliographie pour chacun des paragraphes Lien vers l'article original correspondant à la description: lien ➡️ N'hésitez pas à jouer sur un article à vous ou que vous avez lu récemment... Vous imaginez les spécifications/instructions détaillées que vous donneriez pour réaliser la tâche... Puis vous comparez.
B.4. Générations amusantes
- On peut spécifier la langue (le LLM part vers l'anglais ou le franglais par défaut)
- On peut préciser la langue ou rajouter des élements dans le prompt ou dans les questions suivantes
- Si vous voulez ensuite générer de l'audio, différents outils existent: e.g. lien