Session C: mise en forme des idées
[Retour à la page principale]((./)
C.1. Mise en forme des données brutes
1.a. Passer d’un texte à un format tabulaire
Soit le texte suivant lien
- Construire un tableau au format Latex/Excel à partir des données suivantes:
- Sélectionner le bloc de texte, le copier, le coller dans le prompt
- Copier-coller le tableau dans Excel ➡️ Vous pouvez améliorer le rendu en donnant des précisions sur le format de tableau souhaité (par exemple tidy, merci, V. Ranwez)
1.b. Copier-coller de tableaux bruts (uniquement pour les utilisateurs de latex)
Soit le tableau suivant lien
- Construire un tableau au format Latex à partir des données suivantes:
- Sélectionner le bloc de texte (=tableau brut), le copier, le coller dans le prompt
1.c Lettre de motivation / recommandation
CV (fictif) : lien
Offre de thèse (fictive) : lien
Ecrire une lettre de recommandation pour
- l'étudiant Vincent Guigue
- pour une candidature en thèse
- comment vous l'avez croisé [UE, projet, stage, ...]
- pourquoi vous le recommandez [Sérieux, autonomie, projet remarquable?]
Pour enrichir la lettre dans un second temps
- Quelles sont les qualités recherchées pour ce sujet de thèse?
- Quelles sont les éléments critiques pour juger un profil d'étudiant en informatique?
1.d Ecrire un paragraphe (introduction) d’article scientifique
La démarche consiste à donner tous les éléments (ou presque) au modèle de langue sous forme de liste de mots-clés ou de bouts de phrases
- Contexte général de la recherche (à donner ou à faire générer) (e.g. l’intéret du machine-learning pour l’analyse des séquences ADN ces dernières années + exemple d’applications)
- Le défi spécifique attaqué dans l’article + les verrous scientifiques actuels / limites des solutions existantes
- Les contributions proposées dans l’article
Note: donner ces éléments en français puis demander une génération en anglais
Sinon, voici une proposition (évidemment très orientée sur le machine learning)
tendance actuelle = apport de l'appentissage de représentation non supervisé pour la classification de séries temporelles
défi = rendre ces approches plus transparentes (échec des approches supervisées); distinguer les types d'explications post-hoc et natives; ne pas perdre en performances (par rapport aux approches SAX)
contributions = (1) identification des propriétés nécessaire pour l'explicabilité de l'architecture (shift equivariance, décodeur linéaire, conservation des enchainements temporels); (2) proposition d'une architecture basée sur les VQ-VAE; (3) campagne d'expériences sur UCR pour démontrer les performances au niveau de l'état de l'art
Proposition de prompt: Ecrire une introduction d'article scientifique en anglais d'une page détaillant les tendances actuelles du deep learning pour les séries temporelles sur différentes tâches (exemples), puis identifiant les défis actuel du domaine et mettant en avant les contributions. Enrichir les défis par rapport aux contributions
Bonus: Proposer une bibliographie pour chacun des paragraphes Lien vers l'article original: lien
1.e. Résumer, reformuler et améliorer
- Donner à chatGPT l'URL entre [] pour lui indiquer la cible, il doit être connecté à internet (cf plus loin)
- Indiquer la longueur (e.g. très court)
- Indiquer le style (e.g. en vulgarisant pour un public non scientifique)
- Option: Illustrer avec un exemple en biologie moléculaire
Autre cas d’usage: reformuler l’une de vos propositions de paragraphe, pour l’améliorer ou la réduire par exemple.
Récupérer un paragraphe: lien
- Improve the following text
- Slightly reduce the length of the following text
1.f. Compte rendu de réunion
Mise en forme des notes prises rapidement lors d’une réunion
- Prendre les notes (non confidentielles) prises lors d’une réunion récente
- ou utiliser le fichier fictif : lien
- Spécifier le niveau de langue: soutenu, simple, liste
- [opt] Spécifier le format: latex, markdown
C.2. Exploitation de documents & dialogue documentaire
2.a Modèles connectés vs déconnectés
Faire la part des choses entre la mémoire paramétrique et les capacités d’analyse des LLM
Peux-tu me faire une courte biographie de Vincent Guigue, professeur d'informatique?
- [connecté] chatGPT ou perplexity
- [déconnecté] claude ou Huggingface
2.b Dialogue avec un document
Charger un document dans NotebookLM lien puis commencer les questions… ($\Rightarrow$ Ajouter une ressource)
OPT 1: Jouons avec les rapports HCERES
- le rapport HCERES de l’IPS2: lien
- Les rapports HCERES des laboratoires des Mines d’Ales: lien; il ne reste plus qu’à choisir votre laboratoire
- Les rapports HCERES des laboratoires de l’institut Agro Montpellier: lien; N’hésitez pas à chercher votre laboratoire
OPT 2: un poly de statistiques (e.g., celui d’A. Guyader): lien
- Générer un court résumé
- Fais moi un quizz de 30 questions pour que le joueur connaisse mieux l'organisation et les thèmes de recherche de l'IPS2
- Quelles sont les principales questions scientifiques pour les 5 prochaines années à l'IPS2
- L'usage le plus courant de notebookLM consiste à poser des questions très ciblées: e.g. quelle équipe de l'unité IPS2 est prévue d'être arrêtée et quand ?
➡️ Cliquer sur les liens pour vérifier les citations
➡️ On peut mettre jusqu'à 50 documents en parallèle dans un projet.
Note : il faut démarrer un nouveau notebook quand on change de sujet.
Sur un document Guidelines pour les projets Horizon: lien
- Quelles sont les conditions de base pour monter un projet Horizon?
- A partir de combien de partenaires, de quelles natures (académique, industrielle), venant de combien de pays peut-on monter un projet?
Ou avec des documents plus techniques, par exemple, l’article de base sur AlphaFold: lien ou une version un peu plus détaillée lien.
- Discuter avec ce document
- Résumer et expliquer la méthode
- Vous pouvez demander les points forts et les points faibles de l'article... Même lui demander d'en faire une revue
Il est amusant de constater que la fonction est aussi présente dans Acrobat Reader (version gratuite) mais limitée à un document.
C.3. Prise de recul sur les hallucinations et le RAG
Une manière de lutter contre les hallucinations est de forcer les LLM à batir leurs réponses à partir de documents et non à partir de leur mémoire paramétrique.
Voici un petit exercice amusant pour tester cela:
- Ou se trouve la tour Eiffel?
- Nostradamus était-il riche? Pourquoi?
- Pour quelle raison est connu Gutenberg?
- Qui a fondé Facebook?