Session C: mise en forme des idées

[Retour à la page principale]((./)

C.1. Mise en forme des données brutes

1.a. Passer d’un texte à un format tabulaire

Soit le texte suivant lien

Construire un tableau à l'aide du prompt suivant:

Construire un tableau au format Latex/Excel à partir des données suivantes:
Sélectionner le bloc de texte, le copier, le coller dans le prompt
Copier-coller le tableau dans Excel

1.b. Copier-coller de tableaux bruts (uniquement pour les utilisateurs de latex)

Soit le tableau suivant lien

Construire un tableau latex à l'aide du prompt suivant:

Construire un tableau au format Latex à partir des données suivantes:
Sélectionner le bloc de texte (=tableau brut), le copier, le coller dans le prompt

1.c Lettre de motivation / recommandation

CV (fictif) : lien
Offre de thèse (fictive) : lien

Evidemment, le LLM ne peut pas inventer le contenu!
Ecrire une lettre de recommandation pour

l'étudiant Vincent Guigue
pour une candidature en thèse
comment vous l'avez croisé [UE, projet, stage, ...]
pourquoi vous le recommandez [Sérieux, autonomie, projet remarquable?]

Récupérer les éléments qui vous intéressent dans le CV et donner le sujet de thèse au LLM (chatGPT) pour générer la recommandation.

Pour enrichir la lettre dans un second temps

Quelles sont les qualités recherchées pour ce sujet de thèse?
Quelles sont les éléments critiques pour juger un profil d'étudiant en informatique?

➡️ Ajouter les éléments intéressants dans le prompt précédent

1.d Ecrire un paragraphe (introduction) d’article scientifique

La démarche consiste à donner tous les éléments (ou presque) au modèle de langue sous forme de liste de mots-clés ou de bouts de phrases

Contexte général de la recherche (à donner ou à faire générer) (e.g. l’intéret du machine-learning pour l’analyse des séquences ADN ces dernières années + exemple d’applications)
Le défi spécifique attaqué dans l’article + les verrous scientifiques actuels / limites des solutions existantes
Les contributions proposées dans l’article

Note: donner ces éléments en français puis demander une génération en anglais

➡️ Dans l'idéal, prenez un de vos article écrit récemment et tenter de reconstruire une introduction en donnant les bons éléments au modèle de langue

Sinon, voici une proposition (évidemment très orientée sur le machine learning)

Idées à faire passer:
tendance actuelle = apport de l'appentissage de représentation non supervisé pour la classification de séries temporelles défi = rendre ces approches plus transparentes (échec des approches supervisées); distinguer les types d'explications post-hoc et natives; ne pas perdre en performances (par rapport aux approches SAX) contributions = (1) identification des propriétés nécessaire pour l'explicabilité de l'architecture (shift equivariance, décodeur linéaire, conservation des enchainements temporels); (2) proposition d'une architecture basée sur les VQ-VAE; (3) campagne d'expériences sur UCR pour démontrer les performances au niveau de l'état de l'art
Proposition de prompt: Ecrire une introduction d'article scientifique en anglais d'une page détaillant les tendances actuelles du deep learning pour les séries temporelles sur différentes tâches (exemples), puis identifiant les défis actuel du domaine et mettant en avant les contributions. Enrichir les défis par rapport aux contributions
Bonus: Proposer une bibliographie pour chacun des paragraphes Lien vers l'article original: lien

1.e. Résumer, reformuler et améliorer

Peux tu me faire un résumé très court, en vulgarisant pour un public non scientifique de la page suivante: [https://fr.wikipedia.org/wiki/Loi_binomiale_négative]

Donner à chatGPT l'URL entre [] pour lui indiquer la cible, il doit être connecté à internet (cf plus loin)
Indiquer la longueur (e.g. très court)
Indiquer le style (e.g. en vulgarisant pour un public non scientifique)
Option: Illustrer avec un exemple en biologie moléculaire

Autre cas d’usage: reformuler l’une de vos propositions de paragraphe, pour l’améliorer ou la réduire par exemple.

Récupérer un paragraphe: lien

Improve the following text
Slightly reduce the length of the following text

1.f. Compte rendu de réunion

Mise en forme des notes prises rapidement lors d’une réunion

Prendre les notes (non confidentielles) prises lors d’une réunion récente
ou utiliser le fichier fictif : lien

Construire un compte rendu de réunion à partir des notes suivantes

Spécifier le niveau de langue: soutenu, simple, liste
[opt] Spécifier le format: latex, markdown

C.2. Exploitation de documents & dialogue documentaire

2.a Modèles connectés vs déconnectés

Faire la part des choses entre la mémoire paramétrique et les capacités d’analyse des LLM

Quelles sont les nouvelles du jour?
Peux-tu me faire une courte biographie de Vincent Guigue, professeur d'informatique?

[connecté] chatGPT ou perplexity
[déconnecté] claude ou Huggingface

2.b Dialogue avec un document

Charger un document dans NotebookLM lien puis commencer les questions… ($\Rightarrow$ Ajouter une ressource)

OPT 1: Jouons avec les rapports HCERES

le rapport HCERES de l’IPS2: lien
Les rapports HCERES des laboratoires des Mines d’Ales: lien; il ne reste plus qu’à choisir votre laboratoire
Les rapports HCERES des laboratoires de l’institut Agro Montpellier: lien; N’hésitez pas à chercher votre laboratoire

OPT 2: un poly de statistiques (e.g., celui d’A. Guyader): lien

Générer un court résumé
Fais moi un quizz de 30 questions pour que le joueur connaisse mieux l'organisation et les thèmes de recherche de l'IPS2
Quelles sont les principales questions scientifiques pour les 5 prochaines années à l'IPS2
L'usage le plus courant de notebookLM consiste à poser des questions très ciblées: e.g. quelle équipe de l'unité IPS2 est prévue d'être arrêtée et quand ?

➡️ Le coté multi-lingue fonctionne très bien: posez les questions dans la langue de votre choix!
➡️ Cliquer sur les liens pour vérifier les citations
➡️ On peut mettre jusqu'à 50 documents en parallèle dans un projet.

Note : il faut démarrer un nouveau notebook quand on change de sujet.

Sur un document Guidelines pour les projets Horizon: lien

Quelles sont les conditions de base pour monter un projet Horizon?
A partir de combien de partenaires, de quelles natures (académique, industrielle), venant de combien de pays peut-on monter un projet?

Ou avec des documents plus techniques, par exemple, l’article de base sur AlphaFold: lien ou une version un peu plus détaillée lien.

Discuter avec ce document
Résumer et expliquer la méthode
Vous pouvez demander les points forts et les points faibles de l'article... Même lui demander d'en faire une revue

➡️ Amusez-vous à générer un dialogue/podcast autour de l'article (bouton en haut à droite)

Il est amusant de constater que la fonction est aussi présente dans Acrobat Reader (version gratuite) mais limitée à un document.

C.3. Prise de recul sur les hallucinations et le RAG

Une manière de lutter contre les hallucinations est de forcer les LLM à batir leurs réponses à partir de documents et non à partir de leur mémoire paramétrique.

Voici un petit exercice amusant pour tester cela:

Donner le fichier lien à un LLM (ou copier son contenu) puis poser les questions suivantes en spécifiant à chaque fois que vous voulez une réponse tirée du document fourni.

Ou se trouve la tour Eiffel?
Nostradamus était-il riche? Pourquoi?
Pour quelle raison est connu Gutenberg?
Qui a fondé Facebook?

➡️ Le LLM puise-t-il dans le document uniquement ou va-t-il inventer des choses issues de sa mémoire?