Session C: Analyser des documents
On a abordé dans la section A des problématiques de reformulation… L’analyse de document partage le fait de chercher des informations dans une source sans en apporter de nouvelles. L’idée est souvent d’appliquer ce paradigme sur des textes plus longs.
C.1. Résumer, reformuler et améliorer
1.a Reformuler
- Donner à chatGPT l'URL entre [] pour lui indiquer la cible, il doit être connecté à internet (cf plus loin)
- Indiquer la longueur (e.g. très court)
- Indiquer le style (e.g. en vulgarisant pour un public non scientifique)
- Option: Illustrer avec un exemple en biologie moléculaire
Autre cas d’usage: reformuler l’une de vos propositions de paragraphe, pour l’améliorer ou la réduire par exemple.
Récupérer un paragraphe: lien
- Improve the following text
- Slightly reduce the length of the following text
1.b. Compte rendu de réunion
Mise en forme des notes prises rapidement lors d’une réunion
- Prendre les notes (non confidentielles) prises lors d’une réunion récente
- ou utiliser le fichier fictif : lien
- Spécifier le niveau de langue: soutenu, simple, liste
- [opt] Spécifier le format: latex, markdown
C.2. Exploitation de documents & dialogue documentaire
2.a Modèles connectés vs déconnectés
Faire la part des choses entre la mémoire paramétrique et les capacités d’analyse des LLM
Peux-tu me faire une courte biographie de Vincent Guigue, professeur d'informatique?
- [connecté] chatGPT ou perplexity
- [déconnecté] claude ou Huggingface
2.b Dialogue avec un document
Charger un document dans NotebookLM lien puis commencer les questions… ($\Rightarrow$ Ajouter une ressource)
OPT 1: un poly de statistiques (e.g., celui d’A. Guyader): lien
OPT 2: Jouons avec les rapports HCERES
- le rapport HCERES de l’IPS2: lien
- Les rapports HCERES des laboratoires des Mines d’Ales: lien; il ne reste plus qu’à choisir votre laboratoire
- Les rapports HCERES des laboratoires de l’institut Agro Montpellier: lien; N’hésitez pas à chercher votre laboratoire
- Générer un court résumé
- Fais moi un quizz de 30 questions pour que le joueur connaisse mieux l'organisation et les thèmes de recherche de l'IPS2 / le cours de statistique
- Quelles sont les principales questions scientifiques pour les 5 prochaines années à l'IPS2
- L'usage le plus courant de notebookLM consiste à poser des questions très ciblées: e.g. quelle équipe de l'unité IPS2 est prévue d'être arrêtée et quand ?
➡️ Cliquer sur les liens pour vérifier les citations
➡️ On peut mettre jusqu'à 50 documents en parallèle dans un projet.
Note : il faut démarrer un nouveau notebook quand on change de sujet.
Sur un document Guidelines pour les projets Horizon: lien
- Quelles sont les conditions de base pour monter un projet Horizon?
- A partir de combien de partenaires, de quelles natures (académique, industrielle), venant de combien de pays peut-on monter un projet?
Ou avec des documents plus techniques, par exemple, l’article de base sur AlphaFold: lien ou une version un peu plus détaillée lien.
- Discuter avec ce document
- Résumer et expliquer la méthode
- Vous pouvez demander les points forts et les points faibles de l'article... Même lui demander d'en faire une revue
Il est amusant de constater que la fonction est aussi présente dans Acrobat Reader (version gratuite) mais limitée à un document.
C.3 Réalisation d’un chapitre bibliographique
L’enjeu est d’analyser une dizaine ou une vingtaine d’article:
- Que vous mettez de coté au fur et à mesure dans un projet
- Après une phase de recherche du scholar.google.com
- qui correspondent à la bibliographie d'un sujet de projet
➡️ Pour que ça marche, il faut une base d’article… Mais dans un domaine que vous maitrisez (pour la première fois). Par exemple: lien
Charger un document dans NotebookLM lien puis commencer les questions…
- Comprendre de quoi il s'agit, résumer...
- Structurer: comprendre quels sont les grands axes généraux correspondant à l'ensemble des références
- Comparer deux articles pour comprendre les différences. (on peut tenter d'en comparer deux parmi tous les articles ou refaire un notebook avec les deux articles)
- Présenter: générer une présentation des articles, générer un podcast (fonction longue mais franchement impressionnante)
C.4. Quels outils pour faire ça automatiquement?
Plusieurs outils proposent de faire à la fois
- la recherche des articles sur un sujet,
- la synthèse des articles
- voire carrément l'écriture d'un projet scientifique
On peut citer opscidia, scopus.ai, consensus, …
En Machine-learning, mon expérience (rapide et incomplète) montre que les outils de synthèse et d’écriture sont brillants… Mais que la sélection des sources est encore trop imparfaite rendant de facto les résultats non exploitables.
C.5. Juger un article, Ecrire une review?
Est-il possible, souhaitable, raisonnable, légal rayer la mention inutile de juger un article avec des outils automatique?
Comment procéder?
- Demander directement une revue d'article
- Planifier en demandant, 3 points forts, 3 points faibles puis écrire la revue dans un deuxième temps
- Soumettre une revue faite à la main et demander une vérification
- Après une revue faite à la main, soumettre une série de question par rapport aux élements que l'on n'a pas trouvé très clairs
C.6. Prise de recul sur les hallucinations et le RAG
Une manière de lutter contre les hallucinations est de forcer les LLM à batir leurs réponses à partir de documents et non à partir de leur mémoire paramétrique.
Voici un petit exercice amusant pour tester cela:
- Ou se trouve la tour Eiffel?
- Nostradamus était-il riche? Pourquoi?
- Pour quelle raison est connu Gutenberg?
- Qui a fondé Facebook?