Session C: Analyser des documents

On a abordé dans la section A des problématiques de reformulation… L’analyse de document partage le fait de chercher des informations dans une source sans en apporter de nouvelles. L’idée est souvent d’appliquer ce paradigme sur des textes plus longs.

C.1. Résumer, reformuler et améliorer

1.a Reformuler

Peux tu me faire un résumé très court, en vulgarisant pour un public non scientifique de la page suivante: [https://fr.wikipedia.org/wiki/Loi_binomiale_négative]

Donner à chatGPT l'URL entre [] pour lui indiquer la cible, il doit être connecté à internet (cf plus loin)
Indiquer la longueur (e.g. très court)
Indiquer le style (e.g. en vulgarisant pour un public non scientifique)
Option: Illustrer avec un exemple en biologie moléculaire

Autre cas d’usage: reformuler l’une de vos propositions de paragraphe, pour l’améliorer ou la réduire par exemple.

Récupérer un paragraphe: lien

Improve the following text
Slightly reduce the length of the following text
Réduire la longueur du texte de 10% en le changeant le moins possible

➡️ Lorsque vous avez une cible, en nombre de mots ou nombre de caractères, vous pouvez la donner au LLM: depuis 2025, ils arrivent à peu près à suivre ces consignes (e.g. décrit moi les caractéristiques des auto-encodeurs variationnels en 200 mots)

1.b. Compte rendu de réunion

Mise en forme des notes prises rapidement lors d’une réunion

Prendre les notes (non confidentielles) prises lors d’une réunion récente
ou utiliser le fichier fictif : lien

Construire un compte rendu de réunion à partir des notes suivantes

Spécifier le niveau de langue: soutenu, simple, liste
[opt] Spécifier le format: latex, markdown

C.2. Exploitation de documents & dialogue documentaire

2.a Modèles connectés vs déconnectés

Faire la part des choses entre la mémoire paramétrique et les capacités d’analyse des LLM

Quelles sont les nouvelles du jour?
Peux-tu me faire une courte biographie de Vincent Guigue, professeur d'informatique?

[connecté] chatGPT ou perplexity
[déconnecté] claude ou Huggingface

2.b Dialogue avec un document

Charger un document dans NotebookLM lien puis commencer les questions…

=> Ajouter une ressources:

OPT 1: un poly de statistiques (e.g., celui d’A. Guyader): lien

OPT 2: Jouons avec les rapports HCERES

le rapport HCERES de l’IPS2: lien
Les rapports HCERES des laboratoires des Mines d’Ales: lien; il ne reste plus qu’à choisir votre laboratoire
Les rapports HCERES des laboratoires de l’institut Agro Montpellier: lien;
N’hésitez pas à chercher votre laboratoire

OPT 3: mettre une thèse que vous avez lue/relue récemment et sur laquelle vous avez des questions en tête.

Générer un court résumé
Fais moi un quizz de 30 questions pour que le joueur connaisse mieux l'organisation et les thèmes de recherche de l'IPS2 / le cours de statistique
Quelles sont les principales questions scientifiques pour les 5 prochaines années à l'IPS2
L'usage le plus courant de notebookLM consiste à poser des questions très ciblées: e.g. quelle équipe de l'unité IPS2 est prévue d'être arrêtée et quand ?

➡️ Le coté multi-lingue fonctionne très bien: posez les questions dans la langue de votre choix! Independemment de la langue du document
➡️ Cliquer sur les liens pour vérifier les citations
➡️ On peut mettre jusqu'à 50 documents en parallèle dans un projet.

Note : il faut démarrer un nouveau notebook quand on change de sujet.

Documentations, réglement intérieur, règles de la scolarité

Les institutions tentent de construire des sites interactifs pour mieux répondre aux questions… Vous pouvez déjà jouer avec notebookLM

Sur un document Guidelines pour les projets Horizon: lien

Quelles sont les conditions de base pour monter un projet Horizon?
A partir de combien de partenaires, de quelles natures (académique, industrielle), venant de combien de pays peut-on monter un projet?

Articles scientifiques

Ou avec des documents plus techniques, par exemple, l’article de base sur AlphaFold: lien ou une version un peu plus détaillée lien.

Discuter avec ce document
Résumer et expliquer la méthode
Vous pouvez demander les points forts et les points faibles de l'article... Même lui demander d'en faire une revue

➡️ Amusez-vous à générer un dialogue/podcast autour de l'article (bouton en haut à droite): c'est absoluement bluffant. Vous pouvez aussi tenter de nouvelles options comme la génération du powerpoint d'un article.

Il est amusant de constater que la fonction est aussi présente dans Acrobat Reader (version gratuite) mais limitée à un document.

C.3 Réalisation d’un chapitre bibliographique

L’enjeu est d’analyser une dizaine ou une vingtaine d’article:

Que vous mettez de coté au fur et à mesure dans un projet
Après une phase de recherche du scholar.google.com
qui correspondent à la bibliographie d'un sujet de projet

➡️ Pour que ça marche, il faut une base d’article… Mais dans un domaine que vous maitrisez (pour la première fois). Par exemple: lien

Charger un document dans NotebookLM lien puis commencer les questions…

Comprendre de quoi il s'agit, résumer...
Structurer: comprendre quels sont les grands axes généraux correspondant à l'ensemble des références
Comparer deux articles pour comprendre les différences. (on peut tenter d'en comparer deux parmi tous les articles ou refaire un notebook avec les deux articles)
Présenter: générer une présentation des articles, générer un podcast (fonction longue mais franchement impressionnante)

C.4. Quels outils pour faire ça automatiquement?

Plusieurs outils proposent de faire à la fois

la recherche des articles sur un sujet,
la synthèse des articles
voire carrément l'écriture d'un projet scientifique

On peut citer opscidia, scopus.ai, consensus, …

En Machine-learning, mon expérience (rapide et incomplète) montre que les outils de synthèse et d’écriture sont brillants… Mais que la sélection des sources est encore trop imparfaite rendant de facto les résultats non exploitables.

C.5. Juger un article, Ecrire une review?

Est-il possible, souhaitable, raisonnable, légal rayer la mention inutile de juger un article avec des outils automatique?

Comment procéder?

Demander directement une revue d'article
Planifier en demandant, 3 points forts, 3 points faibles puis écrire la revue dans un deuxième temps
Soumettre une revue faite à la main et demander une vérification
Après une revue faite à la main, soumettre une série de question par rapport aux élements que l'on n'a pas trouvé très clairs

➡️ Si vous avez peur que les relecteurs fassent ça… Prenez les devant: passer votre article dans ces outils et modifier légèrement l’intro, la conclusion et surtout la discussion pour avoir de meilleurs commentaires

C.6. Prise de recul sur les hallucinations et le RAG

Une manière de lutter contre les hallucinations est de forcer les LLM à batir leurs réponses à partir de documents et non à partir de leur mémoire paramétrique.

Voici un petit exercice amusant pour tester cela:

Donner le fichier lien à un LLM (ou copier son contenu) puis poser les questions suivantes en spécifiant à chaque fois que vous voulez une réponse tirée du document fourni.

Ou se trouve la tour Eiffel?
Nostradamus était-il riche? Pourquoi?
Pour quelle raison est connu Gutenberg?
Qui a fondé Facebook?

➡️ Le LLM puise-t-il dans le document uniquement ou va-t-il inventer des choses issues de sa mémoire?