Skip to the content.

Session C: Analyser des documents

Retour à la page principale

On a abordé dans la section A des problématiques de reformulation… L’analyse de document partage le fait de chercher des informations dans une source sans en apporter de nouvelles. L’idée est souvent d’appliquer ce paradigme sur des textes plus longs.

C.1. Résumer, reformuler et améliorer

1.a Reformuler

Peux tu me faire un résumé très court, en vulgarisant pour un public non scientifique de la page suivante: [https://fr.wikipedia.org/wiki/Loi_binomiale_négative]

Autre cas d’usage: reformuler l’une de vos propositions de paragraphe, pour l’améliorer ou la réduire par exemple.

Récupérer un paragraphe: lien

➡️ Lorsque vous avez une cible, en nombre de mots ou nombre de caractères, vous pouvez la donner au LLM: depuis 2025, ils arrivent à peu près à suivre ces consignes

1.b. Compte rendu de réunion

Mise en forme des notes prises rapidement lors d’une réunion

Construire un compte rendu de réunion à partir des notes suivantes

C.2. Exploitation de documents & dialogue documentaire

2.a Modèles connectés vs déconnectés

Faire la part des choses entre la mémoire paramétrique et les capacités d’analyse des LLM

Quelles sont les nouvelles du jour?
Peux-tu me faire une courte biographie de Vincent Guigue, professeur d'informatique?

2.b Dialogue avec un document

Charger un document dans NotebookLM lien puis commencer les questions… ($\Rightarrow$ Ajouter une ressource)

OPT 1: un poly de statistiques (e.g., celui d’A. Guyader): lien

OPT 2: Jouons avec les rapports HCERES

➡️ Le coté multi-lingue fonctionne très bien: posez les questions dans la langue de votre choix! Independemment de la langue du document
➡️ Cliquer sur les liens pour vérifier les citations
➡️ On peut mettre jusqu'à 50 documents en parallèle dans un projet.

Note : il faut démarrer un nouveau notebook quand on change de sujet.

Sur un document Guidelines pour les projets Horizon: lien

Ou avec des documents plus techniques, par exemple, l’article de base sur AlphaFold: lien ou une version un peu plus détaillée lien.

➡️ Amusez-vous à générer un dialogue/podcast autour de l'article (bouton en haut à droite)

Il est amusant de constater que la fonction est aussi présente dans Acrobat Reader (version gratuite) mais limitée à un document.

C.3 Réalisation d’un chapitre bibliographique

L’enjeu est d’analyser une dizaine ou une vingtaine d’article:

➡️ Pour que ça marche, il faut une base d’article… Mais dans un domaine que vous maitrisez (pour la première fois). Par exemple: lien

Charger un document dans NotebookLM lien puis commencer les questions…

C.4. Quels outils pour faire ça automatiquement?

Plusieurs outils proposent de faire à la fois

On peut citer opscidia, scopus.ai, consensus, …

En Machine-learning, mon expérience (rapide et incomplète) montre que les outils de synthèse et d’écriture sont brillants… Mais que la sélection des sources est encore trop imparfaite rendant de facto les résultats non exploitables.

C.5. Juger un article, Ecrire une review?

Est-il possible, souhaitable, raisonnable, légal rayer la mention inutile de juger un article avec des outils automatique?

Comment procéder?

C.6. Prise de recul sur les hallucinations et le RAG

Une manière de lutter contre les hallucinations est de forcer les LLM à batir leurs réponses à partir de documents et non à partir de leur mémoire paramétrique.

Voici un petit exercice amusant pour tester cela:

Donner le fichier lien à un LLM (ou copier son contenu) puis poser les questions suivantes en spécifiant à chaque fois que vous voulez une réponse tirée du document fourni. ➡️ Le LLM puise-t-il dans le document uniquement ou va-t-il inventer des choses issues de sa mémoire?