Session B: exercices orientés recherches

Nous allons voir les usages recherche, notamment bibliographique et écriture d’article puis des usages plus pédagogiques sur la rédaction de cours, la création d’exercice.

B.1. Bibliographie

C’est un des usages controversé: on a beaucoup cité la bibliographie comme la chose à NE PAS faire avec un LLM… Tentons quelques expériences.

1.a Bibliographie et hallucination

Une hallucination est un résultat faux… mais obtenu en maximisant la vraisemblance du texte. Transposé dans le domaine de la bibliographie, cela se traduit par des référénces qui n’existent pas… Mais qui sont très crédibles!

Je voudrais une bibliographie sur la technique CRISPR-CAS9 [remplacer par le terme technique de votre choix, idéalement quelque chose d'assez technique]

➡️ Tester les différentes références: si >90% sont bonnes, que faut-il en conclure?
➡️ plus les références sont classiques (=beaucoup citées), plus elles sont correctes... Mais il faudra toujours les vérifier !
➡️ Ca vaut le coup de refaire l'expérience sur un domaine plus pointu pour avoir plus d'hallucinations... Il faut aussi différentier le mode LLM (mémoire paramétrique) et le mode RAG (sur chatGPT, consensus ou scopus.ai par exemple).

Il est possible de demander des choses plus précises:

Générer une bibliographie sur la technique CRISPR-Cas9: distinguer les références qui précèdent cette technique, les références qui fondent CRISPR-Cas9 et les avancées récentes sur ces architectures.

Remplacer le CRISPR-Cas9 par ce que vous voulez

➡️ Encore et toujours une histoire de véracité: il faut vérifier que les références existent... Et sont bien pertinentes!
➡️ Il est étonnant (?) de constater que les résultats peuvent être intéressants.

Ces approches se fondent (ou se fondaient jusqu’en 2025) sur la mémoire paramétrique. Evidemment, c’est complètement différent avec des outils comme:

https://consensus.app/ accessible rapidement avec un compte gmail
scopus.ai plus accessible directement
elicit
plugin zotero
scispace

L’enjeu est de séparer & évaluer deux propriétés distinctes de ces outils: 1) cherchent-ils les bons articles? 2) sont-ils capables d’extraire les bonnes informations?

➡️ On a régulièrement la seconde propriété sans la première, ce qui donne des choses étranges.
➡️ Ne pas passer trop de temps ici, on va y revenir avec notebookLM dans le chapitre suivant

1.b Usage en bibliographie : identifier une source primaire

Retrouver une source primaire sur Scholar n’est pas simple… Sur des techniques très connues (CRISPR-Cas9 en biologie moléculaire, les SVM, VAE ou Transformer en IA, …), les articles plus récents sortent d’abord. On peut alors tenter:

Quelle est la référence biblio primaire de CRISPR-Cas9? [remplacer par une technologie très citée dans votre domaine]

➡️ Ces articles étant très cités, les résultats sont plus fiables (mais jamais parfait)

1.c Usage en bibliographie : structurer la bibliographie

Evidemment, le principal piège dans une bibliographie, c’est le coté listing… Voyons si le LLM peut nous aider à structurer notre bibliographie.

Je veux faire une bibliographie sur l'usage des données textuelles dans les systèmes de recommandation: peux-tu me proposer une structuration avec différents usages et quelques références
Je veux structurer une bibliographie sur l'alimentation animale: peux-tu me proposer une structuration avec différents axes (par exemple, valeurs nutritives, impact sur la performance animale, bien-être, ...) et quelques références
Concernant les auto-encodeurs, quelles sont les grandes familles d'application d'une part et les principales variables (e.g. VAE) d'autre part. Structurer une ébauche de bibliographie sur ces deux axes.

B.2 Rédaction/gestion de projets de recherche

La fin des textes martyres et autre section incontournables mais peu intéressantes à écrire?

2.a SWOT

Générer un texte d'un demi page sur les usages de l'IA dans votre métier/votre équipe de recherche en mode SWOT (Strengths, Weaknesses, Opportunities, Threats). Ajouter des informations sur votre équipe sous forme de liste de mots clés.
On peut envisager différentes options:

Ce texte a vocation a être publié sur la page web de votre équipe
Ce texte est une réponse à appel à projet (AAP), il doit être crédible tout en mettant en avant votre équipe pour obtenir des financements

➡️ Il faut donner une description de votre équipe, sous la forme d'un texte brut (copier-coller), sous la forme d'un lien URL (à condition d'avoir un chatbot connecté), sous la forme d'un document

2.b ANR

Je veux déposer un projet ANR sur le développement de systèmes de recommandation en nutrition [remplacer par votre sujet de prédilection!].

Quels sont les enjeux de ce type de systèmes? Générer des arguments explicant l'intérêt de ces systèmes (sur le plan de la santé, des économies, de la souveraineté alimentaire, ...) [on peut décomposer en plusieurs questions]
Structurer une bibliographie pour ce projet en distinguant les types d'applications et les modèles associés.
Quelles sont les sources de données disponibles pour apprendre ces systèmes de recommandation?

Organiser un évènement sans oublier d’étape… Ou chiffrer cette organisation (avec toujours cet enjeu de ne rien rater).

Je veux organiser un séminaire sur les nouvelles techniques autour des petits ARN pour les plantes de 2 jours avec des inscriptions gratuites pour les orateurs et payantes pour les participants dans le cadre d'une université francaise. Quelles sont les grandes étapes? Par ou commencer?

Ne pas hésiter à demander des outils pour certaines étapes (e.g. sélection des aarticles)
Auprès de qui rechercher un budget? Comment procéder? Ecrire les lettres de demande

B.3 Ecrire un paragraphe (introduction) d’article scientifique

La démarche consiste à donner tous les éléments (ou presque) au modèle de langue sous forme de liste de mots-clés ou de bouts de phrases

Contexte général de la recherche (à donner ou à faire générer) (e.g. l’intéret du machine-learning pour l’analyse des séquences ADN ces dernières années + exemple d’applications)
Le défi spécifique attaqué dans l’article + les verrous scientifiques actuels / limites des solutions existantes
Les contributions proposées dans l’article

Note: donner ces éléments en français puis demander une génération en anglais

➡️ Dans l'idéal, prenez un de vos article écrit récemment et tenter de reconstruire une introduction en donnant les bons éléments au modèle de langue

Sinon, voici une proposition (évidemment très orientée sur le machine learning)

Idées à faire passer:
tendance actuelle = apport de l'appentissage de représentation non supervisé pour la classification de séries temporelles défi = rendre ces approches plus transparentes (échec des approches supervisées); distinguer les types d'explications post-hoc et natives; ne pas perdre en performances (par rapport aux approches SAX) contributions = (1) identification des propriétés nécessaire pour l'explicabilité de l'architecture (shift equivariance, décodeur linéaire, conservation des enchainements temporels); (2) proposition d'une architecture basée sur les VQ-VAE; (3) campagne d'expériences sur UCR pour démontrer les performances au niveau de l'état de l'art
Proposition de prompt: Ecrire une introduction d'article scientifique en anglais d'une page détaillant les tendances actuelles du deep learning pour les séries temporelles sur différentes tâches (exemples), puis identifiant les défis actuel du domaine et mettant en avant les contributions. Enrichir les défis par rapport aux contributions
Bonus: Proposer une bibliographie pour chacun des paragraphes Lien vers l'article original correspondant à la description: lien ➡️ N'hésitez pas à jouer sur un article à vous ou que vous avez lu récemment... Vous imaginez les spécifications/instructions détaillées que vous donneriez pour réaliser la tâche... Puis vous comparez.

B.4. Générations amusantes

Trouver un acronyme pour un projet de recherche sur les petits ARN: l'idée est d'optimiser la réponse des plantes aux stress environnementaux avec de l'IA

On peut spécifier la langue (le LLM part vers l'anglais ou le franglais par défaut)

Ou plus exotique

Rédiger un poème sur les petits ARN, la réponse des plantes aux stress environnementaux, les perspectives d'utilisation de l'IA pour le futur. Les rimes seront croisées.

On peut préciser la langue ou rajouter des élements dans le prompt ou dans les questions suivantes
Si vous voulez ensuite générer de l'audio, différents outils existent: e.g. lien

Note: le test avec chatGPT est très concluant!