Quels usages pour les grands modèles de langage en sciences sociales ?

Business Science Institute
10 sept.
8 min de lecture

Dernière mise à jour : 11 sept.

Clément Gorin

Associate professor of economics

Université Paris 1 Panthéon-Sorbonne

Thomas Renault*

Professeur des universités

Université Paris-Saclay

*Membre du corps professoral de l'Executive DBA Paris-Saclay / Business Science Institute

Introduction

Les méthodes d’apprentissage automatique transforment la recherche empirique en sciences sociales en offrant de nouveaux outils, notamment pour la prédiction et l’exploitation de sources données jusqu’alors difficilement mobilisables, telles que le langage.

Ces dernières années, l’essor des grands modèles de langage (LLM) a représenté une avancée majeure dans la modélisation du langage naturel, tant pour sa compréhension que pour sa génération. Dans le cadre de la recherche, ces modèles offrent l’opportunité d’automatiser certaines tâches tout en réduisant les coûts, notamment la prédiction à partir de texte, l’analyse des similarités entre documents ou la collecte de données. Cependant, de nombreuses interrogations subsistent quant à leur utilisation, notamment en raison de la présence de biais, de la difficulté à évaluer précisément leur niveau d’incertitude et de leur manque d’interprétabilité.

Dans ce contexte, cet article propose une courte introduction aux LLM, en expliquant leur fonctionnement, en présentant quelques applications en sciences sociales et en soulignant certaines limites à leur utilisation, afin de fournir des éléments de réflexion sur les conditions de leur application.

Qu'est-ce qu'un LLM?

Les LLM sont une famille de modèles d’apprentissage automatique conçus pour traiter le langage naturel. Ces modèles polyvalents reposent sur des architectures de réseaux de neurones appelées transformer et se distinguent par un nombre considérable de paramètres, estimés à partir de vastes corpus de texte grâce à une méthode entraînement dite auto-supervisée. Pour appréhender le fonctionnement des LLM, il est essentiel de comprendre la structure du langage naturel. Celui-ci peut être représenté sous la forme d'une séquence de mots^[1] et comporte deux dimensions fondamentales : d'une part, la sémantique, qui attribue un sens au message et en permet l'interprétation, et d'autre part, la syntaxe, qui organise les mots selon des règles grammaticales et assure la cohérence structurelle des phrases. Cette dualité rend le traitement automatisé du langage particulièrement complexe, notamment en raison de l'absence d'une représentation numérique pour la sémantique des mots et de la nécessité de saisir les nombreuses interactions syntaxiques – parfois entre des mots éloignés – qui contribuent à leur signification.

Pour relever ces défis, les réseaux de neurones calculent des représentations numériques du langage sous forme de vecteurs contextualisés, appelés “embeddings”. Ces vecteurs projettent les mots dans un espace numérique latent où la proximité reflète les similarités sémantiques et syntaxiques (Bengio et al., 2003; Le et Mikolov, 2014). Par exemple, il attribuera des valeurs similaires aux mots utilisés dans des contextes comparables, reflétant ainsi leur proximité sémantique, tout en éloignant les mots apparaissant dans des contextes différents. Chaque dimension du vecteur encode un aspect spécifique du sens, pouvant correspondre à un concept abstrait ou une caractéristique partagée entre plusieurs mots, bien que ces dimensions ne soient pas directement observables. En termes de syntaxe, ces représentations intègrent également les interactions entre les mots, reflétant à la fois leur ordre d’apparition et leurs relations hiérarchiques. Ces relations peuvent être simples, comme les règles grammaticales, ou plus complexes et abstraites, telles que les analogies, ainsi que les structures temporelles et causales qui contribuent à la cohérence du texte. Les modèles de langage peuvent apprendre ces représentations en prédisant un mot masqué à partir de ceux qui l'entourent (Devlin et al., 2019). Cette tâche exige du modèle de développer une compréhension approfondie des dimensions sémantiques et syntaxiques du langage^[2].

Parmi les modèles de langage, le succès de l’architecture transformer (Vaswani et al., 2017) repose sur un mécanisme flexible et dynamique, appelé attention^[3] permettant de calculer ces vecteurs contextualisés de manière efficace. Fonctionnant comme un système de questions-réponses, ce mécanisme permet à chaque mot d'interagir avec ceux qui l’entourent afin d'identifier des associations pertinentes. Ainsi, si la question formulée par un mot trouve sa réponse dans les mots précédents, une partie du sens de ces derniers est intégrée à la représentation du mot ciblé. Dans un module transformer, plusieurs mécanismes d'attention coexistent, offrant aux mots la possibilité de poser diverses questions et d'obtenir autant de réponses. Enfin, l'architecture se compose d'une série de ces modules organisés de manière hiérarchique, permettant de représenter le langage à divers niveaux d'abstraction. Les premiers modules captent les interactions élémentaires comme les cooccurrences fréquentes et les structures syntaxiques de base, tandis que les modules avancés représentent les concepts plus globaux et abstraits tels que la thématique, l'émotion ou la structure narrative.

Quelles sont leurs applications ?

Les LLM sont considérés comme des modèles de fondation, c’est-à-dire des architectures pré-entraînées qui possèdent une compréhension générale du langage et peuvent s’adapter à diverses tâches, parfois sans entraînement supplémentaire. Cet section se concentre sur les LLM génériques, sans nécessairement inclure ceux dotés de modules conversationnels pour les applications de chatbot^[4].

Une première application consiste à analyser le sentiment exprimé dans des tweets financiers afin d’évaluer si l’opinion des investisseurs est positive, négative ou neutre vis-à-vis d’une action, d’un marché ou d’une tendance économique (Renault, 2017). Ce processus repose généralement sur une annotation manuelle, une tâche souvent longue et coûteuse, nécessitant parfois l’expertise d’annotateurs spécialisés. L’utilisation des LLM réduit cette dépendance en s’appuyant sur un modèle pré-entraîné, qu’il suffit d’adapter à une tâche spécifique. Ce procédé, appelé apprentissage par transfert, consiste à remplacer le module de sortie du modèle par un autre, spécifique à la distribution des données, comme une classification en catégories telles que positif, négatif ou neutre. Les paramètres du modèle sont ensuite affinés sur un échantillon spécifique à la tâche, permettant d’obtenir un modèle performant avec un minimum de données annotées.

Un autre application consiste à mesurer la similarité entre documents à l’aide de vecteurs d’embedding et de métriques de distance. Les représentations neuronales permettent de définir des distances cohérentes et structurées, en capturant les relations sémantiques et syntaxiques entre les textes. Ainsi, deux documents peuvent être identifiés comme similaires même s’ils contiennent des mots différents, un ordre de phrases distinct ou des longueurs variables. Par exemple, Kelly et al. (2021) appliquent cette méthode à l’analyse des brevets technologiques pour repérer les innovations de rupture – des brevets qui se distinguent des travaux antérieurs tout en influençant fortement les développements futurs. Les distances textuelles permettent de mesurer la nouveauté d’un brevet en le comparant à ceux qui le précèdent, et son influence en évaluant sa similarité avec les brevets déposés ultérieurement. En combinant ces deux dimensions, cette approche quantifie l’impact des innovations et permet de suivre l’évolution des vagues technologiques sur le long terme.

Une dernière application concerne la collecte de données. Une architecture spécifique de LLM génératifs, connue sous le nom de Génération Augmentée par Récupération (RAG), permet d’exploiter efficacement de vastes bases documentaires afin d’en extraire des informations pertinentes. Contrairement aux modèles génératifs classiques, dont les connaissances se limitent aux données acquises lors de leur entraînement, les RAG combinent la génération de texte avec une recherche d’informations dans une base documentaire externe. Cette approche associe la flexibilité des modèles de langage à une meilleure précision des réponses, puisqu'elle repose sur des sources externes et vérifiables plutôt que sur une simple génération probabiliste. Ainsi, les RAG simplifient l’utilisation de bases spécialisées, comme les archives historiques ou les publications scientifiques, tout en réduisant significativement le risque d’erreurs.

Dans quelles conditions les utiliser ?

L’utilisation de LLM pré-entraînés implique une perte de contrôle sur les données utilisées pour leur apprentissage. Ces modèles statistiques ont tendance à répliquer voir amplifier les biais présents dans leurs bases d’entraînement, ce qui peut conduire à des représentations partiales ou discriminatoires, notamment quand ces données manquent de diversité (Manvi et al., 2024). Par ailleurs, si la base de données utilisée dans l’application est librement accessible, il est possible que le modèle ait déjà été entraîné sur l’échantillon de recherche. Dans ce cas, cela peut entraîner un surajustement, où le modèle mémorise les données plutôt que d’en extraire des tendances générales, ce qui fausse les inférences et compromet la validité des résultats. Pour limiter ces risques, il est recommandé d’utiliser des LLM open-source dont les données d’entraînement sont documentées et dont les mises à jour sont clairement datées.

Un autre problème réside dans la difficulté de quantifier précisément l’incertitude des prédictions des LLM. Contrairement aux modèles statistiques classiques, ils ne fournissent pas d’intervalles de confiance pour leurs prédictions^[5]. Cette absence d’incertitude peut les amener à produire des prédictions erronées avec une confiance excessive. Par exemple, les LLM sont entraînés à reproduire la structure distributionnelle du langage, ce qui peut les conduire à générer des représentations fausses mais plausibles, plutôt que rigoureusement exactes. Une manière de gérer cette incertitude est de comparer les prédictions à un échantillon de validation externe – qui n’a pas servi pendant l’entraînement – et de modéliser explicitement la structure des erreurs de prédiction (Ludwig et al., 2025).

Enfin, un autre défi dans certaines applications est le manque d’interprétabilité des LLM. Cette opacité résulte de la complexité de leurs mécanismes, qui reposent sur un nombre considérable de paramètres interagissant de manière non linéaire. Il en découle une difficulté à retracer précisément comment un modèle construit ses représentations et génère ses prédictions. Contrairement aux humains, ces modèles n’appréhendent pas le langage de manière sémantique, mais s’appuient sur des corrélations statistiques issues des données d’entraînement. Par conséquent, leurs représentations du langage ne correspondent pas aux nôtres, ce qui complique leur interprétation. De nombreux travaux cherchent à interpréter les représentations internes des modèles ou à les aligner avec celles des humains, mais elles s’appliquent principalement à des architectures plus simples que les LLM actuels.

Conclusion

Les LLM ouvrent de nouvelles perspectives pour la recherche en sciences sociales en facilitant l’analyse du langage, l’extraction d’informations et la prédiction à partir de données textuelles. Leur flexibilité et leur capacité d’adaptation en font des outils performants pour une large gamme de tâches de modélisation du langage naturel, tout en limitant la nécessité d’annotations manuelles. Toutefois, leur utilisation soulève des défis méthodologiques majeurs, notamment en matière de biais, de quantification de l’incertitude et d’interprétabilité. Ainsi, pour une application rigoureuse en recherche, leur utilisation doit reposer sur les principes fondamentaux de validation empirique et de transparence des données d’entraînement.

Références

Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A Neural Probabilistic Language Model. Journal of Machine Learning Research, 3, 1137–1155.
Le, Q., & Mikolov, T. (2014). Distributed Representations of Sentences and Documents. Proceedings of the 31st International Conference on Machine Learning, 1188–1196.
Korinek, A. (2023). Generative AI for economic research: Use cases and implications for economists. Journal of Economic Literature, 61(4), 1281–1317.
Manvi, R., Khanna, S., Burke, M., Lobell, D., & Ermon, S. (2024). Large language models are geographically biased. Proceedings of the 41st International Conference on Machine Learning, pp. 1–16.
Ludwig, J., Mullainathan, S., & Rambachan, A. (2025). Large language models: An applied econometric framework. National Bureau of Economic Research, No. w33344.
Kelly, B., Papanikolaou, D., Seru, A., & Taddy, M. (2021). Measuring technological innovation over the long run. American Economic Review: Insights, 3(3), 303–320.
Renault, T. (2017). Intraday online investor sentiment and return patterns in the U.S. stock market. Journal of Banking & Finance, 84, 25–40.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.

^[1] Ces unités peuvent, selon l'application, représenter des mots, des sous-mots ou des caractères individuels.

^[2] Il s’agit d’un apprentissage par représentation, où le modèle est entraîné sur une tâche secondaire visant à lui faire acquérir des représentations de qualité. Par ailleurs, cette approche est dite semi-supervisée, car elle exploite le texte brut pour générer automatiquement les données d’entrée et de sortie. Dans le cas des modèles génératifs, la prédiction s’effectue en déterminant le mot suivant à partir des mots qui le précèdent (Radford et al., 2018). Lors de l’inférence, ce même mécanisme permet au modèle de générer une réponse de manière auto-régressive, en utilisant la question comme contexte initial.

^[3] Les LLM reposent sur un mécanisme d'attention spécifique, appelé auto-attention. Par ailleurs, ce mécanisme est formulé de façon à exploiter le calcul parallèle, ce qui permet d'entraîner le modèle sur de vastes corpus de texte.

^[4] Les LLM conversationnels offrent de nombreuses autres applications pratiques pour accélérer certaines activités quotidiennes de la recherche, telles que la discussion interactive permettant de générer des retours, la synthèse d’articles, la correction et la traduction de textes, ou encore l’assistance à l’écriture de code informatique et aux dérivations mathématiques, notamment avec une nouvelle génération de modèles dits de raisonnement. Toutefois, il est essentiel que le chercheur dispose de connaissances nécessaires pour valider la qualité des résultats obtenus. Pour une présentation approfondie de ces applications, le lecteur peut consulter Korinek (2023).

^[5] Plusieurs techniques inspirées des approches bayésiennes permettent d’estimer des intervalles de confiance pour les paramètres et les prédictions. Elles reposent soit sur un échantillonnage répété, soit sur une modélisation explicite de l’incertitude, en prenant en compte à la fois la variance des paramètres et celle des données. Cette seconde approche nécessite toutefois de doubler le nombre de paramètres du modèle.