¿Qué usos tienen los grandes modelos lingüísticos en las ciencias sociales?
- Business Science Institute

- 10 sept
- 9 Min. de lectura
Actualizado: 11 sept

Clément Gorin
Associate professor of economics
Université Paris 1 Panthéon-Sorbonne

Thomas Renault*
Profesor universitario
Universidad Paris-Saclay
*Miembro del cuerpo docente del Executive DBA Paris-Saclay / Business Science Institute
Introducción
Los métodos de aprendizaje automático están transformando la investigación empírica en las ciencias sociales al ofrecer nuevas herramientas, en particular para la predicción y la explotación de fuentes de datos que hasta ahora eran difíciles de utilizar, como el lenguaje.
En los últimos años, el auge de los grandes modelos de lenguaje (LLM) ha supuesto un avance importante en la modelización del lenguaje natural, tanto para su comprensión como para su generación. En el ámbito de la investigación, estos modelos ofrecen la oportunidad de automatizar ciertas tareas y reducir los costes, en particular la predicción a partir de textos, el análisis de similitudes entre documentos o la recopilación de datos. Sin embargo, siguen existiendo muchas dudas sobre su uso, sobre todo debido a la presencia de sesgos, la dificultad para evaluar con precisión su nivel de incertidumbre y su falta de interpretabilidad.
En este contexto, este artículo ofrece una breve introducción a los LLM, explicando su funcionamiento, presentando algunas aplicaciones en las ciencias sociales y destacando ciertas limitaciones en su uso, con el fin de proporcionar elementos de reflexión sobre las condiciones de su aplicación.
¿Qué es un LLM?
Los LLM son una familia de modelos de aprendizaje automático diseñados para procesar el lenguaje natural. Estos modelos versátiles se basan en arquitecturas de redes neuronales denominadas «transformadores» y se caracterizan por un número considerable de parámetros, estimados a partir de amplios corpus de texto mediante un método de entrenamiento denominado «autosupervisado». Para comprender el funcionamiento de los LLM, es esencial comprender la estructura del lenguaje natural. Este puede representarse en forma de secuencia de palabras[1] y tiene dos dimensiones fundamentales: por un lado, la semántica, que atribuye un significado al mensaje y permite su interpretación, y por otro, la sintaxis, que organiza las palabras según reglas gramaticales y garantiza la coherencia estructural de las frases. Esta dualidad hace que el procesamiento automático del lenguaje sea especialmente complejo, sobre todo debido a la ausencia de una representación numérica de la semántica de las palabras y a la necesidad de captar las numerosas interacciones sintácticas —a veces entre palabras distantes— que contribuyen a su significado.
Para hacer frente a estos retos, las redes neuronales calculan representaciones numéricas del lenguaje en forma de vectores contextualizados, denominados «embeddings». Estos vectores proyectan las palabras en un espacio numérico latente donde la proximidad refleja las similitudes semánticas y sintácticas (Bengio et al., 2003; Le y Mikolov, 2014). Por ejemplo, asignará valores similares a las palabras utilizadas en contextos comparables, reflejando así su proximidad semántica, mientras que alejará las palabras que aparecen en contextos diferentes. Cada dimensión del vector codifica un aspecto específico del significado, que puede corresponder a un concepto abstracto o a una característica compartida entre varias palabras, aunque estas dimensiones no sean directamente observables. En términos de sintaxis, estas representaciones también incorporan las interacciones entre las palabras, reflejando tanto su orden de aparición como sus relaciones jerárquicas. Estas relaciones pueden ser simples, como las reglas gramaticales, o más complejas y abstractas, como las analogías, así como las estructuras temporales y causales que contribuyen a la coherencia del texto. Los modelos de lenguaje pueden aprender estas representaciones prediciendo una palabra oculta a partir de las que la rodean (Devlin et al., 2019). Esta tarea requiere que el modelo desarrolle una comprensión profunda de las dimensiones semánticas y sintácticas del lenguaje[2].
Entre los modelos de lenguaje, el éxito de la arquitectura transformer (Vaswani et al., 2017) se basa en un mecanismo flexible y dinámico, denominado atención[3], que permite calcular estos vectores contextualizados de manera eficaz. Este mecanismo, que funciona como un sistema de preguntas y respuestas, permite que cada palabra interactúe con las que la rodean para identificar asociaciones relevantes. Así, si la pregunta formulada por una palabra encuentra su respuesta en las palabras anteriores, parte del significado de estas últimas se integra en la representación de la palabra objetivo. En un módulo transformer, coexisten varios mecanismos de atención, lo que ofrece a las palabras la posibilidad de plantear diversas preguntas y obtener otras tantas respuestas. Por último, la arquitectura se compone de una serie de estos módulos organizados jerárquicamente, lo que permite representar el lenguaje en diversos niveles de abstracción. Los primeros módulos captan las interacciones elementales, como las coocurrencias frecuentes y las estructuras sintácticas básicas, mientras que los módulos avanzados representan conceptos más globales y abstractos, como la temática, la emoción o la estructura narrativa.
¿Cuáles son sus aplicaciones?
Los LLM se consideran modelos fundamentales, es decir, arquitecturas preentrenadas que poseen una comprensión general del lenguaje y pueden adaptarse a diversas tareas, a veces sin necesidad de entrenamiento adicional. Esta sección se centra en los LLM genéricos, sin incluir necesariamente aquellos dotados de módulos conversacionales para aplicaciones de chatbot[4].
Una primera aplicación consiste en analizar el sentimiento expresado en los tuits financieros para evaluar si la opinión de los inversores es positiva, negativa o neutra con respecto a una acción, un mercado o una tendencia económica (Renault, 2017). Este proceso se basa generalmente en una anotación manual, una tarea a menudo larga y costosa, que a veces requiere la experiencia de anotadores especializados. El uso de LLM reduce esta dependencia al basarse en un modelo preentrenado, que solo hay que adaptar a una tarea específica. Este proceso, denominado aprendizaje por transferencia, consiste en sustituir el módulo de salida del modelo por otro específico para la distribución de los datos, como una clasificación en categorías tales como positivo, negativo o neutro. A continuación, los parámetros del modelo se refinan en una muestra específica para la tarea, lo que permite obtener un modelo eficaz con un mínimo de datos anotados.
Otra aplicación consiste en medir la similitud entre documentos utilizando vectores de incrustación y métricas de distancia. Las representaciones neuronales permiten definir distancias coherentes y estructuradas, capturando las relaciones semánticas y sintácticas entre los textos. De este modo, dos documentos pueden identificarse como similares aunque contengan palabras diferentes, un orden de frases distinto o longitudes variables. Por ejemplo, Kelly et al. (2021) aplican este método al análisis de patentes tecnológicas para identificar innovaciones disruptivas, es decir, patentes que se distinguen de trabajos anteriores y que, al mismo tiempo, influyen considerablemente en desarrollos futuros. Las distancias textuales permiten medir la novedad de una patente comparándola con las anteriores, y su influencia evaluando su similitud con las patentes registradas posteriormente. Al combinar estas dos dimensiones, este enfoque cuantifica el impacto de las innovaciones y permite seguir la evolución de las olas tecnológicas a largo plazo.
Una última aplicación se refiere a la recopilación de datos. Una arquitectura específica de LLM generativos, conocida como Generación Aumentada por Recuperación (RAG), permite explotar eficazmente amplias bases documentales para extraer información relevante. A diferencia de los modelos generativos clásicos, cuyo conocimiento se limita a los datos adquiridos durante su entrenamiento, los RAG combinan la generación de texto con la búsqueda de información en una base documental externa. Este enfoque combina la flexibilidad de los modelos de lenguaje con una mayor precisión en las respuestas, ya que se basa en fuentes externas y verificables en lugar de en una simple generación probabilística. De este modo, los RAG simplifican el uso de bases especializadas, como archivos históricos o publicaciones científicas, al tiempo que reducen significativamente el riesgo de errores.
¿En qué condiciones se deben utilizar?
El uso de LLM preentrenados implica una pérdida de control sobre los datos utilizados para su aprendizaje. Estos modelos estadísticos tienden a replicar o incluso amplificar los sesgos presentes en sus bases de entrenamiento, lo que puede dar lugar a representaciones parciales o discriminatorias, especialmente cuando estos datos carecen de diversidad (Manvi et al., 2024). Además, si la base de datos utilizada en la aplicación es de libre acceso, es posible que el modelo ya haya sido entrenado con la muestra de investigación. En este caso, puede producirse un sobreajuste, en el que el modelo memoriza los datos en lugar de extraer tendencias generales, lo que distorsiona las inferencias y compromete la validez de los resultados. Para limitar estos riesgos, se recomienda utilizar LLM de código abierto cuyos datos de entrenamiento estén documentados y cuyas actualizaciones estén claramente fechadas.
Otro problema es la dificultad de cuantificar con precisión la incertidumbre de las predicciones de los LLM. A diferencia de los modelos estadísticos clásicos, no proporcionan intervalos de confianza para sus predicciones[5]. Esta ausencia de incertidumbre puede llevarles a producir predicciones erróneas con un exceso de confianza. Por ejemplo, los LLM están entrenados para reproducir la estructura distributiva del lenguaje, lo que puede llevarles a generar representaciones falsas pero plausibles, en lugar de rigurosamente exactas. Una forma de gestionar esta incertidumbre es comparar las predicciones con una muestra de validación externa —que no se ha utilizado durante el entrenamiento— y modelar explícitamente la estructura de los errores de predicción (Ludwig et al., 2025).
Por último, otro reto en algunas aplicaciones es la falta de interpretabilidad de los LLM. Esta opacidad es el resultado de la complejidad de sus mecanismos, que se basan en un número considerable de parámetros que interactúan de forma no lineal. Esto hace que sea difícil rastrear con precisión cómo un modelo construye sus representaciones y genera sus predicciones. A diferencia de los humanos, estos modelos no comprenden el lenguaje de forma semántica, sino que se basan en correlaciones estadísticas derivadas de los datos de entrenamiento. Por lo tanto, sus representaciones del lenguaje no se corresponden con las nuestras, lo que complica su interpretación. Numerosos trabajos tratan de interpretar las representaciones internas de los modelos o de alinearlas con las de los seres humanos, pero se aplican principalmente a arquitecturas más simples que los LLM actuales.
Conclusión
Los LLM abren nuevas perspectivas para la investigación en ciencias sociales al facilitar el análisis del lenguaje, la extracción de información y la predicción a partir de datos textuales. Su flexibilidad y capacidad de adaptación los convierten en herramientas eficaces para una amplia gama de tareas de modelización del lenguaje natural, al tiempo que limitan la necesidad de anotaciones manuales. Sin embargo, su uso plantea importantes retos metodológicos, especialmente en lo que se refiere al sesgo, la cuantificación de la incertidumbre y la interpretabilidad. Por lo tanto, para una aplicación rigurosa en la investigación, su uso debe basarse en los principios fundamentales de la validación empírica y la transparencia de los datos de entrenamiento.
Referencias
Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A Neural Probabilistic Language Model. Journal of Machine Learning Research, 3, 1137–1155.
Le, Q., & Mikolov, T. (2014). Distributed Representations of Sentences and Documents. Proceedings of the 31st International Conference on Machine Learning, 1188–1196.
Korinek, A. (2023). Generative AI for economic research: Use cases and implications for economists. Journal of Economic Literature, 61(4), 1281–1317.
Manvi, R., Khanna, S., Burke, M., Lobell, D., & Ermon, S. (2024). Large language models are geographically biased. Proceedings of the 41st International Conference on Machine Learning, pp. 1–16.
Ludwig, J., Mullainathan, S., & Rambachan, A. (2025). Large language models: An applied econometric framework. National Bureau of Economic Research, No. w33344.
Kelly, B., Papanikolaou, D., Seru, A., & Taddy, M. (2021). Measuring technological innovation over the long run. American Economic Review: Insights, 3(3), 303–320.
Renault, T. (2017). Intraday online investor sentiment and return patterns in the U.S. stock market. Journal of Banking & Finance, 84, 25–40.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.
[1] Estas unidades pueden representar palabras, subpalabras o caracteres individuales, según la aplicación.
[2] Se trata de un aprendizaje por representación, en el que el modelo se entrena en una tarea secundaria con el fin de que adquiera representaciones de calidad. Además, este enfoque se denomina semisupervisado, ya que utiliza texto sin formato para generar automáticamente los datos de entrada y salida. En el caso de los modelos generativos, la predicción se realiza determinando la palabra siguiente a partir de las palabras que la preceden (Radford et al., 2018). Durante la inferencia, este mismo mecanismo permite al modelo generar una respuesta de forma autorregresiva, utilizando la pregunta como contexto inicial.
[3] Los LLM se basan en un mecanismo de atención específico, denominado autoatención. Además, este mecanismo está formulado para aprovechar el cálculo paralelo, lo que permite entrenar el modelo en grandes corpus de texto.
[4] Los LLM conversacionales ofrecen muchas otras aplicaciones prácticas para acelerar ciertas actividades cotidianas de la investigación, como el debate interactivo para generar comentarios, la síntesis de artículos, la corrección y traducción de textos, o incluso la asistencia en la escritura de código informático y en derivaciones matemáticas, en particular con una nueva generación de modelos denominados de razonamiento. Sin embargo, es esencial que el investigador disponga de los conocimientos necesarios para validar la calidad de los resultados obtenidos. Para una presentación detallada de estas aplicaciones, el lector puede consultar Korinek (2023).
[5] Existen varias técnicas inspiradas en los enfoques bayesianos que permiten estimar intervalos de confianza para los parámetros y las predicciones. Se basan bien en un muestreo repetido, bien en una modelización explícita de la incertidumbre, teniendo en cuenta tanto la varianza de los parámetros como la de los datos. Sin embargo, este segundo enfoque requiere duplicar el número de parámetros del modelo.






