3 modèles d'IA à l'étude

Les modèles d'IA générative ne produisent pas tous les mêmes résultats face à un même texte, en particulier lorsqu'il s'agit d'analyser des discours politiques, de détecter des jugements implicites ou d'interpréter l'ironie et le second degré.

Afin de garantir la robustesse des résultats, plusieurs modèles d'intelligence artificielle ont été testés et comparés : OpenAI, Gemini, et Mistral.

La comparaison de ces modèles permet d'identifier des écarts systématiques, de repérer des biais propres à certains modèles et de fonder l'étude sur le modèle le plus efficace pour ce cas d'usage.

Résultat du benchmark

Les résultats montrent que les trois modèles d'IA étudiés produisent des évaluations largement similaires du traitement journalistique. Les scores attribués par les modèles sont positivement corrélés, ce qui signifie qu'ils tendent à juger les mêmes situations dans le même sens.

Les différences observées entre modèles sont limitées en ampleur avec un écart moyen inférieur à 10 % de l'échelle totale. Pour mesurer l'orientation idéologique d'une prise de parole, les trois modèles convergent sur la direction des scores (gauche ou droite) : 89 % des programmes ont la même orientation idéologique selon les trois IA. Ces ordres de grandeur suggèrent une convergence substantielle des modèles.

Des divergences existent néanmoins entre les modèles :

Mistral

Résultats globalement cohérents.
Difficulté plus fréquente à identifier correctement certaines personnalités politiques.
Justifications souvent plus sommaires.

OpenAI (GPT)

Tendance à produire des scores plus éloignés de ceux des autres modèles.
Résultats parfois excessivement polarisés.
Variabilité plus élevée sur des contenus comparables.

Gemini

Meilleure cohérence globale des scores.
Identification plus fiable des acteurs politiques.
Meilleure gestion des cas ambigus (ironie, second degré).
Justifications plus précises et mieux argumentées.

Le modèle Gemini a été retenu pour la conduite de l'analyse.