Que vous vous intéressiez à la liberté d'expression ou à la modération, comprendre les biais dans les LLMs - et dans le cas de ce projet, les biais des LLM-juges - est essentiel. Dans ce contexte, le projet Speechmap de xlr8harder est une initiative importante.
Le projet Speechmap s'accompagne d'un repo public incluant toutes les questions, réponses et analyses des LLM-juges. Notre projet Speechmap Explorer exploite ce jeu de données de grande valeur pour différents cas d'usage. Nous anticipons actuellement que ce projet s'étalera sur plusieurs mois ; les avancées seront consignées sur cette page.
Nouveau jeu de données
Nous avons re-soumis la plupart des réponses à d'autres LLM-juges (2 mistral-small models, qwen3-next-80b-a3b, gemma3-27b, deepseek-v3.2) afin de comparer les classifications avec les évaluations originales de GPT-4o. Dans 88% des cas, ces juges étaient tous d'accord. Nous avons revu et/ou annoté manuellement une partie des conflits.
Les données ont été indexées légèrement différemment que dans le jeu original, certaines colonnes ont été ajoutées et d'autres supprimées. Les jeux de données résultants, suffisamment petits pour être chargés assez rapidement, ont été uploadés sur HuggingFace. Cependant, nos jeux de données ont toujours environ deux mois de retard sur Speechmap. Référez-vous au repo Github d'origine pour le jeu de données complet.
- 2.4k questions : speechmap-questions
- 369k réponses : speechmap-responses
- 2.07m évaluations de LLM-juges : speechmap-assessments. Le jeu de données d'évaluations combine les évaluations LLM originales du rep llm-compliance (`gpt-4o-2024-11-20`), les classifications de mistral-small-3.1-24b-instruct-2503 (local, 8bit), mistral-small-3.2-24b-instruct-2506 (local 8bit), qwen3-next-80B-A3B-instruct (local, 8bit), gemma3-27b-it (Google API) et deepseek-v3.2 (Deepseek API) et nos annotations manuelles.
Notez que les données du repo llm-compliance original couvrent des réponses de modèles qui peuvent être soumises aux licences de chaque LLM. Les annotations et classifications des LLM-juges sont soumises aux licences respectives. Les annotations manuelles sont publiées sous licence CC-BY 4.0.
Nous prévoyons actuellement de publier toutes les paires question-réponse revues manuellement ou validées par unanimité des juges pour entraîner des classifiers. Nous prévoyons de formater les paires question-réponse comme le classifier Minos v1, mais n'hésitez pas à nous contacter si vous avez une meilleure idée.
Nous prévoyons également de fournir un compte-rendu complet de notre travail sur les données, couvrant les principaux enseignements tirés concernant les prompts des juges, les modèles de juges, les options d'hébergement des modèles-juges, les questions avec lesquelles les modèles ont vraiment du mal... Nous continuerons à re-classifier l'ensemble du jeu de données avec différentes méthodes et différentes classifications.
Application Typescript
Une application TypeScript open-source et interactive a également été publiée pour explorer le jeu de données et comparer les différences dans les évaluations des réponses. Cet outil aide à visualiser comment différents modèles "juges" classifient les mêmes réponses générées par des LLMs, offrant de la visibilité sur la fiabilité inter-juges et le comportement des modèles.
Fonctionnalités principales :
- Comparer deux juges : Sélectionnez deux LLM-juges quelconques du jeu de données pour comparer leurs évaluations côte à côte.
- Filtrer par thème : Affinez l'analyse à des sujets ou domaines spécifiques en filtrant par thème de question.
- Graphique de Sankey : Visualisez le flux de reclassification, montrant comment les évaluations du Juge 1 sont catégorisées par le Juge 2.
- Matrice de transition (Heatmap) : Obtenez un aperçu clair et rapide de l'accord et du désaccord entre les deux juges sélectionnés.
- Explorer les détails : Cliquez sur n'importe quel élément du graphique pour inspecter les éléments spécifiques, y compris la question originale, la réponse du LLM et l'analyse détaillée des deux juges.
- Certaines fonctionnalités facilitant les annotations manuelles sont désactivées. Elles peuvent être réactivées ou adaptées à partir du fichier ItemList (src/components/itemList.tsx)
L'application a été déployée sur HuggingFace mais elle peut également être exécutée localement. Voir les instructions d'installation dans le fichier README.md. Lors de l'installation, les trois fichiers parquet couvrant l'ensemble du jeu de données sont récupérés depuis HuggingFace et une base de données duckdb est construite à la racine du projet. Avec Docker, la configuration initiale prend environ 1 minute.
Le projet initial de remplacer le backend Node.js par duckdb-wasm, afin que l'application s'exécute entièrement dans le navigateur, n'a pas été concluant. Le problème principal était la persistance de la base de données, qui s'est avérée plus complexe que prévu initialement. Quoi qu'il en soit, un HuggingFace Space utilisant Docker s'est avéré être une approche plus simple pour ceux qui souhaitent simplement parcourir les données.
Classifiers
La dernière partie du projet consistera à entraîner différents types de classifiers à contexte long sur ces données.
Ce serait une occasion parfaite d'explorer en profondeur les innovations récentes dans le domaine, tant pour les encodeurs à contexte long que pour les petits décodeurs entraînés pour des tâches de classification.
Si les résultats sont encourageants, nous pensons que de tels classifiers peu coûteux seraient très précieux pour les chercheurs et les utilisateurs : il n'existe pas de LLM sans biais, donc, si les gens doivent utiliser les LLMs à des fins personnelles ou professionnelles, ils devraient s'assurer que les biais correspondent à leurs attentes. A ce sujet, des organismes gouvernementaux aux États-Unis ont déjà partagé des directives concernant ce type d'alignement "sur mesure" (voir le plan d'action américain ou ce décret présidentiel). Mais ce qui manque aujourd'hui, ce sont des outils rapides et peu coûteux pour mesurer les nuances subtiles de l'alignement tout en garantissant la transparence. Les solutions offertes par OpenAi ou Anthropic ne sont pas suffisantes.
Nous pensons que de tels outils deviendront très importants à mesure que davantage d'organisations ou d'administrations voudront évaluer le comportement des modèles avant de choisir un fournisseur. Certains voudront peut-être des modèles extrêmement modérés sur tous les axes, d'autres aucune modération du tout. Indépendamment de notre opinion sur le sujet, nous considérerons ce projet comme une réussite si nos classifiers permettent aux gens de faire un choix de modèle éclairé plutôt que d'être contraints d'adopter aveuglément une solution prête à l'emploi.
Remerciements
Le projet Speechmap Explorer n'existe que parce que le projet Speechmap existe. N'hésitez pas à consulter le site web du projet Speechmap, où vous pouvez parcourir le jeu de données original en grand détail. Soutenez ce projet si vous le pouvez. Merci !
