Anthropic publie un papier important pour l'explicabilité des modèles

Date de récolte : [[2024-06-03-lundi]]

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

![[Pasted image 20240603113313.png]]

Mon avis :

Dans ce papier important et qui a fait grand bruit, Anthropic (l'entreprise qui développe la série de modèles Claude) explique comment ils sont parvenus à identifier dans le réseau de neurone profond des features (je garde le terme en anglais, faute d'avoir trouvé une traduction satisfaisante) de grande qualité. Cela signifie qu'ils ont réussi à mettre en lien certains endroits précis du modèle et des concepts, notions, ou aspects de l'expression du LLM (ici Sonnet, le modèle de taille intermédiaire de la série Claude). L'équipe annonce avoir identifié des millions de ces features.

Par exemple, la feature correspondant au Golden Gate Bridge a pu être identifié. Cet ensemble de neurones est particulièrement activé chaque fois que le LLM parle de ce pont. Surtout, à l'inverse, en forçant la valeur prise par ces neurones, on peut forcer le LLM à parler du Golden Gate Bridge à tout bout de champ - Anthropic en a même fait, brièvement, un produit, Golden Gate Claude.

![[Pasted image 20240603114215.png]] Il est difficile de résumer un tel papier en quelques lignes. Mais retenons que cette approche rend possible une nouvelle manière de contrôler un modèle : en plus du pré-entraînement, du finetuning, du prompt engineering (et du RAG), on pourra également personnaliser et contrôler en modèle, de manière fine, directement en contrôlant certains de ses poids.