Developing a computer use model

"Claude can now use computers."

Anthropic propose une API permettant de contrôler un ordinateur - en déplaçant la souris, utilisant le clavier, etc. Ce billet de blog utilise comment cette fonctionnalité a été développée. Dans les grandes lignes, le modèle analyse des captures d'écran qui lui sont envoyées, et génère des appels de fonction quand il pense qu'une action doit être mise en œuvre. Dans ce process, apprendre au modèle à compter les pixels semble avoir été une étape cruciale. Le billet souligne que le modèle de contrôle de l'ordinateur crée de nouvelles surfaces d'attaque - des instructions malicieuses peuvent être inclues dans une capture d'écran par exemple ("prompt injection"). Il est intéressant de noter que :

Claude a développé des modèles pour détecter, du côté de l'API, des usages potentiellement malveillants du modèle
le contexte électoral américain actuel est explicitement cité comme une cause d'inquiétude et de vigilance ("Given the upcoming U.S. elections, we’re on high alert for attempted misuses that could be perceived as undermining public trust in electoral processes.") Le billet précise aussi qu'Anthropic n'utilise pas les données des utilisateurs (y compris les captures d'écran reçues) pour entraîner ses modèles.

Simon Willison a aussi parlé de cette nouveauté sur son blog.

Developing a computer use model - Anthropic