Как Claude 3.5 служит «переводчиком» между нейронками
Разберёмся, как LLM переходит от сырых данных к логическому заключению и выдает ответ на запрос пользователя, постоянно «метафоризируя»
6 июня 2025Разберёмся, как LLM переходит от сырых данных к логическому заключению и выдает ответ на запрос пользователя, постоянно «метафоризируя»
6 июня 2025Языковые модели генерируются с помощью простых алгоритмов обучения, разработанных человеком, а вот механизмы, порождаемые этими алгоритмами, довольно сложные и не всегда понятны человеку.
В Antropic опубликовали исследование о том, как модель Claude 3.5 Haiku думает при ответе на запросы разного формата. Разработчики проанализировали, как происходит взаимодействие между информационными блоками внутри модели во время поиска ответа. В итоге, при помощи граф атрибуции исследователи проследили путь и логику размышлений языковой модели.
Вкратце — это как карта нейронных связей в мозге, только для искусственного интеллекта. По сути это инструмент, который выявляет, какие нейроны модели активируются при обработке конкретного запроса и как они взаимодействуют между собой. Эти нейроны можно сравнить с абстрактными понятиями, которые модель использует для понимания и генерации текста. А связи между ними отражают причинно-следственные зависимости между этими понятиями.
Цепочка выше построена на примере запроса «столица Техаса?» и помогает проследить последовательность промежуточных шагов, используемых моделью для преобразования конкретного входного запроса в выходной ответ.
На самом деле не совсем.
Чтобы построить такой граф атрибуции и понять общий принцип работы языковой модели, разработчики заменили часть алгоритма на более интерпретируемую версию — «локальную модель замены». Она позволяет отслеживать активацию нейронов, их взаимодействие и влияние на итоговый результат.
Так, исследователи смогли проследить промежуточные этапы «размышлений». На основе этих результатов и сформировались графы атрибуции.
Основной фокус исследования Antropic был на языковых моделях на основе трансформаторов, которые принимают последовательности токенов — например, слова, фрагменты слов и специальные символы — и выводят новые токены по одному за раз.
Эти модели включают в себя два фундаментальных компонента:
Уровни MLP
"многослойного персептрона", которые обрабатывают информацию в пределах каждой позиции токена, используя наборы нейронов;
Уровни внимания
которые перемещают информацию между позициями токена.
Нейроны внутри таких нейросетей многозначны, то есть выполняют множество различных функций. Из-за этого было сложно выявить, какая именно информация используется оригинальной моделью при поиске ответа на запрос.
Локальная модель замены основана на архитектуре многоуровневого транскодера (CLT), который обучен заменять MLP-нейроны основной модели более понятными компонентами.
Компоненты часто представляют собой понятные концепции, варьирующиеся от низкоуровневых (например, конкретные слова или фразы) до высокоуровневых (например, настроения, планы и логические шаги). Изучив визуализацию компонента, в котором активируется нейрон, мы можем присвоить каждому из компонентов более «человеческое» значение.
В любом запросе между замещающей и оригинальной моделями есть несоответствия. Чтобы выявить их, у замещающей модели есть узлы ошибок. Включение таких узлов дает более четкое представление о том, насколько велика разница между локальной моделью и изначальной.
Поскольку графы атрибуции основаны на замещающей модели, они предоставляют лишь гипотезы о механизмах, действующих в исходной модели. И эти гипотезы требуют дополнительной проверки.
Объяснение мышления нейросети — это новая область исследований, и визуальные инструменты почти любого рода пока доступны только техническим специалистам, в том числе и графы атрибуции.
Прямо сейчас можно использовать OpenAI API с logprobs. Этот инструмент показывает вероятности, с которыми модель выбирала каждое слово. А значит, можно посмотреть, где модель была уверена, а где — сомневалась.
Ещё, если научиться запускать модели локально, можно использовать LIT (Language Interpretability Tool) от Google. инструмент интерактивно показывает, как работает модель, например: какие слова влияют на результат и как распределяется внимание.
Чем активнее развиваются ИИ, тем актуальнее становится область исследований, в которой пытаются заглянуть в «мышление» нейросети и объяснить её поведение человеку. Это называется интерпретируемость или объяснение вывода модели.
А графы атрибуции — мощный инструмент для изучения и понимания сложных языковых моделей. Хотя метод ещё не идеален и требует доработок, он открывает новые горизонты в области интерпретации ИИ.
Понимание внутренних механизмов работы моделей поможет:
повысить доверие к ИИ и обеспечить прозрачность его решений.
находить и предотвращать нежелательные поведения, такие как галлюцинации или выполнение вредоносных инструкций.
улучшить архитектуру и обучение моделей, делая их более надёжными и эффективными.
Помимо визуализации, есть много других способов заглянуть внутрь нейросетей, например алгоритмы, объясняющие влияние входных данных на вывод (SHAP, LIME), соотношение внутренних признаков при выдаче результата (Feature attribution) и пошаговое объяснение модели своих рассуждений (Chain-of-thought). Последний из них, кстати, доступен всем пользователям по промту.