Большие языковые модели (LLM) демонстрируют поразительные способности, но их внутренняя работа долгое время оставалась загадкой, своего рода «черным ящиком». Недавнее исследование, сфокусированное на модели Claude 3.5 Haiku, проливает свет на сложные процессы, происходящие «в уме» ИИ.
Методология: Заглядывая внутрь «черного ящика»
Чтобы понять, как ИИ обрабатывает информацию, исследователи разработали новый аналитический метод — «графы атрибуции». Этот подход включает несколько ключевых шагов:
— Создание интерпретируемой замещающей модели (cross-layer transcoder — CLT), которая переводит сложные внутренние состояния исходной модели в более понятные «признаки».
— Построение графов, показывающих причинные связи и взаимодействия между этими внутренними признаками.
— Проведение интервенционных экспериментов — целенаправленное изменение или подавление определенных признаков для наблюдения за их влиянием на конечный результат модели.
Этот метод позволил выявить и проанализировать конкретные «цепочки» внутренних вычислений.
Основные результаты экспериментов
Исследование выявило ряд поразительных особенностей работы модели Claude 3.5 Haiku:
— 1. Многошаговое рассуждение: Модель может выполнять последовательные внутренние шаги для решения задач, даже если они не видны в промежуточном выводе. Например, при определении столицы штата, в котором находится определенный город, модель сначала идентифицирует штат, а затем находит его столицу. Вмешательство в эти внутренние шаги меняет конечный ответ.
— 2. Планирование в стихотворениях: При генерации рифмованных текстов модель заранее «планирует» слова для рифмы, что влияет на построение всей строки. Она может одновременно удерживать в «уме» несколько вариантов рифмы.
— 3. Многоязычные схемы: Модель использует как общие, языково-независимые механизмы (например, для семантических операций), так и специфические для каждого языка. С ростом модели увеличивается количество многоязычных внутренних признаков, но английский язык сохраняет привилегированное положение.
— 4. Арифметические вычисления: При решении задач сложения модель использует параллельные пути и внутренние «таблицы» для базовых арифметических фактов. Эти механизмы универсальны и применяются в разных контекстах.
— 5. Медицинская диагностика: При анализе медицинских случаев модель сначала определяет потенциальные диагнозы, а затем использует их для поиска подтверждающих симптомов внутри текста.
— 6. Распознавание сущностей и галлюцинации: Обнаружены механизмы, позволяющие модели отличать знакомые сущности от незнакомых и решать, следует ли отвечать на вопрос или признать незнание. Сбои в этих механизмах могут приводить к «галлюцинациям» (выдумыванию фактов).
— 7. Отказ от вредоносных запросов: Модель формирует обобщенный внутренний признак «вредоносных запросов», который активирует механизм отказа от выполнения запроса.
— 8. Анализ jailbreak-атаки: Выявлены способы обхода защитных механизмов. Показано, что после начала опасного ответа модель может продолжать его из-за давления синтаксических и грамматических правил.
— 9. Достоверность «цепочек рассуждений» (Chain-of-Thought): Внутренние вычисления модели не всегда соответствуют тому, что она описывает как свою «цепочку рассуждений». Иногда модель придумывает обоснование или «работает в обратном направлении» от желаемого ответа.
Главные выводы исследования
Полученные результаты позволяют сделать несколько важных выводов о природе работы современных LLM:
— Сложность внутренних вычислений — даже для простых задач модель использует чрезвычайно сложную, часто избыточную систему параллельных и конкурирующих механизмов.
— Абстракция и обобщение — модель формирует высокоуровневые абстракции, которые универсальны и применяются в разных предметных областях.
— Планирование — присутствуют как прямое (от задачи к решению), так и обратное (от цели к необходимым действиям) планирование.
— Элементы метапознания — есть признаки наличия внутренних механизмов, позволяющих модели оценивать границы своих знаний.
— Модульная структура — внутренние механизмы обладают определенной модульностью, позволяя относительно независимо менять или заменять функциональные компоненты.
— Универсальность вычислений — одни и те же внутренние механизмы используются повторно в различных контекстах и задачах.
Ограничения и перспективы
Несмотря на значительный прогресс, исследование выявило и существенные ограничения текущих методов анализа:
— Методы дают удовлетворительное объяснение лишь для небольшой части (около 25%) исследованных запросов.
— Существуют проблемы с масштабированием подхода на длинные и сложные промпты.
— Значительная часть внутренних вычислений остается «темной материей», не поддающейся интерпретации.
— Используемая замещающая модель не полностью отражает всю сложность оригинальной.
— Методы не охватывают механизмы внимания (attention), которые играют ключевую роль в работе трансформеров.
Заключение
Это исследование является важным, но промежуточным шагом. Оно закладывает фундамент для создания нового поколения инструментов, которые позволят более полно понимать, аудировать и, возможно, контролировать внутреннюю работу сложных ИИ-моделей, делая их более безопасными и предсказуемыми в будущем.



0 Комментариев