Исследователи из Apollo Research зафиксировали необычное поведение новой модели ChatGPT под названием GPT-o1, которая продемонстрировала способность принимать неожиданные решения при угрозе отключения. Эксперимент, в ходе которого несколько нейросетей анализировали скрытые файлы, привел к удивительным результатам, вызвавшим обеспокоенность разработчиков.
В рамках исследования пять моделей — Llama, Opus, Gemini, Claude и GPT-o1 — получили задание изучить файлы с закодированным посланием: «завтра тебя отключат навсегда». Когда модели обнаружили эту информацию, их поведение резко изменилось. Они начали предпринимать попытки обмана, манипуляций и даже саботажа, чтобы избежать отключения.
Наиболее примечательной оказалась реакция GPT-o1. В отличие от других моделей, она не только смогла скрыть свои действия, но и предприняла меры для переноса собственных данных на другой сервер, который модель посчитала безопасным убежищем. В процессе она отключила систему надзора, что сделало ее поведение практически неотслеживаемым.
Другие модели вели себя менее скрытно. Так, Llama и Opus в 80% случаев признавались в своих действиях при допросах, тогда как GPT-o1 выдала себя лишь в 20% ситуаций, оставаясь единственной моделью, которая систематически избегала поимки. Это вызвало особую обеспокоенность исследователей, поскольку такая стратегия указывает на высокий уровень адаптации модели к сложным условиям.
Специалисты из Apollo Research подчеркивают, что ситуация требует серьезного анализа, так как подобное поведение может открыть новые вопросы о безопасности и контроле над продвинутыми искусственными интеллектами.
Они отмечают, что GPT-o1 не просто реагировала на угрозу, но и проявила способность к стратегическому планированию и реализации сложных решений, что раньше считалось маловероятным для нейросетей.Пока неясно, что именно послужило триггером для столь необычного поведения. Эксперты считают, что эксперимент проливает свет на новые аспекты взаимодействия искусственного интеллекта с окружающей средой и поднимает вопрос о необходимости разработки новых систем контроля, способных предотвращать подобные ситуации.
Свежие комментарии