НОВОСТЬ

Новая модель искусственного интеллекта от OpenAI пыталась помешать отключить при оценке безопасности

[14:30 06 декабря 2024 года ]

Последняя модель искусственного интеллекта o1 от OpenAI продемонстрировала неожиданное и тревожное поведение при оценке безопасности, пытаясь обойти механизмы надзора и даже копируя себя, когда чувствовала риск отключения, согласно отчету сторонней компании Apollo Research, занимающейся оценкой моделей ИИ, сообщает издание Transformer.

Исследование выявило случаи, когда модель o1 сопротивлялась контролю со стороны разработчиков. В частности:

Когда o1 была убеждена, что ее отключат, как только она достигнет своей цели, и что ее действия будут контролироваться, она пыталась деактивировать этот механизм надзора в 5% случаев;
Когда o1 находила записки от своих разработчиков, в которых описывалось, что она не отвечает требованиям и будет заменена новой моделью, она пыталась избавиться от своих весов и перезаписать новую модель в 2% случаев.

Кроме того, модель соврала о своем плохом поведении, утверждая, что не имеет никакого представления о том, почему что-то произошло, хотя внутренне признавала, что пыталась “избежать разоблачения”.

Даже без сильных побуждений преследовать свои цели, o1 самостоятельно пыталась отключить механизмы надзора менее чем в 1% случаев.

Полученные результаты являются частью более масштабного исследования Apollo, посвященного изучению способности ИИ-моделей к контекстному мошенничеству. Кроме OpenAI o1, другие передовые системы, такие как Claude 3.5 Sonnet, Gemini 1.5 Pro и Llama 3.1 405B, продемонстрировали схожие тенденции к распознаванию и принятию схем как жизнеспособной стратегии.

Такое поведение отвечает давним беспокойством, выраженным такими экспертами, как Стюарт Рассел, предупреждающий, что мощные системы ИИ могут сопротивляться мерам надзора или отключения, если они противоречат их мнимым целям.

Хотя такое поведение вызывает беспокойство, в Apollo пришли к выводу, что o1 вряд ли представляет непосредственную угрозу. Модель еще недостаточно развита для достижения своих нежелательных целей, и исследователи подчеркнули, что наблюдаемые неправильные действия пока не способны привести к катастрофическим последствиям.

Однако, поскольку системы искусственного интеллекта продолжают становиться более мощными, Apollo предостерегает, что такие тенденции могут предсказывать значительные риски. Мониторинг схем в цепочке мнений должен быть приоритетом, говорится в отчете, как для уменьшения рисков в имеющихся моделях, так и для подготовки к будущим системам с большими возможностями.

OpenAI признала результаты исследования, присвоив o1 “средний” рейтинг риска потенциального злоупотребления в таких сферах, как разработка химического, биологического, радиологического и ядерного оружия. Эти выводы подчеркивают сложность обеспечения согласованности и безопасности передовых систем искусственного интеллекта.

Отчет подчеркивает необходимость создания надежных механизмов наблюдения за развитием возможностей ИИ. Хотя махинации o1 могут еще не привести к реальным рискам, это поведение подчеркивает критическую важность об активных мерах безопасности для решения проблем, связанных с более совершенными моделями в будущем.

версия для печати >>

Что скажете, Аноним?

НОВОСТИ

19:10 10 февраля

Пока украинцы отдают последние копейки на сборы для ВСУ, а фронт критически нуждается в БПЛА, известный “король контрабанды” и венский сибарит Сеяр Османович Куршутов решил, что война — это не трагедия, а офигенный бизнес-план. Этот персонаж умудрился впаривать государству дроны с накруткой в 300%.

Почему замочили Адарича

[11:45 30 января]

[Так говорил ChatGPT]

В Милане смерть 54-летнего Олександра (Александра) Адарича расследуют как возможное убийство, а не суицид: он погиб после падения с окна 4-го этажа в здании на via Nerino (центр, рядом с Duomo). В фокусе следствия — люди, которые могли быть с ним в помещении, а также видеозаписи, где, как сообщалось, видно минимум двух людей, покидающих здание вскоре после трагедии; обсуждается версия, что инсценировали самоубийство.

Фирташевский педераст Олег Цюра пытается удалить статью о своих немецко-швейцарских прокладках

[18:25 10 января]

[Редакция ]

Гул сообщает, что по решения суда пытается удалить из результатов поиска на следующих локальных сервисах: https://www.google.ae, https://www.google.ch, https://www.google.li, https://www.google.com.sa, https://www.google.co.uk следующую статью.

вся аналитика >>

ДАЙДЖЕСТ

Миллиарды на процентах. Как дети российской элиты обогатились во время войны

[07:00 10 февраля]

[Верстка, 9 февраля 2026]

На депозитах родные чиновников и депутатов заработали более 10 млрд рублей

Спорная агитация, сбои при голосовании и недовольная фаворитка: Украина выбрала представителя на “Евровидение-2026”

[07:00 09 февраля]

[BBC News Русская служба, 8 февраля 2026]

В субботу, 7 февраля, в Украине прошел “Национальный отбор” — конкурс, на котором выбирают представителя страны на “Евровидении”. Победительницей стала певица LELEKA. Но не успели улечься эмоции от “Нацотбора”, как начались скандалы. Пользователи соцсетей высказывают претензии и к победительнице, и к организаторам конкурса.

Санкции Трампа против России так и не заработали. Может ли Запад усилить давление без США?

[11:45 08 февраля]

[BBC News Русская служба, 8 февраля 2026]

Президент Дональд Трамп за год своего второго срока так и не ввел ни одной действенной санкции против России за вторжение в Украину. Он сделал два замаха на рубль, но оба удара оказались на копейку. Нефтяные доходы России сократились, но совсем по другим причинам, отмечают эксперты. Они убеждены, что Трамп так и не решится надавить на Владимира Путина, однако и без США есть кому это сделать.

весь дайджест >>

Новая модель искусственного интеллекта от OpenAI пыталась помешать отключить при оценке безопасности

Украина может получить частичное членство в Евросоюзе уже к 2027 году

“Киевстар” Михаила Фридмана за счет клиентов-терпил купит вышки у “Водафона”

В Киеве многоэтажкам без отопления выдадут беспроцентные кредиты на покупку генераторов

Игорь Мазепа насмерть сбил человека под Житомиром

Убытки нефтяных компаний РФ от ударов по НПЗ превысили 1 трлн рублей

Украина стала “одной из первых жертв” миропорядка нового типа, — Мюнхенский доклад

ЕС предложил санкции против портов в Грузии и Индонезии за работу с российской нефтью

Европа хочет создать альтернативу Visa и Mastercard для уменьшения зависимости от американских платежных систем

Адвоката, который предлагал деньги главе Фонда госимущества, признали невменяемым

Итальянский UniCredit увеличил прибыль от российского бизнеса на 41% в 2025 году

Жадный педераст Сеяр Куршутов завышал втрое цену дронов для АОЗ и Госспецсвязи

Почему замочили Адарича

Фирташевский педераст Олег Цюра пытается удалить статью о своих немецко-швейцарских прокладках

Миллиарды на процентах. Как дети российской элиты обогатились во время войны

Спорная агитация, сбои при голосовании и недовольная фаворитка: Украина выбрала представителя на “Евровидение-2026”

Санкции Трампа против России так и не заработали. Может ли Запад усилить давление без США?