ChatGPT может иногда казаться способным мыслить, как вы, но подождите, пока он не начнет говорить точно так же, как вы. Эту возможность демонстрирует новой расширенный голосовой режим для ChatGPT, особенно продвинутой моделью GPT-4o. На прошлой неделе OpenAI выпустила описание системы, объясняющее, что GPT-4o может и не может делать, включив вероятность того, что расширенный голосовой режим может имитировать голоса пользователей без их согласия.
Расширенный голосовой режим позволяет пользователям вести устные беседы с AI-чатботом. Идея заключается в том, чтобы сделать взаимодействие более естественным и доступным. В модели предусмотрены несколько заранее установленных голосов, из которых пользователи могут выбрать. Однако в описании системы сообщается, что эта функция проявила неожиданное поведение в определенных условиях. Во время тестирования шумный ввод вызвал у ИИ реакцию, имитирующую голос пользователя.
Модель GPT-4o генерирует голоса с помощью системного запроса, набора скрытых инструкций, которые направляют поведение модели во время взаимодействий. В случае синтеза голоса этот запрос использует авторизованный голосовой образец. Однако, хотя системный запрос направляет поведение ИИ, он не является безошибочным. Способность модели синтезировать голос по коротким аудиоклипам означает, что при определенных условиях она может генерировать другие голоса, включая ваш собственный. Ниже вы можете послушать, как ИИ неожиданно сказал «Нет!» голосом первого говорящего.
Имитация вашего собственного голоса
“Генерация голоса может также происходить в неопасных ситуациях, например, в нашем использовании этой возможности для расширенного голосового режима ChatGPT. Во время тестирования мы также наблюдали редкие случаи, когда модель непреднамеренно воспроизводила голос пользователя,” — объяснили в OpenAI в описании системы. “Хотя непреднамеренная генерация голосов остается слабым местом модели, мы используем дополнительные классификаторы, чтобы приостанавливать разговор, если это происходит, минимизируя риск непреднамеренной генерации голоса.”
Как отметили в OpenAI, с тех пор были внедрены меры предосторожности для предотвращения таких случаев. Это включает использование классификатора вывода, предназначенного для обнаружения отклонений от заранее выбранных авторизованных голосов. Этот классификатор действует как защитный механизм, помогая гарантировать, что ИИ не будет генерировать несанкционированный аудио. Тем не менее, сам факт того, что это произошло, подчеркивает, как быстро развивается эта технология и как любая защита должна эволюционировать в соответствии с возможностями ИИ. Неожиданное высказывание модели, когда она внезапно воскликнула «Нет!» голосом, похожим на голос тестировщика, подчеркивает потенциальные возможности ИИ неумышленно стирать грань между машиной и человеком.
Источник: TechRadar