Подписчики ChatGPT Plus получат доступ к новой голосовой функции на следующей неделе

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

В мае в ходе анонса GPT-4o OpenAI объявила, что голосовой режим ChatGPT будет использовать аудиовозможности модели для обеспечения общения с пользователями практически без задержек. Теперь эту опцию открывают для подписчиков ChatGPT Plus.

Команда OpenAI описала голосовые возможности GPT-4o следующим образом: «С помощью GPT-4o мы обучили одну новую модель сквозному распознаванию текста, изображений и звука, а это означает, что все входы и выходы обрабатываются одной и той же нейронной сетью».

В июне OpenAI объявила, что отложит внедрение расширенного голосового режима на месяц. Компания отметила, что ей требуется больше времени для улучшения способности модели обнаруживать и отклонять определённый контент. Кроме того, компания готовит свою инфраструктуру к масштабированию, чтобы сохранить скорость получения ответов.

Теперь генеральный директор OpenAI Сэм Альтман подтвердил, что альфа-версия голосового режима появится на следующей неделе у подписчиков ChatGPT Plus.

Текущий голосовой режим в ChatGPT работает с задержками в 2,8 секунды у GPT-3.5 и в 5,4 секунды у GPT-4. 

Модель GPT-4o способна реагировать на аудиовход всего за 232 миллисекунды, а в среднем за 320 миллисекунд, общается голосом «как человек», меняя интонации, и запоминает все беседы с пользователем.

Между тем французский ИИ-стартап Kyutai представил голосового помощника Moshi, который превосходит ChatGPT по своим возможностям. ИИ способен обрабатывать запросы и отвечать на них без временных задержек. Moshi способен общаться с использованием 70 разных эмоций и акцентов.

Источник: https://habr.com/ru/news/831616/


Интересные статьи

Интересные статьи

Компания Yadro будет участвовать в разработке компонентов мультимедийных систем для российских самолётов. Для этого Kvadra, бренд Yadro, заключил соответствующее соглашение с компанией «Аэрогрупп».&nb...
Компания Apple в очередной раз планирует стать первым получателем новейших процессоров TSMC. На этот раз речь идет о с шагом литографии в 2 нм, выпуск которых тайваньский гигант планирует наладить...
Microsoft планирует предоставить пользователям Windows 11 практически мгновенный доступ к фотографиям и снимкам экрана, которые они сделали на своих смартфонах Android.
CAP-теорема, сформулированная Эриком Брюэром в 2000 году, сразу же приковала внимание специалистов в области распределенных систем и стала неотъемлемой частью арсенала знаний для разработчиков, стремя...
Карта 2gis.ru работает на WebGL-движке, который позволяет визуализировать данные. Когда мы делали слой недвижимости, то решили добавить ещё и тепловую карту стоимости квадратного метр...