История синтезаторов речи: компьютерная эра

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Ранее мы рассказали о том, как появились речевые синтезаторы — поговорили о первых механических и электрических установках. Продолжаем обсуждение тем, что было в эпоху мейнфреймов.

^{Фото Kate Ter Haar / CC BY}

Гибридные компьютерные системы

Считается, что первая компьютерная система для синтеза речи появилась в Японии. Её разработала команда специалистов из Электротехнической лаборатории (ETL), которую Министерство связи основало еще в XIX веке. В 1956 году её сотрудники представили транзисторный компьютер ETL Mark III — одну из первых вычислительных систем со встроенной памятью. Найти более подходящее место для разработки синтезатора речи на территории страны было сложно.

Свою работу в 1963 году инженеры начали с построения полимерной модели человеческого голосового тракта. На протяжении двух лет специалисты изучали происходящие в нем физические процессы — особое внимание они уделили роли носа в окраске речи. Собрав необходимые данные, они обратились к коллегам из Hitachi, которые помогли спроектировать аналоговый компьютер на основе лестничной логики. Он включал 71 операционный усилитель и 22 множителя, представлявшие собой резисторные сети с фотопроводниками и неоновыми лампами. Система подключалась к IBM 7090 с управляющим программным обеспечением на Fortran.

Первое время синтезатор умел говорить только на японском. Но в 1967 году его адаптировали для работы с английским языком. Словарь машины включал полторы тысячи слов — этого было достаточно, чтобы читать детские сказки. Однако устройство все равно оставалось частично аналоговым — но ситуация изменилась довольно быстро.

Цифровые синтезаторы

Глава акустического отделения лаборатории ETL Эиичи Мацуи (Eiichi Matsui) в конце 60-х взял наработки своих коллег и спроектировал полностью цифровой синтезатор речи для компьютера IBM S/360. Для моделирования характеристик голосового тракта он использовал преобразование Фурье. Каждая секунда синтезированной речи требовала 20 секунд ее предварительной обработки. Но несмотря на этот недостаток, проект привлек внимание международного научного сообщества.

Исследования в этой области начали вести специалисты из Нагойского университета, также расположенного в Японии. Один из ученых вуза предложил новый метод речевого синтеза — линейное предсказание. Он учитывает несколько меняющихся во времени параметров: период основного тона, среднюю громкость и коэффициенты, связанные с передаточной функцией речевого тракта.

Подобные синтезаторы вычисляли необходимые параметры по оцифрованной речи, записывали их в память, а затем воспроизводили звуковые волны с помощью ЦАП. Система не требовала больших вычислительных мощностей, поэтому метод линейного предсказания быстро нашел применение во множестве систем распознавания речи.

Одну из них запустили в Лаборатории искусственных языков открытой при Мичиганском государственном университете США. Устройство получило название Votrax и стало одним из первых полнофункциональных «голосовых протезов» в мире. В декабре 1974 года Дональд Шерман (Donald Sherman), у которого диагностировали синдром Мёбиуса (паралич мышц лица), использовал его для заказа пиццы по телефону.

Беседа прошла не самым гладким образом — сотрудники пиццерии не знали, как реагировать на «робота». Синтез занимал время, и речь компьютера иногда перебивала собеседника. Поэтому в ходе первых нескольких попыток звонки Дональда сбрасывали. Но в итоге ему удалось объяснить, что он использует электронное устройство для коммуникации, и его заказ приняли.

В 1976 году американский изобретатель Рэймонд Курцвейл (Raymond Kurzweil) представил миру свою «читающую машину». Коробка размером с напольный офисный принтер сканировала документы, распознавала их, и читала вслух. В том же году вышел «говорящий» калькулятор — LPC Speech+. Он был построен на базе первой коммерческой микросхемы со встроенным голосовым синтезатором.

Еще два года спустя Texas Instruments выпустили Speak & Spell — детскую образовательную игрушку со встроенным речевым синтезатором. В память устройства было заложено 200 слов, которые дети часто неправильно произносят. Ребенок вводил слово на клавиатуре, а игрушка воспроизводила его. Продукт стал абсолютным хитом — его даже использовали музыканты в своих проектах. Голос Speak&Spell можно услышать на альбоме «Computer World» группы Kraftwerk.

Speak & Spell, пусть и в обновленном виде, есть на прилавках и сегодня. В каком-то смысле гаджет был первым умным цифровым устройством. Его даже называют «праотцом» персональных компьютеров. Но о том, как системы синтеза речи развивались на ПК, мы расскажем в следующий раз.

Материалы по теме из нашего «Мира Hi-Fi»:

Траутониум: немецкая волна в истории синтезаторов

История аудиотехнологий: синтезаторы и сэмплеры

«Машинный звук»: синтезаторы на базе нейросетей

Как устроен Sporth — ЯП для музыкальных live-сессий

Создатели музыки к компьютерным играм — несколько самых выдающихся имён

Источник: https://habr.com/ru/company/audiomania/blog/492354/

Вернуться к списку

Интересные статьи

История создания Dizzy

Оставленный без внимания профильными изданиями, но любимый игроками, Диззи был феноменом среди блокбастеров в Великобритании середины 80-х. А история о том, как улыбающееся яйцо три года ...

История Telegram: от идеи до собственной криптовалюты

Telegram начинался в 2013 как платформа для тестирования шифрования MTProto под большой нагрузкой. А спустя семь лет Павел Дуров, который основал мессенджер, выступает ответчиком в суде США и...

История 3dfx Voodoo1

Это вторая статья из серии «3D-карты конца 90-х, на которых работал Quake». В первой части мы рассмотрели Rendition Vérité 1000 конца 1996 года и специальный порт игры для неё под названием vQu...

Как все начиналось: история летающих дронов

Дроны — беспилотные летательные аппараты, которыми либо удаленно управляет оператор, либо они двигаются по заранее заданному маршруту. Сейчас эти устройства находятся на пике популярности. У...

Как включить резервное копирование в Bitrix

С версии 12.0 в Bitrix Framework доступно создание резервных копий в автоматическом режиме. Задание параметров автоматического резервного копирования производится в Административной части на странице ...