Опубликован исходный код синтезатора речи ru_tts с голосом "Фонемафон-5"

Дата:12.07.2021
Источник:GitHub
Поделиться в Twitter Поделиться в F******k Поделиться в VKontakte Поделиться в Telegram Поделиться в Mastodon

На условиях свободной лицензии MIT стал доступен исходный код разработанного Игорем Порецким синтезатора речи ru_tts, который представляет собой альтернативную реализацию синтезатора речи "Фонемафон-5" для MS-DOS, разработанного международной лабораторией интеллектуальных систем "БелСИнт" под руководством Бориса Лобанова на базе лаборатории распознавания и синтеза речи Института технической кибернетики Академии наук Белорусской ССР.

История синтезаторов речи серии "Фонемафон" отсчитывается с начала семидесятых годов и на протяжении всего этого времени связано с именем Бориса Лобанова, руководившего данными разработками. Однако ещё в 1959 году, проходя срочную службу в рядах Советской армии в должности старшего радиомастера, Борис Лобанов, имея достаточную специальную подготовку и хорошо оборудованную приборами радиомастерскую, задался вопросом: "А как же устроена естественная речевая связь между людьми?" Параллельно с изучением звуков речи с помощью микрофона и осциллографа он проводил свои увольнительные в Петрозаводской библиотеке, вступил в переписку с известным учёным, профессором Людмилой Чистович, и получил от неё ряд ценных советов по проведению исследований речи. Сохранилась документальная запись в дневнике Лобанова, датированная 25 октября 1959 года: "Фонемофон ведет к фонемографу".

После окончания службы в армии в 1961 году Борис Лобанов поступил в институт и продолжил заниматься научными исследованиями в области анализа речевых сигналов для систем распознавания и синтеза речи. В 1966 году им была организована хозрасчётная научная лаборатория анализа и синтеза речевых сигналов при кафедре радиоприёмных устройств Минского радиотехнического института.

После защиты диссертации в 1968 году Борис Лобанов был направлен на научную стажировку в Великобританию в 1969-1970 годах, где под руководством профессора Эдинбургского университета Р. Лоренца им были проведены успешные эксперименты по синтезу звуков русской речи, позволившие заложить основы формантного синтеза речи по фонемному тексту. В результате уже в 1971 году под руководством Бориса Лобанова было создано автономное устройство с ручным вводом текста, базировавшееся на фонемно-формантном методе синтеза речи и считающееся первым поколением - "Фонемафон-1". Устройство являлось одним из первых синтезаторов русской речи, и оно было отмечено двумя медалями ВДНХ СССР.

Усовершенствованная версия данного устройства, ставшее вторым поколением синтезатора, - "Фонемафон-2", в которой были оптимизированы характеристики формантных фильтров, а ввод текста осуществлялся с перфоленты, появилась в 1975 году.

В 1979 году на международной выставке Telecom-79 в Женеве было продемонстрировано третье поколение устройства - "Фонемафон-3", где использовался уже фонемно-артикуляторно-формантный метод синтеза речи. Ввод текста в него был возможен как с ЭВМ, так и вручную с клавиатуры. Устройство также могло подключаться к телефонной линии. К этому моменту синтезатор демонстрировал способность разговаривать не только на русском, но также на английском, французском и немецком языках, хотя и с сильным русским акцентом, так как синтез речи происходил на основе русских фонем.

В восьмидесятых годах началось активное внедрение подсистем синтеза речи серии "Фонемафон" в различные промышленные системы. В частности, в 1984 году появилось первое в СССР промышленное устройство распознавания и синтеза речи - "Марс-1", выпускавшееся серийно ПО "Кварц" в Калининграде под руководством конструктора Валерия Афанасьева. На базе речевого терминала "Марс-1" была разработана система автоматического информирования абонентов междугородной телефонной сети (АИАМТС) о задолженности за переговоры. Система АИАМТС была успешно внедрена и длительное время эксплуатировалась в ряде крупных городов: Минске, Новосибирске, Алма-Ате, Фрунзе, Петропавловске-Камчатском. Ещё одна разработка - система контроля за параметрами аппаратуры телефонных и радиостанций с оперативным оповещением дежурного персонала о возникших неполадках — была внедрена на Минской, Московской и Зеленоградской АТС, а также на Белорусской республиканской радиоретрансляционной станции РТС-5.

В 1986 году, в сотрудничестве с профессором кафедры фонетики Минского лингвистического университета Еленой Карневской, была разработана англоязычная версия синтезатора речи, демонстрировавшаяся на Всемирном конгрессе фонетических наук 1987 года. К этому моменту четвёртое поколение устройства - "Фонемафон-4" - использовало фонемно-аллофонно-формантный метод синтеза речи и в добавок к мужскому, получило и женский голос.

На протяжении семидесятых и восьмидесятых годов в "Фонемафонах" использовались различные вариации формантного метода синтеза речи, а сами они воплощались в виде автономных устройств. Однако в конце восьмидесятых годов Борисом Лобановым был предложен новый фонемно-микроволновый метод синтеза речи, в котором вместо вычислений формантных колебаний использовался подготовленный заранее набор микроволн естественного речевого сигнала. Данный подход под руководством Бориса Лобанова в 1990 году реализовал инженер лаборатории распознавания и синтеза речи ИТК АН БССР Александр Иванов в виде программного обеспечения для персональных компьютеров класса ЕС-1840 и IBM PC/XT. Начиная с этого пятого поколения "Фонемафон-5", для работы с синтезатором было достаточно иметь IBM-совместимый компьютер с тактовой частотой не ниже 10 мегагерц и оперативной памятью не менее 640 килобайт, а также операционную систему MS-DOS 3.30. Синтезатор мог разговаривать на русском языке мужским и женским голосом.

При создании "Фонемафона-5" Борис Лобанов для подготовки фонетико-акустической базы данных зачитывал специальный текст в студии, чтобы записать минимально необходимое количество позиционных и комбинаторных аллофонов гласных и согласных, а затем нарезал звуковые сегменты при помощи редактора сигналов. Нарезанные оцифрованные сегменты хранились каждый в отдельном файле с уникальным именем: 8-битные значения уровня сигнала, дискретизированного с частотой 10 кГц. Александром Ивановым была подготовлена специальная утилита, которая собирала эти файлы вместе в определённом порядке и компилировала результирующие базы голосов, с которыми уже и работал движок синтезатора речи, также написанный Александром Ивановым. Задумывалось, что будет много вариантов мужских и женских голосов, но в итоге было подготовлено только по одному мужскому и женскому голосу.

На базе "Фонемафона-5" научным сотрудником Института технической кибернетики АН РБ Георгием Лосиком в начале девяностых годов были созданы и распространены комплекты программного обеспечения, позволившие сделать работу в среде MS-DOS доступной для незрячих пользователей.

Резидентные речевые драйверы SDRV синтезатора "Фонемафон-5", лицензировавшиеся международной лабораторией интеллектуальных систем "БелСИнт", долгие годы использовались в целом ряде программных продуктов для MS-DOS, нуждающихся в функциональности синтеза речи, в том числе в множестве программ экранного доступа, таких как "Аргус", "Сталкер" и других.

К сожалению, ухудшение финансирования научных разработок в девяностых годах привело к снижению активности исследований в области синтеза речи и к распаду научного коллектива, разрабатывавшего конкретные реализации синтезаторов, что на фоне общей неразберихи привело к печальным последствиям в виде утраты исходного кода "Фонемафон-5". Архив с материалами проекта, хранившийся некоторое время на персональном компьютере Александра Иванова, также со временем был утрачен вместе с устаревшим оборудованием и не уцелел.

Однако синтезатор "Фонемафон-5" за счёт своей компактности и высокой разборчивости речи продолжал оставаться востребованным многими людьми, что привело к ряду попыток его возрождения и переноса на более новые системы посредством дизассемблирования и обратной разработки. Несколько подобных инициатив закончились получением работоспособных, хотя и не эквивалентных версий синтезатора "Фонемафон-5", которые различаются особенностями технической реализации, но до недавнего времени были схожи общим неоднозначным правовым статусом.

Одним из наиболее удачных проектов этого рода является обратная разработка "Фонемафона-5", выполненная Игорем Порецким в сотрудничестве с Дмитрием Падучих в середине двухтысячных годов с целью получения русскоязычного синтезатора речи для операционных систем GNU/Linux. Получившийся синтезатор был назван ru_tts и в своё время стал знаковым событием, так как был первым приемлемым решением по синтезу русской речи для систем семейства Linux.

Долгие годы по этическим соображениям, связанным со спорным правовым статусом ru_tts, исходный код данного синтезатора речи не раскрывался. Однако в 2021 году были проведены переговоры, в результате которых было получено общее согласие со стороны Игоря Порецкого, который является автором программной реализации ru_tts, Дмитрия Падучих, который внёс заметный вклад на этапе начального дизассемблирования резидентного речевого драйвера SDRV, Бориса Лобанова, который был руководителем лаборатории, разработавшей "Фонемафон-5", и является автором его конструктивных решений, лёгших в основу ru_tts, а также Александра Иванова, который был инженером лаборатории и разработчиком оригинальной программной реализации "Фонемафона-5", о публикации исходного кода ru_tts на легальной основе под свободной лицензией MIT.

Синтезатор ru_tts представляет собой альтернативную реализацию "Фонемафона-5", функционально близкую к оригинальному синтезатору для MS-DOS. Его код написан языке C и легко собирается под различные операционные системы, разрядности и процессорные архитектуры. Код распространяется на условиях свободной лицензии MIT и опубликован в репозитории на GitHub. В отдельном репозитории на GitHub выложены словарь с дополнительными правилами произношения и инструменты его редактирования.

На базе ru_tts Игорем Порецким реализован русский голос в речевом сервере Multispeech для систем Linux, а также русский голос в синтезаторе речи SmartVoice для систем Android. Теперь же, благодаря публикации исходного кода, ru_tts с голосом "Фонемафона-5" может быть использован в большем числе продуктов, ориентированных на пользователей, которым требуется синтез максимально чёткой речи с минимальной нагрузкой на процессор.

Выражаем благодарность Борису Мефодьевичу Лобанову за неоценимый вклад в развитие русскоязычного синтеза речи на протяжении многих десятилетий и Александру Николаевичу Иванову за создание программной реализации синтезатора "Фонемафон-5", сохраняющего востребованность до сегодняшних дней, а также Игорю Борисовичу Порецкому и Дмитрию Викторовичу Падучих за мастерскую работу по возвращению утраченной технологии "Фонемафон-5".


Метки


Распространение материалов сайта означает, что распространитель принял условия лицензионного соглашения.
Идея и реализация: © Владимир Довыденков и Анатолий Камынин,  2004-2024