Голосовой интерфейс

Автор работы: Пользователь скрыл имя, 07 Июня 2012 в 12:08, курсовая работа

Описание

Под речевыми технологиями в компьютерном мире подразумевают целый конгломерат программных и аппаратных средств, позволяющих осуществлять прежде всего синтез и распознавание человеческой речи, а также разрабатывать средства, позволяющие создавать системы обработки речи. Создание и разработка речевого интерфейса на сегодняшний момент времени является одной из самых сложных и противоречивых задач

Работа состоит из  1 файл

Курсовая_Сазонов_голосовой_интерфейс.doc

— 169.50 Кб (Скачать документ)

     Главным фактором, ускорившим развитие программ распознавания речи, было совершенствование компьютеров.  
 Программы распознавания речи требуют наличия довольно мощной звуковой карты, поскольку они выполняют сложную работу. Сначала произносимые вами слова захватываются микрофоном и обрабатываются звуковой картой.

     Затем программа анализирует звук, чтобы  отличить низкочастотные гласные от высокочастотных согласных. После  этого результаты сравниваются с  фонемами (частями слов), группами фонем  и словами, чтобы подобрать наиболее точный эквивалент.

     Этот  алгоритм должен быть не только аккуратным и быстрым, но пластичным, чтобы учитывать  особенности произношения, модуляции голоса, скорость речи. После подбора наиболее точного слова программа анализирует контекст, что предугадать следующее слово. Это позволяет различить слова-омонимы, например, коса (вид прически), коса (береговая отмель), коса (сельско-хозяйственный инструмент).

     NaturallySpeaking и ViaVoice могут работать сразу  после того, как вы прочтете  несколько предложений. Чтобы добиться лучших результатов следует, однако, произвести 30-минутную тренировку. Чтобы еще лучше подготовить программу следует прочитать текст или импортировать документы, содержащие наиболее часто употребляемые вами слова.

     Хотя  результаты несколько противоречивы, понятно, что пользователи могут добиться большего, посвятив большее время тренировке программ. Это может занять от часа до месяца постоянной работы прежде, чем вы получите реальные результаты. Профессионалам, нуждающимся в диктовке, энтузиазм новой технологии наверняка позволит добиться больших результатов.  

     1.4. Речевой вывод  данных 

     В области синтеза речи основными  направлениями являются синтез по правилам и синтез по образцам – компилятивный  синтез.

     Процесс преобразования символьного представления информации в сигнал речевого сообщения состоит из двух основных этапов конструирования речевого сообщения и собственно синтеза речевого сигнала. Конструирование речевого сообщения заключается в выработке некоторой последовательности команд управления аппаратными средствами собственного синтезатора, в соответствии с которой на выходе синтезатора формируется речевой сигнал. Конструирование речевого сообщения может выполняться программным путем с использованием аппаратуры ЦП- или МП- средств, встроенных в УВыв речи. Синтез речевого сигнала выполняется аппаратурой ПУ. Действия, выполняемые на каждом из шагов, определяются принятым в данном ПУ способом формирования речевого сигнала.

     При синтезе по правилам речевой сигнал образуется только по хранящимся в памяти устройства правилам без обращения к какому-либо виду речи, произносимой человеком.

     При компилятивном синтезе имеется  словарь речевых единиц, специально подготовленных из реальных элементов речевого материала, наговоренного определенным диктором.

     Наиболее  перспективное направление- синтез по правилам- позволяет преобразовать произвольный орфографический текст в соответствующий речевой сигнал по схеме: текст-фонема –речь. Но при практически неограниченном словаре такое преобразование пока не обеспечивает хорошего качества синтезированной речи. Поэтому наиболее распространенным остается компилятивный синтез, где при ограниченном словаре (из-за большого объема памяти и сложности программ составления речевых сообщений) достигается хорошее качество речи.

     Самая простая система синтеза речи получается при компиляции слов. Именно такие системы первыми начали использоваться в практике. Основу компилятивной системы составляют ЗУ речевых единиц. Объем ЗУ зависит как от количества слов в нем, так и от формы представления речи в запоминающей среде.

     Компиляционный  речевой вывод целесообразен  при малых словарях. Он обеспечивает при этом хорошее качество и разборчивость речи.

     Синтезатор  речи по печатному тексту содержит ЗУ для хранения кодов текста сообщений, преобразователь текста в управляющие сигналы синтезатора, синтезатор, акустический преобразователь:

      

     Преобразователь текста выполняет несколько функций. Одна из них – перекодировка текста в фонетические (соответствующие звукам речи) символы, так как фонемы чаще всего произносятся не так, как обозначаются, а некоторые не произносятся вовсе.

     Результат преобразования текста в виде последовательности управляющих параметров (кодов) поступает в синтезатор.

      

     Основой синтезатора обычно является линейная модель речеобразования, которая была разработана Г. Фантом в начале 50-х  годов. Линейная модель генератора основного тона (ГОТ), генератор шума (ГШ), модель голосового тракта, представленную линейным фильтром (ЛФ) с характеристикой H (w) и переменными параметрами, модель изучения (Ми), описывающую характер звукового давления на выходе речевого тракта в районе губ. ГОТ имитирует работу голосовых связок речевого аппарата человека. Частота основного тона для мужского голоса лежит в пределах 80-90 Гц, для женского – 160-320 Гц. С его помощью формируется вокализация звука. Шумовой источник – ГШ с равномерным спектром используется для формирования таких звуков, как «с», «ш». Обычно звуки речи образуются при помощи только одного источника, но могут одновременно использоваться два и три источника.


Информация о работе Голосовой интерфейс