Реферат «Основы прикладной лингвистики»

Автор работы: Пользователь скрыл имя, 29 Декабря 2011 в 05:12, реферат

Описание

Речевые технологии — технологии благодаря которым появилась возможность управлять компьютером с помощью голоса, диктовать текст, слушать, а не читать книги, а в перспективе общаться с компьютером на интеллектуальном уровне. Основными направлениями исследований в этой области являются: распознавание речи, синтез речи, средства речевого управления, идентификация по образцу речи. Что на сегодняшний день достигнуто в области речевых технологий, какие исследования проводятся в данный момент, перспективы развития речевых технологий, фирмы, компании и организации ведущие разработки в области речевых технологий, программное обеспечение, техническая информация, статьи, ссылки на эти и многие другие вопросы — на этом сайте.

Содержание

Речевые технологии…………………………....………………………………………………………...3

Распознавание речи, примеры программ……..……………………………………………………...5

Заключение……….……………………………………………………………………………………….10

Список использованной литературы………………………………………………………………….11

Работа состоит из  1 файл

«Обучающие программы на базе технологий распознавания речи ».doc

— 84.00 Кб (Скачать документ)

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ РФ

ГОУ ВПО  «ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

ИНСТИТУТ  ФИЛОЛОГИИ И МЕЖКУЛЬТУРНОЙ КОММУНИКАЦИИ

КАФЕДРА АНГЛИЙСКОЙ ФИЛОЛОГИИ 

Реферат 

по дисциплине «Основы прикладной лингвистики» на тему:

«Обучающие программы на базе технологий распознавания речи » 
 
 
 

Выполнила:

Олейникова  Надежда, гр. ТиПЛ-081 
 
 
 
 
 
 
 
 
 
 
 
 

Волгоград 2011 

Содержание

Речевые технологии…………………………....………………………………………………………...3

Распознавание речи, примеры программ……..……………………………………………………...5

Заключение……….……………………………………………………………………………………….10

Список использованной литературы………………………………………………………………….11 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  1. Речевые технологии

    Речевые технологии — технологии благодаря которым появилась возможность управлять компьютером с помощью голоса, диктовать текст, слушать, а не читать книги, а в перспективе общаться с компьютером на интеллектуальном уровне. Основными направлениями исследований в этой области являются: распознавание речи, синтез речи, средства речевого управления, идентификация по образцу речи. Что на сегодняшний день достигнуто в области речевых технологий, какие исследования проводятся в данный момент, перспективы развития речевых технологий, фирмы, компании и организации ведущие разработки в области речевых технологий, программное обеспечение, техническая информация, статьи, ссылки на эти и многие другие вопросы — на этом сайте. 
     
    Программное обеспечение на основе речевых технологий: программы синтеза речи; программы распознавания голоса и программы распознавания речи; управление компьютером и внешними устройствами, Microsoft Agent, программы для работы с почтой, идентификации по образцу речи, обучающие программы, специализированное програмное обеспечение, программы для незрячих.

    Речевые технологии, позволяющие распознавать команды в условиях шумов позволят

    дополнить управление в автомобилях таким функциями  как свет, радио, замки и т.д. Наиболее значительное применение голосовых  технологий  - это электронная 

    коммерция.  Рынок  голосовой навигации в Web сайтах, осуществляющих электронную

    торговлю услугами по  продаже авиа и железнодорожных  билетов, продуктов,  другими

    услугами и  сервиса , как по телефону, так и  через Интернет, по оценкам экспертов, может 

    достигнуть 500 миллионов USD в течение года от начала применения.

    Технология выделения и измерения фонем речи открывает новые возможности для

    обучения языкам. Она вводит в процесс обучения языка, кроме звуковой, визуальную

    обратную связь, позволяет увидеть свою и эталонную речь, сравнить их визуально, увидеть

    ошибки произношения и получить оценку произнесения фонемы, слова и фразы. Введение в

    процесс обучения языкам визуальной обратной связи позволяет визуализировать

    неправильно произнесенные звуки и дать рекомендации по их исправлению. Так как 80%

    информации человек получает через зрение и поэтому визуальный анализ у большинства

    людей развит намного лучше чем звуковой и визуализация речи дает возможность намного

    быстрей ее освоить. Кроме того визуализация процесса произношения с выделением фонем и

    показом положения артикуляционных органов по анализу произношения, позволяет создать

    уникальные системы для обучения произношению для людей с ограниченными

    возможностями, слабослышаших и глухих.

    Рынок программ обучения, основанных на речевых технологиях  - выделения,

    визуализации и распознавания фонем, позволяющий эффективно осваивать речь, (говорить и

    слышать) по оценке экспертов индийской фирмы Edaxis только для Английского языка может

    достигнуть в Индии 500 мил USD в год.

    Но сегодня мы остановимся на изучении технологии распознавания речи и познакомимся с её  основными обучающими программами. 
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     

  1. Распознавание речи, примеры программ

      Существующие технологии распознавания  речи не имеют пока достаточных  возможностей для их широкого  использования, но на данном этапе исследований проводится интенсивный поиск возможностей употребления коротких многозначных слов (процедур) для облегчения понимания. Распознавание речи в настоящее время нашло реальное применение в жизни, пожалуй, только в тех случаях, когда используемый словарь сокращен до 10 знаков, например при обработке номеров кредитных карт и прочих кодов доступа в базирующихся на компьютерах системах, обрабатывающих передаваемые по телефону данные. Так что насущная задача - распознавание по крайней мере 20 тысяч слов естественного языка - остается пока недостижимой. Эти возможности пока недоступны для широкого коммерческого использования. Однако ряд компаний своими силами пытается использовать уже существующие в данной области науки знания.

      Существующие сегодня системы распознавания речи основываются на сборе всей доступной (порой даже избыточной) информации, необходимой для распознавания слов. Исследователи считают, что таким образом задача распознавания образца речи, основанная на качестве сигнала, подверженного изменениям, будет достаточной для распознавания, но тем не менее в настоящее время даже при распознавании небольших сообщений нормальной речи, пока невозможно после получения разнообразных реальных сигналов осуществить прямую трансформацию в лингвистические символы, что является желаемым результатом.

    Сегодня в этом направлении  работают уже не десятки, а сотни исследовательских коллективов в научных и учебных заведениях, а также в крупных корпорациях. Об этом можно судить по таким международным форумам ученых и специалистов в области речевых технологий, как ICASSP, EuroSpeech, ICPHS и др. Результаты работы, на которую, как у нас образно говорят, «навалились всем миром», трудно переоценить.

       Уже в течение нескольких лет  голосовые навигаторы, или системы распознавания команд, успешно применяются  в различных  областях  деятельности. Например: 

Sakrament

Компания "Сакрамент" разработала собственные  модули распознавания отдельных  слов и речевых команд, а также  высококачественного синтеза, которые могут быть легко адаптированы и использованы в любом из приложений для решения самого широкого спектра задач, в том числе и для работы с белорусским и украинским языками. 

Разработка  велась с использованием новейших технологий:

-- С++;

-- COM/DCOM;

-- методы  динамического программирования  и скрытых марковских моделей;

-- самоорганизующиеся  карты признаков Кохонена;

-- аллофонная  модель русского синтеза. 

Такой подход позволил обеспечить: совместимость  с MS SAPI 4.0 реальная точность распознавания слов 95-98% объем словаря распознавания до 10.000 слов высокое качество синтезированной речи 

"Сакрамент"  предлагает демонстрационные версии  своих продуктов: Встроенный в  систему Windows 95/98/2000/NT модуль раздельного  голосового ввода позволяет вводить цифры от 0 до 9 и 20 основных команд, присущих стандартному MS Windows Calculator. Пользователю предоставляется возможность вводить новые слова и адаптировать систему к особенностям своего голоса. Модуль распознавания изолированных слов имеет словарь на 300 слов, его можно внедрять в различные приложения. 

В компании ведутся усиленные разработки распознавателя слитной речи, ожидаются результаты по диктовке произвольного текста. 

Разработки  в области распознавания речи 

* speech database & analyst

* калькулятор с голосовым вводом 

 

Российская  программа распознавания  речи Горыныч 4.5 DictLight

Основное  предназначение версии Горыныч 4.5 DictLight - вывод распознанных слов в любые  текстовые редакторы под управлением MS Windows. Разработанная российской компанией VoiceLock, эта программа объединила в себе последние достижения в области обработки звучащей речи и успешно справляется с задачей перевода устной речи в текстовые редакторы. 

Программа использует оригинальное ядро, полностью  основанное на российских разработках. Вывод текста может производиться в любые текстовые редакторы, а также в иные программы независимо от их производителя. 

Особенности программы: 

* Совместимость  с самыми новыми версиями операционных  систем.

* Очень  простой и удобный интерфейс.

* Быстрая  и легкая настройка микрофона.

* Возможность  добавлять в словарь собственные  слова.

* Тренировка  слов непосредственно в процессе  диктовки. 
 
 

    Фирма «ИстраСофт» разработала новые алгоритмы и программное обеспечение для анализа речевой информации, при этом эффективно интегрируя распознавание речи, компрессию, синтез и идентификацию голоса. В отличие от других фирм, работающих в области речевых технологий, технология «ИстраСофт» позволяет выделить и измерить в речевом сигнале элементарные звуки (фонемы), независимо от говорящего, что дает хорошие результаты даже при высоком уровне фонового шума. 

    Наиболее  известные компании в области  речевых технологий: IBM, Philips, Acapela-grup, Nuance, SpeechWorks и ART.

    Технология  распознавания речи у всех этих компании основана на преобразовании в частотную  область частей речевого сигнала, выделенных тем или иным образом, и сравнению  этих частей с накопленной ранее  звуковой базой.

Несмотря на вложенные  в эти технологии большие капиталы, результаты остаются далекими от совершенства, поскольку в полученной таким  образом спектральной информации находится  огромное количество звуковой (вокальной) информации, не относящейся к распознаваемой. 

Подход фирмы  «ИстраСофт», напротив, основан на выделении  и измерении в речевом сигнале  элементарных, не зависящих от индивидуальности говорящего, звуковых объектов, формирующих  речь. Речевой сигнал анализируется, и в нем измеряются и классифицируются только те части (характеристики) речевого сигнала, которые создают ощущение элементарного звука. Под элементарным звуком понимается только та выделенная и очищенная от всех других частей, часть речевого сигнала, которая создает нам в речи, ощущение определенного звука. 

Такой подход дает возможность разработать систему  распознавания не чувствительную к  шумам и сделать ее голосонезависимой, разработать алгоритмы и технологию визуализации фонем в речевом  сигнале, используемую в наших программах обучения языкам серии «Профессор Хиггинс ® » и не только в них.

Эти программы  при обучении языку позволяют  обучаемым сравнивать свое произношение не только на слух, но и визуально, с  эталоном произношения по специально разработанной системе графического отображения речи на экране монитора. Программы используют технологию распознавания речи, разработанную «ИстраСофт» для оценки правильности произношения звуков и слов.

Информация о работе Реферат «Основы прикладной лингвистики»