Автоматический перевод устной речи (Speech-to-Speech Translation) — машинный перевод речи, с одного естественного языка на другой, с помощью специальных программных и технических средств[источник не указан 78 дней]. Так же называется направление научных исследований, связанных с построением подобных систем.
В отличие от печатного текста или искусственных сигналов, естественная речь не допускает простого и однозначного членения на элементы (фонемы, слова, фразы), поскольку они не имеют явных физических границ. Границы слов в потоке речи автоматически могут быть определены лишь в ходе распознавания посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим, лингвистическим, семантическим и иным критериям[источник не указан 78 дней].
История
Июнь [1] Устройство переводит устные лекции преподавателей института с немецкого на английский язык и воспроизводит перевод в виде субтитров. [2]
Октябрь 2012 года — Автоматический, почти синхронный голосовой перевод с английского на путунхуа. Разработчик — Microsoft.[1] Система машинного обучения, на основе искусственных нейронных сетей (Deep Neural Networks), которая сокращает непонимание до каждого седьмого−восьмого слова. Но самое большое достижение — это, генерация речи с сохранением модуляций голоса говорящего.[2]
Ноябрь 2012 года — Открывшийся сервис, японского мобильного оператора NTT Docomo, позволяет абонентам, говорящим на разных языках общаться в режиме реального времени.[3] Языки, поддерживаемые сервисом: (японский <-> английский), (японский <-> корейский), (японский <-> китайский).[4]
Принцип работы
Процесс электронного перевода речи (S2S Real-Time Translation), как правило, включает следующие три этапа)[5]:
- автоматическое распознавание речи (ASR — automatic speech recognition) — преобразование речи в текст;
- машинный перевод (MAT — Machine-Assisted Translation); — автоматический перевод текста с одного языка на другой.
- синтез речи (TTS — text-to-speech) — технология, которая даёт возможность произнести текст голосом, приближенным к естественному.
Говорящий на языке A говорит в микрофон, а модуль распознавания речи признаёт произнесённое. Происходит сравнение входных данных с фонологическими моделями, состоящими из большого количества речевых библиотек. Отфильтрованное таким образом, используя словарь и грамматику языка А, преобразуется в строку слов, основанную на массиве фразы языка А. Модуль автоматического перевода преобразует эту строку. Ранние системы, заменяли каждое слово, с соответствующим словом в языке B. Более совершенные системы, не используют дословный перевод, а принимают во внимание весь контекст фразы, чтобы произвести соответствующий перевод. Созданный перевод передаётся в модуль синтеза речи, который оценивает произношение и интонацию, соответствующую ряду слов из массива речевых данных языка B. Данные, соответствующие фразе, отбираются, соединяются и выводятся в необходимой потребителю форме на языке В.
Системы перевода речи
Системы перевода речи (ST — Speech Translation)[6], состоят из двух основных компонентов: Автоматическое распознавание речи (ASR — automatic speech recognition) и Машинный перевод (MAT — Machine-Assisted Translation) и различаются:
- Работающие «на клиенте» (client-based).
- По принципу «клиент-сервер» (client-server) (OnLine service).
Распознавание слитной спонтанной речи — конечная цель всех усилий по распознаванию речи. Автоматическое распознавание речи разделяют, на привязку и её отсутствие, к голосу конкретного человека.
Если рассматривать классическую схему «наука-технологии-практические системы», то, наиболее серьезные проблемы в которых будет работать практическая система автоматического распознавания или понимания речи, возникают при условиях:[7]
- — произвольный, наивный пользователь;
- — спонтанная речь, сопровождаемая аграмматизмами и речевым «мусором»;
- — наличие акустических помех и искажений, в том числе меняющихся;
- — наличие речевых помех.
Системы распознавания речи
Обобщённая классификация систем распознавания речи. [8]
- - по размеру корпуса звучащей речи.[9];
- - по зависимости от диктора (дикторозависимые и дикторонезависимые системы);
- - по типу речи (слитная или раздельная речь);
- - по назначению (системы диктовки, командные системы);
- - по используемому алгоритму (нейронные сети, скрытые Марковские модели, динамическое программирование);
- - по типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);
- - по принципу выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).
Системы машинного перевода
Традиционно системы машинного перевода делятся на категории: [10] [11]
- Rule-based machine translation (RBMT) - Машинный перевод на основе правил, которые описывают языковые структуры и их преобразования.
- Corpus-based machine translation (CBMT) - Машинный перевод на корпусах текстов.
- Example-based machine translation (EBMT) Машинный перевод на примерах двух текстов, один из которых является переводом другого.
- Statistical machine translation (SMT) - Статистический машинный перевод текста, основанный на сравнении больших объёмов языковых пар.
- Hybrid Machine Translation (SMT + RBMT) - Гибридный машинный перевод c интеграцией разных подходов машинного перевода, - EBMT+RBMT+SMT.
Границы между системами Example-based и Rule-based не очень чёткие, поскольку и те и другие используют словари и правила работы со словарями.
Статистический машинный перевод
Статистический машинный перевод основан на поиске наиболее вероятного перевода предложения, с использованием данных двуязычного корпуса (Parallel Corpora) — Битекст. В результате при выполнении перевода компьютер не оперирует лингвистическими алгоритмами, а вычисляет вероятность применения того или иного слова или выражения. Слово или последовательность слов, имеющие оптимальную вероятность, считаются наиболее соответствующими переводу исходного текста и подставляются компьютером в получаемый в результате текст. В статистическом машинном переводе ставится задача не перевода текста, а задача его расшифровки.
Типичная архитектура статистических систем МП.[12] [13]
- Одноязычный корпус (язык перевода).
- Языковая модель - набор n-грамм (последовательностей словоформ длины n) из корпуса текстов.
- Параллельный корпус.
- Фразовая таблица - таблица соответствий фраз исходного корпуса и корпуса переводов с некоторыми статистическими коэффициентами.
- Статистический декодер - среди всех возможных вариантов перевода, выбирает наиболее вероятный.
В качестве языковой модели в системах статистического перевода используются преимущественно различные модификации n-граммной модели, утверждающей, что <грамматичность> выбора очередного слова при формировании текста определяется только тем, какие(n-1)слов идут перед ним.[13]
- n-граммы.
- - Достоинства: - высокое качество перевода, для фраз, которые целиком помещаются в n-граммную модель.
- - Недостатки: - качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель.
Преимущества SMT
- Быстрая настройка
- Легко добавлять новые направления перевода
- Гладкость перевода
Недостатки SMT
- <Дефицит> параллельных корпусов
- Многочисленные грамматические ошибки
- Нестабильность перевода
Системы, которые не используют обучение, называются «Speaker Independent» системы. Системы, использующие обучение, — «Speaker Dependent» системы.
Системы МП на основе правил «Rule-Based»
Технология Машинный перевод на основе правил — (Rule-Based Machine Translation -RBMT)[14], подразделяется:[15]
- системы пословного перевода;
- трансферные системы (Transfer) — преобразуют структуры входного языка в грамматические конструкции выходного языка;
- интерлингвистические системы (Interlingua)- промежуточный язык описания смысла.
Компоненты типичной RBMT:
- Лингвистические базы данных: — двуязычные словари; — файлы имен, транслитерации; — морфологические таблицы.
- Модуль перевода: — грамматические правила; — алгоритмы перевода.
Особенности RBMT систем:
- Преимущества: — синтаксическая и морфологическая точность; — стабильность и предсказуемость результата; — возможность настройки на предметную область.
- Недостатки: — трудоемкость и длительность разработки, — необходимость поддерживать и актуализировать лингвистические БД; — «машинный акцент» при переводе.
Гибридные модели SMT + RBMT
Разработчики систем машинного перевода для улучшения качества вводят некоторые «сквозные» правила, тем самым превращая чисто статистические системы в Гибридный машинный перевод. Добавление некоторых правил, то есть создание гибридных систем, несколько улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индекса машинного переводчика.[16]
Гибридная технология "SMT и RBMT"
Объединение RBMT и статистических технологий: [17]
- Лингвистический анализ входного предложения;
- Порождение вариантов перевода;
- Использование статистических технологий;
- Оценка и выбор лучшего варианта перевода с использованием Модели языка.
Этапы Гибридной технологии:
- Обучение RBMT на основе параллельного корпуса с использованием статистических технологий;
- Эксплуатация на основе натренированной системы.
Системы синтеза речи
Типичная архитектура «Text-to-Speech» System.[18]
- Анализ текста: — Определение структуры текста; — Нормализация текста; — Лингвистический анализ.
- Фонетический анализ: — Графо — Фонетическое преобразование.
- Анализ просодики: — Шаг & Длительность словосочетаний.
- Синтез речи (Speech Synthesis): — Рендеринг голоса.
В свою очередь, синтез речи разделяют на группы[19]:
- параметрический синтез;
- конкатенативный, или компиляционный (компилятивный) синтез;
- синтез по правилам;
- предметно-ориентированный синтез.
Шумоочистка
Источники шумов в речевых системах:[20] — помехи от микрофонов, провода, АЦП (аналогово-цифровой преобразователь), внешние шумы, возникающие в окружении говорящего.
Классификация шумов относительно их характеристик:
- периодический / непериодический шум;
- ширина диапазона частот, в котором распределяется энергия шума: — широкополосные (ширина полосы частот более 1 кГц) и узкополосные шумы (ширина полосы частот менее 1 кГц);
- речевой шум, состоящий из голосов людей, окружающих говорящего.
Наиболее опасным по своему влиянию на речевой сигнал и наиболее трудноудаляемым шумом считается белый шум: — непериодичный шум, спектральная плотность которого равномерно распределена по всей области частот.
В области систем распознавания речи в шуме, существует следующие подходы:
- Разработчики не обращают внимания на шум.
- Сначала избавляются от шума, а затем распознают очищенный речевой сигнал. Эта концепция обычно используется при разработке систем шумоочистки в качестве дополнительного модуля систем распознавания.
- Распознавание зашумленного сигнала без его предварительного улучшения, при котором изучается, каким же образом человек распознает и понимает зашумленную речь; ведь он не производит предварительной фильтрации речевого сигнала для того, чтобы очистить его от шума.
Методы достижения помехозащищённости:
- сводятся либо к выделению некоторых инвариантных относительно шума признаков, либо к обучению в условиях шума или модификации эталонов распознавания с использованием оценки уровня шумов.
Слабым местом подобных методов является ненадежная работа систем распознавания, настроенных на распознавание в шуме, в условиях отсутствия шумов, а также сильная зависимость от физических характеристик шума.
- Вычисление коэффициентов линейного предсказания. В качестве элементов эталонов, вместо численных значений используются вероятностные распределения (среднее математическое, дисперсия).
- Цифровая обработкой сигнала: — методы маскировки шумов (численные значения, сравнимые с характеристиками шума, игнорируются или используются с меньшими весовыми коэффициентами) и методы шумоподавления с использованием нескольких микрофонов (например, очистка от низкочастотных шумов с использованием микрофона с одной стороны устройства и высокочастотных — с другой стороны).
- Очистка полезного сигнала от посторонних шумов, с использованием массивов микрофонов, моделирующих направленный микрофон с переменным лучом направления (простейший метод «задержки и суммирования» или более сложный с модификацией весов микрофонов).
Модели и методы оптимизации
Большинство существующих метрик автоматической оценки машинного перевода, основаны на сравнении с человеческим эталоном.[12]
При обучении Speech Translation System, применяют следующие методы оптимизаций качества и скорости перевода:[6]
- Каскадное ASR/WER с MT/BLEU
Автоматическое распознавание речи (ASR — automatic speech recognition):[21]
- ASR/WER (Word Error Rate) — вероятность ошибки в кодовом слове;
- ASR/PER (Position-independent Word Error Rate)- вероятность ошибок позиционно-независимых слов (в разных предложениях);
- ASR/CSR (Command Success Rate) — вероятность успешного выполнения команды.
Машинный перевод (MAT — Machine-Assisted Translation)[21]
- MT/BLEU (Bilingual Evaluation Understudy) — вероятность совпадение перевода с образцом.
Особенности
Помимо проблем, связанных с переводом текста, синхронный перевод речи имеет дело с особыми проблемами, включая бессвязность разговорного языка, меньше ограничений грамматики разговорного языка, неясной границы слова разговорного языка и коррекции ошибок распознавания речи. Кроме того, у синхронного перевода есть свои преимущества по сравнению с переводом текста, в том числе менее сложную структуру разговорного языка и меньше лексики в разговорном языке.
По мере роста мощностей аппаратных устройств, можно ожидать появления машинных переводчиков c меньшим количеством ошибок в переводе, что является главной проблемой всех электронных переводчиков речи. Ситуация ухудшается в случае принадлежности говорящих к разным языковым группам. Например, английский язык относится к германской группе индоевропейской семьи языков, а китайский — к китайско-тибетской языковой суперсемье. Различия между ними очень велики, и сделать правильный перевод нелегко, к тому же одно и то же слово может означать два и более разных по смыслу вариантов перевода в другом языке. По этим причинам процентное количество ошибок при переводе далеких друг от друга языков остается все еще высоким. В отличие, например, от перевода языков родственных — к примеру, русского и украинского. [3]
Стандарты
Когда много стран начнут исследовать и развивать речевой перевод, будет необходимо стандартизировать интерфейсы и форматы данных, чтобы гарантировать, что системы взаимно совместимы.
Международное объединенное исследование, создаётся речевыми консорциумами перевода:
- (C-STAR) Consortium for Speech Translation Advanced Research — международный консорциум по переводу речи для объединенного исследования речевого перевода;
- (A-STAR) Asia-Pacific — для Азиатско-Тихоокеанского региона.
Они были основаны как международная объединённая исследовательская организация, по проектированию форматов двуязычных стандартов, которые важны, для продвижения научных исследований этой технологии и стандартизации интерфейсов и форматов данных, чтобы соединить речевой модуль перевода на международном уровне.
Оценки качества перевода
- BLEU (Bilingual Evaluation Understudy) — алгоритм автоматической оценки качества машинного перевода по сравнению с человеческим на основе совпадения n-грамм. [22]
- WER (Word Error Rate) — алгоритм оценки-оптимизации качества текста, МП на основе вероятности ошибки в кодовом слове.
- Классификатор «Речь/не речь» (speech/non-speech) — определяющий вероятность правильного распознавания речи. Компромисс между определением, голос как шум или шум как голос (Type I and type II errors).
См. также
Литература
- Переводческие технологии для Европы.-М.:МЦБС,2008.
- Патент RU 2419142: Система автоматического перевода речь в речь
- ГОСТ Р 52633.5-2011 «Защита информации. Техника защиты информации. Автоматическое обучение нейросетевых преобразователей биометрия-код доступа» — построен на алгоритме обучения, имеющем линейную вычислительную сложность и высокую устойчивость. (Первый в мировой практике стандарт по автоматическому обучению искусственных нейронных сетей)
- A. Waibel, «Speech Translation Enhanced Automatic Speech Recognition», in Interactive Systems Laboratories,Universitat Karlsruhe (Germany),Carnegie Mellon University (USA),2005.
- Dong Yu, «Транскрипция разговорной речи, с помощью контекстно-зависимой глубокой нейронной сети»,Microsoft Research,2011.
- Dong Yu, Li Deng, «Deep Neural Network or Gaussian Mixture Model?»,Microsoft Research,2012.
- Xuedong Huang, «Spoken Language Processing: a guide to Theory, Algorithm, and System Development, page 1-980», Microsoft Research, 2000.
- Simultaneous Translation: University without Language Barriers
- В Германии разработана программа для синхронного перевода лекций
- Speech Recognition Breakthrough for the Spoken, Translated Word // Microsoft Corporation, 7 November 2012
- Microsoft показывает почти мгновенный перевод с английского языка на китайский
- NTT DOCOMO to Introduce Mobile Translation of Conversations and Signage
- Японцы презентовали систему автоматического перевода телефонных разговоров
- Protocols of Network-based Speech-to-Speech Translation
- «Прогноз на исследования и разработку речевых технологий перевода.» by Satoshi, Nakamura in Science & Technology Trends — Quarterly Review No.31 April 2009.
- [4] «Architectural overview of speech-centric information processing systems»
- [5]Automatic Speech-to-Speech Translator from IBM
- [6]S2S Real-Time Translation from AT&T Labs
- [7]S2S Real-Time Translation from Nokia Research Center
Ссылки
Источники
- Speech Recognition Breakthrough for the Spoken, Translated Word - Microsoft Research. Архивировано из первоисточника 15 марта 2013. Проверено 17 февраля 2013.
- Microsoft показывает почти мгновенный перевод с английского языка на китайский / Хабрахабр. Архивировано из первоисточника 15 марта 2013.
- Японцы презентовали систему автоматического перевода телефонных разговоров. Архивировано из первоисточника 15 марта 2013.
- NTT DOCOMO to Introduce Mobile Translation of Conversations and Signage | Press Center | NTT DOCOMO Global. Архивировано из первоисточника 16 февраля 2013. Проверено 13 февраля 2013.
- IBM Research | Speech-to-Speech Translation. Архивировано из первоисточника 15 марта 2013. Проверено 17 февраля 2013.
- ↑ http://research.microsoft.com/en-us/um/people/xiaohe/publication/icassp11_wer_st_final.pdf
- Современные проблемы в области распознавания речи. - Auditech.Ltd. Архивировано из первоисточника 15 марта 2013. Проверено 3 марта 2013.
- http://fetmag.mrsu.ru/2010-2/pdf/SpeechRecognition.pdf
- Корпусная лингвистика. Архивировано из первоисточника 20 апреля 2013. Проверено 19 апреля 2013.
- http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf
- ↑ en:Machine translation
- ↑ http://www.promt.ru/images/ainl_molchanov_promt.pdf
- ↑ Статистическая система машинного перевода (Distributed statistical machine translation system) | Ilya (w-495) Nikitin - Academia.edu. Архивировано из первоисточника 22 марта 2013. Проверено 19 марта 2013.
- http://ceur-ws.org/Vol-803/paper2.pdf
- Статистическая система машинного перевода (Distributed statistical machine translation system) | Ilya (w-495) Nikitin - Academia.edu. Архивировано из первоисточника 22 марта 2013. Проверено 18 марта 2013.
- http://poiskbook.kiev.ua/art/ml/lande.pdf
- http://www.promt.ru/images/deep_hybrid.pdf
- http://www.library.wisc.edu/selectedtocs/bd025.pdf
- ↑ Сорокин В. Н. Синтез речи. — М.: Наука, 1992, с. 392.
- http://www.sovmu.spbu.ru/main/sno/uzmf2/uzmf2_22.pdf
- ↑ http://www.lrec-conf.org/proceedings/lrec2008/pdf/785_paper.pdf
- PROMT - переводчики и словари PROMT для перевода текста с английского, русского, немецкого, французского, испанского, португальского и итальянского языков. Архивировано из первоисточника 7 апреля 2013. Проверено 23 марта 2013.