Исследователи Microsoft достигли уровня человеческих возможностей при автоматическом распознавании речи
Microsoft сообщила о последнем важном достижении своих исследователей в распознавании речи – разработанная ими технология позволяет распознавать слова речи столь же хорошо, как это делает человек. Разработало систему новое подразделение Microsoft, о создании которого мы писали в конце прошлого месяца. Результаты исследования были изложены на сайте препринтов arXiv, кратко о нем сообщается на официальном сайте Microsoft.
Как утверждается, разработанная группой исследователей и инженеров из подразделения Microsoft Artificial Intelligence and Research система распознавания речи ошибается примерно с той же частотой, что и профессиональные специалисты по распознаванию речи, а в некоторых случаях даже реже. В отчете говорится, что частота ошибочных слов (word error rate, WER) составила 5,9% по сравнению с 6,3%, указанными в отчете группы всего месяц назад.
Показатель в 5,9 % ошибок примерно равен количеству ошибок, совершаемых людьми при транскрибировании того же фрагмента речи. Это минимальный, за все время исследований, уровень ошибок по результатам отраслевого стандартного теста Switchboard по распознаванию речи.
«Мы достигли равных возможностей с человеком, — сказал Сюэдунь Хуань (Xuedong Huang), главный научный сотрудник Microsoft по речевым технологиям. — Это историческое событие».
Это важное событие стало результатом десятилетий исследований в области распознавания речи, начиная еще с 1970-х годов, когда велась совместная работа с Агентством передовых оборонных исследовательских проектов США (DARPA), в задачи которого входит совершение важных технических открытий ради интересов национальной безопасности. На протяжении десятилетий к этим работам присоединилось большинство ведущих технических компаний и многие исследовательские организации.
«Это достижение стало кульминацией свыше двадцати лет исследований», — говорит Джеффри Цвейг (Geoffrey Zweig), руководитель исследовательской группы по разговорной и диалогической речи компании Speech & Dialog.
В будущем технология найдет применение в продуктах потребительского и бизнес-класса, возможности которых могут быть существенно расширены благодаря распознаванию речи. К их числу относится Xbox (развлекательное устройство потребительского класса); специальные возможности других приложений, такие как мгновенное преобразование речи в текст; личные цифровые помощники, например, Cortana.
Толчком к столь высоким результатам исследований послужило применение нейронных моделей языка, в которых слова представлены как векторы в пространстве; при этом такие слова, как «быстрый» (fast) и «скорый» (quick), расположены ближе друг к другу.
Для достижения равных возможностей с человеком команда исследователей использовала набор инструментов Microsoft Computational Network Toolkit (CNTK) — собственную систему для глубокого обучения, проект с открытым исходным кодом, распространяемый через GitHub.
Несмотря на достигнутые за последние годы крупные успехи, исследователи предупреждают о том, что предстоит еще много работы. Сейчас они работают над повышением эффективности распознавания в условиях, приближенных к реальным, например, в местах с сильным фоновым шумом — на вечеринке или на трассе. Они также будут работать над усовершенствованием технологии для именования (идентификации) отдельных участников разговора, если беседуют несколько человек, с учетом широкого многообразия голосов, независимо от возраста, акцента и других характеристик.
В долгосрочной перспективе исследователи хотят совершить еще один рывок и перейти от распознавания к пониманию. Таким образом, компьютеры смогут отвечать на вопросы или совершать какие-либо действия, реагируя на то, что им говорят.
Здесь выдают
ставки
ставки
Получить
Фотострана /
Интересные страницы /
Науки и технологии /
TECHNOLOGY - познавательный журнал
/
Исследователи Microsoft достигли уровня человеческих возможностей при автоматическом распознавании речи
TECHNOLOGY - познавательный журнал

Рейтинг записи:
5,5
- 1 отзыв
Многим читателям это понравилось

Посмотреть ещё 7 фотографий
Подписывайтесь на нас:
http://fotostrana.ru/public/233467
Чау-чау - собака с кошачьими лапами. Единственная собака, которая может выпускать когти....
http://fotostrana.ru/public/233467

Чау-чау - собака с кошачьими лапами. Единственная собака, которая может выпускать когти....
© 2008‒2025 Социально‐развлекательная сеть «Фотострана». Пользователей: 24 493 368 человек
ООО «Фотострана» ОГРН: 1157847426076 ИНН: 7813238556
197046, Санкт-Петербург, Певческий переулок, дом 12, лит. А
- Разделы сайта
- Сайт знакомств
- Встречи
- Астрахань Балашиха Барнаул Белгород Брянск Владивосток Волгоград Воронеж Екатеринбург Иваново Ижевск Иркутск Казань Калининград Кемерово Киров Краснодар Красноярск Курск Липецк Магнитогорск Махачкала Москва Набережные Челны Нижний Новгород Новокузнецк Новосибирск Омск Оренбург Пенза Пермь Ростов-на-Дону Рязань Самара Санкт-Петербург Саратов Сочи Ставрополь Тверь Тольятти Томск Тула Тюмень Улан-Удэ Ульяновск Уфа Хабаровск Чебоксары Челябинск Ярославль
- Знакомства и общение
Следующая запись: РОССИЯ ПЛАНИРУЕТ СОЗДАТЬ МЕЖДУНАРОДНУЮ ОРБИТАЛЬНУЮ СТАНЦИЮ НА ЛУНЕ
Лучшие публикации