VoiceXML


VoiceXML (Voice eXtensible Markup Language, VXML) — один из открытых стандартов W3C на основе XML-языка[1], протокол[2], диалоговый язык разметки. VoiceXML 3.0 станет следующей основной версией VoiceXML с новыми основными функциями. Он включает новый язык описания диаграмм состояний XML, называемый SCXML.

История

Май 2000 года — опубликование в международном консорциуме World Wide Web (W3 Consortium) первой версии. Предназначение — для разработки интерактивных голосовых приложений (Interactive Voice Response, IVR) управления медиаресурсами. Цель создания стандарта — привнесение всех преимуществ web-программирования в разработку IVR-приложений[1].

Многомодальные приложения, сочетающие распознавание речи с другими формами ввода информации (с клавиатуры, пера, набора цифровых кнопок) попали в поле зрения ряда крупных компаний (Microsoft и др.), которые решили поддержать проект SALT Forum (Speech Application Language Tags — теги языка речевых приложений). Поэтому теперь вокруг SALT и VoiceXML консорциума W3С формируются два разных лагеря. До сих пор компании не могут прийти к единому мнению о выборе главного стандарта и сейчас оба направления развиваются в равной степени[1].

При разработке пакетов (Software Development Kit, SDK) для создания речевых приложений компании поддерживают тот или иной стандарт. Например, пакет Speech SDK (от Philips) поддерживает спецификацию Voice XML и выполнен для связи с C/C++ API[1].

Спецификации, предложенные W3C:

  • Voice Extensible Markup Language (VoiceXML) Version 2.0 — 16 марта 2004. Является частью W3C Speech Interface Framework, разработан в рамках W3C Voice Browser Activity участниками Voice Browser Working Group (недоступная ссылка).[3]
  • Voice Extensible Markup Language (VoiceXML) 2.1 — 19 июня 2007[4]
  • Voice Extensible Markup Language (VoiceXML) 3.0 (W3C Working Draft) — 4 марта 2010 [5]. Позволяет осуществлять голосовую идентификацию[6]

Использование

Десятки тысяч приложений уже созданы[7]

  • Opera (с версии 7.6)
  • Moodle — планируется использовать во второй версии.

VoiceXML имеет теги, которые являются командами для голосового браузера (voice browser), который: синтезирует, распознает речь, предоставляет диалоговое управление.

Пример кода

Пример VoiceXML документа:

<vxml version="2.0" xmlns="http://www.w3.org/2001/vxml">
  <form>
    <block>
      <prompt>
        Привет, мир!
      </prompt>
    </block>
  </form>
</vxml>

VoiceXML интерпретатор преобразует текстовую фразу «Привет, мир!» в синтезированную речь

Примечания

  1. 1 2 3 4 Современные технологии распознавания речи Архивировано 29 октября 2007 года.
  2. Nortel выпустила новые решения для интеграции бизнес-процессов и приложений (недоступная ссылка)
  3. Voice Extensible Markup Language (VoiceXML) Version 2.0. Дата обращения: 6 апреля 2010. Архивировано 12 апреля 2010 года.
  4. Voice Extensible Markup Language (VoiceXML) 2.1. Дата обращения: 6 апреля 2010. Архивировано 7 мая 2021 года.
  5. Voice Extensible Markup Language (VoiceXML) 3.0. Дата обращения: 6 апреля 2010. Архивировано 2 марта 2021 года.
  6. Центр развития и внедрения компьютерных и информационных технологий UzInfoCom Архивировано 25 октября 2011 года.
  7. VoiceXML Forum. Дата обращения: 6 апреля 2010. Архивировано 5 мая 2021 года.

См. также

Ссылки