Распознавание и синтез речи в Asterisk. Речевые технологии для VoIP

Рет қаралды 7,934

Күн бұрын

====Задавайте вопросы в нашем Telegram-канале @asterisker (teleg.run/asterisker )====
Мы проведем вебинар, где расскажем о нашем опыте реализации проектов с применением технологий обработки речи и их интеграции с OpenSource инфраструктуру.
Мы собираемся рассказать о доступных для изучения технологиях:
• OpenSource распознавания и синтеза речи (kaldi, deepspeech, wavenet)
• Коммерческих аналогичных систем (Яндекс, Тиньков и прочие)
• Других интересных наработках, которые есть на github
• Примерах, с которым можно начать самостоятельное знакомство с обработкой звука
Разберем, сравним и дадим рекомендации по использованию:
• Коммерческих и бесплатных продуктов для синтеза и распознавания
• Asterisk в сценариях синтеза и распознавания речи, в том числе и в реальном времени
• Другого VoIP ПО, включая Kamailio, rtpengine, voipmonitor
Продемонстрируем в действии на реальных примерах работу рассмотренных технологий и тех практических ситуациях и задачах, в которых они могут быть полезны многим организациям.
====ТАЙМКОДЫ ВЕБИНАРА====:
0:00:00 Начало вебинара и введение
0:08:02 Asterisk- распознавание и синтез речи. Речевые технологии и их применение
0:09:40 Кейсы применению технологий по распознаванию и синтезу речи
0:09:54 Синтез коротких фраз
0:12:08 Качество речи по звуку
0:13:56 Что такое MOS (Mean Option Score)
0:16:02 Разделение речи
0:20:59 Речевая аналитика
0:26:16 Shazam-like CPA
0:34:35 Сложносоставные IVR как способ разгрузить callcenter
0:36:31 Голосовые боты
0:51:01 Готовое ПО: CMU Sphinx
0:52:51 Kaldi
0:54:19 Демо запуск Kaldi
1:00:50 Ответы на вопросы зрителей вебинара
1:55:41 Yandex SpeechKit
1:56:23 Tinkoff VoiceKit
2:01:44 Примеры других систем распознавания
2:07:20 Демо сравнение STT механизмов
2:10:50 Рабочий пример текстов записи
2:12:21 Готовое ПО синтеза речи
2:12:31 О Yandex
2:13:32 О Wavenet
2:15:26 Решаемые задачи: эмоциональный окрас речи
2:18:12 Семантический анализ речи
2:18:50 Семантический анализ речи: Пример
2:21:20 Биометрия голоса
2:22:40 Биометрия голоса: Как она основана
2:25:03 Биометрия голоса: Распознавание по голосу
2:27:44 Примеры решаемых задач
2:31:46 Ответы на вопросы зрителей вебинара
2:46:11 Интеграция: Методы
2:47:24 Методы:UniMRCP и EAGI
2:50:15 Методы:MixMonitor(stereo) + ChanSpy
2:53:21 Методы: ARI
2:59:42 Ответы на вопросы зрителей вебинара
3:15:23 Как работает MFCC с точки зрения кода
3:19:38 Последняя группа методов
3:26:45 С чего лучше начать разработку с распознавание речи
3:28:16 Как люди воспринимают голосовых роботов ?
3:29:48 Когда IVR лучше ?
3:32:51 Сушествуют ли сервисы ИИ?
3:33:18 Применение в сфере такси ?
3:37:24 Вопросы из онлайн

Пікірлер: 7

@Petr1978 2 жыл бұрын

интересна была подача от Игоря Гончаровского. видно, что много практики. Спасибо за труд

@Asterisker 4 жыл бұрын

0:00:00 Начало вебинара и введение 0:08:02 Asterisk- распознавание и синтез речи. Речевые технологии и их применение 0:09:40 Кейсы применению технологий по распознаванию и синтезу речи 0:09:54 Синтез коротких фраз 0:12:08 Качество речи по звуку 0:13:56 Что такое MOS (Mean Option Score) 0:16:02 Разделение речи 0:20:59 Речевая аналитика 0:26:16 Shazam-like CPA 0:34:35 Сложносоставные IVR как способ разгрузить callcenter 0:36:31 Голосовые боты 0:51:01 Готовое ПО: CMU Sphinx 0:52:51 Kaldi 0:54:19 Демо запуск Kaldi 1:00:50 Ответы на вопросы зрителей вебинара 1:55:41 Yandex SpeechKit 1:56:23 Tinkoff VoiceKit 2:01:44 Примеры других систем распознавания 2:07:20 Демо сравнение STT механизмов 2:10:50 Рабочий пример текстов записи 2:12:21 Готовое ПО синтеза речи 2:12:31 О Yandex 2:13:32 О Wavenet 2:15:26 Решаемые задачи: эмоциональный окрас речи 2:18:12 Семантический анализ речи 2:18:50 Семантический анализ речи: Пример 2:21:20 Биометрия голоса 2:22:40 Биометрия голоса: Как она основана 2:25:03 Биометрия голоса: Распознавание по голосу 2:27:44 Примеры решаемых задач 2:31:46 Ответы на вопросы зрителей вебинара 2:46:11 Интеграция: Методы 2:47:24 Методы:UniMRCP и EAGI 2:50:15 Методы:MixMonitor(stereo) + ChanSpy 2:53:21 Методы: ARI 2:59:42 Ответы на вопросы зрителей вебинара 3:15:23 Как работает MFCC с точки зрения кода 3:19:38 Последняя группа методов 3:26:45 С чего лучше начать разработку с распознавание речи 3:28:16 Как люди воспринимают голосовых роботов ? 3:29:48 Когда IVR лучше ? 3:32:51 Сушествуют ли сервисы ИИ? 3:33:18 Применение в сфере такси ? 3:37:24 Вопросы из онлайн

@vitalylomov6735 3 жыл бұрын

Клас

@Balamutick 4 жыл бұрын

Маньяки :-) 4 часа. Что с людьми карантин делает. Посмотрю позже. Спасибо.

@awrRoman25 4 жыл бұрын

Wer (точность распознавания) - на базовом уровне это доля неправильно распознанных слов. В идеале 0(без ошибок), в реальности в диапазоне 10 - 30%.

@AlexMaximus77 2 жыл бұрын

Слишком много льете воды. Людей интересует, есть компьютерные программы, которые также классно озвучивают текст книги, как яндекс синтезатор, которому нет равных, если кто не знал.

@vitalylomov6735 3 жыл бұрын

Клас