САМОЕ БЫСТРОЕ РАСПОЗНАВАНИЕ РЕЧИ БЕЗ ИНТЕРНЕТА НА PYTHON

Рет қаралды 40,262

Күн бұрын

Пікірлер: 132

@ВасяПупкин-щ2в 10 ай бұрын

Брат мой. От души тебе. Я 2-й день ищу нормальный пример для работы vosk... Не какие не работали. Даже официальные... А твой вариант и простой и рабочий. Спасибо!

@shevich_off Жыл бұрын

ПРОСТО ХОРОШ МЕСЯЦ ИСКАЛ ТАКОЙ ТУТУРОИЛ, ТЫ МЕНЯ СПАС, СПАСИБО

@Соседсверху-ш7ц Жыл бұрын

Братан,огромное тебе спасибо. Наконец-то он у меня заработал. Я столько способов искал, но ты единственный человек который написал код который действительно работает. 3 день я был в поисках правильного написания кода... Я очень рад и искреннее благодарен за то что ты сделал это видео. Желаю тебе развития и много хороших моментов жизни. Ты просто лучший. Спасибо

@mcomponent 3 жыл бұрын

Ролик нравится, информативно. Есть предложение для улучшения твоего контента. Есть такая штука как virtualenv (модуль для питона) - он позволяет создавать 1-ой командой в указанной папке нужное окружение на указанную версию python и ставить библиотеки туда - очень сильно помогает, если не хочется засорять систему пакетами ради 1 проекта. И наконец небольшая идейка на новое видео: Преобразование Фурье. Для этого есть библиотеки (FFT/Fast Fourier Transform, DFT/Discrete Fourier Transform, IFT/Inverse Fourier Transform и другие). На нём работают шазам и сжатие JPEG.

@10GL10 2 жыл бұрын

Привет,позволь обратиться за помощью,я пытаюсь сделать голосового помощника но в какие видео не зайду то одна из всех нужных библиотек не устанавливается,то другая из за версий питона,что мне делать?Поменяю версию питона,другие библиотеки перестают работать

@mcomponent 2 жыл бұрын

@@10GL10 проверь свою версию PIP. Желательно, используй последнюю версию python, это 3.10. Гайды тоже проверяй, они могут быть старые. Так же, на официальном репозитории PyPI можно проверить статус библиотеки. Для более детальной информации скинь сами ошибки и название библиотек.

@10GL10 2 жыл бұрын

@@mcomponent может чтобы было удобнее в ВК перейдем?Если ты не против

@alex_cube Жыл бұрын

Спасибо огромное! Касперский ругнулся, мол кто там посмел трогать микрофон, но после подтверждения всё заработало.

@rinami3111 3 жыл бұрын

Новый ролик, круто, долго ждал!

@fsoky 3 жыл бұрын

классно!

@АлексейС-й2м 2 жыл бұрын

Спасибо большое за ролик! 🤝

@tiris_2524 3 жыл бұрын

Мега красава у тебя все получиться с ютубом.Вообще пишу на c++, но на c++ нет обучалок по этой библиотеки. Ну хоть принцип работы понял спасибо

@POTYOMKIN_ 4 ай бұрын

00:00 Создание распознавания речи без интернета с использованием Python 01:31 Выбор модели зависит от требований к оперативной памяти. 02:54 Создание программы распознавания речи 04:17 Создание потока для распознавания речи 05:57 Создана функция для чтения и обработки данных с дополнительными условиями. 08:00 Модель распознавания речи может достаточно хорошо распознавать средние и короткие фразы с маленькой моделью. 09:29 Создание генератора в Python 10:59 Модель распознавания речи работает без интернет-соединения.

@КайратИсмаилов-о2п 3 ай бұрын

Спасибо. Все работает. Круто.

@NeorBlogIT 3 жыл бұрын

Оаоаоа новый ролик наконец-то

@alx8439 Жыл бұрын

Идея с генератором и непрерывным распозованием хорошая, но для полноценной работы нужна многопоточность или многопроцессность: - получение аудио с микрофона - распозование этого аудио - обработка распознанного текста и вычленение намерения - обработка намерения Иначе это будет работать только в лабораторных (идеальных) условиях

@DimPyProg Жыл бұрын

В самом ассистенте так и сделано С многопоточностью

@alx8439 Жыл бұрын

@@DimPyProg проект на гитхабе? Я почему спрашиваю: тот код, что я видел в других твоих видео по ассистенту делает это ПОСЛЕДОВАТЕЛЬНО, а надо, чтобы это были разные потоки. Возможно я чего-то не разглядел в видео. Объясню почему это важно на простом примере: если ты задал вопрос ассистенту и он на него отвечает, у тебя должна быть возможность его прервать, сказав например "Сара, хватит". Но если весь твой код работает в один поток, то пока он не закончит говорить, он не начнет слушать

@nicedim Жыл бұрын

Спасибо!!! Мега прикол - запустилось с первого раза - шоке

@ГорячийМексиканец-ч9в Жыл бұрын

Чувак, красава! За 10 минут сделал! Большая модель грузится в память несколько секунд. Распознаёт хорошо даже мелкая (микрофон динамический за 100$). Не распознает слов "чувак" и "красава", повышает культурный уровень так сказать ЛОЛ. Потестить бы responsiveness на GPU...

@load-net 2 жыл бұрын

Где обещанный исходник, не могу найти

@StSamulet 10 ай бұрын

Отличный ролик, спасибо) У меня задача, нужно диалоги из wav файлов разбирать, чтобы не целым текстом, а в виде диалога получать.. вроде, у vosk есть возможность идентифицировать говорящего. Не могу раскурить, да и документацию по vosk не найти. Можете такой ролик запилить, или дать намёк, куда смотреть )

@kvakazhabra Жыл бұрын

Подскажи, есть зависимость от размера модели и временем распознавания речи? То-есть чем больше модель тем дольше распознает? Хочу засунуть в VR тренажер на UE5 что скажешь?

@rayti7595 6 ай бұрын

Сигма крутой уважение тебе вечное пупсик шмупсик

@zarill322 7 ай бұрын

3:27 что делать если ты указал путь но чето он не работает

@ncorp2558 2 жыл бұрын

Как сделать что-бы голосовой помощник мог понять и русский и английский, я попробовал (,), (or), (and), не получается

@pixelsDVMT Жыл бұрын

Модули установил. код один в один, не запускается, куча ошибок

@sorry240 2 жыл бұрын

import json import pyaudio from vosk import Model, KaldiRecognizer model = Model('small_model') rec = KaldiRecognizer(model, 16000) p = pyaudio.PyAudio stream = p.open(format=pyaudio.paInt16, channels=1, rate=16000, input=True, frames_per_buffer=8000) stream.start_stream() def listen(): pass print('0') TypeError: PyAudio.open() missing 1 required positional argument: 'self' Пожалуйста, можете подсказать как решить проблему?

@nullswamp 6 ай бұрын

ты забыл после p= pyaudio.PyAudio добавить () p= pyaudio.PyAudio() попробуй

@TravelingAsia108 9 ай бұрын

Круто, спасибо за инструкцию. А как сделать так, чтобы уже готовый mp3 файл переводил он в текст? Удобно же на диктофоне наговорить где-то, а потом закинуть в программу

@RIKA-fn6uy 4 ай бұрын

Для того чтобы он озвучил заранее записанные фразы используй расширение не mp3 а waw

@mahunj 9 ай бұрын

как добавить свои слова в модель? чтобы распознавал

@okru2288 2 жыл бұрын

как вы тренировали модель?есть видео?

@alex_konor2197 2 жыл бұрын

Нет, он с гайда слизал и болт положил. У него в 2021 году работало всё, теперь не работает библиотека под WIn64 и с питоном3

@FyzMe 9 ай бұрын

В какой переменной ответ сохраняется?

@P4elikstaks Жыл бұрын

Что делать когда я говорю открой вк или открой вконтакте то он вместо этого пишет открой века пока открой контакты и тд

@RIKA-fn6uy 4 ай бұрын

Нужно сделать подобие триггеров для более точного распознавания

@RIKA-fn6uy 4 ай бұрын

Либо плохой микро

@EFIM_immersive_fun 2 жыл бұрын

Сам интро делал? Красиво...

@mitkosokolov9382 Жыл бұрын

how can we create our own model ?

@МаркБурима Жыл бұрын

что с этим можно сделать? line 3, in from vosk import Model, Kaldirecognizer ImportError: cannot import name 'Model' from partially initialized module 'vosk' (most likely due to a circular import)

@РексДинозаврик Жыл бұрын

Попробуй переустановить библиотеку Vosk и обнови pip чтоб обновить pip посмотри гайди на ютубе а чтоб билиотеку воск переустановить и обновить ето такие команди обновить: pip upgrade vosk удалить: pip uninstall vosk установить: pip install vosk

@lostfuture3416 2 жыл бұрын

Как можно вместо рапсознавания речи определить высоту звука?

@BangoSteve 2 жыл бұрын

Можно ли это как-то использовать в телеграм боте?

@kahiko7765 3 жыл бұрын

Что делать если мне на второй строчке , где from vosk import Model, KaldiRecognizer, питон пишет ошибку?...

@kahiko7765 3 жыл бұрын

from vosk import Model, KaldiRecognizer ImportError: cannot import name 'Model' from partially initialized module 'vosk' (most likely due to a circular import)

@qrmans 2 жыл бұрын

DimPy почему у меня не запускается модель

@EdGull 3 жыл бұрын

Спасибо!

@АлишерФайзуллаев-е4з 3 жыл бұрын

Никак не могу это добавить в джанго проект. Папку с моделью вставил в папку приложения, но пишет:failed to create model. Возможно кто-то знает как в джанго добавить воск?

@MineFox_ServerPlay Жыл бұрын

А как мне в пайчарме воск модел смол задействовать

@Alex_java 3 жыл бұрын

@DimPy, подскажи пожалуйта.Для чего мы импортируем json?

@DimPyProg 3 жыл бұрын

сама библиотека vosk использует json, можешь увидеть это в 17й строке

@errorgradov8050 2 жыл бұрын

Привет,я сделал все в точности,но при попытке запуска в консоль ничего не выводится кроме того,что Vosk запущен,пожалуйста помоги :(

@DimPyProg 2 жыл бұрын

Микрофон проверь

@errorgradov8050 2 жыл бұрын

@@DimPyProg все проверил,но результат опять тот же

@QewSob Жыл бұрын

А как с аудио или видео перевести в текст!

@hfhtuyf 3 жыл бұрын

Спс за видос. Жалко что исходников не получается найти. Ссылка на саму группу, но и там и не найдешь)))

@kirill_monster 2 жыл бұрын

тут кода всего то...

@vlkardakov 4 ай бұрын

Замечание: В конце этот код ничего не распознал, потому что вы выделили область в терминале. При этом код ставится на паузу.

@monetary_supply 3 жыл бұрын

Смотрю у большинства ошибки))) у меня ошибка с папкой model. Код дальше model = Model() не идёт. Уже не знаю почему так. Может нужно отдельно папку в path добавить, корневая папка там есть. Может кто-то справился с этим?

@lauhG3 3 жыл бұрын

ты из zip извлек папку ??

@DimPyProg 3 жыл бұрын

model = Model( " тут путь к модели(к папке) " )

@puk1ch275 2 жыл бұрын

@@DimPyProg не работает

@puk1ch275 2 жыл бұрын

@@DimPyProg модель должна быть на диске С?

@DimPyProg 2 жыл бұрын

@@puk1ch275 модель может находиться в любом месте на диске, если модель лежит в той же папке, что и код, тогда достаточно указать только название папки с моделью, но если модель лежит, например, на другом диске, то в коде нужно указывать полный путь к модели

@d3ka818 3 жыл бұрын

Требуется для такой программы нечеткое сравнение комманд, и сколько грузит оперативы

@DimPyProg 3 жыл бұрын

нечеткое распознавание команд требуется для голосового ассистента, а не для распознавания речи, оперативки есть примерно 4-4,5 гб (большая модель)

@d3ka818 3 жыл бұрын

@@DimPyProg Я знаю что для ассистента, я сделал его по твоим прошлым видео, и сравнение стоит на 50% так как микрофон не очень, (через спич рекогнайшн) и думаю переписывать с воском или нет?

@d3ka818 3 жыл бұрын

@@DimPyProg маленькая

@DimPyProg 3 жыл бұрын

Перепиши, но тогда у тебя не будет распознавать я английский язык

@DimPyProg 3 жыл бұрын

Не смотрел

@nePh0ntomtochno 2 жыл бұрын

очень круто но у меня проблема сможешь помочь в лс?

@alexmiz806 3 жыл бұрын

Кто знает, как написать бота автопостинга твоих отложенных постов для телеграм на python?

@tiollife2866 Жыл бұрын

У меня выдаёт ошибку в вайле

@ДмитрийНеизвестный-ь4ы 2 жыл бұрын

пробился через все трудности, установил пайаудио...и упоролся с воск модель...что за фигня, указываю путь как ты и говорил, выдает ошибку

@DimPyProg 2 жыл бұрын

а папку вытащил из архива? там папка в папке

@LinfeR 2 жыл бұрын

укажи абсолютный путь. у меня тоже такое было пофиксил именно так

@emigrate89 Жыл бұрын

OSError: [Errno -9996] Invalid input device (no default output device)

@romanvolkov7834 8 ай бұрын

Как добавить свои слова, то есть нужно распознавание терминов, сленга и английских слов в русской речи

@ВоИстину-ц6ш 3 жыл бұрын

ЧТо с этим делать if text = 'пока': ^ SyntaxError: invalid syntax

@DimPyProg 3 жыл бұрын

if text == 'пока':

@savadram4910 2 жыл бұрын

а как он распознает какой микрофон брать?

@DimPyProg 2 жыл бұрын

данный код использует микрофон по умолчанию в винде

@XAXAXAXAXXAXAXAXAXAXAX Жыл бұрын

Спасибо мужик!

@VALSE_1 8 ай бұрын

import json, pyaudio from vosk import Model, KaldiRecognizer model = Model('vosk-model-small-ru-0.4') rec = KaldiRecognizer(model, 16000) p = pyaudio.PyAudio() stream = p.open(format=pyaudio.paInt16, channels=1, rate=16000, input=True, frames_per_buffer=8000) stream.start_stream() def listen(): while True: data = stream.read(4000, exception_on_overflow=False) if (rec.AcceptWaveform(data)) and (len(data) > 0): answer = json.loads(rec.Result()) if answer['text']: yield answer['text'] for text in listen(): print(text) проблема в том что он просто не пишет, ты ему говоришь а он ничего не делает микрофон включён

@Cheertttt 2 жыл бұрын

Почему-то плохо распознаёт, да быстро, но не точно, даже с большой моделью, микрофон вроде нормально звучит :(

@0000GamingToday 6 ай бұрын

Спс

@Anton-ni8un 3 жыл бұрын

Без интернета перестал распознавать. А как к вайфай подключился, снова стал распознавать. А говоришь без интернета работает.

@DimPyProg 3 жыл бұрын

Возьми и проверь

@yarostishkaplay6079 3 жыл бұрын

Все работает без инета! У меня ассистент с помощью этой библиотеки распознает

@ВоИстину-ц6ш 3 жыл бұрын

Ну что ж ты кода не оставил:(

@klimchegg 2 жыл бұрын

Чувак, у тебя когда ты отключил инет он заново сам подключился.

@DimPyProg 2 жыл бұрын

Прикольно Называется автоподключение)

@vitalirb1363 8 ай бұрын

У меня ничего не работает

@xetmu5883 3 жыл бұрын

Кликбейты освоил?

@romanbolgar 3 жыл бұрын

Ничего непонятно но очень интересно. Особенно непонятно зачем мы так долго пишем.... Создаётся впечатление, что все программисты графоманы Вот я сейчас эти строки не пишу, а говорю Наверное собственно для этого и пытаются сделать вот такие программы Ну в чём проблема Почему до сих пор уже нету готовых решений Не приходится программировать программистов Увы пока это непосильная задача они не понимают даже русский....

@DimPyProg 3 жыл бұрын

ты сам хоть понял, что написал?

@klimchegg 2 жыл бұрын

@@DimPyProg у тебя когда ты отключаешь инет, он снова сам включается.

@kirill_monster 2 жыл бұрын

9:00 ты нажал на текст и работа приостановилась

@DimPyProg 2 жыл бұрын

точно)

@МихаКувалда-в2п Жыл бұрын

Россия 🇷🇺🇷🇺🇷🇺🇷🇺🇷🇺

@Юзер42 Жыл бұрын

Спасибо! Не работает!

@LOGOSTT Жыл бұрын

Фоновая музыка мешает

@dieselekin 2 жыл бұрын

Отличное видео

@creazybitcoiner458 2 жыл бұрын

Огромная благодарность. Давно искал нечто подобное. Но вот вопрос, у меня как только загрузилась модель прогрузилась окно консоли закрывается, если запускать через PyCharm выдает "Process finished with exit code 0" программа сработала без сбоев, и закрылась. Что я сделал не так? Код из видео оставлю тут может кому пригодится. import json import pyaudio from vosk import Model, KaldiRecognizer model = Model('model_small') rec = KaldiRecognizer(model, 16000) p = pyaudio.PyAudio() stream = p.open(format=pyaudio.paInt16, channels=1, rate=16000, input=True, frames_per_buffer=8000) stream.start_stream() def listen(): while True: data = stream.read(4000, excerption_on_overflow=False) if (rec.AcceptWaveform(data)) and (len(data) > 0): answer = json.loads(rec.Result()) if answer['text']: yield answer['text'] for text in listen(): print(text)

@DimPyProg 2 жыл бұрын

Ну, для начала, я думаю, нужно переписать весь код до конца, чтобы он работал

@creazybitcoiner458 2 жыл бұрын

@@DimPyProg Чем этот код отличается от того что работал на 8:12?

@DimPyProg 2 жыл бұрын

@@creazybitcoiner458 ты не дописал 2 строки

@creazybitcoiner458 2 жыл бұрын

@@DimPyProg Те что закоменчены? Поржал, а если серьезно?

@rinami3111 3 жыл бұрын

Вы не знаете как можно реализовать проверку на администратора в беседе вк? Я знаю что нужен метод messages.getConversationMembers и оттуда нужно взять параметр is_admin, но это лишь в теории) на практике бот просто игнорит эту команду, осталось реализовать лишь эту функцию и мой бот в принципе готов, реализовывал более сложное, но на столь простом сижу уже 3 дня)

@wildemann1695 3 жыл бұрын

Привет, Дим! Можешь пожалуйста сделать скрипт на накрутку фотографий для вк? И сделать туториал по такому скрипту) Буду очень благодарен) Если что, мой вк: vk.com/fl0rex

@DimPyProg 3 жыл бұрын

Нет, такое делать не буду