Проект состоит из нескольких частей:
- bash-скрипты. Используются для парсинга всех звуков системы. Скрипт позволяет использовать нейросеть в любых приложениях, издающих звук (Zoom, Discord, MS Teams, Skype и так далее)
- python-скрипты. Используются для препроцессинга, логгирования сказанного в текст
- jupyter-notebook с туториалом tutorial.ipynb
- log.txt - файл формата выходного файла
Видео с примером использования:
Для запуска модели на собственной машине, или удаленном сервере требуется сделать следующую последовательность действий:
Важно: распознавание нейросети базируется на open-source проекте vosk, поэтому единственная поддерживаемая ОС на данный момент - UBUNTU 18.04/LINUX.
- Скачиваем этот репозиторий к себе на сервер/локальный компьютер
-
!git clone https://github.com/danyanyam/notahack.git
-
cd notahack
- Скачиваем веса проекта
-
!wget http://alphacephei.com/kaldi/models/vosk-model-ru-0.10.zip
- спич2текст -
!wget http://alphacephei.com/kaldi/models/vosk-model-spk-0.3.zip
- спич2монологи
- Разархивируем скаченные веса
-
!unzip vosk-model-spk-0.3.zip
-
!unzip vosk-model-ru-0.10.zip
-
В терминале ввести
sudo chmod +x record.sh
-
Запускаем запись
./record.sh
-
После окончания беседы используется комбинация CTRL-C
-
Далее идет автоматическая предобработка записи и конвертация в необходимый для нейронной сети формат
-
Нейронная сеть автоматически считывает входную запись и создает файл
log.txt
, содержащий распознанный текст -
Файл
ffmpeg_output.wav
содержит запись беседы