The notahack from danyanyam

Cicada3301

Описание проекта

Проект состоит из нескольких частей:

bash-скрипты. Используются для парсинга всех звуков системы. Скрипт позволяет использовать нейросеть в любых приложениях, издающих звук (Zoom, Discord, MS Teams, Skype и так далее)
python-скрипты. Используются для препроцессинга, логгирования сказанного в текст
jupyter-notebook с туториалом tutorial.ipynb
log.txt - файл формата выходного файла

Видео с примером использования:

Установка

Для запуска модели на собственной машине, или удаленном сервере требуется сделать следующую последовательность действий:

Важно: распознавание нейросети базируется на open-source проекте vosk, поэтому единственная поддерживаемая ОС на данный момент - UBUNTU 18.04/LINUX.

Скачиваем этот репозиторий к себе на сервер/локальный компьютер

!git clone https://github.com/danyanyam/notahack.git
cd notahack

Скачиваем веса проекта

!wget http://alphacephei.com/kaldi/models/vosk-model-ru-0.10.zip - спич2текст
!wget http://alphacephei.com/kaldi/models/vosk-model-spk-0.3.zip - спич2монологи

Разархивируем скаченные веса

!unzip vosk-model-spk-0.3.zip
!unzip vosk-model-ru-0.10.zip

Использование

В терминале ввести sudo chmod +x record.sh
Запускаем запись ./record.sh
После окончания беседы используется комбинация CTRL-C
Далее идет автоматическая предобработка записи и конвертация в необходимый для нейронной сети формат
Нейронная сеть автоматически считывает входную запись и создает файл log.txt, содержащий распознанный текст
Файл ffmpeg_output.wav содержит запись беседы

danyanyam / notahack Goto Github PK

notahack's Introduction

Cicada3301

Описание проекта

Установка

Использование

notahack's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs