audio's Introduction

Audio

Read wav2letter anywhere

Read this fastai thread

Audio recognition 🎤

Frecuencia de muestreo: 16khz (16000 muestras por segundo) es suficiente
Audio classification with fast.ai (CNN)
Speech recognition
- CTC
- RNN-T: RNN-Transducer, 2012 paper
- LAS: Listen, Attend and Spell. Attention-based, sequence-to-sequence model. 2015 paper

Audio generation 🔊

Speech generation guide
Music generation
WaveNet: A Generative Model for Raw Audio.

Packages

PyAudio
gTTS: Ptyoen interface of Google text to speech
SpeechRecognition
playsound

CTC speech recognition

uno puede "samplear" la entrada en trozos de longitud fija, pero la salida esperada, una serie de fonemas o de letras, lleva un ritmo distinto. CTC lo que hace es que la salida de la red (típicamente LTSM) sea "si hay cambio de fonema, y con qué probabilidad para cada posible opción", y luego esa señal se procesa, con o sin ayuda de un modelo del idioma del que se trate, para generar la secuencia más probable de fonemas o de palabras (el truco esta en como entrenar la red para que la salida sea esa). Antes de CTC lo tradicional era poner un HMM a la salida de la red para hacer básicamente lo mismo, pero bastante más complicado de entrenar, y sin salida probabilística.

LAS speech recognition

LAS (listen, attend, spell) es otro mecanismo para hacer lo mismo, combinando un lstm, un modelo de atención y un diccionario del idioma en cuestión en una sola entidad que se entrena end to end. De hecho creo que hay más evoluciones de la misma idea.

Recommend Projects

javiabellan / audio Goto Github PK

audio's Introduction

Audio

Read wav2letter anywhere

Read this fastai thread

Audio recognition 🎤

Audio generation 🔊

Packages

CTC speech recognition

LAS speech recognition

audio's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs