Read wav2letter anywhere
Read this fastai thread
- Frecuencia de muestreo: 16khz (16000 muestras por segundo) es suficiente
- Audio classification with fast.ai (CNN)
- Speech recognition
- Speech generation guide
- Music generation
- WaveNet: A Generative Model for Raw Audio.
- PyAudio
- gTTS: Ptyoen interface of Google text to speech
- SpeechRecognition
- playsound
uno puede "samplear" la entrada en trozos de longitud fija, pero la salida esperada, una serie de fonemas o de letras, lleva un ritmo distinto. CTC lo que hace es que la salida de la red (t铆picamente LTSM) sea "si hay cambio de fonema, y con qu茅 probabilidad para cada posible opci贸n", y luego esa se帽al se procesa, con o sin ayuda de un modelo del idioma del que se trate, para generar la secuencia m谩s probable de fonemas o de palabras (el truco esta en como entrenar la red para que la salida sea esa). Antes de CTC lo tradicional era poner un HMM a la salida de la red para hacer b谩sicamente lo mismo, pero bastante m谩s complicado de entrenar, y sin salida probabil铆stica.
LAS (listen, attend, spell) es otro mecanismo para hacer lo mismo, combinando un lstm, un modelo de atenci贸n y un diccionario del idioma en cuesti贸n en una sola entidad que se entrena end to end. De hecho creo que hay m谩s evoluciones de la misma idea.