GithubHelp home page GithubHelp logo

audio's Introduction

Audio

Audio recognition 馃帳

  • Frecuencia de muestreo: 16khz (16000 muestras por segundo) es suficiente
  • Audio classification with fast.ai (CNN)
  • Speech recognition
    • CTC
    • RNN-T: RNN-Transducer, 2012 paper
    • LAS: Listen, Attend and Spell. Attention-based, sequence-to-sequence model. 2015 paper

Audio generation 馃攰


Packages


CTC speech recognition

uno puede "samplear" la entrada en trozos de longitud fija, pero la salida esperada, una serie de fonemas o de letras, lleva un ritmo distinto. CTC lo que hace es que la salida de la red (t铆picamente LTSM) sea "si hay cambio de fonema, y con qu茅 probabilidad para cada posible opci贸n", y luego esa se帽al se procesa, con o sin ayuda de un modelo del idioma del que se trate, para generar la secuencia m谩s probable de fonemas o de palabras (el truco esta en como entrenar la red para que la salida sea esa). Antes de CTC lo tradicional era poner un HMM a la salida de la red para hacer b谩sicamente lo mismo, pero bastante m谩s complicado de entrenar, y sin salida probabil铆stica.

LAS speech recognition

LAS (listen, attend, spell) es otro mecanismo para hacer lo mismo, combinando un lstm, un modelo de atenci贸n y un diccionario del idioma en cuesti贸n en una sola entidad que se entrena end to end. De hecho creo que hay m谩s evoluciones de la misma idea.

audio's People

Contributors

javiabellan avatar

Watchers

 avatar  avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    馃枛 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 馃搳馃搱馃帀

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google 鉂わ笍 Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.