GithubHelp home page GithubHelp logo

Comments (6)

dancing-with-coffee avatar dancing-with-coffee commented on August 16, 2024 2

안녕하세요. 초보라 도움을 구합니다. 음성인식을 이용하면 발음이 아니라 맞춤법에 따라 변환되어 결과를 제시하는데요. 예를 들어 /닭고기/는 발음상 [닥꼬기]로 실현되지만 STT를 활용하면 결과가 /닭고기/로 나타납니다. 저는 발음 그대로 산출해주는 게 필요한데요. 혹시 이렇게 하는 게 가능할까요? 저의 짧은 생각으로는 음성 전처리 부분에서 입력값을 사전에 있는 어휘로 바꾸는 것 같은데,,, 도와주세요,, ㅜㅜ

발음상 표현인 [닥꼬기]가 하나의 형태소로 나오는걸 말씀하시는건가요? 아니면 STT를 이용해서 [닥꼬기] -> [닭고기]가 되는걸 원하시는건가요?

from khaiii.

krikit avatar krikit commented on August 16, 2024

죄송합니다만, 제가 잘 알지 못하는 분야라 도와드리기 힘들 것 같네요.. ㅠ.ㅠ

from khaiii.

shim-hyunju avatar shim-hyunju commented on August 16, 2024

제가 원하는 건 음성을 발음대로 산출해 주는 것입니다. 예를 들어 '국물'의 경우 제대로는 [궁물]이지만 [국물]로 한 글자씩 정확히 발음할 수도 있잖아요. 그래서 '궁물'로 발음했으면 '궁물'로, '국물'로 발음했음 '국물'로 결과를 보여주는 것을 원합니다. 마찬가지로 '물고기'를 [물고기]라고 했는지 [물꼬기]라고 했는지 알고 싶은 거예요.

from khaiii.

dancing-with-coffee avatar dancing-with-coffee commented on August 16, 2024

제가 원하는 건 음성을 발음대로 산출해 주는 것입니다. 예를 들어 '국물'의 경우 제대로는 [궁물]이지만 [국물]로 한 글자씩 정확히 발음할 수도 있잖아요. 그래서 '궁물'로 발음했으면 '궁물'로, '국물'로 발음했음 '국물'로 결과를 보여주는 것을 원합니다. 마찬가지로 '물고기'를 [물고기]라고 했는지 [물꼬기]라고 했는지 알고 싶은 거예요.

아하 그러면 텍스트셋 자체가 이미 발음열 그대로 STT를 마친 텍스트인가요? '물고기'를 [물고기]로 했는지 [물꼬기]로 했는지 알 수 있는 방법은 제가 이해한 바가 맞다면, '형태소 분석기' 랑은 상관없는 것 같네요. 형태소 분석기는 주어진 텍스트를 형태소 단위로 tokenizing 해주는 툴을 말합니다.

from khaiii.

shim-hyunju avatar shim-hyunju commented on August 16, 2024

네, 말씀하신 것처럼 형태소 분석은 아니고요. 오히려 그 전까지의 과정이라 보는 게 좋겠네요. 제가 봤을 때 지금의 stt api는 '발음입력(국물) -> 음소로 인식(궁물 또는 국물) -> 사전검색 -> 유의미 어휘로 산출(국물)인 거 같습니다. 제가 필요한 건 음소로 인식된 단계에서 결과를 출력하는 거고요. 다시 말해서, 입력된 음성이 어떠한 한글 자모음인지 판단해주는 그런 거지요. 의미와 무관하게 소리값으로만요... 근데 음성인식, 음성검색 앱들은 보통 유의미어로 찾아주고, 그러다 보니 '녈, 갇'처럼 무의미한 한 어절의 경우에는 결과가 제대로 안 나오더라고요... 단순히 소리값 자체로만 텍스트를 제공해주면 좋겠는데,,,ㅎ

from khaiii.

dancing-with-coffee avatar dancing-with-coffee commented on August 16, 2024

네, 말씀하신 것처럼 형태소 분석은 아니고요. 오히려 그 전까지의 과정이라 보는 게 좋겠네요. 제가 봤을 때 지금의 stt api는 '발음입력(국물) -> 음소로 인식(궁물 또는 국물) -> 사전검색 -> 유의미 어휘로 산출(국물)인 거 같습니다. 제가 필요한 건 음소로 인식된 단계에서 결과를 출력하는 거고요. 다시 말해서, 입력된 음성이 어떠한 한글 자모음인지 판단해주는 그런 거지요. 의미와 무관하게 소리값으로만요... 근데 음성인식, 음성검색 앱들은 보통 유의미어로 찾아주고, 그러다 보니 '녈, 갇'처럼 무의미한 한 어절의 경우에는 결과가 제대로 안 나오더라고요... 단순히 소리값 자체로만 텍스트를 제공해주면 좋겠는데,,,ㅎ

아, 그러면 Text Normalization이 되지 않은 날 것 자체의 STT가 필요하신거군요! STT API를 열어보면 중간에 TN 하는 단계가 있을 텐데, 그 전의 데이터를 얻으면 되지 않을까요? 제가 지금 STT에서의 TN을 사용할 때 khaiii를 사용하고 있어서요. 저는 오히려 현주님이 하시고자 하는 다음 단계를 구현하고 있습니다.

from khaiii.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.