keyword-spotter-from-microphone可以提供调试信息吗？急需帮助，求大佬帮忙。在线等。谢谢！！！ about sherpa-onnx HOT 15 CLOSED

zzb181 commented on September 28, 2024

keyword-spotter-from-microphone可以提供调试信息吗？急需帮助，求大佬帮忙。在线等。谢谢！！！

from sherpa-onnx.

Comments (15)

csukuangfj commented on September 28, 2024

现象：连续说同一个关键词，前面很容易识别，有时说着说着就出现怎么说都无法识别的情况，换个关键词或重启又恢复正常。控制台什么信息也没有，查看API没有看到有设置debug的参数。程序也没有卡死。急需帮助，求大佬帮忙。在线等。谢谢！！！

请提供完整的命令，以及运行时，命令行的截图

from sherpa-onnx.

csukuangfj commented on September 28, 2024

@zzb181 在线等回复

from sherpa-onnx.

zzb181 commented on September 28, 2024

sherpa-onnx.zip

@csukuangfj 谢谢。我改了下源代码，自己加了debug参数，有返回模型的信息了，但还是无法看到我当时说的关键词被模型识别成什么了。
PS D:\ai\sherpa-onnx> & d:/ai/sherpa-onnx/.conda/python.exe d:/ai/sherpa-onnx/keyword-spotter-from-microphone.py
D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-transducer-model.cc:GetModelType:52 model_author=k2-fsa
query_head_dims=32,32,32,32,32,32
onnx.infer=onnxruntime.quant
version=1
model_type=zipformer2
comment=streaming zipformer2
decode_chunk_len=32
num_encoder_layers=1,1,1,1,1,1
T=45
encoder_dims=128,128,128,128,128,128
cnn_module_kernels=31,31,15,15,15,31
left_context_len=64,32,16,8,16,32
value_head_dims=12,12,12,12,12,12
num_heads=4,4,4,8,4,4

D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:InitEncoder:100 ---encoder---
model_author=k2-fsa
query_head_dims=32,32,32,32,32,32
onnx.infer=onnxruntime.quant
version=1
model_type=zipformer2
comment=streaming zipformer2
decode_chunk_len=32
num_encoder_layers=1,1,1,1,1,1
T=45
encoder_dims=128,128,128,128,128,128
cnn_module_kernels=31,31,15,15,15,31
left_context_len=64,32,16,8,16,32
value_head_dims=12,12,12,12,12,12
num_heads=4,4,4,8,4,4

D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:operator ():122 encoder_dims: 128 128 128 128 128 128

D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:operator ():122 query_head_dims: 32 32 32 32 32 32

D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:operator ():122 value_head_dims: 12 12 12 12 12 12

D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:operator ():122 num_heads: 4 4 4 8 4 4

D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:operator ():122 num_encoder_layers: 1 1 1 1 1 1

D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:operator ():122 cnn_module_kernels: 31 31 15 15 15 31

D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:operator ():122 left_context_len: 64 32 16 8 16 32

D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:InitEncoder:131 T: 45
D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:InitEncoder:132 decode_chunk_len_: 32
D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:InitDecoder:153 decode_chunk_len_: 32
D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:InitDecoder:153 decode_chunk_len_: 32
D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:InitDecoder:153 ---decoder---
vocab_size=197
context_size=2
onnx.infer=onnxruntime.quant
context_size=2
onnx.infer=onnxruntime.quant
onnx.infer=onnxruntime.quant

D:\a\sherpa-onnx\sherpa-onnx\sherpa-onnx\csrc\online-zipformer2-transducer-model.cc:InitJoiner:178 ---joiner---
---joiner---
onnx.infer=onnxruntime.quant
joiner_dim=320

Started! Please speak
result:开始采集
joiner_dim=320

Started! Please speak
joiner_dim=320

joiner_dim=320
joiner_dim=320

joiner_dim=320

Started! Please speak
result:开始采集
joiner_dim=320

Started! Please speak
joiner_dim=320

Started! Please speak
result:开始采集

Started! Please speak
result:开始采集
result:开始采集
result:采集数据
result:保存数据
Started! Please speak
result:开始采集
result:开始采集
result:采集数据

from sherpa-onnx.

csukuangfj commented on September 28, 2024

但还是无法看到我当时说的关键词被模型识别成什么了。

输出的结果，就是模型识别到的，比如
开始采集, 采集数据 等等，都是模型识别到的。

from sherpa-onnx.

zzb181 commented on September 28, 2024

我知道，这些是识别成功的，我想要看到识别不成功的时候，模型识别成什么了，比如关键词中有”张三“，说的时候，有可能发音不准，模型识别成”张山“”张啥“什么的，我想知道模型识别的过程数据。现在只能输出识别成功的结果数据。如果识别不成功的数据也可以输出，我可以把”张啥“也设置成关键词。

from sherpa-onnx.

csukuangfj commented on September 28, 2024

我想要看到识别不成功的时候

这个看不到。kws 只会输出 keywords.txt 里面的结果。

from sherpa-onnx.

csukuangfj commented on September 28, 2024

你可以试试通用的ASR

from sherpa-onnx.

zzb181 commented on September 28, 2024

我的需求是：可本地部署，识别速度快，占用资源小，在这些基础上追求准确率。可以只识别用户配置的关键词，只识别相似的声音也行，同音或相似音的也行。
我试过sherpa-onnx-kws-zipformer-wenetspeech-3.3M-2024-01-01。识别速度没有这个kws模型快。
这个kws模型的识别速度是真的快,又一点不占用资源，也符合我需求，可惜看不到识别不成功时的内容。要是可以拿到，我再比较下与关键词的拼音相似度，拿相似度最高的拿结果，就更好了。
我之前还试过vosk模型，识别速度和准确率和这个都没法比。
我还试过用最原始的，用DWT比较音频特征，效果不理想。自己手搓太难了，什么降噪，分段。。。一大堆

我看这个模型的介绍说，本质是一个小的asr模型，解码时进行了修改。那能不能在解码时，把结果也返回出来呢？

from sherpa-onnx.

csukuangfj commented on September 28, 2024

额， kws 只能识别 keywords.txt 里面指定的词。
（上面一句话，请阅读 3 遍，以便加深理解)

from sherpa-onnx.

longshiming commented on September 28, 2024

使用模型：sherpa-onnx-kws-zipformer-wenetspeech-3.3M-2024-01-01 (Chinese) 使用例子中的代码：python-api-examples/keyword-spotter-from-microphone.py sherpa-onnx版本1.10.20 python版本3.11 现象：连续说同一个关键词，前面很容易识别，有时说着说着就出现怎么说都无法识别的情况，换个关键词或重启又恢复正常。控制台什么信息也没有，查看API没有看到有设置debug的参数。程序也没有卡死。急需帮助，求大佬帮忙。在线等。谢谢！！！ 1、能否提供debug信息，让我能看到，我当时说的关键词被模型识别成什么了。方便后续处理，如做拼音相似度比较

2、请教下有没有支持模糊拼音的模型，1）、不带声调。如： ** -> zhong guo。2）z=zh c=ch s=sh f=h an=ang in=ing ...

我在android开发板上跑android的kws demo用英文的模型也会遇到你说的这种现象，同一个录音播放同一个关键词，有时就突然一直识别不了了，前面都是能正常识别到的。这个应该是kws源码的bug。

from sherpa-onnx.

pkufool commented on September 28, 2024

使用模型：sherpa-onnx-kws-zipformer-wenetspeech-3.3M-2024-01-01 (Chinese) 使用例子中的代码：python-api-examples/keyword-spotter-from-microphone.py sherpa-onnx版本1.10.20 python版本3.11 现象：连续说同一个关键词，前面很容易识别，有时说着说着就出现怎么说都无法识别的情况，换个关键词或重启又恢复正常。控制台什么信息也没有，查看API没有看到有设置debug的参数。程序也没有卡死。急需帮助，求大佬帮忙。在线等。谢谢！！！ 1、能否提供debug信息，让我能看到，我当时说的关键词被模型识别成什么了。方便后续处理，如做拼音相似度比较
2、请教下有没有支持模糊拼音的模型，1）、不带声调。如： ** -> zhong guo。2）z=zh c=ch s=sh f=h an=ang in=ing ...

我在android开发板上跑android的kws demo用英文的模型也会遇到你说的这种现象，同一个录音播放同一个关键词，有时就突然一直识别不了了，前面都是能正常识别到的。这个应该是kws源码的bug。

这个是已知问题，命令行不太好复现，debug 难度比较大，一直还未解决。

from sherpa-onnx.

pkufool commented on September 28, 2024

我知道，这些是识别成功的，我想要看到识别不成功的时候，模型识别成什么了，比如关键词中有”张三“，说的时候，有可能发音不准，模型识别成”张山“”张啥“什么的，我想知道模型识别的过程数据。现在只能输出识别成功的结果数据。如果识别不成功的数据也可以输出，我可以把”张啥“也设置成关键词。

你可以把相似的发音加到 keywords.txt 里面，映射到同一个词。关键词系统只会识别给定的词和其他，没法返回你说的相似音结果。

from sherpa-onnx.

zzb181 commented on September 28, 2024

我知道，这些是识别成功的，我想要看到识别不成功的时候，模型识别成什么了，比如关键词中有”张三“，说的时候，有可能发音不准，模型识别成”张山“”张啥“什么的，我想知道模型识别的过程数据。现在只能输出识别成功的结果数据。如果识别不成功的数据也可以输出，我可以把”张啥“也设置成关键词。

你可以把相似的发音加到 keywords.txt 里面，映射到同一个词。关键词系统只会识别给定的词和其他，没法返回你说的相似音结果。

1、我就是想把“相似”的发音加进来 keywords.txt 里面，但是每个人说出来的“相似”音还会有很大区别，而且就算是同一个人，因为环境，情绪等因素说同一个词，也会有很大区别，所以最好的办法是在配制关键词时，可以让用户用这个模型识别的结果来做关键词。用户说什么就设置什么成关键词，而不是让用户打字设置关键词，因为用户也不知道他说的张三能被模型识别成什么。如果可以让用户自己“录”几个关键词，我们后期再做这些关键词拼音的模糊匹配处理。针对这个用户的识别率一定会提高很多。
2、唤醒词，指令词识别不要根据语境语意推理训练，因唤醒词不要同义词，只要同音近音就行。
3、我今天又找了一个模型：speech_paraformer-tiny_asr_kws-zh-16k-vocab192-online，这个模型是直接返回拼音的，不过资源占用太大了，我转onxx后，funasr-onxx不支持返回的拼音处理，报错了。
4、现在尝试用sherpa-onnx-streaming-zipformer-zh-14M-2023-02-23，为了能有kws模型的响应速度，我只能设置enable_endpoint_detection=False，让模型听到什么就马上返回，我在后期处理，不过这个模型本身识别率不高，不知道后面效果怎么样。

from sherpa-onnx.

pkufool commented on September 28, 2024

用户说什么就设置什么成关键词，而不是让用户打字设置关键词，因为用户也不知道他说的张三能被模型识别成什么。如果可以让用户自己“录”几个关键词，我们后期再做这些关键词拼音的模糊匹配处理。针对这个用户的识别率一定会提高很多。

这个不是关键词做的事，是识别做的事，从你的评论看，我感觉你把识别和关键词检索这两个任务混了。返回拼音也好，返回文字也好，纯关键词检索系统都只能返回给定的关键词。当然，你也可以用语音识别系统去做关键词检索，跑正常的语音识别模型，只是在识别结果上自己写策略匹配关键词。

from sherpa-onnx.

pkufool commented on September 28, 2024

@zzb181 你得先搞清楚你想要一个怎样的场景，然后才看怎么样的模型才能满足你的需求。

from sherpa-onnx.

keyword-spotter-from-microphone可以提供调试信息吗？急需帮助，求大佬帮忙。在线等。谢谢！！！ about sherpa-onnx HOT 15 CLOSED

Comments (15)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs