感谢你的回复，我又回过头看了关于token semantic module 部分的代码，仍然有一些不明白的地方要请教你， <div class="snip

这里的变换是将这个2D的特征图变成我们想要的顺序，你可以跟着这个reshape和permute想象一下：一个音频的T和F经过这个顺序是怎么变换的，这样的变换是符

关于语义模块 about hts-audio-transformer HOT 1 CLOSED

retrocirce commented on June 30, 2024

关于语义模块

from hts-audio-transformer.

Comments (1)

RetroCirce commented on June 30, 2024

这里的变换是将这个2D的特征图变成我们想要的顺序，你可以跟着这个reshape和permute想象一下：一个音频的T和F经过这个顺序是怎么变换的，这样的变换是符合我在文章中写到的time-frequency-window顺序，这个顺序被送入tscam_conv才能保证该cnn在时间轴和频域轴上处理是是符合我们预想的顺序
有的，从理论上讲，这个B，C，T就是一个事件随着时间变化的presence map，在T轴上，你可以得到每个时间（在某个分辨率下）帧上的事件都有哪些，这也是我们用来进行文章最后一个实验（DESED数据集）的最初结果来源。
根据2的结果，我们有一个BCT的map，但是这个T是包含一定分辨率的，它并不是1024的长度（原来的输入是1024），因此，我们需要将该T长度给拉伸到1024，假设T是64，那么我们是将它拉伸16倍，相当于T中的每一帧实际上是16帧，我们假设这16帧内他的事件就是固定的（其实你算一下就相当于是0.16秒，这个精度其实已经不错了），这里的1024就是对应原来10秒的时间，一帧是0.01秒；当然，这些其实都是可以根据你的训练和infer需求改变
至于为什么这个fpx可以用来定位，这其实是我们的一个设想，在以前基于cnn的模型中，最后几层的feature其实也是一个类似于BCT的格式，虽然我们只有弱标签答案，但是我们希望这最后一层的BCT可以代表类似于每个时间点上的事件信息，因为这个map是由模型在时间上滑动得到的结果，它确实是捕捉到了每个时间点上的事件信息。在我们的transformer模型中，我们也是这样设想的，因为transformer捕捉了每个时间点上的信息，将它变成了BCT的map。虽然我们只有弱标签答案，但是我们希望这最后一层的BCT可以代表类似于每个时间点上的事件信息

from hts-audio-transformer.

Recommend Projects