y-vector

Статья, на основе которой сделано задание: https://www.isca-speech.org/archive/pdfs/interspeech_2021/zhu21b_interspeech.pdf. В статье описывается построение векторного представления (эмбеддингов) на сырых аудио данных (.wav).

Отличительной особенностью y-векторов от других подходов, основанных на извлечении признаков из сырых данных (например, таких как wav2vec), является то, что в данном случае используются три паралелльных канала со свёртками с разными ядрами, выполняющих функции фильтров разных частот. После свёрток по каналам происходит частотное и временное сжатие-расширение в трёх последующих блоках. Для повышения точности происходит объединение карт признаков с различных слоёв для каждого фрейма данных.

Выбранный датасет для экспериментов - VCTK (https://datashare.ed.ac.uk/handle/10283/2950). VCTK включает в себя речевые данные, произнесенные 109 носителями английского языка с различными акцентами. В данном случае решалась задача идентификации, то есть классификация на 109 классов. При этом в исходной статье про y-вектора рассматривалась задача верификации, поэтому полученные результаты сравнивались с результатами из статьи по VCTK датасету. Статья по VCTK: https://www.researchgate.net/publication/320280030_Dilated_Recurrent_Neural_Networks. В данной статье в качетстве метрики использовалась accuracy: MFCC+GRU - 0.77 сырые данные + Dilited GRU - 0.74 сырые данные + Fused GRU - 0.65

параметры обучения:

эпохи - 4
шаг обучения - 0.0001
батч - 64
функция потерь - CrossEntropyLoss
длина входящего фрагмента - 3.5с Если входящий файл меньше 3.5с, то он дополняется до длины в 3.5с самим собой.

При разбиении данных 80/20 на валидационном множестве accuracy составляет 0.92, что является высоким показателем для классификации на 109 классов. Полученный результат выше, чем в представленной выше статье по задаче идентификации на VCTK корпусе. Ниже представлены кривые обучения на 4-х эпохах:

Благодаря высокой точности при классификции данный подход можно использовать, например, в задаче диаризации для речевой аналитики команды из более 100 человек. Возможные улучшения метода: исследовать применимость различных фильтров на начальных этапах преобразования данных, более сознательный подбор гиперпараметров

mary-sam / y-vector Goto Github PK

y-vector's Introduction

y-vector

y-vector's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs