大家好,我们是集创赛CICC1190爆炒集芯队,本帖我们将介绍我们所做协处理器中涉及的MFCC语音预处理网络,此网络旨在为语音信号进入神经网络前做准备
网络使用到的算法有基2-FFT、CORDIC算法等。当语音数据传入MFCC后,首先会进行分帧,产生一帧256个16Bit的数据,帧数由语音长度决定,之后再进行加窗操作,是语音信号平缓。分帧加窗后的数据将存入模块之间的缓存bufr中,待FFT取用。然后FFT将对数据以帧为单位进行256点运算,将数据从时域转为频域,以便接入Mel模块和DCT模块进行滤波和特征提取。最终得到的16个MFCC特征数将传入神经网络进行运算。该过程中主要用到的基本单元为32位浮点数乘法单元、参数存储单元等(用以提前存储所需cos函数等值,减少运算时间)
下图为文件组织目录
其架构图如下