语音识别中输入输出的可能形式有哪些_filter bank output-CSDN博客

网站介绍:文章浏览阅读1.3k次。拿到10ms的语音数据后,常会利用一定大小的window将语音数据 切分成 若干份(在语音识别中,由window生成的一份语音片段被称为frame),每份语音片段在 通过 特定的数据转换方式(如:MFCC) 转成 feature,最后 在所有这些转化后的features拼接起来 作为 最终输入model 的 input。对于英文来讲,由于不同的词之间会以空格分开,因此,分词很easy,但是,在外文中,word是可以被创造的,这也意味着 vocabulary 可能需要无限延长。_filter bank output