上海启嘟渡科技商贸有限公司
SEARCH

与我们合作

我们专注提供互联网一站式服务,助力企业品牌宣传多平台多途径导流量。
主营业务:网站建设、移动端微信小程序开发、营销推广、基础网络、品牌形象策划等

您也可通过下列途径与我们取得联系:

微 信: wxyunyingzhe

手 机: 15624122141

邮 箱:

[工程菜谱]基于wenet搞csj数据集的日文asr(三)

更新时间:2025-01-08 19:53:32

经过长时间的准备,现在终于可以开始利用wenet处理csj日语语音识别数据集的深入实践了。以下是本次内容的概要:

本次文章将主要围绕csj日语语音识别数据集的预处理工作进行讲解。在文章的第一部分,我们讨论了如何通过nvidia支持多GPU的Docker环境运行代码。具体操作步骤包括从nvcr.io/nvidia/nemo:v1拉取Docker镜像,设置必要的运行参数,如词典大小、使用sentence piece进行bpe处理等。

文章的第二部分详细介绍了csj日语语音识别数据集的处理流程。首先,我们对包含500小时数据的csj语料进行了基本文件夹布局的描述。接下来,我们开始实际操作,通过设置Docker运行环境,为后续的数据处理工作做好准备。在配置文件中,词典大小被设置为4096,采用sentence piece进行bpe编码。

接下来,我们将详细介绍csj数据的处理流程。这部分内容包括了对xml文件的切割、wav文件的切割与转换、文本和wav.scp文件的构建、时长过滤、词典构造以及data.list文件的创建。对于xml文件的切割,我们编写了一个名为wn.0.parse.py的脚本来进行操作。wav文件的切割则通过csj_tools下的wn.1.split_wav.py实现,将wav文件转换为小文件,并对非双声道文件进行双声道到单声道的转换。

在构建文本和wav.scp文件时,我们使用了csj_tools下的wn.2.prep.text.py脚本。这个脚本接收xml.simp、wav.split等输入,并将数据分割为训练集、测试1、测试2和测试3。对于时长过滤,我们编写了一个脚本,根据最小时长(如0.1秒)来筛选音频文件。词典的构造是基于训练集文本信息完成的,最终得到的tokenizer模型包含了若干文件,用于进一步的语音识别任务。

文章的最后部分介绍了如何通过run.sh脚本执行模型训练任务。模型训练的代码被集成在run.sh中,执行后可以实时查看训练进度。所有相关代码与步骤都已详细记录,后续将根据实际情况进行更新。

多重随机标签

猜你喜欢文章

QQ客服 电话咨询