«上一篇/Previous Article|本期目录/Table of Contents|下一篇/Next Article»

j.issn.1671-6833.2023.04.014]
点击复制

低资源少样本连续语音识别最新进展()

分享到：

《郑州大学学报(工学版)》[ISSN:1671-6833/CN:41-1339/T]

卷:: 44
期数:: 2023年04期

页码:: 1-9

栏目:

出版日期:: 2023-06-01

文章信息/Info

Title:: Overview of Recent Progress in Low-resource Few-shot Continuous Speech Recognition

作者:: 屈丹; 杨绪魁; 闫红刚; 陈雅淇; 牛铜; 战略支援部队信息工程大学信息系统工程学院,河南郑州 450001

Author(s):: QU Dan; YANG Xukui; YAN Honggang; CHEN Yaqi; NIU Tong; School of Information System Engineering, the University of Information Engineering, the University of Strategic Support Force, 450001, Zhengzhou, Henan

关键词:: 低资源少样本; 连续语音识别; 生成对抗网络; 自监督表示学习; 深度强化学习; 元学习

Keywords:: low-resource few-shot; continuous speech recognition; generative adversarial networks; self-supervised representation learning; deep reinforcement learning; meta-learning

分类号:: ＴＮ９１２. ３４

DOI:: 10.13705/j.issn.1671-6833.2023.04.014

文献标志码:: A

摘要:: 低资源少样本语音识别是目前语音识别行业面临的迫切技术需求。首先,总结了低资源连续语音识别技术的框架技术,重点介绍了低资源语音在特征提取、声学建模和资源扩展等方面的若干关键技术研究进展。其次, 在连续语音识别框架技术发展的基础上,重点阐述了生成对抗网络、自监督表示学习、深度强化学习和元学习等高级深度学习技术在解决少样本语音识别方面的最新发展。在此基础上,分析了目前该技术面临的互补有限、数据和任务不均衡与模型轻量化部署问题,为后续发展提供了新的思路和举措。最后,对低资源少样本连续语音识别进行了总结和展望。

Abstract:: Low-resource few-shot speech recognition is an urgent technical demand faced by the speech recognition industry. The framework technology for few-shot speech recognition is first briefly discussed in this article. The research progress of several important low resource speech technologies, including feature extraction, acoustic model, and resource expansion, is then highlighted. The latest advancements in deep learning technologies, such as generative adversarial networks, self-supervised representation learning, deep reinforcement learning, and meta-learning, are then focused on in order to address few-shot speech recognition on the basis of the development of continuous speech recognition framework technology. On that basis, the problems of limited complementarity, unbalanced task and model deployment faced by this technology are analyzed for the subsequent development. Finally, a summary and prospect of few-shot continuous speech recognition are given.

参考文献/References:

［１］ＧＲＡＶＥＳＡ，ＦＥＲＮÁＮＤＥＺＳ，ＧＯＭＥＺＦ，ｅｔａｌ．Ｃｏｎ⁃ ｎｅｃｔｉｏｎｉｓｔｔｅｍｐｏｒａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ：ｌａｂｅｌｌｉｎｇｕｎｓｅｇｍｅｎｔｅｄｓｅｑｕｅｎｃｅｄａｔａｗｉｔｈｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｃ］∥Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅ２３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅｌｅａｒｎｉｎｇ．ＮｅｗＹｏｒｋ：ＡＣＭ，２００６：３６９－３７６．

［２］ＧＲＡＶＥＳＡ，ＭＯＨＡＭＥＤＡＲ，ＨＩＮＴＯＮＧ．Ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈｄｅｅｐｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｃ］ ∥ ２０１３ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０１３：６６４５－６６４９．

［３］ＣＨＡＮＷ，ＪＡＩＴＬＹＮ，ＬＥＱ，ｅｔａｌ．Ｌｉｓｔｅｎ，ａｔｔｅｎｄａｎｄｓｐｅｌｌ：ａｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｌａｒｇｅｖｏｃａｂｕｌａｒｙｃｏｎｖｅｒｓａｔｉｏｎａｌｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］ ∥２０１６ＩＥＥＥＩｎ⁃ ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０１６：４９６０－４９６４．

［４］ＶＡＳＷＡＮＩＡ，ＳＨＡＺＥＥＲＮ，ＰＡＲＭＡＲＮ，ｅｔａｌ．Ａｔｔｅｎ⁃ ｔｉｏｎｉｓａｌｌｙｏｕｎｅｅｄ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３１ｓｔＩｎｔｅｒ⁃ ｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．ＮｅｗＹｏｒｋ：ＡＣＭ，２０１７：６０００－６０１０．

［５］ＤＥＶＬＩＮＪ，ＣＨＡＮＧＭＷ，ＬＥＥＫ，ｅｔａｌ．ＢＥＲＴ：ｐｒｅ⁃ ｔｒａｉｎｉｎｇｏｆｄｅｅｐｂｉｄｉｒｅｃｔｉｏｎａｌｔｒａｎｓｆｏｒｍｅｒｓｆｏｒｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ［ＥＢ／ＯＬ］．（２０１９－０５－２４）［２０２３－０３－１０］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１８１０. ０４８０５．

［６］ＧＡＬＥＳＭＪＦ，ＫＮＩＬＬＫＭ，ＲＡＧＮＩＡ，ｅｔａｌ．Ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａｎｄｋｅｙｗｏｒｄｓｐｏｔｔｉｎｇｆｏｒｌｏｗ⁃ｒｅｓｏｕｒｃｅｌａｎ⁃ ｇｕａｇｅｓ：ＢａｂｅｌｐｒｏｊｅｃｔｒｅｓｅａｒｃｈａｔＣＵＥＤ［Ｃ］∥Ｔｈｅ４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＳｐｏｋｅｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓｆｏｒＵｎｄｅｒ⁃ＲｅｓｏｕｒｃｅｄＬａｎｇｕａｇｅｓ．Ｓｔ．Ｐｅ⁃ ｔｅｒｓｂｕｒｇ：ＲＦＢＲ，２０１４：１６－２３．

［７］赵淑芳，董小雨．基于改进的ＬＳＴＭ深度神经网络语音识别研究［Ｊ］．郑州大学学报（工学版），２０１８，３９（５）：６３－６７．

ＺＨＡＯＳＦ，ＤＯＮＧＸＹ．ＲｅｓｅａｒｃｈｏｎｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｂａｓｅｄｏｎｉｍｐｒｏｖｅｄＬＳＴＭｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ［Ｊ］．Ｊｏｕｒ⁃ ｎａｌｏｆＺｈｅｎｇｚｈｏｕＵｎｉｖｅｒｓｉｔｙ（ＥｎｇｉｎｅｅｒｉｎｇＳｃｉｅｎｃｅ），２０１８，３９（５）：６３－６７．

［８］ＴＨＯＭＡＳＳ，ＧＡＮＡＰＡＴＨＹＳ，ＨＥＲＭＡＮＳＫＹＨ．Ｍｕｌ⁃ ｔｉｌｉｎｇｕａｌＭＬＰｆｅａｔｕｒｅｓｆｏｒｌｏｗ⁃ｒｅｓｏｕｒｃｅＬＶＣＳＲｓｙｓｔｅｍｓ［Ｃ］ ∥ ２０１２ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｐｉｓｃａ⁃ｔａｗａｙ：ＩＥＥＥ，２０１２：４２６９－４２７２．

［９］ＰＯＶＥＹＤ，ＢＵＲＧＥＴＬ，ＡＧＡＲＷＡＬＭ，ｅｔａｌ．ＴｈｅｓｕｂｓｐａｃｅＧａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ：ａｓｔｒｕｃｔｕｒｅｄｍｏｄｅｌｆｏｒｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＣｏｍｐｕｔｅｒＳｐｅｅｃｈ＆Ｌａｎｇｕａｇｅ，２０１１，２５（２）：４０４－４３９．

［１０］ＩＭＳＥＮＧＤ，ＢＯＵＲＬＡＲＤＨ，ＧＡＲＮＥＲＰＮ．ＵｓｉｎｇＫＬ⁃ ｄｉｖｅｒｇｅｎｃｅａｎｄｍｕｌｔｉｌｉｎｇｕａｌｉｎｆｏｒｍａｔｉｏｎｔｏｉｍｐｒｏｖｅＡＳＲｆｏｒｕｎｄｅｒ⁃ｒｅｓｏｕｒｃｅｄｌａｎｇｕａｇｅｓ［Ｃ］ ∥２０１２ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０１２：４８６９－４８７２．

［１１］ＭＯＨＡＭＥＤＡＲ，ＤＡＨＬＧＥ，ＨＩＮＴＯＮＧ．Ａｃｏｕｓｔｉｃｍｏｄｅｌｉｎｇｕｓｉｎｇｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥ８郑州大学学报（工学版）２０２３年ＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２０１２，２０（１）：１４－２２．

［１２］ＰＯＶＥＹＤ，ＣＨＥＮＧＧＦ，ＷＡＮＧＹＭ，ｅｔａｌ．Ｓｅｍｉ⁃ ｏｒｔｈｏｇｏｎａｌｌｏｗ⁃ｒａｎｋｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎｆｏｒｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｃ］ ∥ Ｉｎｔｅｒｓｐｅｅｃｈ２０１８．Ｈｙｄｅｒａｂａｄ：ＩＳＣＡ，２０１８：３７４３－３７４７．

［１３］薛均晓，黄世博，王亚博，等．基于时空特征的语音情感识别模型ＴＳＴＮｅｔ［Ｊ］．郑州大学学报（工学版），２０２１，４２（６）：２８－３３．

ＸＵＥＪＸ，ＨＵＡＮＧＳＢ，ＷＡＮＧＹＢ，ｅｔａｌ．ＳｐｅｅｃｈｅｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎＴＳＴＮｅｔｂａｓｅｄｏｎｓｐａｔｉａｌ⁃ｔｅｍｐｏｒａｌｆｅａ⁃ ｔｕｒｅｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＺｈｅｎｇｚｈｏｕＵｎｉｖｅｒｓｉｔｙ（ＥｎｇｉｎｅｅｒｉｎｇＳｃｉｅｎｃｅ），２０２１，４２（６）：２８－３３．

［１４］ＰＯＶＥＹＤ，ＰＥＤＤＩＮＴＩＶ，ＧＡＬＶＥＺＤ，ｅｔａｌ．Ｐｕｒｅｌｙｓｅ⁃ ｑｕｅｎｃｅ⁃ｔｒａｉｎｅｄｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒＡＳＲｂａｓｅｄｏｎｌａｔｔｉｃｅ⁃ ｆｒｅｅＭＭＩ［Ｃ］∥Ｉｎｔｅｒｓｐｅｅｃｈ２０１６．ＳａｎＦｒａｎｃｉｓｃｏ：ＩＳＣＡ，２０１６：２７５１－２７５５．

［１５］ＪＡＩＴＬＹＮ，ＨＩＮＴＯＮＥ．Ｖｏｃａｌｔｒａｃｔｌｅｎｇｔｈｐｅｒｔｕｒｂａｔｉｏｎ（ＶＴＬＰ）ｉｍｐｒｏｖｅｓｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］ ∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＷｏｒｋｓｈｏｐｏｎＤｅｅｐＬｅａｒｎｉｎｇｆｏｒＡｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ．Ａｔｌａｎｔａ：ＩＣＭＬ，２０１３：１－５．

［１６］ＫＯＴ，ＰＥＤＤＩＮＴＩＶ，ＰＯＶＥＹＤ，ｅｔａｌ．Ａｕｄｉｏａｕｇｍｅｎｔａ⁃ ｔｉｏｎｆｏｒｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］∥Ｉｎｔｅｒｓｐｅｅｃｈ２０１５．Ｄｒｅｓ⁃ ｄｅｎ：ＩＳＣＡ，２０１５：３５８６－３５８９．

［１７］ＰＡＲＫＤＳ，ＣＨＡＮＷ，ＺＨＡＮＧＹ，ｅｔａｌ．ＳｐｅｃＡｕｇｍｅｎｔ：ａｓｉｍｐｌｅｄａｔａａｕｇｍｅｎｔａｔｉｏｎｍｅｔｈｏｄｆｏｒａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［ＥＢ／ＯＬ］．（２０１９－０４－１８）［２０２３－０３－１０］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１９０４. ０８７７９．

［１８］ＫＨＡＲＩＴＯＮＯＶＥ，ＲＩＶＩÈＲＥＭ，ＳＹＮＮＡＥＶＥＧ，ｅｔａｌ．Ｄａｔａａｕｇｍｅｎｔｉｎｇｃｏｎｔｒａｓｔｉｖｅｌｅａｒｎｉｎｇｏｆｓｐｅｅｃｈｒｅｐｒｅｓｅｎ⁃ ｔａｔｉｏｎｓｉｎｔｈｅｔｉｍｅｄｏｍａｉｎ［Ｃ］∥２０２１ＩＥＥＥＳｐｏｋｅｎＬａｎ⁃ ｇｕａｇｅＴｅｃｈｎｏｌｏｇｙＷｏｒｋｓｈｏｐ（ＳＬＴ）．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０２１：２１５－２２２．

［１９］ＸＩＥＱＺ，ＬＵＯＮＧＭＴ，ＨＯＶＹＥ，ｅｔａｌ．Ｓｅｌｆ⁃ｔｒａｉｎｉｎｇｗｉｔｈｎｏｉｓｙｓｔｕｄｅｎｔｉｍｐｒｏｖｅｓＩｍａｇｅＮｅｔｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］∥ ２０２０ＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔ⁃ ｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０２０：１０６８４－１０６９５．

［２０］ＧＯＯＤＦＥＬＬＯＷＩＪ，ＰＯＵＧＥＴ⁃ＡＢＡＤＩＥＪ，ＭＩＲＺＡＭ，ｅｔａｌ．Ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ［ＥＢ／ＯＬ］．（２０１４－０６－１０）［２０２３－０３－１０］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１４０６. ２６６１．

［２１］王坤峰，苟超，段艳杰，等．生成式对抗网络ＧＡＮ的研究进展与展望［Ｊ］．自动化学报，２０１７，４３（３）：３２１－３３２．

ＷＡＮＧＫＦ，ＧＯＵＣ，ＤＵＡＮＹＪ，ｅｔａｌ．Ｇｅｎｅｒａｔｉｖｅａｄ⁃ ｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ：ｔｈｅｓｔａｔｅｏｆｔｈｅａｒｔａｎｄｂｅｙｏｎｄ［Ｊ］．ＡｃｔａＡｕｔｏｍａｔｉｃａＳｉｎｉｃａ，２０１７，４３（３）：３２１－３３２．

［２２］ＱＩＡＮＹＭ，ＨＵＨ，ＴＡＮＴ．Ｄａｔａａｕｇｍｅｎｔａｔｉｏｎｕｓｉｎｇｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓｆｏｒｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉ⁃ ｔｉｏｎ［Ｊ］．ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，２０１９，１１４：１－９．

［２３］ＳＵＮＳＮ，ＹＥＨＣＦ，ＯＳＴＥＮＤＯＲＦＭ，ｅｔａｌ．Ｔｒａｉｎｉｎｇａｕｇｍｅｎｔａｔｉｏｎｗｉｔｈａｄｖｅｒｓａｒｉａｌｅｘａｍｐｌｅｓｆｏｒｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［ＥＢ／ＯＬ］．（２０１８－０６－０７）［２０２３－０３－１０］．ｈｔ⁃ ｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１８０６. ０２７８２．

［２４］ＳＨＩＮＯＨＡＲＡＹ．Ａｄｖｅｒｓａｒｉａｌｍｕｌｔｉ⁃ｔａｓｋｌｅａｒｎｉｎｇｏｆｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］∥Ｉｎｔｅｒ⁃ ｓｐｅｅｃｈ２０１６．ＳａｎＦｒａｎｃｉｓｃｏ：ＩＳＣＡ，２０１６：２３６９－２３７２．

［２５］ＬＩＵＢ，ＮＩＥＳ，ＺＨＡＮＧＹＰ，ｅｔａｌ．Ｂｏｏｓｔｉｎｇｎｏｉｓｅｒｏ⁃ ｂｕｓｔｎｅｓｓｏｆａｃｏｕｓｔｉｃｍｏｄｅｌｖｉａｄｅｅｐａｄｖｅｒｓａｒｉａｌｔｒａｉｎｉｎｇ［Ｃ］∥２０１８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０１８：５０３４－５０３８．

［２６］ＬＩＣＹ，ＶＵＮＴ．Ｉｍｐｒｏｖｉｎｇｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｏｎｎｏｉｓｙｓｐｅｅｃｈｖｉａｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｗｉｔｈｍｕｌｔｉ⁃ｄｉｓｃｒｉｍｉｎａｔｏｒｓＣｙｃｌｅＧＡＮ［Ｃ］ ∥ ２０２１ＩＥＥＥＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎａｎｄＵｎｄｅｒｓｔａｎｄｉｎｇＷｏｒｋｓｈｏｐ（ＡＳＲＵ）．Ｐｉｓ⁃ ｃａｔａｗａｙ：ＩＥＥＥ，２０２２：８３０－８３６．

［２７］屈丹，张文林，杨绪魁．实用深度学习基础［Ｍ］．北京：清华大学出版社，２０２２．

ＱＵＤ，ＺＨＡＮＧＷＬ，ＹＡＮＧＸＫ．Ｐｒａｃｔｉｃａｌｄｅｅｐｌｅａｒｎｉｎｇｆｏｕｎｄａｔｉｏｎ［Ｍ］．Ｂｅｉｊｉｎｇ：ＴｓｉｎｇｈｕａＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２０２２．

［２８］ＣＨＵＮＧＹＡ，ＨＳＵＷＮ，ＴＡＮＧＨ，ｅｔａｌ．Ａｎｕｎｓｕｐｅｒ⁃ ｖｉｓｅｄａｕｔｏｒｅｇｒｅｓｓｉｖｅｍｏｄｅｌｆｏｒｓｐｅｅｃｈｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇ［Ｃ］∥Ｉｎｔｅｒｓｐｅｅｃｈ２０１９．Ｇｒａｚ：ＩＳＣＡ，２０１９：１４６－１５０．

［２９］ＣＨＵＮＧＹＡ，ＴＡＮＧＨ，ＧＬＡＳＳＪ．Ｖｅｃｔｏｒ⁃ｑｕａｎｔｉｚｅｄａｕ⁃ ｔｏｒｅｇｒｅｓｓｉｖｅｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ［Ｃ］ ∥ Ｉｎｔｅｒｓｐｅｅｃｈ２０２０．Ｓｈａｎｇｈａｉ：ＩＳＣＡ，２０２０：３７６０－３７６４．

［３０］ＬＩＵＡＴ，ＬＩＳＷ，ＬＥＥＨＹ．ＴＥＲＡ：ｓｅｌｆ⁃ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｏｆｔｒａｎｓｆｏｒｍｅｒｅｎｃｏｄｅｒｒｅｐｒｅｓｅｎｔａｔｉｏｎｆｏｒｓｐｅｅｃｈ［Ｊ］．ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２０２１，２９：２３５１－２３６６．

［３１］ＨＳＵＷＮ，ＢＯＬＴＥＢ，ＴＳＡＩＹＨＨ，ｅｔａｌ．ＨｕＢＥＲＴ：ｓｅｌｆ⁃ｓｕｐｅｒｖｉｓｅｄｓｐｅｅｃｈｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇｂｙｍａｓｋｅｄｐｒｅｄｉｃｔｉｏｎｏｆｈｉｄｄｅｎｕｎｉｔｓ［Ｊ］．ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２０２１，２９：３４５１－３４６０．

［３２］ＧＵＴＭＡＮＮＭ，ＨＹＶÄＲＩＮＥＮＡ．Ｎｏｉｓｅ⁃ｃｏｎｔｒａｓｔｉｖｅｅｓｔｉ⁃ ｍａｔｉｏｎ：ａｎｅｗｅｓｔｉｍａｔｉｏｎｐｒｉｎｃｉｐｌｅｆｏｒｕｎｎｏｒｍａｌｉｚｅｄｓｔａ⁃ ｔｉｓｔｉｃａｌｍｏｄｅｌｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２０１０，９：２９７－３０４．

［３３］ＯＯＲＤＡＶＤ，ＬＩＹＺ，ＶＩＮＹＡＬＳＯ．Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇｗｉｔｈｃｏｎｔｒａｓｔｉｖｅｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ［ＥＢ／ＯＬ］．（２０１９－０１－２２）［２０２３－０３－１０］．ｈｔｔｐｓ： ∥ ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１８０７. ０３７４８．

［３４］ＳＣＨＮＥＩＤＥＲＳ，ＢＡＥＶＳＫＩＡ，ＣＯＬＬＯＢＥＲＴＲ，ｅｔａｌ．Ｗａｖ２ｖｅｃ：ｕｎｓｕｐｅｒｖｉｓｅｄｐｒｅ⁃ｔｒａｉｎｉｎｇｆｏｒｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］∥Ｉｎｔｅｒｓｐｅｅｃｈ２０１９．Ｇｒａｚ：ＩＳＣＡ，２０１９：３４６５－３４６９．

［３５］ＴＪＡＮＤＲＡＡ，ＳＡＫＴＩＳ，ＮＡＫＡＭＵＲＡＳ．Ｓｅｑｕｅｎｃｅ⁃ｔｏ⁃ ｓｅｑｕｅｎｃｅＡＳＲｏｐｔｉｍｉｚａｔｉｏｎｖｉａｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ［Ｃ］ ∥ ２０１８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０１８：５８２９－５８３３．

［３６］ＴＪＡＮＤＲＡＡ，ＳＡＫＴＩＳ，ＮＡＫＡＭＵＲＡＳ．Ｅｎｄ⁃ｔｏ⁃ｅｎｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｅｑｕｅｎｃｅｔｒａｉｎｉｎｇｗｉｔｈｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０１９，７：７９７５８－７９７６９．

［３７］ＬＵＯＹＰ，ＣＨＩＵＣＣ，ＪＡＩＴＬＹＮ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｏｎｌｉｎｅａｌｉｇｎｍｅｎｔｓｗｉｔｈｃｏｎｔｉｎｕｏｕｓｒｅｗａｒｄｓｐｏｌｉｃｙｇｒａｄｉｅｎｔ［Ｃ］∥ ２０１７ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０１７：２８０１－２８０５．

［３８］ＶＡＲＩＡＮＩＥ，ＲＹＢＡＣＨＤ，ＡＬＬＡＵＺＥＮＣ，ｅｔａｌ．Ｈｙｂｒｉｄａｕｔｏｒｅｇｒｅｓｓｉｖｅｔｒａｎｓｄｕｃｅｒ（ＨＡＴ）［Ｃ］∥２０２０ＩＥＥＥＩｎｔｅｒ⁃ ｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏ⁃ ｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０２０：６１３９－６１４３．

［３９］ＫＡＬＡＴＫ，ＳＨＩＮＯＺＡＫＩＴ．Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｏｆｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｂａｓｅｄｏｎｐｏｌｉｃｙｇｒａｄｉｅｎｔａｎｄｈｙｐｏｔｈｅｓｉｓｓｅｌｅｃｔｉｏｎ［Ｃ］ ∥２０１８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎ⁃ ｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣ⁃ ＡＳＳＰ）．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０１８：５７５９－５７６３．

［４０］ＣＨＵＮＧＨ，ＪＥＯＮＨＢ，ＰＡＲＫＪＧ．Ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｔｒａｉｎｉｎｇｆｏｒｓｅｑｕｅｎｃｅ⁃ｔｏ⁃ｓｅｑｕｅｎｃｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ［Ｃ］ ∥ ２０２０ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ（ＩＪＣＮＮ）．Ｐｉｓｃａｔ⁃ ａｗａｙ：ＩＥＥＥ，２０２０：１－６．

［４１］ＲＡＤＺＩＫＯＷＳＫＩＫ，ＮＯＷＡＫＲ，ＷＡＮＧＬ，ｅｔａｌ．Ｄｕａｌｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｆｏｒｎｏｎ⁃ｎａｔｉｖｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＥＵＲＡＳＩＰＪｏｕｒｎａｌｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＭｕｓｉｃＰｒｏｃｅｓｓ⁃ ｉｎｇ，２０１９，２０１９（１）：１－１０．

［４２］王璐，潘文林．基于元学习的语音识别探究［Ｊ］．云南民族大学学报（自然科学版），２０１９，２８（５）：５１０－５１６．

ＷＡＮＧＬ，ＰＡＮＷＬ．Ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｂａｓｅｄｏｎｍｅｔａ⁃ ｌｅａｒｎｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＹｕｎｎａｎＭｉｎｚｕＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅｓＥｄｉｔｉｏｎ），２０１９，２８（５）：５１０－５１６．

［４３］侯俊龙，潘文林．基于元度量学习的低资源语音识别［Ｊ］．云南民族大学学报（自然科学版），２０２１，３０（３）：２７２－２７８．

ＨＯＵＪＬ，ＰＡＮＷＬ．Ｌｏｗ⁃ｒｅｓｏｕｒｃｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｂａｓｅｄｏｎｍｅｔａ⁃ｍｅｔｒｉｃｌｅａｒｎｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＹｕｎｎａｎＭｉｎｚｕＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅｓＥｄｉｔｉｏｎ），２０２１，３０（３）：２７２－２７８．

［４４］ＫＬＥＪＣＨＯ，ＦＡＩＮＢＥＲＧＪ，ＢＥＬＬＰ．Ｌｅａｒｎｉｎｇｔｏａｄａｐｔ：ａｍｅｔａ⁃ｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｆｏｒｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎ［Ｃ］∥Ｉｎ⁃ ｔｅｒｓｐｅｅｃｈ２０１８．Ｈｙｄｅｒａｂａｄ：ＩＳＣＡ，２０１８：８６７－８７１．

［４５］ＨＳＵＪＹ，ＣＨＥＮＹＪ，ＬＥＥＨＹ．Ｍｅｔａｌｅａｒｎｉｎｇｆｏｒｅｎｄ⁃ｔｏ⁃ ｅｎｄｌｏｗ⁃ｒｅｓｏｕｒｃｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］∥２０２０ＩＥＥＥＩｎｔｅｒ⁃ ｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏ⁃ ｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０２０：７８４４－７８４８．

［４６］ＸＩＡＯＹＢ，ＧＯＮＧＫ，ＺＨＯＵＰ，ｅｔａｌ．Ａｄｖｅｒｓａｒｉａｌｍｅｔａｓａｍｐｌｉｎｇｆｏｒｍｕｌｔｉｌｉｎｇｕａｌｌｏｗ⁃ｒｅｓｏｕｒｃｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，２０２１，３５（１６）：１４１１２－１４１２０．

［４７］ＷＩＮＡＴＡＧＩ，ＣＡＨＹＡＷＩＪＡＹＡＳ，ＬＩＵＺＨ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｆａｓｔａｄａｐｔａｔｉｏｎｏｎｃｒｏｓｓ⁃ａｃｃｅｎｔｅｄｓｐｅｅｃｈｒｅｃｏｇ⁃ ｎｉｔｉｏｎ［Ｃ］ ∥Ｉｎｔｅｒｓｐｅｅｃｈ２０２０．Ｓｈａｎｇｈａｉ：ＩＳＣＡ，２０２０：１２７６－１２８０．

［４８］ＷＩＮＡＴＡＧＩ，ＣＡＨＹＡＷＩＪＡＹＡＳ，ＬＩＮＺＪ，ｅｔａｌ．Ｍｅｔａ⁃ ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｆｏｒｃｏｄｅ⁃ｓｗｉｔｃｈｅｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［ＥＢ／ＯＬ］．（２０２０－０３－０４）［２０２３－０３－１０］．ｈｔｔｐｓ：∥ ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２００３．０１９０１．

更新日期/Last Update: 2023-06-30

《郑州大学学报(工学版)》[ISSN:1671-6833/CN:41-1339/T]

文章信息/Info

参考文献/References:

常用功能

导航/Navigate

工具/Tools

统计/Statistics