爱数智慧CEO张晴晴分享多语种对话式AI技术及应用

图片源自：国际在线

　　6月5-6日，由中国科学技术协会、中国科学院、中国工程院、浙江省人民政府指导，中国人工智能学会、杭州市人民政府主办的2021全球人工智能技术大会在杭州召开。大会汇聚了来自世界各地的人工智能领域院士专家，共同为人工智能的发展建言献策。本次大会采用线下线上同步直播方式，线上累计观看超过1300万人次，其中多语种智能信息处理专题论坛在线观看人数超过61万人次。

　　6日下午，在多语种智能信息处理专题论坛上，中国人工智能学会（以下简称：CAAI）多语种智能信息处理专业委员会正式成立。国务院参事、CAAI 理事长、中国工程院院士戴琼海，CAAI 名誉理事长、中国工程院院士李德毅，中国工程院院士、新疆多语种信息技术重点实验室主任吾守尔·斯拉木发表致辞。来自学术界、产业界的多位重磅嘉宾如百度CTO王海峰、科大讯飞研究院执行院长刘聪、华为诺亚实验室语音语义首席科学家刘群等带来了精彩演讲。

国务院参事、CAAI 理事长、中国工程院院士戴琼海（图片源自：国际在线）

　　爱数智慧创始人兼CEO张晴晴发表题为《多语种对话式AI技术及语料库建设》的主题演讲，介绍对话式AI技术的痛点，爱数智慧在多语种语料库建设的应用。

爱数智慧创始人兼CEO张晴晴（图片源自：国际在线）

　　多语种对话式AI技术面临的痛点

　　对话式AI正在全面普及，在智能车载、智能家居、智能客服、智慧医疗、智能社交等场景中相继落地。从技术角度看，对话式AI涉及语音识别、自然语言理解和语音合成等技术，要想通过这些技术实现人和机器更自然的对话，需要克服哪些难题？

　　日常生活中对话式口语和电脑打字交流最大的区别是，对话式口语会有语序颠倒、犹豫迟疑产生的停顿，多人同时交流甚至出现语句打断、抢话、交叠音等复杂语音场景，这为AI建模带来很大困难。

　　随着全球文化进一步交流与融合，外语词汇夹杂到母语中现象愈发频繁，对话式口语在车载导航、音乐检索等场景中存在多语种混合表达问题，比如“播放Taylor Swift的love story”等对话语句夹带个别英文单词或英文缩写。针对这些技术难点，爱数智慧从声学角度进行非母语发音字典建模和混合双语声学建模等，以此提高双语识别系统性能。

　　多语种语料库建设帮助开发者重建“巴别塔”

　　从声学建模角度提高双语混合语音识别性能上，爱数智慧在ASR，TTS和发音字典方面构建统一的音素集，就是将中英文，以及其他语言里相似的音素集进行一个聚类。由于人类器官发出的音素集是一个有限集，我们找到这些有限集后，能够涵盖所有的语言。这种方式能够在资源受限情况下进一步加大数据复用性，同时也增加了模型构建过程中的稳定性。

　　作为提高双语识别系统性能的另一重要模型——混合双语声学建模，我们使用什么样数据来进行对应的声学模型的训练，便会涉及到训练数据集。

　　目前爱数智慧拥有超过150000小时数据集，其中超过90000小时对话式AI训练数据集，这些数据集经过多维度的标注，包括语音到文本的转换，以及说话人性别、年龄、情感等标签，这些标签能够帮助开发者在解决多语言对话式AI上提供更多的信息，从而帮助优化对应的模型。

　　此外，爱数智慧拥有超过60种语言的数据集，还有部分针对外语数据构建的双语混合数据集，如泰语英语混合数据集、马来语英语混合数据集等，从而帮助开发者解决混合语音识别的问题。

　　最后，多语种对话式AI研究非常困难也是必然趋势，要实现世界语言无缝沟通交流这一终极目标，张晴晴号召更多AI开发者投身多语种对话式AI的研究领域，推动对话式AI进一步发展，重建巴别塔。

多语种智能信息专题论坛现场合影（图片源自：国际在线）

　　GAITC大会同期甄选51家优秀企业，参加全球人工智能技术博览会，爱数智慧与科大讯飞、阿里、百度、英伟达、快手、字节跳动和东风汽车等国内外知名企业悉数亮相。

GAITC大会博览会（图片源自：国际在线）

　　吾守尔·斯拉木莅临爱数智慧展台，了解爱数智慧核心技术及产品，并对MagicHub.io开源社区非常感兴趣，吾守尔鼓励爱数智慧在多语种智能化研究和应用上继续努力，实现无缝交流。

爱数智慧市场总监Helen在展台介绍爱数智慧核心技术及产品（图片源自：国际在线）

吾守尔·斯拉木参观爱数智慧展位并关注MagicHub.io开源社区（图片源自：国际在线）