产业实践促进科技创新,JD.COM科技集团的三篇论文入选2021年国际计算机科学与工程大会 七匹狼股吧

资讯行情  2021-03-06 17:02:12

原标题:产业实践促进科技创新,JD.COM科技集团三篇论文入选ICASSP 2021

ICASSP 2021将于2021年6月6日至11日在加拿大多伦多举行。凭借在语音技术领域的扎实积累和前沿创新,JD.COM科技集团的三篇论文被ICASSP 2021收录。

ICASSP全称声学、语音和信号处理国际会议,是由IEEE主办的世界上规模最大、内容最全面的信号处理及其应用顶级学术会议。JD.COM科技集团入选论文展示了其在供应链、金融、物流、物联网等场景下的行业实践经验,以及在国际舞台上的语音增强、语音合成、多轮对话等方面的技术实力。

论文一:基于神经卡尔曼滤波的语音增强算法的神经卡尔曼滤波研究

作者信息

由于复杂环境中的噪声,语音增强在人机语音交互系统中起着重要的作用。基于统计机器学习的语音增强算法通常使用机器学习领域已有的常用模块(如全连通网络、递归神经网络、卷积神经网络等)。)来构建增强系统。然而,如何将传统语音信号处理中基于专家知识的最优滤波器设计理论有效地应用到基于机器学习的语音增强系统中,仍然是一个未解决的问题。

JD.COM科技集团选题“基于神经卡尔曼滤波的语音增强算法的神经卡尔曼滤波语音增强研究”,提出了神经卡尔曼滤波的语音增强框架,将神经网络与最优滤波理论有机结合,通过监督学习方法进行训练,得到最优卡尔曼滤波权重。

神经卡尔曼滤波模型示意图

首先,研究者构建了基于递归神经网络的语音时间序列变化模型。与传统卡尔曼滤波器相比,该模型消除了语音变化服从线性预测模型的不合理假设,可用于对实际语音的非线性变化进行建模。一方面,该算法基于时间序列模型和卡尔曼隐藏状态向量信息,首先获得语音长期包络预测。另一方面,通过融合当前的观测信息,进一步解决了传统信号处理中基于维纳滤波的语音频谱预测问题。系统的最终输出是语音长期包络预测和维纳滤波预测的线性组合。该系统基于传统的卡尔曼滤波理论,直接获得线性组合权重的最优解。通过设计端到端系统,可以同步更新与维纳滤波相关的语音时变网络和噪声估计网络的权重。基于Librispeech语音集、pnl-100非语音和三目噪声集的实验结果表明,该算法在信噪比增益、语音感知质量和语音可懂度方面均优于基于UNET和CRNN框架的传统语音增强算法。

论文2:改进基于跨语句信息的端到端语音合成韵律建模的跨语句伯特嵌入韵律建模

作者信息

虽然端到端语音合成技术已经取得了相对自然和韵律化的语音合成效果,但是它并没有使用文本结构信息,而是只使用当前句子的语言特征进行语音合成。一般来说,韵律信息与语境的文本结构密切相关,同一句话在不同的语境中会有完全不同的韵律表达。因此,在合成一段文本时,只利用当前句子的文本特征的端到端系统很难根据上下文信息将一段文本转换成韵律表达丰富的自然语音。

JD.COM科技集团的论文《基于跨句信息的端到端语音合成中跨话语标记的韵律建模改进》采用当前主流的伯特模型提取待合成文本的跨句特征向量,然后在端到端语音合成模型的基础上利用上下文向量改善韵律效果。

模型结构示意图

研究人员没有使用任何显示的韵律控制信息,而是通过BERT语言模型提取待合成句子的上下文句子的跨句特征表示,并将该特征表示作为当前主流端到端语音合成算法的附加输入。本文讨论了两种不同的使用跨句特征的方法。第一种方法是拼接所有上下文句子的跨句特征,作为端到端语音合成系统的整体输入。第二种方式是把所有上下文句子的跨句特征作为一个序列,然后用待合成文本的每个语音单位和这个序列计算关注度。然后,通过计算出的关注度对上下文句子的跨句特征进行加权求和,可以计算出每个语音单元对应的跨句特征。第二种使用跨句特征的方式可以使每个发音单位得到一个对当前单位的发音有帮助的细粒度跨句特征。

实验结果表明,在端到端语音合成系统中,结合跨句特征后,该研究能有效提高合成段落文本的自然度和表现力。本研究在中英文有声读物数据集上验证了实验结果。此外,在对比测试结果中,与我们的端到端基线模型相比,大多数测试人员更喜欢本研究中结合跨句向量表示的语音合成算法合成的音频。

论文3:基于自监督学习的会话式查询重写

作者信息

在多轮对话系统中,用户倾向于简单口语化的表达,表达中有大量的信息缺失和引用。这些现象使得对话机器人很难理解用户的真实意图,大大增加了系统响应的难度。为了提高对话系统的水平,Query根据用户的历史对话重写用户的话语,以恢复所有被省略和引用的信息。然而,现有的查询重写技术都采用监督学习方法,模型的效果受到标注数据规模的严重限制,这极大地阻碍了该技术在实际业务场景中的落地。此外,用户的意图在重写后是否发生了变化,并没有受到现有作品的关注。如何保证重写后用户意图的一致性,仍然是一个亟待解决的问题。

JD.COM科技集团选择了论文《基于自监督学习的自监督学习对话查询改写》,提出了一种自监督查询改写方法。当共现词出现在用户的提问和历史对话中时,共现词会被删除或替换为具有特定概率的代词。最后,查询重写模型根据历史对话恢复用户的原始问题。与监督学习方法相比,自监督学习方法能够以较低的成本获得大量的训练数据,充分发挥模型的表征学习能力。

基于SSL的数据集构建

研究者进一步提出对Teresa模型进行改进,从两个方面提高重写模型的质量和准确性。首先,在Transformer编码层引入关键词检测模块,提取关键词来指导句子生成。首先,对历史语境的编码输出构建自关注图,得到历史语境中词语之间的关联度。然后使用文本排名算法计算单词的重要性得分;最后,将单词的重要性分数作为先验信息集成到解码器中,以指导模型生成包含更多关键信息的问题。其次,提出了意图一致性模块,在Transformer编码器的输入文本中加入特殊标签[CLS],获得文本内容的意图分布,并通过约束意图分布来保持意图一致性。原Context,Query)和生成的句子(Target)共享Transformer编码器,得到重写前后的意图分布。我们保持两者的分布一致,从而保证生成句子意图的一致性。

JD.COM科技集团作为JD.COM对外提供技术服务的核心部门,一直致力于前沿研究和探索,并继续以科技为先导,帮助城市和产业实现数字化和智能化升级。截至目前,JD.COM科技集团在AAAI、IJCAI、CVPR、KDD、神经科、ICML、ACL、ICASSP等国际AI顶级会议上发表论文近350余篇,在多项国际学术竞赛中获得19项世界第一。我相信,在未来,JD.COM科技集团将继续在语音和语义、计算机视觉、机器学习等领域发挥自己的优势。,并用科技帮助实体经济,切实改变大家的生活。

-

(市场有风险,投资交易要谨慎。按照这个投资交易,风险是你自己承担的。)返回搜狐看更多

负责编辑:


以上就是产业实践促进科技创新,JD.COM科技集团的三篇论文入选2021年国际计算机科学与工程大会七匹狼股吧的全部内容了,喜欢我们网站的可以继续关注股票市盈率其他的资讯!

相关推荐

原中国大买发动机,新型舰载机即将亮相!Madic还是要走到最后
原标题:中国大买发动机,新的舰载机即将亮相!马迪克还是要走到最后AL-322的性能确实很出色近日,据乌克兰媒体报道,AVIC国际...
德惠集资平台哪些集资公司是正规的场外集资风险_
场外配置风险股价通常会在下跌一段时间后逐渐企稳。稳定的态度是多种多样的,但基本上是一些比较简单基本的k线或者其他指标的组合。今天...
今天南海童玲铝锭的价格是多少?选股的步骤和方法
今天南海童玲铝锭的价格是多少?股票卖出时机如何选择?(1)当市场已经形成大头的时候,就下定决心,把所有的仓位清理干净,卖出去。上...
我不想再写了
过去一个月,很难受。市场没有死也没有活,资金全部流入创业板。创业板的成交量昨天和今天都接近上证指数,真的很精彩。其实我早在8月2...
000735罗牛山股票吧保本基金
000735落牛山股票吧小心股价突破历史天价。当股价完美运动时,不是买入的时候,而是退出的合适时机。根据传统的技术分析,当股价突...
陈星基金网南宁股份公司哪些股份公司的安全可靠性口碑好_
大连基金网哪些公司比较正规可靠?证券是表明持有人拥有财产或权益的所有权并可以自由转让的证券。证券的本质是交易合同或契约。合同或合...
日本联讯证券同花顺分析银行名词解释
联讯证券同花顺本文介绍了下跌三角的几个特征。投资者在股票市场交易时,应注意市场趋势和变化。k线图是最基本的观察方法。一般来说,股...
一元一股,大量原始股,坚定的多头或空头思想只会让你赔钱
一元一股,大量原始股,哪个股票软件好用:资金配置公司如何选股,有什么技巧?股指期货发行公司在发行股票时如何选股?据边肖所知,股指...
腾讯上市了吗?公司长期贷款减少了吗?
腾讯上市了吗?什么是股票期权?股票期权开户的条件是什么?要了解股票期权开户的条件,首先要了解股票期权的定义和股票期权的基本知识。...

友情链接