8月10日,小米发布了新一代智能音箱--小米Sound,主打小巧身材和高音质,支持UWB一指连技术,以499元的售价定位为高端旗舰机型。就在7月底,华为也推出了2699元起的小精灵学习智慧屏和2199元的新一代Sound X。由此可见,高端化正成为中国智能音箱企业在当下市场低迷大背景下的发展方向。“烧钱”低价迅速引爆市场随着的发展,以语音为载体的智能设备作为入口成为可能,智能音箱进入大众视野。发展初期,智能音箱并非刚性需求,以阿里、百度、小米、京东等为代表的互联网厂商为快速抢占智能音箱市场及其背后庞大的智能家居生态,采取了最直接的价格战来圈用户。低单价有效的刺激了消费者的尝鲜欲和购买欲。201...... Last article READ

百度ai系列研究自然语言之语言处理基础技术

每周一篇原创,关注5G、物联网、,跟着我的【头号观点】坚持利用碎片时间学习

是人工智能中最核心的一部分,也是现在最难的,最底层的技术。百度提供全面、领先的NLP基础模块能力,涵盖词、短语、句子等不同粒度的底层能力,您可将其应用于多种技术和业务方向。今天我们就对自然语言处理的分支——语言处理基础技术进行详细研究解读。

词法分析

基于大数据和用户行为的分词、词性标注、命名实体识别,定位基本语言元素,消除歧义,支撑自然语言的准确理解。

功能介绍:百度词法分析向用户提供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体,百度词法分析的算法效果大幅领先已公开的主流中文词法分析模型。

中文分词:中文分词是将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程

词性标注:词性标注(Part-of-Speech tagging 或POS tagging)是指为自然语言文本中的每个词汇赋予一个词性的过程

专有名词:命名实体识别(Named Entity Recognition 简称NER),即”专名识别”,是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、时间日期等

词向量表示

依托全网海量优质数据和深度神经网络技术,通过词语的向量化来实现文本的可计算,帮助您快速完成语义挖掘、相似度计算等应用

使用场景:

语义召回:对候选资源进行词向量表示,并构建向量表示基础上的快速索引召回技术,与传统的基于字词倒排索引方法不同,直接从语义相关性角度上给用户召回结果

个性化推荐:

基于用户的历史行为建模用户兴趣表示,学习用户与推荐候选之间的兴趣匹配度,实现对用户的个性化推荐

语义相似度

依托全网海量优质数据和深度神经网络技术,通过词语向量化来计算两个词之间的相似度,满足高精度要求的业务场景需求

深度语义解析:该技术常用于计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高

领先技术应用:词义相似度是自然语言处理中的重要基础技术,是专名挖掘、query改写、词性标注等常用技术的基础之一

依存句法分析

自动分析文本中的依存句法结构信息,实现对自然语言的精准理解

深度语义结构:利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系) ,并用树状结构来表示整句的的结构(如主谓宾、定状补)等

算法精准识别:在大规模人工标注的数据基础上,句法结构描述体系简洁通用,海量数据训练让文本匹配更准确

DNN语言模型

依托全网海量优质数据和深度神经网络技术,判断一句话是否符合语言表达习惯,帮助您实现文本分析、纠错、对话等多种语义应用

语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯

通常用于机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等

应用场景:

拼写纠错:基于句子上下文,计算纠错候选的语言模型概率。用于拼写纠错,提升用户体验

对话系统:判断用户输入的句子是否符合自然语言表达习惯,辅助对话系统进行决策

机器翻译:语言模型对翻译候选的打分作为最终译文的重要排序指标,提升翻译效果

短文本相似度

依托全网海量优质数据和深度神经网络技术,为您提供高精度的短文本相似度服务,帮助快速实现推荐、检索、排序等应用

短文本相似度计算:提供两个短文本之间的语义相似度计算能力,输出的相似度是一个介于0到1之间的实数值,输出数值越大,则代表语义相似程度相对越高

短文本相似度聚合:通过语义相似度计算,判断两个短文本的语义表述是否相近,从而实现相似短文本的聚合或去重

应用场景

智能对话系统:在智能对话系统中,通过中文分词、专名识别等关键技术,能够准确的从用户输入内容中识别出意图及需求的关键信息,从而提供相应的内容服务

相似内容推荐:通过短文本相似度技术,可以准确的为目标文本匹配含义接近的内容,从而完成相似内容推荐

搜索结果扩展:通过词义相似度技术,可以寻找搜索query中的相似词,并进行合理替换,从而提高搜索结果的多样性

总结

综上所述,自然语言处理中的——语言处理基础技术主要是可共用的底层技术,小编附上一张图来展示整个应用架构,在后面几篇章中将详细介绍并成一体系。

预告

下一篇章继续研究学习百度的自然语言处理技术之语言处理应用技术,敬请期待!

免责声明:

本公众号为个人研究专题学习分享,非商业公众号无任何商业目的,如果文章内容有侵权或者非法信息,请立即与本号联系删除谢谢

data-v-34b32fe2>本文来自微信公众号:,作者:陶短房(旅加学者),编辑:田硕(瞭望智库),头图来自:视觉中国2020东京奥运会悄然落下帷幕。回顾比赛全程,尽管日本和东京民众对奥运会的抵触情绪,似乎悄然被“东道主式兴奋”所部分取代,但“2021年的2020东京奥运”本身,就让人感到无言的尴尬。许多人将这一切归咎于突如其来的新冠(COVID-19)肺炎疫情:正是由于疫情的肆虐,导致国际奥委会不得不在2020年先是叫停东京奥运火炬接力,继而将奥运会本身推迟了一年。正是由于疫情久拖不去,东京奥运才在今年7月12日东京等地“第四次紧急事态”影响下,成为既没有境外观众和游客,也没有本国观众和......Next article READ