什么是自然语言处理(NLP)的定义和应用?
什么是自然语言处理?
自然语言处理是一种使机器能够通过复杂的数学模型和算法来识别、理解和使用我们的语言的技术。机器翻译是一种自然语言处理应用。我们把要翻译的文本输入到所谓的NLP系统中,它背后的算法和模型会处理识别、理解、生成的过程,最后输出翻译后的目标语言。
早期的NLP技术主要是基于统计概念来训练模型,让算法读取大量类似词典的文章段落,然后让算法计算单词和句子出现的概率。然而,这种方法不能使系统很好地识别复杂的语法,同时,这种模型产生的单词更加刚性和无序。然而,随着深度学习和算法模型的突破,新的训练方法已经能够更好地处理上述问题。
深度学习的出现改变了过去训练NLP的操作模式,研究人员使用最广泛的算法模型是BERT。BERT的全称是来自Transformer的双向编码器表示(Bidirectional Encoder Representations from Transformers),谷歌是基于Transformer架构上开源的一组算法模型。
BERT的意义在于它可以对算法进行预训练,从两个方向查看前后的单词,然后推断出完整的上下文。这种方法不同于以往的模型,可以更全面地连接上下文,有效地帮助文本中的系统。理解和创造。谷歌去年引入了BERT模型来改进自己的搜索引擎。在最近发表的一项评估中,BERT不仅提高了搜索引擎算法理解英语的能力,而且更好地定义了用户的搜索意图。
自然语言理解(NLU)
自然语言理解的目的是使系统能够读取我们输入的信息,从而能够理解文本、语言并提取信息,以帮助执行文本分类、语法分析、信息搜索等下游任务。
在进行NLU时,最小的数据单位是单词,单词组成句子,小句子继续组成大句子和冠词,这意味着在使用NLU进行任何任务时,其主要目标是识别单词。像“我喜欢吃苹果”这句话,算法首先要区分不同的词性,然后进一步了解单词之间的关系。事实上,从数学的角度来看,任何词汇的构成都可以用数字来连接或标记,数字可以是词汇出现的概率,也可以是通过量化词汇建立的语言模型。
词嵌入是最常用的训练方法。单词本身用不同维度的向量标记。相关词越多,矢量距离越近,反之亦然,如:计算机与计算之间的矢量距离会越近,而计算机与运行之间的矢量距离则越远。
上面提到的BERT也是基于词嵌入的概念来训练的。不同的是,BERT不仅使用词向量来判断句子的结构,而且使用更自然的方式来检查上下文本来实现语言识别。训练后的模型不仅具有较强的通用性,而且能更好地解决词的意义差异。举个简单的例子:“王先生飞往东京”。在这里,王先生不会被误解为一只鸟,拍打着手臂飞向东京,但坐飞机去东京的是王先生。这种理解水平也是NLU能够进行情感分析并很好地理解话语背后意图的原因。
自然语言生成(NLG)
自然语言生成(Natural language generation)是自然语言理解(NLU)的反义词,系统的目标是对数据库中的数据进行集成、提取、提取,以自然语言的形式输出这些机器可读的数据。简单地说,就是将只有机器才能理解的数据结构,即0101010101这样的机器语言,转换成人类能够理解的文字,来完成文本摘要、新闻自动化、机器翻译等任务。
在过去的几年里,语言生成经常使用递归神经网络(RNNs)来构建神经语言模型,训练模型以一种考虑到之前文本的方式来预测下一个生成单词的概率。然而,近年来,基于Transformer的算法模型,如Open AI的GPT-2、Microsoft的Turing-NLG、b谷歌的BERT等,已经取代了RNN的训练方法。这些算法的训练速度不仅快于RNN的训练速度。高效,双向上下文词预测的准确性较好,因此NLG领域的大多数机器学习模型都是基于Transformer的。
NLP有哪些应用?
随着深度学习的推进,NLP技术得到了更广泛的应用,一份报告指出,企业对NLP的采用率显著提高。随着NLP技术的日益成熟,机器可以24小时工作,错误率极低,这将推动NLP更广泛的应用,为市场创造更多价值。
对于企业来说,我们可以将NLP提供的价值水平分为三个方面,一个是运营效率和成本降低,另一个是客户旅程和体验优化,最后是通过NLP驱动各个行业。商业模式。例如,情感分析是客户旅程和体验优化的一种应用,但我们也看到越来越多的初创公司使用这项技术来开发新的商业模式。
聊天机器人
过去,企业为了随时与消费者互动,需要聘请专门的人员在电话或通信平台前24/7随叫随到,这不仅消耗了人力成本,而且无法很好地处理庞大的客户和信息,对客服人员的培训水平要求更高。这会影响到一线的客户体验。
这就是聊天机器人逐渐进入主流的原因,不仅因为它们可以全天候提供即时服务,还因为它们可以提供更准确的产品信息和个性化服务。基于这两个优势,聊天机器人可以更好地获取消费者的意见和需求,推动更有效的消费者反馈,成为企业丰富消费者体验的有力工具。根据Oracle的一项调查,80%的受访者将使用聊天机器人为客户服务,Maruti Techlabs的一项数据指出,聊天机器人可以帮助降低30%的客户服务成本。
情感分析
情感分析模型是一种挖掘词语或话语观点的方法,通过建立规则来量化词汇,从而了解词语背后的情感、观点或意图。
随着这项技术越来越成熟,行业参与者可以应用它来更好地了解用户或消费者的真实感受。毕竟,传统的反馈模型往往是基于不充分的数据,不真实的反馈,或者消费者自己不知道自己的购买动机等因素,没有真正理解消费者的见解。这就是情感分析模型可以提供巨大价值的地方。毕竟,同样的消费者也会在社交平台和论坛上表达自己的想法。只有有效地利用这些数据,行业才能更深入地了解消费者的洞察,了解客户。什么是你喜欢的,什么是你讨厌的,以改善你的产品,业务和客户服务。
Kaggle有一个有趣的例子。通过分析美国航空公司twitter消息的情绪,将客户情绪分为正面、中性和负面,并从中自动计算出客户满意度的因素,如:飞行舒适度、行李、航班。这种类型的分析将为公司提供更清晰的改进方向。
助理
根据一份报告,未来几年智能助手将保持34%的年增长率。如此快速的增长来自于智能设备上的语音助手,如:Siri和Alexa等,帮助用户处理个人事务或连接智能家电,但随着NLP的进步,越来越多的公司开始开发智能助手来优化工作流程。也就是说,智能助手不再只是针对个人和家庭,在企业的各种业务中也有很多应用层面。
去年,一家科技公司推出了一款企业语音平台工具,该工具结合了AI和NLU技术,帮助企业完成会议流程。会议参与者只需要专注于对话,助手就会同步记录相关事项并组织会议见解。这样的模式不仅让团队的方向更加清晰,也为团队节省了时间,提高了其他业务的工作效率。
Loupventures的一项调查显示,谷歌Assistant已经能够正确回答近90%的问题,而随着物联网设备的普及,这也意味着未来会有更多的设备通过书面文本和语音进行连接,在流程优化和商业环境方面也会有更显著的发展。
文本生成
文本生成是一种使用了很长时间的NLG技术。人工智能擅长实时处理和应用大量数据。因此,在过去,媒体和广告公司的文案中经常使用文本生成。新闻自动化就是一个很好的例子。机器可以不间断地浏览不同来源的新闻(数据),并编写文本,使新闻快速出现在互联网和电视上。与传统流程相比,人工智能文本生成速度更快,成本更低,也更客观。
2016年,摩根大通与一家人工智能初创公司合作,利用人工智能生成更快、更有效的营销文本,以更个性化的方式向客户发送广告或电子邮件,从而使广告点击率提高了450%。营销信息还显著改善了信用卡和贷款业务的业绩,并改善了与现有和潜在客户的沟通。
文件处理
前一年,一家合同评审平台公司进行了一项研究。在研究中,AI审查保密条款的准确率达到了94%,而审查经验丰富的律师的平均准确率为85%,而且AI只需要花费时间。一个律师要在26秒内完成92分钟的工作。人工智能不仅在文档审查方面具有优势,而且还可以在其他领域提供业务价值,例如文档分类或重复任务,例如比较同类,或执行进一步分析。
在金融行业,我们在保险业的未来也提到,行业使用NLP算法来完成自动理赔流程,大大缩短了理赔时间,丰富了客户体验。在减少人为错误的同时,内部操作流程更加高效。