肥宅钓鱼网
当前位置: 首页 钓鱼百科

开源nlp 平台(最新中文NLP开源工具箱来了)

时间:2023-07-29 作者: 小编 阅读量: 1 栏目名: 钓鱼百科

铜灵发自凹非寺量子位出品|公众号QbitAI对于开发者来说,又有一个新的NLP工具箱可以使用了,代号PaddleNLP,目前已开源。这个工具箱里的工具全面,共支持的6大NLP任务,包括文本分类、文本匹配、序列标注、文本生成、语义表示与语言模型和其他复杂任务等。ERNIEBI-LSTM,基于ERNIE语义表示对接上层BI-LSTM模型,并基于此在情感倾向分类数据集上进行Fine-tune获得。基于自建的数据集上对分词、词性标注、专名识别进行整体的评估

铜灵 发自 凹非寺

量子位 出品 | 公众号 QbitAI

对于开发者来说,又有一个新的NLP工具箱可以使用了,代号PaddleNLP,目前已开源。

在这个基于百度深度学习平台飞桨(PaddlePaddle)开发的工具箱里,装有大量工业级中文NLP开源工具与预训练模型。

这个工具箱里的工具全面,共支持的6大NLP任务,包括文本分类、文本匹配、序列标注、文本生成、语义表示与语言模型和其他复杂任务等。

除了全面,PaddleNLP的效果也还不错。比如基于百度海量搜索数据,PaddleNLP训练了的语义匹配模型在真实FAQ问答场景中,比基于字面的相似度方法AUC提升5%以上。

无论你在聊天机器人、智能客服、新闻推荐、信息检索、阅读理解还是机器翻译等场景,PaddleNLP都能一次性满足你的需求。

飞桨表示,手握PaddleNLP,就能将NLP领域的多种模型用一套共享骨架代码实现,减少开发者在开发过程中的重复工作。能方便开发者灵活插拔尝试多种网络结构,并且让应用最快速达到工业级效果。

具体来看用法。

1、文本分类

文本情感分析

情感是人类的一种高级智能行为,为了识别文本的情感倾向,需要深入的语义建模。另外,不同领域(如餐饮、体育)在情感的表达各不相同,因而需要有大规模覆盖各个领域的数据进行模型训练。为此,可以通过基于深度学习的语义模型和大规模数据挖掘解决上述两个问题。

百度研发的中文特色情感倾向分析模型(Sentiment Classification,简称Senta)针对带有主观描述的中文文本,可自动判断该文本的情感极性类别并给出相应的置信度。

情感类型分为积极、消极。情感倾向分析能够帮助企业理解用户消费习惯、分析热点话题和危机舆情监控,为企业提供有利的决策支持。

基于开源情感倾向分类数据集ChnSentiCorp评测结果如下表所示,此外,PaddleNLP还开源了百度基于海量数据训练好的模型,该模型在ChnSentiCorp数据集上fine-tune之后(基于开源模型进行Finetune的方法详见Github),可以得到更好的效果。

  • BOW(Bag Of Words)模型,是一个非序列模型,使用基本的全连接结构。
  • CNN(Convolutional Neural Networks),是一个基础的序列模型,能处理变长序列输入,提取局部区域之内的特征。
  • GRU(Gated Recurrent Unit),序列模型,能够较好地解决序列文本中长距离依赖的问题。
  • LSTM(Long Short Term Memory),序列模型,能够较好地解决序列文本中长距离依赖的问题。
  • BI-LSTM(Bidirectional Long Short Term Memory),序列模型,采用双向LSTM结构,更好地捕获句子中的语义特征。
  • ERNIE(Enhanced Representation through kNowledge IntEgration),百度自研基于海量数据和先验知识训练的通用文本语义表示模型,并基于此在情感倾向分类数据集上进行fine-tune获得。
  • ERNIE BI-LSTM,基于ERNIE语义表示对接上层BI-LSTM模型,并基于此在情感倾向分类数据集上进行Fine-tune获得。

项目地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/sentiment_classification

对话情绪识别

对话情绪识别适用于聊天、客服等多个场景,能够帮助企业更好地把握对话质量、改善产品的用户交互体验,也能分析客服服务质量、降低人工质检成本。

对话情绪识别(Emotion Detection,简称EmoTect),专注于识别智能对话场景中用户的情绪,针对智能对话场景中的用户文本,自动判断该文本的情绪类别并给出相应的置信度,情绪类型分为积极、消极、中性。

基于百度自建测试集(包含闲聊、客服)和nlpcc2014微博情绪数据集评测效果如下表所示,此外,PaddleNLP还开源了百度基于海量数据训练好的模型,该模型在聊天对话语料上fine-tune之后,可以得到更好的效果。

  • BOW:Bag Of Words,是一个非序列模型,使用基本的全连接结构。
  • CNN:浅层CNN模型,能够处理变长的序列输入,提取一个局部区域之内的特征。
  • TextCNN:多卷积核CNN模型,能够更好地捕捉句子局部相关性。
  • LSTM:单层LSTM模型,能够较好地解决序列文本中长距离依赖的问题。
  • BI-LSTM:双向单层LSTM模型,采用双向LSTM结构,更好地捕获句子中的语义特征。
  • ERNIE:百度自研基于海量数据和先验知识训练的通用文本语义表示模型,并基于此在对话情绪分类数据集上进行fine-tune获得。

项目地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/emotion_detection

2、文本匹配

短文本语义匹配

百度自主研发的短文本语义匹配语义匹配框架(SimilarityNet, SimNet)是一个计算短文本相似度的框架,可以根据用户输入的两个文本,计算出相似度得分。

SimNet 在语义表示上沿袭了隐式连续向量表示的方式,但对语义匹配问题在深度学习框架下进行了 End-to-End 的建模,将point-wise与 pair-wise两种有监督学习方式全部统一在一个整体框架内。

在实际应用场景下,将海量的用户点击行为数据转化为大规模的弱标记数据,在网页搜索任务上的初次使用即展现出极大威力,带来了相关性的提升。

SimNet框架在百度各产品上广泛应用,主要包括BOW、CNN、RNN、MMDNN等核心网络结构形式,提供语义相似度计算训练和预测框架,适用于信息检索、新闻推荐、智能客服等多个应用场景,帮助企业解决语义匹配问题。

基于百度海量搜索数据,PaddleNLP训练了一个SimNet-BOW-Pairwise语义匹配模型,在一些真实的FAQ问答场景中,该模型效果比基于字面的相似度方法AUC提升5%以上。

基于百度自建测试集(包含聊天、客服等数据集)和语义匹配数据集(LCQMC)进行评测,效果如下表所示。

LCQMC数据集以Accuracy为评测指标,而Pairwise模型的输出为相似度,因此采用0.958作为分类阈值,相比于基线模型中网络结构同等复杂的CBOW模型(准确率为0.737),BOW_Pairwise的准确率提升为0.7532。

项目地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/similarity_net

3、序列标注

词法分析

百度自主研发中文特色模型词法分析任务(Lexical Analysis of Chinese),输入是一个字符串,而输出是句子中的词边界和词性、实体类别。

序列标注是词法分析的经典建模方式。LAC使用基于 GRU 的网络结构学习特征,将学习到的特征接入 CRF 解码层完成序列标注。

CRF解码层本质上是将传统 CRF 中的线性模型换成了非线性神经网络,基于句子级别的似然概率,因而能够更好的解决标记偏置问题。LAC能整体性地完成中文分词、词性标注、专名识别任务。

基于自建的数据集上对分词、词性标注、专名识别进行整体的评估效果,效果如下表所示。此外,在飞桨开放的语义表示模型 ERNIE 上 finetune,并对比基线模型、BERT finetuned 和 ERNIE finetuned 的效果,可以看出会有显著的提升。

项目地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/lexical_analysis

4、文本生成

机器翻译

机器翻译(machine translation, MT)是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,输入为源语言句子,输出为相应的目标语言的句子。

Transformer 是论文 「Attention Is All You Need 」中提出的用以完成机器翻译(machine translation, MT)等序列到序列(sequence to sequence, Seq2Seq)学习任务的一种全新网络结构。

其同样使用了 Seq2Seq 任务中典型的编码器-解码器(Encoder-Decoder)的框架结构,但相较于此前广泛使用的循环神经网络(Recurrent Neural Network, RNN),其完全使用注意力(Attention)机制来实现序列到序列的建模。

基于公开的 WMT’16 EN-DE 数据集训练 Base、Big 两种配置的Transformer 模型后,在相应的测试集上进行评测,效果如下表所示。

项目地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/neural_machine_translation/transformer

5、语义表示与语言模型

语言表示工具箱

BERT 是一个迁移能力很强的通用语义表示模型, 以 Transformer 为网络基本组件,以双向 Masked Language Model和 Next Sentence Prediction 为训练目标,通过预训练得到通用语义表示,再结合简单的输出层,应用到下游的 NLP 任务,在多个任务上取得了 SOTA 的结果。

ELMo(Embeddings from Language Models) 是重要的通用语义表示模型之一,以双向 LSTM 为网路基本组件,以 Language Model 为训练目标,通过预训练得到通用的语义表示,将通用的语义表示作为 Feature 迁移到下游 NLP 任务中,会显著提升下游任务的模型性能。

PaddleNLP发布了基于百科类数据训练的预训练模型。

百度自研的语义表示模型ERNIE 通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识。相较于 BERT 学习原始语言信号,ERNIE直接对先验语义知识单元进行建模,增强了模型语义表示能力。

这里举个例子:

Learnt by BERT :哈 [mask] 滨是 [mask] 龙江的省会,[mask] 际冰 [mask] 文化名城。

Learnt by ERNIE:[mask] [mask] [mask] 是黑龙江的省会,国际 [mask] [mask] 文化名城。

在 BERT 模型中,我们通过『哈』与『滨』的局部共现,即可判断出『尔』字,模型没有学习与『哈尔滨』相关的任何知识。而 ERNIE 通过学习词与实体的表达,使模型能够建模出『哈尔滨』与『黑龙江』的关系,学到『哈尔滨』是 『黑龙江』的省会以及『哈尔滨』是个冰雪城市。

训练数据方面,除百科类、资讯类中文语料外,ERNIE 还引入了论坛对话类数据,利用 DLM(Dialogue Language Model)建模 Query-Response 对话结构,将对话 Pair 对作为输入,引入 Dialogue Embedding 标识对话的角色,利用 Dialogue Response Loss 学习对话的隐式关系,进一步提升模型的语义表示能力。

ERNIE在自然语言推断,语义相似度,命名实体识别,情感分析,问答匹配多项NLP中文任务上效果领先。

项目地址:

https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE

https://github.com/PaddlePaddle/LARK/tree/develop/BERT

https://github.com/PaddlePaddle/LARK/tree/develop/ELMo

语言模型

基于LSTM的语言模型任务是给定一个输入词序列(中文分词、英文tokenize),计算其PPL(语言模型困惑度,用户表示句子的流利程度),基于循环神经网络语言模型的介绍可以参阅论文「Recurrent Neural Network Regularization」。

相对于传统的方法,基于循环神经网络的方法能够更好的解决稀疏词的问题。此任务采用了序列任务常用的RNN网络,实现了一个两层的LSTM网络,然后LSTM的结果去预测下一个词出现的概率。

在small、meidum、large三个不同配置情况的ppl对比如下表所示。

项目地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/language_model

6、复杂任务

对话模型工具箱

Auto Dialogue Evaluation

对话自动评估模块主要用于评估开放领域对话系统的回复质量,能够帮助企业或个人快速评估对话系统的回复质量,减少人工评估成本。

1)在无标注数据的情况下,利用负采样训练匹配模型作为评估工具,实现对多个对话系统回复质量排序;

2)利用少量标注数据(特定对话系统或场景的人工打分),在匹配模型基础上进行微调,可以显著提高该对话系统或场景的评估效果。

以四个不同的对话系统(seq2seq_naive/seq2seq_att/keywords/human)为例,使用对话自动评估工具进行自动评估。

1)无标注数据情况下,直接使用预训练好的评估工具进行评估; 在四个对话系统上,自动评估打分和人工评估打分spearman相关系数,如下表所示。

2)对四个系统平均得分排序:

3)利用少量标注数据微调后,自动评估打分和人工打分spearman相关系数,如下表所示。

项目地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/dialogue_model_toolkit/auto_dialogue_evaluation

Deep Attention Matching Network

深度注意力机制模型是开放领域多轮对话匹配模型。根据多轮对话历史和候选回复内容,排序出最合适的回复。

多轮对话匹配任务输入是多轮对话历史和候选回复,输出是回复匹配得分,根据匹配得分排序,更多内容请参阅论文Multi-Turn Response Selection for Chatbots with Deep Attention Matching Network。

两个公开数据集上评测效果如下表所示。

项目地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/dialogue_model_toolkit/deep_attention_matching

对话通用理解模型DGU

对话相关的任务中,Dialogue System常常需要根据场景的变化去解决多种多样的任务。任务的多样性(意图识别、槽位解析、DA识别、DST等等),以及领域训练数据的稀少,给Dialogue System的研究和应用带来了巨大的困难和挑战,要使得dialogue system得到更好的发展,需要开发一个通用的对话理解模型。基于BERT的对话通用理解模块(DGU:Dialogue General Understanding),通过实验表明,使用base-model(BERT)并结合常见的学习范式,在几乎全部对话理解任务上取得比肩甚至超越各个领域业内最好的模型的效果,展现了学习一个通用对话理解模型的巨大潜力。

DGU针对数据集开发了相关的模型训练过程,支持分类,多标签分类,序列标注等任务,用户可针对自己的数据集,进行相关的模型定制

基于对话相关的业内公开数据集进行评测,效果如下表所示。

项目地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/dialogue_model_toolkit/dialogue_general_understanding

知识驱动对话

人机对话是人工智能(AI)中最重要的话题之一,近年来受到学术界和工业界的广泛关注。目前,对话系统仍然处于起步阶段,通常是被动地进行交谈,并且更多地将他们的言论作为回应而不是他们自己的倡议,这与人与人的谈话不同。

因此, 百度在一个名为知识驱动对话的新对话任务上设置了这个竞赛,其中机器基于构建的知识图与人交谈。它旨在测试机器进行类似人类对话的能力。

这是提供基于检索和基于生成的基线系统。 这两个系统都是由PaddlePaddle(百度深度学习框架)和Pytorch(Facebook深度学习框架)实现的。 两个系统的性能如下表所示。

项目地址:

https://github.com/baidu/knowledge-driven-dialogue/tree/master

阅读理解

在机器阅读理解(MRC)任务中,会给定一个问题(Q)以及一个或多个段落(P)/文档(D),然后利用机器在给定的段落中寻找正确答案(A),即QP or D => A. 机器阅读理解(MRC)是自然语言处理(NLP)中的关键任务之一,需要机器对语言有深刻的理解才能找到正确的答案。

基于PaddlePaddle的阅读理解升级了经典的阅读理解BiDAF模型,去掉了char级别的embedding,在预测层中使用了pointer network,并且参考了R-NET中的一些网络结构,效果上有了提升(在DuReader2.0验证集、测试集的表现见下表)。

DuReader是一个大规模、面向真实应用、由人类生成的中文阅读理解数据集。DuReader聚焦于真实世界中的不限定领域的问答任务。相较于其他阅读理解数据集,DuReader的优势包括:

问题来自于真实的搜索日志

文章内容来自于真实网页

答案由人类生成

面向真实应用场景

标注更加丰富细致

项目地址:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/reading_comprehension

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

    推荐阅读
  • 泰戈尔的诗精选12首(泰戈尔的诗精选12首是什么)

    泰戈尔的诗精选12首?泰戈尔的诗精选12首泰戈尔的诗精选12首:夏天的飞鸟,飞到我窗前唱歌,又飞去了。世界上的一队小小的漂泊者呀,请留下你们的足印在我的文字里。世界对着它的爱人,把它浩瀚的面具揭下了。是“地”的泪点,使她的微笑保持着青春不谢。广漠无垠的沙漠热烈地追求着一叶绿草的爱,但她摇摇头,笑起来,飞了开去。如果错过了太阳时你流了泪,那末你也要错过群星了。“是永恒的沉默”。

  • 春联如何写才有年味(为渐浓的年味添一笔)

    不要让所有的日子都如此平庸,至少让春节独特一些吧!为春节准备一些仪式吧,不需要太多,但需要亲自参加!春节到来,买对联当然是可以的,但买的再好,也不能代表自己的心意。虽然我的书写水平只有小学生那么高,但我并不介意,我喜欢书写时不动声色的用尽全力,以及完成之后,仿佛完成一件年度大事的感觉。热情奔放的红,遇见庄重沉稳的黑,春节的门面,喜庆的妙不可言!压抑了这么久,总要有时间释放,不如就选择在春节吧!

  • 中卫临时身份证办理指南(宁夏中卫身份证号码)

    需要准备什么材料呢?中卫本地宝为您搜集了相关信息,希望能帮到您!办理条件本市户籍中国公民,在申领、换领、补领居民身份证期间,急需使用居民身份证的,可以申请领取临时居民身份证。

  • 精灵宝可梦letsgo皮卡丘伊布版本(精灵宝可梦LetsGo皮卡丘伊布mega耿鬼技能搭配推荐)

    《精灵宝可梦LetsGo皮卡丘伊布》中的耿鬼是一种非常调皮的宝可梦,而mega耿鬼相比于普通耿鬼更加强大,但是很多玩家都不知道mega耿鬼应该怎么搭配技能,今天小编就给大家带来玩家“亲密无间大乱揍”分享的mega耿鬼技能搭配推荐,一起来看看吧。本身双本在本作中没有盲点,剩下的挑衅封住受,带个突袭清残血也都是可选择战术。

  • 扁平疣最好的治疗方法是什么(如何治疗才有效果呢)

    扁平疣最好的治疗方法是什么这是一种病程比较长的疾病,好发于面部、手背、颈、胸、前臂等暴露地方,是由人类乳头瘤病毒HPV引起的皮肤的扁平丘疹损害。所以关于这种治疗,最首要的一点就是避免搔抓,预防自身接种传染。扁平疣的治疗需要看到局部出现炎症反应,治疗效果才明显,所以治疗过程中有炎症反应,先不要惊慌。同样,这类方法也不少,这种治疗主要是抑制病毒繁殖、调节机体免疫力起作用的。

  • 肾虚喝水多出汗多尿少(慎之又34)

    肾脏对于我们来说是个十分重要的器官它是人体最大的解毒器官具有清除毒素、排水控制血压、产生促红细胞生成素保持骨骼健康等重要作用虽然近年来人们对肾脏健康的关注度越来越高但是依旧有不少肾脏“误区”需要“排雷”不少人都说多喝水对身体好最好每天喝2000ml左右的水(大概八杯水)但事实上我们没必要那么“较劲”有时候水喝过头了反而会损伤肾脏健康或引起“水中毒”其实我们在日常生活中除了靠喝水来补充水分吃饭、水果

  • 蚝油粉蒸排骨怎么做(制作蚝油粉蒸排骨的方法)

    以下内容希望对你有帮助!蚝油粉蒸排骨怎么做原料:肋骨400g、耗油适量、盐适量、鸡精适量、生抽适量、淀粉适量、葱花适量、姜片适量、洋葱适量。选择新鲜的猪排,新鲜又好。放入盘内泡洗出血水。放入碗内,放入盐,鸡精,蚝油,和淀粉搅拌均匀。盘内铺上洋葱片和姜片,排入排骨块真好满满一盘。水入锅,烧开,放入排骨。盖盖蒸煮30-40分钟,然后虚蒸10分钟。撒人葱花,用工具拿出来就可以啦。

  • 什么叫白薯(白薯解释)

    下面内容希望能帮助到你,我们来一起看看吧!番薯别称甘储、甘薯、朱薯、金薯、番茹、红山药、玉枕薯、山芋、地瓜、甜薯、红薯、红苕、白薯、阿鹅、萌番薯。一年生草本植物,地下部分具圆形、椭圆形或纺锤形的块根,茎平卧或上升,偶有缠绕,多分枝。

  • 小学生骂姐姐文言文(12岁女孩用文言文)

    吾由小至初,课业陡重,心怀忧虑,尤需关照。然妹占父母之时力,父母无暇伴我。吾有一言,告天下父母:顾稚子,勿忽长,多与长语,多同长娱。欲成一拼图,必棱角相和。我喜静,学习时尤其需要安静的环境;但妹妹动辄大哭,我只能忍耐,并告诉自己:闹中取静,方为大静,心静则境静。想必家长们也知道,国学越来越受到重视,而文言文在深圳中考语文考试中的难度也逐渐加大,学好文言文有多重要,不言而喻了。

  • 成语游鱼得水(成语善游者溺)

    成语游鱼得水擅长游泳的人容易溺水,擅长骑马的人容易掉下来,都是因为自恃所长反而给自己带来了祸害。所以喜欢多事的人常常事与愿违,喜欢争利的人常常陷于穷困。远古时代的共工氏力气很大,用头将不周山撞断,结果使大地向南倾斜。他和高辛氏争夺帝位,失败后藏在海底不敢出来,连后代都没有。由此看来,能不能得到,在于命运,不在于力争。事情的成功在于合乎天理,不在于计划的周密。