摘要: 自然語言處理的評分標準從GLUE到SGLUE
自然語言處理(NLP),是機器學習領域的一個分支,專門研究如何讓機器理解人類語言和相關文本,也是發展通用人工智慧技術亟需攻克的核心難題之一。
紐約大學、華盛頓大學、劍橋大學和 Facebook AI 將聯合推出一套新的自然語言處理(NLP)評估基準,名為 SuperGLUE,全稱是 Super General-Purpose Language Understanding。 該系統是現有 GLUE 基準的升級版(所以前面加上了 Super)。 研究人員刪除了原本 11 項任務中的 9 項,更新了剩下 2 項,同時加入了 5 項新的評估基準。 新版本將更契合未來 NLP 技術的發展方向,難度也是大幅增加,更具挑戰性。
什麼是GLUE?
實現NLP的方法有很多,主流的方法大多圍繞多任務學習和語言模型預訓練展開,由此孕育出很多種不同模型,比如BERT,MT-DNN,ALICE和Snorkel MeTaL等等。在某個模型的基礎上,研究團隊還可以借鑒其它模型的精華或者直接結合兩者。
為了更好地訓練模型,同時更準確地評估和分析其表現,紐約大學,華盛頓大學和DeepMind的NLP研究團隊在2018年推出了通用語言理解評估基準(GLUE),其中包含11項常見NLP任務,都是取自認可度相當高的NLP數據集,最大的語料庫規模超過40萬條,而且種類多變,涉及到自然語言推理,情感分析,閱讀理解和語義相似性等多個領域。
雖然GLUE基準才發布一年,已經有很多NLP模型在特定任務中超過了人類基準,尤其是在QQP,MRPC和QNLI三項任務。目前綜合分數最高的是微軟提交的MT-DNN ++模型,其核心是多任務深度神經網絡(MT-DNN)模型,並且在文本編碼層整合了BERT。僅次於它的是阿里巴巴達摩院NLP團隊的ALICE大型模型和斯坦福的Snorkel MeTaL模型。得益於BERT和GPT模型的引入,模型在很多GLUE任務的得分都已經接近人類基準,只有2-3個任務與人類有明顯差距。
從GLUE到SuperGLUE(Liquidity Risk)
新的SuperGLUE遵從了GLUE的基本原則:為通用語言理解技術的進步提供通俗,但又具有挑戰性的基準。在製定這個新基準時,研究人員先在NLP社群公開徵集任務提案,獲得了大約30份提案,隨後按照如下標準篩選:
任務本質:測試系統理解英語的能力。
任務難度:超出當前最先進模型的能力,但是人類可以解決。
可評估性:具備自動評判機制,並且能夠準確對應人類的判斷或表現。
公開資料:擁有公開的訓練資料。
任務格式:SuperGLUE 輸入值的複雜程度得到了提升,允許出現複雜句子,段落和文章等。
任務許可:所用資料必須獲得研究和重新分發的許可。
轉貼自: 搜狐
若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance
留下你的回應
以訪客張貼回應