摘要: 神經網絡可以閱讀科學論文並提供簡明的摘要。
科學作家的工作,包括閱讀充滿專業技術術語的期刊,並弄清楚如何用沒有科學背景的讀者可以理解的語言解釋他們的內容。
現在,在麻省理工學院和其他地方的科學家已開發出神經網絡,人工智能的形式(AI),太多可以做同樣的事情,至少在有限的範圍:它可以讀取科學論文和提供一兩句話的英文摘要。
即使在這種有限的形式中,這樣的神經網絡也可以用來幫助編輯,作家和科學家掃描大量的論文,以初步了解他們的內容。但是團隊開發的方法除了語言處理之外還可以在各種其他領域找到應用,包括機器翻譯和語音識別。
這項工作在麻省理工學院研究生Rumen Dangovski和Li Jing、麻省理工學院物理學教授MarinSoljačić和HBKU,Qatar計算研究所的首席科學家 Preslav Nakov和麻省理工學院前Knight科學新聞學研究員,“新科學家”雜誌前編輯MićoTatalovic一起編撰的論文中描述了並登錄在計算語言學協會的彙刊;
從物理AI到自然語言
這項工作是由於一個不相關的項目而產生的,該項目涉及開發基於神經網絡的新的人工智能方法,旨在解決物理學中的某些棘手問題。然而,研究人員很快意識到,同樣的方法可以用來解決其他困難的計算問題,包括自然語言處理,其方式可能超過現有的神經網絡系統。
Soljačić說“我們已經在AI工作了幾年。”, “我們使用人工智能來幫助我們的研究,主要是為了更好地完成物理學。當我們拿到發誓比較熟悉的AI,我們會注意到每一次的雖然是從物理學添加到人工智能領域由於東西,我們知道一個機會 - 一定的數學結構或物理有一定的規律。我們注意到,嘿,如果我們使用它,它實際上可以幫助這個或那個特定的AI算法。“
這種方法可用於各種特定類型的任務,但不是全部。 “我們不能說這對所有AI都有用,但有些情況下我們可以利用物理學的洞察來改進給定的AI算法。”
一般來說,神經網絡試圖模仿人們學習新事物的方式:計算機檢查許多不同的例子並“學習”關鍵的基本模式是什麼。這種系統廣泛用於模式識別,例如學習識別照片中描繪的對象。
但是神經網絡通常難以將來自長串數據的信息關聯起來,例如在解釋研究論文時所需要的。研究人員說,各種招數已經被用來提高這種能力,包括被稱為Long short-term memory(LSTM)和Gated Recurrent Unit(GRU)技術,這些仍遠遠低於所需的內容真正的自然語言處理。
該團隊提出了一種替代系統,它不是基於矩陣的乘法,而是像大多數傳統神經網絡一樣,是基於在多維空間中旋轉的矢量。關鍵概念是他們稱之為rotational unit of memory (RUM)。
本質上,系統表示多維空間中的向量 - 指向特定方向的特定長度的線。每個後續單詞在某個方向上擺動該向量,在理論空間中表示,最終可以有數千個維度。在該過程結束時,最終的向量或向量集被轉換回其對應的字符串。
Nakov說“RUM幫助神經網絡很好地完成兩件事。”, “這有助於他們更好地記住,並且可以讓他們更準確地回憶信息。”
開發RUM系統,以幫助某些艱難的物理問題,如複雜的工程材料光的行為後,“我們意識到這種方法可能有助於自然語言處理,”Soljacic說,與Tatalović談話中,他指出,這樣一個工具對於他作為一名編輯試圖決定撰寫論文的工作是有用的。Tatalović當時正在科學新聞中探索人工智能作為他的Knight 獎學金項目。
“所以我們嘗試了一些自然語言處理任務,”Soljačić說。 “我們嘗試的一個是總結文章,這看起來效果很好。”
證據在於閱讀
例如,他們通過傳統的基於LSTM的神經網絡和基於RUM的系統提供相同的研究論文。得出的摘要有很大不同。
該LSTM取得了該系統高度重複和相當技術總結:“Baylisascariasis,”殺死老鼠,有瀕危賓州阿利根尼縣的林鼠,並已造成了嚴重的疾病如失明或嚴重後果。這種被稱為“baylisascariasis”的感染殺死了老鼠,已經危及了賓州阿利根尼縣的林鼠,並導致了像失明或嚴重後果的疾病。這種被稱為“baylisascariasis”的感染會殺死老鼠,這種感染已經賓州阿利根尼縣的林鼠。(Baylisascariasis為浣熊蛔蟲)
“Baylisascariasis,” kills mice, has endangered the allegheny woodrat and has caused disease like blindness or severe consequences. This infection, termed “baylisascariasis,” kills mice, has endangered the allegheny woodrat and has caused disease like blindness or severe consequences. This infection, termed “baylisascariasis,” kills mice, has endangered the allegheny woodrat.
於相同的論文中,RUM產生的系統更可讀的總結,一個不包括短語的不必要的重複:城市中的浣熊可能比以前預估的更容易感染人類。 7%的受訪個體檢測出浣熊蛔蟲抗體陽性。Santa Barbara 市中90%以上的浣熊都是這種寄生蟲的寄主。
基於RUM的系統已經擴展,因此它可以“閱讀”整篇研究論文,而不僅僅是摘要,以產生其內容的摘要。研究人員甚至嘗試在他們自己的研究論文中使用該系統描述這些發現 - 這篇新聞報導試圖總結的論文。
研究人員已經開發基於RUM的新的呈現進程,可用於解決在自然語言處理中神經革命的廣譜。
它可能不是一個修辭優雅的文章,但它確實至少達到了信息的關鍵點。
Çağlar Gülçehre,在英國AI公司Deepmind Technologies的科學家,一個沒有涉及這項工作中科學家說,這項研究處理了神經網絡中的一個重要問題,具有相關的在時間上或空間上廣泛分離信息做。 “這個問題一直是人工智能中一個非常基本的問題,因為需要對連續預測任務中的長時間延遲進行推理,”他說。 “雖然我不認為這論文徹底解決了這個問題,但它顯示了在回答問題,文本摘要和聯想性回憶的任務上的可靠度。”
Gülçehre補充說,“由於實驗進行,並按照本文提出的模型被釋放在GitHub開源的,因此,許多研究人員將嘗試在它自己的任務有興趣。 ...更具體地說,本文提出的方法可能對自然語言處理和強化學習領域產生非常大的影響,其中長期依賴(long-term dependencies)非常重要。“
該研究得到了陸軍研究辦公室,國家科學基金會,MIT-SenseTime人工智能聯盟和半導體研究公司的支持。該團隊還得到了科學日報網站的幫助,該網站的文章用於培訓本研究中的一些AI模型。
Soljačić說“所以我們嘗試了一些自然語言處理任務。 ”,“我們嘗試的一個是總結文章,這看起來效果很好。”
轉貼自: MIT News
若喜歡本文,請關注我們的臉書:Big Data In Finance
留下你的回應
以訪客張貼回應