當前位置：區(qū)塊鏈 >區(qū)塊鏈 > 無需額外訓練提升模型30%性能！DeepMind科學家點贊MIT博士生實習成果

無需額外訓練提升模型30%性能！DeepMind科學家點贊MIT博士生實習成果

更新時間：2023-12-31 14:54:45 | 作者：佚名

原文來源：量子位圖片來源：由無界AI生成一個來自MIT博士生的驚人發(fā)現：只需對Transformer的特定層進行一種非常簡單的修剪，即可在縮小模型規(guī)模的同時顯著提高模型性能。效果主要體現在文本理解任務上，最高可達30%。這在3個模型（LLama2、GPT-J和Roberta）和8個不同數據集上都得到了驗證（包含認知推理、世界知識等）。除了文...

原文來源：量子位

圖片來源：由無界 AI生成

一個來自MIT博士生的驚人發(fā)現：

只需對Transformer的特定層進行一種非常簡單的修剪，即可在縮小模型規(guī)模的同時顯著提高模型性能。

效果主要體現在文本理解任務上，最高可達30%。

這在3個模型（LLama2、GPT-J和Roberta）和8個不同數據集上都得到了驗證（包含認知推理、世界知識等）。

除了文本理解，它也適用于強化學習。

當然，更重要的是，這個操作只需在模型訓練完成之后進行，不需要額外的參數和數據。

DeepMind研究科學家看完都來點贊了：

那么，它具體怎么做的？

方法概述

該方法全稱“ Layer-Selective Rank Reduction”，簡稱“LASER”。

這是一種選擇性地去除LLM權重矩陣高階組件（components）的干預措施，操作就在Transformer模型的特定權重矩陣和層中進行。

研究發(fā)現，即使完全去除90%以上，模型性能一般也不會下降。

具體而言，LASER通過rank-k近似來替換Transformer模型中的特定權重矩陣（W），有時僅減少包含前1%組件的矩陣，也能達到不錯的效果。

一個單步LASER干預措施包含三個參數：

類型（T）、層號（? ）和降秩（ρ，全稱rank reduction）。

這些值組合在一起描述哪個矩陣將被其低階近似所取代，以及近似的程度。

其中參數類型對我們將要干預的矩陣進行分類，而矩陣W來自MLP和注意力層。

層號表示我們要介入的層（第一層從0開始索引）。比如Llama-2有32層，因此? ∈｛0，1，2，···31｝。

最后，ρ∈[0，1）描述在進行低秩近似時應該保留最大秩的分數。

下圖為LASER操作的一個示例，它更新的是第L層Transformer塊中MLP的第一層權重矩陣。

實驗發(fā)現：

不同層類型之間的降秩效果并不統一，主要可在MLP層的后續(xù)transformer塊中執(zhí)行LASER操作觀察到，在注意力層中則很微弱。

同時，如果我們一氣兒在多個層上執(zhí)行LASER還可以進一步增強模型性能，超越單層所帶來的改進。

具體而言，有時可以超過模型原始性能的2倍。

除了最高可提升模型30%的文本理解性能，它還對強化學習有效。

在此，作者評估了LASER對一個訓練和評估Sokoban游戲（通過移動塊推入洞中）的決策transformer模型的影響。

結果發(fā)現，有了LASER，模型可以多解決3%的任務。

原因分析

為什么這樣一個簡單操作就能帶來模型性能如此的提升？

作者用GPT-J模型的結果來分析（選該模型主要是該它的訓練數據DT rain是公開的），即通過計算訓練數據中“糾正事實”發(fā)生的頻率，來弄清究竟是哪些數據點從中受益。

結果發(fā)現，性能最大的提升發(fā)生在低頻樣本上。

如下圖所示c，條形圖顯示了LASER為數據提供的提升量，準確性的最大改進來自于訓練數據中出現頻率較低的數據點。

作者解釋，這很明顯，消除高階組件“去噪”了模型，并有助于恢復隱藏的、頻率較低的信息。

對此，DeepMind研究員表示相當有道理：

LLM必須對大量錯誤的推理和不準確的信息進行建模，而剔除它們所學到的一些知識會有所幫助。

那么問題又來了：矩陣中的高階組件究竟存儲了哪些會破壞模型的內容？

通過近似這些組件的以學習權重矩陣，作者發(fā)現：

當原始的、未修改的模型不能正確回答時，高階組件偶爾會用一些沒有實際含義的高頻詞（例如“a”、“the”、“of”）來回答問題，或者直接預測與正確答案具有相同語義類型但不正確的實體。

而使用LASER去除這些高階組件后，就可以解決這個問題，使模型正確響應。

總的來說，這項研究對于理解信息如何存儲在LLM中、如何壓縮模型規(guī)模以及更廣泛地理解大型語言模型的行為影響有很大用處。

目前也還有很多亟待解決的問題，比如：

1、為什么權重矩陣中的高階組件在訓練過程中會積累噪聲答案？

2、模型架構和結構選擇對這種現象的發(fā)生有何影響？

作者介紹

本文一共三位作者，一作為MIT EECS在讀博士生，她在微軟實習時產出了這項研究。

剩下兩位都是她本次研究的指導老師，全部為微軟紐約研究院高級研究員，具有同等指導貢獻。

一位是Jordan T. Ash，博士畢業(yè)于普林斯頓大學，研究方向為深度學習和順序決策相關問題。

另一位是Dipendra Misra，研究方向為交互式學習、NLP和表征學習。

參考鏈接：
[1]https://arxiv.org/abs/2312.13558
[2]https://twitter.com/pratyusha_PS/status/1739025292805468212

本站提醒：投資有風險，入市須謹慎，本內容不作為投資理財建議。

精品精品国产手机自在线观|九九热思思精品视频|中文字幕aⅴ专区|黄国产成年人精品

無需額外訓練提升模型30%性能！DeepMind科學家點贊MIT博士生實習成果

方法概述

原因分析

作者介紹

無需額外訓練提升模型30%性能！DeepMind科學家點贊MIT博士生實習成果