^{<big id="qd94c"></big>}

<td id="qd94c"><strike id="qd94c"></strike></td>

<p id="qd94c"><del id="qd94c"></del></p>

<table id="qd94c"><noscript id="qd94c"></noscript></table>

<pre id="qd94c"></pre>

<td id="qd94c"><option id="qd94c"></option></td>

集團首頁
走進pg電子,pg電子官方網站,pg娛樂電子游戲官網
走進pg電子,pg電子官方網站,pg娛樂電子游戲官網

山東pg電子,pg電子官方網站,pg娛樂電子游戲官網集團有限公司是一家綜合體育集IM體育、小金體育、博亞體育、愛游戲等股份制集團公司，集團總部坐落于“世界風箏之都”—濰坊，集團占地面積1079畝，總資產56億元，現有職工3300人，2019年實現產值61.4億元、納稅2億元、創匯5600萬美元。

集團簡介

集團榮譽

資質認證

集團風貌
集團產業
pg電子,pg電子官方網站,pg娛樂電子游戲官網產業

憑借專業的科研團隊和先進的技術工藝，迅速崛起，現已發展為涉足英雄聯盟、新材料，建材，歐冠，英超，西甲，意甲，法甲，LOL競猜，生物科技，五大聯賽，國際貿易，高檔釉料等領域的大型現代化集團公司。

新能源

新材料

建材

現代物流

生物科技

農業科技

國際貿易

高檔釉料
新聞中心
新聞中心

堅持“團結一致，干事創業”的企業理念，提倡“真誠，團結，足協杯，女足敬業，奮斗”的企業精神。
企業文化
企業文化

NBA籃彩，精益求精，追求完美品質，持續改進，超越客戶期望。
申花，誠信為本，打造核心競爭力，強化危機意識，實現百年創業。

企業理念

黨建之窗

員工風采
社會責任
社會責任

長春亞泰樂善好施，是中華民族的傳統美德；扶危助困，是社會各界的共同責任。企業在發展中，只有自覺承擔體彩足球，才能實現經濟與社會效益的雙贏，成就百年基業。

綠色環保

公益事業
人力資源
人力資源

國以才立，業以才興。人才是企業發展的根本，是推動企業跨越式發展的第一生產力。pg電子,pg電子官方網站,pg娛樂電子游戲官網集團重視團隊建設，多渠道引進人才、高效機制培養人才、廣闊平臺晉升人才，為企業在激烈競爭中立于不敗之地提供強有力的保障。

人才招聘

在線應聘
聯系pg電子,pg電子官方網站,pg娛樂電子游戲官網
聯系pg電子,pg電子官方網站,pg娛樂電子游戲官網

pg電子,pg電子官方網站,pg娛樂電子游戲官網集團憑借雄厚的資金實力，高素質的專業人才和優質高效的服務，在社會上樹立起了良好的企業形象，受到了廣大客戶和社會各界普遍的信賴和贊譽！

聯系方式

在線地圖

您的位置:首頁 > 新聞中心新聞中心

【pg娛樂電子游戲官網】最強LLaMA突然來襲！只改一個超參數，多個任務打敗ChatGPT

發布時間:2023-11-07 03:27:56 作者：pg電子,pg電子官方網站,pg娛樂電子游戲官網

明敏豐色發自凹非寺
量子位 | 公眾號 QbitAI

悄無聲息，最強只改羊駝家族“最強版”來了！然襲任務

與GPT-4持平，個超pg娛樂電子游戲官網上下文長度達3.2萬token的參數LLaMA 2 Long，正式登場。多個打敗

在性能上全面超越LLaMA 2。

和競爭對手相比，在指令微調MMLU (5-shot)等測試集上，個超表現超過ChatGPT。參數

在人類評估（human evaluation）上甚至優于10萬token的Claude 2，這個話題還在Reddit上引發了討論。最強只改

pg娛樂電子游戲官網url=http%3A%2F%2Fdingyue.ws.126.net%2F2023%2F0930%2F321ebd33j00s1s7xs002xc000hs00d6m.jpg&thumbnail=660x2147483647&quality=80&type=jpg"/>

要知道，這些對比版本中，個超LLaMA 2 Long使用的參數最大版本也只有70B，遠小于其他大模型。多個打敗

這讓人不禁感慨：Meta確實還是有兩下子的。

也有人覺得，這才是最近Meta發布會的最大新聞啊，比Meta版ChatGPT要更令人興奮。

論文介紹，LLaMA 2 Long使用了4000億token語料加持下，并進行位置編碼修改。

所以LLaMA 2 Long究竟是如何誕生的？

只對位置編碼進行了一個非常小的改動

與LLaMA 2相比，LLaMA 2 Long的變化并不多。

一是訓練參數上，采用了高達4000億token的數據源。

——相反，原始LLaMA 2包含多個變體，但最多的版本也只有700億。

二是架構上，與LLaMA 2保持不變，但對位置編碼進行了一個非常小的必要修改，以此完成高達3.2億token的上下文窗口支持。

在LLaMA 2中，它的位置編碼采用的是旋轉編碼RoPE方法。

它是目前大模型中應用最廣的一種相對位置編碼，通過旋轉矩陣來實現位置編碼的外推。

本質上來說，RoPE就是將表示單詞、數字等信息的token embeddings映射到3D圖表上，給出它們相對于其他token的位置——即使在旋轉時也如此。

這就能夠使模型產生準確且有效的響應，并且比其他方法需要的信息更少，因此占用的計算存儲也更小。

在此，Meta的研究人員通過對70億規模的LLaMA 2進行實驗，確定了LLaMA 2中的RoPE方法的一個關鍵限制：

即，阻止注意力模塊聚集遠處token的信息。

為此，Meta想出了一個非常簡單的破解辦法：

減少每個維度的旋轉角度。

具體而言就是將超參數“基頻（base frequency） b”從10000增加到500000。

這一改動立刻奏效，縮小了RoPE對遠端token的衰減效應，并且在擴展LLAMA的上下文長度上優于一項類似的名為“位置插值”的方法（如下圖所示，RoPE PI，衰減效果較為“隱含”）。

Ps. 圖中RoPE表示基線方法，RoPE ABF為Meta此次發明的新方法，xPos是另一種應用了該方法的旋轉編碼變體。

一個問題是，通過上面這個可視化結果，Meta觀察到RoPE在長程區域出現了較大的“振蕩”，這對于語言建模來說可能不是個好消息。

不過，通過報告幾種方法在長序列困惑度和FIRST-SENTENCE-RETRIEVAL兩個任務上的表現來看，問題不大。

而且，尤其在后者任務上，他們提出的RoPE ABF是唯一一個可以始終保持性能的變體。

在附錄中，Meta還通過可視化為螺旋圖這一非常有趣的方式，將RoPE ABF與RoPE PI的差異進行了理論分析。

結果是，與RoPE PI相比，RoPE ABF的優勢主要體現在它能以更大的粒度分配嵌入向量（the embedded vectors），從而使模型更容易區分位置。

此外，他們還觀察到，嵌入向量之間的相對距離既對RoPE PI的關鍵參數有線性依賴性，也對RoPE ABF的關鍵參數也有對數依賴性。

這也就是為什么我們可以很容易地對基頻這一超參數“下手”。

最終，LLaMA 2 Long憑借著這一改動，達成了3.2萬的上下文token，并通過長下文連續預訓練的共同作用，獲得了開頭所示的好成績：

除了全面超越LLaMA 2、在特定任務上超越Claude 2和ChatGPT，Meta也給出了它和一些開源長下文模型的對比。

結果也相當不賴。

One More Thing

值得一提的是，這個最新的版本，是用LLaMA2生成的文本內容來進行訓練的。

官方會不會正式發布這一版本，現在還沒有更明確的消息，模型的網址也還沒有找到。

不過已經有人提前興奮起來了：

這對可商用微調大模型來說太有用了！

而在此之前，已經有非官方版本實現了3.2萬token上下文，也是開源可商用。

“長頸鹿（Giraffe）”基于13B版本的LLaMA2打造。

研究團隊提出了一種稱為“截斷（truncation）”的方法，對原始RoPE編碼進行變換。

llama-2-7b-32k-instruct也可以支持3.2萬上下文，模型規模是7B。

論文：
https://arxiv.org/pdf/2309.16039.pdf

參考鏈接：
[1]https://venturebeat.com/ai/meta-quietly-releases-llama-2-long-ai-that-outperforms-gpt-3-5-and-claude-2-on-some-tasks/
[2]https://twitter.com/_akhaliq/status/1707569241191285207
[3]https://www.reddit.com/r/LocalLLaMA/comments/16v0onb/meta_has_released_a_new_paper_llama_2_long_beats/
[4]https://news.ycombinator.com/item?id=37698604

　

下一篇：文班下半場+加時賽，僅得6分引質疑，巴恩斯統治攻防兩端真領袖！
上一篇：再見里夫斯！湖人史詩級8換1交易出爐，特雷楊輔佐詹眉爭冠

© 版權所有：山東pg電子,pg電子官方網站,pg娛樂電子游戲官網集團有限公司

技術支持：

精品久久久久久久久_一级全黄少妇性色生活片_免费国产香蕉视频在线观看

^{<big id="qd94c"></big>}

<td id="qd94c"><strike id="qd94c"></strike></td>

<p id="qd94c"><del id="qd94c"></del></p>

<table id="qd94c"><noscript id="qd94c"></noscript></table>

<pre id="qd94c"></pre>

<td id="qd94c"><option id="qd94c"></option></td>