Meta於4/19推出了他們最新的語言模型Llama 3模型,分別有兩種版本:8B & 70B。這款新模型在許多方面對其前任進行了顯著的改進,包括性能、靈活性和多語言能力。
本篇文章將簡單介紹Llama 3新功能與Llama 2的差異。
更大的預訓練資料集
Llama 3 在預訓練階段使用了超過 15 兆個 token 的數據,這些數據都來自公開可用的來源。 相較於 Llama 2 的資料集,Llama 3 的資料集大了七倍,且包含四倍的程式碼。 這龐大的資料集為 Llama 3 提供了豐富的語料庫,以支援其廣泛的應用場景。
此外,為了迎接即將到來的多語言用例挑戰,Llama 3 的預訓練數據集中有超過 5% 的高品質非英語數據,涵蓋了 30 多種語言。
提升對話性能
Llama 3 Instruct 版本針對對話應用程式進行了最佳化,結合了超過 1,000 萬個人工標註資料。 這使得 Llama 3 在處理對話任務時表現得更自然流暢,並且更能理解使用者的意圖。 這種改進對於創建智慧助理、聊天機器人等應用非常有價值。
更寬鬆的使用條款
Llama 3 提供了更寬鬆的許可證,允許重新分發、微調和創作衍生作品。 同時,它也要求明確歸屬,即衍生模型需要在其名稱開頭包含”Llama 3″,並在作品或服務中註明”基於 Meta Llama 3 構建”。 這些授權條款為開發者提供了更多的靈活性,使其能夠在 Llama 3 的基礎上開發出更多創新的應用。
更強大的模型設計
Llama 3 的模式設計也有許多創新之處。 例如,8B和70B版本都採用了 grouped query attention (GQA),這是一種更有效率的表達方式,有助於處理更長的上下文。 此外,新版 Tokenizer 將詞彙表擴展至 128,256,從而提升了多語言處理能力,但也導致了模型的輸入和輸出尺寸的增加。
喜歡運用科技工具提升工作效率、並自主開發實用小工具的長時間使用電腦工作者。對新科技工具深感興趣,樂於分享如何運用科技工具提升生活和工作效率的技巧。