打開 App

  • 會員中心
  • 訂閱管理
  • 常見問題
  • 登出

技術的發展日新月異 AI 模型評估基準要升級

人工智慧(AI)技術的發展日新月異,現有評測與比較大型語言模型的方式已不敷使用。(路透)
人工智慧(AI)技術的發展日新月異,現有評測與比較大型語言模型的方式已不敷使用。(路透)

本文共777字

經濟日報 編譯林奇賢/綜合外電

人工智慧(AI)技術的發展日新月異,現有評測與比較大型語言模型的方式已不敷使用,科技業者正趕忙重新設計用來測試與評估AI模型的方式,希望創建新基準。

英國金融時報(FT)報導,AI業者的AI模型會交由公司團隊或外部研究人員進行評估,為標準化測試的一環,也就是評估模型能力以及不同系統或新舊版本之間效能差異的基準。然而,AI近期的發展速度,意味著最新模型在現有測試中,已能逼近或超過90%的準確率,凸顯研發新基準的必要性。

Hellaswag和MMLU等既有公開測試,是用選擇題評估AI模型對各個主題的常識和能力。如今研究人員認為AI模型需要更複雜的問題。

因此,Meta、OpenAI和微軟等科技業者,紛紛創建自家的內部基準與測試。微軟在自家內部的基準測試,納入先前在訓練中未出現過的問題,以評估其AI模型是否像人類一樣進行推理。OpenAI則主要透過數學、STEM科目和撰寫程式碼任務的評估,來衡量模型的推理能力。

外部組織也努力打造新的基準,例如,新創公司Scale AI和Hendrycks在9月宣布一個名為「人類最後考試」的計畫,匯集不同學科的專家來設計複雜問題,需抽象推理才能完成。

一項公開測試SWE-Bench Verified在今年8月更新,以提升評估AI模型的能力。這個測試是使用來自GitHub的現實世界中的軟體問題,會提供AI代理人程式碼儲存庫,和一個工程問題,詢問他們如何解決。這項任務需要推理才能完成。以此進行測試,OpenAI的最新模型GPT-4o預覽版解決41.4%的問題,而Anthropic的Claude 3.5 Sonnet解決了49%的問題。

執行更高階的測試有另一個重要的要素是,確保基準測試的問題沒出現在公共領域,以防AI模型透過訓練資料產生答案而不是靠推理來解決問題。對釋放AI代理人的潛力來說,推理和規劃的能力至關重要。

※ 歡迎用「轉貼」或「分享」的方式轉傳文章連結;未經授權,請勿複製轉貼文章內容

延伸閱讀

上一篇
敘利亞反抗軍領袖稱將解散政府軍 臨時總理允護少數族群
下一篇
ECB今年四度降息 歐元走貶 瑞士、加拿大降2碼 巴西升4碼

相關

熱門

看更多

看更多

留言

完成

成功收藏,前往會員中心查看!