廣場
最新
熱門
資訊
我的主頁
發布
掃描下載 Gate App
更多下載方式
今天不再提醒
DailyNews
2023-07-26 08:11:48
關注
據站長之家7 月26 日報導,斯坦福大學的研究人員開發了一種名為Sophia 的新型優化器,可將語言模型的預訓練時間縮短一半。相比於Adam 優化器,Sophia 可以更快地解決語言模型的問題。 Sophia 通過輕量級估計對角Hessian 矩陣作為二階優化器的預條件。在更新之後,通過取梯度的平均值除以估計Hessian 的平均值來進行元素級別的剪切。此外,Sophia 還可以適應語言建模任務中的大參數變化。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
讚賞
點讚
留言
轉發
分享
留言
0/400
留言
暫無留言
話題
#
Gate七月透明度報告發布
9452 熱度
#
BTC ETF持倉破1530億美元
14038 熱度
#
美聯儲終止新型活動監管
11764 熱度
#
Bit Digital成功轉型
5375 熱度
#
ETH 熱浪戰隊爭霸賽來襲
1742 熱度
置頂
網站地圖
據站長之家7 月26 日報導,斯坦福大學的研究人員開發了一種名為Sophia 的新型優化器,可將語言模型的預訓練時間縮短一半。相比於Adam 優化器,Sophia 可以更快地解決語言模型的問題。 Sophia 通過輕量級估計對角Hessian 矩陣作為二階優化器的預條件。在更新之後,通過取梯度的平均值除以估計Hessian 的平均值來進行元素級別的剪切。此外,Sophia 還可以適應語言建模任務中的大參數變化。