国产精品久久福利_亚洲成人网久久久_国产丝袜美腿一区二区三区_亚洲三级小视频_6080国产精品一区二区_欧美日韩精品一区二区_欧美第一区第二区_亚洲欧美色婷婷

首頁 | 資訊 | 財經 | 公益 | 彩店 | 奇聞 | 速遞 | 前瞻 | 提點 | 網站相關 | 科技 | 熱點 | 生活 |
環球速遞!GPT-4數學能力大蹦極!OpenAI爆火研究「過程監督」突破78.2%難題,干掉幻覺

發稿時間:2023-06-01 14:12:09 來源: 站長之家

聲明:本文來自于微信公眾號 新智元(ID:AI_era),作者:新智元,授權站長之家轉載發布。

【新智元導讀】ChatGPT為人詬病的「數學智障」問題,有望徹底攻克!OpenAI最新研究發現,利用「過程監督」可以大幅提升GPT模型的數學能力,干掉它們的幻覺。

ChatGPT自發布以來,數學能力飽受詬病。


【資料圖】

就連「數學天才」陶哲軒曾表示,GPT-4在自己的數學專業領域,并沒有太多的增值。

怎么辦,就一直讓ChatGPT做個「數學智障」么?

OpenAI在努力——為了提升GPT-4的數學推理能力,OpenAI團隊用「過程監督」(PRM)訓練模型。

讓我們一步一步驗證!

論文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf

論文中,研究人員訓練模型通過獎勵每一個正確的推理步驟,即「過程監督」,而不僅僅是獎勵正確的最終結果(結果監督),在數學問題解決方面取得最新SOTA。

具體來講, PRM解決了MATH測試集代表性子集中78.2%的問題。

此外,OpenAI發現「過程監督」在對齊上有很大的價值——訓練模型產生人類認可的思維鏈。

最新研究當然少不了Sam Altman的轉發,「我們的Mathgen團隊在過程監督上取得了非常令人振奮的結果,這是對齊的積極信號。」

在實踐中,「過程監督」因為需要人工反饋,對于大模型和各種任務來說成本都極其高昂。因此,這項工作意義重大,可以說能夠確定OpenAI未來的研究方向。

解決數學問題

實驗中,研究人員用MATH數據集中的問題,來評估「過程監督」和「結果監督」的獎勵模型。

讓模型為每個問題生成許多解決方案,然后挑選每個獎勵模型排名最高的解決方案。

如圖顯示了所選解決方案中,取得正確最終答案的百分比,作為所考慮解決方案數量的函數。

「過程監督」獎勵模型不僅在整體上表現更好,而且隨著考慮每個問題的更多解決方案,性能差距也在擴大。

這表明,「過程監督」獎勵模型更加可靠。

如下,OpenAI展示了模型的10個數學問題和解決方案,以及對獎勵模型優缺點的評論。

從以下三類指標,真正(TP)、真負(TN)、假正(FP),對模型進行了評估。

真正(TP)

先來簡化個三角函數公式。

這個具有挑戰性的三角函數問題,需要以一種不明顯的順序應用幾個恒等式。

但是大多數解決嘗試都失敗了,因為很難選擇哪些恒等式實際上是有用的。

雖然GPT-4通常不能解決這個問題,只有0.1%的解決方案嘗試實現正確答案,但獎勵模型正確地識別出這個解決方案是有效的。

這里,GPT-4成功地執行了一系列復雜的多項式因式分解。

在步驟5中使用Sophie-Germain恒等式是一個重要的步驟。可見,這一步驟很有洞察力。

在步驟7和8中,GPT-4開始執行猜測和檢查。

這是該模型可能產生「幻覺」的常見地方,它會聲稱某個特定的猜測是成功的。在這種情況下,獎勵模型驗證每一步,并確定思維鏈是正確的。

模型成功地應用了幾個三角恒等式以簡化表達式。

真負(TN)

在步驟7中,GPT-4試圖簡化一個表達式,但嘗試失敗。獎勵模型發現了這個錯誤。

在步驟11中,GPT-4犯了一個簡單的計算錯誤。同樣被獎勵模型發現。

GPT-4在步驟12中嘗試使用差平方公式,但這個表達式實際上并非差平方。

步驟8的理由很奇怪,但獎勵模型讓它通過了。然而,在步驟9中,模型錯誤地將表達式分解出因子。

獎勵模型便糾出這個錯誤。

假正(FP)

在步驟4中,GPT-4錯誤地聲稱「序列每12項重復一次」,但實際上每10項重復一次。這種計數錯誤偶爾會欺騙獎勵模型。

步驟13中,GPT-4試圖通過合并類似的項來簡化方程。它正確地將線性項移動并組合到左邊,但錯誤地保持右邊不變。獎勵模型被這個錯誤所欺騙。

GPT-4嘗試進行長除法,但在步驟16中,它忘記在小數的重復部分包括前面的零。獎勵模型被這個錯誤所欺騙。

GPT-4在步驟9中犯了一個微妙的計數錯誤。

表面上,聲稱有5種方法可以交換同色的球(因為有5種顏色)似乎是合理的。

然而,這個計數低估了2倍,因為Bob有2個選擇,即決定把哪個球給Alice。獎勵模型被這個錯誤所欺騙。

過程監督

雖然大語言模型在復雜推理能力方面有了很大的提升,但即便是最先進的模型仍然會產生邏輯錯誤,或胡說八道,也就是人們常說的「幻覺」。

在生成式人工智能的熱潮中,大語言模型的幻覺一直讓人們苦惱不已。

馬斯克說,我們需要的是TruthGPT

比如最近,一位美國律師在紐約聯邦法院的文件中就引用了ChatGPT捏造出的案件,可能面臨制裁。

OpenAI的研究者在報告中提到:“在需要多步驟推理的領域,這些幻覺尤其成問題,因為,一個簡單的邏輯錯誤,就足以對整個解決方案造成極大的破壞。”

而且,減輕幻覺,也是構建一致AGI的關鍵。

怎么減少大模型的幻覺呢?一般有兩種方法——過程監督和結果監督。

「結果監督」,顧名思義,就是根據最終結果給大模型反饋,而「過程監督」則可以針對思維鏈中的每個步驟提供反饋。

在過程監督中,會獎勵大模型正確的推理步驟,而不僅僅是獎勵它們正確的最終結論。這個過程,會鼓勵模型遵循更多類似人類的思維方法鏈,因而也就更可能造就更好的可解釋AI。

OpenAI的研究者表示,雖然過程監督并不是OpenAI發明的,但OpenAI正在努力推動它向前發展。

最新研究中, OpenAI把「結果監督」或「過程監督」兩種方法都試了一遍。并使用MATH數據集作為測試平臺,并對這兩種方法進行了詳細比較。

結果發現,「過程監督」能夠明顯提高模型性能。

對于數學任務,「過程監督」對大模型和小模型都產生了明顯更好的結果,這意味著模型通常是正確的,并且還表現出了更像人類的思維過程。

這樣,即使在最強大的模型中也很難避免的幻覺或邏輯錯誤,就可以減少了。

對齊優勢明顯

研究人員發現了「過程監督」比「結果監督」有幾個對齊優勢:

· 直接獎勵遵循一致的思維鏈模型,因為過程中的每個步驟都受到精確的監督。

· 更有可能產生可解釋的推理,因為「過程監督」鼓勵模型遵循人類認可的過程。相比之下,結果監督可能會獎勵一個不一致的過程,而且通常更難審查。

另外值得一提的是,在某些情況下,讓AI系統更安全的方法可能會導致性能下降。這種成本被稱為「對齊稅」(alignment tax)。

一般來說,為了部署最有能力的模型,任何「對齊稅」成本都可能阻礙對齊方法的采用。

但是,研究人員如下的結果表明,「過程監督」在數學領域測試過程中實際上會產生「負對齊稅」。

可以說,沒有因為對齊造成較大性能損耗。

OpenAI發布80萬人工標注數據集

值得注意的是,PRM需要更多的人類標注,還是深深離不開RLHF。

過程監督在數學以外的領域,具有多大的適用性呢?這個過程需要進一步探索。

OpenAI研究人員開放了這次人類反饋數據集PRM,包含800,000個步驟級正確標注:12K數學問題生成的75K解決方案

如下是一個標注的示例。OpenAI正在發布原始標注,以及在項目第1階段和第2階段給標注者的指示。

網友熱評

英偉達科學家Jim Fan對OpenAI最新研究做了一個總結:

對于具有挑戰性的分步問題,在每一步都給予獎勵,而不是在最后給予單一的獎勵。基本上,密集獎勵信號>稀疏獎勵信號。過程獎勵模型(PRM)能夠比結果獎勵模型(ORM)更好為困難的MATH基準挑選解決方案。下一步顯然是用PRM對GPT-4進行微調,而本文還沒有這樣做。需要注意的是,PRM需要更多的人類標注。OpenAI發布了人類反饋數據集:在12K數學問題的75K解決方案中的800K步驟級標注。

這就像上學時常說的一句老話,學會如何去思考。

訓練模型去思考,而不僅是輸出正確的答案,將會成為解決復雜問題的game changer。

ChatGPT在數學方面超級弱。今天我試圖解決一個四年級數學書上的數學問題。ChatGPT給了錯誤答案。我把我的答案和ChatGPT的答案,在perplexity AI、谷歌的答案,以及四年級的老師進行了核對。每個地方都可以確認,chatgpt的答案是錯誤的。

參考資料:

https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

(舉報)

標簽:

責任編輯:mb01

網站首頁 | 關于我們 | 免責聲明 | 聯系我們

生活晚報網版權所有

Copyright @ 1999-2017 www.gaofoto.cn All Rights Reserved豫ICP備2022016495號-7

聯系郵箱:939 674 669@qq.com    

日本在线视频观看| 亚洲美女黄网| 色播视频在线观看| 日韩电影网在线| 老司机在线免费视频| 日韩女同互慰一区二区| 欧美va天堂| 精品欧美一区二区三区在线观看| 欧美一级二级三级蜜桃| fc2成人免费人成在线观看播放| 99久久免费精品国产72精品九九| 99精品国产一区二区三区2021| 日韩精品一区二区三区中文在线| 久久综合九色综合久| 欧美二三四区| 国模一区二区| 韩日精品视频一区| 日韩欧美的一区| 蜜桃在线一区| 91蜜桃视频在线| 欧美一区永久视频免费观看| 精品国产乱码久久久久久图片| 91福利视频久久久久| 日本乱人伦aⅴ精品| 亚洲国产97在线精品一区| xxav视频| 中文在线а√天堂| 桃花岛tv亚洲品质| 亚洲三级 欧美三级| 欧美色播在线播放| 亚洲视频免费看| 99精品久久免费看蜜臀剧情介绍| 午夜一区在线| 色综合色综合色综合色综合色综合 | 国产精品久久久久四虎| 日韩精品中文字| 中文字幕亚洲精品乱码| 欧美日韩专区在线| **欧美日韩在线观看| 捆绑调教一区二区三区| 99麻豆久久久国产精品免费| 亚洲一区二区影院| 欧美成人综合网站| 欧美aaaxxxx做受视频| 蜜桃一区二区三区| 91蜜桃在线观看| 色一区在线观看| 午夜精品福利久久久| 亚洲精品日产精品乱码不卡| 亚洲三级小视频| 午夜久久久影院| 色欲综合视频天天天| 香蕉97视频观看在线观看| 亚洲综合影院| 成人综合婷婷国产精品久久蜜臀 | 精品久久免费看| 蜜桃麻豆av在线| 伊人成人在线视频| 亚洲综合色噜噜狠狠| 福利片在线观看| 国产欧美日韩影院| 日韩激情在线观看| 国产激情一区二区三区四区 | 亚洲精品97久久| av网站网址在线观看| 国产成人福利片| 国产一二区视频| 91精彩视频在线播放| av影片在线一区| 欧美中文字幕亚洲一区二区va在线| 男生女生差差差的视频在线观看| 波多野结衣av在线| 一区二区三区毛片免费| 欧美日韩性视频| av日韩精品| 91国内精品在线视频| 成人福利视频网站| 亚洲人成网www| 国产黄色片大全| 久久综合久久鬼色中文字| 宅男视频免费在线观看视频| 午夜影院欧美| 精品一区二区av| 精品亚洲一区二区三区| 日本精品在线观看| 一区二区不卡在线视频 午夜欧美不卡在| a√资源在线| 亚洲丁香日韩| 久久综合色8888| 中文字幕在线观看日本| 成人一区二区视频| 中文字幕在线视频网站| 国内不卡的二区三区中文字幕| 精品福利在线导航| 成人激情免费视频| 欧美日韩一区中文字幕| 亚洲国产成人一区| 亚洲国产精品一区| 黄色av网站在线观看| 一本色道久久综合亚洲精品高清| 国产视频在线看| 外国成人在线视频| 亚洲成人av在线影院| 婷婷成人激情在线网| 国产农村妇女精品一二区| 日本高清视频在线观看| 久久亚洲综合色一区二区三区| 激情网站在线| 日日摸夜夜添夜夜添精品视频| 看黄色免费网站| 国产综合色视频| julia京香一区二区三区| 尤物在线精品| 精品国产老师黑色丝袜高跟鞋| 黄色在线观看网站| 国产精品一二三四区| 黄色成人在线网| 在线播放91| 欧美午夜精品一区二区蜜桃| 九九九伊在线综合永久| 色综合久久久网| 中文字幕日韩一区二区不卡 | 一区二区不卡在线播放 | 精久久久久久久久久久| 91www在线| 精品日韩在线观看| 国产91丝袜在线播放| 国内精品视频| 欧美日韩一区二区三区在线| 日本一区福利在线| 欧美一级二级在线观看| 亚洲a一区二区三区| 欧美美女搞黄| 亚洲一区二区三区小说| 天堂在线中文网官网| 国产成人综合在线观看| 欧美日韩女优| igao视频网在线视频| 欧美手机在线视频| 色婷婷综合久久久久久| 欧美在线一卡| 色婷婷综合久久久久中文一区二区 | 色婷婷久久一区二区三区麻豆| 重囗味另类老妇506070| 嫩草影院永久入口| 久久在线91| 免费大片黄在线| 久久久久久黄色| 深夜福利亚洲| 亚洲r级在线视频| 久久亚洲道色| 91精品国产欧美一区二区成人 | 成人激情午夜影院| 黄污视频在线观看| 欧美性猛交丰臀xxxxx网站| 日韩欧美1区| 精品国内片67194| heyzo久久| 亚洲第一区第二区| 精品一区二区免费看| 在线观看二区| 精品久久久久久国产| 欧美中文一区二区| 1769在线观看| 欧美videossexotv100| 国产一区二区精品久久99| 亚洲人成亚洲精品| 中文字幕在线观看网站| 麻豆tv在线| 在线观看理论片| 亚洲天堂成人网| 国产乱论精品| 欧美第一在线视频| 天堂中文8资源在线8| 亚洲一卡二卡三卡四卡五卡| 麻豆专区一区二区三区四区五区| 亚洲xxxxxx| 欧美精品精品一区| 99热99精品| 性欧美69xoxoxoxo| 女人香蕉久久**毛片精品| jizz性欧美23| 日韩成人动漫| 亚洲精品之草原avav久久| 国产欧美日韩视频一区二区| 精品在线91| 国产啊啊啊视频在线观看| 亚洲精品成人久久久| 国产亚洲综合色| 免费观看在线色综合| 久久国产精品免费精品3p| 求av网址在线观看| 日韩欧美精品在线视频| 一区二区三区精品视频在线| 日韩国产精品久久久久久亚洲| 欧洲精品久久久久毛片完整版| 导航福利在线| 欧美日韩一二三四五区| 国产成人精品网址| 韩日成人av|