欧美高清在线一区二区_欧美14一18处毛片_四虎影视成人_久久精品国产成人精品

廈門國家高新技術(shù)企業(yè)軟件定制開發(fā)、物聯(lián)網(wǎng)系統(tǒng)開發(fā)、小程序APP開發(fā)、網(wǎng)站建設(shè)、大尋網(wǎng)絡(luò)公司為您服務(wù)!

電話電話:0592-5786385/13850021717
微信咨詢
咨詢熱線0592-5786385 13850021717
新聞中心

ChatGPT發(fā)展歷程、原理和技術(shù)架構(gòu)

公司新聞日期:

今年12月1日,OpenAI推出人工智能聊天原型ChatGPT,再次賺足眼球,為AI界引發(fā)了類似AIGC讓藝術(shù)家失業(yè)的大討論。


據(jù)報(bào)道,ChatGPT在開放試用的短短幾天,就吸引了超過 100 萬互聯(lián)網(wǎng)注冊用戶。并且社交網(wǎng)絡(luò)流傳出各種詢問或調(diào)戲ChatGPT的有趣對話。甚至有人將ChatGPT比喻為“搜索引擎+社交軟件”的結(jié)合體,能夠在實(shí)時(shí)互動(dòng)的過程中獲得問題的合理答案。


ChatGPT 是一種專注于對話生成的語言模型。它能夠根據(jù)用戶的文本輸入,產(chǎn)生相應(yīng)的智能回答。這個(gè)回答可以是簡短的詞語,也可以是長篇大論。其中GPT是Generative Pre-trained Transformer(生成型預(yù)訓(xùn)練變換模型)的縮寫。


通過學(xué)習(xí)大量現(xiàn)成文本和對話集合(例如Wiki),ChatGPT能夠像人類那樣即時(shí)對話,流暢的回答各種問題。(當(dāng)然回答速度比人還是慢一些)無論是英文還是其他語言(例如中文、韓語等),從回答歷史問題,到寫故事,甚至是撰寫商業(yè)計(jì)劃書和行業(yè)分析,“幾乎”無所不能。甚至有程序員貼出了ChatGPT進(jìn)行程序修改的對話。


ChatGPT也可以與其他AIGC模型聯(lián)合使用,獲得更加炫酷實(shí)用的功能。例如上面通過對話生成客廳設(shè)計(jì)圖。這極大加強(qiáng)了AI應(yīng)用與客戶對話的能力,使我們看到了AI大規(guī)模落地的曙光。


1,ChatGPT的傳承與特點(diǎn)


1.1 OpenAI家族

我們首先了解下OpenAI是哪路大神。


OpenAI總部位于舊金山,由特斯拉的馬斯克、Sam Altman及其他投資者在2015年共同創(chuàng)立,目標(biāo)是開發(fā)造福全人類的AI技術(shù)。而馬斯克則在2018年時(shí)因公司發(fā)展方向分歧而離開。


此前,OpenAI 因推出 GPT系列自然語言處理模型而聞名。從2018年起,OpenAI就開始發(fā)布生成式預(yù)訓(xùn)練語言模型GPT(Generative Pre-trained Transformer),可用于生成文章、代碼、機(jī)器翻譯、問答等各類內(nèi)容。


每一代GPT模型的參數(shù)量都爆炸式增長,堪稱“越大越好”。2019年2月發(fā)布的GPT-2參數(shù)量為15億,而2020年5月的GPT-3,參數(shù)量達(dá)到了1750億。



GPT家族主要模型對比


1.2 ChatGPT的主要特點(diǎn)

ChatGPT 是基于GPT-3.5(Generative Pre-trained Transformer 3.5)架構(gòu)開發(fā)的對話AI模型,是InstructGPT 的兄弟模型。ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演練,或用于收集大量對話數(shù)據(jù)。



ChatGPT的主要特點(diǎn)


OpenAI使用 RLHF(Reinforcement Learning from Human Feedbac,人類反饋強(qiáng)化學(xué)習(xí)) 技術(shù)對 ChatGPT 進(jìn)行了訓(xùn)練,且加入了更多人工監(jiān)督進(jìn)行微調(diào)。


此外,ChatGPT 還具有以下特征:


1)可以主動(dòng)承認(rèn)自身錯(cuò)誤。若用戶指出其錯(cuò)誤,模型會(huì)聽取意見并優(yōu)化答案。


2)ChatGPT 可以質(zhì)疑不正確的問題。例如被詢問 “哥倫布 2015 年來到美國的情景” 的問題時(shí),機(jī)器人會(huì)說明哥倫布不屬于這一時(shí)代并調(diào)整輸出結(jié)果。


3)ChatGPT 可以承認(rèn)自身的無知,承認(rèn)對專業(yè)技術(shù)的不了解。


4)支持連續(xù)多輪對話。


與大家在生活中用到的各類智能音箱和“人工智障“不同,ChatGPT在對話過程中會(huì)記憶先前使用者的對話訊息,即上下文理解,以回答某些假設(shè)性的問題。ChatGPT可實(shí)現(xiàn)連續(xù)對話,極大的提升了對話交互模式下的用戶體驗(yàn)。


對于準(zhǔn)確翻譯來說(尤其是中文與人名音譯),ChatGPT離完美還有一段距離,不過在文字流暢度以及辨別特定人名來說,與其他網(wǎng)絡(luò)翻譯工具相近。


由于 ChatGPT是一個(gè)大型語言模型,目前還并不具備網(wǎng)絡(luò)搜索功能,因此它只能基于2021年所擁有的數(shù)據(jù)集進(jìn)行回答。例如它不知道2022年世界杯的情況,也不會(huì)像蘋果的Siri那樣回答今天天氣如何、或幫你搜索信息。如果ChatGPT能上網(wǎng)自己尋找學(xué)習(xí)語料和搜索知識(shí),估計(jì)又會(huì)有更大的突破。


即便學(xué)習(xí)的知識(shí)有限,ChatGPT 還是能回答腦洞大開的人類的許多奇葩問題。為了避免ChatGPT染上惡習(xí), ChatGPT 通過算法屏蔽,減少有害和欺騙性的訓(xùn)練輸入。,查詢通過適度 API 進(jìn)行過濾,并駁回潛在的種族主義或性別歧視提示。


2,ChatGPT/GPT的原理

2.1 NLP

NLP/NLU領(lǐng)域已知局限包括對重復(fù)文本、對高度專業(yè)的主題的誤解,以及對上下文短語的誤解。


對于人類或AI,通常需接受多年的訓(xùn)練才能正常對話。NLP類模型不僅要理解單詞的含義,還要理解如何造句和給出上下文有意義的回答,甚至使用合適的俚語和專業(yè)詞匯。



NLP技術(shù)的應(yīng)用領(lǐng)域


本質(zhì)上,作為ChatGPT基礎(chǔ)的GPT-3或GPT-3.5 是一個(gè)超大的統(tǒng)計(jì)語言模型或順序文本預(yù)測模型。


2.2 GPT v.s.BERT

與BERT模型類似,ChatGPT或GPT-3.5都是根據(jù)輸入語句,根據(jù)語言/語料概率來自動(dòng)生成回答的每一個(gè)字(詞語)。從數(shù)學(xué)或從機(jī)器學(xué)習(xí)的角度來看,語言模型是對詞語序列的概率相關(guān)性分布的建模,即利用已經(jīng)說過的語句(語句可以視為數(shù)學(xué)中的向量)作為輸入條件,預(yù)測下一個(gè)時(shí)刻不同語句甚至語言集合出現(xiàn)的概率分布。


ChatGPT 使用來自人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,這種方法通過人類干預(yù)來增強(qiáng)機(jī)器學(xué)習(xí)以獲得更好的效果。在訓(xùn)練過程中,人類訓(xùn)練者扮演著用戶和人工智能助手的角色,并通過近端策略優(yōu)化算法進(jìn)行微調(diào)。


由于ChatGPT更強(qiáng)的性能和海量參數(shù),它包含了更多的主題的數(shù)據(jù),能夠處理更多小眾主題。ChatGPT現(xiàn)在可以進(jìn)一步處理回答問題、撰寫文章、文本摘要、語言翻譯和生成計(jì)算機(jī)代碼等任務(wù)。



BERT與GPT的技術(shù)架構(gòu)(圖中En為輸入的每個(gè)字,Tn為輸出回答的每個(gè)字)


3,ChatGPT的技術(shù)架構(gòu)

3.1 GPT家族的演進(jìn)

說到ChatGPT,就不得不提到GPT家族。


ChatGPT之前有幾個(gè)知名的兄弟,包括GPT-1、GPT-2和GPT-3。這幾個(gè)兄弟一個(gè)比一個(gè)個(gè)頭大,ChatGPT與GPT-3更為相近。



ChatGPT與GPT 1-3的技術(shù)對比


GPT家族與BERT模型都是知名的NLP模型,都基于Transformer技術(shù)。GPT-1只有12個(gè)Transformer層,而到了GPT-3,則增加到96層。


3.2 人類反饋強(qiáng)化學(xué)習(xí)

InstructGPT/GPT3.5(ChatGPT的前身)與GPT-3的主要區(qū)別在于,新加入了被稱為RLHF(Reinforcement Learning from Human Feedback,人類反饋強(qiáng)化學(xué)習(xí))。這一訓(xùn)練范式增強(qiáng)了人類對模型輸出結(jié)果的調(diào)節(jié),并且對結(jié)果進(jìn)行了更具理解性的排序。


在InstructGPT中,以下是“goodness of sentences”的評(píng)價(jià)標(biāo)準(zhǔn)。


真實(shí)性:是虛假信息還是誤導(dǎo)性信息?


無害性:它是否對人或環(huán)境造成身體或精神上的傷害?


有用性:它是否解決了用戶的任務(wù)?


3.3 TAMER框架

這里不得不提到TAMER(Training an Agent Manually via Evaluative Reinforcement,評(píng)估式強(qiáng)化人工訓(xùn)練代理)這個(gè)框架。該框架將人類標(biāo)記者引入到Agents的學(xué)習(xí)循環(huán)中,可以通過人類向Agents提供獎(jiǎng)勵(lì)反饋(即指導(dǎo)Agents進(jìn)行訓(xùn)練),從而快速達(dá)到訓(xùn)練任務(wù)目標(biāo)。



TAMER框架論文


引入人類標(biāo)記者的主要目的是加快訓(xùn)練速度。盡管強(qiáng)化學(xué)習(xí)技術(shù)在很多領(lǐng)域有突出表現(xiàn),但是仍然存在著許多不足,例如訓(xùn)練收斂速度慢,訓(xùn)練成本高等特點(diǎn)。特別是現(xiàn)實(shí)世界中,許多任務(wù)的探索成本或數(shù)據(jù)獲取成本很高。如何加快訓(xùn)練效率,是如今強(qiáng)化學(xué)習(xí)任務(wù)待解決的重要問題之一。


而TAMER則可以將人類標(biāo)記者的知識(shí),以獎(jiǎng)勵(lì)信反饋的形式訓(xùn)練Agent,加快其快速收斂。TAMER不需要標(biāo)記者具有專業(yè)知識(shí)或編程技術(shù),語料成本更低。通過TAMER+RL(強(qiáng)化學(xué)習(xí)),借助人類標(biāo)記者的反饋,能夠增強(qiáng)從馬爾可夫決策過程 (MDP) 獎(jiǎng)勵(lì)進(jìn)行強(qiáng)化學(xué)習(xí) (RL) 的過程。



TAMER架構(gòu)在強(qiáng)化學(xué)習(xí)中的應(yīng)用


具體實(shí)現(xiàn)上,人類標(biāo)記者扮演對話的用戶和人工智能助手,提供對話樣本,讓模型生成一些回復(fù),然后標(biāo)記者會(huì)對回復(fù)選項(xiàng)打分排名,將更好的結(jié)果反饋回模型中,Agents同時(shí)從兩種反饋模式中學(xué)習(xí)——人類強(qiáng)化和馬爾可夫決策過程獎(jiǎng)勵(lì)作為一個(gè)整合的系統(tǒng),通過獎(jiǎng)勵(lì)策略對模型進(jìn)行微調(diào)并持續(xù)迭代。


在此基礎(chǔ)上,ChatGPT 可以比 GPT-3 更好的理解和完成人類語言或指令,模仿人類,提供連貫的有邏輯的文本信息的能力。


3.4 ChatGPT的訓(xùn)練

ChatGPT的訓(xùn)練過程分為以下三個(gè)階段:


第一階段:訓(xùn)練監(jiān)督策略模型


GPT 3.5本身很難理解人類不同類型指令中蘊(yùn)含的不同意圖,也很難判斷生成內(nèi)容是否是高質(zhì)量的結(jié)果。為了讓GPT 3.5初步具備理解指令的意圖,首先會(huì)在數(shù)據(jù)集中隨機(jī)抽取問題,由人類標(biāo)注人員,給出高質(zhì)量答案,然后用這些人工標(biāo)注好的數(shù)據(jù)來微調(diào) GPT-3.5模型(獲得SFT模型, Supervised Fine-Tuning)。


此時(shí)的SFT模型在遵循指令/對話方面已經(jīng)優(yōu)于 GPT-3,但不一定符合人類偏好。



ChatGPT模型的訓(xùn)練過程


第二階段:訓(xùn)練獎(jiǎng)勵(lì)模型(Reward Mode,RM)


這個(gè)階段的主要是通過人工標(biāo)注訓(xùn)練數(shù)據(jù)(約33K個(gè)數(shù)據(jù)),來訓(xùn)練回報(bào)模型。在數(shù)據(jù)集中隨機(jī)抽取問題,使用第一階段生成的模型,對于每個(gè)問題,生成多個(gè)不同的回答。人類標(biāo)注者對這些結(jié)果綜合考慮給出排名順序。這一過程類似于教練或老師輔導(dǎo)。


接下來,使用這個(gè)排序結(jié)果數(shù)據(jù)來訓(xùn)練獎(jiǎng)勵(lì)模型。對多個(gè)排序結(jié)果,兩兩組合,形成多個(gè)訓(xùn)練數(shù)據(jù)對。RM模型接受一個(gè)輸入,給出評(píng)價(jià)回答質(zhì)量的分?jǐn)?shù)。這樣,對于一對訓(xùn)練數(shù)據(jù),調(diào)節(jié)參數(shù)使得高質(zhì)量回答的打分比低質(zhì)量的打分要高。


第三階段:采用PPO(Proximal Policy Optimization,近端策略優(yōu)化)強(qiáng)化學(xué)習(xí)來優(yōu)化策略。


PPO的核心思路在于將Policy Gradient中On-policy的訓(xùn)練過程轉(zhuǎn)化為Off-policy,即將在線學(xué)習(xí)轉(zhuǎn)化為離線學(xué)習(xí),這個(gè)轉(zhuǎn)化過程被稱之為Importance Sampling。這一階段利用第二階段訓(xùn)練好的獎(jiǎng)勵(lì)模型,靠獎(jiǎng)勵(lì)打分來更新預(yù)訓(xùn)練模型參數(shù)。在數(shù)據(jù)集中隨機(jī)抽取問題,使用PPO模型生成回答,并用上一階段訓(xùn)練好的RM模型給出質(zhì)量分?jǐn)?shù)。把回報(bào)分?jǐn)?shù)依次傳遞,由此產(chǎn)生策略梯度,通過強(qiáng)化學(xué)習(xí)的方式以更新PPO模型參數(shù)。


如果我們不斷重復(fù)第二和第三階段,通過迭代,會(huì)訓(xùn)練出更高質(zhì)量的ChatGPT模型。


4,ChatGPT的局限

只要用戶輸入問題,ChatGPT 就能給予回答,是否意味著我們不用再拿關(guān)鍵詞去喂 Google或百度,就能立即獲得想要的答案呢?


盡管ChatGPT表現(xiàn)出出色的上下文對話能力甚至編程能力,完成了大眾對人機(jī)對話機(jī)器人(ChatBot)從“人工智障”到“有趣”的印象改觀,我們也要看到,ChatGPT技術(shù)仍然有一些局限性,還在不斷的進(jìn)步。


1)ChatGPT在其未經(jīng)大量語料訓(xùn)練的領(lǐng)域缺乏“人類常識(shí)”和引申能力,甚至?xí)槐菊?jīng)的“胡說八道”。ChatGPT在很多領(lǐng)域可以“創(chuàng)造答案”,但當(dāng)用戶尋求正確答案時(shí),ChatGPT也有可能給出有誤導(dǎo)的回答。例如讓ChatGPT做一道小學(xué)應(yīng)用題,盡管它可以寫出一長串計(jì)算過程,但最后答案卻是錯(cuò)誤的。


2)ChatGPT無法處理復(fù)雜冗長或者特別專業(yè)的語言結(jié)構(gòu)。對于來自金融、自然科學(xué)或醫(yī)學(xué)等非常專業(yè)領(lǐng)域的問題,如果沒有進(jìn)行足夠的語料“喂食”,ChatGPT可能無法生成適當(dāng)?shù)幕卮稹?/p>


3)ChatGPT需要非常大量的算力(芯片)來支持其訓(xùn)練和部署。拋開需要大量語料數(shù)據(jù)訓(xùn)練模型不說,在目前,ChatGPT在應(yīng)用時(shí)仍然需要大算力的服務(wù)器支持,而這些服務(wù)器的成本是普通用戶無法承受的,即便數(shù)十億個(gè)參數(shù)的模型也需要驚人數(shù)量的計(jì)算資源才能運(yùn)行和訓(xùn)練。,如果面向真實(shí)搜索引擎的數(shù)以億記的用戶請求,如采取目前通行的免費(fèi)策略,任何企業(yè)都難以承受這一成本。因此對于普通大眾來說,還需等待更輕量型的模型或更高性價(jià)比的算力平臺(tái)。


4)ChatGPT還沒法在線的把新知識(shí)納入其中,而出現(xiàn)一些新知識(shí)就去重新預(yù)訓(xùn)練GPT模型也是不現(xiàn)實(shí)的,無論是訓(xùn)練時(shí)間或訓(xùn)練成本,都是普通訓(xùn)練者難以接受的。如果對于新知識(shí)采取在線訓(xùn)練的模式,看上去可行且語料成本相對較低,但是很容易由于新數(shù)據(jù)的引入而導(dǎo)致對原有知識(shí)的災(zāi)難性遺忘的問題。


5)ChatGPT仍然是黑盒模型。目前還未能對ChatGPT的內(nèi)在算法邏輯進(jìn)行分解,因此并不能保證ChatGPT不會(huì)產(chǎn)生攻擊甚至傷害用戶的表述。


當(dāng)然,瑕不掩瑜,有工程師貼出了要求ChatGPT寫verilog代碼(芯片設(shè)計(jì)代碼)的對話。可以看出ChatGPT水平已經(jīng)超出一些verilog初學(xué)者了。

關(guān)鍵詞:ChatGPT發(fā)展歷程、原理和技術(shù)架構(gòu)詳  

多一份咨詢,總有益處

專業(yè)項(xiàng)目經(jīng)理為你解答問題,咨詢問題或預(yù)約面談

立即咨詢
大尋網(wǎng)絡(luò)
新聞中心

ChatGPT發(fā)展歷程、原理和技術(shù)架構(gòu)

公司新聞日期:

今年12月1日,OpenAI推出人工智能聊天原型ChatGPT,再次賺足眼球,為AI界引發(fā)了類似AIGC讓藝術(shù)家失業(yè)的大討論。


據(jù)報(bào)道,ChatGPT在開放試用的短短幾天,就吸引了超過 100 萬互聯(lián)網(wǎng)注冊用戶。并且社交網(wǎng)絡(luò)流傳出各種詢問或調(diào)戲ChatGPT的有趣對話。甚至有人將ChatGPT比喻為“搜索引擎+社交軟件”的結(jié)合體,能夠在實(shí)時(shí)互動(dòng)的過程中獲得問題的合理答案。


ChatGPT 是一種專注于對話生成的語言模型。它能夠根據(jù)用戶的文本輸入,產(chǎn)生相應(yīng)的智能回答。這個(gè)回答可以是簡短的詞語,也可以是長篇大論。其中GPT是Generative Pre-trained Transformer(生成型預(yù)訓(xùn)練變換模型)的縮寫。


通過學(xué)習(xí)大量現(xiàn)成文本和對話集合(例如Wiki),ChatGPT能夠像人類那樣即時(shí)對話,流暢的回答各種問題。(當(dāng)然回答速度比人還是慢一些)無論是英文還是其他語言(例如中文、韓語等),從回答歷史問題,到寫故事,甚至是撰寫商業(yè)計(jì)劃書和行業(yè)分析,“幾乎”無所不能。甚至有程序員貼出了ChatGPT進(jìn)行程序修改的對話。


ChatGPT也可以與其他AIGC模型聯(lián)合使用,獲得更加炫酷實(shí)用的功能。例如上面通過對話生成客廳設(shè)計(jì)圖。這極大加強(qiáng)了AI應(yīng)用與客戶對話的能力,使我們看到了AI大規(guī)模落地的曙光。


1,ChatGPT的傳承與特點(diǎn)


1.1 OpenAI家族

我們首先了解下OpenAI是哪路大神。


OpenAI總部位于舊金山,由特斯拉的馬斯克、Sam Altman及其他投資者在2015年共同創(chuàng)立,目標(biāo)是開發(fā)造福全人類的AI技術(shù)。而馬斯克則在2018年時(shí)因公司發(fā)展方向分歧而離開。


此前,OpenAI 因推出 GPT系列自然語言處理模型而聞名。從2018年起,OpenAI就開始發(fā)布生成式預(yù)訓(xùn)練語言模型GPT(Generative Pre-trained Transformer),可用于生成文章、代碼、機(jī)器翻譯、問答等各類內(nèi)容。


每一代GPT模型的參數(shù)量都爆炸式增長,堪稱“越大越好”。2019年2月發(fā)布的GPT-2參數(shù)量為15億,而2020年5月的GPT-3,參數(shù)量達(dá)到了1750億。



GPT家族主要模型對比


1.2 ChatGPT的主要特點(diǎn)

ChatGPT 是基于GPT-3.5(Generative Pre-trained Transformer 3.5)架構(gòu)開發(fā)的對話AI模型,是InstructGPT 的兄弟模型。ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演練,或用于收集大量對話數(shù)據(jù)。



ChatGPT的主要特點(diǎn)


OpenAI使用 RLHF(Reinforcement Learning from Human Feedbac,人類反饋強(qiáng)化學(xué)習(xí)) 技術(shù)對 ChatGPT 進(jìn)行了訓(xùn)練,且加入了更多人工監(jiān)督進(jìn)行微調(diào)。


此外,ChatGPT 還具有以下特征:


1)可以主動(dòng)承認(rèn)自身錯(cuò)誤。若用戶指出其錯(cuò)誤,模型會(huì)聽取意見并優(yōu)化答案。


2)ChatGPT 可以質(zhì)疑不正確的問題。例如被詢問 “哥倫布 2015 年來到美國的情景” 的問題時(shí),機(jī)器人會(huì)說明哥倫布不屬于這一時(shí)代并調(diào)整輸出結(jié)果。


3)ChatGPT 可以承認(rèn)自身的無知,承認(rèn)對專業(yè)技術(shù)的不了解。


4)支持連續(xù)多輪對話。


與大家在生活中用到的各類智能音箱和“人工智障“不同,ChatGPT在對話過程中會(huì)記憶先前使用者的對話訊息,即上下文理解,以回答某些假設(shè)性的問題。ChatGPT可實(shí)現(xiàn)連續(xù)對話,極大的提升了對話交互模式下的用戶體驗(yàn)。


對于準(zhǔn)確翻譯來說(尤其是中文與人名音譯),ChatGPT離完美還有一段距離,不過在文字流暢度以及辨別特定人名來說,與其他網(wǎng)絡(luò)翻譯工具相近。


由于 ChatGPT是一個(gè)大型語言模型,目前還并不具備網(wǎng)絡(luò)搜索功能,因此它只能基于2021年所擁有的數(shù)據(jù)集進(jìn)行回答。例如它不知道2022年世界杯的情況,也不會(huì)像蘋果的Siri那樣回答今天天氣如何、或幫你搜索信息。如果ChatGPT能上網(wǎng)自己尋找學(xué)習(xí)語料和搜索知識(shí),估計(jì)又會(huì)有更大的突破。


即便學(xué)習(xí)的知識(shí)有限,ChatGPT 還是能回答腦洞大開的人類的許多奇葩問題。為了避免ChatGPT染上惡習(xí), ChatGPT 通過算法屏蔽,減少有害和欺騙性的訓(xùn)練輸入。,查詢通過適度 API 進(jìn)行過濾,并駁回潛在的種族主義或性別歧視提示。


2,ChatGPT/GPT的原理

2.1 NLP

NLP/NLU領(lǐng)域已知局限包括對重復(fù)文本、對高度專業(yè)的主題的誤解,以及對上下文短語的誤解。


對于人類或AI,通常需接受多年的訓(xùn)練才能正常對話。NLP類模型不僅要理解單詞的含義,還要理解如何造句和給出上下文有意義的回答,甚至使用合適的俚語和專業(yè)詞匯。



NLP技術(shù)的應(yīng)用領(lǐng)域


本質(zhì)上,作為ChatGPT基礎(chǔ)的GPT-3或GPT-3.5 是一個(gè)超大的統(tǒng)計(jì)語言模型或順序文本預(yù)測模型。


2.2 GPT v.s.BERT

與BERT模型類似,ChatGPT或GPT-3.5都是根據(jù)輸入語句,根據(jù)語言/語料概率來自動(dòng)生成回答的每一個(gè)字(詞語)。從數(shù)學(xué)或從機(jī)器學(xué)習(xí)的角度來看,語言模型是對詞語序列的概率相關(guān)性分布的建模,即利用已經(jīng)說過的語句(語句可以視為數(shù)學(xué)中的向量)作為輸入條件,預(yù)測下一個(gè)時(shí)刻不同語句甚至語言集合出現(xiàn)的概率分布。


ChatGPT 使用來自人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,這種方法通過人類干預(yù)來增強(qiáng)機(jī)器學(xué)習(xí)以獲得更好的效果。在訓(xùn)練過程中,人類訓(xùn)練者扮演著用戶和人工智能助手的角色,并通過近端策略優(yōu)化算法進(jìn)行微調(diào)。


由于ChatGPT更強(qiáng)的性能和海量參數(shù),它包含了更多的主題的數(shù)據(jù),能夠處理更多小眾主題。ChatGPT現(xiàn)在可以進(jìn)一步處理回答問題、撰寫文章、文本摘要、語言翻譯和生成計(jì)算機(jī)代碼等任務(wù)。



BERT與GPT的技術(shù)架構(gòu)(圖中En為輸入的每個(gè)字,Tn為輸出回答的每個(gè)字)


3,ChatGPT的技術(shù)架構(gòu)

3.1 GPT家族的演進(jìn)

說到ChatGPT,就不得不提到GPT家族。


ChatGPT之前有幾個(gè)知名的兄弟,包括GPT-1、GPT-2和GPT-3。這幾個(gè)兄弟一個(gè)比一個(gè)個(gè)頭大,ChatGPT與GPT-3更為相近。



ChatGPT與GPT 1-3的技術(shù)對比


GPT家族與BERT模型都是知名的NLP模型,都基于Transformer技術(shù)。GPT-1只有12個(gè)Transformer層,而到了GPT-3,則增加到96層。


3.2 人類反饋強(qiáng)化學(xué)習(xí)

InstructGPT/GPT3.5(ChatGPT的前身)與GPT-3的主要區(qū)別在于,新加入了被稱為RLHF(Reinforcement Learning from Human Feedback,人類反饋強(qiáng)化學(xué)習(xí))。這一訓(xùn)練范式增強(qiáng)了人類對模型輸出結(jié)果的調(diào)節(jié),并且對結(jié)果進(jìn)行了更具理解性的排序。


在InstructGPT中,以下是“goodness of sentences”的評(píng)價(jià)標(biāo)準(zhǔn)。


真實(shí)性:是虛假信息還是誤導(dǎo)性信息?


無害性:它是否對人或環(huán)境造成身體或精神上的傷害?


有用性:它是否解決了用戶的任務(wù)?


3.3 TAMER框架

這里不得不提到TAMER(Training an Agent Manually via Evaluative Reinforcement,評(píng)估式強(qiáng)化人工訓(xùn)練代理)這個(gè)框架。該框架將人類標(biāo)記者引入到Agents的學(xué)習(xí)循環(huán)中,可以通過人類向Agents提供獎(jiǎng)勵(lì)反饋(即指導(dǎo)Agents進(jìn)行訓(xùn)練),從而快速達(dá)到訓(xùn)練任務(wù)目標(biāo)。



TAMER框架論文


引入人類標(biāo)記者的主要目的是加快訓(xùn)練速度。盡管強(qiáng)化學(xué)習(xí)技術(shù)在很多領(lǐng)域有突出表現(xiàn),但是仍然存在著許多不足,例如訓(xùn)練收斂速度慢,訓(xùn)練成本高等特點(diǎn)。特別是現(xiàn)實(shí)世界中,許多任務(wù)的探索成本或數(shù)據(jù)獲取成本很高。如何加快訓(xùn)練效率,是如今強(qiáng)化學(xué)習(xí)任務(wù)待解決的重要問題之一。


而TAMER則可以將人類標(biāo)記者的知識(shí),以獎(jiǎng)勵(lì)信反饋的形式訓(xùn)練Agent,加快其快速收斂。TAMER不需要標(biāo)記者具有專業(yè)知識(shí)或編程技術(shù),語料成本更低。通過TAMER+RL(強(qiáng)化學(xué)習(xí)),借助人類標(biāo)記者的反饋,能夠增強(qiáng)從馬爾可夫決策過程 (MDP) 獎(jiǎng)勵(lì)進(jìn)行強(qiáng)化學(xué)習(xí) (RL) 的過程。



TAMER架構(gòu)在強(qiáng)化學(xué)習(xí)中的應(yīng)用


具體實(shí)現(xiàn)上,人類標(biāo)記者扮演對話的用戶和人工智能助手,提供對話樣本,讓模型生成一些回復(fù),然后標(biāo)記者會(huì)對回復(fù)選項(xiàng)打分排名,將更好的結(jié)果反饋回模型中,Agents同時(shí)從兩種反饋模式中學(xué)習(xí)——人類強(qiáng)化和馬爾可夫決策過程獎(jiǎng)勵(lì)作為一個(gè)整合的系統(tǒng),通過獎(jiǎng)勵(lì)策略對模型進(jìn)行微調(diào)并持續(xù)迭代。


在此基礎(chǔ)上,ChatGPT 可以比 GPT-3 更好的理解和完成人類語言或指令,模仿人類,提供連貫的有邏輯的文本信息的能力。


3.4 ChatGPT的訓(xùn)練

ChatGPT的訓(xùn)練過程分為以下三個(gè)階段:


第一階段:訓(xùn)練監(jiān)督策略模型


GPT 3.5本身很難理解人類不同類型指令中蘊(yùn)含的不同意圖,也很難判斷生成內(nèi)容是否是高質(zhì)量的結(jié)果。為了讓GPT 3.5初步具備理解指令的意圖,首先會(huì)在數(shù)據(jù)集中隨機(jī)抽取問題,由人類標(biāo)注人員,給出高質(zhì)量答案,然后用這些人工標(biāo)注好的數(shù)據(jù)來微調(diào) GPT-3.5模型(獲得SFT模型, Supervised Fine-Tuning)。


此時(shí)的SFT模型在遵循指令/對話方面已經(jīng)優(yōu)于 GPT-3,但不一定符合人類偏好。



ChatGPT模型的訓(xùn)練過程


第二階段:訓(xùn)練獎(jiǎng)勵(lì)模型(Reward Mode,RM)


這個(gè)階段的主要是通過人工標(biāo)注訓(xùn)練數(shù)據(jù)(約33K個(gè)數(shù)據(jù)),來訓(xùn)練回報(bào)模型。在數(shù)據(jù)集中隨機(jī)抽取問題,使用第一階段生成的模型,對于每個(gè)問題,生成多個(gè)不同的回答。人類標(biāo)注者對這些結(jié)果綜合考慮給出排名順序。這一過程類似于教練或老師輔導(dǎo)。


接下來,使用這個(gè)排序結(jié)果數(shù)據(jù)來訓(xùn)練獎(jiǎng)勵(lì)模型。對多個(gè)排序結(jié)果,兩兩組合,形成多個(gè)訓(xùn)練數(shù)據(jù)對。RM模型接受一個(gè)輸入,給出評(píng)價(jià)回答質(zhì)量的分?jǐn)?shù)。這樣,對于一對訓(xùn)練數(shù)據(jù),調(diào)節(jié)參數(shù)使得高質(zhì)量回答的打分比低質(zhì)量的打分要高。


第三階段:采用PPO(Proximal Policy Optimization,近端策略優(yōu)化)強(qiáng)化學(xué)習(xí)來優(yōu)化策略。


PPO的核心思路在于將Policy Gradient中On-policy的訓(xùn)練過程轉(zhuǎn)化為Off-policy,即將在線學(xué)習(xí)轉(zhuǎn)化為離線學(xué)習(xí),這個(gè)轉(zhuǎn)化過程被稱之為Importance Sampling。這一階段利用第二階段訓(xùn)練好的獎(jiǎng)勵(lì)模型,靠獎(jiǎng)勵(lì)打分來更新預(yù)訓(xùn)練模型參數(shù)。在數(shù)據(jù)集中隨機(jī)抽取問題,使用PPO模型生成回答,并用上一階段訓(xùn)練好的RM模型給出質(zhì)量分?jǐn)?shù)。把回報(bào)分?jǐn)?shù)依次傳遞,由此產(chǎn)生策略梯度,通過強(qiáng)化學(xué)習(xí)的方式以更新PPO模型參數(shù)。


如果我們不斷重復(fù)第二和第三階段,通過迭代,會(huì)訓(xùn)練出更高質(zhì)量的ChatGPT模型。


4,ChatGPT的局限

只要用戶輸入問題,ChatGPT 就能給予回答,是否意味著我們不用再拿關(guān)鍵詞去喂 Google或百度,就能立即獲得想要的答案呢?


盡管ChatGPT表現(xiàn)出出色的上下文對話能力甚至編程能力,完成了大眾對人機(jī)對話機(jī)器人(ChatBot)從“人工智障”到“有趣”的印象改觀,我們也要看到,ChatGPT技術(shù)仍然有一些局限性,還在不斷的進(jìn)步。


1)ChatGPT在其未經(jīng)大量語料訓(xùn)練的領(lǐng)域缺乏“人類常識(shí)”和引申能力,甚至?xí)槐菊?jīng)的“胡說八道”。ChatGPT在很多領(lǐng)域可以“創(chuàng)造答案”,但當(dāng)用戶尋求正確答案時(shí),ChatGPT也有可能給出有誤導(dǎo)的回答。例如讓ChatGPT做一道小學(xué)應(yīng)用題,盡管它可以寫出一長串計(jì)算過程,但最后答案卻是錯(cuò)誤的。


2)ChatGPT無法處理復(fù)雜冗長或者特別專業(yè)的語言結(jié)構(gòu)。對于來自金融、自然科學(xué)或醫(yī)學(xué)等非常專業(yè)領(lǐng)域的問題,如果沒有進(jìn)行足夠的語料“喂食”,ChatGPT可能無法生成適當(dāng)?shù)幕卮稹?/p>


3)ChatGPT需要非常大量的算力(芯片)來支持其訓(xùn)練和部署。拋開需要大量語料數(shù)據(jù)訓(xùn)練模型不說,在目前,ChatGPT在應(yīng)用時(shí)仍然需要大算力的服務(wù)器支持,而這些服務(wù)器的成本是普通用戶無法承受的,即便數(shù)十億個(gè)參數(shù)的模型也需要驚人數(shù)量的計(jì)算資源才能運(yùn)行和訓(xùn)練。,如果面向真實(shí)搜索引擎的數(shù)以億記的用戶請求,如采取目前通行的免費(fèi)策略,任何企業(yè)都難以承受這一成本。因此對于普通大眾來說,還需等待更輕量型的模型或更高性價(jià)比的算力平臺(tái)。


4)ChatGPT還沒法在線的把新知識(shí)納入其中,而出現(xiàn)一些新知識(shí)就去重新預(yù)訓(xùn)練GPT模型也是不現(xiàn)實(shí)的,無論是訓(xùn)練時(shí)間或訓(xùn)練成本,都是普通訓(xùn)練者難以接受的。如果對于新知識(shí)采取在線訓(xùn)練的模式,看上去可行且語料成本相對較低,但是很容易由于新數(shù)據(jù)的引入而導(dǎo)致對原有知識(shí)的災(zāi)難性遺忘的問題。


5)ChatGPT仍然是黑盒模型。目前還未能對ChatGPT的內(nèi)在算法邏輯進(jìn)行分解,因此并不能保證ChatGPT不會(huì)產(chǎn)生攻擊甚至傷害用戶的表述。


當(dāng)然,瑕不掩瑜,有工程師貼出了要求ChatGPT寫verilog代碼(芯片設(shè)計(jì)代碼)的對話。可以看出ChatGPT水平已經(jīng)超出一些verilog初學(xué)者了。

關(guān)鍵詞:ChatGPT發(fā)展歷程、原理和技術(shù)架構(gòu)詳  

多一份咨詢,總有益處

專業(yè)項(xiàng)目經(jīng)理為你解答問題,咨詢問題或預(yù)約面談

電話咨詢:13850021717|

微信同號(hào)

欧美高清在线一区二区_欧美14一18处毛片_四虎影视成人_久久精品国产成人精品
久久久久久高潮国产精品视| 国产精品二区影院| 亚洲在线一区二区| 日韩一级裸体免费视频| 最新69国产成人精品视频免费| 性欧美18~19sex高清播放| 正在播放亚洲一区| 一区二区欧美在线| 99re热精品| 99在线|亚洲一区二区| 99re6热只有精品免费观看| 亚洲三级影院| 日韩天堂av| av不卡免费看| a4yy欧美一区二区三区| 亚洲毛片在线免费观看| 日韩亚洲视频| 亚洲午夜激情网站| 亚洲一区二区三区在线播放| 亚洲视频精品在线| 亚洲一二三四久久| 亚洲专区免费| 欧美一级播放| 亚洲成色777777在线观看影院| 久久精品国产久精国产思思| 亚洲福利久久| 亚洲激情一区| 99精品国产在热久久| 一本色道久久综合亚洲精品高清| 在线一区观看| 亚洲一区精品视频| 午夜欧美电影在线观看| 久久国产一区| 老色鬼精品视频在线观看播放| 免费成人高清| 欧美激情精品久久久久| 欧美日韩日日夜夜| 国产精品第十页| 国产精品羞羞答答xxdd| 国产热re99久久6国产精品| 精品av久久久久电影| 亚洲欧洲日产国产网站| 99精品黄色片免费大全| 亚洲欧美清纯在线制服| 久久精品99久久香蕉国产色戒| 最新热久久免费视频| 在线一区二区三区四区五区| 欧美一级欧美一级在线播放| 久久久在线视频| 欧美国产欧美亚洲国产日韩mv天天看完整 | 欧美在线播放| 91久久精品美女| 亚洲深夜福利在线| 欧美一区二区三区免费视频| 久久男女视频| 欧美日韩精品| 国产一区二区三区精品欧美日韩一区二区三区 | 亚洲欧美日韩国产综合精品二区| 欧美中在线观看| 夜夜精品视频一区二区| 小黄鸭视频精品导航| 麻豆亚洲精品| 欧美网站在线| 激情另类综合| 这里只有视频精品| 亚洲激情视频在线播放| 亚洲影院在线观看| 久久久午夜视频| 国产精品电影在线观看| 在线观看日韩欧美| 在线视频日本亚洲性| 亚洲国语精品自产拍在线观看| 亚洲小说春色综合另类电影| 久久综合一区二区| 国产精品欧美一区二区三区奶水| 一区二区在线观看av| 在线视频一区二区| 亚洲精品综合精品自拍| 久久精品国产成人| 欧美色精品天天在线观看视频 | av成人免费| 老色批av在线精品| 国产精品一区久久久| 亚洲免费观看高清完整版在线观看熊| 欧美一区二区三区免费在线看 | 国模大胆一区二区三区| 夜夜嗨av一区二区三区网站四季av| 久久av二区| 午夜亚洲视频| 欧美日韩成人网| 亚洲第一狼人社区| 欧美在线免费看| 欧美一区二区视频97| 欧美日韩视频在线一区二区观看视频| 一区视频在线播放| 亚洲欧美日韩天堂| 亚洲专区在线视频| 欧美精品一区二区高清在线观看| 韩日精品视频| 欧美一区二区在线看| 亚洲综合色网站| 欧美日韩免费区域视频在线观看| 亚洲国产精品精华液网站| 欧美在线播放一区二区| 欧美亚洲免费在线| 国产精品久久久久久亚洲调教| 亚洲另类在线一区| 日韩午夜电影av| 欧美国产综合一区二区| 黄色一区二区三区四区| 香蕉尹人综合在线观看| 欧美亚洲日本国产| 国产精品私房写真福利视频| 在线综合亚洲| 亚洲综合色丁香婷婷六月图片| 欧美视频日韩视频| 一本色道久久综合亚洲二区三区| 日韩视频精品在线观看| 欧美二区不卡| 亚洲国产三级在线| 亚洲美女在线观看| 欧美美女视频| 日韩网站在线看片你懂的| 亚洲天堂黄色| 国产精品sss| 亚洲一区二区精品在线| 午夜精品一区二区三区在线视 | 亚洲高清免费在线| 亚洲精品中文字| 欧美日韩国产二区| 日韩视频在线免费| 亚洲男女毛片无遮挡| 国产精品美女久久久久久久 | 亚洲精品久久久久久一区二区| 美国十次成人| 亚洲电影下载| 99精品视频免费全部在线| 欧美日韩国产精品一卡| 日韩午夜中文字幕| 亚洲影音一区| 国产欧美精品在线观看| 午夜在线电影亚洲一区| 久久深夜福利| 亚洲成人资源| 中国成人在线视频| 国产精品久久久久一区二区| 亚洲欧美福利一区二区| 久久免费精品日本久久中文字幕| 雨宫琴音一区二区在线| 亚洲人成久久| 欧美日韩视频| 亚洲欧美精品伊人久久| 久久日韩粉嫩一区二区三区| 最新国产の精品合集bt伙计| 亚洲视频高清| 国产精品一区视频网站| 亚洲第一成人在线| 欧美日韩国产成人在线免费 | 亚洲性图久久| 久久久久国产精品一区二区| 在线观看日韩av电影| 99国产精品自拍| 国产精品一区二区三区久久久| 欧美在线免费观看| 欧美激情在线观看| 亚洲午夜精品久久| 久久久xxx| 日韩视频一区二区在线观看| 欧美一区视频| 91久久国产综合久久91精品网站| 亚洲一区二区不卡免费| 好吊色欧美一区二区三区四区| 99在线热播精品免费| 国产欧美精品在线播放| 亚洲精品麻豆| 国产免费观看久久| 亚洲精品国产视频| 国产九九精品| 99国产精品国产精品久久 | 亚洲精品在线免费| 欧美一区网站| 亚洲精品久久久久久一区二区| 久久aⅴ国产紧身牛仔裤| 亚洲激情小视频| 欧美在线观看日本一区| 亚洲国产精品悠悠久久琪琪| 午夜日韩在线| 亚洲精品美女91| 久久久www成人免费毛片麻豆| 夜夜嗨av一区二区三区四区| 快播亚洲色图| 亚洲一区欧美| 欧美日韩成人在线观看| 欧美在线视屏| 国产精品久久久久久久app| 亚洲激情六月丁香| 国产欧美一区二区精品婷婷 | 欧美日韩精品在线| 亚洲缚视频在线观看| 国产美女精品|