地表最強聊天機器人 ChatGPT 是怎麼訓練的?
紅了一段時間的 ChatGPT 你玩過了嗎?

ChatGPT 可根據問題給予解答、寫 code、編故事,甚至程式 debug 都沒問題!

功能如此強大的背後,你是否也好奇是如何訓練出來的呢?

根據研究,它可能的學習歷程有以下四階段:

1. 學習文字接龍:

透過從網路蒐集大量資料,讓 ChatGPT 來學習哪些字詞會被接在一起。

由於每個句子可接上的字詞有很多種可能,ChatGPT 會先了解哪幾個字詞接上機率較高;

再從這些高機率單字(詞)中隨機抽出,也導致 ChatGPT 每次輸出結果不盡相同。

2. 真人引導文字接龍方向:

單單靠學習文字接龍,ChatGPT 仍不知道該如何給出有用的回答;

因此需要人類給 ChatGPT 出一些問題與人工寫出答案,再把資料一併丟給 ChatGPT。

3. 模仿人類喜好:

為了進一步讓 ChatGPT 了解哪些文句為好答案,此時需藉《老師模型》:

此模型能以人類評分標準,來為 ChatGPT 所給答案進行評分,以此助其模仿人類偏好。

4. 用《增強式學習》向模擬老師學習:

若將 ChatGPT 答案丟給《老師模型》得到低分,

可透過系統以《增強式學習》來調整參數以達到高分。

ChatGPT 雖然善於模仿人類語言,未必代表其對於真實世界有所理解;

所以不要過於依賴它,當作參考即可。
