...

黑科技豆知識

一分鐘科技新知懶人包

地表最強聊天機器人 ChatGPT 是怎麼訓練的?

紅了一段時間的 ChatGPT 你玩過了嗎?
紅了一段時間的 ChatGPT 你玩過了嗎?
ChatGPT 可根據問題給予解答、寫 code、編故事,甚至程式 debug 都沒問題!
ChatGPT 可根據問題給予解答、寫 code、編故事,甚至程式 debug 都沒問題!
功能如此強大的背後,你是否也好奇是如何訓練出來的呢?
功能如此強大的背後,你是否也好奇是如何訓練出來的呢?
根據研究,它可能的學習歷程有以下四階段:
根據研究,它可能的學習歷程有以下四階段:
1. 學習文字接龍:
1. 學習文字接龍:
透過從網路蒐集大量資料,讓 ChatGPT 來學習哪些字詞會被接在一起。
透過從網路蒐集大量資料,讓 ChatGPT 來學習哪些字詞會被接在一起。
由於每個句子可接上的字詞有很多種可能,ChatGPT 會先了解哪幾個字詞接上機率較高;
由於每個句子可接上的字詞有很多種可能,ChatGPT 會先了解哪幾個字詞接上機率較高;
再從這些高機率單字(詞)中隨機抽出,也導致 ChatGPT 每次輸出結果不盡相同。
再從這些高機率單字(詞)中隨機抽出,也導致 ChatGPT 每次輸出結果不盡相同。
2. 真人引導文字接龍方向:
2. 真人引導文字接龍方向:
單單靠學習文字接龍,ChatGPT 仍不知道該如何給出有用的回答;
單單靠學習文字接龍,ChatGPT 仍不知道該如何給出有用的回答;
因此需要人類給 ChatGPT 出一些問題與人工寫出答案,再把資料一併丟給 ChatGPT。
因此需要人類給 ChatGPT 出一些問題與人工寫出答案,再把資料一併丟給 ChatGPT。
3. 模仿人類喜好:
3. 模仿人類喜好:
為了進一步讓 ChatGPT 了解哪些文句為好答案,此時需藉《老師模型》:
為了進一步讓 ChatGPT 了解哪些文句為好答案,此時需藉《老師模型》:
此模型能以人類評分標準,來為 ChatGPT 所給答案進行評分,以此助其模仿人類偏好。
此模型能以人類評分標準,來為 ChatGPT 所給答案進行評分,以此助其模仿人類偏好。
4. 用《增強式學習》向模擬老師學習:
4. 用《增強式學習》向模擬老師學習:
若將 ChatGPT 答案丟給《老師模型》得到低分,
若將 ChatGPT 答案丟給《老師模型》得到低分,
可透過系統以《增強式學習》來調整參數以達到高分。
可透過系統以《增強式學習》來調整參數以達到高分。
ChatGPT 雖然善於模仿人類語言,未必代表其對於真實世界有所理解;
ChatGPT 雖然善於模仿人類語言,未必代表其對於真實世界有所理解;
所以不要過於依賴它,當作參考即可。
所以不要過於依賴它,當作參考即可。