黑科技豆知識

紅了一段時間的 ChatGPT 你玩過了嗎？

ChatGPT 可根據問題給予解答、寫 code、編故事，甚至程式 debug 都沒問題！

功能如此強大的背後，你是否也好奇是如何訓練出來的呢？

根據研究，它可能的學習歷程有以下四階段：

1. 學習文字接龍：

透過從網路蒐集大量資料，讓 ChatGPT 來學習哪些字詞會被接在一起。

由於每個句子可接上的字詞有很多種可能，ChatGPT 會先了解哪幾個字詞接上機率較高；

再從這些高機率單字（詞）中隨機抽出，也導致 ChatGPT 每次輸出結果不盡相同。

2. 真人引導文字接龍方向：

單單靠學習文字接龍，ChatGPT 仍不知道該如何給出有用的回答；

因此需要人類給 ChatGPT 出一些問題與人工寫出答案，再把資料一併丟給 ChatGPT。

3. 模仿人類喜好：

為了進一步讓 ChatGPT 了解哪些文句為好答案，此時需藉《老師模型》：

此模型能以人類評分標準，來為 ChatGPT 所給答案進行評分，以此助其模仿人類偏好。

4. 用《增強式學習》向模擬老師學習：

若將 ChatGPT 答案丟給《老師模型》得到低分，

可透過系統以《增強式學習》來調整參數以達到高分。

ChatGPT 雖然善於模仿人類語言，未必代表其對於真實世界有所理解；

所以不要過於依賴它，當作參考即可。