20221009_110908.jpg

GPTGenerative Pre-Trained Transformer3.0,模型參數達1750億,訓練語料達45兆位元,不僅在大多數傳統自然語言處理功能上,不需微調或額外訓練,就可勝過從頭訓練的客製系統;在其他非傳統的功能如加減算術、文章生成、程式編寫,也有令人背脊發涼的優異表現。GPT 3.0生成的長篇大論,品質之高直逼人類寫手,更如平地雷起、一鳴驚人。

ChatGPTGPT 3.5再加上針對自然語言問答作監督性訓練而成。比之於前面幾個版本,ChatGPT的最大特色是用戶提示中的用詞無需特意設計、題材可以天南地北,而且回答大都語句通順、內容切題,因而被公認一舉突破聊天機器人數十年來的技術瓶頸。

光憑這種概念簡單的逐字預測模型就能產生文法正確、內容契合提示的回答,且回答裡所含的豐富細節及條理分明的文章結構,與有經驗的寫手相比毫不遜色,這樣的表現連GPT的研發團隊本身都大為吃驚。因為這種逐字預測的輸出模式,ChatGPT回答裡的陳述並非直接引用既有資料庫,所以錯誤難免;也基於同樣原因,ChatGPT 才得以用內插或外插的方式組合訓練語料中的想法而形成前所未有的創見。

ChatGPT證明它完全具有「讀書機器人」應有的功能:從個別文章擷取其主要想法,比較相關文章所提出想法的異同優劣,並針對之前文章從未探索但條件類似的情境組合出新穎的見解。這樣的讀書機器人不但閱讀速率比人類快速很多,而且能24小時進行,更可以無限期永遠持續下去。這意味著,從今而後,即便在單一領域裡,世界上學問最大的不再是個人,而是像ChatGPT的讀書機器人。

文化保存的一大重點是古代與當代文字的收集、整理與傳播。近年來,數位典藏蔚為風潮,古代與當代文書先是數位化,再以現代資料庫技術將其分門別類、建立索引,以便後人搜尋閱覽。然而讀書機器人的到來預期將歷史文化保存推向另一個更高的境界:一個遍讀所有古代與當代文字的讀書機器人,將這些文字分解消化、融會貫通後組成包羅萬象、旁徵博引、交叉串聯的知識庫,使後人得以超越個別文本,進行以前所不可能進行的查詢、探索、比對與正反論證。

從產業科技研發的角度,讀書機器人也將帶來極大的衝擊。譬如說,台積電應該很有興趣將最近八十年所有與半導體工程技術有關,包括相關的物理化學材料學科的研究論文與專利發明餵進類似ChatGPT的讀書機器人作全面深度的整理,從而產生博聞強記、廣泛連結的知識庫,以作為在未來產業走向與製程技術的研究過程中,重要的諮詢對象。事實上,這種將研究論文經讀書機器人咀嚼內化而成的產業別知識庫,必將成為台灣各行各業未來不可或缺的科研基礎設施。
闕志克/清大合聘教授

arrow
arrow
    文章標籤
    ChatGPT OpenAI 聊天機器人
    全站熱搜

    pietree0330 發表在 痞客邦 留言(0) 人氣()