生成式 AI（Generative AI）掀起熱潮，但為什麼是現在？

生成式 AI 領域最近掀起一股熱潮。不僅有科技巨頭 Google、Microsoft 都大力投資外，還有各種以生成式 AI 為基礎的新創陸續崛起。但為什麼是現在呢？

「Why Now」（為什麼是現在？）是每個行業都會遇到的大哉問。而同樣問題放到生成式 AI 上，背後的原因又是什麼呢？

Contrary Research 的電子報中，給了一段精闢見解：「AI 的快速發展可歸因於兩大要素：大型語言模型的進展、企業對於自然語言處理（Natural language processing , NLP）的強烈需求。」再者，科技巨頭也都加碼投資在這領域中。

內容目錄

AI 成為 Microsoft 、Google 等科技巨頭的軍備競賽

在 AI 的佈局，儼然成為 Microsoft 、Google 等科技巨頭的軍備競賽。

早在 2019 年 7 月，Microsoft 就已向 AI 研究機構 OpenAI 投資了 10 億美元。近期，再傳 Microsoft 正對OpenAI 新一輪的融資進行談判，估值可能達 200 億美元。

目前 OpenAI 已經是 Microsoft 雲端運端服務 Azure 的獨家夥伴。新一輪的資金也有望在 Azure有更多 AI 人工智慧的應用鋪路。

當然，Google 也不落人後。根據知情人士消息指出，目前 Google 正向自然語言處理（Natural language processing , 簡稱 NLP）新創 Cohere，進行至少 2 億美元的投資談判。

Cohere 主要透過 Generation（以 GPT-2 、GPT-3 等模型來訓練寫作任務）、Representation（以 BERT 等模型來訓練閱讀任務）兩種 NLP 模型，為各種閱讀和寫作任務上，進行自然語言模型的訓練。

為什麼 Google 願意投資這家新創？Cohere 解決了多數企業都難以解決的問題：訓練複雜的語言模型。這件事如果企業本身自己來做，需要資金、懂 AI 的專業人才等。但關鍵兩要素，尤其後者，卻是多數企業都缺乏的。

Cohere 看見了市場需求、也提供多數企業另種選項。有了 Cohere 的服務後，企業端可以避免資源限制的問題，且能透過 NLP 模型，槓桿出更多應用。像是，建立聊天機器人（chatbot）、個人數位助理、分析觀點和意見，以及擬出原創內容的草稿等。

以上，未來 Google 八九不離十會依循 Microsoft 將 AI 應用綑綁（bundle）進現有的生產力平台 — 也就是 Google Workspace 中。

延伸閱讀：Microsoft 推出設計程式迎戰 Canva，巨頭面對 PLG 的商業策略

AI 四大階段的演進

科技巨頭大力投資 AI 領域是結果，背後的原因正是生成式 AI 和更廣泛的 AI 應用有了「更好的模型」、「更多用戶數據」、「更多的計算」，一切的進展都比過往要好上許多。

至於「大型語言模型的進展」，可以分成四大階段的進展：（這邊主要參考紅杉資本（Sequoia Capital）的文章，各個階段的完整說明，可直接閱讀該篇。）

基本上，AI 已從過往「分析事物」，到如今能夠「創造事物」了。過去分析現有的數據或已存在的事物（檢測垃圾郵件等）。現在 AI 能夠真正創造出圖像、文章、影片等原創內容。

第一波：小型模型的統治（Pre-2015）

剛開始能夠理解語言的小型模型，被認為是最先進的科技。而這些模型擅長分析任務，並部署（deploy）在像是預測快遞時間、分類詐騙信件等工作上。

這階段的 AI 應用以「分析」「分類」為主，還沒有進展到生成式 AI 的廣泛應用上。

第二波：規模競賽（2015 至今）

在 2017 年，Google 和多倫多大學研究人員共同發表了一份極具里程碑的論文 (Attention is All You Need)。截至目前為止（2022 / 11 / 04）已有超過 5 萬次的引用。

研究人員在這篇論文中，提出了一種新穎且簡單的自然語言理解的神經網絡架構「Transformer」，且是單獨建立在「注意力機制」（attention mechanism）上。

與過往建立在主流的序列轉導模型（sequence transduction models，將某段文字或語音轉換為另一種形式的表示法）上有所不同。像是， RNN （recurrent neural networks）或 CNN （convolutional neural networks）等模型結構。

透過「注意力機制」能夠讓模型的結構變得更簡單，而且在訓練及推理可平行處理（parallelizable），也就越能節省時間。這些都大幅改善 RNN 、CNN 模型結構上的缺點。

以 RNN 為例，它處理輸入序列（sequence）的方式是按照序列的順序，一個個處理其中的元素。想像一下超市或量販店結帳時只開了一個櫃台，肯定非常耗時。

「注意力機制」則是以平行方式（開很多櫃台），同時處理則以更有效率方式完成。簡單來說，透過「注意力機制」也就不必逐字逐句地工作。

再者，隨著模型亦趨龐大，它們能夠產出接近人類水準的事物，接著有了更多數據反饋和調整後，超越人類的水準也就不遠了。

在 2015 年至 2020 年間，用來訓練這些模型的運算增加了 6 個數量級（orders of magnitude）。因此，在手寫、演講、圖像識別、閱讀理解和語言理解這五個方面上，都有超越人類水準的表現。

但儘管這些基礎研究有了重要進展，但這些模型並不普遍。它們體積龐大且難以運行（需要 GPU 編排），需要特定訪問權限。而且以雲端服務運行的成本很高。

儘管存在這些限制，但最早的生成式 AI 應用程式已經開始進入競爭。

第三波：更好、更快、更便宜（2022+）

從「封閉」到「開放」是這階段的特色。當基礎設施都建構完成後，運算變得更便宜、以 diffusion model 等的新技術出現後，也削減了訓練和推理的的成本。開發者也能將過去的需要權限限制轉為全面開放、開源版本等。

隨著訪問權限的開放，也打開了更多探索和開發生成式 AI 的大門。這也預示著下階段將迎來：應用程式的蓬勃。

第四波：殺手級應用程式的出現（現在）

隨著平臺層的強化、趨於免費和開源模型變得更好、更快、更便宜。以上這些基礎設施的成熟，都催生更廣泛應用層（application layer）的創新。

就像是手機可以透過 GPS、鏡頭等新基礎建設到位後，有了更多創新的應用。未來也將會有更多以生成式 AI 為基礎的應用程式出現。

關於更多 AI 的應用與筆記，也推薦前往 AI 專題。

參考資料

Generative AI: A Creative New World | Sequoia Capital US/Europe這是紅杉資本（Sequoia Capital）和 AI 一起撰寫的文章。從 AI 熱潮開始講起，同樣也討論「Why Now 」的命題。接續，深入討論平台層、模型層，以及未來應用層面的一些線索。
Attention Is All You Need (arxiv.org) NLP 極具里程碑的論文、已有超過 5 萬次的引用，經典中的經典，我也一不小心就跑去研究了一會。
Huge “foundation models” are turbo-charging AI progress | The Economist這是英國《經濟學人》討論 AI 進程與發展的長文（幾乎是封面故事的篇幅）蠻推薦閱讀的，極為扎實。

長久以來，關於 AI 的討論很多，其中大家都熟知的是 AI 會否取代人類的工作。到了近期，生成式 AI 的出現，會否成為平面設計師的夢靨，有了更多討論。文中，令人印象深刻的地方是《經濟學人》直接用 Midjourney 所畫的圖，成為雜誌封面。
[鐵人12：Day 18] Transformer 1：源起及簡介 – iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天 (ithome.com.tw)《花甲老頭學 AI》有好幾篇在談Transformer 模型（也就是Attention Is All You Need 論文中所提出的模型）的系列文。寫得實在是非常好懂又清楚，推薦閱讀。

生成式 AI（Generative AI）掀起熱潮，但為什麼是現在？

AI 成為 Microsoft 、Google 等科技巨頭的軍備競賽

AI 四大階段的演進

第一波：小型模型的統治（Pre-2015）

第二波：規模競賽（2015 至今）

第三波：更好、更快、更便宜（2022+）

第四波：殺手級應用程式的出現（現在）

參考資料

VK

訂閱免費電子報

生成式 AI（Generative AI）掀起熱潮，但為什麼是現在？

關於《VK科技閱讀時間》的 FAQ、發展歷程

Readwise Reader：為個人知識管理而生的軟體

【2023 GAI 年會特輯 1】AIGC 時代下，創作的偶然性與本質

AI 成為 Microsoft 、Google 等科技巨頭的軍備競賽

AI 四大階段的演進

第一波：小型模型的統治（Pre-2015）

第二波：規模競賽（2015 至今）

第三波：更好、更快、更便宜（2022+）

第四波：殺手級應用程式的出現（現在）

參考資料

VK

關於《VK科技閱讀時間》的 FAQ、發展歷程

Readwise Reader：為個人知識管理而生的軟體

【2023 GAI 年會特輯 1】AIGC 時代下，創作的偶然性與本質

訂閱免費電子報