商業筆記, AI

Generative AI 掀起熱潮,但為什麼是現在?

Generative AI

dall-e-2

Generative AI 領域最近掀起一股熱潮。不僅有科技巨頭 Google、Microsoft 都大力投資外,還有各種以Generative AI 為基礎的新創陸續崛起。但為什麼是現在呢?

Why Now」(為什麼是現在?)是每個行業都會遇到的大哉問。而同樣問題放到 Generative AI 上,背後的原因又是什麼呢?

Contrary Research 的電子報中,給了一段精闢見解:「AI 的快速發展可歸因於兩大要素:大型語言模型的進展、 企業對於自然語言處理(Natural language processing , NLP)的強烈需求。」再者,科技巨頭也都加碼投資在這領域中。

AI 成為 Microsoft 、Google 等科技巨頭的軍備競賽

在 AI 的佈局,儼然成為 Microsoft 、Google 等科技巨頭的軍備競賽。

早在 2019 年 7 月,Microsoft 就已向 AI 研究機構 OpenAI 投資了 10 億美元。近期,再傳 Microsoft 正對OpenAI 新一輪的融資進行談判,估值可能達 200 億美元。

目前 OpenAI 已經是 Microsoft 雲端運端服務 Azure 的獨家夥伴。新一輪的資金也有望在 Azure有更多 AI 人工智慧的應用鋪路。

當然,Google 也不落人後。根據知情人士消息指出,目前 Google 正向自然語言處理(Natural language processing , 簡稱 NLP)新創 Cohere,進行至少 2 億美元的投資談判。

Cohere 主要透過 Generation(以 GPT-2 、GPT-3 等模型來訓練寫作任務) 、Representation(以 BERT 等模型來訓練閱讀任務)兩種 NLP 模型,為各種閱讀和寫作任務上,進行自然語言模型的訓練。

為什麼 Google 願意投資這家新創?Cohere 解決了多數企業都難以解決的問題:訓練複雜的語言模型。這件事如果企業本身自己來做,需要資金、懂 AI 的專業人才等。但關鍵兩要素,尤其後者,卻是多數企業都缺乏的。

Cohere 看見了市場需求、也提供多數企業另種選項。有了 Cohere 的服務後,企業端可以避免資源限制的問題,且能透過 NLP 模型,槓桿出更多應用。像是,建立聊天機器人(chatbot)、個人數位助理、分析觀點和意見,以及擬出原創內容的草稿等。

以上,未來 Google 八九不離十會依循 Microsoft 將 AI 應用綑綁(bundle)進現有的生產力平台 — 也就是 Google Workspace 中。

延伸閱讀:Microsoft 推出設計程式迎戰 Canva,巨頭面對 PLG 的商業策略

AI 四大階段的演進

科技巨頭大力投資 AI 領域是結果,背後的原因正是 Generative AI 和更廣泛的 AI 應用有了「更好的模型」、「更多用戶數據」、「更多的計算」,一切的進展都比過往要好上許多。

至於「大型語言模型的進展」,可以分成四大階段的進展:(這邊主要參考紅杉資本(Sequoia Capital)的文章,各個階段的完整說明,可直接閱讀該篇。)

基本上,AI 已從過往「分析事物」,到如今能夠「創造事物」了。過去分析現有的數據或已存在的事物(檢測垃圾郵件等)。現在 AI 能夠真正創造出圖像、文章、影片等原創內容。

第一波:小型模型的統治(Pre-2015)

剛開始能夠理解語言的小型模型,被認為是最先進的科技。而這些模型擅長分析任務,並部署(deploy)在像是預測快遞時間、分類詐騙信件等工作上。

這階段的 AI 應用以「分析」「分類」為主,還沒有進展到 Generative AI 的廣泛應用上。

第二波:規模競賽(2015 至今)

在 2017 年,Google 和多倫多大學研究人員共同發表了一份極具里程碑的論文 (Attention is All You Need)。截至目前為止(2022 / 11 / 04)已有超過 5 萬次的引用。

研究人員在這篇論文中,提出了一種新穎且簡單的自然語言理解的神經網絡架構「Transformer」,且是單獨建立在「注意力機制」(attention mechanism)上。

與過往建立在主流的序列轉導模型(sequence transduction models,將某段文字或語音轉換為另一種形式的表示法)上有所不同。像是, RNN (recurrent neural networks)或 CNN (convolutional neural networks)等模型結構。

透過「注意力機制」能夠讓模型的結構變得更簡單,而且在訓練及推理可平行處理(parallelizable),也就越能節省時間。這些都大幅改善 RNN 、CNN 模型結構上的缺點。

以 RNN 為例,它處理輸入序列(sequence)的方式是按照序列的順序,一個個處理其中的元素。想像一下超市或量販店結帳時只開了一個櫃台,肯定非常耗時。而「注意力機制」則是以平行方式(開很多櫃台),同時處理則以更有效率方式完成。簡單來說,透過「注意力機制」也就不必逐字逐句地工作。

再者,隨著模型亦趨龐大,它們能夠產出接近人類水準的事物,接著有了更多數據反饋和調整後,超越人類的水準也就不遠了。

在 2015 年至 2020 年間,用來訓練這些模型的運算增加了 6 個數量級(orders of magnitude)。因此,在手寫、演講、圖像識別、閱讀理解和語言理解這五個方面上,都有超越人類水準的表現。

但儘管這些基礎研究有了重要進展,但這些模型並不普遍。它們體積龐大且難以運行(需要 GPU 編排),需要特定訪問權限。而且以雲端服務運行的成本很高。

儘管存在這些限制,但最早的 Generative AI 應用程式已經開始進入競爭。

第三波:更好、更快、更便宜(2022+)

從「封閉」到「開放」是這階段的特色。當基礎設施都建構完成後,運算變得更便宜、以 diffusion model 等的新技術出現後,也削減了訓練和推理的的成本。開發者也能將過去的需要權限限制轉為全面開放、開源版本等。

隨著訪問權限的開放,也打開了更多探索和開發 Generative AI 的大門。這也預示著下階段將迎來:應用程式的蓬勃。

第四波:殺手級應用程式的出現(現在)

隨著平臺層的強化、趨於免費和開源模型變得更好、更快、更便宜。以上這些基礎設施的成熟,都催生更廣泛應用層(application layer)的創新。

就像是手機可以透過 GPS、鏡頭等新基礎建設到位後,有了更多創新的應用。未來也將會有更多以 Generative AI 為基礎的應用程式出現。

關於更多 AI 的應用與筆記,也推薦前往 AI 專題

參考資料

  1. Generative AI: A Creative New World | Sequoia Capital US/Europe這是紅杉資本(Sequoia Capital)和 AI 一起撰寫的文章。從 AI 熱潮開始講起,同樣也討論「Why Now 」的命題。接續,深入討論平台層、模型層,以及未來應用層面的一些線索。
  2. Attention Is All You Need (arxiv.org) NLP 極具里程碑的論文、已有超過 5 萬次的引用,經典中的經典,我也一不小心就跑去研究了一會。
  3. Huge “foundation models” are turbo-charging AI progress | The Economist這是英國《經濟學人》討論 AI 進程與發展的長文(幾乎是封面故事的篇幅)蠻推薦閱讀的,極為扎實。

    長久以來,關於 AI 的討論很多,其中大家都熟知的是 AI 會否取代人類的工作。到了近期,Generative AI 的出現,會否成為平面設計師的夢靨,有了更多討論。文中,令人印象深刻的地方是《經濟學人》直接用 Midjourney 所畫的圖,成為雜誌封面。
  4. [鐵人12:Day 18] Transformer 1:源起及簡介 – iT 邦幫忙::一起幫忙解決難題,拯救 IT 人的一天 (ithome.com.tw)《花甲老頭學 AI》有好幾篇在談Transformer 模型(也就是Attention Is All You Need 論文中所提出的模型)的系列文。寫得實在是非常好懂又清楚,推薦閱讀。