將近 70 年後,隨著該領域歷經一連串的繁榮與衰退週期,我們如今擁有或多或少遵循這種方式的 AI 模型。近三年來,大型語言模型迅速崛起,而另一種類型、基於擴散模型(diffusion models)的 AI,也在創意領域造成前所未有的影響。透過將隨機雜訊轉換成有意義的模式,擴散模型能生成新的圖像、影片或語音,並由文字提示或其他輸入引導。最好的模型甚至能創造出與人類作品無法區分的成果,也能產出奇異、超現實、明顯非人類的結果。
如今,這些模型正進入比任何領域都更容易被顛覆的創意範疇:音樂。AI 生成的作品——從管弦樂到重金屬——正準備以前所未有的方式滲透進我們的生活,遠比任何其他 AI 產品深入。我們可能會在串流平台、派對或婚禮播放清單、配樂等地方聽到這些歌曲,而不一定察覺是誰(或什麼)創作了它們。
多年來,擴散模型在視覺藝術世界中已掀起爭論,人們質疑它們產出的作品究竟是創造還是複製。如今,這場爭論來到音樂領域——一門深深嵌入我們經驗、記憶與社會生活的藝術。音樂模型現在能創作出能引發真實情感反應的歌曲,顯示在 AI 時代中,要定義作者身分與原創性變得多麼困難。
法院也正在積極處理這片模糊地帶。主要唱片公司正起訴頂尖 AI 音樂生成器,指控擴散模型僅僅複製人類藝術,且不向藝術家付費。模型開發者則反駁,他們的工具是為了協助人類創作。
在判定誰是誰非的過程中,我們被迫重新思考人類創造力本身。無論是在人工神經網路或生物神經網路中,創造力是否只是龐大統計學習與連結的結果,再加上一些隨機性?如果是這樣,那麼作者身分是否變成一個滑動的概念?如果不是——如果創造中有某種明確的人類成分——那它是什麼?若沒有人的創作者,作品仍能感動我們嗎?我第一次聽到 AI 創作的歌曲時不得不面對這些問題——那首歌非常棒,但令人不安的是,它只是某人輸入提示後按下「生成」而已。這種處境很快也會降臨到你身上。
(Abstract from: Replication and Creation by James O’Donnell ; in MIT Technology Review Vol 128 No. 3, May/June 2025, Featuring: Muse or machine? Defining Creativity in the age of AI; Replication and Creation by James O’Donnell, pg 36-41)
(Abstract from: Replication and Creation by James O’Donnell ; in MIT Technology Review Vol 128 No. 3, May/June 2025, Featuring: Muse or machine? Defining Creativity in the age of AI; Replication and Creation by James O’Donnell, pg 36-41)
生成音樂依賴人類創作的藝術。未來,AI 音樂模型可能會使用自己的產出作為訓練資料——這在其他 AI 領域也正在被嘗試。由於模型從隨機噪音開始,它們是非決定性的;即使給同一個 AI 模型相同的指令,每次也可能產生不同的歌曲。這也是因為許多擴散模型(包括 Udio)的使用者在過程中加入了額外的隨機性——本質上是在每一步對生成的波形進行極細微的扭曲,添加一些不完美之處,讓輸出更有趣或更真實。達特茅斯會議的主辦者早在 1956 年就曾建議採用這種策略。
根據 Udio 的共同創辦人兼營運長 Andrew Sanchez 所說,生成式 AI 程式中固有的這種隨機性讓許多人感到震驚。在過去 70 年中,電腦執行的都是決定論程式:輸入某個指令,就會得到相同的回應。
這些結果到底是創作,還是單純複製訓練資料?AI 音樂的愛好者告訴我,我們也可以用同樣的問題來詢問人類的創造力。當我們在年輕時聆聽音樂時,大腦的學習機制會受到這些輸入的影響;這些歌曲的記憶會形塑我們的創作輸出。萊斯大學的作曲家兼音樂教授 Anthony Brandt 在最近的一項研究中指出,人類和大型語言模型都會利用過去的經驗來評估可能的未來情境,並做出更好的選擇。
確實,人類藝術——尤其是音樂——大多是借鑒而來的。這往往會導致法律訴訟,因為藝術家會指控某首歌在未經允許的情況下被複製或取樣。一些專家認為,擴散模型應該更加透明,讓我們可以知道某首歌的靈感可能有部分來自 David Bowie,也有部分來自 Lou Reed。Udio 表示,相關研究仍在進行中,但目前沒有人能可靠地做到這一點。
Udio 和 Suno 到目前為止的成果顯示,有相當大一群聽眾可能並不在乎自己聽的音樂究竟是由人還是由機器創作的。Suno 為創作者設置了藝術家頁面,其中一些創作者擁有大量追隨者,並完全使用 AI 生成歌曲,通常還搭配由 AI 生成的藝術家圖像。這些創作者並不是傳統意義上的音樂家,而是熟練使用提示詞的人,創造出的作品無法歸功於單一作曲家或歌手。在這個新興空間裡,我們對作者權的常規定義——以及創作與複製之間的界線——幾乎完全消融。
史識 庫
詹姆斯.奧唐奈:複製與創作(1)
人工智慧在1956年幾乎還不是一個術語,當時來自計算領域的頂尖科學家齊聚達特茅斯學院(Dartmouth College)參加一場夏季會議。電腦科學家約翰・麥卡錫(John McCarthy)在這次活動的資助提案中創造了這個詞語,旨在召集人們討論如何建造能夠使用語言、像人類一樣解決問題並能自我改善的機器。但這是個好選擇,也抓住了這場會議的核心前提:任何人類智慧的特徵「原則上都能被如此精確地描述,使得機器可以被製造來模擬它」。
在他們的提案中,研究團隊列出了「人工智慧問題」的幾個面向。其中最後一項——事後看來或許最困難的一項——是打造一台能展現創造力與原創性的機器。
當時,心理學家仍在努力定義並測量人類的創造力。主流理論認為創造力是智慧與高IQ(智商)的產物,但心理學家並不確定該用什麼理論取代它。達特茅斯的組織者們提出自己的看法:「創造性思維與乏味但能力稱職的思維之間的差別,在於注入了一些隨機性」,他們寫道,並補充這種隨機性「必須由直覺引導,才能有效率」。
將近 70 年後,隨著該領域歷經一連串的繁榮與衰退週期,我們如今擁有或多或少遵循這種方式的 AI 模型。近三年來,大型語言模型迅速崛起,而另一種類型、基於擴散模型(diffusion models)的 AI,也在創意領域造成前所未有的影響。透過將隨機雜訊轉換成有意義的模式,擴散模型能生成新的圖像、影片或語音,並由文字提示或其他輸入引導。最好的模型甚至能創造出與人類作品無法區分的成果,也能產出奇異、超現實、明顯非人類的結果。
如今,這些模型正進入比任何領域都更容易被顛覆的創意範疇:音樂。AI 生成的作品——從管弦樂到重金屬——正準備以前所未有的方式滲透進我們的生活,遠比任何其他 AI 產品深入。我們可能會在串流平台、派對或婚禮播放清單、配樂等地方聽到這些歌曲,而不一定察覺是誰(或什麼)創作了它們。
多年來,擴散模型在視覺藝術世界中已掀起爭論,人們質疑它們產出的作品究竟是創造還是複製。如今,這場爭論來到音樂領域——一門深深嵌入我們經驗、記憶與社會生活的藝術。音樂模型現在能創作出能引發真實情感反應的歌曲,顯示在 AI 時代中,要定義作者身分與原創性變得多麼困難。
法院也正在積極處理這片模糊地帶。主要唱片公司正起訴頂尖 AI 音樂生成器,指控擴散模型僅僅複製人類藝術,且不向藝術家付費。模型開發者則反駁,他們的工具是為了協助人類創作。
在判定誰是誰非的過程中,我們被迫重新思考人類創造力本身。無論是在人工神經網路或生物神經網路中,創造力是否只是龐大統計學習與連結的結果,再加上一些隨機性?如果是這樣,那麼作者身分是否變成一個滑動的概念?如果不是——如果創造中有某種明確的人類成分——那它是什麼?若沒有人的創作者,作品仍能感動我們嗎?我第一次聽到 AI 創作的歌曲時不得不面對這些問題——那首歌非常棒,但令人不安的是,它只是某人輸入提示後按下「生成」而已。這種處境很快也會降臨到你身上。
(Abstract from: Replication and Creation by James O’Donnell ; in MIT Technology Review Vol 128 No. 3, May/June 2025, Featuring: Muse or machine? Defining Creativity in the age of AI; Replication and Creation by James O’Donnell, pg 36-41)
延續閱讀:從「新視覺」到新媒體
on Monday
史識 庫
詹姆斯.奧唐奈:複製與創作(2)
Making connections(建立連結)
達特茅斯會議之後,參與者們開始投入不同的研究方向,建構出 AI 的基礎技術。與此同時,認知科學家則響應美國心理學會會長 J.P. Guilford 在 1950 年的呼籲,開始研究人類的創造力。他們最終提出一個定義,並由心理學家 Morris Stein 在 1953 年於《心理學期刊》中正式提出。創意作品必須既新穎——代表它們帶來一些新的事物;又有用——代表它們對某人有某種用途。有些人認為「有用」應該改成「令人滿意」,也有人主張應加入第三項標準:創意作品也應該令人驚喜。
到了 1990 年代,功能性磁振造影(fMRI)的興起使得研究多種創造力相關的神經機制變得可能,包括音樂。近年來的計算方法也讓科學家更容易描繪記憶與聯想思維在創意決策中的角色。
目前所形成的並不是一套完整的統一理論,用來解釋創意如何在大腦中產生與展開,而更像是不斷累積的強大觀察結果。我們可以先將人類創意過程分成不同階段,包括提出構想的階段,以及之後更批判、更評估性的階段,用來判斷想法是否具有價值。主導這兩個階段的一項重要理論稱為「聯想創造力理論」,該理論主張:最有創造力的人能在遙遠的概念之間建立新穎的連結。
「這就像擴散式的啟動一樣,」賓州州立大學創造力認知神經實驗室領導者 Roger Beaty 說:「你想到一件事,它就會啟動與之相關的其他概念。」
這些連結往往特別依賴語意記憶——儲存概念與事實的記憶系統,而非情節記憶(儲存特定時間與地點的經驗)。近年來,更精密的計算模型被用來研究人們如何在「語意距離」極大的概念之間建立連結。例如,「apocalypse(末日)」與「nuclear power(核能)」相比,「apocalypse」與「celebration(慶典)」在語意上反而更疏遠。研究顯示,高度有創造力的人可能會感覺語意上非常不同的概念彼此更接近。
研究發現,藝術家比非藝術家更能在更遙遠的語意距離間產生文字聯想。其他研究也支持另一個觀點:具有創造力的人往往擁有「漏接式注意力」(leaky attention)——也就是說,他們經常注意到與當下任務並不特別相關的資訊。
用來評估這些歷程的神經科學方法並不支持「創造力來自大腦某個特定區域」的說法。創造力研究領域的重要學者 Dean Keith Simonton 在《劍橋創造力神經科學手冊》中寫道:「大腦中並沒有任何區域能像腺體分泌荷爾蒙那樣產生創造力。」
證據反而指出,創造性思考會啟動數個分散的神經網絡,Beaty 說——其中一個負責透過聯想思維產生最初的想法,另一個負責辨識有潛力的點子,還有一個負責評估與修改。
哈佛醫學院的研究者在今年二月發表的一項新研究進一步指出,創造力甚至可能涉及抑制 某些特定的腦部網絡,例如那些與自我審查相關的區域。
到目前為止,機器的創造力——如果你願意這麼稱呼的話——看起來非常不同。雖然在達特茅斯會議時,AI 研究者主要著眼於打造模仿人腦的機器,但到了擴散模型問世(大約十年前)時,研究焦點已經轉移。
了解擴散模型如何運作的最好線索就是它們的名字。如果你把沾滿紅墨水的畫筆浸入一杯清水中,墨水會擴散並隨機旋繞,最後整杯變成淡粉色液體。擴散模型則反向模擬這個過程,從隨機雜訊中重建出可辨識的形體。
若想理解這如何應用在影像上,不妨想像一張大象的照片。為了訓練模型,你會先複製這張照片,並在上面加上一層隨機的黑白雜訊。然後你製作第二份並加更多雜訊,如此反覆數百次,直到最後一張影像完全是雜訊,完全看不到大象的蹤影。
對於中間的每一張影像,統計模型必須判斷:影像中有多少是雜訊、有多少是真正的大象。它會將自己的猜測與正確答案比較,並從錯誤中學習。經過數百萬張影像的訓練後,模型會越來越擅長「去雜訊」,並將這些模式與描述(例如「在空曠原野中的婆羅洲雄性大象」)連結起來。
(Abstract from: Replication and Creation by James O’Donnell ; in MIT Technology Review Vol 128 No. 3, May/June 2025, Featuring: Muse or machine? Defining Creativity in the age of AI; Replication and Creation by James O’Donnell, pg 36-41)
on Tuesday
史識 庫
詹姆斯.奧唐奈:複製與創作(3)
在模型訓練完成後,生成新影像就只需要反轉此過程。如果你給模型一個提示,例如「長滿苔蘚的森林裡一隻快樂的紅毛猩猩」,模型會從一張隨機的白噪音影像開始,然後反向運作,利用其統計模型一步步去除雜訊。
起初只會顯現出粗略的形狀與顏色,細節會逐漸出現,最終紅毛猩猩便浮現出來──即便模型並不以人類的方式“知道”什麼是紅毛猩猩。
生成音樂依賴人類創作的藝術。未來,AI 音樂模型可能會使用自己的產出作為訓練資料——這在其他 AI 領域也正在被嘗試。由於模型從隨機噪音開始,它們是非決定性的;即使給同一個 AI 模型相同的指令,每次也可能產生不同的歌曲。這也是因為許多擴散模型(包括 Udio)的使用者在過程中加入了額外的隨機性——本質上是在每一步對生成的波形進行極細微的扭曲,添加一些不完美之處,讓輸出更有趣或更真實。達特茅斯會議的主辦者早在 1956 年就曾建議採用這種策略。
根據 Udio 的共同創辦人兼營運長 Andrew Sanchez 所說,生成式 AI 程式中固有的這種隨機性讓許多人感到震驚。在過去 70 年中,電腦執行的都是決定論程式:輸入某個指令,就會得到相同的回應。
「我們的許多藝術家合作夥伴會說:『為什麼它會這樣做?』」他說。「而我們也只能說:『呃,我們其實也不知道。』」生成式時代要求創造這些技術的公司建立新的思維方式:AI 程序可能會混亂、難以解釋。
這些結果到底是創作,還是單純複製訓練資料?AI 音樂的愛好者告訴我,我們也可以用同樣的問題來詢問人類的創造力。當我們在年輕時聆聽音樂時,大腦的學習機制會受到這些輸入的影響;這些歌曲的記憶會形塑我們的創作輸出。萊斯大學的作曲家兼音樂教授 Anthony Brandt 在最近的一項研究中指出,人類和大型語言模型都會利用過去的經驗來評估可能的未來情境,並做出更好的選擇。
確實,人類藝術——尤其是音樂——大多是借鑒而來的。這往往會導致法律訴訟,因為藝術家會指控某首歌在未經允許的情況下被複製或取樣。一些專家認為,擴散模型應該更加透明,讓我們可以知道某首歌的靈感可能有部分來自 David Bowie,也有部分來自 Lou Reed。Udio 表示,相關研究仍在進行中,但目前沒有人能可靠地做到這一點。
Udio 和 Suno 到目前為止的成果顯示,有相當大一群聽眾可能並不在乎自己聽的音樂究竟是由人還是由機器創作的。Suno 為創作者設置了藝術家頁面,其中一些創作者擁有大量追隨者,並完全使用 AI 生成歌曲,通常還搭配由 AI 生成的藝術家圖像。這些創作者並不是傳統意義上的音樂家,而是熟練使用提示詞的人,創造出的作品無法歸功於單一作曲家或歌手。在這個新興空間裡,我們對作者權的常規定義——以及創作與複製之間的界線——幾乎完全消融。
音樂產業正在反擊。這兩家公司在 2024 年 6 月遭到主要唱片公司的起訴,目前訴訟仍在進行。這些唱片公司,包括 Universal 和 Sony,指控 AI 模型受訓於「規模幾乎難以想像」的受版權保護音樂,並生成「模仿真正人類聲音錄音特質」的歌曲(例如對 Suno 的指控中提到一首類似 ABBA 的歌曲〈Prancing Queen〉)。
12 hours ago