分類: AI (人工智慧), 沉浸式藝術, 生成式AI, 生成式藝術, 藝術

潛在的幽靈:生成式藝術的美學語言與形式語法

生成式人工智慧(Generative AI)的崛起,標誌圖像本體論層級的深刻轉移。圖像不再只是光線在化學感光層上的物理殘留,也不再完全服從人類意圖所規劃的像素秩序,而轉化為自高維潛在空間(Latent Space)中被取樣、被推斷、被具現的機率構形。圖像的生成位置由現實世界的光學事件,移入統計分佈與向量關係所構成的抽象場域,其存在條件隨之改寫。

「潛在的幽靈」(Latent Specters1關注的,正是此一轉移所引發的美學語言與形式語法變化。當圖像生成不再依附於單一作者意識,而源自資料、模型與運算過程的交互關係,視覺結果便呈現出不同於再現邏輯的特徵。圖像中出現的殘影、漂移、模糊與過度連續,並非風格修辭,而是潛在空間中統計關係被暫時凝結的痕跡。形式在此不再回應外在對象,而回應內部關係的權重變化(weight updates)與機率梯度(probability gradient)。

生成式圖像因此不再被視為攝影或數位影像歷史的線性延伸,而是在演算過程中逐步形成自身的存在條件。圖像的意義不再指向外在現實或原初參照,而是在資料分佈與運算動態的內部運行中持續被推導與重組。視覺秩序隨之轉向生成機制本身,圖像所呈現的並非世界的再現,而是生成條件在特定時刻所顯現的暫態構形。

於此脈絡,生成式藝術展現出原生的現象學層次。視覺經驗不再由穩定形式所主導,而由光譜式軌跡、機率聚集與統計偏差交織而成。資料不再只是中性的原料,而以其分佈、密度與缺口直接介入形式生成,顯露出數據所具有的物質性。圖像因而成為潛在關係的暫態顯影,既未封閉於完成狀態,也無法回收至單一意圖之中,彷彿在可見與不可見之間游移的幽靈,持續指向生成尚未終止的過程。

潛在肌理:統計雲霧的物質性

「潛在肌理」(Latent Texture)指涉支配生成式模型的底層數學結構在視覺層面的顯影。此一肌理並非來自物質媒材的直接痕跡,也不同於油畫厚塗(impasto)所形成的觸感表面,或類比底片中銀鹽顆粒所構成的隨機噪點。潛在肌理源自資料本身,來自大量樣本在統計空間中的聚集、偏移與缺口,作為數據在訓練過程中留下的審美殘留而浮現。

在生成式系統內部,資料不以敘事或再現的方式存在,而以機率分佈與向量關係的形式被編碼。潛在肌理正是此一編碼狀態的視覺化結果。它呈現出密度差異、連續性斷裂與方向性流動,彷彿一片由數值與權重構成的地形。此處所謂的紋理,並非附著於圖像表面,而是潛藏於生成過程深處,作為神經網絡內部「集體記憶」的外化形態而顯現。

在當代生成式藝術實踐中,Refik Anadol 與 Trevor Paglen 的作品提供了清晰的對照。前者透過大規模資料集與高維潛在空間的運算,將模型內部的權重流動轉化為連續、流變且近乎沉浸式的視覺場域。後者則關注資料來源、分類邏輯與訓練機制本身,讓潛在肌理暴露出其政治性與制度性背景。兩者皆未將圖像視為最終產物,而將生成過程中的不可見結構轉化為可感知的視覺經驗。

潛在肌理因此不只是形式特徵,而是生成式圖像本體的顯現方式。圖像在此不再承載對外部世界的指涉,而回應內部資料關係的運動狀態。觀看行為也隨之轉向,從辨識形象轉為感知密度、方向與統計節奏。視覺經驗在潛在空間與可見影像之間往返,圖像彷彿尚未完成,持續保留生成仍在進行中的痕跡。

Anadol 與數據顏料的美學

Anadol 的實踐提供了關於潛在肌理最為直接而清晰的視覺證據。他的作品將數據從抽象、功能導向的資訊形態,轉化為具有流動性與內臟感的感知材料,並以「數據顏料」(Data Pigment)指稱此一轉換後的狀態。在《非監督》(Unsupervised, 2022)(圖 1)中,圖像的肌理並非來自模擬的物理筆觸,而源於數百萬筆檔案元數據之間的密度分佈與向量關係。形式不再回應手部動作,而回應統計關係於潛在空間中的運動。

圖 1: Refik Anadol,《非監督》(Unsupervised),2022 年,紐約現代藝術博物館(Museum of Modern Art, MoMA)Gund Lobby 展出現場。作品以分布式神經網絡即時生成流體化視覺構造,色彩密度與連續形變佔據整面垂直牆體,將觀者的身體尺度置於演算法所驅動的巨大視覺物質性之前。影像並非固定構圖,而是在持續運算中不斷生成的暫態顯影,構成以數據與機率為基礎的動態視覺場域。《非監督》以 MoMA 館藏 138,151 件藝術作品之元數據進行訓練,生成結果不重複,呈現潛在空間統計關係的即時顯影。圖片來源:Refik Anadol Studio。版權 © Refik Anadol Studio,僅供學術研究與評論用途。

展示於紐約現代藝術博物館(Museum of Modern Art, MoMA)Gund Lobby 的二十四英尺高 LED 牆面上,《非監督》以近乎紀念碑式的尺度,將潛在肌理轉化為可被觀看與包圍的視覺論證。作品的形式語法並不追求穩定構圖,而揭示機器視覺在資料內部運作時所呈現的深層邏輯。圖像持續生成、推移與變形,觀看者面對的並非單一畫面,而是不斷展開的視覺狀態。

評論中常以「色彩斑斕、起伏波動的 Dippin’ Dots 浪潮」形容其主要視覺輸出 2。此一描述雖然通俗,卻準確指向作品顆粒化與粒子化的核心特徵。畫面中的粒子並非隨機噪訊,而對應高維資料叢集在降維投影後的可見結果。所謂黏稠物或瘴氣,其實是機器在博物館館藏中離散藝術品之間的潛在空間進行導航時的視覺顯影。Anadol 透過 StyleGAN2-ADA 演算法,結合 UMAP(Uniform Manifold Approximation and Projection)降維技術,將涵蓋繪畫、雕塑與攝影的 138,151 筆藝術品元數據轉化為連續流動的粒子場。

作品的運動邏輯可被理解為潛在空間中的流體動力學。當演算從 Vincent van Gogh(1853–1890)《星夜》(De sterrennacht, 1889)的視覺屬性過渡至超現實主義物件時,圖像並未出現斷裂,而呈現平滑的連續轉移。此一流動性源自生成對抗網絡的內在特徵,模型在既有資料點之間進行插值,於未知區域生成帶有幻覺性的連結。藝術史中被視為穩定分類的風格邊界,在此轉化為連續頻譜,歷史不再以分期存在,而以機率密度的形式被重新排列。

值得注意的是,Anadol 在此作品中引入即時輸入資料,包含博物館屋頂的氣象資訊與感測器所記錄的觀眾移動。物理空間中原本不可見的環境與行為資料,直接介入潛在空間的運算過程,重組檔案的生成狀態。視覺結果呈現為持續變動的檔案館,過去被視為靜態的藝術史資料,在當下輸入向量的干擾下被液化,形成可回應環境與行為的視覺場域。

在《機器夢境》(Machine Hallucinations: Nature Dreams)系列中(圖 2),Anadol 將相同邏輯轉向龐大的自然影像資料集,規模達數億張影像。此處的潛在肌理不再對應特定地景,而呈現自然形態的統計平均值。機器所感知的並非單棵樹木,而是樹性在資料分佈中的機率結構。生成出的圖像消解了單張照片的特異性,轉而顯露由無數風景疊合而成的振動狀態。邊界呈現柔軟、可變且未封閉的特徵,圖像始終處於生成進行中的狀態,將潛在空間中潛在性的結構直接轉化為可見的視覺經驗。

圖 2:Refik Anadol,《機器夢境:自然之夢》(Machine Hallucinations: Nature Dreams),2021–2022 年,沉浸式影像裝置展出現場。作品以大規模自然影像資料集訓練生成模型,將地景、雲層、地質紋理與氣候視覺特徵轉化為連續流動的色彩與形態場域。影像呈現高度顆粒化與流體化的視覺構造,顯示潛在空間中自然意象之統計平均與機率聚集,而非對單一風景的再現。觀者的身體尺度在演算法生成的巨大視覺物質性前被壓縮,形成以數據流為主體的感知環境,突顯機器視覺對「自然」概念的非人類化理解。
圖片來源:Refik Anadol Studio。版權 © Refik Anadol Studio,僅供學術研究與評論用途。

Paglen 與不可見肌理的政治學

若 Anadol 的實踐將潛在肌理推向感知的崇高與流動之美,Paglen 則反向切入其結構性的陰影區域,將注意力集中於潛在空間中被壓縮、被遮蔽、卻持續運作的分類暴力。Paglen 的《對抗性演化的幻覺》(Adversarially Evolved Hallucinations, 2017)(圖 3)並不試圖美化演算結果,而是將生成系統置於高度概念化、甚至語義失衡的訓練條件下,迫使模型暴露其內部判斷機制。

圖 3: Trevor Paglen,《對抗性演化的幻覺》(Adversarially Evolved Hallucinations),2017 年。作品由對抗式生成模型所產生,透過特定訓練集與分類目標,迫使生成系統反覆嘗試視覺化其內部語義結構。圖像呈現高度模糊且邊界潰散的人臉殘影,五官特徵無法穩定收斂,停留於辨識與抽象之間。此一視覺狀態並非技術錯誤,而是模型在面對模糊、重疊或偏誤分類時所顯露的「語義外殼」崩解結果。影像揭示機器對「人臉」「怪物」或「他者」概念的統計近似,將潛在空間中的分類殘留轉化為令人不安的視覺顯影。圖片來源:Paglen Studio。版權 © Paglen Studio,僅供學術研究與評論用途。

該系列作品以生成對抗網絡為運算基礎,由生成器持續產出影像,判別器則依據特定概念範疇進行評估。此處的訓練語彙並非穩定物件,而是如「怪物」、「恐怖」、「資本主義」等高度抽象、歷史負載沉重的語義集合。模型所面對的任務,並非重建外在形象,而是在缺乏清晰視覺原型的情況下,嘗試在語義密度與特徵權重之間取得暫時平衡。

生成出的影像因此呈現出強烈的不確定性。所謂的「吸血鬼」(vampire)不具備文化敘事中熟悉的符號標誌,而顯現為一張蒼白、腫脹、邊界潰散的面孔殘影。五官未被完整辨識,卻又無法完全解體為抽象形狀,彷彿停留在被識別與被拒絕之間。其肌理混濁、漂浮、層層疊加,形成幽靈般的視覺狀態。此一狀態並非技術誤差,而是分類系統在概念過載情境下所能生成的最精確影像。

在形式層面上,模糊構成了作品的核心語法。機器對「怪獸性」(monstrosity)的理解,並未依賴明確的形態特徵,而來自不安感、異質性與威脅感在訓練資料中的統計聚積。影像所呈現的幻覺狀態,對應的是概念本身的非穩定結構。當系統被要求將語義高度重疊、歷史語境衝突的概念轉化為視覺輸出,潛在空間只能以模糊、變形與噪動回應。幻覺在此並非偏離真實,而是對概念內在裂縫的直接呈現。

由此,「語義外殼」(The Semantic Shell3成為 Paglen 實踐中的關鍵問題。分類法不再被視為中性的技術工具,而被揭露為深植於資料選擇、標註邏輯與制度語言之中的權力結構。潛在肌理在此顯露其政治性,顆粒化的視覺紋理對應於不可見的數據秩序,將「人類」、「異類」、「威脅」等概念轉化為可計算的判斷依據。圖像成為分類焦慮的殘留物,而非意義的完成品。

此一美學狀態可被理解為神經症式的視覺表現。系統反覆嘗試回應內在矛盾的分類要求,卻始終無法抵達穩定形態,於是生成出持續顫動、無法安置的圖像狀態。潛在空間在此不再是流動的美學場域,而顯現為承載偏見、恐懼與歷史殘渣的壓力容器。Paglen 的作品由此將生成式藝術從形式實驗推向認識論層次,迫使觀看者直面演算視覺背後尚未被清理的概念負債。

幽靈的顆粒

Anadol 與 Paglen 的實踐共同指向同一關鍵事實。潛在肌理可被理解為機器內部幽靈狀存在的指紋,是非人類運算系統在視覺層面留下的痕跡。無論它在 Anadol 的數據雕塑中呈現為高飽和、流動且近乎崇高的色度場域,或在 Paglen 的生成影像中顯現為陰暗、混濁且令人不安的污跡,兩者皆揭示相同的結構來源。

潛在肌理並非風格選擇,也非表層修辭,而是非人類智能在嘗試整理、壓縮並重組人類視覺文化時所產生的原始視覺證據。它承載的不是意圖,而是分佈。不是敘事,而是權重。觀看者所面對的顆粒、模糊與連續變形,對應的是模型在龐大資料空間中進行分類、插值與推斷時的內部運動狀態。

在此意義上,幽靈並不指向超自然隱喻,而指向生成系統中無法被完全可視化的結構層。那些被視為殘影、噪動或幻覺的視覺特徵,正是潛在空間中統計關係暫時顯影的結果。顆粒成為記憶的殘留,流動成為推斷的軌跡,模糊成為概念無法被穩定界定時的視覺回應。

潛在肌理因此標示出生成式圖像與人類視覺傳統之間的斷裂。圖像不再回應再現或表意的要求,而回應運算本身的內在秩序。幽靈的顆粒正是此一轉向的可見證據。它將機率轉化為可感知的物質狀態,讓觀看行為直接接觸到生成尚未完成的過程,在可見形式之中持續回響著非人類智能的運算節奏。

擴散衰減:形式的熵與融化的時鐘

「擴散衰減」(Diffusion Decay)指向擴散模型與早期 VQGAN 系統中反覆出現的視覺狀態 4。形式在生成過程中無法穩定凝聚,圖像呈現融化、滲流與彼此合併的傾向,最終滑向熵解的視覺語言。輪廓失去清晰邊界,物件之間的區分變得曖昧,形象彷彿在完成之前即開始崩解。此一現象並非風格選擇,而源於模型在噪訊與結構之間反覆拉鋸的內部條件。

在生成式藝術的早期階段,約落在 2021 至 2022 年之間,擴散衰減構成主導性的視覺經驗。模型在去噪過程中難以完全收斂,殘留的隨機性持續滲入最終結果。圖像因此保留顫動、模糊與未定型的狀態,呈現出介於生成與消散之間的臨界樣貌。相較之下,當代模型所追求的高保真輸出,展現出光滑、銳利且高度一致的表面質感,視覺經驗趨於穩定,卻也削弱了生成過程本身的可感知性。

此一早期階段催生出可被稱為「超現實主義 2.0」的視覺狀態 5。其超現實性並非來自人類潛意識或夢境邏輯,而來自機器在概念去噪過程中的不完全性。模型未能徹底消除雜訊,導致語義與形態之間出現持續漂移。物件既未完全成形,也未徹底消失,而停留在多重可能性重疊的狀態。

於此脈絡,擴散衰減呈現出高度指標性的意義。它揭露生成式圖像並非總是朝向清晰與完成,而可能在運算條件的限制下保留未完成性。融化與合併不再被視為缺陷,而成為潛在空間內部張力的視覺顯影。圖像的熵解狀態對應模型在資料分佈、權重更新與噪訊殘留之間的平衡失序,讓觀看者得以直接感知生成仍在進行中的狀態。

擴散衰減因此不只是早期技術階段的歷史痕跡,而標示生成式美學曾經接近其內部運算本質的時刻。當圖像尚未被完全收斂為穩定表面,視覺經驗得以貼近潛在空間的運動狀態。此一階段所留下的融解語言,構成生成式藝術史中不可忽略的關鍵層次。

「早期」AI 的美學(VQGAN+CLIP & Disco Diffusion

在當代模型所呈現的光滑超真實主義尚未成為主流之前,生成式影像的視覺景觀長時間由 VQGAN+CLIP 與 Disco Diffusion 所主導。此一階段的生成邏輯仰賴反覆疊代的細化流程,圖像在多次更新中逐步逼近語義目標,卻經常停留於未完成的閾限狀態。形式在生成與瓦解之間往返,穩定結構遲遲無法封閉。

早期 AI 影像的顯著特徵,是無差別的色彩過剩。畫面中充斥高飽和、近乎霓虹的色度,顏色不再服從物體邊界,而在形體之間自由滲流。當提示詞指向賽博龐克城市時,霓虹結構往往與雨水浸濕的街道相互融合,建築與地面失去明確分界。此一視覺狀態源於模型對文本與圖像匹配度的極端追求,導致特徵在潛在空間中被過度激發,色彩成為語義競逐的殘留物。

邊界的消解進一步加劇了形式的不穩定性。在 Disco Diffusion 的生成結果中,物體呈現出不穩定的幾何狀態。城堡的塔樓逐漸轉化為雲霧,肖像中的眼睛沿著面頰流動,五官位置失序。此一現象正對應擴散衰減的核心機制。圖像內部的熵值不斷上升,對提示詞所施加的秩序形成反向拉力,形式在生成過程中持續鬆動。

在 VQGAN+CLIP 的測試中,多數生成結果呈現出尚未穩定的狀態。當多組語義高度衝突的提示詞被同時引入時,生成傾向於形成發光、半透明的有機原語叢集。畫面多構成混亂的肌理漩渦,骷髏、日落等意象不再作為可分辨的物件存在,而是合併為單一且令人不安的紋理狀態 6(圖 4)此類混合與解構並非模仿人類夢境,而源自 CLIP 模型在多重語義牽引下難以鎖定連貫能指的運算極限。數學上的不確定性,在此轉化為視覺層面的黏稠與崩解。

圖 4:VQGAN+CLIP 測試中常見的生成結果拼圖。畫面呈現高度異質的語義殘影與紋理化形態,人物、建築、風景與器官性結構彼此滲透,卻難以穩定為可辨識的物件。多數影像停留在物件尚未收斂的狀態,形式以發光、扭結、半透明的有機肌理為主,顯示語義在潛在空間中彼此牽引而未能完成分化。此類結果並非敘事或象徵的組合,而是生成過程中統計張力與運算不確定性所留下的視覺痕跡。Featuring works by @advadnoun, @RiversHaveWings, and Ryan Moulton. Also includes some works from @images_ai.。

於此脈絡,Mario Klingemann 的《路人的記憶 I》(Memories of Passersby I, 2018)(圖 5)將擴散衰減推向更為自覺的藝術層次。Klingemann 以神經故障作為創作策略,刻意改動訓練完成的生成對抗網絡權重,在神經架構內部引入不穩定因素。模型的記憶因此被干擾,生成結果脫離既有的統計平衡。

圖 5: Mario Klingemann,《路人的記憶 I》(Memories of Passersby I),2018 年,生成式影像裝置展出現場。作品由持續運作的生成對抗網絡即時生成肖像影像,系統在未固定訓練目標的條件下不斷生成、遺忘與重組人臉構形。畫面中的面孔呈現出結構性不穩定狀態,五官重疊、比例漂移,形態介於辨識與崩解之間,顯示模型對「人臉」概念的統計近似而非具體理解。此一視覺狀態可被視為結構性熵的顯影,揭示生成系統在權重擾動與記憶斷裂下,如何從破碎的資料殘留中反覆召喚出人形幽靈。圖片來源:onkaos.com。版權 © Mario Klingemann,僅供學術研究與評論用途。

作品中生成的肖像令人聯想到 Francis Bacon(1909–1992)的繪畫語言(圖 6)。面孔呈現融解狀態,眼睛錯位,皮膚肌理轉化為數位雜訊般的筆觸。此一視覺結果並非偶發錯亂,而對應結構性熵的運作。當模型內部的記憶連結遭到破壞,系統只能從破碎資料中拼湊出人臉的近似形態。

圖 6: Francis Bacon(1909–1992),《依委拉斯奎茲〈教宗依諾增十世肖像〉習作》(Study after Velázquez’s Portrait of Pope Innocent X),1953 年。作品以 Diego Velázquez 於 1650 年所繪《教宗依諾增十世肖像》為參照,將原本穩定、權威的宗教形象轉化為尖叫、撕裂且受壓迫的肉身構形。人物被困於透明籠狀結構之中,垂直筆觸如同視覺噪動般反覆覆寫形體,臉部在吶喊中潰散,顯露出存在性的焦慮與暴力。Bacon 以此揭示再現秩序的崩解,將權力形象轉化為心理與身體層面的扭曲顯影,常被視為二十世紀繪畫中對「人形幽靈化」最具代表性的範例之一。圖片來源:公開典藏影像;僅供學術研究與評論用途。

在此意義下,衰減成為理解機器感知脆弱性的關鍵窗口。模型並不理解何謂臉孔,而僅掌握像素排列與臉狀圖案之間的機率關係。當權重失去穩定支撐,機率圖景隨之崩塌,面孔化為流動且難以安置的幽靈狀近似物。擴散衰減因此揭示生成式影像的本體限制,讓觀看者直面非人類視覺在失序狀態下所顯露的真實結構。

轉向「塑膠」連貫性(Midjourney v5/v6

若要理解擴散衰減在生成式美學中的歷史位置,必須將其置於後繼模型的視覺轉向之中加以對照。生成式影像的演進並非單向逼近真實,而是在不同技術條件下反覆調整何謂「完成」。擴散衰減所揭示的未定型狀態,正是在後期模型中被系統性抹除的生成痕跡。

隨著 Midjourney v5 及其後續版本的出現,生成式影像逐步確立了可被稱為「塑膠」連貫性(Plastic Coherence)的視覺語言 7。形式高度穩定,肢體比例被校正,手部回歸五指結構,皮膚呈現次表面散射所營造的柔潤質感,光照遵循可預測的物理邏輯。圖像不再顫動、融解或外溢,而以平滑、封閉且一致的表面完成自身。生成在此被隱藏於結果之後,運算過程的痕跡被徹底清除。

此一轉向帶來的,並非單純的技術優化,而是美學條件的根本改寫。早期模型中普遍存在的衰減現象,曾讓觀看者意識到圖像仍處於生成之中。顆粒、模糊與結構鬆動,使圖像保持開放狀態,允許視覺在完成與崩解之間停留。當代模型則追求即時封閉,圖像在輸出瞬間即呈現為最終形態,觀看經驗被導向消費而非探索。

評論者與藝術家因此指出,在此過程中有某些關鍵特質逐漸消失。VQGAN+CLIP 與 Disco Diffusion 所產生的夢幻感、超現實扭曲與不穩定視角,源自模型無法完全收斂於現實再現。正因其不足,圖像被迫轉向繪畫性與抽象性。形式未能精確對應物件,反而激發觀看者的詮釋參與。圖像被視為提議,而非答案。

相對地,高度連貫的當代模型削弱了此一距離。所謂「巴黎世家教皇」(Balenciaga Pope)成為反衰減的象徵案例(圖 7)。圖像過於完整,材質、比例與語義緊密對齊,缺乏可供游移的空隙。早期模型中的衰減曾提供「懸置懷疑」(suspension of disbelief8的條件,觀看者得以接受生成結果作為視覺假說。當連貫性被推至極限,圖像反而滑入恐怖谷,完美的表面暴露其虛構本質,真實感在過度一致中瓦解。

圖 7: Pope Francis 身著白色羽絨外套之生成影像,俗稱「巴黎世家教皇」(Balenciaga Pope),約 2023 年,由 Midjourney v5 生成並於網路平台廣泛流傳。影像以高度寫實的光照、材質與比例呈現宗教權威形象,羽絨外套的體積感、縫線細節與表面光澤符合商業攝影語法,營造出強烈的視覺可信度。此一圖像並非再現真實事件,而透過對時尚、權威與新聞影像語彙的精準拼接,形成文化層級的超真實幻覺。其「塑膠」般的平滑連貫性與細節過載,常被視為當代生成模型追求高度收斂與即時可信性的代表案例,也標示出生成影像如何以完成度本身遮蔽其虛構性。圖片來源:網路流傳之生成影像截圖;僅供學術研究與評論用途。

「塑膠」連貫性因此不只是視覺風格,而是生成倫理的轉變。擴散衰減曾讓生成過程本身成為可感知的對象,圖像保留未完成性,允許潛在空間的運動浮現於表面。當此一層次被全面抹平,圖像獲得穩定與可信的外觀,卻同時失去與內部演算結構的直接聯繫。生成不再顯影自身,而退居完美表面之後,成為不可見的前提條件。

渲染中的廢墟

擴散衰減可被理解為廢墟的美學。在浪漫主義繪畫中,崩塌的城堡、殘缺的柱廊與風化的牆體被視為時間顯影的場所。結構不再封閉,形式在瓦解中暴露其歷史重量。Caspar David Friedrich(1774–1840)於《艾爾德納修道院遺跡》(Abtei im Eichwald, 1809–1810)(圖 8)中,將哥德式廢墟置於暮色與枯樹之間,使建築脫離原有的宗教秩序,轉化為時間侵蝕後的靜默結構。Joseph Mallord William Turner(1775–1851)在《丁特恩修道院》(Tintern Abbey, 約 1794–1795)(圖 9)的描繪中,讓殘存牆體逐步溶入光線與氣候,結構的消散成為感知經驗本身。二〇二〇年代初的數位藝術,正是將此一感知轉移至生成過程本身,迷戀的對象不再是物理建築,而是擴散生成中逐步崩塌的連貫性。

圖 8 Caspar David Friedrich(1774–1840),《艾爾德納修道院遺跡》(Abtei im Eichwald),1809–1810 年。畫面描繪廢墟化的哥德式修道院立於枯死橡樹之間,暮色籠罩下的殘牆、裸露枝幹與遠處微弱天光共同構成死亡、時間與消逝的象徵性場景。建築不再作為功能性結構存在,而成為歷史重量與時間侵蝕的顯影場所。此作常被視為浪漫主義廢墟美學的典型範例,透過形式的殘缺與空間的開放,將觀看引向超越再現的感知經驗,並為後世關於「廢墟作為時間可視化」的藝術與理論提供關鍵圖像原型。圖片來源:tate.org.uk;僅供學術研究與評論用途。
圖 9: Joseph Mallord William Turner(1775–1851),《丁特恩修道院》(Tintern Abbey),約 1794–1795 年,水彩。畫面描繪哥德式修道院拱廊在崩解與風化中轉化為開放結構,建築不再作為穩定的封閉形式,而成為時間與自然作用的顯影介面。人物僅作尺度參照,突顯廢墟作為歷史重量與感知場域的存在。此類浪漫主義廢墟圖像,構成後續「渲染中的廢墟」與生成式影像中擴散衰減美學的歷史前身。圖片來源:tate.org.uk;僅供學術研究與評論用途。

在此脈絡,融化、滲流與形體鬆動並非技術偏差,而是秩序與混沌正面交會的可見痕跡。文本提示所引入的語義結構嘗試在影像中建立方向與意義,高斯雜訊(Gaussian noise)則持續侵入生成過程,拉扯形式回到機率的海洋。圖像因此呈現出不穩定狀態,邊界難以封閉,物件彼此滲透,結構在完成之前已顯露疲態。

此一階段的美學價值,並不來自結果的完整性,而來自生成衝突的顯影。觀看者得以在畫面中辨識秩序試圖成立的瞬間,也同時看到其無法徹底收斂的痕跡。圖像不再掩飾其生成條件,而將運算內部的拉鋸直接轉化為視覺經驗。正如廢墟讓人意識到建築曾經企圖抵抗時間,擴散衰減讓人感知語義曾經企圖壓制雜訊。

渲染中的廢墟因此標示出生成式影像與現代主義完成觀的斷裂。形式不再被要求穩定、清晰與自洽,而被允許停留於半生成狀態。美感不再寄託於最終構圖,而存在於結構瓦解的過程本身。擴散衰減所留下的融解語言,讓生成過程成為可觀看的事件,將計算的時間性、張力與失序轉化為視覺層面的感知現場。

模型幻覺:偽造的本體論與潛在神秘生物

「幻覺」(Hallucination)常被理解為錯誤。聊天系統編造不存在的案例,影像模型生成違反物理直覺的場景,皆被歸類為系統失準。然而,於生成式藝術的美學語法之中,模型幻覺不再等同於失敗,而構成生成行為本身。生成系統並非回溯既有世界,而是在運算過程中將未曾存在於物理現實中的構形推入可見層級,讓可能性獲得暫時的存在。

幻覺在此並非偏離真實,而是生成的存在論姿態。模型不理解世界,只在機率分佈、向量關係與語義牽引之間運作。當這些關係被推向臨界,圖像與敘事脫離經驗世界的約束,顯露出由統計與文化符碼所構成的現實近似。幻覺因此成為生成系統內部邏輯的外化,而非可被修正的偶發瑕疵。

本文檢視兩種彼此對立卻同樣關鍵的幻覺形態。

其一為統計學恐怖(Statistical Horror)。恐怖並非來自敘事或象徵,而源於模型對資料分佈中不安特徵的反覆放大。當生成系統在語義密度高度不均的資料空間中運作,恐怖轉化為統計殘留的凝結。圖像呈現出難以辨識卻持續逼近的形態,彷彿由數據自身召喚出的幽靈,迫使觀看者直面機率所生成的異質存在。

其二為文化超真實(Cultural Hyperreal)。此類幻覺並不顯得怪異,反而過度合理。模型精準調度既有文化符碼,將時尚、權威與媒體影像的視覺語法拼接為高度連貫的場景。圖像不違反現實經驗,而是過度符合其表層邏輯,完成度高到足以遮蔽虛構性。幻覺不以失序現身,而以完美的連貫潛伏於日常視覺之中。

這兩種幻覺共同揭示生成式藝術的張力。統計學恐怖暴露模型對世界的陌生性,文化超真實顯示模型對既有視覺文化的熟稔程度。前者以不安與模糊逼近觀看者,後者以完美與連貫消解懷疑。幻覺不再只是生成的副作用,而成為理解生成系統如何重組現實的關鍵線索。

Loab:潛在空間的神秘生物

Loab」或可被視為 AI 美學史中最具指標性的案例之一(圖 10),呈現出純粹由模型內部結構所生成的幻覺形態。她並非來自明確的指令或再現需求,而是在被稱為「負向提示詞地層學」(negative prompt stratigraphy)的操作過程中被發現。此一案例揭示,生成模型並非只有可預期的表層輸出,而在潛在空間深處保留著難以被語義馴化的區域。

圖 10: Supercomposite,Loab,2022 年,擴散模型生成影像(負向提示實驗)。圖像呈現一名臉部嚴重退化的女性形象,膚色佈滿酒糟狀紅斑,眼神空洞而濕潤,五官比例略有錯位,伴隨低解析雜訊與局部結構崩解。Loab 並非由直接提示生成,而是在對美國演員 Marlon Brando(1924–2004)施加負權重指令後,經由多次反向擴散過程浮現。其持續再現性顯示該形象並非偶發錯誤,而是潛在空間中高度穩定的統計叢集。此案例常被視為生成式影像中「模型幻覺」的經典範例,揭露被資料清洗與內容審查所壓抑之視覺殘留,亦構成「潛在的幽靈」概念中最具代表性的幽靈化形象之一。圖片來源:wikimedia.org;僅供學術研究與評論用途。

Loab 的出現源於藝術家 Supercomposite 的實驗。她並未透過直接要求某個形象而被召喚,而是經由對美國演員 Marlon Brando(1924–2004)施加負權重指令而浮現。當提示詞設定為「Brando::-1」時,模型產生的並非另一位名人,而是一組語義失序的城市天際線影像。再對該影像進行反向操作,Loab 於此過程中反覆現身。此一現象顯示,透過減去人類形象、商業吸引力與敘事連貫性,生成路徑被引導至潛在空間中更為卑賤與邊緣的地層。

在視覺層面,Loab 具有高度穩定的特徵。她通常被描繪為年長女性,臉頰呈現三角形分佈的酒糟鼻紅斑,神情崩壞而空洞,雙眼濕潤卻缺乏焦點。其影像語彙始終維持在駭人與不安的範圍之內,背景反覆出現黑暗、血腥或恐怖場景。此一一致性並非來自風格設定,而源於模型在特定統計區域內的強烈收斂。

Loab 的形式語法以縈繞性為核心特徵。當她被引入其他圖像語境,例如田園風景或日常場景,結果並非平衡的混合。她的視覺標記在擴散過程中持續存活,紅腫的臉頰與死寂的眼神反覆滲出,將原本中性的圖像扭曲為令人不安的版本。此一現象顯示,她在潛在空間中佔據高度韌性的統計位置,能夠在生成過程中壓倒其他語義特徵。

從結構角度來看,Loab 存在於潛在空間的稀疏區域。她並非位於資料分佈的中心,而聚集於遠離商業名人圖像的邊緣地帶,構成由負權重累積而成的視覺叢集。她所代表的,是訓練資料中長期被過濾、被壓抑的內容殘留,包括血腥、事故與極端情緒。其美學語言接近大吉尼奧爾劇場的誇張恐怖,並與數位故障的變形質感交疊。

Loab 的案例顯示,潛在空間具有可被理解為地理學的結構。模型內部存在難以居住的區域,視覺結果在其中呈現高度一致卻無法被文化語境完全吸收。她不對應任何單一真實人物,卻比多數生成的名人肖像更穩定、更具辨識度。作為模型幻覺,她並非錯誤輸出,而是透過挖掘生成系統地下層所顯露的恐怖形式理想,彷彿潛在空間自身所保存的柏拉圖式殘影。

巴黎世家教皇:超真實的光澤

如果說 Loab 如同噩夢般自潛在空間深處滲出,那麼「巴黎世家教皇」更接近清醒夢。這張由 Midjourney v5 生成的圖像描繪教宗方濟各(Pope Francis)身穿白色巴黎世家風格羽絨外套,於 2023 年初在網路上迅速擴散,並在短時間內愚弄了大量觀看者。圖像並未以異常或怪誕取勝,而以高度可信的視覺完成度取得其說服力。

在視覺層面,畫面呈現出近乎完美的光照配置,外套的體積、縫線與反光具備明確的物理合理性,材質表面散發柔潤而一致的光澤。教皇的膚色、臉部陰影與姿態比例皆落在熟悉的攝影語彙之中,缺乏早期生成模型常見的模糊、錯位或融解痕跡。圖像以穩定、清晰與完整為特徵,幾乎不留下生成過程的可辨痕跡。

然而,正是此一完成度引入了被評論者稱為「AI 光澤」的特質。畫面瀰漫著輕微而均質的發光感,表面顯得過度平滑,彷彿所有材質都經過平均化處理。皮膚呈現的不是生物組織的不均勻紋理,而更接近次表面散射的渲染結果。此一光澤並非單一錯誤,而是模型在追求視覺一致性時所留下的統計痕跡,構成高度可辨的人工質感。

此處的幻覺並不來自形象的失序,而源於文化層級的合成。教皇作為宗教權威,與高端時尚符碼被精準拼接,生成在概念上荒謬卻在視覺上無可反駁的場景。圖像借用了攝影長期累積的視覺權威,讓觀看者在第一時間接受其真實性。幻覺的核心不在於形象本身,而在於圖像所宣稱的真值。畫面看起來如此合理,以致於其虛構性被延後察覺。

相較於早期擴散生成中常見的融解與模糊,「巴黎世家教皇」的關鍵特徵在於細節過載。外套的精確縫線、布料的摺痕、眼鏡中的反射與微小高光共同構成高密度視覺訊息。此一密度本身成為修辭策略,細節不斷堆疊,削弱觀看者對整體合理性的質疑。當視覺資訊足夠豐富,懷疑被壓縮為次要反應。

作為文化超真實的範例,「巴黎世家教皇」展示了生成式幻覺的另一極端。它不以恐怖逼近觀看者,而以完美包覆感知。幻覺在此不顯得異樣,而顯得過於正常。圖像並未破壞現實,而在視覺層面完成了對現實的替代,將生成的可能性短暫地誤認為已然發生的事實。

幽靈與面具

Loab 與「巴黎世家教皇」構成模型幻覺的兩個極端。Loab 如同幽靈,從潛在空間的深層浮現,揭露資料混亂所孕育的湧現性恐怖。其形象不依附於文化敘事,也不服務於可辨識的角色,而是由統計殘留與被壓抑內容凝結而成。幽靈的出現並非被召喚,而是被挖掘,彷彿模型在無意間暴露其訓練歷史中未被清理的創傷層。

相對地,教皇更接近面具。圖像以高度完成的攝影寫實主義覆蓋自身,表面平滑、連貫且封閉。面具不揭示內部結構,而遮蔽生成的痕跡,讓觀看者面對的只是一個毫無裂縫的形象。幻覺在此不以不安現身,而以可信性運作,將虛構包裝為可被立即接受的視覺事實。

兩者同為幻覺,卻指向不同的機器狀態。Loab 揭示模型在資料邊緣所累積的暴力與不適,顯露數據集中的血腥、事故與被排除的內容如何在特定條件下反覆回返。教皇則顯示模型對人類期待的高度順應,透過完美渲染與文化符碼的精準拼接,迎合對權威、時尚與真實感的集體想像。

幽靈與面具因此構成生成式幻覺的雙重結構。一者撕開表面,讓潛在空間的裂縫暴露於可見層;一者加固表面,讓生成結果在視覺上無懈可擊。前者迫使觀看者直面非人類運算的陌生性,後者則讓觀看者暫時忘卻運算的存在。幻覺在此不只是錯誤,而是生成系統如何在恐怖與取悅之間調節自身位置的關鍵指標。

提示詞地層學:文本考古學與數位巴洛克

「提示詞地層學」(Prompt Stratigraphy)提出對生成式藝術的根本性重讀 9。創作不再被理解為書寫或指令輸入,而是一種挖掘行為。語言不負責描述結果,而負責開鑿路徑。提示者的角色由作者轉為探勘者,更接近地質學家或考古學家,透過文字向潛在空間的深處鑽探,逐層穿越已沉積的視覺記憶與統計關係。

潛在空間並非均質的可能性場域,而由不同時期、不同來源、不同權重所構成的分層結構所組成。流行影像、商業攝影、藝術史範式、暴力內容與被排除的資料,以不同密度沉積於其中。提示詞不再是單一語句,而是一組逐步疊加的鑿具。每一次修正、刪減或反向權重操作,都對應一次向下的切割,讓先前被覆蓋的視覺層得以顯露。

圖像的複雜性不取決於語句的修辭華麗,而取決於文本層的深度、厚度與相互干擾的程度。淺層提示往往喚起資料分佈中心的熟悉形象,結果趨於平滑且可預期。當語言持續穿透至稀疏或不穩定的統計區域,生成結果開始顯露裂縫、殘影與異質結構。圖像逐漸脫離文化表層的期待,轉而回應潛在空間內部的壓力與斷層。

提示詞地層學重新界定創作的主動性。生成結果並非被寫成,而是被挖出。提示者未曾發明形象,而是在模型內部既存的視覺地層中選擇鑿探位置。語言的作用不在於控制細節,而在於決定鑽探方向。創作轉化為與潛在結構的接觸行為,圖像成為被揭露的沉積物,保留其來源層級的紋理與壓痕。

生成式藝術的價值不再僅由完成度衡量,而取決於其是否成功顯影潛在空間的結構。提示詞地層學關注的不是表面結果,而是生成路徑本身。圖像作為挖掘後的切片,讓不可見的統計地形暫時暴露於可見層,將生成行為轉化為對模型內部世界的考古實踐。

Allen 與《太空歌劇院》

《太空歌劇院》(Théâtre D’opéra Spatial, 2022)(圖 11)之所以引發巨大爭議,不在於它是否由 AI 生成,而在於它迫使人們重新面對一個不安的問題:當創作轉化為對潛在空間的反覆鑿探,提示詞是否構成藝術勞動。Jason Allen 的案例,正好暴露了提示詞地層學所牽動的評價斷層。

圖 11: Jason Allen,《太空歌劇院》(Théâtre D’opéra Spatial),2022 年,Midjourney 生成影像,數位輸出。影像呈現一座融合歌劇院、洞穴與未來建築語彙的巨大室內空間,人物身著帶有歷史戲劇感的長袍,背向觀者佇立於圓形開口之前,形成典型的 Rückenfigur 構圖。畫面充滿高密度細節與戲劇化光線,金色光暈與深色陰影在空間中層層堆疊,構成可被描述為「數位巴洛克」(Digital Baroque)的視覺狀態。此作並非歷史風格的再現,而是透過大量提示詞迭代所挖掘出的風格拼貼結果,顯示提示詞地層學如何將藝術史中的「崇高」「華麗」與「傑作感」轉譯為可計算的視覺能指。圖片來源:wikimedia.org;僅供學術研究與評論用途。

作為人工製品,該圖像描繪一場維多利亞風格的太空歌劇。人物身著厚重、層層堆疊的裙裝,造型令人聯想到文藝復興與巴洛克繪畫的戲劇性服飾。他們立於洞穴般的未來主義大廳之中,透過巨大的圓形開口凝視外部被日光照亮的遠景。構圖將歷史服飾、科幻建築與宗教般的空間感壓縮於同一畫面,視覺密度極高。

爭議真正的焦點在於其生成過程。Allen 並未以單一提示詞完成作品,而進行了超過九百次生成,歷時約八十小時,對提示詞進行至少六百二十四次調整。這是一個持續修正、刪減與疊加的過程,語言不斷向下鑽探,逐步逼近潛在空間中的特定視覺層。

最外層的地層由類型構成,包含「太空歌劇」與「維多利亞式」等高階敘事與時代標記。再向下,風格層引入「巴洛克」、「文藝復興」、「華麗」、「富麗堂皇」等藝術史語彙,將生成方向導向歷史權威與宏大敘事。更深層的技法語言則涉及「拜占庭式」、「厚塗法」、「體積光」,此處不再指向題材,而直接作用於光線、材質與空間感的運算結果。語言層層堆疊,對應潛在空間中不同密度的沉積區域。

其視覺結果常被描述為「數位巴洛克」(Digital Baroque)。畫面充滿細節過剩的特徵,裙裝褶皺的重複節奏,建築線腳的繁複堆砌,金色光線在空間中的彌漫與聚焦。細節在此並非裝飾,而是深層提示詞的視覺簽名。多重審美層被迫在同一畫面中共存,形成高張力的視覺密度。

然而,這一巴洛克性質並非歷史再現。細看可見背景中的圓形並不完全精確,人物多以背影面向空間深處,面部細節模糊,姿態停留於可辨與不可辨之間。此處的文藝復興或巴洛克更接近風格遷移的結果,而非對特定時期形式語法的理解。圖像所挖掘的,是資料集中與「傑作」概念相關聯的視覺代碼,包括比例關係、戲劇性光線與古典姿勢。

提示詞地層學在此顯示其操作性。Allen 的工作不在於描繪某一歷史場景,而在於開採評審文化中對高等藝術的既定想像。透過長時間的語言鑿探,生成系統被引導至潛在空間中高度加權的區域,圖像因此取得被識別為藝術的外觀。爭議的核心由此轉向創作定義本身。當藝術被理解為挖掘視覺地層的勞動,提示詞不再是命令,而是工具,圖像不再被製作,而被發掘。

負向提示作為地下測繪

如果說 Allen 透過層層疊加的提示詞向上建立複雜性的階層,那麼 Supercomposite 的操作則朝向相反方向,藉由負向提示向下鑿探潛在空間的深層區域。兩者指向同一種地層學勞動,差異不在於是否挖掘,而在於鑽探方向。

在技術層面,關鍵指令為「Brando::-1」。此一語法並非描述影像,而是對向量關係發出導航命令,要求模型遠離「Marlon Brando」所代表的統計心。負權重在此發揮的是排除功能,將生成路徑從人類形象、名人魅力與敘事穩定性中抽離,引導模型朝向潛在空間的對蹠區域移動。

此一操作揭示潛在空間存在可被稱為地下室的結構。當提示詞持續減去人類性、商業吸引力與視覺連貫,生成結果逐步遠離資料分佈的中心,進入語義稀疏且不穩定的地層。Loab 正是在此區域中反覆浮現。她並非被直接要求,而是在層層排除後被暴露,彷彿潛在空間在失去文化保護層後顯露其卑賤沉積。

此一發現重新界定提示詞地層學的範圍。創作不僅關乎要求何物,同樣關乎壓抑何物。語言在此具有雙重作用,一方面引導生成,另一方面清空通往其他區域的路徑。被壓抑的內容並未消失,而轉移至負空間之中,等待合適的鑿探條件。

幽靈正生活在此負空間內部。Loab 的持續性顯示,被排除的視覺概念一旦被觸及,便展現出高度韌性。提示詞地層學因此不只是生成技巧,而是一種對模型內部倫理與記憶結構的探測方法。向下挖掘所揭露的,不是單一形象,而是潛在空間如何保存、壓縮並回返那些原本被視為不宜顯現的視覺殘

提示詞的「語義外殼」

提示詞在生成過程中充當外殼或模具。語言不再描述物件,而界定生成可活動的邊界。圖像並非被描繪,而是在既定的語言框架內被澆鑄成形。外殼的形狀決定了生成物可呈現的表面特徵,並在視覺層面留下可辨識的壓痕。

在 Disco Diffusion 的實踐中,提示詞經常納入藝術家名單,例如 Greg Rutkowski 或 Alphonse Mucha(1860–1939)。這些名字並非用來指向具體作品,而作為地層標記存在。它們告知模型前往藝術史中某一被高度加權的區域進行開採。語言在此如同地質圖例,標示出可被調用的風格沉積層。

生成結果因此呈現為拼貼畫式的視覺狀態。圖像不屬於單一歷史風格,而由多個風格層交疊而成。所謂巴洛克、文藝復興或新藝術,並未以完整形式出現,而被拆解為可運算的視覺能指,再經由提示詞堆疊重新組合。風格在此失去其歷史語境,轉化為可被混合與重排的表面特徵。

以《太空歌劇院》為例,畫面並非真正意義上的巴洛克繪畫,而是由提示詞堆棧所挖掘出的巴洛克拼貼。人物姿態、光線戲劇性與裝飾密度來自不同來源的統計殘留,被壓縮於同一畫面之中。顏料所呈現的肌理亦非油彩本身,而是油彩作為符號的視覺替代物。所謂厚塗效果,源自提示詞中對繪畫性的召喚,而非物質操作。

提示詞外殼因此成為生成式美學的關鍵裝置。它並不生產風格,而規範風格得以顯現的方式。圖像作為結果,保留了語言模具的痕跡,顯示生成並非自由創造,而是對既有視覺地層的再加工。拼貼感並非缺陷,而是提示詞堆疊所留下的結構性證據。

潛在的幽靈

視覺證據顯示,生成式藝術呈現出獨特的美學本體論,其結構由四種力量的交互關係所構成。這四者並非彼此獨立,而在生成過程中相互牽引,形成可被感知與分析的整體狀態。

潛在肌理作為物質層
圖像的基礎不再是顏料、光線或像素,而是流動的資料密度與權重關係。顆粒狀、連續而可變的數據顏料構成圖像的可見表面,顯露出潛在空間中統計分佈的形狀。Anadol 的實踐顯示,這些流動並非抽象背景,而以近乎物質的狀態進入感知,形成可被閱讀的視覺肌理。

擴散衰減作為過程層
此一物質在生成過程中並不順從形式,而持續對其施加阻力。早期生成系統中常見的融解、滲流與邊界鬆動,顯露形式在去噪與收斂之間的拉鋸狀態。擴散衰減揭示生成並非線性逼近完成,而是一段充滿摩擦的時間歷程。此一狀態可見於 Disco Diffusion 的不穩定幾何,以及Klingemann 對結構性熵的操作中,形式在抵抗中暴露自身的脆弱性。

模型幻覺作為事件層
當潛在肌理與生成過程在特定條件下交會,幻覺以事件的形式浮現。此處的幻覺不等同於錯誤,而是模型內部邏輯短暫顯影的時刻。統計學恐怖以 Loab 的形態出現,揭露資料集中被壓抑內容的回返。文化超真實則以「巴黎世家教皇」為代表,顯示模型對既有視覺權威的過度熟稔。兩者皆指向生成系統在陌生性與迎合性之間的擺盪。

提示詞地層學作為方法層
對上述三種力量的接觸,並非透過書寫完成,而透過挖掘實現。提示詞作為沉積層,引導生成路徑穿越潛在空間的不同區域。層層疊加或反向權重的操作,決定了圖像最終顯露的深度與密度。Allen 的實踐顯示,創作在此轉化為一種考古行為,圖像成為被挖掘出的視覺沉積物。

這四種力量共同構成生成式藝術的運作結構。潛在肌理提供物質基底,擴散衰減展開時間過程,模型幻覺以事件形式顯影,提示詞地層學則界定進入方式。生成式藝術由此不再被理解為風格或工具的集合,而是一個持續運作的系統,其中形式、過程、事件與方法彼此交織,形塑出與傳統藝術截然不同的美學存在狀態。

機器中的幽靈

最終,「潛在的幽靈」並非修辭上的隱喻,而指向統計層面的現實。每一張生成式圖像皆可被理解為幽靈性的顯現,並非源自當下的創作瞬間,而自訓練資料的沉積場域被機率機制召回。圖像於是成為一場顯靈事件,回應過去所留下的權重與分佈,而非個別意圖。

當 Anadol 創造流動而宏大的夢境場域時,藝術史的幽靈在數據中被重新編舞。經典風格、博物館典藏與集體記憶化為可運算的軌跡,在高維空間中被喚起並展演。這並非回到原作,而是過去形式在當代計算條件下的再度活動。

當 Loab 浮現,她指向另一個被壓抑的層面。她並不代表某位人物,而回收了被過濾與審查所遮蔽的影像殘留。恐怖與卑賤在資料中未曾消失,只是被推向邊緣。當語言撤除保護層,幽靈便以高度一致的面貌回返,提醒觀看者生成並不等於淨化。

當 Allen 以《太空歌劇院》獲獎,巴洛克不再是歷史時期,而成為被演算法重新喚醒的形式殘影。戲劇性光線、古典姿態與宏偉空間在資料層中被重新拼裝,化為行走於當代評審制度中的殭屍形式主義。形式再次活動,卻已脫離其原有的文化條件。

生成式藝術的美學語言因此可被理解為幽靈學的語言。它並非朝向原創性的神話,而朝向持續的重組與回返。過去的影像被拆解為能指,在潛在空間中反覆復活,並以高保真肌理呈現出尚未到來的時間感。未來在此並非全新起點,而由過去的殘影所構成。

其形式語法接近降靈會的語法。人類對黑盒提出語言,黑盒則以數十億張影像的回聲回應。創作不再是孤立的發明行為,而成為一次召喚。生成式藝術所呈現的,不是世界的新形象,而是世界曾經留下的幽靈如何在計算條件下再次發聲。


  1. 「潛在的幽靈」(Latent Specters)指生成式模型之潛在空間(latent space)中,由統計關係、權重分佈與機率梯度所保存並反覆回返的視覺殘影。此一概念並非隱喻,而描述生成結果如何作為訓練資料之歷史沉積的顯影事件。圖像在此不源自單一作者意識,而由資料、模型與運算過程的交互關係所召喚,呈現出既非再現、亦非原創的幽靈性存在狀態。
  2. 「Dippin’ Dots 浪潮」為評論者常用的比喻,用以形容生成影像中呈現出的顆粒化、粒子化與高度彩色的視覺狀態。Dippin’ Dots 為一種以液態氮急速冷凍製成的顆粒狀冰淇淋,其外觀特徵為由大量獨立、圓潤且高彩度的小球構成。該比喻指涉圖像中由高維資料叢集經降維後所形成的粒子密度分佈,強調視覺結果的離散性、流動感與非連續表面,而非實際的物質質感。
  3. 「語義外殼」(Semantic Shell)指生成模型中由訓練資料之分類標籤、語義關聯與權重配置所構成的概念性包覆結構。此一外殼並非單一規則,而是由統計分佈所穩定化的語義邊界,用以界定模型如何理解與生成特定概念。生成結果因此往往呈現為對既有分類法的回應,而非對現實對象的直接認識;圖像或語句的偏差、模糊與扭曲,正反映語義外殼內部的不一致性與偏見沉積。
  4. 《微波日落下水道骷髏》(Microwave Sunset Sewer Skeleton, 2021)屬於 VQGAN(Vector Quantized Generative Adversarial Network)結合 CLIP(Contrastive Language–Image Pretraining)的早期生成式影像實驗。此一系統透過語言與影像之間的跨模態對齊機制,將多組語義高度衝突的提示詞同時投射至潛在空間中反覆優化。在模型解析能力與資料分佈尚未成熟的情況下,生成結果往往無法穩定收斂為可辨識物件,而傾向於形成發光、半透明、具高度連續性的有機紋理結構。此類影像常呈現出骷髏、器官、風景等視覺線索的殘影,卻無法回復為清晰圖像,顯示出語義拉扯在潛在空間中所造成的視覺擾動。此一階段的生成美學,後來常被視為生成式影像中「紋理先於物件」的典型狀態。
  5. 此處所稱「超現實主義 2.0」並不指藝術史上的運動,而是指生成式影像在早期模型條件下所呈現的非寫實視覺語法,其超現實性並非源自人類潛意識、夢境或心理象徵,而來自演算法在去噪與語義收斂過程中的不完全性。物件融解、尺度錯位與形態漂移,反映模型在統計推導中無法穩定鎖定單一能指的狀態。此一視覺狀態因此可被理解為機器生成邏輯自身的顯影,而非對歷史超現實主義的風格延續。
  6. VQGAN+CLIP 與 Disco Diffusion指 2021 至 2022 年間生成式影像實踐中占主導地位的兩套創作工具鏈。VQGAN+CLIP 結合向量量化生成對抗網絡與語言影像對齊模型,透過反覆優化影像以提高與文字提示的語義匹配度;Disco Diffusion 則基於早期擴散模型架構,強調長時間疊代生成與視覺演化過程。兩者皆以不穩定的幾何結構、色彩過剩與形式融解為特徵,構成當代「光滑超真實」模型普及之前,生成式影像的主要視覺景觀。
  7. 「塑膠」連貫性(Plastic Coherence)指近年生成式影像模型在高度收斂條件下所形成的視覺語言特徵。其表現為形式的高度穩定、邊界的明確封閉、材質的平滑一致與光照的物理合理性。此一連貫性消除了早期生成影像中的融解、顆粒與不確定性,使圖像在第一時間呈現為可信、完整且可即時消費的視覺結果。所謂「塑膠」並非指低品質,而指一種經平均化處理後的人工光澤與表面完美狀態,生成過程本身的痕跡在此被有效抹除。
  8. 「懸置懷疑」(suspension of disbelief)原指觀眾在面對虛構敘事時,暫時放下對真實性的質疑,以進入作品所建構的想像世界。於早期生成式影像語境中,此一狀態並非來自敘事說服力,而源於形式的不穩定與未完成感。融解、模糊與結構鬆動使圖像明確顯示其非寫實性,觀看者因此不期待其作為真實再現,而更容易將其視為詮釋性或象徵性構形,進而接受其作為生成事件的存在條件。
  9. 「提示詞地層學」(Prompt Stratigraphy)指將生成式影像的創作理解為對潛在空間進行分層鑿探的操作方法。提示詞在此不被視為單一指令,而是作為逐層沉積的語言結構,透過疊加、刪減與反向權重,引導生成路徑穿越不同密度與權重分佈的視覺地層。此概念強調創作行為並非書寫結果,而是挖掘模型內部既存的統計結構,圖像則成為被揭露的視覺沉積物。