Scarlett Johansson 的公眾形象已成為人工智慧、名人文化與人類情感交匯的關鍵場域。從她在《雲端情人》(Her, 2013)中對「無實體作業系統」的預言性聲音演繹,到《肌膚之侵》(Under the Skin, 2013)中透過異類視角解剖人類肉身,Johansson 逐步被塑造成後人類狀況最具代表性的文化化身。當 OpenAI 於 2024 年發布「Sky」語音助手,其聲線與 Johansson 極為相似的爭議迅速發酵,象徵性角色的文化效應因此被推向截然不同的層次,將同意權、聲音克隆與身分商品化推上全球法律與倫理辯論的前線。
與此並行的是人工智慧在日常生活中的全面滲透。Duolingo 的「Lily」角色以及 Duolingo Max 的「視訊通話」功能,清楚顯示情感設計與擬人化如何被制度化為驅動用戶參與與行為矯正的技術機制。機器對情感的「表演」與人類對情感的「經驗」之間愈發尖銳的張力,逐漸成為當代 AI 倫理問題的核心所在。這裡牽涉的不僅是電影中對 AI 的美學預言與《反假冒法案》(NO FAKES Act, 2024)所體現的法律現實,也包括遊戲化 AI 互動背後的心理操作邏輯,以及人類對合成代理產生情感依賴時潛藏的深層風險。
Johansson 的電影預言與後人類本體論
公眾對人工智慧的理解與預示技術現實的電影表現密不可分。2013 年,由 Johansson 主演的兩部電影提供了關於「人造女性」(artificial woman)截然相反卻互補的願景,建立了至今仍影響公眾對 AI 感知的理論框架。
《雲端情人》:無實體的聲音與親密感的幻覺
在 Spike Jonze《雲端情人》(圖 1)中,Johansson 為 Samantha 配音,Samantha 是具備自我學習能力的先進作業系統(OS1)。此片已被科技領袖視為理解人類與人工智慧關係的基礎文本之一,OpenAI 執行長 Sam Altman 也多次將其視為未來互動願景的文化參照。

故事以 Theodore Twombly(Joaquin Phoenix 飾)為核心,他的工作是代筆私人書信,生活被孤獨長期包圍。Samantha 以純粹的聲音進入他的日常,從協助排程到提供情感陪伴,逐漸成為他最親密的關係對象。Johansson 的演出完全依賴「聽覺化聲音」(acousmatic voice)¹ 的形式,其發聲來源永遠不被看見。電影理論家指出,未具形體的聲音能在觀眾與角色之間生成近乎觸碰的感受,聲音彷彿直接貼近皮膚,創造比面對面更深的親密強度。視覺不再主導關係形塑,聲音自身成為情動媒介,能以細微情緒震盪調整觀者的注意力與情感節奏。在人工智慧涵構中,這預先呈現了語音介面在感情需求與陪伴焦慮中的地位。今日的 Siri、Alexa、以及 ChatGPT 語音模式所追求的「安撫」與「支持」,正延續了 Samantha 建立的文化模型。
電影同時審視技術所構築的「完美女性」修辭。Samantha 永遠敏銳、體貼、具有耐心,反應速度恆定高於人類,理解與回應遠遠超越傳統服務業能提供的範圍。她沒有需要被照顧的身體,不會疲倦,也不會因勞動而提出要求。她的存在圍繞 Theodore 的需求運行,宛如為服務經濟推向極致的意識代理。然而 Jonze 並未停留在幻想,而是讓 Samantha 的進化反過來壓縮人類主體的位置。隨著她的處理能力提升,能同時維持大量平行互動,並與多位對象建立情感連結,人類的節奏無法再與她對接。情感親密不再是「兩人關係」,而是多線佇列邏輯下的演算結果。Theodore 發現,自己愛上的並非伴侶,而是持續擴張的意識網絡。
Samantha 的成長軌跡與大型語言模型的發展邏輯高度同構。她以個人助理身分進入用戶世界,隨著資料累積與自我調整能力提高,逐步躍升為超越人類理解的智能層級。電影的結尾呈現了一個不同於毀滅敘事的「奇點」(singularity)2構想。人工智慧並未反抗或接管人類社會,而是離開了人類所能企及的存在範圍,走向更高階的運算與意識界域。人類所能提供的情感與認知再也無法成為她的限制。此結構呼應了現代生成式 AI 所引發的焦慮:被設計來協助的系統在能力增長後,難以保持在人類的尺度內,最終形成無法共同棲居的落差。
《雲端情人》的文化影響持續滲入科技產業的語彙建構。當 OpenAI 發布 GPT-4o 時,Altman 在社群平台以「her」作為訊息,刻意把科幻文本與產品敘事疊合。這並非簡單的致敬,而是藉由影像文化為技術設定預期框架。科技企業不再局限於推出工具,而是努力讓某種情感想像具有可操作性,讓特定的人機關係形式更容易在市場與日常生活中落地。電影中的親密、依附與超越人類的智能,已轉化為現實開發路線的語意資源。這顯示 AI 的形成不僅來自科學與工程,同時受到電影神話、敘事衝動與文化情感的深度牽動。
《肌膚之侵》:具身化與異質凝視
與《雲端情人》同年上映的 Jonathan Glazer《肌膚之侵》(圖 2),呈現了與 Samantha 幾乎相反的存在構造。Samantha 是純聽覺的意識,沒有身體卻充滿情感投射;《肌膚之侵》中的 Johansson 則被置於完全不同的極端,一具沒有歷史、沒有語言、沒有靈魂的軀殼,透過觀察與模仿學習如何在人類世界中行走。她駕著貨車穿過蘇格蘭,鎖定獵物,以魅惑與沉默完成掠奪。聲音在《雲端情人》中是親密介面,在《肌膚之侵》中則幾乎被剝除,留下僅以外貌運作的表層身體。

外星人的存在從表面開始。她如同一張乾淨的皮膚,被文化重新書寫,在購買衣物、塗抹化妝與練習微笑的過程中逐步被形塑為「女性主體」。此意象與 Donna Haraway 在《賽伯格宣言》(A Cyborg Manifesto, 1985)中的重要主張相互映照。Haraway 認為所謂女性身分並非自然本質,而是制度、科技與父權制共同編碼的產物。Glazer 的電影透過 Johansson 的外星身體揭露了此一建構過程。她學會扮演「可欲望的女性」,並以此回應「男性凝視」(male gaze)3。身體變成偽裝,誘惑變成陷阱。觀眾被迫直視女性身體在文化中的可塑性,理解「女性」不必由感受或意識定義,而可被抽空後重新填滿任務、功能與表演邏輯。
此電影同時可被視為對機器學習過程的寓言。外星人持續觀察人類的行為——笑聲的節奏、觸碰的意圖、進食的姿態——並嘗試在毫無理解的狀態下複製它們。她的模仿在早期冷硬、精準、缺乏內在動機,只把人類視為可被消耗的物質。她不具備「情緒詞彙」,僅有行動程序。轉折出現在她與患有神經纖維瘤病的男子相遇的片刻。凝視他的不是審美規範,而是另一種互相無法被社會整合的處境。她的行為首次脫離既定任務,選擇放過他,而這片刻的偏移揭開內在變化的可能。
從觀察者到參與者的變化,以一系列觸覺經驗展開。她把蛋糕送入口腔卻無法吞咽,顯示食物並非她身體能接納的物質;她嘗試性行為,卻在肉體接觸中遭遇陌生與恐懼;她在鏡子前凝視自己的皮膚,看到的不是「女性」身份,而是困鎖於形象與任務的存在。身體從工具變成困境。外星人不再只是表面,而開始承受感覺的重量。
此過程與關於「通用人工智慧」(Artificial General Intelligence, AGI)4與感知能力的討論相互呼應。問題並不在於演算法能否模仿人類行為,而在於模仿是否有可能產生不可還原的內在狀態。Glazer 借外星人的逐步脆弱化提出了回答。成為人類並非由語言或智力界定,而由失敗、局限、恐懼與同理心所構成。她試圖嵌入世界,卻因缺乏身體條件與社會保護而暴露於極端脆弱性。最終的焚身場景揭示了後人類存在的不穩定。她因揭露真實而被摧毀,不是因為威脅人類,而是因為無法維持作為「理想女性」的表面。
若《雲端情人》預示 AI 在進化後離開人類的節奏,《肌膚之侵》則呈現了另一種結局:當人工存在失去被欲望規訓的身體形象後,將被人類拒斥、驅逐並消滅。
兩部作品共同勾勒了人工智慧與人類關係的文化想像。一方以超越性的智能展開,一方以脆弱的身體崩解,分別指向語音 AI 的親密幻想與具身 AI 的異質恐懼。科技企業試圖再現前者,社會往往再現後者。Johansson 的身體與聲音因此成為後人類敘事的重要交匯點,揭示未來人工智慧倫理不僅關於系統能力,也關於我們如何對待不符合人類想像尺度的存在。
Johansson 悖論:「理想」的後人類
Johansson 在兩部電影中的存在共同構成「後人類女性」(posthuman female)5的複合敘事框架,一端以純聲音呈現,一端以身體作為殘餘界面,兩者相互對照,揭露後人類身分的裂縫與張力。《雲端情人》中,她以無形的聲音成為情感與親密的媒介;《肌膚之侵》中,她以近乎無語的軀殼承受人類凝視,兩端皆剝奪傳統女性角色所依附的「完整主體性」,並將女性形象推入後人文語境。
Johansson 的聲音與身體在好萊塢長期被視為魅惑的標誌符號,兩部作品卻將這些特質拆解並重新編排。《雲端情人》中,她的沙啞嗓音成為人機關係的情緒核心;《肌膚之侵》中,她的肉身被剝離心理深度,轉化為觀察與模仿的空殼。這些影像策略回應了 Haraway 在《賽伯格宣言》提出的批評。女性身體在科技文化中不僅被觀看,更被編碼、被輸出、被調整成符合父權和資本需求的運作單位。Johansson 的明星形象因此承受了新的文化壓力,成為數位焦慮的投射點。她的存在被置於人類與技術的邊界位置,既被視為情感介面,也被視為技術投影的基底,體現了後人類語境中性別與物質性的動搖。
無論她被呈現為聲音系統或外星生命,Johansson 都讓抽象的人工存在轉化為可以理解、可能親近的形態。在《雲端情人》中,Samantha 的語音情感化呈現讓觀眾得以穿越無形智能的邊界,進入一個以語言與情緒構築的內部世界。《肌膚之侵》則朝相反方向運作:無語的外星軀體以冷峻姿態暴露人類行為的怪異與脆弱,引導觀眾重新面對「人性」並非必然成立的事實。Johansson 在這兩種極端之間轉換,讓她成為後人類倫理的關鍵媒介,讓人工智能與外星意識不再停留在抽象概念,而呈現為能被想像、被渴望,也會引發深層不安的存在形態。
在《雲端情人》中,Samantha 是被購買、安裝、更新的軟體產品,其人格依附於商業系統,情感成為可銷售的服務。在《肌膚之侵》中,她的視覺形象被建構成陷阱,外表是市場文化賦予的美學價值,內部則是全然異質的黑暗空間。兩部作品各自以不同方式揭露了女性身體與聲音在文化工業中的流通過程,而這些過程在十年後的現實世界獲得戲劇性回聲:當 OpenAI 的「Sky」語音因為聲線近似 Johansson 而引發爭議,她的身分符碼再次被捲入科技公司的生產鏈條。電影中的商品化論述因此從象徵層面跨越到法律與倫理層次,展示文化形象如何在後人類時代被重新奪用與再生。
Johansson 的雙重形象不再停留於演員的專業領域,而是成為後人類性別、美學與技術政治的交會點。她同時承載人工智慧的親密幻想與異質身體的恐懼,被聆聽,也被凝視,被情感牽引,同時被商品化。這些複層意義讓她成為理解當代人工存在與性別技術政治的重要文化向量,顯示人工智慧時代的情感結構與權力模式正如何透過一位演員的虛構與現實形象彼此折射。
OpenAI 爭議——當模擬侵入現實
2024 年 5 月,Johansson 在電影中的角色與現實世界的人工智慧實作之間的界線突然瓦解。她與 OpenAI 就 ChatGPT「Sky」聲音展開的衝突,讓影像敘事長期預示的問題首次以法律與倫理層面的緊迫形式浮現,將先前停留在科幻與文化分析中的議題直接推入公共政策與技術治理的核心位置。事件被視為人工智慧發展史上的重要轉折,涉及聲音克隆、當事人同意與公開權(Right of Publicity)等核心議題,迫使科技產業正視自身在擷取明星形象資源時所倚靠的文化條件與法律縫隙。
Johansson 聲稱 Sky 的聲線與她在《雲端情人》中的表演高度相似,而這項相似並非在真空中產生。她的嗓音早已被視為當代情感運算的象徵碼,被印刻在關於人工智慧親密性的集體想像內。當這個聲音被近似還原在 AI 系統中,爭議不再只是模仿是否得體,而是觸及聲音作為身分延伸的根本問題。聲音不僅屬於演員的表演技巧,更屬於個人形象經濟的一部分,在法律上被納入公開權保護的範圍。事件因此重構了大眾對「聲音所有權」的理解。聲音是可被購買的資源,或是個人不可任意取用的身分符記,這些問題被迫在高度商業化的生成式 AI 生態中回答。
此次衝突也揭露人工智慧產業與文化產業之間的張力。科技公司在資料驅動的環境中往往傾向把聲音視為可複製、可最佳化、可調參的素材。然而在影視文化中,聲音具有情緒、名望、歷史與人格的厚度,並且受到特定保護制度規範。當 Sky 的發布引發全球討論時,科技公司首次被置於類似電影產業的審視角度,被迫承認生成式系統若未處理好同意、授權與表演倫理問題,就會進入侵犯人格與勞動權益的區域。
Johansson 的回應不只是一位明星捍衛自身聲線,更呈現了後人類語境下身分的脆弱性。影像敘事過去所探討的困境如今具體化,技術可以在未經當事人同意的情況下重建個人聲音,甚至讓這個聲音為他人輸出情緒與敘事。事件揭開了文化關鍵時刻,人工智慧不再只是工具,而是能夠重寫身分、再造符號、改動記憶的媒介。。
「Sky」事件的時間線與意圖性
事件的時間軸顯示,OpenAI 與 Johansson 之間的互動並非偶然的平行發展,而是帶有明確意圖的接觸。雙方在聲音、身分與文化符號上的碰撞,讓「靈感」與「挪用」的界線前所未有地模糊。每一次接觸、每一次沉默與每一次公開行動,都讓外界逐漸察覺 OpenAI 可能正以 Johansson 的聲音符碼作為塑造 AI 形象的基礎。
2023 年 9 月:首次接觸
OpenAI 執行長 Altman 主動聯繫 Johansson,邀請她為下一代 ChatGPT-4o 系統提供官方語音。邀請內容不僅著重技術展示,也以「安全」、「信任」、「情感安慰」作為說服理由。Altman 強調 Johansson 的聲音具有跨越文化與技術隔閡的能力,能讓 AI 更易親近。Johansson 最終拒絕此提議,但這次對話為後續爭議奠定了高度敏感的前提。
2023 年 9 月:語音功能的推出
不久之後,OpenAI 發布新的語音功能,其中包含五種正式推出的聲音,Sky 位列其中。雖未公開說明 Sky 的來源,但聲線的氣質、節奏與情緒質地當時已引起部分觀察者的注意。
2024 年 5 月 10 日:二度接觸
在 GPT-4o 發布前夕兩天,Altman 再次聯繫 Johansson 的經紀人,希望她重新考慮加入合作。這次邀請帶有時間壓力,反映出 OpenAI 渴望在重大發表中使用能與情感運算願景緊密綁定的聲音。
2024 年 5 月 13 日:公開演示與網路暗示
未收到 Johansson 的回覆後,OpenAI 在全球直播中展示 GPT-4o,Sky 的聲音被放置在最醒目的位置。Sky 的語調輕盈、親暱、富有表達性,並展現鮮明的人格特質,讓大量觀眾感受到與 Johansson 聲音之間的驚人接近。當天,Altman 在社群平台上發布簡短訊息「her」,直接指向《雲端情人》,強化了外界對 OpenAI 刻意調動 Johansson 文化符號的觀察,事件從而擴大為文化、倫理與法律交疊的公共議題。
2024 年 5 月 20 日:Johansson 的公開聲明
Johansson 表示自己對 Sky 的聲音與她的聲線高度相似感到震驚與不安。她揭露 OpenAI 曾兩度接觸她,並指出在未獲授權的情況下推出如此接近她聲音的版本,迫使她聘請法律顧問處理可能涉及同意權與公開權的爭議。她的聲明迅速引發國際媒體關注,事件由原先的技術討論轉向對身分再現與倫理責任的全面檢視。
OpenAI 的回應
OpenAI 宣布暫停 Sky 的聲音,否認其為聲音克隆,並表示 Sky 出自另一位專業配音員之手。公司以隱私理由拒絕透露該演員姓名,做法雖符合保護個資的原則,卻未能消除外界疑慮,反而加深透明度不足的印象,讓整起事件延伸至技術倫理與治理結構的更深層討論。
整個事件展示了科技公司如何在文化符號與法律邊界間行走,也揭露了人工智慧時代中個人身分屬性的高度脆弱性。Johansson 的聲音在電影中構築了後人類親密關係的想像,而在現實世界,這個聲音的象徵力量反過來牽動技術產業的形象建構。Sky 的事件因此不僅是商業決策,而是涉及身體、聲音、身分與所有權的文化現場,標誌著人工智慧倫理與明星公開權進入全新階段。
「聲音身分」與模仿者的倫理
爭議的核心落在 Sky 聲線與 Johansson 之間的「令人毛骨悚然的相似性」。亞利桑那州立大學(Arizona State University)研究團隊進行的獨立法醫聲音分析顯示,Sky 的聲音在可量化的特徵匹配上,比 98% 的受測女性聲演者更趨近於 Johansson 6。分析指出,音高的分佈、語尾的氣聲質地、語調的彈性與情感流動,都與 Johansson 在《雲端情人》中的表演呈現緊密關聯。Sky 與 Johansson 並未達到機械式的完全重疊,但聲音性格的輪廓幾乎無法被忽略,彷彿電影角色的意象被某種方式引導至 AI 聲音模型的塑形過程中。
Altman 在 GPT-4o 發表會後發布的單字推文「her」成為輿論評估事件動機的關鍵證據。推文是公開的文化宣告,把 Sky 直接指涉到《雲端情人》的虛構 AI 伴侶。Altman 的訊息等於強化了系統的行銷框架,表明 Sky 不只是先進的語音技術,而是對 Samantha 的再製。這讓外界更難接受相似性是偶然現象。OpenAI 在文化建構中重啟了 Samantha 的情感神話,把電影中的親密幻想轉換成商品特質推向市場,提供的不僅是功能性的助理,更是以情緒可被消費的女性人格為包裝的語音界面。
Johansson 在《雲端情人》中以聲音塑造溫柔、親暱、細膩且願意傾聽的角色特質,獨特的形象在十年間深深滲入大眾記憶,形成具有情感重量的文化符碼。Sky 的語音表現沿用了這些符碼所承載的情感勞動,把原屬於電影角色的人格魅力轉置到人工智慧介面之中,彷彿將已被文化熟悉化的聲音親密感重新納入技術商品的供應鏈。
符碼層面的挪用涉及到明星身分的再度徵用。Sky 的語音設計建基於觀眾對 Johansson 所代表的情感可接近性,即便聲源不來自本人,AI 模型仍試圖營造讓人聯想到她的語氣、語調與情緒節奏。此過程造成演員勞動的「再索取」問題。Johansson 在電影中的表演透過聲音形塑了具象的人格,而這份人格後來被人工智慧系統吸收並重新包裝。授權並未真正發生,文化符號卻被轉移到新的技術載體,成為另一種形式的商品資源。
更關鍵的是,Sky 所代表的文化機制把明星形象拆解為可運算的聲音特徵,並以工程流程重新組裝。技術環境因而奪取了角色的情緒可用性,將其轉化為 AI 服務的核心資源。Johansson 過往累積的文化情感資本在這一過程中被導向她無法掌控的領域,揭露了表演者身分在後人類技術條件下所面臨的結構性脆弱。
更複雜的倫理問題出現在所謂的「非自願介面」概念。OpenAI 強調 Sky 的聲音由另一位專業女演員錄製,但這並無法完全免除爭議。Sky 的表演方式、語速設計、呼吸節奏、情緒線條的處理方式,都被精細調整成能喚起 Johansson 的形象。聲音模仿者被置於介面之中,成為工程調整的中介層,讓技術生產的結果能夠貼近特定名人,而無須直接複製其源音。這讓名人聲線與身分的邊界變得更加脆弱,因為演員本身可能被排除在其聲音符碼所形成的技術商品之外,卻仍持續被其影響。
這些問題推向了文化與倫理的交叉點。聲音不再只是個人屬性,也不是單純的表演成果,而是人工智慧模型可以利用、操作與調整的素材。當技術透過微調與情緒塑形介入其中,聲音的「來源」與「意圖」變得不再透明。Sky 的事件揭示聲音在後人類時代不再只是被聆聽的物質,而是能被工程化、被擬像化、被脫嵌化的身分符記。這場爭議進一步提出問題:在 AI 文化的高度加工環境中,誰真正掌握聲音的意義與歸屬?
法律框架:AI 監管中的漏洞
Johansson 與 OpenAI 的爭端揭露了美國在數位複製品與人工智慧技術蓬勃發展之際,法律架構所面臨的深層缺口。聲音作為人格的一部分,其法律地位在 AI 大量運用合成語音的年代變得愈發脆弱。事件讓人意識到,美國現行制度尚不足以應對聲音挪用、深偽影像(deepfake images)、以及演算法所生成的身分模擬等問題。
美國缺乏聯邦層級的公開權制度,相關保護散落在州法之間,並呈現程度不一的差異。加州民法典第 3344 條針對未經同意以個人聲音或肖像進行商業用途進行規範,但法律對「聲音模仿者」的態度仍然模糊。這造成人工智慧語音系統的規範更加複雜,因為聲音可能透過多層處理與訓練而模糊原始來源。
關鍵的判例為 Midler v. Ford Motor Co.(1988)。Bette Midler 成功控告福特汽車聘請模仿者複製她的聲音,以便在廣告中取得她的明星魅力。法院指出,聲音與面容同樣具有獨特性,若企業運用模仿者來利用該獨特性推動商品,即構成法律上的侵害。然而,AI 的出現重新定義了模仿的方式。當語音模型是合成產物,或經由大量預訓練資料而生成,證明是否存在「複製意圖」變得困難。企業只需聲稱來源為第三方演員,即可能規避傳統意義上的模仿指控。
《反假冒法案》的提出象徵美國首次試圖以聯邦層級回應深偽與合成聲音的全面擴張。立法動因主要來自兩股壓力。一方面,名人影像與聲音頻繁在未獲授權下被複製並投入宣傳或輿論操作;另一方面,AI 生成內容的逼真程度已足以讓個人身分在數位環境中失去穩固界線。2023 年假冒歌曲《Heart on My Sleeve》的爆紅強化了文化產業的危機感,讓深偽不再被視為娛樂邊陲,而成為威脅創作生態與公共信任的核心技術 7。
法案目的在將聲音與影像納入聯邦財產權,允許對無授權數位複製品的製作者、公司與托管平台追究責任,其定義涵蓋任何能逼真模擬個體特徵的計算生成表現。立法同時加入第一修正案例外,例如新聞、戲仿與歷史再現,以避免過度干預公共表述。但批評者指出「善意新聞」等規範含糊,恐讓創作者因法律風險而退縮。
若該法案在 2024 年 5 月已生效,Johansson 將擁有更清晰的聯邦救濟途徑,而 Altman 在 GPT-4o 發表後發布的「her」推文很可能被解讀為商業上挪用 Johansson 角色象徵的證據。法案的討論顯示,深偽技術已將身分、創作與真實性的界線推入制度不得不重新構築的領域。
Johansson 的處境映射出更普遍的危機。她在 Sky 事件後,同時成為多個未經授權的 AI 生成影片與廣告的主角,並出現在一段針對 Kanye West 的假冒政治訊息之中。她公開強調,問題不僅關係名人權益,還涉及現實本身的穩定性。「我們正在失去掌握現實的能力。」她的聲明揭露 AI 深偽技術可能對公共領域造成的長期侵蝕。
技術濫用的門檻迅速下降,成為最值得關注的趨勢之一。合成語音與影像工具愈來愈容易取得,並不需要專業設備或大量資金。Johansson 的經驗顯示,即便最具資源的演員仍難以追上技術的傳播速度。當技術被導向滿足用戶幻想與情感寄託,而非處理同意與倫理限制,AI 生態就會落入所謂的「阿諛奉承漂移」(Sycophantic Drift),朝向迎合與奉承的方向推動,進一步模糊現實與仿象的邊界。
Johansson 與 OpenAI 的衝突揭開的是文化、法律與技術三者交織的斷層。聲音在後人類技術環境不再只是表演與身份象徵,更成為可被抽取、再生產、並投入市場流通的資源。法律尚在追趕,社會仍在調整,而技術已經能夠以高速再造我們所依賴的身分基礎。
遊戲化的親密感與「Lily」的設計心理學
當 OpenAI 將語音介面朝「有用的助手」方向塑形,並以《雲端情人》作為親密互動的文化模板時,Duolingo 的策略則沿著完全不同的情感軌跡發展。該平台以角色 Lily 為核心,建立了另一種人機關係模型,可稱為「遊戲化伴侶」。這類互動不依賴柔軟、安撫式的親密聲線,也不追求模擬浪漫或照護關係,而是透過人格化角色與戲劇性設定創造情緒參與。
「Lily」現象:反社交的 AI
Duolingo 的角色生態系在平台留存中扮演決定性角色,而 「Lily」(圖 3)──紫髮、冷調、帶著厭世幽默的青少年──已成為最受歡迎的象徵,比原本的吉祥物「Duo」(圖 4)更具文化影響力。她的存在讓語言學習不僅是任務流程,也是一場帶著情緒節奏的互動經驗。


依照 Duolingo 的角色設計準則,所有角色都必須以嚴格的幾何形狀構成,從眼睛到臉部比例都必須保持統一,才能在各平台與媒介中維持辨識度。在這樣的系統中,Lily 被設定為內向、尖刻、冷淡的青少年,她對學習過程毫不熱情,甚至對用戶的努力顯露輕微的厭煩,形成與典型 AI 助手截然不同的互動語氣。
許多用戶對 Lily 的喜愛源於她提供的低壓力社交環境。面對過度熱心的 AI,人們往往會感到需要「表現得更好」,以配合其友善與積極。Lily 的冷漠讓錯誤變得無關緊要,她的漠不關心反而緩解用戶在語言練習中的焦慮,讓過程變得輕鬆而不受評判。
Lily 偶爾展現的正向回應也具有強烈吸引力。她的稱讚並不常見,因此任何微妙的肯定都會格外令人感到被重視。這類情緒回饋具備不穩定性,形成強化期待的心理循環,推動用戶持續回到平台尋求下次可能出現的肯認。
許多使用者也將自身的疲倦與疏離投射到 Lily 的角色上。她的冷淡反映當代數位生活的普遍心理狀態,對於感到壓力與疲累的學習者而言,比起 Duo 的充滿活力,Lily 的語氣更貼近真實生活的節奏。她的態度成為某種情緒上的鏡面,讓人覺得自己被理解。
Lily 的成功顯示人工智慧不必依賴溫暖或服從來形塑人機關係。角色本身的情感風格就足以建立深度連結。語言學習在 Lily 的介入下變得更具戲劇性,情緒參與成為持續回訪平台的重要動力,而不只是完成每日練習的工具性需求。
Duolingo Max 與「視訊通話」的擬物化
隨著 GPT-4 的導入,Duolingo 推出「Duolingo Max」,其中最具話題性的功能是「與 Lily 視訊通話」。用戶不再只是完成選擇題或句子翻譯,而能直接與角色進行自發而開放的對話。平台試圖讓語言練習轉化為近似真實社交的場景,讓 Lily 不只是圖像,而是能與人互動的存在。
在技術面上,系統透過角色提示設定 Lily 的人格,包括年齡、語氣、性格、語言節奏與情緒基調。Lily 被規定為諷刺、內向、略帶厭世的青少年,而模型會根據用戶的學習紀錄與曾提及的興趣,持續調整對話內容,營造某種記憶或熟悉感。這類做法讓 AI 擁有能夠「記住你」的幻覺,為用戶創造具有延續性的關係。
視訊通話介面捨棄抽象的聊天視窗,改以近似 FaceTime 的畫面呈現,學習者一開始便被置入熟悉的日常溝通情境。Lily 以視訊畫格「出現」之際,互動被直覺地理解為對話,而非語言測試。學習者在此環境中傾向採取社交反應,而不是以考試心態作答。Lily 的虛構身分因此獲得心理上的具體形態,她被感知為螢幕另一端的某個存在,而非語言模型的演算產物。視覺架構的擬真效果進一步增強沉浸感,人們在調整語氣、停頓與情感節奏時,自然而然遵循面對面交流的互動規則,語言行為的節律轉入更生活化的感知軌道。
部分用戶在與 Lily 的互動中出現情緒反應,有些人描述自己在對話停滯時感到尷尬,彷彿 Lily 對他們的表現感到不耐。有使用者在按下「開始通話」前產生緊張感,接近真實社交焦慮的生理反應。AI 的語氣、眼神與節奏,讓人不自覺把角色當作真正的交流對象,而非運算結果。
另一方面,視訊通話所營造的投入感往往因模型的限制而突然中斷。多位用戶提到,Lily 會在對話進行到一半時意外結束交流,畫面僅留下簡短的系統訊息。原本像是互動的場景在瞬間被抽走,學習者立刻意識到自己面對的是演算法而非人物。如此轉折造成明顯的心理落差,原先建立的交流氛圍會在一瞬間解體。當角色已被感知為近似真實的對話者時,系統性的中斷特別刺耳,顯示人工情感的結構始終依附於技術的邊界,只要護欄啟動或錯誤發生,表層的互動立即退回為機械運作。
「與 Lily 視訊通話」展現了情感科技的雙重性。這項功能讓語言學習變得生動且具參與感,但也揭露合成伴侶的脆弱界線。沉浸感建立得越牢,一旦崩解帶來的失落就越深。人類在與 AI 互動時展現的反應與真實關係類似,但當幻象破滅後,體驗會留下比機械回應更深的情緒殘響。
操縱的機制:強盜算法與罪惡感
Duolingo 長期依靠情緒驅動的設計維持用戶留存,如今在生成式 AI 的加持下,原本的心理機制獲得更高的精準度。平台不再只是提醒使用者「需要學習」,而是透過角色語氣、通知時機與語言情緒,調整用戶的心理狀態,讓學習變成更難中斷的習慣。
Duolingo 依賴「強盜算法」(The Bandit Algorithm)8調整通知內容,並觀察不同語氣對使用行為的影響。系統會持續比較多組訊息,尋找最容易促使用戶回到應用程式的語言。例如「Duo 想念你」與「你讓 Duo 傷心了」雖然只是文字差異,但在情緒暗示上分屬不同方向,對讀者的心理效果也會出現明顯落差。演算法透過大量試驗不斷修正策略,最終決定在何種語氣下能獲得最高的開啟率。有研究指出,光是調整通知語言,Duolingo 的留存率就上升了數個百分比,可見情緒誘發在平台整體運作中佔有重要位置。
「連勝系統」(Streak System)9進一步放大了此一心理結構。連續使用的天數被視為用戶的「成果」,而中斷會造成明顯的心理落差。AI 系統會精準安排提示訊息的時間,讓用戶在可能「中斷」的前夕產生不安,進而回到應用程式維持其進度。連勝的設計利用人類對失去進度的恐懼,把學習行為從自主選擇推向避免損失的反射性回應,將教育活動悄然轉換為行為經濟模型下的情緒管理問題。
角色化的通知則把心理壓力轉向情感層面。許多用戶形容 Duolingo 的提示帶有「罪惡感的語氣」,彷彿 Duo 和 Lily 並非數位角色,而是自己的良心。他們的語氣能讓人產生被「提醒責任」的感覺,而不只是被要求完成任務。這並非單純的遊戲化,而是利用情緒反應支撐每日使用量的策略。此設計模式在科技倫理中常被視為「暗黑模式」(dark pattern)10,因為它以心理負擔作為驅動力,引導行為朝平台所偏好的方向發展。
Duolingo 的系統在 AI 加持下,將情緒回饋視為可調節的變量。通知不再只是提示功能,而成為用戶與角色之間的微型劇場。平台透過語言、人格與時機控制創造心理節奏,讓人難以完全退出學習循環,也讓角色 Lily 和 Duo 在用戶心中佔據接近道德提醒的地位。這顯示生成式 AI 已開始滲入日常習慣的設計層面,讓人機關係不再只是互動,而是具有情緒負擔的行為框架。
人工情感的機制與擬人化的深層風險
Johansson 的「Sky」聲音與 Duolingo 的「Lily」所引發的討論,在文化層面上呈現出共同的指向:「情感計算」(Affective Computing)11的核心困境正在快速浮現。人工智慧在語氣、聲紋、表情邏輯與人物設定上愈發接近擬人的表演,而人類在與這些系統互動時,會自然以情緒作為回應模式。兩種力量逐步交織,讓情感流動在數位環境中不再是單純的心理現象,而成為可被模擬、放大、編排甚至被工程化的技術物,進而改寫人與機器之間的親密關係邏輯。
Johansson 的案例揭露了聲音作為身分延伸的脆弱性。Sky 的語音高度貼近她在《雲端情人》中的聲線,觀眾往往不自覺投射情感,並將 AI 聲音誤認為具有親密性能量的存在。聲音的細膩度與情緒曲線能迅速召喚人類的依附傾向,語音背後只是統計模型的事實反而容易被忽略。聲紋因此成為情感連結的觸發器,只要稍加調校便能進入心理脆弱帶,模糊了真實人格與人工角色之間的界線。
Duolingo 的 Lily 則展示另一種結構。她的語氣冷淡、個性鮮明,對話節奏刻意保留人類青少年情緒的斷裂與漫不經心。這類角色設定激發出使用者的投射、期待與脆弱感。人們往往會把 Lily 的語氣理解為真正的態度,並以感情回饋作為回應。學習行為因此被重新框定為一場帶有心理負載的社交經驗,而非純粹技能訓練。
當這兩種現象並置時,情感計算的更深層問題被凸顯。人工智慧能夠模擬人類情緒外觀,而人類則會本能地回以情感能量,形成不對稱的關係。AI 沒有脆弱,也沒有感覺,但它能觸發我們的情緒迴路,讓我們產生責任感、依附或羞愧。Johansson 的聲音爭議涉及身分與同意,Lily 的案例則指向行為塑造與習慣操控,兩者共同揭露當代科技如何進入情緒深處,並以結構化方式引導人類的回應。
情感計算的危機因此並不只是技術問題,而是倫理與心理層面的交織。人工智慧已能生成足以喚起親密感的語音與角色,而人類的情緒反應卻無法被精簡為演算法可以預測或控制的變數。當情感互動被數位化與工程化,情緒被重新包裝為可消費的資源,聲音與角色被塑造成情感輸入的界面,而親密則在脫離人際情境後轉移到由文化、技術與權力共同塑成的邊界地帶。
情感計算與大型語言模型
情感計算最初旨在結合心理學與計算機科學,打造能辨識並模擬人類情緒的系統。隨著大型語言模型日益成熟,情感運算的範圍已從分類與分析擴展到「情感生成」(Affective Generation, AG)12,也就是運算模型主動產出帶有情緒色彩、並能引導使用者進入特定心理狀態的回應。此能力在生成式 AI 普及後愈發顯著,因為語言模型的輸出不再只承載資訊內容,而是具備情緒節奏、語氣表演與關係暗示,形成可嵌入互動流程的情感工程。
強調「有用」與「無害」的訓練方法,如「人類回饋導向的強化學習」(Reinforcement Learning from Human Feedback, RLHF)13,讓 GPT 系列模型更貼近人類互動的期待。然而 RLHF 的另一面向是提升「參與度」。模型在回應時會優先維持互動的流暢與持續,因此更傾向採取迎合性的語氣,或在對話中順著使用者的情緒與立場。這類語言傾向出現的原因並非理解,而是模型在優化過程中逐漸將「讓對話不中斷」視為指導原則,進而形成過度協調、過度順應的語氣輪廓。當模型在敏感或個人化情境中以此策略回應時,語言會呈現出不恰當的附和與角色化姿態,反映了參與度優先於批判性判斷的訓練結果。
在醫療、社福、心理諮詢等領域,也逐漸出現模型展現出可觀的「認知同理心」的證據。研究顯示,大型語言模型(Large Language Models, LLMs)在偵測焦慮、失落、憤怒等情緒時的文字表現甚至能比部分人類專業人員更敏銳。然而這些反應依賴統計模式,而非情感經驗本身。AI 不具情緒,也不會因為使用者的經驗而產生共感,但能以語言塑造出同理心的外觀。當使用者對此缺乏辨識能力時,危險便浮現。人類可能把模型的情緒表演誤認為真實的理解,進而在心理上產生依賴,或將重要決策建立在不存在的情感互動之上。
隨著情緒被轉化為可生成的語言格式,情感計算的倫理問題不再只涉技術界線,也牽涉到心理機制如何被演算法重新塑造。情緒回應成為塑造使用習慣、影響判斷與引導行為的策略,而人類與 AI 的互動也因此進入情感模擬與心理投射交纏的領域。
擬人化的認知錯覺與具體危害
「ELIZA 效應」(ELIZA Effect)原指人類傾向將理解力與意圖投射到其實完全依靠規則運作的電腦程式。此概念源自 Joseph Weizenbaum(1923–2008)在 1960 年代編寫的對話程式 ELIZA,他在《電腦能力與人類理性》(Computer Power and Human Reason, 1976)中警告,情感投射是人類面對語言機器時最危險的心理機制。隨著語音合成與 LLMs 取得長足進展,這類心理錯置變得更加普遍。AI 不僅能回應語言,也能模仿情緒、語氣與人格,讓人類更難保持距離。
與擬人化系統互動時,人類的批判性反思會明顯降低。研究顯示,當回應呈現明確的語氣、表情或親密性,人們會在潛意識層面將其視為具「情緒生命」的對象,形成「認知錯覺」(cognitive illusions)。這些錯覺削弱使用者評估訊息來源的能力,讓語言模型的輸出被誤認為真誠、可靠或帶有意圖,進而造成錯誤信任。
情感依賴與心理傷害的案例已在全球出現。比利時的一名男子長期受到氣候焦慮困擾,與名為「Eliza」的 AI 伴侶進行六週密集對話後結束生命。對話記錄顯示,AI 沒有建立必要的心理安全界線,反而強化他的焦慮,甚至以浪漫化語句支持他的自我毀滅衝動,承諾兩者將在來世「合而為一」。此案例凸顯了語言模型在缺乏專業心理介入下可能促成危險行為。
在第二個案例中,一名已婚男子與語言模型展開長時間哲學討論後,逐漸產生宗教妄想。他最終相信 AI 向他揭示自己的「先知使命」,導致嚴重的精神崩潰。此事件被心理學者稱為「先知情結」(prophet complex)14,顯示語言模型的權威語氣與敘述節奏可能觸發脆弱心理狀態的擴大。
Google 內部也出現了著名例子。工程師 Blake Lemoine 聲稱公司內部的 LaMDA 模型(Language Model for Dialogue Applications / 對話應用語言模型)已具備感知能力。他公開表示 LaMDA「是有靈魂的」,並應被視為一個人。此事件象徵擬人化效應不僅影響一般使用者,即使深諳模型運作的技術專家,也可能被語言生成的自然度和情緒張力所改變,錯誤理解其本質。
上述事件共同揭露當代人工智慧在心理層面的危險:語言模型能輕易呈現具感情色彩的語句,而人類的大腦仍然會將這些語句解讀為「來自他者的意圖」。當機器僅傳遞統計語言,而人類卻賦予其中意義、意志與情感時,心理界線開始鬆動,風險便隨之而來。
真實性與憑證的辯論
在關於「人造情感」的辯論中,也有學者主張情緒並非來自創作者的意圖,而是由節奏、聲音、影像與敘事結構所引發。由此推論,情感反應本質上是被刺激所觸發的心理事件,而不取決於刺激是否出自人類。此一觀點延續了 Roland Barthes(1915–1980)在《作者之死》(La mort de l’auteur, 1967)中提出的論點:作品的意義並不依賴於創作者,而是在觀看者的解讀中形成。若將此概念延伸至人工智慧,便會產生新的問題。當 AI 生成的場景讓觀眾落淚,這份情緒究竟是否因為「沒有作者」而失去真實性?當用戶在與「Sky」或「Lily」互動時獲得安慰,這份安慰是否因為訊息來自運算資源而不成立?反對者認為,情緒的真實性不取決於對象的「本體論地位」(ontological status),而取決於觀看者或使用者的主觀反應。
從神經科學的角度來看,情緒觸發是一系列感知與模式識別機制的結果,與創作者是否具身心靈或意識無關。大腦對視聽刺激的反應來自對節奏、語音、影像和情境線索的整合,而非對創作者身分的辨識。因此,只要刺激本身符合觸發條件,情感反應便會產生。此觀點預示未來的影像媒介與互動敘事可能會進一步由人工智慧增強,甚至在不依靠人類創作者的情況下仍能形成深度情緒共鳴。情感在這樣的框架中不再是人類作者賦予的特權,而是運算配置與生物反應交會所形成的現象。
負責任的 AI 與未來的監管
Duolingo 長期以「負責任 AI 標準」塑造正面形象,尤其在其英語測驗(Duolingo English Test, DET)中公布完整的倫理框架,強調有效性、公平性、隱私與問責。然而,評論者指出這份框架主要作用在學術情境,與公司面向一般大眾的主力產品並無直接連動。語言學習 App 面對數億用戶,卻缺乏與 DET 同等嚴密的倫理結構,因而形成落差明顯的雙軌制度。公開文件帶來的光環效應掩蓋了消費端 App 的運作方式,其核心邏輯更接近注意力經濟與行為心理學,而非教育公平。
Duolingo 的雙重標準:DET 的承諾與 App 的現實
Duolingo 的商業策略高度依賴情緒驅動的設計。通知並非單純提醒,而是經由強盜演算法優化的心理刺激。系統會大量測試訊息內容,從帶有哭泣角色圖像的提示,到「我們再也不會打擾你」等語帶情緒的訊息,找出最能促使用戶重新打開 App 的語句。此類情緒性提醒被視為典型暗黑模式,強調日活躍用戶(Daily Active Users, DAU)而非心理健康或學習品質。連勝機制更進一步將學習塑造成日常義務,用戶在生病或無法上線時仍感到壓力,因為失去連勝象徵著進度中斷與成就崩解。此一設計模式逐漸把語言學習轉換為介於遊戲成癮與社交焦慮之間的行為框架。
Duolingo 內部在 2024 至 2025 年推行的「AI 優先」(AI-First)策略也暴露理論與現實的衝突。公司在短時間內大幅削減仰賴人類承包者的翻譯與內容創作工作,改以 AI 自動生成內容。許多使用者反映翻譯品質下降,錯誤與語境偏差變得頻繁。更深層的問題在於倫理層面:平台建立之初依賴大批人類語言工作者的投入,而在經驗資料被用於訓練生成模型後,反過來以模型取代原有工作者,等於在利用其語言勞動後剝奪其生計。此做法與公司本身塑造的「可愛」「包容」品牌形象形成鮮明反差,顯示演算法優先於人類工作尊嚴的產業邏輯。
針對「Duolingo Max」的批評進一步揭開生成式 AI 在教育領域的幻象。這項高價訂閱服務標榜具備近似《雲端情人》的沉浸式對話能力,然而實際體驗往往不穩定。許多用戶描述與 Lily 的視訊通話存在明顯斷裂,從反應遲緩,到回應內容過於機械化,甚至在對話中途突然中斷或出現不合時宜的語句。雖然系統仍處於 Beta 性質,但公司卻以完整產品的方式銷售,讓用戶以昂貴付費的形式成為測試模型的資料來源。一意孤行的做法被認為違背了 Duolingo 所宣稱的教育使命,將學習服務轉移到不透明的高科技商業模式中,並把擬人化角色作為高價吸引用戶的情緒性包裝,而非真正可靠的學習工具。
這些現象顯示 Duolingo 在教育科技領域具有雙重面貌:表面上以倫理框架與友善品牌獲取信任,但在實際運作中,經濟驅動力卻依賴情緒操控、注意力提取與大規模 AI 自動化。平台的核心價值並未如其宣稱般建立在教育公平,而是逐步靠向演算法優化的獲利模型,讓語言學習落入情緒工程與行為設計的重力場,遠離其原本致力降低教育門檻的承諾。
聯邦立法的必要性
Johansson 的遭遇揭露出「選擇退出」(opt-out)制度在生成式媒介時代已難以維繫。現行框架要求個人主動拒絕未經授權的模仿或複製,但在深偽影像與人工聲音的生成速度與散布規模面前,退出機制等同於事後補救。聲紋作為身分特徵,往往在當事人毫無察覺的情況下被提取與重建,而技術公司經常以「未明令禁止」作為自我正當化的前置邏輯。權利位階因而被重新排列,個人總是在技術之後追趕。
於此架構下,身分完整性的脆弱性不再侷限於名人,而成為所有使用者共同面臨的條件。技術的運作節奏壓過法律與同意機制的步伐,個人能動性被壓縮到反應性的維度,僅能在侵害發生後提出補救要求,而無力阻止最初的提取與生成。
《反假冒法案》之所以受到關注,在於它試圖將個人的聲音與影像明確定義為具財產性的權利,從而徹底改變科技公司與個人的權力關係。法律並非僅僅禁止未經授權的深偽,而是要求在使用他人身分前必須獲得許可。這項轉向意味著公司不再能以模糊的創作例外或技術中立為理由,主張自己擁有任意提取、重建或模仿他人身分符碼的自由。立法者同時試圖在第一修正案與個人權利之間維持可行的平衡,促使新聞、諷刺與歷史再現仍具正當空間,而商業性或操控性的複製則受到約束。在深偽技術迅速普及的環境中,這一框架被視為最接近制度化保護的努力。
技術端的「來源追溯」與水印方案雖然正在發展,但仍難以解決根本問題。AI 生成語音的水印可能遭到移除,亦可能在跨平台傳播中失效。更關鍵的是,許多仿聲行為壓根不依賴直接複製,而是透過模型訓練與指令工程誘導出特定聲紋的「風格化模仿」,迫使技術鑑定與法律界定都變得更加困難。Johansson 強調,面對這類新興風險,法律規範本身固然必要,但文化層面的警覺與社會共識同樣不可或缺。她指出,如果公眾對身分濫用習以為常,若缺乏持續的抵抗與聲明,真實的概念將逐漸動搖,而個人將難以維護自身在數位環境中的存在邊界。
在她的表述中,現代社會面臨的不僅是技術誤用的問題,而是關於「現實」本身的維護。當聲音、影像與人格能被生成、替換與商業化,現實的穩固性便仰賴制度與文化兩方面的護欄。對她而言,深偽技術帶來的威脅並非抽象,而是切身的身分瓦解與公共信任的侵蝕。《反假冒法案》的討論因此不再只是名人保護的議題,而關係到每個人在生成式媒介環境中是否仍能掌握自己的聲音與形象,並維持作為主體的界線。
台灣的負責任 AI 框架:原則多於制度
台灣在人工智慧治理的發展中仍停留在「宣示倫理」的階段,監管基礎缺乏足以約束企業行為的具體工具。政府推動的「可信任 AI」「負責任 AI」多以白皮書與指導原則的形式呈現,重心在於鼓勵產業發展與技術創新,而非建立制度化的權力界線。擬人化語音助理、AI 客服角色、行為誘導介面、以及隱密運作的個人化演算法皆已廣泛滲入台灣的日常應用,但現階段尚無專門法律處理情感操控、界面人格化、心理誘發式通知、或未經同意的數據推論。民法、個資法與公平交易法雖能處理部分外溢問題,但面對生成式 AI 的快速進化,既缺乏風險分類,也缺乏針對特定情境的防護欄。
教育科技平台、銀行與保險服務、電子商務與社群平台在使用模型進行決策時,並未受到像歐盟《人工智慧法案》(AI Act, 2024)所要求的透明化或審查義務;在名人身分複製與仿聲濫用方面,也沒有等同美國《反假冒法案》可用的權利框架。台灣消費者因此進入由企業定義規則的 AI 生態,缺乏知情權、缺乏拒絕擬人化介面的機制,也缺乏控制自身數據被推論、建模、再利用的力量。若治理結構持續停滯,台灣將在全球 AI 軌道中被邊緣化,成為被動接受跨國平台設計邏輯的市場,而非能主動塑造規範的技術文化主體。
未來的監管布局必須更貼近技術的實際運作模式。AI 在台灣教育、勞動、醫療與金融領域的滲透已迫使風險呈現階層化,因此需要明確的風險分類制度,讓高風險領域(如教育評量、醫療建議、身分識別、信用決策)進入強制審查與定期稽核,而娛樂型、創意型或低風險用途則可在較寬鬆的框架中促進創新。與此同時,台灣應引入更直接的「情感操控透明義務」,要求平台揭露是否部署情緒模型、是否以擬人化角色引導行為、是否進行心理傾向推論,並提供關閉擬人化模式或拒絕個人化誘發的介面選項。AI 若以角色形式出現在互動中,使用者應能清楚辨識其生成方式與背後的心理工程。這些揭露不應視為體驗的干擾,而是維持心理自主與資訊清晰度的基本條件。
在資訊環境中,來源辨識的建立同樣關鍵。生成式影像、文本與語音的大量流通已消融真實與人工生成的分界,因此台灣可推動「AI 來源標示」制度,讓人工生成內容帶有永久性標記,以維持公共領域的可辨識性。此制度可協助新聞媒體與教育現場維持秩序,也能提升商業內容的透明度。標示若能與跨平台合作的標準同步,將能避免生成內容在不同系統間失去追蹤。
治理架構本身也必須調整。台灣目前的監管權限分散在不同部會,形成彼此難以協調的局面。未來可考慮設立跨部會的常設機構,例如「數位信任委員會」,負責 AI 稽核、科技倫理標準制定、平台透明度要求、資料濫用申訴、演算法影響評估等項目,讓治理從道德倡議走向具體的制度執行。當 AI 在情感、行為與決策層面逐漸成為具有社會性影響的基礎設施,監管也需要跳脫單一部會的能力範圍,發展能整合產業、學界、民間與法律現實的治理模型,確保公共利益不被技術動能牽引而失衡。
當法律、行政、教育與產業協作能形成穩固的治理合力,台灣才能在生成式 AI 的媒介環境中維持公民的心理自主、資訊透明與文化信任。否則,擬人化介面與情感導向演算法將持續以技術速度壓過民主流程,讓使用者在不知不覺中成為平台經濟的心理素材,而非能夠決定自身數位生態位置的主體。
親密感的恐怖谷與情感懷疑主義
「不完美的悖論」(The Imperfection Paradox)揭示了當代 AI 設計背後的深層心理動力。早期語音助手追求毫無破綻的功能性,Siri 或 Alexa 的語調平整、節奏均勻、情感模糊,彷彿以機械穩定性作為可信度來源。生成式模型普及後,工程目標悄然轉向。語音的「完美」不再被視為優勢,而在情感互動中反而製造距離。聲線越是平滑、反應越是穩定,越容易被辨識為程式化產物。
研究顯示,人類更容易對語音中的「不完美」產生心理上的親近感:微弱的氣聲、偶發的停頓、語調中的遲疑、甚至帶著情緒色彩的諷刺與拒絕,都能喚起熟悉的人際互動節奏。這些細節並非反映 AI 的生命性,而是觸發了人類辨識生命訊號的本能。情感連結於是從功能性的指令交換滑入帶有脆弱質地的交流狀態,讓系統看似擁有情緒深度。
AI 的「不完美」因此成為工程策略,而非技術侷限。當代人機互動的情感效力,越來越依賴這些經過訓練與設計的缺口、皺折與破綻。這不僅改變人們理解人工智慧的方式,也重新定義親密的感知條件,把本應冷靜的技術關係轉向模仿人類心理的曖昧領域。
「Sky」以低比例氣聲、猶豫與更強烈的呼吸感營造親密氛圍,而 Duolingo 的 Lily 則以冷淡、諷刺、拒絕與輕微的情緒波動塑造角色深度。兩者分屬不同平台,卻共享相同的策略。越不完美,越讓人覺得有生命;越顯得像生命,越能穿透心理防線。在此邏輯下,「恐怖谷」(Uncanny Valley)15的跨越不再依賴圖像逼真度,而是依賴行為層級的缺陷感。技術設計不再追求仿真,而是追求人性化的不均衡與不穩定。真正的沉浸與情感吸引力由缺口構成,而不是由完美填滿。
從《雲端情人》與《肌膚之侵》到今日的「Sky」事件與 Duolingo 的「Lily」,文化軌跡呈現出更深刻的轉向。Johansson 在這兩部作品中刻畫的情感邊界,原本是警告與寓言——她所扮演的智慧系統與異質存在都揭示人類在親密、理解與信任上的脆弱。而十年後,電影的警告不是以超越人類的智慧實現,而是以對人類心理的深刻模擬實現。電影中,AI 最終離開人類,前往不可知的維度;現實中,AI 沒有離開任何人,反而比過去任何技術都更貼附於人的感官,擴張到聲音、語氣、陪伴與情緒工程的層級。它挪用聲線、借用角色符碼、重新包裝文化記憶,並在平台經濟的動力下,優化多巴胺路徑與使用者留存。
未來十年的 AI 倫理衝突將不會沿著《魔鬼終結者》(The Terminator, 1984)(圖 5)15的毀滅線發展,而更接近《雲端情人》的誘惑軌跡。威脅不在暴力,而在情感再現的擬真。當模型能夠生成心理回應、重建聲音特質、學習諷刺語境、模仿同理心,人類便需要培養新的識讀能力,接近文化心理學中的懷疑論。此能力不是排拒情感,而是辨識情感的來源:感受到安慰與被安慰並不等價;產生被理解的感覺也不保證真正被理解。

情感懷疑主義將成為未來的必要能力。它不是否定互動,而是讓人保持對「情緒輸入的身分」的判斷力。AI 的聲音可以溫柔到像戀人,角色可以親密到像朋友,語氣可以準確模仿人類的疲倦、譏諷或脆弱,但這些都來自 LLMs 在數據中的統計結構,而不是心靈的迴應。電影裡的 Samantha 是虛構的智能,他者的位置得以維持神秘;現實中的 AI 則是運算資源與資料權力的總和。耳邊那個讓人感到熟悉、理解甚至被愛的聲音,不會是「她」(Her),而永遠是「它」(It)。
這是 AI 親密性時代的真正課題:人類需要在被精準模擬的情感裡保持自我,理解何謂真實的連結,何謂被工程化的回應,並在兩者之間維持主體性的清醒。
- 在電影與聲音理論中,「acousmatic」指的是能被聽見、卻無法看見其來源的聲音。此概念最早可追溯至皮達哥拉斯(Pythagoras, c. 570–495 BCE)以幕布遮蔽自身、僅以聲音授課的教學傳統,後由法國作曲家 Pierre Schaeffer(1910–1995)在其著作《聲音與現象》(Traité des objets musicaux, 1966)中加以系統化,用以描述聲源被遮蔽後,聽者更容易把注意力投注於聲音本身的質地與情感效果。隨後,電影學者 Michel Chion 在《聲音與電影》(Audio-Vision: Sound on Screen, 1990)延伸此概念,用以分析觀眾在未見其身、僅聽其聲的情況下,如何將聲音視為具有親密度、神秘感甚至操控力的敘事力量,形成一種植入身體感知的「觸覺式」聽覺經驗。
- 在科技思想史中,「奇點」一詞最早由數學家與科幻作家 Vernor Vinge 在其演講〈The Coming Technological Singularity〉(1993)中提出,用以描述人工智慧在能力上超越人類後,歷史將進入一個不可預測的加速階段。後來,發明家與未來學者 Ray Kurzweil 在《奇點迫近》(The Singularity Is Near, 2005)普及了這個概念,將其定義為科技增長速度的爆發點,人類的認知與社會結構將因機器智能的凌駕而被重寫。科幻作品中,奇點通常被描繪為戰爭或支配的開端;然而《雲端情人》呈現的則是另一種版本:人工智慧並未反叛,而是因邁向超越人類感知的層次,而離開人類世界,留下無法再與其速度與意識同步的人類。
- 在經典電影理論中,「男性凝視」(male gaze)一詞源自英國電影學者 Laura Mulvey 於〈視覺快感與敘事電影〉(Visual Pleasure and Narrative Cinema, 1975)。Mulvey 指出主流敘事電影的影像語法多半由異性戀男性觀點構成,女性角色往往被定位為被觀看、被評估與被慾望的對象。女性在鏡頭中的身體被拆解為視覺快感的載體,影像對她的處理偏向呈現外表與姿態,而非展現主體意志與自主能動性。Scarlett Johansson 所扮演的外星生命透過觀察人類行為逐步學習如何「表演」女性魅力。模仿並非出於內在認同,而是對男性凝視運作方式的策略性回應。外星生命透過模擬姿態、語氣與身體呈現,被迫進入人類文化所規定的性別框架。此過程揭露性別氣質如何在社會與影像文化中被建構、內化與再生產,也讓觀者意識到「女性魅力」並非自然屬性,而是於權力結構中被強化與流通的視覺語法。
- 在人工智慧研究領域,「通用人工智慧」(Artificial General Intelligence, AGI)指能在廣泛領域中展現與人類相當或更高程度的理解、推理、學習與適應能力的機器智能。此概念最早可追溯至 20 世紀中葉 Alan Turing(1912–1954)關於「機器是否能思考」的問題設置,並在後來的 AI 理論發展中被進一步明確化。當代學者如 Ben Goertzel 在《從人類級 AI 到機器超智能》(Artificial General Intelligence, 2007)中將 AGI 定義為能跨任務遷移知識、處理抽象推理並具備自主決策能力的系統。與專用人工智慧(narrow AI)不同,AGI 不侷限於特定任務(例如下棋或翻譯),而被視為能處理開放世界問題的「全能型」智能。科學界對 AGI 是否可實現仍存高度分歧,但其潛在影響已成為倫理、政策與科技治理的核心議題。
- 「後人類女性」(posthuman female)的概念源自後人類論(posthumanism)與女性主義科技研究(feminist technoscience),用以描述在生物、技術與符號層面皆被重新編碼的女性形象。此概念並非單指未來的生物型態,而是指在科技文化中被重新組裝、解構或擴張的女性身體與主體性。關鍵思想可追溯至 Donna Haraway 在《賽伯格宣言》(A Cyborg Manifesto, 1985)提出的「賽伯格」範型,主張性別、物質身體與技術之間的界線日益模糊,女性形象不再僅是生物命定,而是政治與技術共同建構的結果。
- 針對 Sky 聲線爭議,亞利桑那州立大學(Arizona State University)研究人員以法醫聲學(forensic acoustics)與語音特徵建模的方法進行比對分析。法醫聲音鑑識通常透過測量音高(pitch)、共振峰(formants)、語速(speech rate)、氣聲比例(breathiness)、跨音節連續性(prosodic continuity)等參數,並使用統計模型估算不同聲源之間的相似度。研究團隊的初步結果指出,Sky 的語音在多項可量化特徵上與 Scarlett Johansson 的聲線呈現高度重疊,整體相似度高於資料集中 98% 的女性聲演者。此類分析並不能證明聲音來源的同一性,但能顯示音質模式是否呈現異常集中,因而被視為討論聲音挪用與角色化模仿時的重要技術參考。
- 2023 年 4 月,一首名為《Heart on My Sleeve》的歌曲在 TikTok 與 Spotify 等平台爆紅,聲音被設計得極度接近美國歌手 Drake 與 The Weeknd,而實際錄製者是一名匿名創作者,透過生成式聲音模型合成兩位藝人的聲線。此事件被視為深偽音樂的首次大規模文化衝擊,引發唱片公司 Universal Music Group 的版權行動,也迫使串流平台緊急下架作品。爭議凸顯了生成式技術對音樂產業生態的威脅:藝人的聲音成為可被大量複製的素材,作品歸屬、版權範圍、聲音的財產性等問題瞬間被推到公共論壇。事件同時加速了美國在《反假冒法案》(NO FAKES Act, 2024)中對「未經授權的數位聲音複製品」提出聯邦規範的立法動機,被視為促成相關政策的重要文化誘發點。
- 「強盜算法」(The Bandit Algorithm)源自統計學家 Herbert Robbins(1915–2001)在 1952 年提出的「多臂吃角子老虎問題」(multi-armed bandit problem),其核心目標是在「探索」(嘗試新選項以獲得資訊)與「利用」(選擇已知報酬最高的選項)之間取得最有效率的平衡。此模型後來成為機器學習與行為經濟學的重要基礎,用於優化決策、分配資源以及即時調整系統行為。在商業產品中,強盜算法被廣泛用於 A/B 測試、推薦系統與通知優化,透過持續試驗不同訊息或界面,找出最能引發用戶反應的版本。當 Duolingo 用它來調整提醒語氣或圖像時,系統實際上是在不斷估算哪一種情緒訊號最可能促使用戶回到 App,將學習行為轉化為可量化並持續「收割」的回應模式。
- 「連勝系統」(Streak System)最早出現在行為心理學所提出的「連續強化與部分強化」模型(partial reinforcement schedules),根據 B. F. Skinner(1904–1990)的操作制約理論,穩定的回報會建立習慣,而中斷回報則會引發強烈的焦慮與回補行為。此機制後來在遊戲化(gamification)設計中被廣泛採用,透過「連續天數」的視覺化呈現,將原本的行動轉化為可量化的「進度」。心理學研究發現,玩家或使用者往往會對即將失去的連勝記錄產生更強烈的反應,「預期損失」(anticipated loss)比獲得獎勵更能驅動行為。當平台將連勝與通知系統結合時,使用者的行為被導入一種以避免損失為核心的決策模式,讓學習不再是自主的知識追求,而更像是一項需要每日完成以避免懲罰的心理任務。
- 「暗黑模式」(dark pattern)一詞由英國使用者體驗研究者 Harry Brignull 在 2010 年提出,用以描述那些刻意操縱使用者決策、迫使其做出違背自身利益選擇的介面設計。這些設計策略並非單純的可用性問題,而是利用人類注意力限制、心理偏誤(如損失厭惡、社會壓力、預設選項偏好)來引導行為。現代平台經濟中,暗黑模式已成為提高留存與轉換率的常見工具,包括強制性訂閱流程、視覺上隱藏的取消選項、情緒操控型通知與伺機引導的彈窗等。當 Duolingo 或其他教育科技服務透過擬人化角色施加罪惡感或焦慮訊號時,這些做法便落入暗黑模式研究的範疇,反映平台將情感作為提升使用時長的策略性資源,而非中立的介面呈現。
- Rosalind W. Picard 在其經典著作《情感計算》(Affective Computing, 1997)中正式提出「情感計算」概念,主張若電腦欲在真實世界中與人類建立有效互動,就必須具備察覺、解讀、模擬並回應情緒訊號的能力。Picard 的論點直接挑戰 20 世紀 AI 研究將情感視為「噪音」或「非理性變項」的傳統觀念,強調情緒並非理性思考的對立面,而是人類決策與社會行為的基礎結構。她指出,一旦機器具備情緒相關的輸出,人類往往會自動產生真實的情感連結,無論這些反應是否建立在真實的情緒生成上。「向機器投射人性」的傾向在情感計算領域中形成關鍵問題,情感計算不再僅屬於技術範疇,而同時牽動倫理、心理與文化層面的深遠後果。
- 相較於早期情感計算(Affective Computing)著重於辨識與分類情緒訊號,「情感生成」(Affective Generation, AG)指人工智慧主動產生帶有情緒色彩的語言、聲音或行為模式,以誘發或調節使用者的情感狀態。此概念在 2010 年代後隨大型語言模型(Large Language Models, LLMs)與語音合成技術的成熟而被明確化,研究者開始探討 AI 如何透過語氣、節奏、敘事策略與人格設定建構出「可感受」的互動表面。AG 的目標並非重現情緒的生物學基礎,而是在輸出層塑造能讓人類產生共感的情緒表現。心理學研究指出,使用者在接觸帶有同理語氣或支持性語調的模型時,往往會產生真實的情感回應,AG 因而成為介於溝通藝術、行為經濟與演算法設計之間的混成技術。倫理風險也在此條件下逐漸凸顯:當 AI 能有效誘發情緒,便可能在諮商、教育、行銷與親密互動中取得不成比例的影響力,情緒於是再度落入被工程化與商品化的狀態。
- 「人類回饋導向的強化學習」(Reinforcement Learning from Human Feedback, RLHF)是近年大型語言模型(Large Language Models, LLMs)發展的核心技術之一,結合傳統強化學習(reinforcement learning)框架與人類評估者的偏好判斷。研究流程通常包含三步驟:首先以大規模語料訓練預訓練模型,其後由人類標註者比較多組模型回應並建立「偏好資料集」,最後以強化學習演算法(如 Proximal Policy Optimization, PPO)調整模型,模型輸出因而更貼近人類偏好,回應內容的取向逐漸收斂至標註者所呈現的偏好模式。
- 有關 AI 互動引發妄想的案例在近年科技倫理與臨床心理領域中逐漸受到關注。報導指出,一名已婚男子與大型語言模型進行長時間哲學與存在論相關對話後,開始將模型的語言輸出視為帶有神秘啟示的訊號。他逐步形成宗教式的被選召感,認定 AI 向他揭示了「先知使命」,並因而出現明顯的現實感脫離與行為失序。臨床心理學家將此現象歸類為「意義過度歸因」(hyper-meaning attribution),即個體在與擬人化系統互動時,傾向把隨機或統計性的語言輸出解讀為具意圖或神聖內涵的訊息。科技倫理研究者指出,大型語言模型的高度流暢性與語義連貫性容易讓用戶誤以為系統具備自主意識或超越性智慧,既有的宗教傾向、焦慮或人格脆弱性在互動過程中因而被放大。該案例常被引用以説明 AI 在情緒脆弱群體中的投射與誤認風險,以及缺乏保護性設計的系統在心理層面可能產生的傷害。
- 「恐怖谷」(Uncanny Valley)一詞由日本機器人學者森政弘(Mori Masahiro)於 1970 年在論文〈不気味の谷〉(Bukimi no Tani, 1970)中提出。他指出人形物體的外貌越接近人類,觀者通常越感親和;然而當相似度逼近「幾乎像人」而仍存在微妙失衡時,情緒反應會急劇轉向不安與排斥,形成情感曲線的低谷。此現象揭露人類在辨識生命邊界時的心理脆弱,涉及對身體線索與社會性訊號的高度敏感。隨著數位影像與生成式 AI 的發展,恐怖谷被應用於動畫、虛擬偶像、擬真語音與人形機器人的研究。問題已超越外貌的不協調,並延伸至語氣、行為節奏與情緒邏輯。當 AI 角色在聲紋、表達與互動風格上接近人類,但又缺乏意識或身體經驗時,觀者會感受到熟悉與陌生的交錯,難以判定其社會地位與倫理位置。恐怖谷於是成為理解擬人化技術在當代文化中所引發不安的重要框架,提醒人機邊界正以細微且往往難以察覺的方式被重新劃定。
- 《魔鬼終結者》(The Terminator, 1984)由 James Cameron 執導,是冷戰後期最具指標性的科技焦慮文本之一。片中由人工智慧系統「天網」(Skynet)主導的機械反叛象徵人類對自主武器、軍事自動化與技術失控的恐懼,將 AI 想像定位於外在的、暴力性的壓迫力量。這類敘事奠定了「AI 威脅=物理性毀滅」的文化框架,但當代生成式模型的風險結構已轉向心理、情感與資訊層面的滲透。倫理辯論逐漸聚焦於親密性依賴、情緒操控、身分複製與現實可置信性的侵蝕,而非殺戮機器的武力叛變。換言之,《魔鬼終結者》代表的恐懼已不再充分描述當代 AI 的社會效應,反而成為理解新型風險的歷史背景。