《媒体愛墾》內容重點推薦

《愛墾媒體頻道》推薦精彩文章、照片請瀏覽以下網頁:

Load Previous Comments
  • Suyuu

    抹黑對手而又不惹禍上身的幾種玩法,有的媒體人/評論員挺擅長。是謂“高級黑”。第一種,“哪壺不開提哪壺”。對某些“敏感”話題,站穩“主流”、大多數”立場說話,連篇累牘、指桑罵槐不點名發表偽議題,鼓勵大家想像有關事件。第二種方式,故意把事情往誇張裏做,誇張到令人反感的程度。有些政治人物想整自己人,但又不好公然為之,發帖子時,事例與照片專選難看的、難堪的。還有一種,對於對手所做的好事閉口不提,顧左右而言他。

  • Suyuu


    雅蒙《八臂金剛·千面菩薩—永遠瀟灑的白垚》

    1999年,白垚先生從美國波士頓飛抵大馬時,先見到他的友人如此形容他:“他只有比以前更瀟灑了。”

    後來,自然我也見到了白垚先生,果然真是比以前更瀟灑。是中年心事濃如酒的寫實版。
    一直來在我的印象中,瀟灑就是白垚先生的標誌,人與文皆如此。

    我“很小”就認識白垚先生,不過一直都是喚他為“劉哥”。“學友會”的人都是這麽叫他,後來他索性改名“劉戈”。結果連姚拓先生也得叫他“劉哥”。

    這裏我還是稱白垚先生為“劉哥”,因為需要回到從前。

    我初見到劉哥時約11歲,是在學友會聽他演講。那時心中納罕:怎麽這個人這麽像石原裕次郎。

    不僅我一個如此覺得,當年學友會的人都有同樣的感覺。

    石原裕次郎者,五六十年代日本電影名小生,在銀幕上以粗獷不羈傾倒觀眾。
    真正認識劉哥是在我的少年時代。

    可以說如果沒有劉哥,今天我不會寫稿。當年在班上編壁報,多出的一篇剛好是自己寫的〈小紅娘〉。丟了可惜,就寄到《學生周報》。結果兩個星期後,就收到劉哥的來信,要我“再接再厲”。

    劉哥很勤於寫信鼓勵新進小作家。他說過,編者的話對讀者的影響力很大。確然,他從前化身為“嚴三湄”編學生周報時,精彩的編後話是讀者必讀的。

    對新進作者,劉哥獨具慧眼,當年13歲的邁克還只是在《學生周報》寫影話時,劉哥就已看出他才華洋溢。囑咐我與邁克通信交友,作為鼓勵他寫作的友伴,同時大量采用邁克的文稿。

    今日海外已有人贊譽邁克為張愛玲的接班人。不是文字像,而是文筆的意境最酷肖。

    當年現代詩壇有“四金剛一菩薩”。女菩薩者梅淑貞小姐也。梅小姐在及笄之年初試啼聲的第一首詩,就是參加《學生周報》的現代詩創作比賽,初選時是在首四名之外的優異獎。但最後決審時,劉哥一見此詩驚為天人,二話不說舌戰群判,把梅詩提升為第一名。

    其後博學多才的梅小姐的詩作與其他作品,在在都證明了劉哥慧眼識英雄。至今仍有人說,大馬才女雖多,還數梅小姐第一。

    畢業後我到吉隆坡工作,常往學生周報的編輯部跑,也時常見到劉哥,聽他發表一針見血的高論,其言其語亦莊亦諧,句句精警。

    那時我常幫他校對《蕉風》的稿件,從他那幾得益匪淺。他教會我,一篇文章取題目的重要性。他說一個不好的題目會令好文章面目無光,但一個出色的題目可以令文章錦上添花,可以畫龍點睛,甚至可以令文章起死回生。

    他曾說過,看作者的文章最好把它們想像成鉛字版,這樣可以真正看到文章的本色,不會被作者的字體好或壞影響。

    最記得他說過:“你與邁克兩個人,最好不要學那些人到處亮相。那怕你長得像阿倫狄龍,都會有人失望,作者以文會友就夠了。”

    他老人家就從不亮相,當年公演歌劇《漢麗寶》時,他安排我訪問了導演、指揮與男女主角,他獨獨藏在舞臺的燈影後。他不出書,連舊作也不存。

    劉哥多才多藝最叫人心折。他是文壇的八臂金剛與千面菩薩,寫詩寫歌劇寫散文寫影評,寫什麽文字都是一流的。葉小柔,菁菁,苗苗在他筆下,都成為當時名傾一時的傳奇人物。

    劉哥不排除“流行文學”,他說過文章只有好與壞之分而已。當年他主編《學生周報》時,文藝專題中用上許多電影明星的玉照,經他剪裁下,往往化腐朽為神奇,就帶上“文藝味兒”了。當年的《學生周報》銷量曾經超過6萬份。

    我記得劉哥說過他編《學生周報》的秘訣:給70% 讀者要看的,然後給讀者30% 我要他們看的。

    《紅樓夢》第35回中,鶯兒對賈寶玉說:“你還不知我們姑娘(薜寶釵)有幾樣世上的人沒有的好處呢……”此刻寫白垚先生,我也有同感,只因一支拙筆描繪不出他真人百分一的精彩處。(南洋文藝 5/6/2000)

  • Suyuu


    不管橫屏豎屏,創作的追求不能改變

    如果說,個人電腦時代,把電影和電視作品“搬到”互聯網上,就算實現了網絡視頻的傳播,那麽,移動互聯網時代,網絡視頻面臨著前所未有的挑戰。豎屏對網絡視頻的挑戰,表面看來是播放終端發生了轉變,背後是移動互聯網超越了傳統互聯網,重構了既有傳播方式和傳播關係。

    社交性成為未來網絡視頻發展的主要思路,即在創作者與用戶之間建立社交關係,以及吸引普通用戶之間直接通過社交關係傳播網絡視頻。目前中國手機網民經常使用的各類應用中,以微信、微博、QQ為代表的即時通信類應用的每日使用時間最長。即時性、互動性、參與性,成為移動互聯網時代新型人際關係的特征。相應地,這些新特征要求網絡文藝創作者改變以往對受眾的看法,重新審視新環境下的“作者-讀者”關係。

    個人電腦時代,文藝創作者與接收者之間的關係並不對等。創作者擁有更多話語權,受眾的反應不能及時反饋給創作者,受眾很難干預文藝作品的創作和修改過程,創作者提供什麽樣的內容,受眾就被動接受什麽樣的內容,即使受眾對文藝作品有不滿情緒,也難以動搖創作者的地位。

    移動互聯網時代,創作者與受眾之間的關係發生了改變。受眾公開表達自己的意見,這些意見能夠被創作者和其他人看到,從而對文藝創作者造成壓力,影響文藝作品的內容。網絡小說作者響應讀者要求改變故事情節和人物命運,網絡綜藝節目根據受眾前期反應而調整後期內容邊拍邊改,網絡影視劇改編自點擊量和口碑均出色的網絡小說,受眾投票決定了網絡真人秀里選手的去留,用戶參與眾籌出版圖書和音樂作品……諸如此類的現象表明,受眾話語權在增加,受眾地位的上升意味著創作者地位相對下降。

    在這樣的背景下,網絡視頻創作者應該借助即時通信類應用的東風,不僅通過社交媒體入口獲取用戶,也要通過社交網絡延長用戶停留在網絡視頻上的時間,吸引用戶參與網絡視頻的製作和傳播,製造方便社交媒體討論的話題,培育現象級視頻作品。

    為了表示對用戶的友好,視頻創作者可以針對同一內容,同時製作橫屏版和豎屏版,讓用戶根據收看終端和喜好自主選擇。橫屏和豎屏視頻各有千秋,在相當長一段時間內必將共存。創作者與其抱怨製作困難,不如考慮如何克服困難,探索適合豎屏視頻的構圖方式和鏡頭語言。豎屏視頻快節奏、短時長的敘事風格,何嘗不是對部分橫屏劇啰嗦冗長的一種反抗?

    豎屏視頻要走向精細化。視頻創作者需深入洞察用戶細分需求,提供精準化內容,有些節目也許更適合豎屏畫面,比如脫口秀、單人為主的MV、一對一訪談等。創作者應該尋找合適題材,挖掘內容的垂直化與精準化,匹配恰當的表現形式,形成專業化產業鏈,確立豎屏的行業標準,生產優秀的視頻內容。

    需要特別指出的是,不管橫屏、豎屏,創作的根本追求是不能改變的,包括對時代風雲的洞察,對現實生活的關注,對法治精神的恪守,對道德倫理的遵循,對美好人性的頌揚等。

    移動互聯網時代,在“連接一切”“永遠在線”的背景下,網絡視頻不能安於固守傳統陣地,而要借技術力量,突破既有創作限制,包容風格多樣化的內容產品,推動跨平臺的創作,建設更具多樣性的數字環境。豎屏視頻改變了既往接收終端和表現形式,重構了創作者、用戶、平臺之間的社會關係,用戶接觸視頻的場景也被改造,從而為網絡視頻在新技術條件下的發展創造了新契機。陳陽《橫屏“讓位”豎屏,別出讓了審美體驗和思想追求》,見 2021年01月23日 光明日報)(作者系中國人民大學新聞學院副教授、首都發展與戰略研究院研究員。本文系中國人民大學馬克思主義新聞觀研究中心“馬克思主義新聞觀指導下的數字文化生存者研究”〔19MXG14〕階段性成果)

  • Suyuu

    Q:在〈序〉的敘述裡,似乎您特別期待年輕人讀這集子裡的文章?年輕讀者對您來說,有哪些意義與重要性?—〈序〉有點自我解嘲的意思,很多人以為我對年輕人有說話能力,但其實我是沒有的。我的序說的其實是這件事,我一點也不關心誰來看我的書(哈哈),我所有的書都是。

    我不認得任何人,認識的任何人,也都不能真正認得他的內心,你唯一認識的那個人,就是二十歲的你自己。


    我唯一的假想讀者就是那個人;那個人我完全知道他怎麼回事,知道他的過去與現在。只是,以前我寫給二十歲的自己,他有一定的代表性,他跟他旁邊的人沒有太大差別;現在這個差別變大了,時代真的不一樣了。


    我(對外)的天線再也不通;天線收到的也從訊號變成雜訊。這個是自然規律,這是人生的真相,不管多敏感多聰明,你終究會變成過去的人、過去的時代,這是很自然的事情。


    年輕時,我在出版社當編輯、企畫,有一段時間我覺得我自己好像有能力能夠掌握很多種語言,跟很多種人溝通;我好像知道商業書的讀者是怎麼回事、歷史書的讀者是怎麼回事,小說的讀者又是怎麼回事,當我在描述那些書的時候,我可以跟那些讀者打交道,因為我就是他們的一份子!


    我喜歡讀各式各樣的書,所以我知道每一種書的讀者是怎麼回事,我都可以化身成他們,我是他們當中的全部;他們每一個人是當中兩三種書的愛好者,而我是當中二、三十種書的愛好者。我感覺自己有種能力可以跟所有人溝通,絲毫不感覺困難,我可以隨時變換我的音調,跟不同人講話。


    我不是很確切知道自己什麼時候這個能力消失了。


    九六年我開始辦雜誌的時候,我都還有很強的這個能力,隨時可以化身學電腦的人、理財的人、買電腦硬體的人、關心數位經濟的人;我都還有能力寫各式各樣的文案,可能是後來我的官變大了,我沒有被要求做這些事。


    我再也不寫文案,過了一段時間語言能力就生鏽了,那些天線也就不通了。這種感覺在網路時代更明顯,因為網路時代就是快速推進,族群、代溝都變得非常明顯。就眼睜睜看著身邊一群一群人,開始跟你講不同的話。


    從事網路,並不代表擁有與年輕人互動的語言


    我現在也沒有太多的能力與動機,去尋求對話的關係。我都這樣嘲笑自己,一說話,他們就變得相當客氣,也就是非常疏遠的意思;因為你不是同樣的人。

    這個〈序〉透露了我的溝通焦慮,也透露了我承認自己變成上一代,而不是中間那一代的真相。

    我的小孩是個媒介,如果他願意讓我知道的話,也許他是現在我唯一一個可以叩問年輕人想法的管道;不是只有這本書,其他的事件也要通過這個途徑,才能更有機會知道某一部份那個世代的想法。


    包括去年學運的時候,我仰賴我的小孩跟他的同學、朋友,給我各式各樣的訊息,來讓我想像與體會他們的心境,我不一定全部可以理解,但我希望我能更知道一些。


    我辦雜誌最多的時候是九六年到兩千年,這五年當中我辦了十幾種雜誌,那段時間我都還有 multi lingual(多語言)的能力。後來我一直都在做網路相關的事情,你誤以為你握有一個跟年輕人打交道的語言,其實不是;那其實是一個與年輕人相關,但並不是我理解的語言。


    我這樣的認識,可能沒有超過十年,我才意識到自己對於年輕人想法所接收到的訊號,非常地斑駁模糊,沒有辦法像我年輕時,可以感知到社會各種興趣的人與情境。
    (何宛芳, 2015年11月3日, 《詹宏志:如果真有文如其人,這本書跟我的關係會是最自在的》──《旅行與讀書》專訪

  • Suyuu

    當戈德爾斯坦將中國與俄羅斯等國家,試圖讓域名職能擺脫美國法律的控制,也視為數據民族主義的一部分,擔心會產生競爭性的或重復性的域名系統,從而導致互聯網普通用戶登錄錯誤網址的風險時,在中國,一個新的概念正在形成

    2015年3月5日,中國國務院總理李克強在十二屆全國人大三次會議上,所作政府工作報告中提出:“製定‘互聯網+’行動計劃,推動移動互聯網、雲計算、大數據、物聯網等與現代製造業結合,促進電子商務、工業互聯網和互聯網金融(ITFIN)健康發展,引導互聯網企業拓展國際市場。”

    201571日,國務院頒布《關於積極推進“互聯網+”行動的指導意見》,規定了所要推進的重點行動:“互聯網+”創業創新“互聯網+”協同製造“互聯網+”現代農業“互聯網+”普惠金融“互聯網+”益民服務“互聯網+”高效物流“互聯網+”便捷交通“互聯網+”綠色生態“互聯網+”人工智能


    雖然“互聯網+”行動還只是剛剛開始,但在中國,它已經將這個時代命名為“互聯網+”時代。這個來自中國的詞語會變成一個普遍性的名稱嗎?這個時代會持續多久的時間?一切當然還沒有答案。但確定無疑的是,互聯網正在開始其新的歷史階段。如果就以“互聯網+”作為全球互聯網新時代的命名,以上所述的事件它顯然將它區分成了三個方面,或者說它將自身具體化為三個時代;APP的時代、數據民族主義的時代與“互聯網+”行動的時代,它們分別表述這個時代的文化、政治與經濟。在這個時代里,萬維網並(還)沒有死亡,它只是在互聯網的世界里不再居於優先和主導的位置,無論是APP、數據民族主義還是“互聯網+”行動,它們都並非取代萬維網,而只是把它當作了一個自然化了的背景,一個不言自明的前提。

    在《網絡社會的崛起》里,卡斯特將互聯網時代的時間,描述為“無時間之時間”或“虛擬時間”,將空間界定為“流動空間”——後來又稱之為“超空間”。而在“互聯網+”時代里,時間形式與空間形式發生了新的彎曲。在APP的各種傳輸協議里,Real Time——“實時”或真實時間是一個核心的詞語:實時傳輸協議(Real-time Transport Protocol, RTP)、實時傳輸控制協議(Real-Time Control Protocol,RTCP)、實時流協議(Real-Time Streaming Protocol, RTSP)。而無論是數據民族主義強調的國家的邊界,還是“互聯網+”行動對製造業的強調,在與APP傳輸協議對應的意義上,把Real Space重新納入到互聯網的空間組織之中。

    由此,“互聯網+”時代的時間與空間,變成了一種複合的時間與空間:虛擬時間+真實時間(virtual time + real time), 超空間+真實空間(hyperspace + real space)

    在這里或許可以借用卡斯特的另一個概念。當有人認為,互聯網時代將溝通心靈的過去、現在與未來展現全都接連在巨大的非歷史性超文本中,因而把我們的現實變成了虛擬,卡斯特反駁說,任何現實經驗都是編碼的產物,一切現實在感知上都是虛擬的,因此目前以一切溝通模式(從印刷到多媒體)之電子整合為核心的新溝通系統,其歷史特殊性並非是又發出虛擬實境(virtual reality), 反而是建構了真實虛擬(real virtuality)(33)

    而在“互聯網+”時代里,這個“真實虛擬”被召喚來重新面對“實境”(reality),必須在真實時間與真實空間里重新確認自身,因此不妨說,它已/將變成“真實化虛擬”(realized virtuality)

    在這種“真實化虛擬”中,羅蘭·巴特曾經描述的那個“從作品到文本”的演化過程必然或必須發生逆轉。在互聯網的巨大的超文本里,在我們都有的、都是的超文本里,一個“從文本到作品”將會成為現實的一條可能的進路,或超空間的一個可能的出口。這是從文本到作品(work),也是從從文本到工作(work),就像“互聯網+”的行動的主線,是從互聯網到現代製造業。

    從這個進路或出口回看羅蘭·巴特,我們會看到,他曾經希望有一天批評作為獨特的系統之一,能夠“貫穿、分割、中止、塑化”“世界的無限遊戲”。在這個“互聯網+”的時代,這當然還是不可能的任務,但至少,它應該通過“真實化”的行動,在“無限遊戲”中間確認一個短暫中斷的機會,從而如傑姆遜所說,“尋找[我們]自身如何被困的一點蛛絲馬跡”?
    朱康《羅蘭·巴特、互聯網與“互聯網+”》見2017-08-16《文藝批評》雜誌 )

    (33)卡斯特:《網絡社會的崛起》[M],夏鑄久等譯,社會科學文獻出版社,2001年,第61頁,第462頁,第408-409頁,第462頁。

  • Suyuu


    陳明發《電視媒軆政治文化機制》


    大家一起拼政治、拼經濟,也不可忽略拼文化。健全社會须要政經文三位一體。一般人對“文化”的理解,還只是保留在唱歌、跳舞、卡拉OK24節令鼓等活動,這些固然是文化的一部分,而且有它“軟實力”的一面;但其“硬技巧”那一面卻往往躲過了人們的眼光,在群眾不留意的地方坑了民族前途。因此,對文化的整體認識,除了一般的Know-why,know-what,我們也應該知道文化Know-how。略舉例子:

    1 最近有一場政治辯論,是由兩個單位聯辦的。有趣的是,到了向正反雙方提問最後四道問題的時段,照理應該是聯辦雙方的兩位聯合主持人各問兩道才是正常的操作,可是其中一方的女主持人却先發制人一口氣問完四道,讓另一位男主持最後根本沒時間再問了,而大家居然看不出這“高招”有問題,或默然接受了這樣的安排?這固然反映了有關單位的工作倫理,也反映了一般民眾不知不覺的意識。這樣的文化现象明顯地就是一種有機心的設計。當然,有少数人發現了其巧妙,文化使然,也認為這種“智取”、“將了人一把”的把戲,真“過癮”,末了還說一句:“被人吃了都不知道”。大眾傳播文化的倫理道德底线、示範作用,天知道有何特别安排?

    2 再進一步看那最後四道問題,照常理應該是針對正反雙方各問兩道才是,同樣的,因爲“善於發揮”、“先下手為強”、“在鏡頭前的另一位主播和被詢者,因為是直播也不好當眾發作”的“過人機智”,玩點小動作却可能博個大效果,于是把四道問題全丟給正方一邊去接招,一副看你怎麼個招架,期待你“講多錯多”的態度,而一般觀眾要不是不察不覺,就是還欣賞這位女主播“高招”。

    3 這個號稱馬來西亞大眾傳播界最高水平的單位,主持人居然還不如一位中學辯論會主持同學的常識水平?辯論會照常理是開場由正方陳詞,反方接着陳詞;尾場結束前則由反方先總結,正方後總結,可是這單位硬是要正方先總結,限定時間一到就沒命地按鈴;然後才由反方總結,過了時間也不按鈴。這個做得太明顯吧?可是它就是這種文化水平,只要“大多數觀眾欣然接受,又有何不可”?

    4 難怪辯論會一結束後,直播攝錄機鏡頭拉遠時,這位姐兒對反方笑得好甜好燦爛,似乎在問他:我這樣的表現,您還滿意吧?(3.11.2021)

  • Suyuu

    陳明發·影像一帶一路:記憶·尋索·再現

    常在課堂上隨興提問:“怎樣的企業故事片才是好片?”

    許多人都推薦了鄰國泰國制作的那部潘婷洗髮水微電影。催人淚水,卻很真實。這麼說吧,好的微電影不僅僅需要攝錄機與勞力,它還是"用心拍的"。泰國拍得出這麼好的商業短片,該給馬來西亞一個很大的啟示。

    建議可從舉辦微電影比賽開始,邀請全馬數十家大專院校的藝術系學生,以及對短片藝術有興趣的社會人士,發揮他們的影像概念、才華與想象力,給受推薦的個人、企業、地方、事物...........拍攝短片。

    《影像一帶一路:記憶·尋索·再現》征紀錄片企劃~~一、主辦單位;二、徵件目的:紀錄一帶一路沿線國家有形無形人文影像、城鄉性格風貌,提供後續研究者研究之素材,並深化各國民眾親近一帶一路、珍惜一帶一路的內在情感;三、徵件主題:“記憶·尋索·再現”,共分...........等3類,紀錄並重現一帶一路沿線國家、地區的特色、傳統技藝的發展歷史與滄桑;深具在地風俗與紀念意義的民俗節慶,同時廣徵尋找一帶一路其他符合本賽事主題且值得紀錄保存之影像專題。四、影片長度:8分鐘為限。五、收件日期:即日起至月日止。六、製作獎金:最高可得製作費。七、相關網站;八、聯絡方式:)

  • Suyuu


    傳播媒介「大心靈」下的鄉土書寫

    上述現代媒介在我們生活中影響至鉅,資訊與網路的快速衝擊現象,映顯在新世代作家鄉土書寫表現上,尤其是自稱是「網路原住民」與「重整世代」的年輕寫手,更是大幅躍進為將3C 翻轉為小說中的溝通路徑與重要場景,誠如論者所言:「鄉土小說發展到新世紀,令人意外的不是鄉土的失落,田園詩的終結,而是鄉土的再生,以災異與天人感應的方式再生,其中還存有著電子媒材的滑稽諸如網路、FB、twitter、line、維基百科,甚或是電子書的文學新環境,因此新世代即或是以最具地方傳統歷史認識層面的「鄉土社會」為素材,依舊可見作品表現的是在一個「大心靈」,所謂傳播媒介的強力影響之下,再出現新鄉土類型的個別分化書寫風格。
    (陳惠齡 2014《從景觀符號、民俗儀典到資訊媒介:作為「生產地方性」的新鄉土小說書寫現象》,《東海中文學報》第27期 頁241-272,東海大學中文系,2014 年6 月)

  • Suyuu

    黃春明〈現此時先生〉(1986小說)不斷提及「現此時」先生在偏遠山村奠定社會地位和聲望,乃是因為掌握了「邊緣」(農村)來自於「中心」(全國)的新聞資訊-「報紙」。因著掌握傳播媒介,人與社會的接觸面、生活方式與人際關係都增擴了,而在汲取資訊的時間上也極具效率。耐人尋味的是「現此時」先生並非是以知識菁英之姿而孚眾,再則他讀的是「舊報紙」,傳達的也是「舊新聞」,其間並經由「國語」轉譯為「閩南語」,然而村民卻唯「報紙說」是賴。小說除了以「現此時」包孕「那時候」的時間弔詭性,藉以傳達鄉土社會自身的「遲滯性時間」特徵,並無法同步於外界社會和時間制度外,也別有深意地揭現「報紙說」所扮演強力決定性角色,已漸次削弱並瓦解人們對生活方式和鄉土性祖先傳統的認同。 當村民隨著「現此時」先生讀報之助,而導致生活不斷受到「暗示性」與「重複性」的傳媒意識形態刺激時, 耳聞的世界意象與價值觀等等,已然逐漸固著與普及,甚至來自「遠方」與「那時候」的資訊霸權,也漸次取代

    「當下」與「現此時」的原生情感。是以偶然發現「報紙說」假造「福谷村」(即部分山村人所居的「蚊仔坑」)「母牛生小象」的新聞時,荒謬突梯的是「報紙說」的力量,竟然巨大到可以使村民懷疑起自己對於本村在地事物的實存經驗與生活認知,而意欲爬上坑頂,一探究竟。山村居民儼然是「被媒介所中介的公眾」,意即他們雖散居偏遠山城,卻可經由閱讀同樣的報紙,而與多數其他人共享同一想法與同一感情,即使這種「共同想像」並非具有「同時性」,但對於村民而言,他們多數人並沒有清楚的自覺性。小說中金毛等人也曾懷疑過報紙刊載不實,而發出:「騙瘋子!蚊仔坑的母牛生小象?」可是終究屈服於「報紙說的啦!你們不信?!」

    〈現此時先生〉一文或隱含有作者反思「現此時與那時候」、「傳統與現代」、「地方鄉土與全國傳媒」的一個現代性「時間表」,然而文中對於現代傳媒的批判,尤在於媒體並不直接影響接收者的意見,而是影響人們表達意見的可能性, 一如金毛等人最後只能選擇噤聲與接受。因此媒體時代來臨,引發諸多意義的失落,即在於傳媒間接變成了另一種「社會控制」。媒體資訊顯然已將人們架空到一個「超現實」的虛擬世界,人們反而不再認識或相信自己生活的真實世界了。(陳惠齡 2014《從景觀符號、民俗儀典到資訊媒介:作為「生產地方性」的新鄉土小說書寫現象》,《東海中文學報》第27期 頁241-272,東海大學中文系,2014 年6 月,19-20頁)

  • Suyuu


    陳明發·婆羅洲《學生之光》雜誌


    我和砂拉越最早的情緣,開始於初中筆友所推薦的一份學生雜誌,《學生之光》(原名《海豚》雜誌)。我後來不僅成了它的長期讀者,還成了校內代理與作者。說起來,我由中四起就在促進東西馬之間的互相認識,因為除了投稿散文與詩,我還提供了一些有關西馬地方與學校活動的報導。這份雜誌一般是以他們出版的書籍當稿費,計有詩集、小說以及文化論述等。其中有一本前砂拉越博物館館長、大英人類學家湯哈里遜所著的《砂勞越民族叢談》,一直是我的珍藏,它是最早打開我對砂拉越各族文化視野的書籍。人世間最奧妙的是,這份刊物的總編輯房漢佳,在十多年後,竟然與砂拉越的許多社群領導人,一起坐在我主持的課堂裏,共同經歷一系列領導培訓。(30.5.2021)

    這是沙巴、砂拉越官方單位婆羅洲文化局所出版的一份中文刊物。


    由政府出版的中文刊物,過去在西馬有一本《鬥士》月刊,是新聞部辦的。我1970年代杪在八打靈再也19區生活出版社上班時,其總編輯羅廣成常來公司做客。我對他印象深刻,一是因為不管任何時候遇上,他都是精神奕奕的模樣,聲音嘹亮而好聽;二是讀過他寫的一部書,記載他采訪東姑阿都拉曼與馬共領袖陳平在華玲會談的情況。攝記同事羅偉強定期給《鬥士》提供所需照片,他邀我給他的作品寫些詩句一起發表,讓我多了一個發表創作的版位。忘記了多少錢,印象中稿費還不錯。最可貴的是,在1982年以前,有的政府單位還是尊敬中文的,《鬥士》月刊是最好的例子。詩作配彩圖印行的作法,最早出現於生活出版社的新潮雜誌與新生活報。那是寫詩人幸福的年代,報刊多的可以寫詩的園地,而且可以掙點稿費。想到在買書時出手能闊些,還真有點夢幻。


  • Suyuu


    新聞來源依賴症與宰制性話語


    福柯說:「你以為自己在說話,其實是話在說你」。當新聞媒體與採訪對象在衝突與協作的基礎上實現「共謀」,乃有所謂的“新聞來源”,因而生產了宰制性話語。首先,掌控充足信息的各官方部門、主流團體或政治精英使媒體話語逐漸向權力中心靠攏。其次,傳媒不可能對發生的每件事都親自採訪。新聞來源,尤其是官方的新聞來源作為報道中的話語主體時,很容易就把傳媒拉到宣傳的陣營中。新聞來源還通過有效的新聞管理把自己的議題轉變成傳媒議題,並最終成為公眾議題。70%~90%的新聞內容都來源於新聞製造者們完全或基本控制的形勢。從傳媒角度看,貌似傳媒在根據新聞價值標準設置議程,但其實是當權的新聞來源在構建信息環境。可見,大眾傳媒就這樣巧妙地通過宰制性話語的新聞來源依賴,既確保了其自身利益不受到損害,又實現了對信息環境的建構。
    (網摘参考材料)

    媒體愛墾·https://iconada.tv/photo/link001
    愛墾·媒體研究所 》https://iconada.tv/group/ma
    新媒體·https://iconada.tv/photo/yun-wen-hua-qi-yun-shen-yun

  • Suyuu

    看看誰笑到最後:不管是鄙薄還是景仰,卡內蒂的觀測方向都是人性的某些細部,一旦把它們顯微放大,謙謙君子也成了猙獰怪物。他很早就決定以觀察人群為畢生事業,他的青年時代覆蓋了奧地利民主隨著魏瑪共和的動蕩而日趨衰落,最終被納粹帝國吞並的全過程,但在回憶錄里我們看不到多少現實政治關懷。他在乎的只是「人」。

    1927年7月15日,那個改變了他一生的日子里,大批維也納工人為了兩名被一審處死的工人同胞舉行暴動,火燒司法大廈。卡內蒂看到了軍警的槍彈,看到呻吟倒下的人,後來還把混亂的氛圍寫進了《迷惘》,但他得出的結論無涉階級話語,他只關心「群眾運動」自身的客觀邏輯:「肯定有人率先喊出了『去司法大廈』。但知不知道這個人是誰並不重要,因為每一個聽到這呼聲的人都將它傳給了其他人,沒有遲疑,沒有顧慮,沒有考慮,沒有停留,沒有推延,每個人都將它向同一個方向傳遞。」如此解剖起來,所有集體運動都可以抽掉其政治、階級、種族、宗教背景,化約為一份標本。《群眾與權力》就是這樣一把解剖刀的產物。(雲也退:卡內蒂·我改不了我的不寬容)

  • Suyuu


    最激烈的理想主義者反倒很容易轉變為徹底的虛無主義者,为什麽?

    美國喜劇演員,社會批評家George Carlin說過,“每個犬儒主義者的內心都有一個失望了的理想主義者。”( Inside every cynical person, there is a disappointed idealist." 希望越理想化,就越是容易失望和幻滅,從幻滅過渡到放棄所有的希望,這是很自然的轉變。因此,犬儒主義的對面不是理想主義,而是現實主義。美國著名記者Sydney J. Harris說過一句話很有道理的話:“理想主義者認為,眼前發生的事情是不重要的。犬儒主義者認為,長期以後發生的事情是不重要的。現實主義者認為,眼前做什麽或不做什麽決定著長期以後會發生什麽。”(An idealist believes the short run doesn't count. A cynic believes the long run doesn't matter. A realist believes that what is done or left undone in the short run determines the long run.)拒絕犬儒主義不等於回到天真的理想主義(所謂的“青春無悔”),而是要從失敗的浪漫理想主義汲取教訓,以務實的態度來對待未來的希望,既不放棄希望,也不盲目樂觀。(徐賁:當今中國犬儒社會文化的困境與出路[4])

  • Suyuu


    愛墾評:數字記憶為文創議題提供基本建設

    數字記憶大多以記憶主體為核心,圍繞個體或社會群體,涉及大量與人文學術及社會文化現象相關的議題,這就使得二者在所涉範疇上有了重合基礎。例如,在全球頗有影響的“威尼斯時光機”項目,旨在利用千年歷史檔案呈現自公元900年至2000年城市建築與文化的宏大發展史,“這些龐大的歷史資料可能涵蓋了100億個事件”“詳細記錄了歷史上威尼斯城市生活的所有細節”,包括政治、經濟、金融、貿易、醫療、稅務、地理、建築、航海、市民居住網絡與生活等。項目主持人弗雷德里克·卡普蘭(Frederic Kaplan)形象地稱“威尼斯時光機”將打造一個“中世紀威尼斯Facebook”和“歷史倒帶紐”。顯然,這個典型的數字人文項目大大超出了人文學科範疇,立足“人文”的寬厚之意,同時帶有顯著的記憶建構性質。與此同時,不少以記憶命名的項目直觸人文學科內容,包括地理區劃、歷史人物、歷史事件、歷史場景等相關典籍資料的匯聚和分析,如“中國記憶”“佛羅里達記憶”“北京城門”“孔廟”“燕南園”“老舍”等。而每一個記憶項目都飽含人文意象,因為記憶主體都是個體或群體的人,記憶內容都是以人為中心和原點的多方面知識。

    無論是數字人文還是數字記憶項目,基礎都是資源的數字化匯聚,大多數成果形式為一個庫。數字人文項目比較多地圍繞主題內容、資源類型展開,比如“中國歷代人物傳記資料庫”主要收集中國歷史人物的傳記資料,“中國歷史地理信息系統”旨在匯總地點和行政區劃的空間數據,“民國時期期刊全文數據庫”“中國歷代墓誌數據庫”“中國家譜數據庫”“中國地方歷史文獻數據庫”“中國數字方誌庫”等都有特定的學術內容和資源種類。根據項目性質的不同,有些數字人文項目的資源比較廣泛,仍以“威尼斯時光機”為例,其資源來自威尼斯檔案館所藏豐富的檔案,包括手稿、專著、畫作、信函、文件、海量地圖等,內容涉及出生和死亡記錄、醫療記錄、納稅記錄、公正記錄、專利登記簿、地圖、建築設計圖、城市規劃方案、旅遊導覽圖及和平條約等。不少數字人文學者認為,從人文計算到數字人文,“進化”的誘因和特征之一就是超越文本的單一性,接受包括網頁、影像在內的多種媒介資源的並存與互補。事實上,隨著數字環境的復雜化、數字技術和數字信息生產能力的提升,數字人文項目的資源不斷趨向多樣化和復合化。而數字記憶項目歷來需要以來源廣泛、媒介多樣的資源作為記憶的基礎素材和支撐,如“中國記憶”“新加坡記憶”“北京記憶”“記憶四川”等,均為圖文聲像並用,形式繁多。其中“中國記憶”項目實驗網站使用和存儲了來自文獻機構、民間、現場采集和專題制作的圖書、檔案、地圖、照片、口述、音頻、視頻等多種記憶資源,這種資源特點恰巧應和了數字人文資源的多元變化趨勢。(馮惠玲:數字人文視角下的數字記憶)

  • Suyuu


    知識創造與記憶構建
    ——從當前狀態看,面向人文學術的數字人文項目和面向個體、群體記憶的數字記憶項目在資源呈現方面有多種差異:前者的使命主要是知識組織、發現與創造,後者更突出通過記憶構建喚起情感共鳴或身份認同;前者側重以文本為主的各類資源的數據驅動,後者除利用各類可移動、不可移動資源之外,也吸收調查與創作資源,兼有數據驅動和事實闡釋驅動;前者以遠讀為主要資源分析方法,後者則兼用遠讀和細讀——為追求記憶接近真實,對某些資源的細讀及文化分析必不可少;前者多采用量化研究,借助算法進行文本分析,後者要兼用質性研究,到相關情境中對社會現象進行整體性探究,通過與對象互動來理解和解釋其行為,梳理事實線索;前者追求結論、邏輯嚴密嚴謹,其可視化多為計算結果的映射,後者浸入當下意識和情感,融入意義感,可視化中含有源於歷史、體現當下認知的創作型表達;前者的公眾參與形式多為眾包任務,後者更加重視眾籌資源;前者的成果主要是數據庫和學術結論,主界面注重提供多途徑查詢入口,後者除資源庫、移動端、網站之外,還會有多種表達記憶敘事的數字產品,如動畫、3D建模、互動遊戲、口述、視頻等,主界面注重向用戶提供直觀、便於理解的資源分類體系或專題列表等導覽系統。總之,人類記憶的場景性、情節性、時空性等特質對於數字記憶的敘事性表達需求,使之在呈現界面采用了較多非計算方法,轉而利用多樣的數字方法,以感性和理性的交織,兼及知識(事實)傳播與情感呼喚,形成飽滿的再現力和感染力,這樣一來,便與大多數面向學術的數字人文項目有了不同的形象性格和方法應用。
    (馮惠玲:數字人文視角下的數字記憶)

  • Suyuu

    陳明發《互動式數字叙事》

    正當大家關注中國科技既能把人送到外太空,也能把淘寶的貨物網購到家門口,多少人有留意到,在中國2035文化強國方針下,他們的科技早也已經一步步,將上下五千年的中國文史與眼下現況結合進虛擬網絡?

    正當我們熱衷於轉發中美之間的政治與商貿競爭誰贏誰敗,是否也留意到中美的頂尖大學在合作給中國歷朝歷代名人整理傳記?而數字工藝能把我們帶到他們面前了解其生平敘事,只是這數字人文趨向的第一步。

    這是一項互動式、多媒體內容、跨領域的網絡工程。

    在同一個平臺上,不但給各界提供了最大可能的知識含量,還可能做各種的比較演算,例如根據需要自動給你做出圖表、語音、視頻、照片或現況google map等媒體內容,讓人多感官接觸,有個總體的體驗。

    這張冰山一角的截圖就顯示了歷朝歷代官員原籍、出身、朝代與專業資格(科舉)、官職等,裏頭的數據隨時可調動組成研究需要的各種比較的格式圖表或其他多媒體內容。

    數字叙事(Digital Storytelling)把中華民族的好故事說得更好。

    本地單位團體要迎頭趕上,基本功還是先整理好本身基本史料才行,要不連手工劳作做個Power-point都成問題,更說不上AI玩法。

    各領域有了這樣的資料庫支援,行行業業的研究人員、開發人員就可省下很多時間做需要真正洞見、智慧的思考。一個社會的文化進展會去到另一個層次。

    經典無窮盡;對經典的可能理解更是無窮盡。

    來到準6G的虛擬世界,#數字人文/數字記憶 Digital Humanity / Digital Memory成了知識管理Knowledge Management最前沿。有的國家如芬蘭已經在著手這一塊工作;北京、上海等則在他們大都會的層面上從事這工作。若是成功,那會是真正的智慧國家/城市。(見:馮惠玲:數字人文視角下的數字記憶)(12.6.2022)

    虛擬現實——陰影之河·無盡的現實


    PDF :毛軍京:特色數字人文研究環境的構建與探索


    馮惠玲:數字人文視角下的數字記憶

    Ann Righey:當專著不再是媒介:網絡時代的歷史敘事

  • Suyuu

    Mediated Contents

    We can’t live without internet for even a day.

    We need internet to check our emails. We do works using the cloud technology, which is enabled by internet.

    More often than not, we search for the information/knowledge we need for our works or learning. It may be a piece of writing, some images or audio-visual recordings.

    Youtube has become our online classrooms. And, Facebook and/or Plurk our meeting place for exchanging views.

    The only trouble we are facing is time; we spend too much   

    only possible The internet world is entering a new era. We need to make a decision between confused abundance and meaningful selection. Every time I type the keywords "Malaysian Fashion", what appeared in the first two pages of Google search are mostly those material written by some bloggers, who may be interested in this subject. Of course, as usual, Google will proudly tell you how effective it is; within 0.1 second, it has located more than half a million entries of the things bearing the keywords of "Malaysian fashion". The contents ranging from a retailing shop selling cheap handbags imported from China, to a blogger who has just visited a night market and took a picture of a pair of funny slipper. After a few second, you come to a conclusion, abundance is not something you need, what you do look for are pieces of knowledge that are properly organized and edited. It is less in terms of number of entries but reliable and time saving. This is what www.iconada.tv can do for the fashion community.

    Don’t wait for the traditional media people to come to our company to interview us for our story, and end up with only 3 paragraphs of irrelevant points. More often than not, the interviewees are not knowledgeable enough to understand our unique industries, so they can only interpret our story from the point of view they find interesting.

    We have responsibilities to tell our own stories, be it products launch, brand proposition, experiential formula or organizational points of view. To avoid being left out in the public attention, we have to present ourselves in conversation that we have a stake in. Web as a mediated content collection and display platform is just the concept we business people looking for. 

    There are many fashion magazines published in Malaysia. Unfortunately, periodicals do not last. You have new printed publications almost every day; you usually don't have the time to go through all the contents. So you keep the things aside and say you will read them one day. But, more often than not, when you think of something you have read somewhere, you always can't locate them. Information is useful when it is timely; you find the things you want at the right time. Electronic publication help overcome that. The mediated contents recommend by www.iconada.tv, I think can also serve as an inspiration for us to trigger our creativity in artistic field and make a note @ this comment box.(Expressed by Moooi in 2012)

  • Suyuu

    陳明發〈回應〉

    細心的《愛墾網》讀者會發現,我們在臉書有些舊帖子即使發佈了許多年,在留言欄裏還是有新的回應。要特別註明,那是一些有意義關聯的回應,形成一種有效的、可以延續刺激對話的關聯。人的思想于是恢復到流動的、有能力轉向、位移的狀態,讓新創思的生成變得可能,變得可持續。不是那種一發表就準備讓人刪去的東西。文化累積在手機社群媒體年代變得格外艱難。
    (8.11.2021)

  • Suyuu

    Alongside two other startups Zappy and Durioo, The R&D Studio exhibited at the Malaysia Pavilion during Expo 2020 Dubai, which was held in January this year. Through the event, the firm was able to exhibit Batik Girl to an even broader audience while connecting to potential clients in the Middle East.

    Expo 2020 Dubai also opened up opportunities for Zappy and Durioo. Zappy has worked with a local government in the Middle East on an animation project and is in talks with several companies in Dubai. Meanwhile, Durioo has connected with broadcasters in the Middle East and North Africa to bring its Islamic children’s content to wider audiences.

    [Having these startups participate] in Expo 2020 Dubai allows us to give them exposure to global markets, as well as bring the brand name of Malaysian digital content space to the wider audience,” says Aziz.

    From Malaysia to the world

    The CEO is bullish about the future of Malaysia’s digital creative content economy.

    “The future looks good, as is evident by the success seen by startups in the space,” shares Aziz. “These startups represent the funnel of new creators entering the space and are the lifeblood of creativity, and earlier studios have paved the way for other entrants to enter the field.”

    “The future looks good, as is evident by the success seen by startups in the space,” shares Aziz. “These startups represent the funnel of new creators entering the space and are the lifeblood of creativity, and earlier studios have paved the way for other entrants to enter the field.”

    MDEC will continue to fuel the growth of the country’s digital creative industry, both through supporting startups and developing the necessary talent for keeping the sector going.

    “These initiatives will help provide a strong foundation for our growing industry and ensure that there isn’t a lack of talent,” Aziz explains. “With steady flow of talent, infrastructure, and consistent government grants and initiatives, the gaming and animation industry will be able to not just profit, but also fuel the growth of Malaysia’s digital economy.”

    As Malaysian content continues to cross borders, the CEO is confident that the country’s startups will be able to reach consumers all over the world.

    “As the global audience expands their taste for diverse content, Malaysia with its culture-rich and diverse population would be able to deliver content that is different and unique,” he says.

    Currency converted from Malaysian ringgit to US dollar: US$1 = 4.23 ringgit.

    (26 Apr 2022 https://www.techinasia.com)

  • Suyuu

    First, the digital creative industry has been put forward as a key driver of the post-pandemic economy in Southeast Asia. This is a result of rapid digitalization and a growing generation of millennials and Gen-Z consumers who value experiences and entertainment, alongside an even greater demand for digital content globally.

    Second, digital creative content provides a way for many key skills in tech to be utilized.

    “Digital content is based on established digital creative skills and tech, such as programming, design, art, and narrative construction,” explains Aziz. “Not only does it help train essential base skills, it also allows room for innovation and creates opportunities to explore use cases for new tech, such as virtual reality, augmented reality, and blockchain.”

    Building up a digital creative economy

    Given the potential of the digital creative content industry to drive Malaysia’s digital economy, the nation has rolled out several initiatives to help support its growth.

    MDEC is leading the Malaysian government’s efforts through the Digital Content Ecosystem (DICE) policy under the Ministry of Communications and Multimedia, which focuses on attracting investments, building up local talent and companies, and strengthening the ecosystem through government and private sector partnerships.

    According to Aziz, MDEC’s support of the government’s DICE policy will take form across four areas, namely business development, creative skills and talent, digitalization, and research and partnerships. These include competitions and business-matching opportunities, as well as access to a number of strategic investments and grants to help fuel the growth of local companies.

    One Malaysian startup that has benefited from MDEC’s support is content development firm The R&D Studio.

    In 2017, the startup participated in MDEC’s Intellectual Property Creators Challenge (now known as the Digital Content Creators Challenge) and won the competition, receiving a 75,000 ringgit (US$17,800) grant to produce its short film Batik Girl. The movie went on to premiere in 17 countries, receive official selections in 28 international film festivals, and win awards in Chile, Japan, and the US.

    Aside from the support available in its home turf, The R&D Studio was also able to take advantage of opportunities that MDEC offers to local animation companies that aim to go abroad and tap into new markets.

  • Suyuu

    Behind the growth of Malaysia’s digital creative content startups by Stefanie Yeo

    Many things come to mind when one thinks about Malaysia. The country is a key producer of rubber and palm oil, an industrial powerhouse, and a popular tourist destination. But it is also the home of a booming digital creative content scene.

    In 2020, Malaysia’s gaming market stood at US$786 million, which made it the third largest in Southeast Asia. Its animation industry was valued at over US$1.6 billion in the same year, with exports in the sector standing at over US$285 million, doubling from 2014. Local animation studios also produced more than 65 original pieces of intellectual property, creating nearly US$40.5 million in export value and expanding its presence to more than 120 countries.

    The products of Malaysia’s digital creative industry have also received recognition around the world. Programs such as Upin and Ipin, which explores the adventures of two twin brothers, and Mechamato, which revolves around a boy and his robot companion, have reached global audiences. Meanwhile, games like multiplayer arena brawler GigaBash and action-adventure title No Straight Roads have won accolades at international competitions.

    In 2020, Malaysia’s gaming market stood at US$786 million, which made it the third largest in Southeast Asia. Its animation industry was valued at over US$1.6 billion in the same year, with exports in the sector standing at over US$285 million, doubling from 2014. Local animation studios also produced more than 65 original pieces of intellectual property, creating nearly US$40.5 million in export value and expanding its presence to more than 120 countries.

    The products of Malaysia’s digital creative industry have also received recognition around the world. Programs such as Upin and Ipin, which explores the adventures of two twin brothers, and Mechamato, which revolves around a boy and his robot companion, have reached global audiences. Meanwhile, games like multiplayer arena brawler GigaBash and action-adventure title No Straight Roads have won accolades at international competitions.

    First, the digital creative industry has been put forward as a key driver of the post-pandemic economy in Southeast Asia. This is a result of rapid digitalization and a growing generation of millennials and Gen-Z consumers who value experiences and entertainment, alongside an even greater demand for digital content globally.

    Second, digital creative content provides a way for many key skills in tech to be utilized.

    “Digital content is based on established digital creative skills and tech, such as programming, design, art, and narrative construction,” explains Aziz. “Not only does it help train essential base skills, it also allows room for innovation and creates opportunities to explore use cases for new tech, such as virtual reality, augmented reality, and blockchain.”

  • Suyuu


    數字媒體美學的協商


    在流媒體提供的新的傳播語境下,電影美學和電視美學以及全新的數字技術美學勢必要進行長期、持續的協商,才能形成一種穩定的流媒體視聽美學。這種未來的新美學被學者 Lev Manovich稱為「後媒介美學」(postmedia aesthetics)。這種美學的誕生意味著,過去那種依照媒介差異而對不同類型藝術進行區分的類型學已失去物質的和經濟的基礎,我們對於電影和電視的討論應當「使用新的概念、隱喻和操作工具」。(常江:流媒體與未來的電影業:美學、產業、文化,2020,當代電影,4-10頁)

  • Suyuu


    陳明發·人有權利說話,我沒義務被誤導


    “找到了嗎?”


    近日朋友見面,開口不是“最近怎麼樣?”而是“找到了嗎?”


    大家也很有默契,暫時都是那句“還沒有!”


    不用開場白、暖身操破冰,大家都明白彼此說的是:馬航MH370班機在飛行中迷離失踪,機上239人至今生死不明的謎團。


    大家都關切啊,萬分關切。


    本來就熱血的馬來西亞人,激情這回更沸騰;看媒體上的若干評論人,正義感、慷慨激昂指數又飆新高。


    作者血壓高,無膽湊熱鬧;只有在社群媒體上分享網友創作的歌曲,默默給MH370乘客和機組人員祈福。


    可是,當“機師是某政黨黨員”、“機師是某領導親戚”的新聞報導一出街,我在一些面子書社團所分享的祈福歌曲,居然被人標籤為“不良內容”,連我發其他無關MH370的貼文資格也禁止了。


    禁就禁吧,我去咖啡店喝杯咖啡烏好了。反正祈福是個人心頭事,哪兒不能燃燭?


    咖啡店一坐才發現,熱血的馬來西亞人還博聞多才呢,前面後面左邊右邊忽地冒出許多飛機專家、航行專家、軍事專家、雷達專家、衛星專家、反恐專家、國安專家、國際關係專家、列強博弈專家……………


    不過,聽下去,他們言之鑿鑿、信心滿滿的談話有個共同點: 這個你也不懂嗎,你沒上那什麼網嗎?你沒看那什麼什麼電視欄目嗎?你沒讀那什麼什麼什麼人的分析嗎?…………


    難怪,有些頭頭連地方垃圾、非法燒芭等問題都摸不著頭尾,也好意思評議、嘲諷二十幾個國家參與的大海撈針式尋索行動。


    連平時標榜自己火眼金睛、明辨真偽的律師議員,也有膽量拿著偽照片當鐵證在網上推得特別起勁。


    做生意的朋友遇上這等事,總是百般圓融來一句:“這是民主國家,大家有說話的權利。”

    大家當然有說話的權利;但是我們可沒有義務照單全收、被誤導。

    大家還記得這個故事吧,夫妻騎驢?


    兩公婆趕路,牽著一頭驢。路人見之大笑:蠢公婆啊蠢公婆,有驢不會騎,走路累不累?


    兩公婆於是騎上了驢子,路人這下不笑了,開始罵人:殘忍啊你們殘忍,你們有人性沒有,兩人騎一驢,不是虐待動物是什麼?


    老公聞聲,趕快下來,讓老婆騎在驢子上,自己拉繩子。


    有的路人開始批評做老婆的:你這女人真不要的;人家的老婆都疼老公,你卻貪自己舒服,讓老公走路?妳怎麼那麼不懂道德倫理?


    做老婆的趕緊下來讓老公騎驢子,自己拉繩子。


    又有些人馬上盯上做老公的:你這還算男人嗎?人家的老公都疼老婆,你卻貪自己舒服,讓老婆走路?你信不信女權分子揍你?


    老公也只好下來,兩人牽著驢子走,路人又大笑:蠢公婆啊蠢公婆,有驢不會騎,走路累不累?


    兩公婆最後怎麼了?說故事的人沒交代,我想很可能是發瘋了。


    這世界上不管發生任何事,每個人總有想法、看法;而行動網際網路更方便大家以最快的速度、最廣的幅度,將個人的想法、看法傳播開去。常常,加了醬油添了醋、變了味道換了形又傳回來。


    MH370在飛行中迷離失去踪影,這等怪事史無前例。正當有關各方都在努力,連無關各方如宗教團體等都出來協助輔導搭客家屬,大家已經飽受各種身心煎熬。


    在這樣不尋常的時刻,各路傳言氾濫網路可想而知;把網路傳言當著新聞搬上電視,並繪聲繪影、表情兒戲做渲染,卻耐人尋味。


    傳言真假,我們無法一一去對證;公器是否私用?我們也無法掌握其動機;但有一點是我們可以做到的,就是刪掉、不傳播任何不必要甚至不負責任的猜測,以免加重人心的壓力。


    這不是偉大的事,但至少不會發瘋。
    (15 March 2014 [馬航370神秘失踪悲劇發生于8.3.2014])

  • Suyuu

    陳明發·微博文化現象
    在張惠妹《我最親愛的》歌聲中,我蓋上李開復的新書《140字的驚人力量》(臺北天下文化,2011年3月)最後一面。

    張惠妹唱道:「很想知道你的近況,我聽別人說, 還不如聽你對我講。」

    在全民傳播的年頭,大家在幹什麽、想什麽,都公告天下;可是,人與人之間的交流與理解,加深了麼?在公共場合,我看過許多的男男女女,面對面喝茶,卻各自忙著按自己的 IPhone, Ipad 或手電,和全天下「聊」、「互通信息」, 好像沒看見跟前那有溫度的人。

    140個字,真如李開復所說的「能改變世界」,大家恐怕都不需要深度的思考、分析與互動了。吹擂微博力量者,包括如李開復先生,最喜歡用的一臺詞就是:「它將改變人們的生活」。

    就像美國或一部分套美國標簽的「大師」、「導師」那樣,每開個研討會、培訓班,都說是「它將改變你的命運」。你要相信他們,首先改變的,是這些「大師」本身的收入。科技公司想推什麽新產品,那個產品馬上就能「改變人們的生活」;大家沒想到,首先改變的,是自己的錢包變得更瘦薄了。

    看看這些年,手機的功能、型號每年在更新;跟著手機公司「改變」口號共舞的人們,自己的生活實質又改變了多少?不跟市場團團轉,馬上改變的,是這些科技公司;他們很可能不久就要倒閉;要不,是CEO本身很快就改變,從董事部、投資者面前蒸發。

    對許多人來說,微博不過就是太太姑娘們在理髮院、SPA打發時間時,不經意交換些雜碎的家常信息那樣的事。或科技新貴在銀行家俱樂部的雞尾酒會上,拿著一杯似乎永遠都喝不完的飲料,故作浪漫與瀟灑狀,講兩句冷笑話,逗捧酒女郎一笑解悶。別人往往沒笑,自己倒先誇張的聳動雙肩笑個不停,末了為自己的幽默感吃掉酒杯裏的紅櫻桃。

    這樣的事,怎麽就「改變」了世界?說三幾句俏皮話就能面對世界的巨變,這個世界未免太好對付了。

    要是這樣的話,魯迅先生筆下的阿Q,早就完成了中國的革命與開放;中國早就實現了超英趕美的千秋大業。

    當然,微博上不缺乏達人名師出來指點眾生,分享他們的看家本領、蓋世絕技。可是許多人談到本身的「成功秘訣」時,就像李開復寫微博那樣,1、2、3 .....地在開藥單,好像背熟了這些」法則「,成功自然來;比廟裏的法師開的符咒還有效。

    其實,成功人士一、二、三句話,後面有許多實際狀況的體驗脈絡。變成說明會投影片上的筆記重點,在微博上讀來,真是知其然不知其所以然。少了領悟的貼心質感。但是,媒體最喜歡這些口號式的東西。

    就像某某高材生中狀元了,記者問他有何「秘訣」;第二天報上的標題是這麽寫的:「努力自然能出頭」。微博上,何嘗不是充滿類似的泛泛之談嗎?畢竟,我們是喊慣口號的民族。在政治動員的年頭,或全民皆商的「新時期」,都是同一個民族;分別是寫布條,或按IPAD、IPHONE;幹校出身,或美國博士、科技新貴。


    在微博出現以前已有一些工藝,例如互聯網、手機短訊、電話專線、主題電視臺、廣播電臺的扣應節目,或更早的錄像帶、錄音帶等等。誰要是想繼續學 習、終身學習,已經很足夠了。

    這問題,在已故管理學大師逝世前的一部巨著「下一個社會」有提到。微博,是這些知識載體的一個延伸而已,善加利用,有它的價值。說它能改變世界,就等于說偏重小食,可以忘了正餐;好像看投影片,忘了演講、書籍本身。

    寫微博寫得像發手機短訊的結果,是人們在網上寫得很多,上載的圖象也很多;有素質的視頻內容卻是很少很少的,或言,「智慧含量」很低。要把微博變成一種有影響力的媒體,它在滿足一般民眾、團體對系統學習的需要方面,還有很大的改進空間。

    要不,那種「動員式」的微博作用,例如西方某些人利用微博,廣招群眾在某時某候出現在何處,同時間做一個短暫但足以引起電視臺關注的舉動,好像說擠爆某某商場,這是沒多大意義的。這和有些地方為了「吸引眼球」, 而弄些傷風敗俗的街頭表演沒兩樣。


    百字散文、格言體散文,極短篇或微型小說,西方甚至有50字 小說,如有名的一句話小說:「第二天,太陽從西方升起。」 其實都是早已有之的「微博」,不過,那是需要用心耕耘的文體。對那些早在1970、1980年代便喜歡上短文體的朋友,碰上今天的微博現象,應該好像看見故友終於出頭的感覺。


    有人說,微博會「改變世界「,但這可是文化人所要的世界?不少人充分利用微博輕松的方式,參與有意義的討論。不過,若從整體現象來綜合研究,可以注意到許多人都是在談些瑣雜的事。當然,人人有說話的權利;對他們本身而言,所說的東西可能也很有意思。另一方面,因為只看到科技普及、大家都說話,卻不關注所談之事是否有一定的凝聚點、方向感,高度與深度,恐怕會對社會整體發展失去焦點。


    微博確實是一種文化現象;大家忙著寫微博,鏈接其他人的精彩內容,而忘記了自己生產有分量的東西,這當兒應該也有人把微博當著重要的文化議題來討論。(May 26, 2011 愛墾網)

  • Suyuu


    毛燕武:何謂數字內容産業?


    發展數字內容産業,是建設現代互聯網産業體系、培育“互聯網+”生態格局的必由之路,是改造昇級傳統産業、優化現有經濟産業結構的關鍵所在,也是振興國家文化內容産業、提昇文化實力的重要路徑,是經濟建設和轉型的先導型産業。

    “數字內容産業”(digital content industry)是指建立在數字通信和網絡技術基礎之上,融合出版和印刷,廣播電視、音像、電影、動漫、遊戲、互聯網等多種媒體形態,從事製造生産存儲傳播和利用文化內容的綜合産業。數字內容産業主要涵蓋數字遊戲、互動娛樂、影視動漫、立體影像、數字學習、數字出版、數字典藏、數字表演、網絡服務、內容軟件等。一般來説,以內容特徵作爲分類依據,可將數字內容産業分爲數字傳媒、數字娛樂、數字學習、數字出版和面向專業應用導向五大類。

    當前,數字內容産業以文化創意內容爲核心,依托數字技術進行創作、生産、傳播和服務,呈現出生産數字化、傳播網絡化、消費個性化的特徵。

    數字內容産業的快速發展和崛起,得益於技術變革驅動的技術—經濟範式轉換,以及對新的技術—經濟範式下“互聯網+”技術、思維和能力的廣泛運用。“互聯網+”時代數字內容産業的核心生産要素已經轉變爲技術、網絡、數據和創意,這些要素的全新組合會誘發一系列新模式、新産品和新業態,並導緻數字內容産業乃至整個文化産業發生結構性的根本變革。特別是隨着虛擬現實設備及其他新終端的發展、數字內容技術與娛樂等服務功能的融合、數字內容軟件與各硬件之間的融合,數字內容産業已逐步向傳統産業、新型製造業和現代服務業等領域滲透,呈現出高度融合化的發展態勢。

    數字內容産業的上遊主要包括硬件設備製造商和軟件開發商,他們爲數字內容産品製造企業提供産品設備和建立軟件環境。隨着計算機技術的發展,供應商的産品功能也在不斷改進。相關硬件功能不斷得到強化,使數字內容産品多元化的呈現和生動的用戶體驗成爲可能。軟件技術的進步又爲多元化數字內容産品設計和創作提供技術支持。數字內容産品製造企業處於整個産業鏈的中遊,主要包括內容創作和數字加工。內容創作是整個産業的基礎,主要是對數字內容産品原始素材的設計和創作。數字加工是數字內容産業的關鍵,主要是對原始素材進行創意加工和整合,最終形成完整的數字內容産品。運營商和終端客戶是數字內容産業的下遊。製造企業將産品出售給運營商或直接向終端客戶銷售數字內容産品和服務。

    數字內容産品與傳統內容産品的最大區別在於它的互動性。因爲“互聯網+”通用技術使得每一個受衆、用戶或者消費者都可以發出明確清晰的聲音,他們的話語權越來越強、力量越來越大,從而驅使內容産業鏈中各類企業內部的價值鏈從工業範式向“互聯網+”範式轉換。建立在工業經濟基礎上的內容價值鏈以組織自身的資産和能力爲中心,然後圍繞這一中心投入相應的人財物進行內容的生産,並通過集成和分發平颱將內容産品傳播到受衆手中,也就是“資産/能力→人財物→內容産品→集成分發渠道→受衆”這樣一個以企業和生産爲中心的內容價值鏈。然而,“互聯網+”時代的內容價值鏈卻是用戶導向的“用戶→入口和終端→內容産品→人財物→資産/能力”鏈條。“用戶爲王”成爲互聯網時代內容經營的重要法則,企業開始以理解用戶爲原點來重塑自身的價值鏈條。“互聯網+內容産業”的質變過程就是內容産業跨界、融合、創新的過程,它使得數字內容産業越來越沿着終端化、平颱化和碎片化的趨勢發展。

    當前,數字化已經從“硬件爲王”、“軟件爲王”進入“內容爲王”時代。數字內容産業具有轉方式、調結構、促消費、擴就業的獨特作用,大力發展和壯大數字內容産業是推進供給側結構性改革,培育形成新供給、新動力的重要舉措。數字內容産業廣泛輻射到電信、出版、通信、廣播電視、工業設計、玩具製造、軟件開發、計算機硬件生産等衆多行業, 其産業鏈條長,既可以走向上遊,形成IP,也可以走向下遊,如院線等;既可以在國內推廣,也可以走向海外。數字文化産業已遠遠超出傳統文化産業的邊界,數字內容産業競爭力也成爲兼具國家軟、硬實力的重要體現,發展前景廣闊,社會價值日益凸顯。(http://www.urbanchina.org)

  • Suyuu


    劉益萬‧越來越單向思維


    吉隆坡地陷現場出現“貼膠布阻止裂縫擴大”,並在面子書和社交網站當成笑話廣泛散佈,反映了我們已陷入想當然爾的單向思維!


    在社交網站無孔不入的今天,許多人一機(手機)在手,拍照是舉手之勞,貼上社交網站更是輕而易舉,所以看到甚麼無暇思索的舉機就拍,然後第一時間貼文成了“搶先報道”的“公民記者”。

    要拍甚麼要貼甚麼,那是個人的權利;在甚麼都可以講人權的年代裡,我行我素就是我的權利,根本不考慮後果和所應負的社會責任。

    (Feature Photo:In Need by Sebastian James,www.sebastianjames.de/

    所以看到膠布貼在裂縫上,一些網民認定別人是傻瓜無知,竟然貼膠布來阻裂縫擴大,簡直是不可思議,馬上就聯想這是我們的2020年宏願素質嗎?然後又一輪的調侃,文字也變成了是一種謀殺真相的工具。

    單向思維告訴那些拍了當著像發現新大陸的網民,會地陷是我們無能,因此才會有採用無能的膠布措施來補救。可是真正無知的是不明就理的網民,所以片刻間馬上有人“製圖”上載,鹹蛋超人、變形金剛、野獸怪物都從地陷裡鑽出來,大家都開心的開玩笑,也沒人去求證為甚麼貼膠布。


    當真相大白時,網民除了“哦”一聲之外,好像甚麼都沒發生過,更不可能去自我澄清和更正,因為認為事過境遷,貼貼文無需認真啦。殊不知這已對社會和人文的素質造成傷害和破壞,對別人的犯錯就窮追不捨,自己誤導別人卻等閒視之。

    當單向思維佔據了我們的思維後,我們就憑自己肉眼所看到的,以及自己的想當然爾的直覺,來為所看到的下定論,是否錯誤或不確實已不去考慮,這也造成社交網站充斥似是而非的言論和事件,又有誰會擔憂對族群、社會、國家的負面影響呢?

    這也就是為何有網民被控詆毀元首,卻有其他網民求情不要對付涉及者,因為許多網民認為說說無妨,他們對自己的所作所為掉以輕心,甚至是不負責任的為所欲為,當然他們也會抱著僥倖的心態,出了事一定會有人替他們出頭“抗爭”。

    單向思維也讓我們失去包容和容忍,也讓真假被模糊難辨,當然這更暴露了我們對知識的貧乏,一味往消極方面去設想,人與人之間的隔閡,也就在網絡橫行時代更顯而易見了。(收藏自4.7.2014 星洲日報/言路‧作者:劉益萬)

  • Suyuu

    那麽,ChatGPT如何具備這一系列特異功能呢?我們就以提問的方式,系統了解下這個神奇的AI產品。


    一、ChatGPT背後的開發公司是哪家?

    OpenAI,該公司是由馬斯克、奧特曼等人2015年聯合創辦的人工智能研究機構,後來馬斯克退出,微軟投資10億美元。


    二、ChatGPT基於什麽樣的技術架構搭建的?

    基於GPT-3。首先我們需要了解下什麽是GPT

    GPT(Generative Pre-trained Transformer,大型預訓練語言模型),是一種基於互聯網可用數據訓練的文本生成深度學習模型。它用於問答、文本摘要生成、機器翻譯、分類、代碼生成和對話AI

    2018 年,GPT-1 誕生,但是其功能更多限於用戶輸入文本的理解而非編譯和互動;

    2019年,GPT-2問世,其對原有系統的叠代更新並不明顯,但是在錄入了更全的數據集。性能方面,除了理解能力外,GPT-2具備了強大的內容生產能力,包括寫內容和聊天等,甚至可以撰寫假新聞;

    目前的GPT-3則是對上一個版本就行了深度的訓練,它可以根據接收到的輸入生成響應,從而生成更自然、更多樣化的響應,甚至可以根據指令自動輸入一系列簡單的代碼,並且外語翻譯的準確率極高。


    三、ChatGPT應用場景有哪些?


    ChatGPT有很多潛在的用例,包括:

    充當聊天機器人:ChatGPT可用於創建能與用戶進行對話的聊天機器人。這可能對客戶服務很有幫助,因為其可以提供信息,或者只是為了好玩。

    充當問答系統:ChatGPT可以進行微調,以回答特定類型的問題,例如與特定領域或主題相關的問題。這對於創建虛擬助手或其他類型的信息提供系統很有幫助。

    充當對話代理:ChatGPT可以用於創建與用戶進行對話的虛擬代理或虛擬化身。這可能對社交媒體應用程序、遊戲或其他類型的在線平臺很有幫助。

    充當文本生成工具:ChatGPT可用於根據輸入數據生成類似人類的文本響應。這對於為社交媒體、網站或其他應用程序創建內容很有幫助。


    四、ChatGPT的局限性有哪些?

    首先,他的知識範圍僅限於2021年之前,最新的知識和問答無從應對;

    其次,他不可能完完全全準確的識別用戶提出的問題,尤其是在用戶語義含糊不明的情況下。這種情況下,他不會追問用戶,而是按照自己的錯誤理解給出答案。最後的結果當然是答非所問;

    最後,如果用戶處於作惡心理啟動不正當的提問或請求,ChatGPT也會正常響應,但這會對社會造成一定的危害。


    五、GPT-4是什麽樣子?什麽時候發布?

    據傳聞,GPT-4 會在明年發布,它能夠通過圖靈測試,並且能夠先進到和人類沒有區別,除此之外,企業引進 GPT-4 的成本也將大規模下降。 (作者:比推 Jonathan Smith,原題:一文讀懂最近爆火的ChatGPT,2022-12-07 )

  • Suyuu


    ChatGPT是什麽東西?


    這兩天,一個名為ChatGPT的人工智能對話機器人火遍了中外互聯網。在上周三推出後,總用戶量已經突破了100萬,且號稱單次對話的平均費用可能只有幾美分。當然,目前屬於免費預測試階段,所以引起了大家的自娛自樂。


    ChatGPT為什麽那麽火?因為他的智能程度遠遠超出了大家的想像。與以往的AI軟件相比,ChatGPT似乎無所不知。也就是說用戶輸入任何領域的問題,都可以找到類似百科解答的回復,並且速度極快、對答如流。此外,他甚至可以自動撰寫代碼和短文,並且充當社群裏的客服。

    簡單來說,我們可以把他當成可以與我們對話的搜索引擎。更有甚者,將它視作谷歌的替代者。社交媒體上,有大量用戶將其與ChatGPT的對話進行了截圖,饒有一番趣味。一部分媒體也開始征集用戶感興趣的問題,用來和ChatGPT做問答直播,頗具看點。這其中,就有媒體就如何發布Token和撰寫區塊鏈代碼事項提問ChatGPT,得出了相當詳實全面的回答,讓人側目。

  • Suyuu

    商業變現應用集中湧現

    業界認為,ChatGPT的「出圈」,可能意味著一個AI大規模商業化時代的到來。

    北京市京師律師事務所高培傑律師對《證券日報》記者表示,「ChatGPTTo B端到To C端的智能運用方面具有巨大的商業價值,通過ChatGPT交互平臺可以幫助企業與客戶建立有效的溝通方案,並在教育、醫療、汽車、智能場館、智能家居等領域產生新的行業發展變革,在提高服務品質的同時也降低了企業的服務成本。」

    2月初,OpenAI宣布推出ChatGPTPlus付費訂閱套餐,每月收費20美元,開啟商業化變現道路。訂閱該套餐的用戶可在免費服務基礎上享受高峰時段免排隊、快速響應、優先獲取新功能等額外權益。同時華西證券研報顯示,除了ChatGPT以外,NovelAI、Stable Diffusion等其他主流應用亦開啟商業變現,根據內容生成次數、生成質量等條件設置多級別訂閱套餐。

    隨著這些主流應用逐步開拓商業化模式,AIGC行業的商業化潛力逐漸釋放。


    「互聯網與數字技術使得分享創意和內容變得越來越容易,但同時也將數字內容創作帶入強需求、視頻化、拼創意的螺旋式升級周期,而AIGC行業在這階段的技術融合變革恰好迎合了用戶需求。」陳曉華表示,AIGC應用可通過人機協同的方式釋放價值,且已作為工具被廣泛運用在如傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業中,未來將成為互聯網乃至元宇宙的重要內容生產基礎設施。

    微軟、谷歌等科技巨頭也看好AI聊天機器人的商業前景,紛紛下場布局AI新賽道。公開資料顯示,微軟將向OpenAI投資數十億美元,並將推進ChatGPT商業化,計劃將其整合進Bing搜索引擎、Office全家桶、Azure雲服務、Teams聊天程序等一系列產品中。谷歌則計劃推出一款聊天機器人Bard,與ChatGPT競爭。

    鄭定向認為,作為數字經濟的重要組成部分,人工智能的發展前景毋庸置疑。作為AI領域的最新成果,ChatGPT也擁有足夠的想想像力和發展空間。當前微軟、谷歌等科技巨頭堅定投入AI,展現出AI應用廣闊的發展前景,AI行業有望開啟新發展浪潮。


    國內巨頭超前佈局

    事實上,中國互聯網公司也先知先覺,超前佈局AIGC賽道。

    「國內目前在自然語言識別方面具備世界領先水平,相關技術主要掌握在百度、科大訊飛、漢王等龍頭企業手中。」鄭磊表示。

    據悉,目前我國已經商業化的案例包括百度AIGC數字人主播度曉曉、百家號TTV等。另外,記者了解到,百度的AI聊天機器人ERNIE Bot有望於今年3月份完成內測,面向公眾開放。

    高培傑表示,從技術上看,國內AI聊天機器人在技術上已較為成熟,這需要依托龐大的數據庫資源。未來AI產業將在科技巨頭競爭中發展壯大,從市場研發到數據庫支撐,AI聊天機器人將實現不斷叠代。


    此外,當前版本的ChatGPT也具有一定的局限性,同時也引發市場的爭議與擔憂。

    高培傑認為,目前ChatGPT無法進行自我創新,這就導致其無法更加深入的理解邏輯思維。

    鄭磊則表示,ChatGPT的技術路線與人腦學習原理有差別,可能存在因算力資源有限和算法限製造成的瓶頸。

    鄭定向認為,ChatGPT最大的隱患在於數據缺乏,ChatGPT想獲得更廣泛的數據或將面臨隱私安全、經濟、技術等一系列難題。

    陳曉華分析稱,正是因為更加先進,ChatGPT帶來風險的程度和廣度也隨之加大。受限於模型化的學習資料,ChatGPT並不能保證其答案的準確性,可能會對使用者進行誤導,若之後使用在搜索引擎、客服等領域,其回復的信息真實性將可能導致法律風險。同時,文本、圖像數據挖掘再創作涉及合規問題,AI生產內容是否侵權很難進行判定。當前國家層面的AI立法正處於預研究階段,對AI領域的監管有待完善。(原載 2023-02-09 中國經濟網

  • Suyuu


    孔令瑤·ChatGPT爆紅 AI大規模商用離我們還有多遠?

    上線不到一周日活用戶破百萬,2個月破億......AI聊天機器人ChatGPT火爆全球,一時間成為現象級消費類AI應用。

    ChatGPT有望打開千行百業的海量應用場景,引發AI產業變革。微軟、谷歌等科技巨頭紛紛下場,搶先布局AI新賽道。同時,近期ChatGPT開啟商業變現,推出付費訂閱版本,進一步驗證了AIGC(人工智能技術生成內容)行業商業模式,為AI產業發展打開廣闊空間。

    備受資本熱捧的ChatGPT也正經歷著「成長的煩惱」,對於大數據與算力的強依賴將限製其快速發展,超預期的新應用新模式正引發市場擔憂,可能帶來的合規、知識產權等風險也將給數字治理帶來新的挑戰。

    AI從「幕後」走向「臺前」

    新興事物的發展並非一蹴而就,火爆全球的ChatGPT則是人工智能產業鏈發展到一定階段的必然產物。經過長年的AI技術研發積累,受益於深度學習技術突破、算力提升、大數據積累等因素,成就了這款殺手級AI應用的「出圈」。

    事實上,作為替代人工勞動的生產力工具,聊天機器人並不是新鮮概念。受限技術製約,早期的聊天機器人多偏娛樂性質,近年來更加智能的聊天機器人逐漸應用於客服、搜索引擎等商業場景。

    工信部新基建重大項目評審專家、北京郵電大學科技園元宇宙協同創新中心執行主任陳曉華對《證券日報》記者表示,「相比於其他聊天機器人,ChatGPT能更好地理解對話語境,並在生成文本時考慮到先前的對話內容,輸出更符合語言邏輯與人類價值觀的高質量文本,同時還增加了代碼理解和生成能力,極大地提高了實用性,拓寬了應用場景。」

    本質上來講,ChatGPT是一個大型語言模型,接受過大量文本數據的訓練,這使其能夠對各種各樣的輸入生成類似人類的反應。「ChatGPT通過大規模的語言學習模型訓練,大幅度提高了人工智能應答功能,並能根據人們提出的要求,綜合整理和輸出相關主題的內容。」薩摩耶雲科技集團首席經濟學家鄭磊對《證券日報》記者表示,經過高強度訓練的ChatGPT能夠生成文章、計算機代碼等,也可以完成一些由人工處理的知識工作,根據文字內容轉化為繪圖等藝術表達形式。

    ChatGPT兼具實用性與功能性,被視為有史以來最具代表性的AI應用之一,也使更多人提高了對AI新藍海的期待。

    「雖然目前的ChatGPT還不能為我們的生產方式帶來根本性的變革,但是卻代表著人工智能的發展已經進入了一個全新的階段。」深圳市信息服務業區塊鏈協會會長鄭定向對《證券日報》記者表示,在這個階段,用戶將不再是被動的接受者,而是一個可以參與生產過程的對象,同時AI由「幕後」轉向「臺前」,也在現實中進入用戶的生活。

  • Suyuu

    15. GPT-3 paper: 「WebText2:190億token。[Alan:WebText2是從WebText稍微擴展而來,所以我們可以減去20%,得到150億token]」

    16. GPT-2 paper: pp3 「GPT-3: pp9, Table 2.2 「CC: 4100億token. WebText2: 190億token. Books1: 120億token. Books2: 550億token. Wiki: 30億token」


    17. GPT-3 paper: pp8


    18. BookCorpus repo: soskek/bookcorpus#27: 「books3.tar.gz似乎類似於OpenAI在他們的論文中引用的神秘「books2」數據集。不幸的是,OpenAI不會提供細節,所以我們對其差異知之甚少。人們懷疑它是「libgen的全部」,但這純粹是猜測。盡管如此,books3仍是「所有的bibliotik」......」


    19. BookCorpus paper: https://arxiv.org/abs/1506.06724: 「# of words: 984,846,357 [Alan: BookCorpus有13億token。我們想要有120-550億token]」


    20. Gutenberg paper: https://arxiv.org/abs/1812.08092: 「我們介紹了標準化項目古騰堡語料庫(SPGC),這是一種開放的科學方法,用於處理完整PG數據的精選版本,其中包含超過50,000本書和3×109word-token[Alan:相當於大約120億BPE token,見下文 ]」


    21. Gutenberg repo: https://zenodo.org/record/2422561 「未壓縮大小:3GB(count)+ 18GB(token)[總計21GB]」


    22. The Pile v1 paper: 「Books3(Bibliotik tracker):100.96GB」 [Alan:乘以每字節token數0.2477 = 250億token]


    23. The Pile v1 paper: pp3, Table 1 for datasets. pp28, Table 7 for Tokens per byte.


    24. RoBERTa paper: https://arxiv.org/abs/1907.11692 「BOOKCORPUS加上英文WIKIPEDIA。這是用來訓練 BERT的原始數據。(16GB)。」


    25. BERT paper: https://arxiv.org/abs/1810.04805 「BERT在BooksCorpus(8億字)和維基百科(25億字)上進行訓練。」


    26. Stories paper: https://arxiv.org/abs/1806.02847 pp5-6


    27. RealNews paper: https://arxiv.org/abs/1905.12616v3 「去重後,RealNews在沒有壓縮的情況下為120GB。」


    28. Gopher paper: https://arxiv.org/abs/2112.11446 pp 7: list of sizes and tokens.


    29. Gopher paper: https://arxiv.org/abs/2112.11446 pp 44, Figure A3b.


    30. Gopher paper: pp41n14 「請注意,我們將文檔去重應用於除Wikipedia和GitHub之外的所有MassiveText子集「


    31. GPT-2 paper, pp3.

    關於作者:Alan D. Thompson博士是人工智能專家、顧問。在2021年8月的世界人才大會(World Gifted Conference)上,Alan與Leta(由GPT-3提供支持的AI)共同舉辦了一場名為「The new irrelevance of intelligence」的研討會。他的應用型人工智能研究和可視化成果受到了國際主要媒體的報道,同時還在2021年12月牛津大學有關AI倫理的辯論中被引用。他曾擔任門薩國際(Mensa International)主席、通用電氣(GE)和華納兄弟(Warner Bros)顧問,也曾是電氣與電子工程師協會(IEEE)和英國工程技術學會(IET)會員。

  • Suyuu

    附錄 A:前50個資源:Wikipedia + CC + WebText(即 GPT-3)

    基於本文內容,尤其是每個數據集中每個資源的token數量,我們可以對將Wikipedia + Common Crawl + WebText數據集的組合,作為其整體訓練數據集的一部分模型進行資源或域的排序。為清楚起見,這包括以下模型:OpenAI GPT-3、EleutherAI GPT-J、EleutherAI GPT-NeoX-20B、Meta AI Megatron-11B和RoBERTA,以及 Microsoft/NVIDIA MT-NLG等。

    請注意,展示的排名基於數據集中可用的未加權總token,每個數據集的主觀權重由研究人員在模型預訓練之前計算得出。其中有一些重復(例如,《紐約時報》既出現在有1.11億token的WebText中,也出現在過濾後有1億token的Common Crawl中)。

    腳注

    1. GPT-NeoX-20B paper: pp11, section 6 http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf

    2. Datasheet for Datasets paper: https://arxiv.org/abs/1803.09010


    3. OpenAI blog: https://openai.com/blog/gpt-3-apps/


    4. On the Opportunities and Risks of Foundation Models: https://arxiv.org/abs/2108.07258


    5. Size of Wikipedia: https://en.wikipedia.org/wiki/Wikipedia:Size_of_Wikipedia


    6. C4 dataset: https://www.tensorflow.org/datasets/catalog/c4


    7. Common Crawl website: https://commoncrawl.org/


    8. C4 paper: https://arxiv.org/abs/2104.08758 pp2, Figure 1 right


    9. Wikipedia categories: https://en.wikipedia.org/wiki/User:Smallbones/1000_random_results: 「維基百科涵蓋哪些主題?覆蓋範圍是否隨時間變化?使用2015年12月抽取的1001篇隨機文章對這些問題和類似問題進行了查驗...隨著時間推移,這些比例相當穩定...傳記(27.8%),地理(17.7%),文化和藝術(15.8%),歷史(9.9%),生物學、健康和醫學(7.8%),體育(6.5%),商業(4.8%),其他社會(4.4%),科學與數學(3.5%),教育(1.8%)。」


    10. GPT-1 paper: pp4 「We use the BooksCorpus dataset for training the language model.」


    11. https://huggingface.co/datasets/bookcorpus: 「Size of the generated dataset: 4629.00 MB」


    12. BookCorpus Retrospective Datasheet paper: pp9 https://arxiv.org/abs/2105.05241


    13. GPT-2 paper: pp3 「我們從社交媒體平臺Reddit中抓取了至少有3個karma的所有出站鏈接。這可以被認為是一個啟發式指標,用於判斷其他用戶是否覺得該鏈接有趣、有教育意義或只是有趣……WebText包含這4500萬個鏈接的文本子集……其中不包括2017年12月之後創建的鏈接。經過去重和一些基於啟發式的清理後,其中包含大約超過800萬個文檔,總共40GB文本。我們從WebText中移除了所有維基百科文檔...」


    14. GPT-2 model card: https://github.com/openai/gpt-2/blob/master/model_card.md: 「我們已經發佈了WebText中出現的前1,000個域及其頻率的列表。WebText中排名前15位的域是:Google、Archive、Blogspot、GitHub、紐約時報、Wordpress、華盛頓郵報、維基亞、BBC、衛報、eBay、Pastebin、CNN、雅虎和赫芬頓郵報。」


  • Suyuu

    擴展閱讀及腳注(請上下滑動)

    考慮到簡潔和可讀性,本文使用了腳注而非文本/括弧式引文。主要參考文獻如下,或者參見http://lifearchitect.ai/papers/,獲取大語言模型領域的主要基礎論文。以下論文按本文順序顯示。

    Datasheets for Datasets Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J., Wallach, H., Daumé III, H., & Crawford, K. (2018). Datasheets for Datasets. https://arxiv.org/abs/1803.09010

    GPT-1 paper Radford, A., & Narasimhan, K. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI. https://cdn.openai.com/research-covers/language-unsupervised/langua... ding_paper.pdf


    GPT-2 paper Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI. https://cdn.openai.com/better-language-models/language_models_are_u... _multitask_learners.pdf


    GPT-3 paper Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., & Dhariwal, P. et al. (2020). OpenAI. Language Models are Few-Shot Learners. https://arxiv.org/abs/2005.14165


    The Pile v1 paper Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., & Foster, C. et al. (2021). The Pile: An 800GB Dataset of Diverse Text for Language Modeling.


    EleutherAI. https://arxiv.org/abs/2101.00027


    GPT-J announcement Komatsuzak, A., Wang, B. (2021). GPT-J-6B: 6B JAX-Based Transformer. https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/

    GPT-NeoX-20B paper Black, S., Biderman, S., Hallahan, E. et al. (2022). EleutherAI. GPT-NeoX-20B: An Open-Source Autoregressive Language Model. http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf

    RoBERTa paper Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., & Chen, D. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. Meta AI. https://arxiv.org/abs/1907.11692


    MT-NLG paper Smith, S., Patwary, M., Norick, B., LeGresley, P., Rajbhandari, S., & Casper, J. et al. (2021). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model. Microsoft/NVIDIA. https://arxiv.org/abs/2201.11990


    Gopher paper Rae, J., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., & Song, F. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. DeepMind. https://arxiv.org/abs/2112.11446

    Appendix A: Top 50 Resources: Wikipedia + CC + WebText (i.e. GPT-3)


  • Suyuu

    Gopher模型由DeepMind於2021年發佈,有2800億參數。該論文清楚地說明了所使用訓練數據集所包含的高級token數量和大小[28],但沒有說明詳細內容。

    Image

    表16. 公開的Gopher數據集 (MassiveText)。公開的數據以粗體表述,確定的數據以斜體表示。

    有趣的是,據Gopher論文披露:其Books數據集中包含一些超過500年歷史(1500-2008)的書籍。

    9.1. MassiveWeb數據集分析

    DeepMind於2014年被谷歌收購,並在創建MassiveText時獲得了海量數據。雖然Gopher論文中沒有進一步詳細描述MassiveWeb,但第44頁附錄中的表A3b注明了MassiveWeb中出現的前20個域[29]。根據披露的每個域所占的百分比,我們可以使用MassiveWeb的總token數(5060億token)和總原始大小(1900GB)來確定每個域的token數量和大小。

    表17. MassiveWeb:前20個域。公開的數據以粗體表示,確定的數據以斜體表示。

    9.2. Gopher:關於維基百科數據集的分析

    維基百科數據集的總規模很難確定。在Gopher論文中,研究人員指出維基百科沒有進行數據去重[30]。然而,論文中列出的不同大小數據集(12.5GB MassiveWeb Wikipedia與1GB MassiveText Wikipedia)可能是由於失誤而造成的,誤將「10GB」寫成了「1GB」。無論如何,本文僅使用MassiveWeb數據集版本 (12.5GB)。

    9.3. Gopher:不包括WebText

    Gopher數據集的組成部分不包括Reddit外鏈的WebText數據集。為了清楚起見,盡管Reddit是MassiveWeb中的頂級域,但該數據集僅抓取Reddit域內的Reddit鏈接。根據定義,WebText[31]由「所有Reddit的外鏈」組成(即指向Reddit域外的鏈接)。

    9.4. Gopher 分組數據集

    MassiveWeb被認為是MassiveText的子組件,並被集成到Gopher的數據集匯總中,其分組基於以下列出的可用信息:

    表18. Gopher分組數據集。公開的數據以粗體表示,確定的數據以斜體表示。 

    9.5. Gopher 數據集總結

    Gopher是本文中最大的數據集,大小為10.5TB。Gopher模型的最終數據集總結分析為:

    表19. Gopher數據集總結。公開的數據以粗體表示,確定的數據以斜體表示。

     

    10

    結論

    對於訓練當代Transformer大型語言模型的數據集而言,這可能是最全面的整合分析內容(截止2022年初)。在主要數據源不透明的情況下,本次研究主要從二級和三級來源收集數據,並經常需要假定來確定最終估計值。隨著研究人員要處理千萬億個token(1,000萬億)和數千TB的數據(1,000TB),確保詳細披露數據集組成的文檔變得越來越重要。

    特別值得關注的是,基於大型語言模型的強大AI系統產生的冗長而匿名的輸出正在迅速發展,其中許多數據集的細節內容幾乎沒有文檔說明。

    強烈建議研究人員使用突出顯示的「數據集的數據表(Datasheet for Datasets)」論文中提供的模板,並在記錄數據集時使用最佳實踐論文(即Pile v1論文,包括token數量)。數據集大小(GB)、token數量(B)、來源、分組和其他詳細信息指標均應完整記錄和發佈。

    隨著語言模型不斷發展並更廣泛地滲透到人們的生活中,確保數據集的詳細信息公開透明、所有人都可訪問且易於理解是有用、緊迫和必要的。

  • Suyuu

    6.1. The Pile v1分組數據集(Grouped Datasets)

    為了確定如『Books』、『Journals』和『CC』這類數據集的大小,筆者對數據集進行了分組,如下表所示。

    Image

    表11. The Pile v1分組數據集(不包括Wikipedia、CC 和 WebText)。公開的數據以粗體表示,確定的以斜體表示。

    6.2. The Pile v1數據集總結

    The Pile v1數據集與GPT-J和GPT-NeoX-20B模型的最終數據集總結分析如下:

    Image

    表 12. Pile v1 數據集總結。 公開的數據以粗體表示,確定的數據以斜體表示。

    7 Megatron-11B和RoBERTa數據集

    2019年,Meta AI(當時稱之為Facebook AI)和華盛頓大學聯合發佈了擁有1.25億參數的RoBERTa模型。次年,Meta AI發佈了擁有110億參數的Megatron-11B模型。Megatron-11B使用的訓練數據集與RoBERTa相同。RoBERTa[24]論文闡明了所用訓練數據集的內容,不過必須參考引用的論文(BERT[25]和toryes[26])來確定最終的數據集大小。

    BookCorpus: 確定的數據集為4.6GB,如上面的GPT-1部分所示。

    維基百科:公開的數據集為「16GB(BookCorpus加上英文維基百科)」。在減去BookCorpus數據集(4.6GB,如上面的GPT-1部分所述)後,維基百科數據集確定為11.4GB。

    CC-News:(經過濾後)公開的數據集為76GB。

    OpenWebText: 公開的數據集為38GB。

    Stories: 公開的數據集為31GB。請注意,此數據集是「基於常識推理任務問題」的Common Crawl內容,不屬於本文的『Books』類別。相反,將Stories與CC-News數據集(76GB)相結合,Common Crawl的總數據集則為107GB。

    7.1. Megatron-11B和RoBERTa的數據集總結

    Megatron-11B和RoBERTa最終的數據集總結分析如下:

    Image

    表13. Megatron-11B和RoBERTa的數據集總結。 公示的數據以粗體表示,確定的數據以斜體表示。

    8 MT-NLG數據集

    2021年,英偉達和微軟發佈了擁有5300億參數的語言模型MT-NLG。MT-NLG是微軟Turing NLG(擁有170億參數)和英偉達Megatron-LM(擁有83億參數)的「繼任者」。MT-NLG論文闡明了所用訓練數據集的來源和token數量,不過沒有明確指出數據集的大小。

    如前所述,有關數據集大小的更多詳情,可以使用The Pile v1論文中提供的信息來確定。雖然使用的組件相同,但注意的是,MT-NLG和The Pile v1中報告的組件大小卻各不相同,這是由於來自Eleuther AI (The Pile v1數據集)和Microsoft/NVIDIA (MT-NLG模型)的研究人員采用了不同的數據過濾和去重方法。

     

    8.1. MT-NLG中的Common Crawl數據集

    Pile-CC:公開的數據集為498億token,確定的數據為227.12GB左右,參見上述Pile v1部分。

    CC-2020-50: 公開的數據集為687億token,假設token的每字節率(per byte rate)為0.25 TpB=274.8GB。

    CC-2021-04:公開的數據集為826億token,假設token的每字節率為0.25 TpB=330.4GB

    RealNews(來自RoBERTa/Megatron-11B):顯示為219億token。根據RealNews論文[27],數據集確定為120GB。

    CC-Stories(來自RoBERTa/Megatron-11B):公開的數據集為53億token,如上述RoBERTa部分所示,數據集確定為31GB。

    根據以上來源,可確認Common Crawl的總數據量為983.32GB,共計2283億token。

    8.2. MT-NLG分組數據集(Grouped Datasets)

    Image

    表14. MT-NLG 分組數據集。公開的數據以粗體表示,確定的數據以斜體表示。

    8.3. MT-NLG數據集總結

    MT-NLG模型最終的數據集總結分析如下:

    Image

    表15. MT-NLG數據集總結。 公示的數據以粗體表示,確定的數據以斜體表示。

    9 MT-NLG 數據集Gopher數據集

  • Suyuu

    4 GPT-2數據集

    2019年,OpenAI發佈了擁有15億參數的語言模型GPT-2。GPT-2論文闡明了所用訓練數據集的大小[13],不過並未說明其內容。而GPT-2模型卡(model card)(在GPT-2 GitHub倉庫中)說明了模型內容[14]。

    我們可以從GPT-3論文中得到token數量,該論文使用了WebText擴展版本來表示190億token。據推測,2020年推出的WebText擴展版本擁有12個月的額外數據(additional data),因此它可能比2019年推出的GPT-2版本大25%左右[15]。GPT-2最終的token數量確定為150億左右。

    如GPT-2論文所述,假設模型卡顯示鏈接數時,每個鏈接都可以被4500萬鏈接總數所除,那WebText的內容在數據集中所占的百分比的詳細信息就可以確定。

    然後可以使用確定的150億token數量來查找每個域的token數量。請注意,在可用的前1,000個域中,此處僅顯示前50個域。

    Image

    表6. WebText: 前50個域。 公開的數據以粗體表示,確定的數據以斜體表示。

    4.1. GPT-2數據集總結

    GPT-2模型最終的數據集總結分析如下:

    Image

    表7. GPT-2數據集總結。 公開的數據以粗體表示,確定的數據以斜體表示。

    5 GPT-3數據集

    GPT-3模型由OpenAI於2020年發佈。論文闡明了所用訓練數據集的token數量[16],但訓練數據集的內容和大小尚不清楚(Common Crawl的數據集大小除外[17])

    Image

    表8. GPT-3數據集。 公開的數據以粗體表示,確定的數據以斜體表示。

    5.1. GPT-3:關於Books1和Books2數據集的分析

    特別值得關注的是,在OpenAI的GPT-3論文中,並未公開Books1數據集(120億token)和Books2數據集(550億token)的大小和來源。關於這兩個數據集的來源人們提出了幾個假設,包括來自LibGen18和Sci-Hub的類似數據集,不過這兩個數據集常以TB為計,大到無法匹配。

    5.2. GPT-3:Books1

    GPT-3使用的Books1數據集不可能與GPT-1使用的BookCorpus數據集相同,原因在於Books1的數據集更大,達120億token。在一篇引用的論文[19]中就提及GPT-1使用的BookCorpus數據集擁有9.848億個詞,但這可能只相當於13億token(984.8字x 1.3字的token乘數)。

    通過標準化項目古騰堡語料庫(SPGC),Books1有可能與古騰堡項目保持一致性。SPGC是一種開放式科學方法,被用於古騰堡項目完整的PG數據的精選(curated)版本。SPGC包含120億個token[20],大約為21GB[21]。

    5.3. GPT-3:Books2

    Books2(550億token)可能與Bibliotik保持一致,並由EleutherA收集該來源的數據,組成數據集,使其成為The Pile v1的一部分。Bibliotik版本為100.96GB[22],其確定的token數僅為250億,低於Books2公開的550億。然而,使用SPGC的『每字節token數』比率(大約為1:1.75),Bibliotik的token數和大小將更接近於Books2。

    5.4. GPT-3數據集總結

    附錄A概述了使用Wikipedia + CommonCrawl + WebText數據集的頂級資源列表。GPT-3模型的最終數據集總結分析如下:

    Image

    表9.GPT-3數據集總結。公開的數據以粗體表示,確定的數據以斜體表示。

    6 The Pile v1(GPT-J和GPT-NeoX-20B)數據集

    The Pile v1數據集由EleutherAI於2021年發佈,該數據集已被用於訓練包括GPT-J、GPT-NeoX-20B在內的多種模型,並作為包括MT-NLG在內的其他模型的部分數據集。The Pile v1論文闡明了所用訓練數據集的來源和大小。隨著token數量的增加,The Pile v1論文應被用作未來數據集文檔的黃金標準。

    有關token數量的更多詳情,可以使用本文提供的信息來確定,參見表1(大小以GB為單位)和表7(token/每字節)[23]。

    Image

    表10. The Pile v1數據集。公開的數據以粗體表示,確定的數據以斜體表示。

  • Suyuu

    2.常用數據集

    2019年以來,大多數基於Transformer的大型語言模型 (LLM) 都依賴於英文維基百科和Common Crawl的大型數據集。在本節中,我們參考了Jesse Dodge和AllenAI(AI2)[8]團隊的綜合分析,按類別對英文維基百科作了高級概述,並在Common Crawl數據集[7]的基礎上,用谷歌C4[6] (Colossal Clean Crawled Corpus)在Common Crawl中提供了頂級域(domains)。

    2.1. 維基百科(英文版)分析

    下面按類別[9]列出了維基百科的詳細信息,涵蓋了2015年抽樣的1001篇隨機文章,研究人員注意到隨時間推移文章傳播的穩定性。假設一個11.4GB、經過清理和過濾的維基百科英文版有30億token,我們就可以確定類別大小和token。

    Image

    表2. 英文維基百科數據集類別。公開的數據以粗體表示。確定的數據以斜體表示。

    2.2 Common Crawl分析

    基於AllenAI (AI2)的C4論文,我們可以確定,過濾後的英文C4數據集的每個域的token數和總體百分比,該數據集為305GB,其中token數為1560億。

    Image

    表3. C4:前23個域(不包括維基百科)。公開的數據以粗體表示,確定的數據以斜體表示。

    3 GPT-1數據集

    2018年,OpenAI發佈了1.17億參數的GPT-1。在論文中,OpenAI並沒有公布模型訓練數據集的來源和內容[10],另外,論文誤將『BookCorpus』拼寫成了『BooksCorpus』。BookCorpus以作家未出版的免費書籍為基礎,這些書籍來自於Smashwords,這是一個自稱為「世界上最大的獨立電子書分銷商」 的電子書網站。這個數據集也被稱為Toronto BookCorpus。經過幾次重構之後,BookCorpus數據集的最終大小確定為4.6GB[11]。

    2021年,經過全面的回顧性分析,BookCorpus數據集對按流派分組的書籍數量和各類書籍百分比進行了更正[12]。數據集中有關書籍類型的更多詳細信息如下:

    Image

    表4. BookCorpus書籍類型。公開的數據以粗體表示,確定的數據以斜體表示。

    在隨後的數據集重構中,BookCorpus數據集進一步過濾掉了書籍中的「吸血鬼」類別、降低了言情類書籍的百分比、增加了「歷史」類書籍,增加了收集的書籍數量。

    3.1. GPT-1數據集總結

    GPT-1最終的數據集總結分析如下:

    Image

    表5.GPT-1數據集總結。以GB為單位。公開的數據以粗體表示,確定的數據以斜體表示。

  • Suyuu

    1 概述

    Image

    圖 1. 主要數據集大小的可視化匯總。未加權大小,以GB為單位。

    2018年以來,大語言模型的開發和生產使用呈現出爆炸式增長。一些重點研究實驗室報告稱,公眾對大語言模型的使用率達到了驚人高度。2021年3月,OpenAI宣布[3]其GPT-3語言模型被「超過300個應用程序使用,平均每天能夠生成45億個詞」,也就是說僅單個模型每分鐘就能生成310萬詞的新內容。

    值得注意的是,這些語言模型甚至還沒有被完全理解,斯坦福大學的研究人員[4]最近坦言,「目前我們對這些模型還缺乏認知,還不太了解這些模型的運轉模式、不知道模型何時會失效,更不知道這些模型的突現性(emergent properties)能產生什麼效果」。

    隨著新型AI技術的快速發展,模型訓練數據集的相關文檔質量有所下降。模型內部到底有什麼秘密?它們又是如何組建的?本文綜合整理並分析了現代大型語言模型的訓練數據集。

    因為這方面的原始文獻並不對外公開,所以本文搜集整合了二、三級研究資料,在必要的時候本文會采用假設的方式來推算最終結果。

    在本文中,我們會將原始論文中已經明確的特定細節(例如token數量或數據集大小)歸類為「公開的(disclosed)」數據,並作加粗處理。

    多數情況下,適當地參考二、三級文獻,並采用假設的方式來確定最終結果是很有必要的。在這些情況下,token數量和數據集大小等細節是「確定的(determined)」,並以斜體標記。

    模型數據集可分為六類,分別是:維基百科、書籍、期刊、Reddit鏈接、Common Crawl和其他數據集。

    Image

    表1. 主要數據集大小匯總。以GB為單位。公開的數據以粗體表示。確定的數據以斜體表示。僅原始訓練數據集大小。

    1.1. 維基百科

    維基百科是一個免費的多語言協作在線百科全書,由超過300,000名誌願者組成的社區編寫和維護。截至2022年4月,英文版維基百科中有超過640萬篇文章,包含超40億個詞[5]。維基百科中的文本很有價值,因為它被嚴格引用,以說明性文字形式寫成,並且跨越多種語言和領域。一般來說,重點研究實驗室會首先選取它的純英文過濾版作為數據集。

    1.2. 書籍

    故事型書籍由小說和非小說兩大類組成,主要用於訓練模型的故事講述能力和反應能力,數據集包括Project Gutenberg和Smashwords (Toronto BookCorpus/BookCorpus)等。

    1.3. 雜誌期刊

    預印本和已發表期刊中的論文為數據集提供了堅實而嚴謹的基礎,因為學術寫作通常來說更有條理、理性和細致。這類數據集包括ArXiv和美國國家衛生研究院等。

    1.4. Reddit鏈接

    WebText是一個大型數據集,它的數據是從社交媒體平臺Reddit所有出站鏈接網絡中爬取的,每個鏈接至少有三個贊,代表了流行內容的風向標,對輸出優質鏈接和後續文本數據具有指導作用。

    1.5. Common Crawl

    Common Crawl是2008年至今的一個網站抓取的大型數據集,數據包含原始網頁、元數據和文本提取,它的文本來自不同語言、不同領域。重點研究實驗室一般會首先選取它的純英文過濾版(C4)作為數據集。

    1.6. 其他數據集

    不同於上述類別,這類數據集由GitHub等代碼數據集、StackExchange 等對話論壇和視頻字幕數據集組成。

  • Suyuu

    Alan D. Thompson 〈ChatGPT數據集之謎〉

    (Alan D. Thompson [OneFlow] 2023-02-14 08:47 Posted on 北京;更多相關信息進入原載微信平臺

    半個月以來,ChatGPT這把火越燒越旺。國內很多大廠相繼聲稱要做中文版ChatGPT,還公布了上線時間表,不少科技圈已功成名就的大佬也按捺不住,攜巨資下場,要創建「中國版Open AI」。

    不過,看看過去半個月在群眾眼裏稍顯窘迫的Meta的Galactica,以及Google緊急發佈的Bard,就知道在短期內打造一個比肩甚至超越ChatGPT效果的模型沒那麼簡單。

    讓很多人不免感到詫異的是,ChatGPT的核心算法Transformer最初是由Google提出的,並且在大模型技術上的積累可以說不弱於OpenAI,當然他們也不缺算力和數據,但為什麼依然會被ChatGPT打的措手不及?

    Meta首席AI科學家Yann LeCun最近抨擊ChatGPT的名言實際上解釋了背後的門道。他說,ChatGPT「只是巧妙的組合而已」,這句話恰恰道出了一種無形的技術壁壘。

    簡單來說,即使其他團隊的算法、數據、算力都準備的與OpenAI相差無幾,但就是沒想到以一種精巧的方式把這些元素組裝起來,沒有OpenAI,全行業不知道還需要去趟多少坑。

    即使OpenAI給出了算法上的一條路徑,後來者想復現ChatGPT,算力、工程、數據,每一個要素都需要非常深的積累。七龍珠之中,算力是自由流通的商品,花錢可以買到,工程上有OneFlow這樣的開源項目和團隊,因此,對互聯網大廠之外的團隊來說,剩下最大的挑戰在於高質量訓練數據集。

    至今,OpenAI並沒有公開訓練ChatGPT的相關數據集來源和具體細節,一定程度上也暫時卡了追趕者的脖子,更何況,業界公認中文互聯網數據質量堪憂。

    好在,互聯網上總有熱心的牛人分析技術的細枝末節,從雜亂的資料中串聯起蛛絲馬跡,從而歸納出非常有價值的信息。


    此前,OneFlow發佈了《ChatGPT背後的經濟賬》,其作者從經濟學視角推導了訓練大型語言模型的成本。本文作者則整理分析了2018年到2022年初從GPT-1到Gopher的相關大型語言模型的所有數據集相關信息,希望幫助有誌於開發「類ChatGPT」模型的團隊少走一步彎路。


    作者|Alan D. Thompson
    OneFlow編譯
    翻譯|楊婷、徐佳渝、賈川

    一些研究人員的報告稱,通用人工智能(AGI)可能是從我們當前的語言模型技術進行演進[1],預訓練Transformer語言模型為AGI的發展鋪平了道路。雖然模型訓練數據集日漸增大,但缺乏基本指標文檔,包括數據集大小、數據集token數量和具體的內容細節。

    盡管業內提出了數據集組成和整理文檔的標準[2],但幾乎所有重點研究實驗室在揭示模型訓練數據集細節這方面都做得不夠。這裏整合的研究涵蓋了2018年到2022年初從GPT-1到Gopher的精選語言模型的所有數據集(包括主要數據集:Wikipedia和Common Crawl)的綜合視圖。

  • Suyuu


    陳明發〈數字人文&超級AI

    1960年代,日本工廠已經啟用Industraial Robots, 1970年代家用電腦面世,1980年代開始全球普及,1990年代中進入互聯網,2006年進入Web 2.0,新世紀進入多媒體上網,發展至今日的超級AI,Open AIGPT 4.0近日也將面世了;谷歌的Bard與百度的「文心一言」。很期待看到數字人文的研究追得上去,這肯定能大開我對文創領域的眼界。

  • Suyuu


    媒體及資訊素養  數碼年代必備技能


    科技發展一日千里,加上疫情影響,資訊及通訊科技已經成為日常生活不可或缺的部分,對教育界亦然。經濟合作與發展組織(OECD)的《學習指南針2030》框架指出,傳媒素養(Media Literacy)是學生發展主動性(Student Agency)和變革能力(Transformative Competencies)的其中一個核心基礎。OECD把傳媒素養定義為「通過批判性思維從多種媒體來源中獲取意義並評估其可信度的能力」。於每人手執最少一部流動裝置,隨時隨地能獲取網絡資訊的年代,傳媒及資訊素養有多重要?學校又應如何調整課程,助師生共同擁這數碼年代必備技能?

    香港浸會大學互動媒體系教授李月蓮教授研究媒體及資訊素養(Media and Information Literacy)、傳媒教育多年,亦曾加入聯合國教科文組織的編輯諮詢委員會,制定全球媒體和資訊素養的評估框架。她認為媒體及資訊素養是一個綜合的概念,在這個新世代,不單要照顧資訊科技的技術層面,更包括獲得及分析由任何一個資訊平台所得資料的思維和技巧,甚至是從中創造新資訊的能力。

    香港浸會大學互動媒體系教授李月蓮教授:
    科技及社會轉變乃兩大催化劑

    李教授認為科技及社會轉變使媒體及資訊素養愈趨重要。科技日月新異,現今已發展至Web 4.0時代,人工智能、5G網絡、元宇宙成為科技發展的重點。與此同時,這些新興科技為社會帶來一定挑戰,包括人們如何運用它們、它們對人類的影響、人們如何與社交媒體打交道等,亦衍生出網上欺凌、假新聞、資訊超載等問題。要適應和應對科技的轉變和挑戰,我們便需要培養媒體及資訊素養。她舉例說,如今資訊泛濫,我們要學會辨別資訊真偽;網絡公審、「起底」情況嚴重,我們需要辨別參與網絡評論的合適時間和情況。

    李教授續說,社會已由工業社會轉型為知識社會。以前,工廠的機器就是我們的生產工具(means of production);在知識社會,數據、資訊和知識才是最重要的工具。如果民眾不懂得掌握資訊,或不會利用知識和資訊創造新的產品,社會便難以過渡至知識社會,會落後於人。聯合國教科文組織早於十年前便廣推媒體及資訊素養,就是希望協助各國國民得以過渡至知識社會。

    展望未來,李教授期望香港全民都有機會接受媒體及資訊素養教育,而學會三件事:使用新科技搜尋資料、評核和辨別資料、利用資訊創造知識。

    調整課時教導媒體及資訊素養

    資訊科技教育領袖協會(AiTLE)主席;英華書院資訊科技統籌黃健威先生亦深感資訊科技發達,但社會大眾對處理和分析資訊的能力尚有欠缺,必須正視這個問題。黃老師在學校教授電腦科,十分希望把媒體及資訊素養納入課程當中,讓學校有空間教導學生如何處理資訊科技工具和資訊。

    在2021/22學年下學期開始,黃老師參與了教育局的先導計劃,從「認識媒體和資訊素養」、「辨別資訊真偽」、「認識社交媒體和拒絕網絡欺凌」三個課題中選取了「辨別資訊真偽」課題,在該下學期共12節課中撥出三節課,教授媒體及資訊素養。

    黃老師會在課堂播放網絡或新聞片段,教導學生以USER Model,即理解(Understanding)、搜尋(Search)、評估(Evaluation)、回應(Respond),去應對接收到的資訊,避免人云亦云。他憶述在第一節課後請學生在家觀看一條短片,內容是一名男士在電單車尾吃外賣,但被一名女士攝錄有關過程並批評他是外賣員偷吃外賣。之後黃老師問學生們有何感想,有部份學生竟然相信攝錄女士的描述,認為該男士很壞;故黃老師在之後課節會教導學生去利用USER Model去分析事件,很興幸學生皆能理解,在之後評論另一事件時相對客觀,足見他們的進步和課程的成效。

    黃老師期望學生學會該素養後,能成為負責任的市民,成為一股影響力,令社會或網絡上的假資訊或其他不良行為消失。至於學校和社會層面,他希望教育局多加鼓勵學校教授媒體及資訊素養,並提供更多資源,擴展媒體及資訊素養教育,最終目標是所有學生和市民都擁有這素養,再也「不用教」。

    在這個資訊科技時代,新一代要在國際舞台上保持優勢,「媒體及資訊素養」及「數碼素養」是不可或缺的能力。「學與教博覽2022」將於12月7至9日舉行,屆時香港浸會大學社會科學院副院長(教與學)李兆璋教授、香港浸會大學互動媒體系教授李月蓮教授、香港教育城行政總監鄭弼亮先生,以及資訊科技教育領袖協會(AiTLE)主席黃健威先生將於「21世紀必修課:培育數碼素養」論壇中,分享對培育學生數碼素養的看法,探討現時學校在推動數碼素養時面對甚麼挑戰。想深入了解數碼素養教育,以及與各國的教育工作者交流全球教育發展的熱門議題,可登記參觀博覽,並挑選心儀節目預留座位。(11/2022 EdPost)

  • Suyuu

    盧桂霞·會館出版刊物意義深遠

    目前好些宗鄉會館依然定期出版會刊。這是繁瑣的工作,但意義深遠。進入數碼化時代,有些會館與時並進,將會務活動信息都放上網,讓有興趣的會員自行觀看閱讀。這能節省印刷費,省時省力,可在第一時間知道會館的情況,尤其對較年輕的會員,這是不費吹灰之力的事。但對年紀較大、或對電腦科技不太熟悉的會員,卻是一件苦差,最後可能放棄不看了。所以會館還是會定期出版會刊或常年報告,這是會館應繼續秉持的傳統。

    會刊中報道了會館的近況,如發展方向、即將舉辦的活動或剛舉辦過的活動盛況、人事的變遷等,傳遞信息,並加強聯繫。會刊也有軟性的文藝作品,讓會員認識同鄉冩作人。再者,飲水思源報道原籍的風土人情、新面貌等,可增進新知識,促進彼此間的了解。

    例如安溪會館出版會訊半年刊,除刊載活動信息外,也收集個人小品,印刷後分送會員、海外鄉親及本地社團。這有助於聯繫感情,互通有無。再如福州會館印刷《三山季刊》,刊載福州的風俗文化、曆史傳統、方言趣談等。海南陳氏公會出版《椰韻》,除介紹海南民謠、海南書畫家外,也收集鄉賢奮鬥的成功故事,這可讓會員了解會館的發展史,也對後人有諸多的鼓勵。

    再如晉江會館在刊物信息中,刊載三代同堂慶中秋的盛況,讓老中青三代人同樂,進而呼籲秉承先賢拼搏、謙恭的精神,群策群力,爲會館和國家社會的和諧貢獻力量。永春會館的刊物登載執委會就職典禮、報道宗鄉活動與世界局勢。李氏總會有《李緣》、岡州會館、花縣會館、海南陳氏公會等等,都定期出版會訊。

    從長遠來説,這些會訊刊物是公會不朽的資産,可以長久流傳,讓對會務髮展有興趣的會員慢慢閱讀,而作爲公會新的領導班子,更應該翻閱過往的曆史、活動記錄,以繼往開來,大家從長計議,在未來能有新的一番作爲。相反地,如果是數碼化的資料,未必能達到同樣的效果。

    其次,年長的領導人也許對電腦科技的使用不是很熟練,或對科技有抗拒的心理,即使想多了解會務情況,也因力不從心,學習速度慢而放棄。這樣説來,數碼化比不上印刷的刊物來得務實和親切了。

    出版會訊從收集、挑選資料、撰文,到排版、校對、修訂、送往印刷,最後分派、寄到會員家中及有關社團,甚至海外同鄉會,這都得花費時間和精力,但意義深遠,值得延續。(2023年5月23日新加坡聯合早報)

    延續閱讀:

    洪祖秋: 地方誌與史實的留存

    地方志

    社會史視野下的地方志利用與研究

  • Suyuu

    Comment by Dokusō-tekina aidea on October 17, 2011 at 11:16pm

    Well done,叶子正绿。很欣赏你流畅好读的翻译,也很欣赏你重新翻译贾伯斯这篇演讲稿的毅力。


    你这篇文字出街後两三天,我发现本地主流平面媒体也发表了同一篇演讲稿,用的版本就是你所说的最常见的那一份。


    他们直接从网上把人家的翻译下载,连错误的标点符号与字句,也一起转载、印刷。电脑的cut & paste功能,对他们来说真好用。


    原来的翻译者本身不确定、译不出原义,所以特地附上的英文原文的地方,他们也一起刊出。读上来,真的像是洋人写中文。


    本地媒体真的来到一个新的分水岭。


    传统的媒体原来割据一方称王:电视与报刊各有自己生存的空间。


    电视上一波的“大跃进”,是1996年的寰宇卫视,15年了,在马来西亚总共650万户家庭中,他们已经进入到大约一半的人家,可说是大霸主了。


    可是,他们促进了多少本地制作、培养了多少本地人才,圈中人大家心知肚明。


    在中文圈,最高的文化水平大概也只是《大日子》电影,以及《我来自新村》系列纪录片。


    平面媒体也已经集团化,龙头大哥稳操胜卷,竞争并不大。


    所以,他们几乎是在“定定找吃”的状态中生存。


    这两年,因为网路宽频加速,似乎带来新空间;网路电视开始起跑。


    不过,有人已经投了大钱无功而返、含恨脱手,有的则进入特定市场,如专为本地韩国、日本社群服务。


    还想大开拳脚的集团,烧了大钱後,也结束了制作本地作品的部门,转向卖机顶黑盒子(解码器)的业务;观众买了解码器干什么?看网上的外国免费内容。


    几乎就是把别人的东西当着“原产品”卖就是了。和像上面说的,平面媒体直接刊印贾伯斯演词的做法是一样的。


    到今天,平面内容与电子内容似乎还没走到一起;更别说互动式与本地故事了。


    这可能是《爱垦》的生存空间吧?

  • Suyuu


    在地媒体


    Comment by 馬來西亞微電影實驗室 Micro Movie Lab on October 18, 2011 at 11:26pm

    解梦人妻§叶子正青:今天早上十点,RTM第二台来找我作访谈,主题是“怎样以文化创意产业策略推动巴生肉骨茶“。


    采访记者是卢淑芳,摄录记者是周文俊。我们约好在巴生福建会馆後的杨氏肉骨茶铺见面。


    和我一起见记者的,还有这家肉骨茶铺的东主杨佑图先生。有关杨先生和他的肉骨茶故事,《爱垦纳达故事城》曾制作过一段短片,大家可在这里的视频栏看到。

    录影完毕後,我开车载这两位年轻电视媒体人,到巴生老城区转了一圈,看看巴生河左岸的一些古迹,如第一家巴生肉骨茶店盛发;阿都拉锡矿仓库、马哈荻城墙、圣母院天主教堂、白宫(雪州皇家收藏馆)、观音亭、雪州皇宫等。

    这个访谈令我感到开心的是,至少本地传统电视开始在关注本土的文化创意产业,并从影像上去探讨这个课题。


    另一方面,我也觉得可惜的是,制作队伍的努力结果,在电视频道上择日播出後,没看到这片子的电视观众,恐怕就没机会再看了。


    若是结合上网路电视的方便,随选随看,就能解决这个问题。


    当然,网路电视不仅是随选随看而已,还可以在页面上互动,集合对同个议题有兴趣的朋友做讨论。传统电视就缺乏这个好处。


    创作本土内容,确实是《爱垦》的焦点主旨。我们现在要努力的是去找志同道合的网友,首先生产更多的文字内容,并参考别人怎么做影视内容。这样,等到有了适当的人才组合,就可以把文字资源转化成影像内容了。

    Comment by 葉子正绿 on October 18, 2011 at 6:32pm

    谢谢你的肯定。你谈到本地原创内容的生产问题,我极有同感。


    先讲一个小插曲,有一回,某个政府单位举办“与民对话”,就像过去的“对话”,徒有“对话”之名,实质上都是长官的“训话”。


    末了,发表训话的官老爷问:“你们有何意见吗。”


    听众席中有一位老兄站起来说:


    “马来西亚的国际影响力越来越强了!过去大家都在说韩流;现在应该是马流的时候了。为什么呢?因为你看看,现在连韩国人都拍马来电视连续剧了;打开电视机,多少韩国连续剧,那些偶像们都在讲一口流利的马来话,我们的文化影响力还不够力吗?”


    这话一说,只见那长官的脸一阵青一阵白!那番话的讽刺性也太“够力”了。


    这就是我们现在的情况,只懂得入口别人的东西,做了马来话配音,就算是推动了本地的电视广播事业!


    关于你说的本地网路电视,情况也好不到那里去。传统电视把既有的节目搬上网,就叫着“网路电视”了,只有电子媒体界面,没有电子媒体的即时性、互动性。


    就像他们开了个面子书户头,就算是”参与“了社交媒体。买张票去餐会吃饭,一个人静静在一边吃饭,并不等于”参与社交活动“。


    关于玩电视顶上黑盒解码器的“网路电视公司”,其实也只是把网上别人既有的东西,搬进自己的解码器里让人观赏,他们和卖光碟、插盘的电子零件商,其实没有两样,就是把装载了别人东西的载体卖给你。严格说来,是硬体商,离内容创作差个十万八千里。


    关于《爱垦》的”机会“,可能碍于同人网址或社会媒体的性质吧,也推荐了很多别人的东西。但那是有企图、有主题的做法。像博物馆、美术馆的馆长工作。


    我看得出老编的定位,是当这些内容为媒介,由此媒介做更深入的专题探讨,然後让有同样兴致的网友讨论。


    举个例子,《爱垦》有的网友,也是youtube的发烧友,他们把自己在youtube上载的东西,链接到《爱垦》页面,然後针对有关的录影做深入的探讨。《赛德克巴莱》的各式短片出现在《爱垦》,就是最好的例子。


    这是”小众“、”同人圈子“的玩法,可以做到很深入;但广度那一块要怎样玩,我们网友可能要动动脑筋了!(下续)

  • Suyuu


    Bleach〈主題内容社媒〉

    我懂了,你是説,我們怎樣思考,很大程度上受到之前收到的資訊所影響,對不對?有創意的人當然懂得逆向、翻轉過來思考。不過,還是受到之前的資訊所影響。資訊影響不是問題,問題是首先獲得了什麽資訊。微博”推“、”讚“什麽很重要。

    可惜,現在的資訊無限度爆炸,據説每72個鐘頭就加倍。雖然google很驕傲的説,他們的蒐索器在0.1秒內,就能給我們找出100萬,還是7千萬筆相關關鍵詞的網頁鏈接。卻往往不是你所要的東西。

    用得着的資訊才有價值。微博媒體如面子書、維特與撲浪,很友善,可是他們並不創造本身的內容,更別説是你所要的內容。就像電話可以聯繫人,但電話不會在你情緒低落時給你説出輔導的福音。若是你有某某生命線服務中心的聯繫電話號碼,你就可能打給他們,聽聽安慰心靈的聲音。

    對一個正要自殺,想和誰講講話的人,無關人士的電話號碼,縱使有一百、一千個,對他/她一點幫助也沒有。可是,今天,對於大部分領域的專業或從業人士來説,上網找本身領域的資訊,往往是花在找尋的時間,多於了解、吸收有關資料的時間。

    所以,我絶對同意以主題網站爲主、社交媒體爲輔的上網經驗。


    太瘋了,添加上面的評論後才發現,博主隻是發個有關社交媒體的小故事,我就大發偉論,冩得那麽長!可是,我的用意是,雖是一個生活小插曲(愛墾不是標榜”故事城“麽),它也不應該在資訊海嘯中沒頂,那位網友愛好有價值的故事,就應該將它往深的方向發展。

    看見幾位網友給別人的內容加照片,補充錄像視頻,發表有感而發的深刻想法,並在社交媒體上轉發,説是在辦微型展覽場,我覺得倒好像朋友開新店,給他們送鮮花那樣。大家打打氣,這樣才會有更多的好東西享受。而不是在蒐索器上生氣自己。[July 19, 2011 ](微博講的是“推”?阿兵哥更懂得推

  • Suyuu


    曹林評《交往在雲端:數字時代的人際關係》

    社交媒體和人際關係是當下的熱門顯學,我一般不太喜歡這類追逐時尚和熱點的新書,認爲熱門的事物和對它的思考是需要沉淀的。但這本書吸引了我,讓我對似乎很熟悉的社交媒體有了深層次的認知。

    譯者董晨宇在序中談到了“讓陌生之事變得熟悉”和“讓熟悉之事變得陌生”,避免過於熟悉而形成的平庸化危險。我正是帶着這種陌生化的視角來理解社交媒體這個已經深嵌入我們日常的熟悉之物的。我喜歡這種讓自己感覺陌生化的閱讀,這樣才有增長見識,如果隻看合乎既有想法的書,永遠隻會知道已經知道的事,形成見解的內捲化。

    作者作爲第一代深度的社交媒體使用者,通過紥實的研究對社交媒體作出全新的闡釋。比如對於技術與社會的關係,她跳出了烏托邦和反烏托邦的視角而提出了馴化論:技術決定不了我們,社會也決定不了技術,但可以馴化技術。

    我們如何使用和表現這些技術,誰使用它、如何使用它、誰不使用它,會影響到一種技術的後續發展,技術最終呈現出的樣態,是人馴化出來的,就像人對寵物的馴化一樣。她還談到了成人對兒童使用新媒體的恐懼,本質並非道德恐慌,而是成年人害怕喪失控制權的表現。父母常將新媒體視爲控制和監視孩子的手段,而孩子卻將其視爲實現獨立和隱私的方式,衝突由此産生。

    常有人痛心疾首地認爲作爲中介的社交媒體毀滅了具身的社交,她認爲,中介並不意味着貧瘠,中介化交流應該被視爲一種新穎、兼容的混合交往方式,不是具身交流的縮減版本,新媒體並不會用虛假的模擬來削弱或替代真實的參與,大多數人並沒有利用這種去實體性來創造夢幻的或者根本上具有欺騙性的自我。

    《交往在雲端:數字時代的人際關係》,南希·K. 拜厄姆(Nancy K. Baym)著;董晨宇 唐悅哲 譯;中國人民大學出版社;2020年01月)

  • Suyuu

    TEN YEARS BEHIND

    This use of AI has helped the music industry and IP-based video services like YouTube and Netflix to leapfrog 10 years ahead of broadcast, according to Shen, who believes that current production and distribution methods are bogged down by the human-driven assembly-like process that can be changed to an automated process by using AI and machine learning with the unlocked power of metadata. To overcome these hurdles, TVU introduced its MediaMind cloud platform at the 2018 NAB Show.

    MediaMind puts the concept of Media 4.0 into practice by using AI,and object and speech recognition to maximize the use of media assets, particularly in live production. This “smart media factory” works within the existing video production workflow but enhances it by automating the ability to identify video content and push it to a variety of platforms.

    Shen uses President Trump’s recent North Korean prisoner release ceremony as an example of how the MediaMind concept could be put into practice.

    “There were a lot of cameras there that were recording for hours, waiting for the moment [prisoners debarked from the plane], but they didn’t know exactly when,” Shen said. Using AI-powered facial recognition technology enabled by MediaMind, the cameras and mics could be automated to just focus on particular shots of interest to individual viewers, for example.

    This CAS (Contribution Automation Solution) is one part of TVU’s MediaMind concept, but another equally important concept is the automation of the entire planning, acquisition and routing process. It integrates with the news system, router, camera, transmission devices and alert system. Once a story is created, the system will help manage resources by sending an alert message to the corresponding reporters and crews as well as all of the connected devices, such as cameras, transmission devices, routers and recording devices. Once content arrives into MediaMind, it becomes instantly searchable via metadata that is tagged to the content from acquisition onward.

    This advanced search capability gives MediaMind the ability to push content to the producer, rather than the producer having to manually access it.

    “A producer says ‘I want to write a story about the return of the three Americans from North Korea,’” Shen notes as an example,” the content will appear next to him rather than him having to go search for it.”


    IN PRACTICE

    The MediaMind API is already being integrated into the workflows of 4-5 of TVU’s approximately 2,500 TV station customers. Shen says customers can pick and choose which parts of MediaMind they want to integrate into their processes, which covers the production chain from acquisition, editing, processing and distribution. 

    TVU One Live Streaming System

    In today’s live televised production environment, nearly 99 percent of the raw material goes unused and therefore, un-monetized, according to Shen. Current production processes are tedious and don’t meet the demands of today’s viewer, who is used to using social media to provide the type of feedback that allows content to automatically be “pushed” to them.

    Shen thinks Media 4.0,illustrated by TVU’s MediaMind platform, represents the future of live production—an integration between production and consumption—where viewers’ tastes, rather than the producers’ whims, will drive a more “story-centric” workflow.

    “Media 4.0 is going to fundamentally change what’s needed to make the TV industry meet the demand of the audiences,” Shen said. “That’s what this whole initiative is about.”

    (published May 21, 2018 https://www.tvtechnology.com)

  • Suyuu


    Media 4.0: Using AI to Meet Viewers’ Preferences By Tom Butts

    One of the more intriguing storylines of this year’s NAB Show was the realization that the biggest impact that automated intelligence will have on the television industry is that AI will allow production to change its focus from a program-centric process to a story-centric process where content is automatically produced,targeted and distributed to the viewer. In short,using AI will allow broadcasters to identify and tailor video content to individual tastes,and moreso,allow content producers to better monetize their assets.

    This concept—known as “Media 4.0” where AI is used to automate the production and distribution of media to any device on-demand—has been around for several years. Whereas Media 1.0-3.0 represented the evolution of media from film and theater to radio and television broadcasting and finally to the current IP-based landscape,4.0 can best be illustrated by the music industry’s use of big data and the cloud to provide the personalization of media consumption down to a granular level, according to Paul Shen, founder of TVU Networks, a provider of IP-based media production and distribution tools.

    Using Spotify as an example, Shen noted that the music streaming services’ popularity is not necessarily because of the depth of its library, but by the ability of its sophisticated algorithms to learn consumer’s musical tastes, creating “personalized radio.” 

    “I have 90 days of music collections on iTunes and I don’t listen to it at all, I use Spotify,” Shen said. “The reason is easy. I don’t have to do the work. Spotify offers the content the way I want it. It uses artificial intelligence to create the playlist.”

  • Suyuu


    曹林:“作秀”的莫須有指控和話語暴力


    北大校長周其鳳近日在家鄉爲老母親祝90大壽,在衆人面前向母親跪下。周其鳳校長60多歲人了,跪拜與90歲的母親抱頭痛哭,表達思念和孝敬之情,本是一個很動人的場景,沒想到被媒體報道後,在網上引起了爭議,甚至招來了一些苛評惡評,稱周其鳳這樣做是以孝作秀,是藉老母親的生日塑造自己的形象,批評這樣的私人情感不應拿到公共平台上去“秀”。

    公衆人物,總難免會被媒體緊盯着,也難免要承受外界的指手畫腳和説三道四。沒有這種心理承受力,就不要做公衆人物,對此,北大校長應該有心理準備。但是,針對周其鳳跪拜行孝的批評,很多實在算不上正常的批評,而是缺乏基本人情和善意的惡評。慈母手中線,遊子身上衣,作爲遊子的周其鳳跪拜在慈母膝下痛哭流涕,網衆卻因爲種種情緒和偏見而在一邊扔磚頭——這樣的惡評,對周其鳳是很不公平的,更傷害着這個社會的善心和善意。

    説周其鳳不該回家時還帶這麼多記者——可這些記者是周其鳳帶過去的嗎?作爲北大校長,他不至於糊塗到公私不分。作爲地方走出去的名人,回家給母親祝壽,地方媒體看到新聞價值而去圍觀,這是可以理解的。説周其鳳不該在大庭廣衆之下跪拜和痛哭,帶着濃厚的表演意味——這就有些苛責了,情到深處,不能自禁,這是人之常情,如果是一個普通的打工者這麼做,一定會讓很多人感動,爲什麼換成北大校長,就不被理解了呢?還有人説,周其鳳應該預期到此舉會引起爭議,跪拜本就是情之所至,而非周密計劃,哪裡能想到那麼多?

    評論需要冷靜的思考,但拒絶不近人情,拒絶冷血。跪在母親面前的,其實不是一個北大校長,而是一個60多歲的老人,一個常年在外工作思念母親的遊子。在這個社會上,我們都有着不同的身份,不同的職業,不同的背景,但剝去這些社會化的符號後,我們都是人,都有父母,也都將爲人父母。面對這樣的儘孝,爲什麼不能將心比心,用善心去感受,而非要用最大的惡意去揣測和質疑?當那毫無原則的、盲目的懷疑病和仇權病在這樣的場景中爆發時,能看到它的喪失人性。

    是的,我不會在公衆場合以這樣的方式表達對母親的愛,但我理解一個公衆人物,他的行爲會被媒體和公衆圍觀,他的隱私會被窺探——雖然很多時候他們並不喜歡被圍觀,但作爲公衆人物無可選擇;我也理解,當一個人面對日益老去的母親而自己卻不能在身邊儘孝之時,愧疚中會情不自禁。我感到對周其鳳很不公平的是,很多媒體一邊圍觀他的跪拜,圍觀他情不自禁的痛哭流涕,窺探他的家事私事,一邊批評他在媒體前作秀表演——傷害了周其鳳,還一笑而過;消費了周其鳳,還罵他是表演。公正的旁觀者,無法容忍這樣的無良邏輯大行其道。

    作秀,是很多批評家動輒掛在嘴邊的詞。我很討厭作秀,但我更討厭動不動就批評別人是作秀。因爲作秀是一個莫須有的指控。所謂莫須有,就是好像有,也好像沒有,説你是就是,説你不是就不是,並不需要確鑿的証據。説一個人作秀,並沒有明確的証據,這純粹是一盆污水,指控者不需要去証實,被指控者無法自証自己不是在作秀。所以,很多時候,“作秀”這盆莫須有的污水潑出去後,當事人就被污名化了。公正的輿論,不應該動輒以這種“莫須有罪名”的大棒爲武器,讓公衆批評變得弱智化、簡單化和標籤化。

    在這件事上,作秀的指責是一句十足的話語暴力,它撕碎人心,解構和惡搞了這個場景中應被弘揚的孝道。我知道,有些人之所以不待見北大校長周其鳳的跪拜,並非就事論事,而是不喜歡他曾經的言論(其“美國教育一塌糊塗”的言論曾引起爭議,不過媒體後來已澄清那屬於斷章取義),不喜歡他的某些行爲(在某個場合中的“笑”,已被媒體過度解讀並妖魔化了),還因爲“北大”的身份常與體制聯制在一起,在很多人心中,北大是體制的受益者,是體制的一部分,人們常將對體制和權貴的恨與北大聯制起來,北大及其校長常常被“恨屋及烏”。也許,有些人可以不喜歡北大,可以反感周其鳳,但不應該惡評一個在慈母面前跪下的遊子。

    收回那些惡評,收回那種陰暗的思維吧,在那自恃正義的話語暴力下,人情和人心被擊得粉碎。(愛思想 2012-07-17 ;原載《中國青年報》 )

  • Suyuu


    網絡文學:
    人氣接地氣 

    近日,從北京開完全國青年作家創作會的作家夏烈帶回了好消息:中國作協將成立網絡作家協會,爲網絡作家搭建一個更好的創作平台。

    隨着以互聯網爲代表的新媒體技術的不斷發展,以青年作家爲創作主體的類型文學創作發展迅猛,已成爲當代文學的新亮點。類型文學數量龐大、種類繁多,適應了新媒體時代的創作和傳播方式,湧現出許多風格樣式。傳統的武俠、言情、偵探、推理、科幻、歷史演義,與近年來興起的玄幻、職場、校園、穿越、盜墓、懸疑等共同支撐起類型文學的書冩空間。

    作爲浙江省作協類型文學創委會主任的夏烈曾在盛大網站工作過,他介紹,現在類型小説常見的有四五十種類型,百萬、千萬字的作品並不少見。僅盛大文學起點中文網,旗下作者就達160萬之衆,簽約作家達20萬,平均每天新開冩小説500部。它們藉助網絡虛擬技術,提供適銷對路的大衆消費品,使得網絡類型文學閱讀增長量連年高於50%。

     

    夏烈説,浙江網絡文學創作實力已躍居前列,先後出現了滄月、南派三叔、流瀲紫、曹昇、陸琪、燕壘生、烽火戲諸侯等一批代表人物,他們有着較大的影響力和粉絲數。記者從近日公佈的省內作家微博粉絲量調查數據看到:南派三叔744萬、陸琪1497萬、滄月116萬、桐華46萬、流瀲紫33萬、烽火戲諸侯7萬……微博人氣極強。

    人們還發現,類型文學已經不再是一個單純的文學現象,它正在成爲一個完整、巨大的産業。

    烽火戲諸侯,原名陳政華,淳安人,2008年畢業於浙江工商大學公共管理學院,目前住在杭州。早在大二時,他就因創作《極品公子》走紅網絡。陳政華説,現在網絡文學除了作品本身,版稅收入分爲很多部分,簡體、繁體、手機閱讀、漫畫、影視、動畫等等,每一塊都很可觀。就拿某個手機閱讀平台來説,光靠有名冩手的一部作品,每年就可以贏利四五千萬元。

    應好友陳政華之邀,全國網絡文學作家富豪榜前三位的天蠶土荳,去年從四川德陽搬到了杭州,與陳政華一起創作。陳政華説,別看天蠶土荳今年只有24歲,但身家早已過千萬。“多達數億的讀者群像一座金礦,網絡冩手進入這個金礦,是辛辛苦苦挖金子的人。因爲門檻低,可能我們的技術含量不高,但畢竟爲文學打開了一條不同於傳統的新路。”

    “如果你現在還在鄙視、傲慢、俯視網絡文學,那你就錯了。”管平潮是最早進入網文圈的作者之一,他説,網絡文學同樣也在開啟一個新的文學時代,比如被視爲主流精品的《亮劍》,也是起步於網絡的文學作品。

    無疑,類型文學不僅是娛樂、消費,如何加強對類型文學的研究,加強對類型文學創作的引導,爲讀者提供更多正能量,很有意義。文學評論家鄭翔認爲,應該看到當下網絡類型文學創作的普遍局限:商業利益的驅動,造成文學品質的遮蔽和文學責任的回避;簽約作者的功利心態,點擊率的追崇,冩作時低端的迎合多於高端引領;雷同、重復現象等亟待解決。

    要克服類型文學存在的這些問題,就要吸納傳統文學的營養,讓作品多一些人間菸火、人性溫暖、人文承擔。省作協負責人表示,要抓緊成立浙江省網絡作家協會,並鼓勵網絡文學作家來杭州。(2013年10月18日;來源:浙江日報;原標題:浙江湧現文學新勢力 網絡文學: 人氣需接地氣)