《愛墾媒體頻道》推薦精彩文章、照片請瀏覽以下網頁:

Rating:
  • Currently 4.75/5 stars.

Views: 553

Albums: 愛墾欄目
Favorite of 1 person

Comment

You need to be a member of Iconada.tv 愛墾 網 to add comments!

Join Iconada.tv 愛墾 網

Comment by Suyuu on June 28, 2023 at 10:43am


曹林評《交往在雲端:數字時代的人際關係》

社交媒體和人際關係是當下的熱門顯學,我一般不太喜歡這類追逐時尚和熱點的新書,認爲熱門的事物和對它的思考是需要沉淀的。但這本書吸引了我,讓我對似乎很熟悉的社交媒體有了深層次的認知。

譯者董晨宇在序中談到了“讓陌生之事變得熟悉”和“讓熟悉之事變得陌生”,避免過於熟悉而形成的平庸化危險。我正是帶着這種陌生化的視角來理解社交媒體這個已經深嵌入我們日常的熟悉之物的。我喜歡這種讓自己感覺陌生化的閱讀,這樣才有增長見識,如果隻看合乎既有想法的書,永遠隻會知道已經知道的事,形成見解的內捲化。

作者作爲第一代深度的社交媒體使用者,通過紥實的研究對社交媒體作出全新的闡釋。比如對於技術與社會的關係,她跳出了烏托邦和反烏托邦的視角而提出了馴化論:技術決定不了我們,社會也決定不了技術,但可以馴化技術。

我們如何使用和表現這些技術,誰使用它、如何使用它、誰不使用它,會影響到一種技術的後續發展,技術最終呈現出的樣態,是人馴化出來的,就像人對寵物的馴化一樣。她還談到了成人對兒童使用新媒體的恐懼,本質並非道德恐慌,而是成年人害怕喪失控制權的表現。父母常將新媒體視爲控制和監視孩子的手段,而孩子卻將其視爲實現獨立和隱私的方式,衝突由此産生。

常有人痛心疾首地認爲作爲中介的社交媒體毀滅了具身的社交,她認爲,中介並不意味着貧瘠,中介化交流應該被視爲一種新穎、兼容的混合交往方式,不是具身交流的縮減版本,新媒體並不會用虛假的模擬來削弱或替代真實的參與,大多數人並沒有利用這種去實體性來創造夢幻的或者根本上具有欺騙性的自我。

《交往在雲端:數字時代的人際關係》,南希·K. 拜厄姆(Nancy K. Baym)著;董晨宇 唐悅哲 譯;中國人民大學出版社;2020年01月)

Comment by Suyuu on June 24, 2023 at 10:29am


Bleach〈主題内容社媒〉

我懂了,你是説,我們怎樣思考,很大程度上受到之前收到的資訊所影響,對不對?有創意的人當然懂得逆向、翻轉過來思考。不過,還是受到之前的資訊所影響。資訊影響不是問題,問題是首先獲得了什麽資訊。微博”推“、”讚“什麽很重要。

可惜,現在的資訊無限度爆炸,據説每72個鐘頭就加倍。雖然google很驕傲的説,他們的蒐索器在0.1秒內,就能給我們找出100萬,還是7千萬筆相關關鍵詞的網頁鏈接。卻往往不是你所要的東西。

用得着的資訊才有價值。微博媒體如面子書、維特與撲浪,很友善,可是他們並不創造本身的內容,更別説是你所要的內容。就像電話可以聯繫人,但電話不會在你情緒低落時給你説出輔導的福音。若是你有某某生命線服務中心的聯繫電話號碼,你就可能打給他們,聽聽安慰心靈的聲音。

對一個正要自殺,想和誰講講話的人,無關人士的電話號碼,縱使有一百、一千個,對他/她一點幫助也沒有。可是,今天,對於大部分領域的專業或從業人士來説,上網找本身領域的資訊,往往是花在找尋的時間,多於了解、吸收有關資料的時間。

所以,我絶對同意以主題網站爲主、社交媒體爲輔的上網經驗。


太瘋了,添加上面的評論後才發現,博主隻是發個有關社交媒體的小故事,我就大發偉論,冩得那麽長!可是,我的用意是,雖是一個生活小插曲(愛墾不是標榜”故事城“麽),它也不應該在資訊海嘯中沒頂,那位網友愛好有價值的故事,就應該將它往深的方向發展。

看見幾位網友給別人的內容加照片,補充錄像視頻,發表有感而發的深刻想法,並在社交媒體上轉發,説是在辦微型展覽場,我覺得倒好像朋友開新店,給他們送鮮花那樣。大家打打氣,這樣才會有更多的好東西享受。而不是在蒐索器上生氣自己。[July 19, 2011 ](微博講的是“推”?阿兵哥更懂得推

Comment by Suyuu on June 1, 2023 at 10:30pm


在地媒体


Comment by 馬來西亞微電影實驗室 Micro Movie Lab on October 18, 2011 at 11:26pm

解梦人妻§叶子正青:今天早上十点,RTM第二台来找我作访谈,主题是“怎样以文化创意产业策略推动巴生肉骨茶“。


采访记者是卢淑芳,摄录记者是周文俊。我们约好在巴生福建会馆後的杨氏肉骨茶铺见面。


和我一起见记者的,还有这家肉骨茶铺的东主杨佑图先生。有关杨先生和他的肉骨茶故事,《爱垦纳达故事城》曾制作过一段短片,大家可在这里的视频栏看到。

录影完毕後,我开车载这两位年轻电视媒体人,到巴生老城区转了一圈,看看巴生河左岸的一些古迹,如第一家巴生肉骨茶店盛发;阿都拉锡矿仓库、马哈荻城墙、圣母院天主教堂、白宫(雪州皇家收藏馆)、观音亭、雪州皇宫等。

这个访谈令我感到开心的是,至少本地传统电视开始在关注本土的文化创意产业,并从影像上去探讨这个课题。


另一方面,我也觉得可惜的是,制作队伍的努力结果,在电视频道上择日播出後,没看到这片子的电视观众,恐怕就没机会再看了。


若是结合上网路电视的方便,随选随看,就能解决这个问题。


当然,网路电视不仅是随选随看而已,还可以在页面上互动,集合对同个议题有兴趣的朋友做讨论。传统电视就缺乏这个好处。


创作本土内容,确实是《爱垦》的焦点主旨。我们现在要努力的是去找志同道合的网友,首先生产更多的文字内容,并参考别人怎么做影视内容。这样,等到有了适当的人才组合,就可以把文字资源转化成影像内容了。

Comment by 葉子正绿 on October 18, 2011 at 6:32pm

谢谢你的肯定。你谈到本地原创内容的生产问题,我极有同感。


先讲一个小插曲,有一回,某个政府单位举办“与民对话”,就像过去的“对话”,徒有“对话”之名,实质上都是长官的“训话”。


末了,发表训话的官老爷问:“你们有何意见吗。”


听众席中有一位老兄站起来说:


“马来西亚的国际影响力越来越强了!过去大家都在说韩流;现在应该是马流的时候了。为什么呢?因为你看看,现在连韩国人都拍马来电视连续剧了;打开电视机,多少韩国连续剧,那些偶像们都在讲一口流利的马来话,我们的文化影响力还不够力吗?”


这话一说,只见那长官的脸一阵青一阵白!那番话的讽刺性也太“够力”了。


这就是我们现在的情况,只懂得入口别人的东西,做了马来话配音,就算是推动了本地的电视广播事业!


关于你说的本地网路电视,情况也好不到那里去。传统电视把既有的节目搬上网,就叫着“网路电视”了,只有电子媒体界面,没有电子媒体的即时性、互动性。


就像他们开了个面子书户头,就算是”参与“了社交媒体。买张票去餐会吃饭,一个人静静在一边吃饭,并不等于”参与社交活动“。


关于玩电视顶上黑盒解码器的“网路电视公司”,其实也只是把网上别人既有的东西,搬进自己的解码器里让人观赏,他们和卖光碟、插盘的电子零件商,其实没有两样,就是把装载了别人东西的载体卖给你。严格说来,是硬体商,离内容创作差个十万八千里。


关于《爱垦》的”机会“,可能碍于同人网址或社会媒体的性质吧,也推荐了很多别人的东西。但那是有企图、有主题的做法。像博物馆、美术馆的馆长工作。


我看得出老编的定位,是当这些内容为媒介,由此媒介做更深入的专题探讨,然後让有同样兴致的网友讨论。


举个例子,《爱垦》有的网友,也是youtube的发烧友,他们把自己在youtube上载的东西,链接到《爱垦》页面,然後针对有关的录影做深入的探讨。《赛德克巴莱》的各式短片出现在《爱垦》,就是最好的例子。


这是”小众“、”同人圈子“的玩法,可以做到很深入;但广度那一块要怎样玩,我们网友可能要动动脑筋了!(下续)

Comment by Suyuu on June 1, 2023 at 10:28pm

Comment by Dokusō-tekina aidea on October 17, 2011 at 11:16pm

Well done,叶子正绿。很欣赏你流畅好读的翻译,也很欣赏你重新翻译贾伯斯这篇演讲稿的毅力。


你这篇文字出街後两三天,我发现本地主流平面媒体也发表了同一篇演讲稿,用的版本就是你所说的最常见的那一份。


他们直接从网上把人家的翻译下载,连错误的标点符号与字句,也一起转载、印刷。电脑的cut & paste功能,对他们来说真好用。


原来的翻译者本身不确定、译不出原义,所以特地附上的英文原文的地方,他们也一起刊出。读上来,真的像是洋人写中文。


本地媒体真的来到一个新的分水岭。


传统的媒体原来割据一方称王:电视与报刊各有自己生存的空间。


电视上一波的“大跃进”,是1996年的寰宇卫视,15年了,在马来西亚总共650万户家庭中,他们已经进入到大约一半的人家,可说是大霸主了。


可是,他们促进了多少本地制作、培养了多少本地人才,圈中人大家心知肚明。


在中文圈,最高的文化水平大概也只是《大日子》电影,以及《我来自新村》系列纪录片。


平面媒体也已经集团化,龙头大哥稳操胜卷,竞争并不大。


所以,他们几乎是在“定定找吃”的状态中生存。


这两年,因为网路宽频加速,似乎带来新空间;网路电视开始起跑。


不过,有人已经投了大钱无功而返、含恨脱手,有的则进入特定市场,如专为本地韩国、日本社群服务。


还想大开拳脚的集团,烧了大钱後,也结束了制作本地作品的部门,转向卖机顶黑盒子(解码器)的业务;观众买了解码器干什么?看网上的外国免费内容。


几乎就是把别人的东西当着“原产品”卖就是了。和像上面说的,平面媒体直接刊印贾伯斯演词的做法是一样的。


到今天,平面内容与电子内容似乎还没走到一起;更别说互动式与本地故事了。


这可能是《爱垦》的生存空间吧?

Comment by Suyuu on May 25, 2023 at 11:42am

盧桂霞·會館出版刊物意義深遠

目前好些宗鄉會館依然定期出版會刊。這是繁瑣的工作,但意義深遠。進入數碼化時代,有些會館與時並進,將會務活動信息都放上網,讓有興趣的會員自行觀看閱讀。這能節省印刷費,省時省力,可在第一時間知道會館的情況,尤其對較年輕的會員,這是不費吹灰之力的事。但對年紀較大、或對電腦科技不太熟悉的會員,卻是一件苦差,最後可能放棄不看了。所以會館還是會定期出版會刊或常年報告,這是會館應繼續秉持的傳統。

會刊中報道了會館的近況,如發展方向、即將舉辦的活動或剛舉辦過的活動盛況、人事的變遷等,傳遞信息,並加強聯繫。會刊也有軟性的文藝作品,讓會員認識同鄉冩作人。再者,飲水思源報道原籍的風土人情、新面貌等,可增進新知識,促進彼此間的了解。

例如安溪會館出版會訊半年刊,除刊載活動信息外,也收集個人小品,印刷後分送會員、海外鄉親及本地社團。這有助於聯繫感情,互通有無。再如福州會館印刷《三山季刊》,刊載福州的風俗文化、曆史傳統、方言趣談等。海南陳氏公會出版《椰韻》,除介紹海南民謠、海南書畫家外,也收集鄉賢奮鬥的成功故事,這可讓會員了解會館的發展史,也對後人有諸多的鼓勵。

再如晉江會館在刊物信息中,刊載三代同堂慶中秋的盛況,讓老中青三代人同樂,進而呼籲秉承先賢拼搏、謙恭的精神,群策群力,爲會館和國家社會的和諧貢獻力量。永春會館的刊物登載執委會就職典禮、報道宗鄉活動與世界局勢。李氏總會有《李緣》、岡州會館、花縣會館、海南陳氏公會等等,都定期出版會訊。

從長遠來説,這些會訊刊物是公會不朽的資産,可以長久流傳,讓對會務髮展有興趣的會員慢慢閱讀,而作爲公會新的領導班子,更應該翻閱過往的曆史、活動記錄,以繼往開來,大家從長計議,在未來能有新的一番作爲。相反地,如果是數碼化的資料,未必能達到同樣的效果。

其次,年長的領導人也許對電腦科技的使用不是很熟練,或對科技有抗拒的心理,即使想多了解會務情況,也因力不從心,學習速度慢而放棄。這樣説來,數碼化比不上印刷的刊物來得務實和親切了。

出版會訊從收集、挑選資料、撰文,到排版、校對、修訂、送往印刷,最後分派、寄到會員家中及有關社團,甚至海外同鄉會,這都得花費時間和精力,但意義深遠,值得延續。(2023年5月23日新加坡聯合早報)

延續閱讀:

洪祖秋: 地方誌與史實的留存

地方志

社會史視野下的地方志利用與研究

Comment by Suyuu on March 22, 2023 at 11:30pm


媒體及資訊素養  數碼年代必備技能


科技發展一日千里,加上疫情影響,資訊及通訊科技已經成為日常生活不可或缺的部分,對教育界亦然。經濟合作與發展組織(OECD)的《學習指南針2030》框架指出,傳媒素養(Media Literacy)是學生發展主動性(Student Agency)和變革能力(Transformative Competencies)的其中一個核心基礎。OECD把傳媒素養定義為「通過批判性思維從多種媒體來源中獲取意義並評估其可信度的能力」。於每人手執最少一部流動裝置,隨時隨地能獲取網絡資訊的年代,傳媒及資訊素養有多重要?學校又應如何調整課程,助師生共同擁這數碼年代必備技能?

香港浸會大學互動媒體系教授李月蓮教授研究媒體及資訊素養(Media and Information Literacy)、傳媒教育多年,亦曾加入聯合國教科文組織的編輯諮詢委員會,制定全球媒體和資訊素養的評估框架。她認為媒體及資訊素養是一個綜合的概念,在這個新世代,不單要照顧資訊科技的技術層面,更包括獲得及分析由任何一個資訊平台所得資料的思維和技巧,甚至是從中創造新資訊的能力。

香港浸會大學互動媒體系教授李月蓮教授:
科技及社會轉變乃兩大催化劑

李教授認為科技及社會轉變使媒體及資訊素養愈趨重要。科技日月新異,現今已發展至Web 4.0時代,人工智能、5G網絡、元宇宙成為科技發展的重點。與此同時,這些新興科技為社會帶來一定挑戰,包括人們如何運用它們、它們對人類的影響、人們如何與社交媒體打交道等,亦衍生出網上欺凌、假新聞、資訊超載等問題。要適應和應對科技的轉變和挑戰,我們便需要培養媒體及資訊素養。她舉例說,如今資訊泛濫,我們要學會辨別資訊真偽;網絡公審、「起底」情況嚴重,我們需要辨別參與網絡評論的合適時間和情況。

李教授續說,社會已由工業社會轉型為知識社會。以前,工廠的機器就是我們的生產工具(means of production);在知識社會,數據、資訊和知識才是最重要的工具。如果民眾不懂得掌握資訊,或不會利用知識和資訊創造新的產品,社會便難以過渡至知識社會,會落後於人。聯合國教科文組織早於十年前便廣推媒體及資訊素養,就是希望協助各國國民得以過渡至知識社會。

展望未來,李教授期望香港全民都有機會接受媒體及資訊素養教育,而學會三件事:使用新科技搜尋資料、評核和辨別資料、利用資訊創造知識。

調整課時教導媒體及資訊素養

資訊科技教育領袖協會(AiTLE)主席;英華書院資訊科技統籌黃健威先生亦深感資訊科技發達,但社會大眾對處理和分析資訊的能力尚有欠缺,必須正視這個問題。黃老師在學校教授電腦科,十分希望把媒體及資訊素養納入課程當中,讓學校有空間教導學生如何處理資訊科技工具和資訊。

在2021/22學年下學期開始,黃老師參與了教育局的先導計劃,從「認識媒體和資訊素養」、「辨別資訊真偽」、「認識社交媒體和拒絕網絡欺凌」三個課題中選取了「辨別資訊真偽」課題,在該下學期共12節課中撥出三節課,教授媒體及資訊素養。

黃老師會在課堂播放網絡或新聞片段,教導學生以USER Model,即理解(Understanding)、搜尋(Search)、評估(Evaluation)、回應(Respond),去應對接收到的資訊,避免人云亦云。他憶述在第一節課後請學生在家觀看一條短片,內容是一名男士在電單車尾吃外賣,但被一名女士攝錄有關過程並批評他是外賣員偷吃外賣。之後黃老師問學生們有何感想,有部份學生竟然相信攝錄女士的描述,認為該男士很壞;故黃老師在之後課節會教導學生去利用USER Model去分析事件,很興幸學生皆能理解,在之後評論另一事件時相對客觀,足見他們的進步和課程的成效。

黃老師期望學生學會該素養後,能成為負責任的市民,成為一股影響力,令社會或網絡上的假資訊或其他不良行為消失。至於學校和社會層面,他希望教育局多加鼓勵學校教授媒體及資訊素養,並提供更多資源,擴展媒體及資訊素養教育,最終目標是所有學生和市民都擁有這素養,再也「不用教」。

在這個資訊科技時代,新一代要在國際舞台上保持優勢,「媒體及資訊素養」及「數碼素養」是不可或缺的能力。「學與教博覽2022」將於12月7至9日舉行,屆時香港浸會大學社會科學院副院長(教與學)李兆璋教授、香港浸會大學互動媒體系教授李月蓮教授、香港教育城行政總監鄭弼亮先生,以及資訊科技教育領袖協會(AiTLE)主席黃健威先生將於「21世紀必修課:培育數碼素養」論壇中,分享對培育學生數碼素養的看法,探討現時學校在推動數碼素養時面對甚麼挑戰。想深入了解數碼素養教育,以及與各國的教育工作者交流全球教育發展的熱門議題,可登記參觀博覽,並挑選心儀節目預留座位。(11/2022 EdPost)

Comment by Suyuu on March 16, 2023 at 9:29am


陳明發〈數字人文&超級AI

1960年代,日本工廠已經啟用Industraial Robots, 1970年代家用電腦面世,1980年代開始全球普及,1990年代中進入互聯網,2006年進入Web 2.0,新世紀進入多媒體上網,發展至今日的超級AI,Open AIGPT 4.0近日也將面世了;谷歌的Bard與百度的「文心一言」。很期待看到數字人文的研究追得上去,這肯定能大開我對文創領域的眼界。

Comment by Suyuu on February 19, 2023 at 9:55am

Alan D. Thompson 〈ChatGPT數據集之謎〉

(Alan D. Thompson [OneFlow] 2023-02-14 08:47 Posted on 北京;更多相關信息進入原載微信平臺

半個月以來,ChatGPT這把火越燒越旺。國內很多大廠相繼聲稱要做中文版ChatGPT,還公布了上線時間表,不少科技圈已功成名就的大佬也按捺不住,攜巨資下場,要創建「中國版Open AI」。

不過,看看過去半個月在群眾眼裏稍顯窘迫的Meta的Galactica,以及Google緊急發佈的Bard,就知道在短期內打造一個比肩甚至超越ChatGPT效果的模型沒那麼簡單。

讓很多人不免感到詫異的是,ChatGPT的核心算法Transformer最初是由Google提出的,並且在大模型技術上的積累可以說不弱於OpenAI,當然他們也不缺算力和數據,但為什麼依然會被ChatGPT打的措手不及?

Meta首席AI科學家Yann LeCun最近抨擊ChatGPT的名言實際上解釋了背後的門道。他說,ChatGPT「只是巧妙的組合而已」,這句話恰恰道出了一種無形的技術壁壘。

簡單來說,即使其他團隊的算法、數據、算力都準備的與OpenAI相差無幾,但就是沒想到以一種精巧的方式把這些元素組裝起來,沒有OpenAI,全行業不知道還需要去趟多少坑。

即使OpenAI給出了算法上的一條路徑,後來者想復現ChatGPT,算力、工程、數據,每一個要素都需要非常深的積累。七龍珠之中,算力是自由流通的商品,花錢可以買到,工程上有OneFlow這樣的開源項目和團隊,因此,對互聯網大廠之外的團隊來說,剩下最大的挑戰在於高質量訓練數據集。

至今,OpenAI並沒有公開訓練ChatGPT的相關數據集來源和具體細節,一定程度上也暫時卡了追趕者的脖子,更何況,業界公認中文互聯網數據質量堪憂。

好在,互聯網上總有熱心的牛人分析技術的細枝末節,從雜亂的資料中串聯起蛛絲馬跡,從而歸納出非常有價值的信息。


此前,OneFlow發佈了《ChatGPT背後的經濟賬》,其作者從經濟學視角推導了訓練大型語言模型的成本。本文作者則整理分析了2018年到2022年初從GPT-1到Gopher的相關大型語言模型的所有數據集相關信息,希望幫助有誌於開發「類ChatGPT」模型的團隊少走一步彎路。


作者|Alan D. Thompson
OneFlow編譯
翻譯|楊婷、徐佳渝、賈川

一些研究人員的報告稱,通用人工智能(AGI)可能是從我們當前的語言模型技術進行演進[1],預訓練Transformer語言模型為AGI的發展鋪平了道路。雖然模型訓練數據集日漸增大,但缺乏基本指標文檔,包括數據集大小、數據集token數量和具體的內容細節。

盡管業內提出了數據集組成和整理文檔的標準[2],但幾乎所有重點研究實驗室在揭示模型訓練數據集細節這方面都做得不夠。這裏整合的研究涵蓋了2018年到2022年初從GPT-1到Gopher的精選語言模型的所有數據集(包括主要數據集:Wikipedia和Common Crawl)的綜合視圖。

Comment by Suyuu on February 19, 2023 at 9:55am

1 概述

Image

圖 1. 主要數據集大小的可視化匯總。未加權大小,以GB為單位。

2018年以來,大語言模型的開發和生產使用呈現出爆炸式增長。一些重點研究實驗室報告稱,公眾對大語言模型的使用率達到了驚人高度。2021年3月,OpenAI宣布[3]其GPT-3語言模型被「超過300個應用程序使用,平均每天能夠生成45億個詞」,也就是說僅單個模型每分鐘就能生成310萬詞的新內容。

值得注意的是,這些語言模型甚至還沒有被完全理解,斯坦福大學的研究人員[4]最近坦言,「目前我們對這些模型還缺乏認知,還不太了解這些模型的運轉模式、不知道模型何時會失效,更不知道這些模型的突現性(emergent properties)能產生什麼效果」。

隨著新型AI技術的快速發展,模型訓練數據集的相關文檔質量有所下降。模型內部到底有什麼秘密?它們又是如何組建的?本文綜合整理並分析了現代大型語言模型的訓練數據集。

因為這方面的原始文獻並不對外公開,所以本文搜集整合了二、三級研究資料,在必要的時候本文會采用假設的方式來推算最終結果。

在本文中,我們會將原始論文中已經明確的特定細節(例如token數量或數據集大小)歸類為「公開的(disclosed)」數據,並作加粗處理。

多數情況下,適當地參考二、三級文獻,並采用假設的方式來確定最終結果是很有必要的。在這些情況下,token數量和數據集大小等細節是「確定的(determined)」,並以斜體標記。

模型數據集可分為六類,分別是:維基百科、書籍、期刊、Reddit鏈接、Common Crawl和其他數據集。

Image

表1. 主要數據集大小匯總。以GB為單位。公開的數據以粗體表示。確定的數據以斜體表示。僅原始訓練數據集大小。

1.1. 維基百科

維基百科是一個免費的多語言協作在線百科全書,由超過300,000名誌願者組成的社區編寫和維護。截至2022年4月,英文版維基百科中有超過640萬篇文章,包含超40億個詞[5]。維基百科中的文本很有價值,因為它被嚴格引用,以說明性文字形式寫成,並且跨越多種語言和領域。一般來說,重點研究實驗室會首先選取它的純英文過濾版作為數據集。

1.2. 書籍

故事型書籍由小說和非小說兩大類組成,主要用於訓練模型的故事講述能力和反應能力,數據集包括Project Gutenberg和Smashwords (Toronto BookCorpus/BookCorpus)等。

1.3. 雜誌期刊

預印本和已發表期刊中的論文為數據集提供了堅實而嚴謹的基礎,因為學術寫作通常來說更有條理、理性和細致。這類數據集包括ArXiv和美國國家衛生研究院等。

1.4. Reddit鏈接

WebText是一個大型數據集,它的數據是從社交媒體平臺Reddit所有出站鏈接網絡中爬取的,每個鏈接至少有三個贊,代表了流行內容的風向標,對輸出優質鏈接和後續文本數據具有指導作用。

1.5. Common Crawl

Common Crawl是2008年至今的一個網站抓取的大型數據集,數據包含原始網頁、元數據和文本提取,它的文本來自不同語言、不同領域。重點研究實驗室一般會首先選取它的純英文過濾版(C4)作為數據集。

1.6. 其他數據集

不同於上述類別,這類數據集由GitHub等代碼數據集、StackExchange 等對話論壇和視頻字幕數據集組成。

Comment by Suyuu on February 19, 2023 at 9:50am

2.常用數據集

2019年以來,大多數基於Transformer的大型語言模型 (LLM) 都依賴於英文維基百科和Common Crawl的大型數據集。在本節中,我們參考了Jesse Dodge和AllenAI(AI2)[8]團隊的綜合分析,按類別對英文維基百科作了高級概述,並在Common Crawl數據集[7]的基礎上,用谷歌C4[6] (Colossal Clean Crawled Corpus)在Common Crawl中提供了頂級域(domains)。

2.1. 維基百科(英文版)分析

下面按類別[9]列出了維基百科的詳細信息,涵蓋了2015年抽樣的1001篇隨機文章,研究人員注意到隨時間推移文章傳播的穩定性。假設一個11.4GB、經過清理和過濾的維基百科英文版有30億token,我們就可以確定類別大小和token。

Image

表2. 英文維基百科數據集類別。公開的數據以粗體表示。確定的數據以斜體表示。

2.2 Common Crawl分析

基於AllenAI (AI2)的C4論文,我們可以確定,過濾後的英文C4數據集的每個域的token數和總體百分比,該數據集為305GB,其中token數為1560億。

Image

表3. C4:前23個域(不包括維基百科)。公開的數據以粗體表示,確定的數據以斜體表示。

3 GPT-1數據集

2018年,OpenAI發佈了1.17億參數的GPT-1。在論文中,OpenAI並沒有公布模型訓練數據集的來源和內容[10],另外,論文誤將『BookCorpus』拼寫成了『BooksCorpus』。BookCorpus以作家未出版的免費書籍為基礎,這些書籍來自於Smashwords,這是一個自稱為「世界上最大的獨立電子書分銷商」 的電子書網站。這個數據集也被稱為Toronto BookCorpus。經過幾次重構之後,BookCorpus數據集的最終大小確定為4.6GB[11]。

2021年,經過全面的回顧性分析,BookCorpus數據集對按流派分組的書籍數量和各類書籍百分比進行了更正[12]。數據集中有關書籍類型的更多詳細信息如下:

Image

表4. BookCorpus書籍類型。公開的數據以粗體表示,確定的數據以斜體表示。

在隨後的數據集重構中,BookCorpus數據集進一步過濾掉了書籍中的「吸血鬼」類別、降低了言情類書籍的百分比、增加了「歷史」類書籍,增加了收集的書籍數量。

3.1. GPT-1數據集總結

GPT-1最終的數據集總結分析如下:

Image

表5.GPT-1數據集總結。以GB為單位。公開的數據以粗體表示,確定的數據以斜體表示。

愛墾網 是文化創意人的窩;自2009年7月以來,一直在挺文化創意人和他們的創作、珍藏。As home to the cultural creative community, iconada.tv supports creators since July, 2009.

Videos

  • Add Videos
  • View All