《媒体愛墾》內容重點推薦

《愛墾媒體頻道》推薦精彩文章、照片請瀏覽以下網頁：

59 members promoted this

Rating:

Currently 4.75/5 stars.
1
2
3
4
5

Views: 553

View Full Size

Tags:
Albums: 愛墾欄目
Favorite of 1 person

Comment

You need to be a member of Iconada.tv 愛墾網 to add comments!

Join Iconada.tv 愛墾網

Comment by Suyuu on February 19, 2023 at 9:50am: 2.常用數據集

2019年以來，大多數基於Transformer的大型語言模型 (LLM) 都依賴於英文維基百科和Common Crawl的大型數據集。在本節中，我們參考了Jesse Dodge和AllenAI（AI2）[8]團隊的綜合分析，按類別對英文維基百科作了高級概述，並在Common Crawl數據集[7]的基礎上，用谷歌C4[6] (Colossal Clean Crawled Corpus)在Common Crawl中提供了頂級域（domains）。

2.1. 維基百科（英文版）分析

下面按類別[9]列出了維基百科的詳細信息，涵蓋了2015年抽樣的1001篇隨機文章，研究人員注意到隨時間推移文章傳播的穩定性。假設一個11.4GB、經過清理和過濾的維基百科英文版有30億token，我們就可以確定類別大小和token。

Image

表2. 英文維基百科數據集類別。公開的數據以粗體表示。確定的數據以斜體表示。

2.2 Common Crawl分析

基於AllenAI (AI2)的C4論文，我們可以確定，過濾後的英文C4數據集的每個域的token數和總體百分比，該數據集為305GB，其中token數為1560億。

Image

表3. C4：前23個域（不包括維基百科）。公開的數據以粗體表示，確定的數據以斜體表示。

3 GPT-1數據集

2018年，OpenAI發佈了1.17億參數的GPT-1。在論文中，OpenAI並沒有公布模型訓練數據集的來源和內容[10]，另外，論文誤將『BookCorpus』拼寫成了『BooksCorpus』。BookCorpus以作家未出版的免費書籍為基礎，這些書籍來自於Smashwords，這是一個自稱為「世界上最大的獨立電子書分銷商」的電子書網站。這個數據集也被稱為Toronto BookCorpus。經過幾次重構之後，BookCorpus數據集的最終大小確定為4.6GB[11]。

2021年，經過全面的回顧性分析，BookCorpus數據集對按流派分組的書籍數量和各類書籍百分比進行了更正[12]。數據集中有關書籍類型的更多詳細信息如下：

Image

表4. BookCorpus書籍類型。公開的數據以粗體表示，確定的數據以斜體表示。

在隨後的數據集重構中，BookCorpus數據集進一步過濾掉了書籍中的「吸血鬼」類別、降低了言情類書籍的百分比、增加了「歷史」類書籍，增加了收集的書籍數量。

3.1. GPT-1數據集總結

GPT-1最終的數據集總結分析如下：

Image

表5.GPT-1數據集總結。以GB為單位。公開的數據以粗體表示，確定的數據以斜體表示。

Comment by Suyuu on February 19, 2023 at 9:50am: 4 GPT-2數據集

2019年，OpenAI發佈了擁有15億參數的語言模型GPT-2。GPT-2論文闡明了所用訓練數據集的大小[13]，不過並未說明其內容。而GPT-2模型卡（model card）（在GPT-2 GitHub倉庫中）說明了模型內容[14]。

我們可以從GPT-3論文中得到token數量，該論文使用了WebText擴展版本來表示190億token。據推測，2020年推出的WebText擴展版本擁有12個月的額外數據（additional data），因此它可能比2019年推出的GPT-2版本大25%左右[15]。GPT-2最終的token數量確定為150億左右。

如GPT-2論文所述，假設模型卡顯示鏈接數時，每個鏈接都可以被4500萬鏈接總數所除，那WebText的內容在數據集中所占的百分比的詳細信息就可以確定。

然後可以使用確定的150億token數量來查找每個域的token數量。請注意，在可用的前1,000個域中，此處僅顯示前50個域。

Image

表6. WebText: 前50個域。公開的數據以粗體表示，確定的數據以斜體表示。

4.1. GPT-2數據集總結

GPT-2模型最終的數據集總結分析如下：

Image

表7. GPT-2數據集總結。公開的數據以粗體表示，確定的數據以斜體表示。

5 GPT-3數據集

GPT-3模型由OpenAI於2020年發佈。論文闡明了所用訓練數據集的token數量[16]，但訓練數據集的內容和大小尚不清楚（Common Crawl的數據集大小除外[17]）

Image

表8. GPT-3數據集。公開的數據以粗體表示，確定的數據以斜體表示。

5.1. GPT-3：關於Books1和Books2數據集的分析

特別值得關注的是，在OpenAI的GPT-3論文中，並未公開Books1數據集（120億token）和Books2數據集（550億token）的大小和來源。關於這兩個數據集的來源人們提出了幾個假設，包括來自LibGen18和Sci-Hub的類似數據集，不過這兩個數據集常以TB為計，大到無法匹配。

5.2. GPT-3：Books1

GPT-3使用的Books1數據集不可能與GPT-1使用的BookCorpus數據集相同，原因在於Books1的數據集更大，達120億token。在一篇引用的論文[19]中就提及GPT-1使用的BookCorpus數據集擁有9.848億個詞，但這可能只相當於13億token（984.8字x 1.3字的token乘數）。

通過標準化項目古騰堡語料庫（SPGC），Books1有可能與古騰堡項目保持一致性。SPGC是一種開放式科學方法，被用於古騰堡項目完整的PG數據的精選（curated）版本。SPGC包含120億個token[20]，大約為21GB[21]。

5.3. GPT-3：Books2

Books2（550億token）可能與Bibliotik保持一致，並由EleutherA收集該來源的數據，組成數據集，使其成為The Pile v1的一部分。Bibliotik版本為100.96GB[22]，其確定的token數僅為250億，低於Books2公開的550億。然而，使用SPGC的『每字節token數』比率（大約為1:1.75），Bibliotik的token數和大小將更接近於Books2。

5.4. GPT-3數據集總結

附錄A概述了使用Wikipedia + CommonCrawl + WebText數據集的頂級資源列表。GPT-3模型的最終數據集總結分析如下：

Image

表9.GPT-3數據集總結。公開的數據以粗體表示，確定的數據以斜體表示。

6 The Pile v1（GPT-J和GPT-NeoX-20B）數據集

The Pile v1數據集由EleutherAI於2021年發佈，該數據集已被用於訓練包括GPT-J、GPT-NeoX-20B在內的多種模型，並作為包括MT-NLG在內的其他模型的部分數據集。The Pile v1論文闡明了所用訓練數據集的來源和大小。隨著token數量的增加，The Pile v1論文應被用作未來數據集文檔的黃金標準。

有關token數量的更多詳情，可以使用本文提供的信息來確定，參見表1（大小以GB為單位）和表7（token/每字節）[23]。

Image

表10. The Pile v1數據集。公開的數據以粗體表示，確定的數據以斜體表示。

Comment by Suyuu on February 18, 2023 at 9:30pm: 6.1. The Pile v1分組數據集（Grouped Datasets）

為了確定如『Books』、『Journals』和『CC』這類數據集的大小，筆者對數據集進行了分組，如下表所示。

Image

表11. The Pile v1分組數據集（不包括Wikipedia、CC 和 WebText）。公開的數據以粗體表示，確定的以斜體表示。

6.2. The Pile v1數據集總結

The Pile v1數據集與GPT-J和GPT-NeoX-20B模型的最終數據集總結分析如下：

Image

表 12. Pile v1 數據集總結。公開的數據以粗體表示，確定的數據以斜體表示。

7 Megatron-11B和RoBERTa數據集

2019年，Meta AI(當時稱之為Facebook AI)和華盛頓大學聯合發佈了擁有1.25億參數的RoBERTa模型。次年，Meta AI發佈了擁有110億參數的Megatron-11B模型。Megatron-11B使用的訓練數據集與RoBERTa相同。RoBERTa[24]論文闡明了所用訓練數據集的內容，不過必須參考引用的論文(BERT[25]和toryes[26])來確定最終的數據集大小。

BookCorpus：確定的數據集為4.6GB，如上面的GPT-1部分所示。

維基百科：公開的數據集為「16GB（BookCorpus加上英文維基百科）」。在減去BookCorpus數據集（4.6GB，如上面的GPT-1部分所述）後，維基百科數據集確定為11.4GB。

CC-News：（經過濾後）公開的數據集為76GB。

OpenWebText: 公開的數據集為38GB。

Stories: 公開的數據集為31GB。請注意，此數據集是「基於常識推理任務問題」的Common Crawl內容，不屬於本文的『Books』類別。相反，將Stories與CC-News數據集（76GB）相結合，Common Crawl的總數據集則為107GB。

7.1. Megatron-11B和RoBERTa的數據集總結

Megatron-11B和RoBERTa最終的數據集總結分析如下：

Image

表13. Megatron-11B和RoBERTa的數據集總結。公示的數據以粗體表示，確定的數據以斜體表示。

8 MT-NLG數據集

2021年，英偉達和微軟發佈了擁有5300億參數的語言模型MT-NLG。MT-NLG是微軟Turing NLG（擁有170億參數）和英偉達Megatron-LM（擁有83億參數）的「繼任者」。MT-NLG論文闡明了所用訓練數據集的來源和token數量，不過沒有明確指出數據集的大小。

如前所述，有關數據集大小的更多詳情，可以使用The Pile v1論文中提供的信息來確定。雖然使用的組件相同，但注意的是，MT-NLG和The Pile v1中報告的組件大小卻各不相同，這是由於來自Eleuther AI (The Pile v1數據集)和Microsoft/NVIDIA (MT-NLG模型)的研究人員采用了不同的數據過濾和去重方法。

8.1. MT-NLG中的Common Crawl數據集

Pile-CC：公開的數據集為498億token，確定的數據為227.12GB左右，參見上述Pile v1部分。

CC-2020-50: 公開的數據集為687億token，假設token的每字節率（per byte rate）為0.25 TpB=274.8GB。

CC-2021-04：公開的數據集為826億token，假設token的每字節率為0.25 TpB=330.4GB

RealNews（來自RoBERTa/Megatron-11B）：顯示為219億token。根據RealNews論文[27]，數據集確定為120GB。

CC-Stories(來自RoBERTa/Megatron-11B)：公開的數據集為53億token，如上述RoBERTa部分所示，數據集確定為31GB。

根據以上來源，可確認Common Crawl的總數據量為983.32GB，共計2283億token。

8.2. MT-NLG分組數據集（Grouped Datasets）

Image

表14. MT-NLG 分組數據集。公開的數據以粗體表示，確定的數據以斜體表示。

8.3. MT-NLG數據集總結

MT-NLG模型最終的數據集總結分析如下：

Image

表15. MT-NLG數據集總結。公示的數據以粗體表示，確定的數據以斜體表示。

9 MT-NLG 數據集Gopher數據集

Comment by Suyuu on February 18, 2023 at 9:30pm: Gopher模型由DeepMind於2021年發佈，有2800億參數。該論文清楚地說明了所使用訓練數據集所包含的高級token數量和大小[28]，但沒有說明詳細內容。

Image

表16. 公開的Gopher數據集 (MassiveText)。公開的數據以粗體表述，確定的數據以斜體表示。

有趣的是，據Gopher論文披露：其Books數據集中包含一些超過500年歷史（1500-2008）的書籍。

9.1. MassiveWeb數據集分析

DeepMind於2014年被谷歌收購，並在創建MassiveText時獲得了海量數據。雖然Gopher論文中沒有進一步詳細描述MassiveWeb，但第44頁附錄中的表A3b注明了MassiveWeb中出現的前20個域[29]。根據披露的每個域所占的百分比，我們可以使用MassiveWeb的總token數（5060億token）和總原始大小（1900GB）來確定每個域的token數量和大小。

表17. MassiveWeb：前20個域。公開的數據以粗體表示，確定的數據以斜體表示。

9.2. Gopher：關於維基百科數據集的分析

維基百科數據集的總規模很難確定。在Gopher論文中，研究人員指出維基百科沒有進行數據去重[30]。然而，論文中列出的不同大小數據集（12.5GB MassiveWeb Wikipedia與1GB MassiveText Wikipedia）可能是由於失誤而造成的，誤將「10GB」寫成了「1GB」。無論如何，本文僅使用MassiveWeb數據集版本 (12.5GB)。

9.3. Gopher:不包括WebText

Gopher數據集的組成部分不包括Reddit外鏈的WebText數據集。為了清楚起見，盡管Reddit是MassiveWeb中的頂級域，但該數據集僅抓取Reddit域內的Reddit鏈接。根據定義，WebText[31]由「所有Reddit的外鏈」組成（即指向Reddit域外的鏈接）。

9.4. Gopher 分組數據集

MassiveWeb被認為是MassiveText的子組件，並被集成到Gopher的數據集匯總中，其分組基於以下列出的可用信息：

表18. Gopher分組數據集。公開的數據以粗體表示，確定的數據以斜體表示。

9.5. Gopher 數據集總結

Gopher是本文中最大的數據集，大小為10.5TB。Gopher模型的最終數據集總結分析為：

表19. Gopher數據集總結。公開的數據以粗體表示，確定的數據以斜體表示。

10

結論

對於訓練當代Transformer大型語言模型的數據集而言，這可能是最全面的整合分析內容（截止2022年初）。在主要數據源不透明的情況下，本次研究主要從二級和三級來源收集數據，並經常需要假定來確定最終估計值。隨著研究人員要處理千萬億個token（1,000萬億）和數千TB的數據（1,000TB），確保詳細披露數據集組成的文檔變得越來越重要。

特別值得關注的是，基於大型語言模型的強大AI系統產生的冗長而匿名的輸出正在迅速發展，其中許多數據集的細節內容幾乎沒有文檔說明。

強烈建議研究人員使用突出顯示的「數據集的數據表（Datasheet for Datasets）」論文中提供的模板，並在記錄數據集時使用最佳實踐論文（即Pile v1論文，包括token數量）。數據集大小（GB）、token數量（B）、來源、分組和其他詳細信息指標均應完整記錄和發佈。

隨著語言模型不斷發展並更廣泛地滲透到人們的生活中，確保數據集的詳細信息公開透明、所有人都可訪問且易於理解是有用、緊迫和必要的。

Comment by Suyuu on February 16, 2023 at 12:45pm: 擴展閱讀及腳注（請上下滑動）

考慮到簡潔和可讀性，本文使用了腳注而非文本/括弧式引文。主要參考文獻如下，或者參見http://lifearchitect.ai/papers/，獲取大語言模型領域的主要基礎論文。以下論文按本文順序顯示。

Datasheets for Datasets Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J., Wallach, H., Daumé III, H., & Crawford, K. (2018). Datasheets for Datasets. https://arxiv.org/abs/1803.09010

GPT-1 paper Radford, A., & Narasimhan, K. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI. https://cdn.openai.com/research-covers/language-unsupervised/langua... ding_paper.pdf

GPT-2 paper Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI. https://cdn.openai.com/better-language-models/language_models_are_u... _multitask_learners.pdf

GPT-3 paper Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., & Dhariwal, P. et al. (2020). OpenAI. Language Models are Few-Shot Learners. https://arxiv.org/abs/2005.14165

The Pile v1 paper Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., & Foster, C. et al. (2021). The Pile: An 800GB Dataset of Diverse Text for Language Modeling.

EleutherAI. https://arxiv.org/abs/2101.00027

GPT-J announcement Komatsuzak, A., Wang, B. (2021). GPT-J-6B: 6B JAX-Based Transformer. https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/
GPT-NeoX-20B paper Black, S., Biderman, S., Hallahan, E. et al. (2022). EleutherAI. GPT-NeoX-20B: An Open-Source Autoregressive Language Model. http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf

RoBERTa paper Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., & Chen, D. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. Meta AI. https://arxiv.org/abs/1907.11692

MT-NLG paper Smith, S., Patwary, M., Norick, B., LeGresley, P., Rajbhandari, S., & Casper, J. et al. (2021). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model. Microsoft/NVIDIA. https://arxiv.org/abs/2201.11990

Gopher paper Rae, J., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., & Song, F. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. DeepMind. https://arxiv.org/abs/2112.11446

Appendix A: Top 50 Resources: Wikipedia + CC + WebText (i.e. GPT-3)

Comment by Suyuu on February 16, 2023 at 12:44pm: 附錄 A：前50個資源：Wikipedia + CC + WebText（即 GPT-3）

基於本文內容，尤其是每個數據集中每個資源的token數量，我們可以對將Wikipedia + Common Crawl + WebText數據集的組合，作為其整體訓練數據集的一部分模型進行資源或域的排序。為清楚起見，這包括以下模型：OpenAI GPT-3、EleutherAI GPT-J、EleutherAI GPT-NeoX-20B、Meta AI Megatron-11B和RoBERTA，以及 Microsoft/NVIDIA MT-NLG等。

請注意，展示的排名基於數據集中可用的未加權總token，每個數據集的主觀權重由研究人員在模型預訓練之前計算得出。其中有一些重復（例如，《紐約時報》既出現在有1.11億token的WebText中，也出現在過濾後有1億token的Common Crawl中）。

腳注

1. GPT-NeoX-20B paper: pp11, section 6 http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf

2. Datasheet for Datasets paper: https://arxiv.org/abs/1803.09010

3. OpenAI blog: https://openai.com/blog/gpt-3-apps/

4. On the Opportunities and Risks of Foundation Models: https://arxiv.org/abs/2108.07258

5. Size of Wikipedia: https://en.wikipedia.org/wiki/Wikipedia:Size_of_Wikipedia

6. C4 dataset: https://www.tensorflow.org/datasets/catalog/c4

7. Common Crawl website: https://commoncrawl.org/

8. C4 paper: https://arxiv.org/abs/2104.08758 pp2, Figure 1 right

9. Wikipedia categories: https://en.wikipedia.org/wiki/User:Smallbones/1000_random_results: 「維基百科涵蓋哪些主題？覆蓋範圍是否隨時間變化？使用2015年12月抽取的1001篇隨機文章對這些問題和類似問題進行了查驗...隨著時間推移，這些比例相當穩定...傳記（27.8%），地理（17.7%），文化和藝術（15.8%），歷史（9.9%），生物學、健康和醫學（7.8%），體育（6.5%），商業（4.8%），其他社會（4.4%），科學與數學（3.5%），教育（1.8%）。」

10. GPT-1 paper: pp4 「We use the BooksCorpus dataset for training the language model.」

11. https://huggingface.co/datasets/bookcorpus: 「Size of the generated dataset: 4629.00 MB」

12. BookCorpus Retrospective Datasheet paper: pp9 https://arxiv.org/abs/2105.05241

13. GPT-2 paper: pp3 「我們從社交媒體平臺Reddit中抓取了至少有3個karma的所有出站鏈接。這可以被認為是一個啟發式指標，用於判斷其他用戶是否覺得該鏈接有趣、有教育意義或只是有趣……WebText包含這4500萬個鏈接的文本子集……其中不包括2017年12月之後創建的鏈接。經過去重和一些基於啟發式的清理後，其中包含大約超過800萬個文檔，總共40GB文本。我們從WebText中移除了所有維基百科文檔...」

14. GPT-2 model card: https://github.com/openai/gpt-2/blob/master/model_card.md: 「我們已經發佈了WebText中出現的前1,000個域及其頻率的列表。WebText中排名前15位的域是：Google、Archive、Blogspot、GitHub、紐約時報、Wordpress、華盛頓郵報、維基亞、BBC、衛報、eBay、Pastebin、CNN、雅虎和赫芬頓郵報。」

Comment by Suyuu on February 16, 2023 at 12:41pm: 15. GPT-3 paper: 「WebText2：190億token。[Alan：WebText2是從WebText稍微擴展而來，所以我們可以減去20%，得到150億token]」

16. GPT-2 paper: pp3 「GPT-3: pp9, Table 2.2 「CC: 4100億token. WebText2: 190億token. Books1: 120億token. Books2: 550億token. Wiki: 30億token」

17. GPT-3 paper: pp8

18. BookCorpus repo: soskek/bookcorpus#27: 「books3.tar.gz似乎類似於OpenAI在他們的論文中引用的神秘「books2」數據集。不幸的是，OpenAI不會提供細節，所以我們對其差異知之甚少。人們懷疑它是「libgen的全部」，但這純粹是猜測。盡管如此，books3仍是「所有的bibliotik」......」

19. BookCorpus paper: https://arxiv.org/abs/1506.06724: 「# of words: 984,846,357 [Alan: BookCorpus有13億token。我們想要有120-550億token]」

20. Gutenberg paper: https://arxiv.org/abs/1812.08092: 「我們介紹了標準化項目古騰堡語料庫（SPGC），這是一種開放的科學方法，用於處理完整PG數據的精選版本，其中包含超過50,000本書和3×109word-token[Alan：相當於大約120億BPE token，見下文 ]」

21. Gutenberg repo: https://zenodo.org/record/2422561 「未壓縮大小：3GB（count）+ 18GB（token）[總計21GB]」

22. The Pile v1 paper: 「Books3（Bibliotik tracker）：100.96GB」 [Alan：乘以每字節token數0.2477 = 250億token]

23. The Pile v1 paper: pp3, Table 1 for datasets. pp28, Table 7 for Tokens per byte.

24. RoBERTa paper: https://arxiv.org/abs/1907.11692 「BOOKCORPUS加上英文WIKIPEDIA。這是用來訓練 BERT的原始數據。（16GB）。」

25. BERT paper: https://arxiv.org/abs/1810.04805 「BERT在BooksCorpus（8億字）和維基百科（25億字）上進行訓練。」

26. Stories paper: https://arxiv.org/abs/1806.02847 pp5-6

27. RealNews paper: https://arxiv.org/abs/1905.12616v3 「去重後，RealNews在沒有壓縮的情況下為120GB。」

28. Gopher paper: https://arxiv.org/abs/2112.11446 pp 7: list of sizes and tokens.

29. Gopher paper: https://arxiv.org/abs/2112.11446 pp 44, Figure A3b.

30. Gopher paper: pp41n14 「請注意，我們將文檔去重應用於除Wikipedia和GitHub之外的所有MassiveText子集「

31. GPT-2 paper, pp3.

關於作者：Alan D. Thompson博士是人工智能專家、顧問。在2021年8月的世界人才大會（World Gifted Conference）上，Alan與Leta（由GPT-3提供支持的AI）共同舉辦了一場名為「The new irrelevance of intelligence」的研討會。他的應用型人工智能研究和可視化成果受到了國際主要媒體的報道，同時還在2021年12月牛津大學有關AI倫理的辯論中被引用。他曾擔任門薩國際（Mensa International）主席、通用電氣（GE）和華納兄弟（Warner Bros）顧問，也曾是電氣與電子工程師協會（IEEE）和英國工程技術學會（IET）會員。

Comment by Suyuu on February 9, 2023 at 5:51pm: 孔令瑤·ChatGPT爆紅 AI大規模商用離我們還有多遠？

上線不到一周日活用戶破百萬，2個月破億......AI聊天機器人ChatGPT火爆全球，一時間成為現象級消費類AI應用。

ChatGPT有望打開千行百業的海量應用場景，引發AI產業變革。微軟、谷歌等科技巨頭紛紛下場，搶先布局AI新賽道。同時，近期ChatGPT開啟商業變現，推出付費訂閱版本，進一步驗證了AIGC(人工智能技術生成內容)行業商業模式，為AI產業發展打開廣闊空間。

備受資本熱捧的ChatGPT也正經歷著「成長的煩惱」，對於大數據與算力的強依賴將限製其快速發展，超預期的新應用新模式正引發市場擔憂，可能帶來的合規、知識產權等風險也將給數字治理帶來新的挑戰。

AI從「幕後」走向「臺前」

新興事物的發展並非一蹴而就，火爆全球的ChatGPT則是人工智能產業鏈發展到一定階段的必然產物。經過長年的AI技術研發積累，受益於深度學習技術突破、算力提升、大數據積累等因素，成就了這款殺手級AI應用的「出圈」。

事實上，作為替代人工勞動的生產力工具，聊天機器人並不是新鮮概念。受限技術製約，早期的聊天機器人多偏娛樂性質，近年來更加智能的聊天機器人逐漸應用於客服、搜索引擎等商業場景。

工信部新基建重大項目評審專家、北京郵電大學科技園元宇宙協同創新中心執行主任陳曉華對《證券日報》記者表示，「相比於其他聊天機器人，ChatGPT能更好地理解對話語境，並在生成文本時考慮到先前的對話內容，輸出更符合語言邏輯與人類價值觀的高質量文本，同時還增加了代碼理解和生成能力，極大地提高了實用性，拓寬了應用場景。」

本質上來講，ChatGPT是一個大型語言模型，接受過大量文本數據的訓練，這使其能夠對各種各樣的輸入生成類似人類的反應。「ChatGPT通過大規模的語言學習模型訓練，大幅度提高了人工智能應答功能，並能根據人們提出的要求，綜合整理和輸出相關主題的內容。」薩摩耶雲科技集團首席經濟學家鄭磊對《證券日報》記者表示，經過高強度訓練的ChatGPT能夠生成文章、計算機代碼等，也可以完成一些由人工處理的知識工作，根據文字內容轉化為繪圖等藝術表達形式。

ChatGPT兼具實用性與功能性，被視為有史以來最具代表性的AI應用之一，也使更多人提高了對AI新藍海的期待。

「雖然目前的ChatGPT還不能為我們的生產方式帶來根本性的變革，但是卻代表著人工智能的發展已經進入了一個全新的階段。」深圳市信息服務業區塊鏈協會會長鄭定向對《證券日報》記者表示，在這個階段，用戶將不再是被動的接受者，而是一個可以參與生產過程的對象，同時AI由「幕後」轉向「臺前」，也在現實中進入用戶的生活。

Comment by Suyuu on February 9, 2023 at 5:51pm: 商業變現應用集中湧現

業界認為，ChatGPT的「出圈」，可能意味著一個AI大規模商業化時代的到來。

北京市京師律師事務所高培傑律師對《證券日報》記者表示，「ChatGPT在To B端到To C端的智能運用方面具有巨大的商業價值，通過ChatGPT交互平臺可以幫助企業與客戶建立有效的溝通方案，並在教育、醫療、汽車、智能場館、智能家居等領域產生新的行業發展變革，在提高服務品質的同時也降低了企業的服務成本。」

2月初，OpenAI宣布推出ChatGPTPlus付費訂閱套餐，每月收費20美元，開啟商業化變現道路。訂閱該套餐的用戶可在免費服務基礎上享受高峰時段免排隊、快速響應、優先獲取新功能等額外權益。同時華西證券研報顯示，除了ChatGPT以外，NovelAI、Stable Diffusion等其他主流應用亦開啟商業變現，根據內容生成次數、生成質量等條件設置多級別訂閱套餐。

隨著這些主流應用逐步開拓商業化模式，AIGC行業的商業化潛力逐漸釋放。

「互聯網與數字技術使得分享創意和內容變得越來越容易，但同時也將數字內容創作帶入強需求、視頻化、拼創意的螺旋式升級周期，而AIGC行業在這階段的技術融合變革恰好迎合了用戶需求。」陳曉華表示，AIGC應用可通過人機協同的方式釋放價值，且已作為工具被廣泛運用在如傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業中，未來將成為互聯網乃至元宇宙的重要內容生產基礎設施。

微軟、谷歌等科技巨頭也看好AI聊天機器人的商業前景，紛紛下場布局AI新賽道。公開資料顯示，微軟將向OpenAI投資數十億美元，並將推進ChatGPT商業化，計劃將其整合進Bing搜索引擎、Office全家桶、Azure雲服務、Teams聊天程序等一系列產品中。谷歌則計劃推出一款聊天機器人Bard，與ChatGPT競爭。

鄭定向認為，作為數字經濟的重要組成部分，人工智能的發展前景毋庸置疑。作為AI領域的最新成果，ChatGPT也擁有足夠的想想像力和發展空間。當前微軟、谷歌等科技巨頭堅定投入AI，展現出AI應用廣闊的發展前景，AI行業有望開啟新發展浪潮。

國內巨頭超前佈局

事實上，中國互聯網公司也先知先覺，超前佈局AIGC賽道。

「國內目前在自然語言識別方面具備世界領先水平，相關技術主要掌握在百度、科大訊飛、漢王等龍頭企業手中。」鄭磊表示。

據悉，目前我國已經商業化的案例包括百度AIGC數字人主播度曉曉、百家號TTV等。另外，記者了解到，百度的AI聊天機器人ERNIE Bot有望於今年3月份完成內測，面向公眾開放。

高培傑表示，從技術上看，國內AI聊天機器人在技術上已較為成熟，這需要依托龐大的數據庫資源。未來AI產業將在科技巨頭競爭中發展壯大，從市場研發到數據庫支撐，AI聊天機器人將實現不斷叠代。

此外，當前版本的ChatGPT也具有一定的局限性，同時也引發市場的爭議與擔憂。

高培傑認為，目前ChatGPT無法進行自我創新，這就導致其無法更加深入的理解邏輯思維。

鄭磊則表示，ChatGPT的技術路線與人腦學習原理有差別，可能存在因算力資源有限和算法限製造成的瓶頸。

鄭定向認為，ChatGPT最大的隱患在於數據缺乏，ChatGPT想獲得更廣泛的數據或將面臨隱私安全、經濟、技術等一系列難題。

陳曉華分析稱，正是因為更加先進，ChatGPT帶來風險的程度和廣度也隨之加大。受限於模型化的學習資料，ChatGPT並不能保證其答案的準確性，可能會對使用者進行誤導，若之後使用在搜索引擎、客服等領域，其回復的信息真實性將可能導致法律風險。同時，文本、圖像數據挖掘再創作涉及合規問題，AI生產內容是否侵權很難進行判定。當前國家層面的AI立法正處於預研究階段，對AI領域的監管有待完善。（原載 2023-02-09 中國經濟網

Comment by Suyuu on February 5, 2023 at 10:50am: ChatGPT是什麽東西？

這兩天，一個名為ChatGPT的人工智能對話機器人火遍了中外互聯網。在上周三推出後，總用戶量已經突破了100萬，且號稱單次對話的平均費用可能只有幾美分。當然，目前屬於免費預測試階段，所以引起了大家的自娛自樂。

ChatGPT為什麽那麽火？因為他的智能程度遠遠超出了大家的想像。與以往的AI軟件相比，ChatGPT似乎無所不知。也就是說用戶輸入任何領域的問題，都可以找到類似百科解答的回復，並且速度極快、對答如流。此外，他甚至可以自動撰寫代碼和短文，並且充當社群裏的客服。

簡單來說，我們可以把他當成可以與我們對話的搜索引擎。更有甚者，將它視作谷歌的替代者。社交媒體上，有大量用戶將其與ChatGPT的對話進行了截圖，饒有一番趣味。一部分媒體也開始征集用戶感興趣的問題，用來和ChatGPT做問答直播，頗具看點。這其中，就有媒體就如何發布Token和撰寫區塊鏈代碼事項提問ChatGPT，得出了相當詳實全面的回答，讓人側目。

‹ Previous
1
2
3
4
5
6
…
12
Next ›

Welcome to
Iconada.tv 愛墾網

Sign Up
or Sign In

Or sign in with:

愛墾網是文化創意人的窩;自2009年7月以來，一直在挺文化創意人和他們的創作、珍藏。As home to the cultural creative community, iconada.tv supports creators since July, 2009.

Latest Activity

moooi commented on moooi's photo

Ragazine : Mia Hanson

5 hours ago

Gai Lan Fa commented on Host Studio's photo

玩得哥和妹0.3: 未來的故事

5 hours ago

沒答案也好 commented on 沒答案也好's photo

埃及太陽神：阿頓

5 hours ago

卡萊爾的書包 commented on 卡萊爾的書包's photo

敘事·創意

5 hours ago

Suan Lab commented on corps sans organes's photo

In Search of My Senses 追隨感官

5 hours ago

Story Link commented on 卡萊爾的書包's photo

Japanese in Barcelona by Alvaro Garcia Lazaro

5 hours ago

鮮拿哥 commented on 私貨珍藏's photo

Steve McCurry: 最後一卷 Kodachrome 01

5 hours ago

超人偶爾飛 commented on 超人偶爾飛's photo

陳明發（亦筆）的詩 1977 〈傘〉（4）

5 hours ago

RSS

Videos

Blog Posts

《愛懇網》14週年（2009-2023）誠意禮贈

Posted by 馬來西亞微電影實驗室 Micro Movie Lab on February 18, 2021 at 5:30pm 19 Comments 67 Promotions

陳明發：文創的文化要素

Posted by 馬來西亞微電影實驗室 Micro Movie Lab on February 21, 2021 at 11:00pm 8 Comments 44 Promotions

柳敬亭說書

Posted by Host Studio on May 14, 2017 at 4:30pm 11 Comments 49 Promotions

Good and Fond Memories - Dedicated to all those born in 1940's, 1950's & 1960's

Posted by 用心涼Coooool on July 7, 2012 at 6:30pm 39 Comments 52 Promotions

愛墾雲端藝廊：戀戀·文物館

Posted by 就是冷門 on August 24, 2013 at 10:00pm 75 Comments 79 Promotions

愛墾網特寫·新冠肺炎：人文景觀

Posted by 罗刹蜃楼 on April 6, 2020 at 11:30pm 39 Comments 64 Promotions

陳明發《2019新冠肺炎觀察紀事》

Posted by 葉子正绿 on April 2, 2020 at 5:00pm 76 Comments 67 Promotions

《愛墾雲端藝廊》～～味蕾主題館

Posted by Rajang 左岸 on August 26, 2013 at 8:30am 29 Comments 59 Promotions

社會企業的定義

Posted by 來自沙巴的沙邦 on November 4, 2015 at 7:30pm 3 Comments 75 Promotions

Creative Industries Policy in Malaysia

Posted by Dokusō-tekina aidea on January 5, 2016 at 9:00pm 35 Comments 72 Promotions

© 2024 Created by 馬來西亞微電影實驗室 Micro Movie Lab. Powered by

Badges | Report an Issue | Terms of Service

#xg { position:relative;top:120px; } #xn_bar { top:120px; }

Hello, you need to enable JavaScript to use Iconada.tv 愛墾網.

Please check your browser settings or contact your system administrator.