愛墾欄目

  • photo
  • photo
  • photo
  • photo
  • photo
  • photo
  • photo
  • photo
  • photo
  • photo
  • photo
  • photo
  • photo

Comment

You need to be a member of Iconada.tv 愛墾 網 to add comments!

Join Iconada.tv 愛墾 網

Comment by TV Plus 6 hours ago

李斌·基於先驗信息的中文場景文本識別

在當下,隨著數字化技術快速發展和應用場景多樣化,中文字符和文本識別成為許多領域的重要任務,包括自然語言處理、光學字符識別(OCR)、智能輸入法、信息檢索等。而利用先驗信息來輔助識別中文場景下的中文字符和文本,則成為提高準確性和效率的關鍵手段。先驗信息指的是根據已有知識和經驗構建的模型或規則,用於指導識別過程,其可以解決中文文字複雜多樣的特點帶來的挑戰,推動相關領域的發展和應用。

中文字符的先驗信息

一、層次結構

截止2005年,中國共收錄27533個漢字,其中的3755個被列為常用字,其餘文字在自然場景中出現的頻率較低,屬於嚴重的長尾分佈。

但文字可以分為12種不同的解構方式,這12種解構可以經過遞歸的層級,形成像樹一樣的結果,比如「刺繡」的」繡」,它形成了一個兩層的棵樹,這是這我們稱為部首樹的樹。

二、少量筆畫

中文字符不僅在部首上存在官方定義的結構方式,我們還可以自定義一些特定的解構方式。比如說中文字符可以拆解成一個五種筆畫組合而成的筆畫序列。當然中文漢字本身不止這麼多筆畫,但是在漢字識別的任務當中,我們把它定義成5種筆畫就是橫、豎、撇、點、折。當然這個折它包含很多的不同的子類,但是我們都認為它也是,比如說豎折鉤、豎彎鉤、橫折鉤等。再比如說右上角這邊3個漢字,它是用5種筆畫的表示,12345就表示不同的筆畫的序號,然後筆畫序號來用一個序列來表示漢字的筆畫構成。由於中文字符較多的是方正的字,所以這個筆畫均有較為特定方向,因此中文字符可以在橫豎斜,在橫、豎、左斜和右斜4個方向上進行拆解,得到方向性的變化信息。

三、空間佈局

同時,李斌教授提到,中文的文本還存在佈局上的先驗信息。像這邊左圖就是單文本行,橫向文本的長度往往大於整行寬度,而縱向文本的長要小於寬度。所以這個信息其實我們在做文本判斷的時候,大家都會用到的先驗信息,另外針對多文本古籍中均為自右向左,然後自上而下的這種模式,而現代文中均為自上而下,自左向右。這一類的先驗信息能夠提供相應的閱讀順序,進而為模型引入特定的布局先驗信息。

中文字符識別方法

一、開放集下的中文字符識別方法

李斌教授介紹到,該任務要求模型能夠有效的識別機制,識別出訓練及見過的這些漢字,而且能夠發現新的字符,新的詞匯,也就是說訓練集中未見過,如一個日本字,然後能通過不重新訓練模型的方式快速調整模型來識別發現的新字符。為了從根本上解決新樣本字符問題,我們提出了基於筆畫先驗的中文字符識別方法。提出的方法如圖所示:

模型整體是有三個模塊,一個是圖像-特征編碼器,另一個是特征-筆畫解碼器,還有一個是筆畫-字符解碼器。

在訓練階段,我們僅需要對前兩個模塊進行訓練,並用相應的筆畫序列對這種模型的預測進行監督,采用交叉熵損失。

然後在測試階段我們引入筆畫-字符解碼器,將這個筆畫序列映射到相應的字符類別上,筆畫字符解碼器的具體結構就是上圖的下半部。得到預測的筆畫序列之後,我們利用邊際距離找到和預測筆畫序列最接近的字,筆畫序列,我們稱其為校正後的一個筆畫序列。由於一個筆畫序列可能對應多個字符,所以我們是通過特征匹配的方式完成這個最終字符的分類。

二、豎直中文文本識別方法

此外,李斌教授及其研究團隊,還提出了一種朝向獨立的中文文本識別方法,所謂的朝向獨立,也就是說我們把朝向單獨的特征給解耦出來,在識別的時候我們不考慮朝向的特征,只考慮漢字本身的特征,然後我們怎麼來達到這個目的,我們就提出了這麼一個訓練的框架,是我們在訓練階段采用包含豎直和水平的這種文本圖像,對於這個豎直文本圖像,這個模型將其逆時針旋轉90度後再送入識別器。

然後在這個特征提取之後,我們用提出的重構模塊,先對豎直和水平字分別進行內容信息和朝向信息的解耦,所以這個核心其實就是要把這個內容和朝向進行解耦,然後接著利用這個字符圖像重構模塊重構具備相應朝向的印刷體字。最後我們僅將內容信息的特征表示送入到解碼器中,以此來避免朝向信息對識別器的影響。所以我們是通過識別的監督信號,讓它反作用於前面朝向信息的去除。(下續)

Comment by TV Plus 7 hours ago

三、空間佈局

同時,李斌教授提到,中文的文本還存在佈局上的先驗信息。像這邊左圖就是單文本行,橫向文本的長度往往大於整行寬度,而縱向文本的長要小於寬度。所以這個信息其實我們在做文本判斷的時候,大家都會用到的先驗信息,另外針對多文本古籍中均為自右向左,然後自上而下的這種模式,而現代文中均為自上而下,自左向右。這一類的先驗信息能夠提供相應的閱讀順序,進而為模型引入特定的布局先驗信息。

中文字符識別方法

一、開放集下的中文字符識別方法

李斌教授介紹到,該任務要求模型能夠有效的識別機制,識別出訓練及見過的這些漢字,而且能夠發現新的字符,新的詞匯,也就是說訓練集中未見過,如一個日本字,然後能通過不重新訓練模型的方式快速調整模型來識別發現的新字符。為了從根本上解決新樣本字符問題,我們提出了基於筆畫先驗的中文字符識別方法。提出的方法如圖所示:

模型整體是有三個模塊,一個是圖像-特征編碼器,另一個是特征-筆畫解碼器,還有一個是筆畫-字符解碼器。

在訓練階段,我們僅需要對前兩個模塊進行訓練,並用相應的筆畫序列對這種模型的預測進行監督,采用交叉熵損失。

然後在測試階段我們引入筆畫-字符解碼器,將這個筆畫序列映射到相應的字符類別上,筆畫字符解碼器的具體結構就是上圖的下半部。得到預測的筆畫序列之後,我們利用邊際距離找到和預測筆畫序列最接近的字,筆畫序列,我們稱其為校正後的一個筆畫序列。由於一個筆畫序列可能對應多個字符,所以我們是通過特征匹配的方式完成這個最終字符的分類。

二、豎直中文文本識別方法

此外,李斌教授及其研究團隊,還提出了一種朝向獨立的中文文本識別方法,所謂的朝向獨立,也就是說我們把朝向單獨的特征給解耦出來,在識別的時候我們不考慮朝向的特征,只考慮漢字本身的特征,然後我們怎麼來達到這個目的,我們就提出了這麼一個訓練的框架,是我們在訓練階段采用包含豎直和水平的這種文本圖像,對於這個豎直文本圖像,這個模型將其逆時針旋轉90度後再送入識別器。

然後在這個特征提取之後,我們用提出的重構模塊,先對豎直和水平字分別進行內容信息和朝向信息的解耦,所以這個核心其實就是要把這個內容和朝向進行解耦,然後接著利用這個字符圖像重構模塊重構具備相應朝向的印刷體字。最後我們僅將內容信息的特征表示送入到解碼器中,以此來避免朝向信息對識別器的影響。所以我們是通過識別的監督信號,讓它反作用於前面朝向信息的去除。

三、基於部件的中文文本識別方法

基於部件的中文文本識別方法是一種將文本識別任務分解為字符級或部件級別的方法。以下是一種基於部件的中文文本識別方法的簡要步驟:

部件切割:首先,對輸入圖像進行字符或部件的切割。這可以通過傳統的圖像處理技術,如邊緣檢測、連通區域分析和輪廓提取等來實現。

部件分類:對於每個切割得到的字符或部件,使用機器學習或深度學習方法進行分類。傳統的機器學習方法可以使用特征提取和分類算法,如支持向量機(SVM)或隨機森林等。深度學習方法可以使用卷積神經網絡(CNN)或循環神經網絡(RNN)等進行訓練和分類。


字符序列重組:根據部件的分類結果,將字符或部件按照正確的順序重新組合成文本序列。這可以通過應用序列匹配算法或者使用語言模型來實現。


後處理:對於得到的文本序列,可以進行後處理步驟,如去除冗余字符、糾正錯誤或者使用語言模型進行更准確的推斷。

基於部件的中文文本識別方法可以有效地處理中文字符的複雜結構和變體,並提供較高的識別準確度。然而,該方法的性能往往依賴於部件切割的準確性和對部件分類模型的訓練質量。因此,在實際應用中,合適的數據集和有效的訓練策略是關鍵要素。達觀數據 2013年11月2日第七屆達觀杯專家培訓講堂講稿,主講人為復旦大學計算機科學技術學院研究員)

Comment by TV Plus on April 27, 2025 at 9:17pm

愛墾APP:回應李彦宏25.4.2025對DeepSeek的談話~~中國百度創建人李彦宏的評論反映了當前人工智慧領域的一個普遍現象:各家技術都有自己的專長與不足。以下從幾個角度進行評議:

1.功能範圍的局限


李彥宏提到 DeepSeek 主要處理文本,尚無法解析聲音、圖片或影片等多媒體內容。這一點體現出現階段許多專注於語言模型的系統都有類似的局限:


專注度與專業化:許多模型在最初的發展階段往往會先集中於某一領域,進而累積技術優勢。在文本處理領域達到較高水準之後,再考慮擴展到多模態處理。


應用範疇:例如,ChatGPT 和 DeepSeek 在文本應用上可能都有獨特的優勢,但當用戶需求涉及語音識別、視覺辨識等時,這類純文本模型就無法滿足需求。因此,多模態處理成為未來發展的必然方向。


2.面臨的痛點


評論中提到 DeepSeek 的痛點主要包括“幻覺多、速度慢、成本高”,這也是目前許多前沿 AI 系統常見的挑戰:


幻覺(Hallucination)問題:語言模型在生成文本時可能會產生不準確甚至虛構的信息,這不僅影響用戶信任,也為真實應用帶來風險。如何降低這類現象、提高答案的真實性是大家共同努力的目標。

速度與效能:在追求高準確度的同時,如何平衡系統的反應速度仍是一大挑戰。這牽涉到後端架構、硬件資源以及模型優化等多方面因素。

高成本挑戰:訓練和部署大規模模型通常需要巨量算力,這意味著運行成本和能源消耗都不容忽視。這也引起了業界對於更高效模型和更優化算法的需求,既要保持競爭力,又要考慮經濟與環保成本。


3.技術競爭與發展前景


從這段話可以看出,DeepSeek 與 ChatGPT 等領先技術的競爭,其實是一場技術與資源、成本與創新之間的博弈。幾個值得關注的方向包括:


多模態能力的拓展:未來能否成功整合語言、視覺、聽覺等多模態信息,將決定一個 AI 系統的實用範圍和市場接受度。


技術穩定性與實用性:降低幻覺問題、提升運行效率是普遍挑戰,這也關乎用戶體驗和廣泛應用的推進。


技術經濟性:在資源有限的情況下找到成本效益最高的解決方案,對於大規模部署和商業化都十分關鍵。

結論: 李彥宏的評論在一定程度上提醒業界和用戶,沒有一個 AI 系統能夠全面覆蓋所有應用需求,每一款產品都有其專注點與改進空間。DeepSeek 目前所面臨的技術瓶頸和市場挑戰,其實也是整個人工智慧領域正在努力解決的共同問題。隨著技術的不斷進步,未來這些系統無論是專注文本還是跨模態,都可能逐步克服目前的局限,真正做到多元而穩定的智能應用。

Comment by TV Plus on March 14, 2025 at 4:27pm

陳明發博士〈一切生意都是演出事業〉

本世紀初,麥當娜曾為我做過個人表演;蝙蝠俠和羅賓趕來問我,街市治安還好?雖然他們都是山寨版的,我的現場體驗卻是真實的,叫人激動得不得了。

很多年後,我把這些經歷寫進了〈一切生意都是演出事業〉。看看今天的抖音、小紅書與TikTok,那不就是把表演現場搬到網路上?

愛墾網公益分享16年,只有一個想法:文創是我們的明天,今天開始關注剛剛好~~

視頻陳明發博士:娛樂文創的策略

Comment by TV Plus on March 4, 2025 at 3:29pm

陈明发博士:“社团记忆”潜质~~随着中国近年崛起,社会上出现越来越多的华团,尝试与大陆蓬勃发展的“商机”对接。陈明发博士14年前的这一系列《如何撰写专题报告》演讲,大概是少数最早探讨“社团记忆”潜质的研究报告。对今天习惯抖音、Tik Tok等“新社媒”传播的朋友来说,陈博士所举的许多事例,看起来像是“史前”文物了。即使如此,其扎根于实战观察的内容,大家如果能融会贯通、灵活使用,眼下还是有其前瞻性

With China's rise in recent years, more and more Chinese associations have emerged, seeking to connect with the booming "business opportunities" in the mainland. Dr. Tan BengHuat series of lectures from 14 years ago is likely one of the earliest research reports exploring the potential of "organizational memory." For those accustomed to the dissemination of content through new social media platforms like Douyin and TikTok, many of the examples cited by Dr. Tan may seem like "prehistoric" artifacts. Nevertheless, the insights rooted in his hands-on observations remain forward-looking, provided they are understood holistically and applied flexibly.

Comment by TV Plus on February 2, 2024 at 3:28pm
Comment by TV Plus on June 11, 2022 at 3:02pm

愛墾評點·上網課

我幾乎每天都上Youtube,至少一次。有時去看看有何新樂子,找點東西讓自己開開心;很多時候卻是去找答案:某個題材的廣告,人家是怎樣玩、怎樣耍酷的;某個photoshop技術到底是如何做的,學習嘛。


上網學習,那經驗不一定很愉快。盡管是免費的,優管視頻卻不盡是好東西。說的殘酷些,很多是垃圾,換我去說、去示範,還比他們好多呢。


不過,若有高人出馬,有效又加上有趣的表達,YouTube 是可能威脅到傳統大學的,只要你想知道什麼,高人就在那裏渾身解數來教你。


網路視頻主持人也可以是好老師。
(January 18, 2012 愛墾網)

Comment by TV Plus on December 15, 2021 at 12:35pm

謊話使人們看不到真實,胡扯則使人不想看到真實

哲學家法蘭克福(Harry Frankfurt)把那種只顧逞口舌之快,故做驚人之語,
但又完全沒有實質見解和看法的說話方式稱為“胡扯”。他在《論胡扯》(On Bullshit)中指出,胡扯是一種不同於謊話的不實之辭。胡扯與其說是隱瞞真相、說謊騙人、黑白顛倒,還不如說是自以為是、不懂裝懂、誇大其詞。

說謊話的人知道什麼是真,什麼是假,說謊話因此是故意隱瞞真情,以此欺騙別人。而說胡扯的人則不知道,也不在乎什麼是真,什麼是假,他只想出語驚人、表現自己、顯擺學問,所以要麼誇大其詞,奇談怪論,要麼沒話找話說,為了出風頭,胡說一通。



法蘭克福認為,“就影響效力而言,胡扯遠比說謊更嚴重,是‘真實’的更大敵人”。為什麼這麼說呢?這是因為,說謊還要顧慮到“真”,而胡扯則根本就對“真”采取一種虛無主義、犬儒主義的態度。謊言是真實的對立面,謊言雖然掩蓋和歪曲真實,但畢竟還知道有真實的存在,還把真實當一回事,否則也就不會花氣力去掩蓋和歪曲真實了。胡扯則根本無視真實,根本不在乎什麼是真實或者到底有沒有真實。因此,胡扯對真實的態度極為輕佻,如同兒戲。


謊話使人們看不到真實,胡扯則使人不想看到真實,根本就對真實不感興趣。反公知的胡扯從根本上取消了討論公知的必要。這種胡扯正在越來越嚴重地敗壞當今知識分子問題討論應有的深入思考和理性話語。在這種情況下,重溫朱特在《思慮20世紀》中對知識分子問題的理性、深入思考也就有了非常現實的意義。
(徐賁:關注“小真相”的知識分子,2017-09-08愛思想平臺)

Comment by TV Plus on December 7, 2021 at 7:58am

攝影· 主題提詢

arcasaman 人才 / 學習 / 地方 / 文化遺產 

Beluran 西洋文學 / 幽默 

CERI 海絲路·文化·軟實力

Corps Sans Organes 美學 

Curation Nation 策展國 體驗經濟 / 旅遊 / 遊學 

Dr Tan 抗疫文創 / 地方誌 / Tourism / 旅遊

Gai Lan Fa 生死學 / 生命

Host Studio (LD)設計 / 體驗 / 哲學 / 柏格森 / 後現代 / 布爾迪厄 / 文化研究 


iki kia kiak 陳博士談榴槤/福柯

iPLOP 詩性 / 媒軆 / 慢活 / 藝頻道 / 沙巴民族
                                                                              (Photo Credit:Painting by CATHERINE ALEXANDRE)

Comment by TV Plus on December 7, 2021 at 7:43am

Johore 詩性 

卡萊爾的書包 叙事學

開篷樂勢力 樂趣 

Khalak Khalayak 地方

Kota Belud 陳明發創作 / 詩性 / 散文詩 / 學習 

Kundasang 地方 / 文學 /旅人凝視


Margaret Hsing 散文詩 / 詩性 

美索 布達米亞 一帶一路 / 歴史 

Momogun 沙巴 

Moooi 埃及 / 詩性 / 散文詩 / 地方 / 

O noc Sob 美食 

Ovepi 地方營銷 / 藝頻道 

Panfilov 詩性 / 生態 / 柏格森 / 遊記 / 美學 

Paris 沙巴 / 歴史 / 旅遊 / 地方

Passion for Form 文學 / 神话 / 古代遊走 

Penambang 自我開發 / 五行 / 讀書筆記 / 


Ra Zola 詩性 / 海德格爾 / 地方 / 詩學 

Sinakut 鮮拿哥 玩得哥與妹

Sandakan 新加坡回憶

Sentul 藝頻道 / 商韻敘事 

SRCE沙巴 / 福柯 + 德里達 / 後現代 

Suan Lab 詩性動漫/生態

誰還記得北婆羅州? 鄉韻 / 鄉頻道 / 一帶一路 / 地方文化營銷 

Suyuu 媒軆 / 文化遺産 / 地方营销 

Trengganu (旅遊 / 文學 / 美學 / 都德)

TV Plus 電影 / 媒軆 

Yanlianke 堅硬如水 文學/

用心涼Coooool English

愛墾網 是文化創意人的窩;自2009年7月以來,一直在挺文化創意人和他們的創作、珍藏。As home to the cultural creative community, iconada.tv supports creators since July, 2009.

Videos

  • Add Videos
  • View All