李斌·基於先驗信息的中文場景文本識別

在當下，隨著數字化技術快速發展和應用場景多樣化，中文字符和文本識別成為許多領域的重要任務，包括自然語言處理、光學字符識別（OCR）、智能輸入法、信息檢索等。而利用先驗信息來輔助識別中文場景下的中文字符和文本，則成為提高準確性和效率的關鍵手段。先驗信息指的是根據已有知識和經驗構建的模型或規則，用於指導識別過程，其可以解決中文文字複雜多樣的特點帶來的挑戰，推動相關領域的發展和應用。

中文字符的先驗信息

一、層次結構

截止2005年，中國共收錄27533個漢字，其中的3755個被列為常用字，其餘文字在自然場景中出現的頻率較低，屬於嚴重的長尾分佈。

但文字可以分為12種不同的解構方式，這12種解構可以經過遞歸的層級，形成像樹一樣的結果，比如「刺繡」的」繡」，它形成了一個兩層的棵樹，這是這我們稱為部首樹的樹。

二、少量筆畫

中文字符不僅在部首上存在官方定義的結構方式，我們還可以自定義一些特定的解構方式。比如說中文字符可以拆解成一個五種筆畫組合而成的筆畫序列。當然中文漢字本身不止這麼多筆畫，但是在漢字識別的任務當中，我們把它定義成5種筆畫就是橫、豎、撇、點、折。當然這個折它包含很多的不同的子類，但是我們都認為它也是，比如說豎折鉤、豎彎鉤、橫折鉤等。再比如說右上角這邊3個漢字，它是用5種筆畫的表示，12345就表示不同的筆畫的序號，然後筆畫序號來用一個序列來表示漢字的筆畫構成。由於中文字符較多的是方正的字，所以這個筆畫均有較為特定方向，因此中文字符可以在橫豎斜，在橫、豎、左斜和右斜4個方向上進行拆解，得到方向性的變化信息。

三、空間佈局

同時，李斌教授提到，中文的文本還存在佈局上的先驗信息。像這邊左圖就是單文本行，橫向文本的長度往往大於整行寬度，而縱向文本的長要小於寬度。所以這個信息其實我們在做文本判斷的時候，大家都會用到的先驗信息，另外針對多文本古籍中均為自右向左，然後自上而下的這種模式，而現代文中均為自上而下，自左向右。這一類的先驗信息能夠提供相應的閱讀順序，進而為模型引入特定的布局先驗信息。

中文字符識別方法

一、開放集下的中文字符識別方法

李斌教授介紹到，該任務要求模型能夠有效的識別機制，識別出訓練及見過的這些漢字，而且能夠發現新的字符，新的詞匯，也就是說訓練集中未見過，如一個日本字，然後能通過不重新訓練模型的方式快速調整模型來識別發現的新字符。為了從根本上解決新樣本字符問題，我們提出了基於筆畫先驗的中文字符識別方法。提出的方法如圖所示：

模型整體是有三個模塊，一個是圖像-特征編碼器，另一個是特征-筆畫解碼器，還有一個是筆畫-字符解碼器。

在訓練階段，我們僅需要對前兩個模塊進行訓練，並用相應的筆畫序列對這種模型的預測進行監督，采用交叉熵損失。

然後在測試階段我們引入筆畫-字符解碼器，將這個筆畫序列映射到相應的字符類別上，筆畫字符解碼器的具體結構就是上圖的下半部。得到預測的筆畫序列之後，我們利用邊際距離找到和預測筆畫序列最接近的字，筆畫序列，我們稱其為校正後的一個筆畫序列。由於一個筆畫序列可能對應多個字符，所以我們是通過特征匹配的方式完成這個最終字符的分類。

二、豎直中文文本識別方法

此外，李斌教授及其研究團隊，還提出了一種朝向獨立的中文文本識別方法，所謂的朝向獨立，也就是說我們把朝向單獨的特征給解耦出來，在識別的時候我們不考慮朝向的特征，只考慮漢字本身的特征，然後我們怎麼來達到這個目的，我們就提出了這麼一個訓練的框架，是我們在訓練階段采用包含豎直和水平的這種文本圖像，對於這個豎直文本圖像，這個模型將其逆時針旋轉90度後再送入識別器。

然後在這個特征提取之後，我們用提出的重構模塊，先對豎直和水平字分別進行內容信息和朝向信息的解耦，所以這個核心其實就是要把這個內容和朝向進行解耦，然後接著利用這個字符圖像重構模塊重構具備相應朝向的印刷體字。最後我們僅將內容信息的特征表示送入到解碼器中，以此來避免朝向信息對識別器的影響。所以我們是通過識別的監督信號，讓它反作用於前面朝向信息的去除。

三、基於部件的中文文本識別方法

基於部件的中文文本識別方法是一種將文本識別任務分解為字符級或部件級別的方法。以下是一種基於部件的中文文本識別方法的簡要步驟：

部件切割：首先，對輸入圖像進行字符或部件的切割。這可以通過傳統的圖像處理技術，如邊緣檢測、連通區域分析和輪廓提取等來實現。

部件分類：對於每個切割得到的字符或部件，使用機器學習或深度學習方法進行分類。傳統的機器學習方法可以使用特征提取和分類算法，如支持向量機(SVM)或隨機森林等。深度學習方法可以使用卷積神經網絡(CNN)或循環神經網絡(RNN)等進行訓練和分類。

字符序列重組：根據部件的分類結果，將字符或部件按照正確的順序重新組合成文本序列。這可以通過應用序列匹配算法或者使用語言模型來實現。

後處理：對於得到的文本序列，可以進行後處理步驟，如去除冗余字符、糾正錯誤或者使用語言模型進行更准確的推斷。

基於部件的中文文本識別方法可以有效地處理中文字符的複雜結構和變體，並提供較高的識別準確度。然而，該方法的性能往往依賴於部件切割的準確性和對部件分類模型的訓練質量。因此，在實際應用中，合適的數據集和有效的訓練策略是關鍵要素。（達觀數據 2013年11月2日第七屆達觀杯專家培訓講堂講稿，主講人為復旦大學計算機科學技術學院研究員)

Promote

7 members promoted this