衡中青 侯漢清:地方志知識組織及內容挖掘研究

20世紀50年代,在著名農史專家萬國鼎先生主持下,歷時6年多,中國農業遺產研究室從全國各地收藏的6000多種地方志中摘抄並整理出“物產”資料,匯編成431冊的《方志物產》,約3000萬字,它基本上完整地保存了明、清和民國期間全國各地的物產史料,具有極高的農業科技、經濟史料價值。

本文將以這套資料為基礎,探索方志信息組織的思路和方法。 本文首先從方志目錄學整理角度出發,主要探討方志目錄類型和志書著錄方式、方法,總結我國新舊方志索引工作的成績和特點;其次,從農史物產史料整理角度出發,對農史物產史料的來源及其整理成果進行探討和總結。

本文的重點是以《方志物產·廣東》(即《方志物產》廣東部分)為例,首先構建了一個《方志物產》信息系統,探索地方志知識組織和內容挖掘的方法。然後從以從信息系統中獲得的有關基本數據,進行物產研究和引書研究。主要研究內容如下:

(1)《方志物產·廣東》信息系統的設計和構建。該系統主要包括全文數據庫、物產索引子系統和引書挖掘及索引子系統等功能模塊。 全文數據庫構建,分析志書的行文格式,提取出能夠概括全部來源志書的、規範的物產行文敘述格式,作為全文數據庫字段設計的依據。本文設計的全文數據庫除具有全文檢索這一基本功能外,還有關鍵詞檢索、聚類檢索和數據統計功能。 物產索引子系統,采用模式識別的方法,識別出物產的異名別稱,建立物產異名標引詞典,與物產正名標引詞典一起,構建物產標引詞典,用於物產的計算機標引和索引生成。物產索引子系統具有模式維護、異名別稱識別、款目庫維護、索引生成及瀏覽四項功能。 引書挖掘及索引子系統,采用引書引用模式、引書名稱特征模式、人名引用模式,挖掘引書,建立引書標引詞典,用於引書的計算機標引和索引生成。引書索引子系統具有引書模式庫維護、引書模式識別、款目庫維護、索引生成和瀏覽四項功能。

(2)《方志物產·廣東》之物產研究,包括物產分布統計和分析、物產分類研究、物產異名別稱研究。 物產分布統計分析,對《方志物產·廣東》中的全部物產數據按歷史時期和地域進行統計和分析。歷史時期的結果表明:明代每部志書所載物產數量最多,民國其次,清代最少;民國時期平均每部志書篇幅最大,清代其次,明代最小,從明代到清代到民國,志書敘述物產越來越詳細。地域的結果表明:從通志到府志到縣志,平均每部志書所載物產數按地域面積大小逐步遞減;從粵西、珠三角、粵北、粵東,平均每部志書所載物產數按地域位置由西向東逐漸減小。 物產的分類研究,對《方志物產·廣東》所有來源志書的門目特征和類目特征進行分析和總結,探討了植物、動物和貨物的分類特點、類目設置得失和分類依據,在此基礎上擬定一個能夠類分所有物產的物產分類體系表,該表設立植物、動物和貨物三個一級類目,植物類下設立13個二級類目,動物類下設立14個二級類目,貨物類下設立9個二級類目。 物產的異名別稱研究,對從《方志物產·廣東》中輯得的1418條物產異名別稱的表達模式,歸納為有別稱詞、避忌特稱、地域特稱、文獻特稱和特殊行業特稱等五種,並對其命名來源進行探討。物產異名別稱的表達模式是物產異名別稱挖掘的基礎。

(3)引書研究,包括全部引書數據的統計分析、引書的引用方式研究。 全部引書數據的統計分析,主要是針對《方志物產·廣東》引用的31670次各類文獻,從來源志書角度和引書角度出發,以引用頻次為視角進行統計分析。來源志書角度的引書統計分析表明:從歷史時期看,明、清、民國三個歷史時期的每部志書的引書平均數,都是按時代順序遞增,且民國遠高於其他兩個歷史時期;從地域範圍看,引用平均數最高的是記載全省物產的通志性志書;從地域位置看,珠三角地區的引用平均數高於粵西、粵東、粵北。引書角度的引書統計分析表明:詩詞歌謠俗諺,引用2141次,其來源有三:嶺南本地文人作品、嶺外遊宦文人作品、嶺南當時民間歌謠俗諺;獨立成篇的論著,引用29529次,其構成特點是:大量征引以嶺南方志為主的嶺南地方文獻,大量錄引反映當時真實物產狀況的《采訪冊》,大量征引中醫藥文獻。 引書的引用方式,本文輯錄出《方志物產·廣東》所有的引書名稱引用模式和引用的表達模式。

其中,引書名稱引用模式有引用文獻名稱、引用作者姓名和引用作者姓名+文獻名稱三種,引用表達模式有前標志型、後標志型和封閉型三種。引書名稱引用模式和引用的表達模式,是進行引書挖掘研究的依據和途徑。

另外,本文還以《嶺南叢述》(物產)為例進行引書分析,這是針對該著述中除詩詞歌謠俗諺以外的獨立成篇的論著,以引書種類為視角進行統計分析,主要從歷史時期、引用頻次、地域、學科等方面,探討該著述的信息來源及資料結構。 總之,本文采用農史史料學、情報學方法和計算機技術,嘗試對地方志文獻的物產資料進行基於知識內容的整理,意圖探索方志知識組織和農史物產史料整理的思路。

本文創新之處在於: 1.采用模式識別理論和方法,嘗試應用於方志這類古代文獻,用來識別、挖掘物產的異名別稱和方志文獻中的引書; 2.分析、提取《方志物產》文獻內容的行文格式,形成統一、規範的方志物產文獻的數據庫格式,以期探索基於內容分析的古籍整理方法; 3.運用文獻計量學方法,分析《方志物產》中的引書,試圖探尋農業古籍的內容結構,為農業古籍的“辨章學術,考鏡源流”提供量化研究方法。

本文針對方志文獻特點,首次構建了《方志物產·廣東》信息系統,用於檢索方志物產文獻全文、生成物產索引和引書索引,以及進行物產異名別稱和引書的挖掘研究。 但是,本文還存在著一些不足之處,尚待進一步研究:

1.物產敘述行文格式的提取是基於人工分析的,格式的規範處理也沒有完全實現計算機自動處理。

因此,針對方志文獻特點,開發行文格式提取和自動處理軟件,是今後大規模處理方志史料工作首要解決的問題;

2.引書及物產異名別稱經模式識別後,尚需經人工判別,沒有完全實現自動化。下一步工作是進一步完善識別功能,減少人工幹預,增加自動化程度。

3.本項研究采用的語料僅限廣東方志的物產部分,對於《方志物產》其他省份資料,本文沒有涉及,有待今後做出全面系統的物產分析和引書分析。 地方志的知識組織方法和方式有多種多樣,本文只是選取比較實用的全文數據庫、物產索引、引書索引、物產分析和引書分析等幾個方面進行研究。地方志是一座“富礦”,本文只是從中挖掘出物產的異名別稱和引書,有關物產的其他方面和亡佚圖書研究,沒有涉獵。此外,方志中還有大量其他史料,亟待發掘。因此,地方志的知識挖掘研究是我們今後努力的方向和研究重點。

Views: 124

Comment

You need to be a member of Iconada.tv 愛墾 網 to add comments!

Join Iconada.tv 愛墾 網

愛墾網 是文化創意人的窩;自2009年7月以來,一直在挺文化創意人和他們的創作、珍藏。As home to the cultural creative community, iconada.tv supports creators since July, 2009.

Videos

  • Add Videos
  • View All