發布時間:2023-09-21 16:52:54
序言:寫作是分享個人見解和探索未知領域的橋梁,我們為您精選了8篇的神經網絡文本分類樣本,期待這些樣本能夠為您提供豐富的參考和啟發,請盡情閱讀。
Yi Wan,Luo Jing,Li Yong,Guo Shaoying (College of computer science and Information Engineering, Tianjin University of Science & Technology, Tianjin 300222, China) Abstract: According to user search history, the user information of interest by Title Classification, the auto-encoder neural network feature extraction value. Set the learning sample heading up to 25 Chinese characters, coding mode is adopted Chinese characters machine code (GBK code). Use the MATLAB tool for deep learning, will feature in the original space representation is transformed into a new feature space. Key words: Text feature; The auto-encoder neural network; Deep learning; Matlab
基于自編碼神經網絡建立搜索信息模型的目的是根據用戶搜索信息的歷史,推斷出網頁中的內容是用戶關注的信息并即時顯示。首先將用戶關注的歷史信息按標題分類,通過自編碼神經網絡建立標題特征值數據庫。當自編碼神經網絡搜索信息模型工作時,按照用戶提供的關鍵詞順序,打開用戶經常瀏覽的網頁,讀入標題文本,若具有數據庫中的標題特征,則將該標題的文本內容即時顯示。
直接解析網頁中的標題文本,面臨的基本問題是文本的表示。如果把標題文本所有的詞都作為特征項,那么太多的特征向量維數導致計算量太大。例如50個標題,每個標題25個漢字,特征項將有50×25=1250個。如果將標題中的某個關鍵詞作為特征詞,將會有幾千個包含關鍵詞的標題,從而導致讀入分析量過于巨大。本文采用自編碼神經網絡,用映射變換的方法把原始文本特征變換為較少的新特征,提高信息搜索效率。
1 自編碼神經網絡
1.1 自編碼神經網絡理論
Auto-Encoder(自編碼)[1],自編碼算法是一種基于神經網絡算法的無監督學習算法,與神經網絡算法的不同之處是將輸入值作為輸出節點的輸出。自編碼算法的另一個特征是隱藏層節點的個數一般少于輸入輸出節點的個數。這樣的意義是將輸入的特征通過神經網絡的非線性變換到節點數更少的隱藏層。因此,可以通過自編碼神經網絡對給定的樣本進行訓練學習,從而得到輸入數據降維后的特征,即為隱藏層的節點數,省去了人工特征提取的麻煩。
自編碼神經網絡結構示意圖如圖1所示[2]。這是一種深度學習的神經網絡,包含了多個隱含層,整個網絡是一種對稱的結構,中心層的神經元的個數最少。網絡通過對樣本的訓練可以得到一組權值系數,而輸入數據通過這組權值系數表達成低維形式,從而達到了用降維后的特征表示出輸入的數據。
圖1 自編碼神經網絡的結構
Fig.1 The structure of auto-encoder neural network
1.1.1 預訓練
(1) 輸入參數的確定:標題是作者給出的提示文章內容的短語,標題一般都簡練、醒目,有不少縮略語,與報道的主要內容有著重要的聯系。如登陸我的鋼鐵網站,搜索鋼管熱點資訊,顯示的標題有“我國自主研制*****油管成功替代進口”,學習樣本選擇50組標題,每個標題不超過25個漢字,如表1所示。
表1 學習樣本
Tab. 1 Learning samples
1
我國自主研制高端耐熱鋼無縫鋼管成功替代進口
2
我國自主研制K55石油套管成功替代進口
3
我國自主研制J55稠油熱采套管成功替代進口
4
我國自主研制專用耐高溫防火船舶用套管成功替代進口
5
我國自主研制20G高壓鍋爐管成功替代進口
6
我國自主研制特殊用途低溫用管成功替代進口
7
我國自主研制起重機臂架無縫鋼管成功替代進口
8
我國自主研制精密合金4J36船用管材成功替代進口
9
我國自主研制高強韌性高抗擠毀套管成功替代進口
10
我國自主研制三種極限規格管線管成功替代進口
…
……
50
我國自主研制醫藥化工用管成功替代進口
(2) 語句預處理[3]:學習樣本句子進行預處理是把句子中的每一個漢字變換成自編碼神經網絡模型能接受的數字化形式。為了使神經網絡能接受外部數據,首先要對句子中的漢字進行編碼,編碼方式是采用漢字的計算機內碼(GBK碼)。每個漢字機內碼有16位二進制,如:“我國自主研制”的二進制碼為
1100111011010010 我(GBK碼)
1011100111111010 國(GBK碼)
1101011111010100 自(GBK碼)
1101011011110111 主(GBK碼)
1101000111010000 研(GBK碼)
1101011011000110 制(GBK碼)
將16位二進制數轉換為十進制數并進行線性變換,映射到實數[0 1]之間,作為輸入神經元初值。變換公式如下:
式中:maxi和mini;tmax和tmin分別為x(p)i,t(p)量程范圍的最大值和最小值。
(3)預訓練:幾個獨立的RBM構成“堆棧”構成了預訓練部分,而RBM是BM (boltzmannmachine)的一種特殊連接方式。圖2即為RBM的網絡構成。它是一種隱含層神經元無連接,并且只有可見層和隱含層兩層神經元。
圖2 RBM網絡構成
Fig. 2 Construction of restricted boltzmannmachine
BM的權值調整公式為[4]
(1)
式中:在第t步時神經元i、j間的連接權值為wij(t);η為學習速率;T為網絡溫度;<uihj>+、<uihj>-分別為正向平均關聯和反向平均關聯。
在RBM中,可見層神經元的輸出和隱含層神經元輸出的乘積即為平均關聯。系數ε由η和T統一合并而成,迭代步長即由權值調整公式ε表示。
圖3 RBM網絡結構圖
Fig. 3 RBM network structure diagram
(4)MATLAB實現:
本文建立的BP神經網絡模型結構為
[25,15,25],[15,12,15],[12,10,12],[10,8,10],[8,5,8]
設定網絡隱含層的激活函數為雙曲正切S型函數tansig,輸出層的激活函數為線性激活函數purelin,網絡的訓練函數為Levenberg-Marquardt算法訓練函數trainlm。因此對應的MATLAB神經網絡工具箱的程序語句為
net=newff(minmax(P),[25,25],{‘tansig’,’purelin’}, ’trainlm’);
net=newff(minmax(P),[15,15],{‘tansig’,’purelin’},’trainlm’);
net=newff(minmax(P),[12,12],{‘tansig’,’purelin’},’trainlm’);
net=newff(minmax(P),[10,10],{‘tansig’,’purelin’},’trainlm’);
net=newff(minmax(P),[8,8],{‘tansig’,’purelin’},’trainlm’);
設定學習速率為0.01,最大訓練步數為300,目標誤差為0.00001。
(5)預訓練結果:
預訓練結果如表2所示。
表2 預訓練結果
Tab. 2 The results of pre training
誤差
學習速率
步長
[25,15,25]
0.003248
0.01
150
[15,12,15]
0.0022809
0.01
125
[12,10,12]
0.0025866
0.01
100
[10,8,10]
0.0039575
0.01
75
[8,5,8]
0.013529
0.01
50
1.1.2 展開
如圖4所示,將各個RBM連接,得到自編碼神經網絡。預訓練所得到的權值,將作為整個自編碼神經網絡的初始權值,參與整個網絡的微調訓練。
圖4 RBM展開圖
Fig. 4 Development of RBM network structure
1.1.3 微調
微調訓練是在預訓練得到初始權值的基礎上,對權值進一步調整。采用以交叉熵為目標函數[5]的BP算法完成網絡的微調訓練。交叉熵是用來度量兩個概率分布間差異性的,它是一個非負數,兩個分布越相似,其越小。原始的交叉熵定義為
(4)
式中:x為隨機變量;q(x)為已知概率分布;p(x)為估計概率分布。
對于隨機變量x,當用q(x)估計p(x)時,通過調整受x影響的p(x)來最小化交叉熵D(pq),用于自編碼神經網絡權值調整的BP算法交叉熵函數形式為
(5)
式中:ti目標概率分布;yi實際概率分布。
整個網絡訓練的目的是調整權值以使交叉熵函數達到最小,權值調整公式為
根據上面的權值調整公式,可以完成網絡的微調訓練。訓練結果如表3所示。
表3 微調訓練結果
1.1.4 特征提取
50組標題(每個標題不超過25個漢字)的學習訓練,通過自編碼網絡的逐層特征變換,將樣本數據約1250(50×25)個漢字編碼,在原空間的特征表示變換到一個新特征空間。其中網絡最深隱含層的輸出值(5個)和權值矩陣W6(5×8=40個),共計45個,為提取標題文本1250個漢字編碼的特征值。
2 實 例
本文選取10組標題文本見表4,分別輸入自編碼神經網絡。預測結果表示基本符合要求。
表4 預測結果
Tab. 4 The prediction results
序號
樣本輸入
結果顯示
1
我國自主研制的蛟龍號深水探測器成功替代進口
無
2
我國自主研制首臺3.6萬噸垂直擠壓機擠合格鋼管成功替代進口
我國自主研制首臺3.6萬噸垂直擠壓機擠合格鋼管成功替代進口
3
我國自主研制的超級計算機系統成功替代進口
無
4
我國自主研發的1000MPa高壓共軌管成功替代進口
我國自主研發的1000MPa高壓共軌管成功替代進口
5
我國自主研制超臨界電站無縫鋼管T92、P92成功替代進口
我國自主研制超臨界電站無縫鋼管T92、P92成功替代進口
6
我國自主研制重載火車頭下線成功替代進口
無
7
我國自主研制成功特高壓交、直流套管成功替代進口
我國自主研制成功特高壓交、直流套管成功替代進口
8
我國自主研制的Q355GNH系列耐候鋼成功替代進口
我國自主研制的Q355GNH系列耐候鋼成功替代進口
9
我國自主研制的渦槳支線飛機成功替代進口
無
10
我國自主研制釩微合金L290管線鋼成功替代進口
我國自主研制釩微合金L290管線鋼成功替代進口
3 結 語
本文按照標題文本分類檢索信息,解決了直接按照關鍵詞搜索信息,網頁中經常顯示幾千條包含關鍵詞內容的標題本文,從而導致讀入分析信息量過于巨大的問題。通過自編碼神經網絡提取文本特征,在不損傷文本核心信息的情況下盡量減少要處理的單詞數,以此來降低向量空間維數,簡化計算,提高了文本處理的速度和效率。
關鍵詞:文本分類;支持向量機;核函數
中圖分類號: TP391; TP18 文獻標識碼:B文章編號:1672-5913(2007)02-0072-04
支持向量機(Support Vector Machine,簡稱SVM)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,并能夠推廣應用到函數擬合等其他機器學習問題中。傳統統計模式識別的方法都是在樣本數目足夠多的前提下進行研究,所提出的各種方法只有在樣本數趨于無窮大時其性能才有理論上的保證,而在多數實際應用中,樣本數目通常是有限的,很多傳統方法都難以取得理想的效果。Vapnik等人早在20世紀60年代就開始研究有限樣本情況下的機器學習問題。20世紀90年代,有限樣本情況下的機器學習理論研究逐漸成熟起來,形成了一個較完善的理論體系――統計學習理論(Statistical Learning Theory)。1992年到1995年,在統計學習理論的基礎上發展出了一種新的模式識別方法――支持向量機。隨著WWW的迅猛發展,文本分類成為處理和組織大量文檔數據的關鍵技術。SVM是繼k-近鄰、神經網絡、相素貝葉斯等方法之后被用于文本分類,并且是在Reuter語料(包括21450版本和Apte給出的集合)上能取得非常好的結果的文本分類算法之一。
本文重點研究SVM在兩個不同的語料集上,選擇不同的特征維數,采用四種不同的核函數的分類性能比較。實驗結果表明,這種方法削弱了訓練樣本分布的不均勻性對分類性能的影響,可以將微平均準確率提高大約1%~2%。
本文第1節將闡述支持向量機算法的基本思想;第2節介紹目前廣泛應用的三種核函數;第3節給出了在著名的英文語料集Reuters-21578上的實驗結果與分析;第4節是結論和進一步工作展望。
1統計學習理論與支持向量機
統計學習理論就是研究小樣本統計估計和預測的理論,具有很好的泛化能力,為解決有限樣本學習問題提供了一個統一的框架。它能將很多現有方法納入其中,有望幫助解決許多原來難以解決的問題(比如神經網絡結構選擇問題、局部極小點問題等);同時,在這一理論基礎上發展了一種新的通用學習方法――支持向量機(SVM) 。
SVM是一種建立在統計學習理論基礎上的機器學習方法,有較好的推廣性能和較高的分類準確率。該算法基于結構風險最小化原理,將數據集合壓縮到支持向量集合(通常為前者的3%~5%),學習得到分類決策函數。其基本思想是構造一個超平面作為決策平面,使正負模式之間的間隔最大。
SVM方法是從線性可分情況下的最優分類面提出的。如圖1所示,圓圈和實心點分別代表兩類的訓練樣本,H為把兩類沒有錯誤地分開的分類線,H1、H2分別為過各類樣本中離分類線最近的點且平行于分類線的直線,H1和H2之間的距離叫做兩轉類的分類間隔(Margin)。支持向量與超平面之間的距離為1/ω,則支持向量間距為2/ω尋找超平面的問題,可化為求解以下二次規劃問題:
3.3實驗結果與分析
為了考察算法的效果,我們采用了VC++6.0實現本文算法,部分源代碼采用復旦大學計算機與信息技術系李榮陸提供的文本分類器系統源代碼。實驗分為三個階段。
表1、表2實驗結果表明,不論是在英文語料集還是中文語料集,使用SVM分類系統均能達到較好的分類效果,而實驗中采用多項式核函數和Sigmoid函數進行比較,經證明,在多數情況下前者優于后者。
4結束語
本文就文本分類的過程和關鍵技術進行了論述,并就不同核函數下文本分類的效果進行了實驗驗證,證明SVM是一種行之有效的文本分類方法。在今后的研究中,如何提高SVM算法的效率將是工作的重點。
參考文獻:
[1] V. Vapnik. The nature of Statistical Learning Theory[J]. Springer, New York, 1995.
[2] Therson Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. In European Conference on Machine Learning(ECML)[J]. Springer,Berlin, 1998.
關鍵詞:自動分類;現狀;類型;文檔分類;方法
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2009)04-1020-02
自動分類技術是利用計算機系統對文本集按照一定的分類體系或標準進行自動類別標記,分類工具根據文檔的信息將其分配到已經存在的類別中,也稱“主題”。
隨著網絡的迅猛發展,網頁、電子郵件、數據庫、聊天室和數字圖書館等電子文本成幾何級數不斷增長,處理這些海量數據的一個重要方法就是將它們分類。當我們瀏覽一個網站查找信息時,如果網頁凌亂的堆積在一起沒有類別供我們查找,會使我們很難找到自己所需的信息。現在,大型網站都將網頁分類,以方便人們瀏覽。比如,Yahoo就將網頁放在一個巨大的層次分類結構中,通過組裝維護這些類別,可以幫助人們查找知識和信息。網頁自身并沒有類型區分,這就需要人工分類,將網頁、郵件等各種格式的文檔經過文法分析都可以轉化為純文本,而自動文本分類系統可以幫助人們檢查文本、判斷文本所屬類別。
1 自動分類技術的現狀
到目前為止,國外已在自動分類領域進行了較為深入的研究。已經從最初的可行性基礎研究經歷了實驗性研究進入實用階段,并在郵件分類、電子會議、信息過濾等方面取得了較為廣泛的應用[1]。
國內對自動分類技術的研究相對較晚。1986年,上海交通大學電腦應用技術研究所開發的中文科技文獻(計算機類)實驗性分類系統。1995年,清華大學電子工程系研制的漢語語料自動分類系統。1998年,東北大學計算機系的新聞語料漢語文本自動分類模型。1999年,由鄒濤等人開發的中文技術文本分類系統CTDS。除此之外,國內眾多學者對中文文本分類算法也進行了深入研究,黃萱箐等提出的基于機器學習的、獨立于語種的文本分類模型[3],周永庚等研究的隱含語義索引在中文文本處理中的應用[4],李榮陸等的最大熵模型[5],張劍等提出的一種以WordNet語言本體庫為基礎,建立文本的概念向量空間模型作為文本特征向量的特征提取方法[6],朱靖波等將領域知識引入文本分類,利用領域知識作為文本特征,提出一種基于知識的文本分類方法等[7]。
從20世紀90年代以來,基于機器學習的文本分類逐漸成為文本分類的主流技術。近年來文本分類技術取得了很大的進展,提出了多種特征抽取方法和分類方法,如回歸模型、支持向量機、最大熵模型等,建立了OHSUMED,Reuters等開放的分類語料庫。
2 自動分類技術的類型
根據目的性,信息自動分類包括自動聚類和自動歸類兩種類型。
2.1 自動聚類
由計算機系統對待分類文本進行分析并提取有關的特征,然后對提取的特征進行比較,根據一定規則將具有相同或相近特征的對象定義為一類。自動聚類的目的是在已有信息中定義符合實際情況的類。在網站的非主要分類體系中,也可以用自動聚類的方法自動生成欄目內的類別。
2.2 自動歸類
計算機系統對分類文本提取有關特征,然后與既定分類系統中對象所具有的公共特征進行相關性比較。將對象歸入其特征最相近的類中。自動歸類的目的是把各種信息納入已建立的分類系統中,用于搜索引擎或網站導航系統的管理和數據更新。根據使用的技術,自動歸類通常分為基于詞的自動分類(詞典法)和基于專家系統的自動分類(知識法)兩大類,也有人將界于兩種技術之間的稱為基于信息的自動分類。
3 文檔分類關鍵技術分類及方法
現有的文本分類技術主要采用3 種方法:基于連接的方法、基于規則的方法和基于統計的方法。
3.1 基于連接的文本分類方法
基于連接的方法主要是利用人工神經網絡來模擬人腦神經網絡,并期望其能像大腦一樣地運作,一樣地學習,從而產生智慧。這種方法可以實現信息的分布存取,運算的全局并行,并且可在進行非線性處理的同時具有高容錯性等特點,適用于學習一個復雜的非線性映射。但是使用他學習所形成的知識結構是人所難以理解的,系統本身也不具有良好的透明性。
3.2 基于規則的文本分類方法
基于規則的方法本質上是一種確定性的演繹推理方法。其優點在于他能根據上下文對確定性事件進行定性描述,并且能充分利用現有的語言學成果。其成立的前提是有大量的知識,而這些知識必須是人類專家總結出來的。由于必須有人的參與,這種方法側重于知識的可理解性和可讀性,對于有些統計方法無法解決的問題,利用基于規則的方法可以很容易地解決。但是,這種方法在不確定性事件的描述、規則之間的相容性等方面存在一些缺陷和限制。常用的基于規則的方法有決策樹、關聯規則等。
3.3 基于統計的文本分類方法
基于統計的方法本質上是一種非確定性的定量推理方法。基于統計的方法的優勢在于他的全部知識是通過對大規模語料庫分析得到的,可以取得很好的一致性和非常高的覆蓋率,對語言處理提供了比較客觀的數據依據和可靠的質量保證。但由于其是基于概率的一種方法,因此必然會對小類別文本即小概率事件造成忽視。常用的基于統計的方法有KNN、樸素貝葉斯、類中心向量、回歸模型、支持向量機、最大熵模型等。
3.4 經典文本分類方法
3.4.1 KNN算法
KNN算法即k- Nearest Neighbor 分類方法,是一種穩定而有效的文本分類方法。采用KNN 方法進行文檔分類的過程如下:對于某一給定的測試文檔d,在訓練集中,通過相似度找到與之最相似的k個訓練文檔。在此基礎上,給每個文檔類打分,分值為k個訓練文檔中屬于該類的文檔與測試文檔之間的相似度之和。也就是說, 如果在這k個文檔中,有多個文檔屬于一個類,則該類的分值為這些文檔與測試文檔之間的相似度之和。對這k個文檔所屬類的分值統計完畢后,即按分值進行排序。還應當選定一個閾值,只有分值超過閾值的類才予考慮。測試文檔屬于超過閾值的所有類。形式化表示為:
■(1)
其中,dj∈ci時y(dj,ci)=1;dj?埸ci時y(dj,ci) 。
bi為閾值,Sim(d,dj)為文檔d和dj的相似度,score(d,ci)為測試文檔d屬于ci類的分值。一般的,bi是一個有待優化的值可以通過一個驗證文檔集來進行調整。驗證文檔集是訓練文檔集的一部分,根據公式(1)可確定測試文檔的類別。很顯然,對于每一個測試文檔,必須求解其和訓練文檔庫中所有文檔的相似度。因此, KNN方法的時間復雜度為o(|D|ni)。其中,|D|和ni分別為訓練文檔總數和測試文檔總數。
3.4.2 SVM
支持向量機(Support Vector Machine,SVM)是在統計學習理的基礎上發展而來的一種機器學習方法, 該模型是基于結構風險最小化原理的方法,把原始數據集合壓縮為支持向量集合,其基本思想是構造出一個超平面作為決策平面,使正負模式之間的空白為最大化。在解決小樣本、非線性及高維模式識別問題中SVM表現出了許多特有的優勢, 并在很大領域得到了成功的應用,如:人臉識別、手寫字體識別、文本分類等。其中,SVM在文本分類方面的表現尤為突出。
SVM 的基本思想可用圖1的兩維情況進行說明。圖1中,圓形實心點和菱形實心點代表2類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,他們之間的距離叫做分類間隔。所謂最優分類線就是要求分類線不但能將兩類正確分開(訓練錯誤率為0),而且使分類間隔最大。分類線方程為:
x?w+b=0
在此可以對他進行歸一化,使得對線性可分的樣本集:
(xi,yi),i=1,…,n,x∈R4,y∈{+1,-1}
滿足:yi[(w.xi)+b]-1≥0 i=1,2,…n
此時分類間隔等于2/w, 使間隔最大等價于使w2最小。滿足式且使間距為w/2的分類面就叫做最優分類面, H1 , H2上的訓練樣本點就稱作支持向量。
基本的SVM是針對兩類分類問題的,為了實現對多個類別的識別,需要對SVM進行擴展。常用的SVM多類分類方法有One-vs-Res, One-vs-One,ECOC( Error Correcting Output Coding)、DAGSVM和二叉樹等方法。實驗結果表明DAGSVM 方法要優于其他2 種方法。Weston和Watkins[2]對SVM的理論進行了擴充,使其一次就可以完成多類分類,但是實驗結果顯示其分類查準率要低于One-vs-Rest 和One-vs-One方法。
4 技術的發展趨勢與展望
本文介紹了文本分類的研究背景,國內外關于文本分類技術研究的最新動態,總結了近年來文本分類研究的關鍵技術。文本分類技術有著廣泛的應用,逐漸趨于實用。
但隨著自動分類技術相關應用的發展,及對其需求的不斷提升,文本分類技術仍有非常多的問題值得研究:可靠、有效及快速的在線分類;基于語義度量的數據模型和分類方法;緩解樣本標注瓶頸以及樣本數據分布帶來的影響等。隨著數據挖掘領域和機器學習理論、技術研究的不斷深入, 針對解決不同實際應用和數據特征的問題將成為文本分類相關研究,及其應用的主要突破方向和攻克難點。
參考文獻:
[1] 李榮陸.文本分類及相關技術研究[D].上海:復旦大學,2005.
[2] 李應紅.慰詢楷. 劉建勛.支持向量機的工程應用[M].北京:兵器工業出版社,2004.
[3] 黃萱菁,吳立德,石崎洋之,等. 獨立于語種的文本分類方法[J].中文信息學報,2000,14(6):1-7.
[4] 周水庚,關佶紅,胡運發. 隱含語義索引及其在中文文本處理中的應用研究[J].小型微型計算機系統,2001,22(2):239-244.
[5] 李榮陸,王建會,陳曉云,胡運發等. 使用最大熵模型進行中文文本分類[J].計算機研究與發展.2005,42(1):94-101.
[6] 張劍,李春平. 基于WordNet概念空間模型的文本分類[J].計算機工程與應用.2006(4):174-178.
[關鍵詞]中文分詞 分詞算法 歧義消除 未登錄詞 分詞系統
[分類號]G354
中文分詞是文本分類、信息檢索、信息過濾、文獻自動標引、摘要自動生成等中文信息處理中的關鍵技術及難點。經過廣大學者共同努力,過去2D多年中文分詞取得可喜進步,黃昌寧、趙海…在四方面總結了取得的成績。筆者利用CNKI全文期刊數據庫,以“中文and分詞”、“漢語and分詞”、“自動and分詞”等為檢索條件,檢索時段為1987年1月1日~2010年9月1l日,進行篇名檢索,經篩選分別得到相關研究論文214、191、165篇,通過文獻歸納總結出該領域研究現狀、研究內容、研究熱點與難點,并展望其發展。
1 中文分詞基礎理論研究
中文分詞理論研究可歸結為:三種主要分詞算法及組合算法研究、中文分詞歧義消除、未登錄詞識別與分詞與詞性標注評測研究。
1.1 分詞算法研究
衡量分詞算法優劣標準是分詞速度與精度,各種算法圍繞精度與速度展開。目前分詞算法很多,大致可歸納為:詞典分詞方法、理解分詞方法、統計分詞方法、組合分詞算法。
1.1.1 詞典分詞方法
?算法。詞典分詞方法按照一定策略將待分析漢字串與詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功,該方法需要確定三個要素:詞典、掃描方向、匹配原則。比較成熟的幾種詞典分詞方法有:正向最大匹配法、逆向最大匹配法、雙向最大匹配法、最少切分等。實際分詞系統,都是把詞典分詞作為一種初分手段,再通過各種其他的語言信息進一步提高切分的準確率。
詞典分詞方法包含兩個核心內容:分詞算法與詞典結構,算法設計可從以下幾方面展開:①字典結構改進;②改進掃描方式;③將詞典中的可按由長到短遞減順序逐字搜索整個待處理材料,一直到分出全部詞為止。
?詞典結構。同典結構是詞典分詞算法關鍵技術,直接影響分詞算法的性能。三個因素影響詞典性能:①詞查詢速度;②詞典空間利用率;③詞典維護性能。Hash表是設計詞典結構常用方式,先對GB2312~1980中的漢字排序(即建立Hash表),然后將其后繼詞(包括詞的屬性等信息)放在相應的詞庫表中。
孫茂松等設計并實驗考察了三種典型的分詞詞典機制:整詞二分、TRIE索引樹及逐字二分,著重比較它們的時間、空間效率。姚興山提出首字Hash表、詞次字Hash表、詞次字結構、詞3字Hash表、詞3字結構、詞4字Hash表、詞4字結構、詞索引表和詞典正文的詞典結構,該結構提高查詢速度,但增大存儲開銷。陳桂林等介紹了一種高效的中文電子詞表數據結構,它支持首字Hash和標準的二分查找,且不限詞條長度,并給出利用近鄰匹配方法來查找多字詞,提高了分詞效率。目前文獻看,圍繞詞典結構提高分詞性能的主流思想是設計Hash表,表數目隨結構不同而不同,數目越多,空間開銷越大,但查詢速度也相應提高,具體設計需要在時間與空間之間權衡。
1.1.2 理解分詞方法 基本思想是分詞同時進行句法、語義分析;利用句法信息和語義信息來處理歧義現象,理解分詞方法需要使用大量語言知識和信息。
?人工智能技術。人工智能技術主要包括專家系統、神經網絡和生成一測試法三種。分詞專家系統能充分利用詞法知識、句法知識、語義知識和語用知識進行邏輯推理,實現對歧義字段的有效切分。何克抗等深入分析了歧義切分字段產生的根源和性質,把歧義字段從性質上劃分為四類,并給出消除每一類歧義切分字段的有效方法。王彩榮設計了一個分詞專家系統的框架:將自動分詞過程看作是基于知識的邏輯推理過程,用知識推理與語法分析替代傳統的“詞典匹配分詞+歧義校正的過程。”神經網絡摸擬人腦神經元工作機理設計,將分詞知識所分散隱式的方法存入神經網內部,通過自學習和訓練修改內部權值,以達到正確的分詞結果。林亞平、尹鋒利等用BP神經網絡設計了一個分詞系統,進行大量仿真實驗,取得不錯分詞效果。
采用神經網絡與專家系統的人工智能分詞算法與其他方法相比具有如下特點:①知識的處理機制為動態演化過程;②字詞或抽象概念與輸入方式對應,切分方式與輸出模型對應;③能較好地適應不斷變化的語言現象,包括結構的自組織和詞語的自學習;④新知識的增加對系統處理速度影響不大,這與一般機械匹配式分詞方法有很大區別;⑤有助于利用句法信息和語義信息來處理歧義現象,提高理解分詞的效果。作為智能分詞技術的一種探討,將神經網絡與專家系統思想引入中文分詞,是一種有益嘗試,為后續智能自動分詞技術取得更多進展打下良好基礎。
黃祥喜提出“生成一測試”法,通過詞典的動態化、分詞知識的分布化、分詞系統和句法語義系統的協同工作等手段實現詞鏈的有效切分和漢語句子切分與理解的并行。該方法具有通用性,實現容易,分詞和理解能力強。
由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。
?統計模型技術。蘇菲等提出基于規則統計模型的消歧方法和識別未登錄詞的詞加權算法,通過詞頻統計、加權技術與正向逆向最大匹配進行消歧與未登錄詞識別。張茂元等提出基于馬爾可夫鏈的語境中文切分理論,進而提出一種語境中文分詞方法,該方法建立在詞法和句法基礎上,從語境角度分析歧義字段,提高分詞準確率。
1.1.3 統計分詞方法 統計方法思想基礎是:詞是穩定的漢字的組合,在上下文中漢字與漢字相鄰共現的概率能夠較好地反映成同的可信度。因此對語料中相鄰共現的漢字的組合頻度進行統計,計算他們的統計信息并作為分詞的依據。常用統計量有如詞頻、互信息、t-測試差,相關分詞模型有最大概率分詞模型、最大熵分詞模型、N-Gram元分詞模型、有向圖模型等。孫茂松等提出了一種利用句內相鄰字之間的互信息及t-測試差這兩個統計量解決漢語自動分詞中交集型歧義切分字段的方法,并進一步提出將兩者線性霍加的新的統計量md,并引入“峰”和“谷”的概念,設計了一種無詞表的自動分詞算法。王思力等提出一種利用雙字耦合度和t-測試差解決中文分詞中交叉歧義的方法。孫曉、黃德根提出基于最長次長匹配的方法建立漢語切分路徑有向圖,將漢語自動分詞轉換為在有向圖中選擇正確的切分路徑。
三種主流方法各有優缺點,其具體比較見表1。
1.1.4 組合方法 單個方法有優點,但也存在不足,
實際分詞算法設計時需要組合幾種方法,利用各自優點,克服不足,以更好解決分詞難題。
?字典與統計組合。翟鳳文等提出了一種字典與統計相結合的分詞方法,首先利用字典分同方法進行第一步處理,然后利用統計方法處理第一步所產生的歧義問題和未登錄詞問題。該算法通過改進字典的存儲結構,提高了字典匹配的速度;通過統計和規則相結合提高交集型歧義切分的準確率,并且一定條件下解決了語境中高頻未登錄詞問題。
?分詞與詞性標注組合。詞性標注是指對庫內語篇中所有的單詞根據其語法作用加注詞性標記。將分詞和詞類標注結合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結果進行檢驗、調整,從而極大地提高切分的準確率。白拴虎將自動分詞和基于隱馬爾可夫鏈的詞性自動標注技術結合起來,利用人工標注語料庫中提取出的詞性二元統計規律來消解切分歧義。佟曉筠等設計N-最短路徑自動分詞和詞性自動標注一體化處理的模型,在分詞階段召回N個最佳結果作為候選集,最終的結果會在未登錄詞識別和同性標注之后,從這N個最有潛力的候選結果中選優得到。姜濤等對Kit提出基于實例的中文分詞一詞性標注模型,通過理論上定性分析和實驗證明得出如下優點:①對于訓練語料相關的文本(即與訓練語料相同、相似或同領域的文本),EBST系統的分詞一詞性標注結果具有極高的準確率;②EBST系統的分詞一詞性標注結果與訓練語料中的分詞一詞性標注具有很好的一致性。
1.2 歧義消除研究
1.2.1 歧義類型 歧義是指同一個字符串存在不止一種切分形式。歧義字段分為交集型歧義字段(交叉歧義)、組合型歧義字段(覆蓋歧義)兩種。據統計交叉歧義字段占到了總歧義字段的86%,所以解決交叉歧義字段是分詞要解決的重點與難點。
1.2.2 消歧方法 目前解決歧義消除的典型方法有:
?窮舉法。找出待分析字串所有可能的詞,該方法簡單,但時間開銷大,實用性不強。多數時候采用雙向匹配算法,正向匹配結果與逆向匹配結果一致,分詞正確,否則分詞有歧義。
?聯想一回溯法。李國臣等提出聯想一回溯法,先將待切分的漢字符號串序列依特征詞詞庫分割為若干子串,每個子串或為詞或為詞群(幾個詞組合而成的線性序列),然后利用實詞詞庫和規則庫再將詞群細分為詞。分詞時,利用了一定語法知識。聯想和回溯機制同時作用于分割和細分兩個階段,旨在有效解決歧義組合結構的切分問題。
?詞性標注。白拴虎利用馬爾可夫鏈的詞性標注技術結合分詞算法消解切分歧義,其他學者也有類似成果出現。
?EM(Expectation Maximization)法。王偉等提出基于EM思想,每個句子所對應的所有(或一定范圍內)的分詞結果構成訓練集,通過這個訓練集和初始的語言模型可以估計出一個新的語言模型,最終的語言模型通過多次迭代而得到。EM是極大似然原則下的建模方法,存在過度擬合問題。
?短語匹配與語義規則法。姚繼偉、趙東范在短語結構文法的基礎上,提出一種基于局部單一短語匹配和語義規則相結合的消歧方法。通過增加短語問的右嵌套規則和采用有限自動機的實現方式,解決了短語規則中存在冗余項的問題,提高了短語匹配效率和歧義消除類型的針對性。
1.3 未登錄詞研究
1.3.1 未登錄詞類型 未登錄詞大致包含兩大類:①新涌現的通用詞或專業術語等;②專有名詞,如中國人名、外國譯名、地名、機構名(泛指機關、團體和其他企事業單位)等。未登錄詞識別指正確識別未在詞典中出現的詞,未登錄詞出現極大影響了分詞的精度,如何解決未登錄詞識別問題成為分詞準確性的一大難題。
1.3.2 未登錄詞識別 識別第一類未登錄詞一般是先根據某種算法自動生成一張候選詞表(無監督的機器學習策略),再人工篩選出其中的新詞并補充到詞表中。該方法需要大規模語料庫支持。第二種常用辦法是:首先依據從各類專有名詞庫中總結出的統計知識(如姓氏用字及其頻度)和人工歸納出的專有名詞的某些結構規則,在輸入句子中猜測可能成為專有名詞的漢字串并給出其置信度,之后利用對該類專有名詞有標識意義的緊鄰上下文信息如稱謂,以及全局統計量和局部統計量參見下文,進行進一步鑒定。
歸納起來,未登錄詞解決方案有兩大類:專用方法與通用方法。專用方法主要針對特定領域的未登錄詞如中文人名、中文地名、中文機構名等識別,此類方法主要基于專有詞庫與規則展開。通用方法則重在解決所有類別的未登錄詞識別問題,前面列舉的機械分詞、理解分詞、統計分詞方法就是一種通用方法。
?專有名詞庫。對中文人名、地名、機構名等分別建立詞庫,該方法需要搜集特定資源并制定特定算法,信息集成難度大。
?啟發式規則。通過前后綴的修飾詞發現人名等未登錄詞。如“先生張三”,前面“先生”就是一個特定的修飾詞,一般后面緊接著是人名。鄭家恒將中文姓氏用字進行歸類,并利用分類信息建立規則以識別“小張”、“老李”之類的人名,并且有效地區分出“張”“李”等字的量詞用法。
?通用解決方案。不針對特定的未登錄詞設計算法,適用于各種類型的未登錄詞。前述三種主流分詞及組合算法則屬于通用解決方案。另外,呂雅娟等對中同人名、中國地名、外國譯名進行整體識別為目標,采用分解處理策略降低了整體處理難度,并使用動態規劃方法實現了最佳路徑的搜索,較好地解決了未登錄詞之間的沖突問題。秦文、苑春法提出了決策樹的未登錄詞識別方法,適用各種未登錄詞識別。
1.4 分詞與詞性標注評測
各種算法優劣需要在真實文本上以較大規模、客觀、定量的方式進行公開公正評測,它是推動中文信息處理研究的重要手段。楊爾弘等介紹了2003年“863中文與接口技術”漢語自動分詞與詞性標注一體化評測內容、評測方法、測試試題的選擇與產生、測試指標以及測試結果,各種測試結果以精確率、召回率、F值度量,并對參評系統的切分和標注錯誤進行了總結。
2 分詞系統研究
中文分詞系統是利用計算機對中文文本進行詞語自動識別的系統。一個高效的、性能優良的中文分詞系統應該具備幾個基本要素:分詞精度、分詞速度、系統可維護性、通用性、適應性。基于分詞系統特點,將分詞系統研究分為早期自動分詞系統與現代分詞系統研究兩部分。
2.1 早期自動分詞系統
20世紀80年代初有學者開始研究自動分詞系統,陸續有一些實用性系統出現。典型的有:CDWS分詞系統、漢語自動分詞系統-NEWS L321、書面漢語自動分詞專家系統等。由于受硬件條件及分詞技術影響,早期分詞實用系統在分詞速度與精度上還不夠理想,實用性不高。但這些實用分詞系統的出現為后續分詞系統設計打下了良好基礎。
2.2 現代分詞系統
2.2.1 中國科學院計算所漢語詞法分析系統 ICT-CLAS ICTCLAS(Institute of Computing Technology.Chinese Lexical Analysis System)是中國科學院計算技術研究所研制,主要功能包括中文分詞,詞性標注,命名實體識別,新詞識別;支持用戶同典,繁體中文,GBK、UTF-8、UTF-7、UNICODE等多種編碼格式。目前ICTCLAS3.0分詞速度單機為996KB/s,分詞精度為98.45%,AP[不超過200KB,各種淵典數據壓縮后不到3M。
2.2.2 海量智能分詞研究版 海量智能分詞系統較好地解決了分詞領域中的兩大技術難題:歧義切分和新詞的識別,分詞準確率達到99.6%,分同效率為2000萬字/分鐘。其中組合歧義的處理一直是分詞領域的難點中的難點,海量分詞系統能對絕大多數的組合歧義進行正確的切分。在新詞的識別上,針對不同類型采用不同識別算法,其中包括對人名、音譯詞、機構團體名稱、數量詞等新同的識別,其準確率比較高。
由于計算機硬件技術的大幅提升,分詞技術的逐步成熟,現在分詞系統在歧義消除、未登錄詞識別方面取得較大進展,分詞速度與精度明顯提高,實際性越來越強,為中文信息處理帶來極大方便。
關鍵詞:Web挖掘;文本分類;糧食輿情;輿情分析
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2013)10-2426-03
糧食是人類生存之本,糧食安全問題已經成為世界范圍內關注的最重要的問題之一。糧食信息數據量大、市場供求信息不明確、技術保障不到位等因素對我國糧食安全敲響了警鐘。2009年初中國爆發了幾十年來最嚴重的一場旱災,國內市場充斥著糧食供應可能趨緊并有可能大量進口糧油產品,以及全球糧油價格將由中國的大量進口而出現暴漲等網絡言論并造成了一定的影響。
因此如何引入新的技術手段對糧食情報信息實現有效監管,如何在海量的糧食網絡資源信息中,快速有效地挖掘蘊含有巨大潛在價值的糧情知識和信息,同時過濾掉大量無用的或不相關的糧情內容,準確地定位所需要的信息并自動分類,以保證糧食安全,已成為一項重要而迫切的研究課題。該文就基于Web挖掘在糧食情報分析中的應用進行了一些討論,并提出了一個基于Web挖掘的糧食輿情分析系統的框架。
1 糧食輿情系統模型設計
1.1 Web挖掘簡介和糧食輿情分析難點
Web挖掘是從大量Web文檔集D中發現隱含的模式W。如果將D看作輸入,P看作輸出,則Web文本挖掘的過程可看作從輸入到輸出的映射,即F:CP。網絡輿情是公眾利用互聯網表達或傳播的對熱點事件和問題的看法和所持觀點的較有社會影響力的態度。利用Web挖掘技術進行主題追蹤的輿情分析成為近年研究的熱點。任海果研究了主題事件的追蹤技術,實現了對熱點事件的發現、演化和趨勢分析[1]。Federico Neri等研究了1000個關于意大利公共廣播服務意見的Facebook網貼,得到了觀眾關注度和興趣度,并在開源情報信息和Web挖掘中得到應用[2]。Wang等利用垂直搜索技術收集互聯網上關于食品質量和安全的網絡信息,搭建了食品安全的網絡輿情分析系統,滿足了對食品安全網絡輿情的有效監管[3]。但由于糧食信息的特殊性和復雜性[4],使得糧食輿情信息的采集不夠全面,現有分析系統的分析不夠深入,總體來說糧食網絡輿情挖掘扔存在著一下難點:
1) 糧食輿情影響因素復雜。糧食輿情受多種因數的影響,和糧食直接相關的有糧食產量、銷售價格、產地、供求關系等因數,此外還有氣象條件、病蟲害的等間接影響著糧食安全,目前對糧食安全因素的挖掘不夠全面。
2) 糧食輿情信息的存儲位置和方式復雜,沒有統一的系統來采集各種形式的糧食信息。如糧食產業信息資源,如災害史、產量信息、氣象條件等,并發存儲在各家統計機構、管理機構、經營機構的網絡環境中,并且沒有統一的數據表示形式,沒有開發出聯合采集各家機構和組織中糧食數據的采集或者存儲方法和策略,不利于糧食輿情信息的整合和關聯分析。
3) 糧食輿情信息牽涉面廣,沒有融合各方面信息處理方面的優勢。在糧食信息處理方面,沒有實現統計學、模式識別、人工智能以及人工神經網絡等多種分析方法融合的決策策略。
4) 沒有提出預測和預防模型。現在的網絡輿情分析往往注重于熱點的發現,沒有為熱點事件建立等級級別區分管理和提供預防,同時對于發現的災難事件,沒有定量的分析災害危害的嚴重程度和預警級別。
利于輿情分析技術實現對糧食輿情信息的監控和管理成為一項緊迫的課題。為了解決以上問題,該文設計了一個糧食輿情分析架構模型。
1.2.2 輿情信息預處理模塊
輿情信息預處理模塊的主要功能是:對采集到的相關網頁進行去噪處理,如對廣告、注釋等噪聲數據進行清理,然后用統一的結構化的格式進行文本表示,然后利用分詞技術、特征提取技術、權重計算技術等進行特征選擇,構建糧食數據倉庫,利用分類器實現文本的分類。文本分類技術是整個預處理模塊的核心,其步驟描述如下:
本模型主要包括以下三個方面功能:
第一、通過對糧食輿情主題檢測進行熱點、敏感信息的發現,并針對特定的糧食安全主體,如糧食價格、供求關系、氣象條件等各個主題跟蹤技術處理,同時設計融合各方面因素的分析策略,及時發現安全隱患,并提供預警信息。
第二、對特定糧食安全事件的公眾所持觀點和關注度的分析,掌握事件發生、發展和加強的可視化時間序列,開發基于區域性輿情的分別匯總,提供實時的空間和時間的網絡輿情趨勢信息保障,有利于決策者實施適當的措施。
第三、利用災害預測、分析和預防的決策系統,對多發性的、危害嚴重的災害構建主動分析、及早預測和及時預警的機制,提供相關、相近主題的預防措施經驗。同時針對災害引起的其他方面的問題進行關聯分析,比如旱災有可能引起局部供求關系失衡,災害的嚴重性導致價格波動的范圍等建立定量的數據分析方法發現彼此存在的聯系。
2 結論
利用Web挖掘技術實現對糧食信息的監測,有利于充分海量的糧食網絡信息資源,能夠及時發現糧食熱點事件,為糧食安全提供預警服務。該文著重分析了當前糧食方面輿情分析系統存在的不足,提出了解決方案,構造了一個較完善的糧食輿情分析架構。通過各種算法的編碼和改進,實現本文所構建的系統是進一步研究的方向。
參考文獻:
[1] 任海果. 基于主題事件的輿情分析系統的設計與實現[D].北京:北京郵電大學,2012.
[2 ] Neri F, Aliprandi C,Capeci F,et al. Sentiment Analysis on Social Media[C]. Istanbul, Turke:Advances in Social Networks Analysis and Mining,2012:919-926.
[3]Wang Su, Liang Meiyu, Gao Tian and Du Junping. Realization of Product Quality and Food Security Internet Public Opinion Supervision System[C]. Jinan, China:Proceedings of the 8th World Congress on Intelligent Control and Automation, 2010:2736-2739.
[4] 龍方. 新世紀中國糧食安全問題研究[J]. 湖南農業大學學報:社會科學版,2007 (3):7-14.
[5] 孫立偉,何國輝,吳禮發. 網絡爬蟲技術的研究[J]. 電腦知識與技術,2010(15):4112-4115.
手語的識別不但具有深遠的研究意義,而且具有廣闊的實際應用前景,至少表現在以下幾個方面:(1)能夠使得聾啞人,尤其是使得文件程度比較低的聾啞人,使用手語和正常人交流;(2)從認知科學的角度,研究人的視覺語言理解的機制,提高計算機對人類語言的理解水平;(3)利用手勢控制VR中的智能化;(4)機器人的示范學習;(5)虛擬現實系統中的多模式接口等。
從手語輸入設備來看,手語識別系統主要分為基于數據手套的識別和基于視覺(圖像)的手語識別系統。基于數據手套的手語識別系統,是利用數據手套和位置跟蹤測量手勢在空間運動的軌跡和時序信息。這種方法的優點是系統的識別率高。缺點是打手語的人要穿戴復雜的數據手套和位置跟蹤器,并且輸入設備比較昂貴。利用數據手套等典型傳感設備的方法,臺灣大學的Liang等人利用單個VPL數據手套作為手語輸入設備,可識別臺灣手語課本中的250個基本詞條,識別率為90.5%。CMU的ChristopherLee和Xu在1995年完成了一個操縱機器人的手勢控制系統。Kadous用PowerGloves作為手語輸入設備,識別有95個孤立詞構成的詞匯集,正確率為80%。基于視覺的手勢識別是利用攝像機采集手勢信息,并進行識別。該方法的優點是輸入設備比較便宜,但識別率比較底,實時性較差,特別是很難用于大詞匯量的手語錄的識別。在基于視覺的方法方面,具有代表性的研究成果包括:1991年富士通實驗室完成了對46個手語符號的識別工作。Davis和Shah將戴上指間具有高亮標記的視覺手套的手勢作為系統的輸入,可識別7種手勢。Starner等在對美國手語中帶有詞性的40個詞匯隨機組成短句子識別率達到99.2%。Grobel和Assam從視頻錄像中是取特征,采用HMM技術識別262個孤立詞,正確率為91.3%。此外,Vogler與Metaxas將兩種方法結合用于美國手語識別,交互采用一個位置跟蹤器及三個互相垂直的攝像機作為手勢輸入設備,完成了53個孤立詞的識別,識別率為89.9%。
從識別技術來看,以往手語識別系統主要采用基于人工神經網絡(ANN)及基于隱Markov模型(HMM)等方法。神經網絡方法具有分類特性及抗干擾性,然而由于其處理時間序列的能力不強,目前廣泛用于靜態手勢的識別。著名的Fels的GloveTalk系統采用神經網絡方法作為識別技術。對于分析區間內的手語信號,通常采取HMM方法進行模型化。HMM是眾周知并廣泛使用的統計方法,一般拓撲結構下的HMM具有非常強的描述手語信號的時空變化能力,在動態手勢識別領域一直占有主導地址,如卡內基·梅隆大學的美國手語識別系統及臺灣大學的臺灣手語識別系統等均采用HMM作為系統的識別技術。另外,Grobel與Assam利用HMM識別由戴有色手套的用戶通過攝像機輸入的262個孤立手語詞,正確率為91.3%。然而正是由于HMM拓撲結構的一般性,導致這種模型在分析手語信號時過于復雜,使得HMM訓練和識別計算量過大。尤其是在連續的HMM中,由于需要計算大量的狀態概率密度,需要估計的參數個數較多,使得訓練及識別的速度相對較慢。因而以往手語識別系統所采用的HMM一般為離散HMM。
在我國,哈爾濱工業大學的吳江琴、高文等給出了ANN與HMM的混合方法作為手語的訓練識別方法,以增加識別方法的分類特性和減少模型的估計參數的個數。將ANN-HMM混合方法應用于有18個傳感器的CyberGlove型號數據手套的中國手語識別系統中,孤立詞識別率為90%,簡單語句級識別率為92%。接下來高文等又選取Cyberglove型號數據手套作為手語輸入設備,并采用了DGMM(dynamicGaussianmixturemodel)作為系統的識別技術,即利用一個隨時間變化的具有M個分量的混合GaussianN-元混合密度來模型化手語信號,可識別中國手語字典中274個詞條,識別率為98.2%。與基于HMM的識別系統比較,這種模型的識別精度與HMM模型的識別精度相當,其訓練和識別速度比HMM的訓練與識別速度有明顯的改善。他們為了進一步提高識別速度,識別模塊中選取了多層識別器,可識別中國手語字典中的274個詞條,識別率為97.4%。與基于單個DGMM的識別系統比較,這種模型的識別精度與單個DGMM模型的識別精度基本相同,但其識別速度比單個DGMM的識別速度有明顯的提高。2000年在國際上他們首次實現了5000詞以上的連續中國手語識別系統。另外,清華大學祝遠新、徐光等給出了一種基于視覺的動態孤立手勢識別技術,借助于圖像運動的變階參數模型和魯棒回歸分析,提出一種基于運動分割的圖像運動估計方法。基于圖像運動參數,構造了兩種表現變化模型分別作為手勢的表現特征,利用最大最小優化算法來創建手勢參考模板,并利用基于模板的分類技術進行識別。對12種手勢的識別率超過90%。在進一步研究中,他們又給出了有關連續動態手勢的識別,融合手勢運動信息和皮膚顏色信息,進行復雜背景下的手勢分割;通過結合手勢的時序信息、運動表現及形狀表現,提出動態手勢的時空表現模型,并提出基于顏色、運行以及形狀等多模式信息的分層融合策略抽取時空表觀模型的參數。最后,提出動態時空規整算法用于手勢識別。對12種手勢,平均識別率高達97%。
盡管已經實現了一些手語識別系統,但中國手語識別仍然面臨許多挑占性課題,如手勢不變特征的提取、手勢之間的過度模型、手語識別的最小識別基于、自動分割識別基元、詞匯量可擴展的
識別方法、手語識別的輔助信息、非特定人的手語識別問題、混合手指語和手勢語的手語識別以及中國手勢語語法等。
2手語的合成
手語的合成是使聾啞人理解正常語言表達的最有效手段,在手語合成中涉及以下幾個方面的問題:本文輸入部分、文本切分部分、文本的分析與手語碼轉換、手語庫的建立與基于手語詞的手語合成和手語的顯示。
文本輸入部分的功能是編輯輸入漢語句子。文本的切分將句子分成詞,標點符合單獨成詞。系統的分詞過程首先采用最大匹配發切分,然后利用第一步分詞結果通過查找詞條的歧義標志位調用詞規則,進而進行歧義校正。文本分析與手語碼轉換是手語合成的重要部分。雖然中國手語是參考漢語制定的,但是兩種語言的差別主要體現在四個方面:語言表達形態、基本詞匯、句子結構和構詞方法。在語言表達形態上:漢語是靠語音/聽覺交際的有聲語言。中國手語是一種靠動作/視覺交際的可視化語言。在基本詞匯上:漢語的詞匯大約有近五萬多個字組成,總的詞匯量可達十萬多個。中國手語的詞匯僅由3330個手勢語組成。中國手語的手勢詞語與漢語的詞語不完全存在一一對應的關系。在句子的語法結構上:手語句子與漢語句子的詞序有所不同,此外還省略了日常語言的某些詞如量詞。因此從漢語轉換到中國手語,主要解決的基本詞匯上的差別,同時考慮部分詞匯的差別。手語詞庫記錄了每個手語詞的手語運動信息,是手語合成的重要基礎。建立手語詞庫不僅工作量大,而且其質量也直接影響合成手語的結果。目前建立手語詞庫的方法有兩種:運動跟蹤方法和手工編輯方法。也有人綜合使用這兩種方式。運動跟蹤的方法是對腕關節及各手指關節的運動由數據手套獲取,肩關節與肘關節的運動由位置跟蹤傳感器獲取。而手工的方法是通過手工實驗來獲取手勢的參數。手語是一種可視語言,合成的手語只有顯示出來,觀察者才能“讀”取手語的信息與意義。手語的合成與顯示的實現的方法是:在VRML中有一部分是專門用于描述三維人體模型H-Anim標準,根據此標準對虛擬人的定義,一個虛人有47關節96個自由度,只要確定這96個自由度的角度值,應用運動學的方法和計算機圖形學的方法,就可以計算出虛擬人每個肢體的位置和方向,由此確定虛擬人的一個姿態。一個手語運動是一個人體手勢的序列,按照預定的時間間隔連續顯示一個手語運動中的每一個手勢,既可以生成對應的手語運動。
3手語的網絡通訊
當今,網絡通訊已經成為一種重要的通訊手段。研究啞語通訊,使聾啞人更好地融入網絡社會,感受科技的進步,更好地為他們服務并且方便了他們的生活。而手語作為一種動作語言,從廣義上講,它的應用不僅僅局限于聾啞人之間,聾啞人與非聾啞人之間,以及異語種間健常人的交流都可能應用到動作語言。從這個意義上,研究啞語的表達與通訊,具有更加廣泛的社會意義和實際應用前景。
更實現手語的網絡通訊,必須采用一種恰當的技術,它既能完成手語圖像動畫表示,它既能完成手語圖像的三維動畫表示,產生的數據、文件應該盡可能地短小,且便于壓縮,以利于網絡傳輸,提高網絡傳輸速度,避免網絡擁塞,實現實時反應。可以使用三維動畫技術來實現手語動畫,但一般的三維動畫技術形成的圖像雖然可能滿足生動逼真的要求,卻不適合網絡應用。因為它們用于圖像和動畫的文件格式是基于像素的,大小和行為都是固定的,為了得到特體的三維印象,至少需要兩幅圖解,這使傳輸量巨大且不能實現交互。同時,基于HTTP、HTML標準的WWW只能表示和傳遞二維信息,不能滿足對三維環境和三維顯像具有特定要求的應用需求。鑒于這種應用的特殊要求,提出采用VRML技術。VRML(VirtualRealityModelingLanguage)是一種可以在WWW上操作的三維圖形可視化工具,VRML2.0于1996年8月,它能夠靈活有效的方式,將二維、三維圖形和動畫、影片、聲響和音樂等多種效果調和在一起,形成一個綜合性的單一媒體,在環球網上創建動態世界。VRML本身不是一種傳統的編程語言,它是一種建模語言,有它自己的文件格式,人們可以用它描述三維場景。它不但能滿足圖像質量的要求,而且存儲和傳輸的只是物理的三維坐標,圖像本身是在本地生成的,這就大大減少了網絡傳輸量,也便于進行交互操作。同時,使用VRML技術生成的文件格式是ASCII碼,能被有效地壓縮,這就進一步減輕了網絡壓力,提高了傳輸效率,能夠實現手語圖像在網絡上高速傳輸。
另外,日本北海道大學的青木由直教授是研究手語通訊的倡導者,他通過建立一個不同語言的手語翻譯字典在Internet實現了日語和韓語的手語的聊天系統,進一步又研究了日本與中國的手語變換,手語手成的二維及三維動畫,以及帶有面部表情和嘴唇形狀的日語和韓語的手語聊天系統等。
4手的運動約束
人手的組成是一個非常復雜的結構。手是由骨頭,連接骨頭的韌帶,作為拉力動力服務的肌肉,運動時連接肌肉與骨頭的腱,以及覆蓋著保護的軟組織和皮膚。骨頭通過關節連接起來并且不能改變大小,肌肉產生扭矩和關節通過拉力運動都存在一塊或更多的肌肉群為其服務。因此,手的運動極其復雜的。由于真實手的生理特點,手的運動受到一些限制和約束。分析手的運動約束,就可以更好研究虛擬三維人手的運動。這樣一來就可以在有關手的動畫片中避免一些不真實的動作,使其更加擬人化。
機器學習作為人工智能的核心內容而存在。簡單來講就是在模擬人類行為的基礎上,通過學習來使計算機獲得更多的新技能、新知識,變得更加聰明更加智能,以此來實現其組織結構性能上的不斷優化。而機器學習作為一項極為智能化的過程,具體該如何實現屬于機器的特有“學習”行為呢?關于這一點,不同專業學者基于自身專業研究內容的不同,因此眾說紛紜,但總結來講,機器學習與推理過程之間的緊密關系還是得到了大多數學者的一致認同,因此,我們可以將機器學習策略分為事例學習、類比學習、傳授學習、機械學習。基于計算機功能的復雜性,機器學習涉及范圍較廣,是在多種知識、技術的交叉和共同作用下的結果,如,概率論、凸分析、統計學、算法復雜度理論、逼近論等多專業學科都涉及其中。就機器學習的分類來講我們可以將其分為以下幾種:(1)基于學習策略分類——機械學習、示教學習、演繹學習、類比學習、基于解釋的學習、歸納學習;(2)基于所獲取知識的表示形式分類——代數表達式參數、決策樹、形式文法、產生式規則、形式邏輯表達式、圖和網絡、框架和模式、計算機程序和其它的過程編碼、神經網絡、多種表示形式的組合;(3)按應用領域分類——自然語言、圖像識別、認知模擬、故障診斷、數據挖掘、專家系統、規劃和問題求解、網絡信息服務等領域;(4)綜合分類——經驗性歸納學習、分析學習、類比學習、遺傳算法、連接學習、增強學習;(5)學習形式分類——監督學習、非監督學習。
2機器學習在網絡安全中應用的意義
從機器學習的本質上來講,它是在大數據集中的基礎上通過對數學技術的引入,來構建機器行為模型,并通過不斷輸入新的數據資料,使機器在對各時段數據進行分析、運算的基礎上,來實現對未來的科學預測。就機器學習在網絡安全中應用的意義來講,主要體現在,機器學習基于自身極強的數據分析能力,在應用的過程中,可以幫助用戶來有效的對網絡安全事件作出及時的響應,尤其是在團隊安全技能不足的情況下,可以通過自動執行來替代團隊執行一些瑣碎的系統安全任務,有助于切實保障用戶的網絡安全。同時機器學習與傳統電子科技產品的融合,有助于清除產品中的惡意軟件,進而達到提升產品安全系數和運行穩定性的目的。
3機器學習在網絡安全中的應用
3.1安全入侵檢測
網絡安全入侵檢測是一種較早出現的計算機系統自我安全防護技術,其在不對網絡性能以及用戶的計算機操作構成影響的情況下,通過對網絡運行數據、安全日志等信息的分析和檢測,來判斷系統是否受到了安全威脅,以此來實現對計算機系統的實時保護。機器學習憑借自身性能的智能化,在安全入侵檢測中的應用,能夠有效提升網絡安全入侵檢測反應靈敏度,使防護系統可以在短短的幾秒鐘內,就準確的檢測到惡意攻擊位置,并予及時的進行準確、有效的防護,將惡意攻擊對系統的傷害降到最低。
3.2垃圾郵件檢測
機器學習在垃圾郵件檢測中的應用,根據其特殊的運行原理,我們可以將其看作是機器學習當中的分類問題。如,我們將郵件整體定義在{-1,1}之間,1就代表是垃圾郵件,而-1則說明是非垃圾郵件。而在對垃圾郵件進行文本分類問題定義的過程中,我們首先就需要通過一定的數值來對垃圾郵件的文本信息予以表達,并用向量來對各條消息進行表示,垃圾郵件的特征值則集中表現在各特征向量元素當中。同時,由于系統對于垃圾郵件的檢測屬于在線應用范疇,因此,機器學習對于郵件的自動識別和分類能夠極大的提升系統對于垃圾郵件的檢測效率,降低出錯率。
3.3域名檢測
作為互聯網重要的核心應用系統,域名系統基于自身對整個網絡安全所起到的重要意義,經常成為被黑客和不法分子惡意攻擊的目標。以往我們多通過防火墻、黑名單攔截、域名系統等的作用下,來實現對域名惡意攻擊的檢測。以機器學習為主的域名檢測則通常是在在線模型、離線模型的雙重組合作用下,來實現其域名檢測和防御功能。其中,離線模型,通過對惡意域名、合法域名訓練數據集的建立,來從中提取出基于區域的特征、基于DNS應答的特征、基于域名信息的特征等,之后通過X-Means聚類算法、決策樹等模型的構建,結合網站提供的已知域名數據集來對所構建的模型予以進一步的調整和驗證。以此來判斷其是否屬于惡意域名。在線監測模型,是在網絡系統對域名的自動查詢分析作用下,來對被檢測域名的主要特征、信息等進行獲取,其特征顯示已標記的則視為已知域名信息,進行繼續訓練操作,特征顯示無標簽的則視為未知域名,需要在分類器的作用下,對其是否屬于惡意域名進行繼續判斷。
參考文獻
[1]張蕾,崔勇,劉靜,江勇,吳建平.機器學習在網絡空間安全研究中的應用[J/OL].計算機學報,2018:1-35.
關鍵詞:支持向量機;信息熵;半監督學習;去噪;歐氏距離
中圖分類號 TP181 文獻標識碼:A 文章編號:1009-3044(2013)25-5705-03
隨著互聯網的發展,網絡上的數據呈幾何指數增長,而這些數據大部分是未標記的。已標記數據非常有限,如網絡上存在的新聞報道,面對海量的新聞種類,獲取有標記樣本十分困難,未標記數據不能為學習算法提供有效幫助。其他如圖像處理,文本分類,語音識別等領域,也存在這樣的情況。
監督學習利用一組足夠多的已標記的樣本來發現屬性和類別之間的聯系,使其可以達到理想的關聯模式,并用這些模式來觀測未知數據的類別屬性,但是大量的有標記樣本是非常難獲得的。無監督學習事先沒有明確的關聯模式,而是通過某種算法發現數據中存在的內在結構,典型的算法有聚類。半監督[1]學習是一種新的學習問題,結合了監督學習和無監督學習優點,適合已標記樣本小,具有大量未標記樣本的分類問題,它討論如何將龐大的未標記樣本和少量的已標記樣本結合起來從而提高學習器的泛化能力[2]。
現有的分類算法主要有支持向量機[3]、決策樹[4]、貝葉斯[5]、最近鄰[6]、神經網絡[7]和基于關聯規則[8]的分類等。支持向量機是Vapnik提出的一種新學習方法,根據結構風險最小化原則,以最大化分類間隔構造最優分類超平面,非常好的解決了數據中存在的非線性、高維性、局部極小點等問題。
分類后樣本可能含有噪聲數據,把這些數據加入有標識樣本重新訓練,一是會加大訓練時間,二是噪聲樣本會影響分類精度,在半監督分類模式下,循環加入有噪聲樣本會加劇降低預測準確率。
本文采用半監督支持向量機算法來訓練分類器,在已標記樣本少的情況下,用大量的未標記樣本提高分類器性能,并對分類后的數據提出了加權去噪的方法,建立了最優分類器。
1 支持向量機的構建
支持向量機通過確定最優分類面實現數據分類,可分別對線性和非線性數據進行分類,對于非線性的數據,需要通過核函數把數據映射到高維空間,讓數據在高維空間線性可分,從而實現對數據進行類別預測,實現分類。
以兩個類別的訓練樣本數據為例,設給定的樣本數據集D為[(X1,Y1),(X2,Y2),…,(XD,YD)],其中[Xi]是訓練元組,[yi]是相關聯的類標號,[yi∈{+1,-1},i=1,2,...,n]代表樣本類別,[K(?)]為核函數。
2 噪聲過濾機制
2.1 噪聲數據的影響
由于受到噪聲的干擾,影響支持向量機的性能。為獲得高精度的分類結果,必須減少噪聲干擾,提高訓練樣本正確率,消除噪聲因素對分類結果的影響。在此基礎上,提出了對預測好的樣本去噪的方法,減少數據中存在的噪聲樣本數量,避免對重新生成的分類器有較大影響,提高分類準確率。
在所有算法中,新產生的已標識數據直接加入到已標識樣本集合中,會加入正確的數據,同樣也會給訓練集帶來噪聲數據,隨著循環次數不斷增加,積累的噪聲數據會影響更新后的分類器的性能[9]。在已標識樣本少的情況下,分類器不是最優的,機器自動分類時,可能會錯分未標記樣本,把分類后的樣本直接加入到訓練集重新訓練,會使分類器精度下降。引入噪聲過濾機制,提高分類精度。
2.2 基于信息熵權值的確定
2.4 基于加權歐氏距離的去噪方法
每個類為一個簇,分類后結果簇內的相似度高,而簇間的相似度低。基本思想是:選擇[k]個對象為初始點,每個初始對象代表一個簇的中心或平均值,對于剩余的對象,用加權歐氏距離計算每個對象到簇中心的距離,最小的屬于該簇則分類正確,如果距離大于到其他簇中心的距離,則該對象不屬于該簇即分類錯誤,是噪聲數據。
傳統的方法中,沒有考慮對象中每個屬性所體現的不同作用,而是將它們等同看待,用歐氏距離只能計算數據間相隔的遠近,不能準確地表示簇間相似度,因為相似不僅依賴樣本間的相近程度,而且還依賴于樣本間的內在性質[10]。
3 實驗結果
實驗所用數據從UCI標準數據集中選取,選用四個數據集來進行實驗,為了避免不平衡數據對分類性能的影響,在每個數據集的類別中選取兩類樣本數據,樣本數目平衡且比較多,對構造的支持向量機分類器訓練和測試。所用實驗詳細數據集如表1所示:
分別選取每個數據集中大致選取80%的樣本作為訓練集,剩余20%數據作為測試集。用支持向量機構建分類器,做測試時,把每個數據集分為N等份。在80%的訓練集中首先選取20%作為初始已標識樣本用來訓練分類器,剩余60%數據分為6等分。把類標號去掉,作為訓練時的未標識樣本。數據集Abalone有1323個數據,選取324個數據作為初始訓練集,把其中800個數據分為4分作為訓練分類器時所用數據,留取200個數據作為測試集。在數據集bank有1042個數據,選取242個作為已標識樣本訓練分類器,在訓練過程中,每次對100個數據進行分類,對分類后的數據進行加權去噪后加入訓練集,直到未標識樣本分類完成。對20%的數據測試后加入人工反饋的方法,把分類錯誤的樣本數據人為的加入正確的類別。表2給出了支持向量法算法在加權去噪前后的比較。
實驗結果表明用加權去噪的半監督支持向量機訓練方法提高了分類精度,優于只使用支持向量機算法,初始已標記樣本少的情況下,在訓練分類器過程中用去噪的半監督思想多次加入未標識樣本來擴大訓練集,優化分類器性能,提高分類精度。
4 結論
該文提出一種信息熵加權去噪的方法,刪除分類有誤的數據,現實數據中,存在大量的未標識數據,而已標識數據較少的情況下,不利于對數據進行分類,該文用半監督思想,先用已標識樣本訓練分類器,然后用大量的未標識樣本來提高分類器性能,由于分類后的樣本中可能存在噪聲數據,用基于加權歐氏距離算法對樣本進行去噪,選取置信度較高的樣本加入訓練集重新訓練。在四個UCI數據集上的實驗結果表明,該文提出的方法效果明顯,具有良好的預測精度。
參考文獻:
[1] David R Anderson,Dennis J Sweeney.Statistics for business and economics[M].Beijing:China Machine press,2010:327-330.
[2] 門昌騫,王文劍.一種基于多學習器標記的半監督SVM學習方法[J].廣西師范大學學報,2008,26(1).
[3] Zhang Xuewen,Li Yangjun. Self-adjusted particle swarm optimization algorithm based economic load dispatch of power system[J].Power System Technology,2006,30(18):8-13.
[4] Bissantz N,Hagedorn J.Data mining [J].Business and Information Systems Engineering,2009(1):118-122.
[5] Jing Y,Pavlovic V,Rehg J.Boosted Bayesian network classifiers[J].Machine Learning,2008,73(1):155-184.
[6] 陳黎飛,郭躬德.最近鄰分類的多代表點學習算法[J].模式識別與人工智能,2011,24(6).
[7] Janssens D,Wets G,Brijs T,et al.Improving the performance of a multi-agent rule-based model for activity pattern decisions using Bayesian networks[J].Journal of the Transportation Research Board,2004,1894(1):75-83.
[8] 張揚,周子勇.基于關聯規則的面向對象高分辨率影像分類[J].遙感技術與應用,2012,27(3).