NBlà phươngpháp phânloạidựavào xácsuấtđược sửdụngrộngrãitrong lĩnh vựcmáyhọc[Mitchell, 1996][Joachims,1997][Jason, 2001]đượcsửdụnglầnđầu tiêntronglĩnhvựcphânloạibởiMaronvàonăm1961[Maron,1961]sauđótrởnên phổ biến dùng trong nhiều lĩnh vựcnhư trong các công cụ tìm kiếm[Rijsbergen et al,1970],cácbộlọcmail[Sahamietal,1998]...
13
2.2.4.1. Ýtưởng
Ý tưởngcơbản của cáchtiếp cậnNaïve Bayes làsửdụng xácsuất có điềukiện giữatừvà chủđề đểdựđoán xácsuất chủđề củamộtvăn bản cầnphân loại.Điểm quantrọngcủaphươngphápnàychínhlàởchỗgiảđịnhrằngsựxuấthiệncủatấtcả cáctừtrongvănbảnđềuđộclậpvớinhau.NhưthếNBkhôngtậndụngđượcsựphụ thuộccủanhiềutừvàomộtchủđềcụthể
x,d i x,d i H
BAYES (d′)=argmax
∑ Pr(C′). ∏ Pr(wi|C′) =argmax ∑ Pr(C′). ∏ Pr(w|C′)
Giả định đó làm cho việc tính toán NB hiệu quả và nhanh chóng hơn các phương pháp khác với độ phức tạp theo số mũ vì nó không sử dụng việc kếp hợp cáctừđểđưaraphánđoánchủđề.
2.2.4.2. Côngthứcchính
Mục đích chính là tính được xác suất Pr(Cj,d ′), xác suất để văn bản d ′ nằm tronglớp Cj.Theoluật Bayes, vănbản d ′ sẽ đượcgán vàolớp Cj nào cóxác suất
Pr(Cj,d ′)caonhất.Côngthứcsaudùngđểtính Pr(Cj,d ′) [Joachims,1997]
d′ Pr(Cj). ∏ Pr(wi|Cj) i=1 d′ Cj∈C C′∈C i=1 Pr(Cj). ∏ Pr(w|Cj)TF(w,d′) w∈F TF(w,d′) Cj∈C C′∈C w∈F Với TF(w
i ,d′)làsốlầnxuấthiệncủatừ w
i trongvănbản d′
d ′ làsốlượngcáctừtrongvănbản d ′
w
i làmộttừtrongkhônggianđặctrưng F vớisốchiềulà F
Pr(C
j )được tính dựa trên tỷ lệ phầntrăm của số văn bản mỗi lớptương ứ
ng
trongtậpdữliệuluyện: Pr(C
j ) = C j C = Cj ∑ C′ C′∈C 14 Pr(w
i |Cj ) đượctínhsửdụngphépướclượngLaplace[Napnik,1982]:
Pr(w i |Cj ) = 1+TF(w i ,Cj ) F + ∑ TF(w′,Cj) w′∈F
Ngoài ra còn có các phương pháp NB khác có thể kể ra như sau ML Naive Bayes, MAP Naive Bayes, Expected Naive Bayes, Bayesian Naive Bayes [Jason, 2001]. Naive Bayes là một công cụ rất hiệu quả trong một số trường hợp. Kết quả cóthể rấttồinếudữ liệuhuấnluyện nghèonànvàcác thamsốdựđoán (nhưkhông gian đặc trưng) có chất lượng kém. Nhìn chung đây là một thuật toán phân loại tuyếntínhthíchhợptrongphân loạivănbảnnhiềuchủđề.NBcóưuđiểmlàcàiđặt đơn giản,tốcđộnhanh, dễdàng cậpnhậtdữliệu huấnluyệnmớivà cótínhđộclập caovớitậphuấnluyện,cóthểsửdụngkếthợp nhiềutậphuấnluyệnkhácnhau.Tuy nhiên NB ngoàigiả định tính độc lập giữacác từ cònphải cần đến một ngưỡng tối ưu để cho kết quả khả quan. Nhằm mục đích cải thiện hiệu năng của NB, các phương pháp như multiclass-boosting, ECOC [Berger, 1999] [Ghani,2000] có thể đượcdùngkếthợp.
2.2.5. Neural Network (NNet)
Nnetđượcnghiêncứumạnhtronghướngtrítuệnhântạo.Wienerlàngườiđã sử dụngNnetđểphân loạivănbản,sửdụng2hướng tiếpcận: kiếntrúcphẳng(không sửdụnglớpẩn)vàmạngnơron3lớp(baogồmmộtlớpẩn)[Wieneretal,1995]
Cả hai hệ thống trên đều sử dụng một mạng nơron riêng rẽ cho từng chủ đề, NNet học cách ánh xạ phi tuyến tính những yếu tố đầu vào như từ, hay mô hình vectorcủamộtvănbảnvàomộtchủđềcụthể.
Khuyết điểm của phương pháp NNet là tiêu tốn nhiều thời gian dành cho việc huấnluyệnmạngnơron.
2.2.5.1. Ýtưởng
Mô hình mạng neural gồm có ba thành phần chính như sau: kiến trúc
(architecture), hàm chi phí (cost function), và thuật toán tìm kiếm (search
15
nhập(inputs)đếngiátrịxuất(outputs).
Kiếntrúc phẳng(flatarchitecture) :Mạngphân loạiđơngiảnnhất (còngọi là mạng logic) có một đơn vị xuất là kích hoạt kết quả (logistic activation) và không cólớpẩn,kếtquảtrảvềởdạnghàm(functionalform)tươngđươngvớimôhìnhhồi quy logic. Thuật toán tìm kiếm chia nhỏ mô hình mạng để thích hợpvới việc điều chỉnh mô hình ứng với tập huấn luyện. Ví dụ, chúng ta có thể học trọng số trong mạng kết quả (logistic network) bằng cách sử dụng không gian trọng số giảm dần (gradient descent in weight space) hoặc sử dụng thuật toán interated-reweighted leastsquareslàthuậttoántruyềnthốngtronghồiquy(logisticregression).
Kiến trúc mô dun (modulararchitecture ): Việc sử dụngmột hay nhiều lớp ẩn
của những hàm kích hoạt phi tuyến tính cho phép mạng thiết lập các mối quan hệ giữanhữngbiếnnhập vàbiếnxuất.Mỗilớpẩn họcđểbiểudiễn lạidữliệu đầuvào bằng cách khám phá ra những đặc trưng ở mứccao hơn từ sự kết hợp đặc trưng ở mứctrước.
Hình 2. 3. Hình Kiến trúc mô đun (Modular Architecture) . Các kết quả của từng mạng con sẽ là giá trị đầu vào cho mạng siêu chủ đề và được nhân lại với
nhau để dự đoán chủ đề cuối cùng .
2.2.5.2. Côngthứcchính
Trong công trình củaWiener et al (1995) dựatheo khung củamô hình hồi quy, liên quan từđặc trưng đầu vào cho đến kết quả gán chủ đề tương ứngđược học từ
tậpdữliệu.Dovậy,đểphântíchmộtcáchtuyếntính,tácgiảdùnghàmsigmoidsau làmhàmtruyềntrongmạngneural:
p
= 1 1+e−η
Trong đó, η = βTx là sự kết hợp của những đặc trưng đầu vào và p phải thỏa điềukiện p ∈ (0,1)
2.2.6. Linear Least Square Fit (LLSF)
LLSF là một cách tiếp cận ánh xạ được phát triển bởiYang và Chute vào năm 1992 [Yang & Chute, 1992] Đầu tiên, LLSF được Yang và Chute thử nghiệm tronglĩnhvựcxácđịnhtừđồngnghĩasauđósửdụngtrongphânloạivàonăm1994 [Yang & Chute, 1994]. Các thử nghiệm củaỴang cho thấy hiệu suấtphân loại của LLSFcóthểngangbằngvớiphươngphápkNNkinhđiển.
2.2.6.1. Ýtưởng
LLSF sửdụng phương pháp hồi quyđể học từ tập huấnluyện và các chủ đềcó sẵn [Yang & Chute, 1994]. Tập huấn luyện được biểu diễn dưới dạng một cặp vectorđầuvàovàđầuranhưsau:
Vectorđầuvàomộtvănbảnbaogồmcáctừvàtrọngsố
Vector đầu ra gồm các chủ đề cùng với trọng số nhị phân củavăn bản ứngvới vectorđầuvào
Giải phương trìnhcác cặp vector đầu vào/đầu ra, ta sẽ được ma trậnđồng hiện củahệsốhồiquycủatừvàchủđề(matrixofword-categoryregressioncoefficients)
2.2.6.2. Côngthứcchính F LS =argmin F A− B F 2 Trongđó
A, Blàmatrậnđại diệntậpdữliệuhuấn luyện(cáccộttrong matrậntương ứnglàcácvectorđầuvàovàđầura)
FLSlàmatrậnkếtquảchỉra mộtánhxạtừmộtvăn bảnbấtkỳvàovectorc
chủđềđãgántrọngsố
17
Nhờ vàoviệc sắpxếp trọngsố củacácchủ đề, tađược mộtdanh sáchchủđề có thểgán chovăn bảncần phânloại. Nhờ đặt ngưỡnglên trọngsố củacác chủđề mà ta tìm được chủ đề thích hợp cho văn bản đầu vào. Hệ thống tự động học các ngưỡng tối ưu cho từng chủ đề, giống với kNN.Mặc dù LLSF và kNN khác nhau về mặt thống kê, nhưng ta vẫn tìm thấy điểm chung ở hoạt động của hai phương pháplàviệchọcngưỡngtốiưu.
2.2.7. Centroid- based vector
Là một phương pháp phân loại đơn giản, dễ cài đặt và tốc độ nhanh do có độ phứctạptuyếntínhO(n)[Han, Karypis2000]
2.2.7.1. Ýtưởng
Mỗi lớp trong dữ liệu luyện sẽ được biểu diễn bởi một vector trọng tâm. Việc xácđịnh lớpcủamộtvăn bảnthửbất kìsẽ thôngquaviêc tìmvectortrọng tâmnào gần với vector biểu diễn văn bản thử nhất. Lớp của văn bản thử chính là lớp mà vectortrọngtâmđạidiện.Khoảngcáchđượctínhtheođộđocosine.
2.2.7.2. Côngthứcchính
Côngthứctínhvectortrọngtâmcủalớpi 1 {i} d
j
∈{i}
Độđokhoảngcáchgiữavector x và C
i j cos ( ) = x⋅C i x * C i Trongđó:
x làvectorvănbảncầnphânloại
Ci =
{i}làtậphợpcácvănbảnthuộcchủđềC i Chủđềcủa x làC xthõa cos(x,C x )=argmax(cos(x,C i )) 18 2.3.Kết luận
Các thuậttoán phânloại trên từthuật toán phânloại 2 lớp(SVM)đến các thuật toán phânloại đa lớp(kNN) đềucó điểm chunglà yêucầu văn bản phảiđược biểu diễn dưới dạng vector đặc trưng. Ngoài ra các thuật toán như kNN,NB,LLSF đều phảisửdụngcác ướclượng thamsốvàngưỡng tốiưutrong khiđóthuậttoán SVM có thể tự tìm ra các tham số tối ưu này. Trong các phương pháp SVM là phương pháp sửdụngkhông gianvector đặctrưng lớnnhất (hơn10000chiều) trongkhi đó chỉlà2000đốivới NB,2415chokNNvàLLSF,1000choNnet[Yang,1997].Thời gian huấn luyện cũng khác nhau đối với từng phương pháp, Nnet (sử dụng mỗi mạng tương ứng một chủ đề) vàSVM là hai phương pháp có thờigian huấn luyện lâu nhất trong khi đó kNN,NB,LLSF và Centroid là các phương pháp có tốc độ (thờigianhuấnluyện,phânloại)nhanhvàcàiđặtdễdàng.
Về hiệu suất, dựa vào thử nghiệm của Yang [Yang, Liu, 1997] trên tập dữ liệu Reuter-21578vớihơn90chủđềvàtrên7769vănbản,tacóthểsắpxếpcácphương phápphânloạivăn bảntheothứtựnhưsauSVM>kNN>>{LLSF,NB,Nnet}. Tuy nhiên kết quả trên có thể không còn đúng khi áp dụng thử nghiệm phân loại trên TiếngViệt.Cáclýdochínhnhưsau:
Thứ nhất: khôngcómộttậpdữliệuchuẩndànhriêngchoviệcphânloại.
Thứ hai: hiệntại chưacó chuẩnthống nhấtnào chovấn đềfont vàdấu câucho TiếngViệt.
ngại dobị phụ thuộcnhiều vào cácphương pháp tách từ.Trong khi đó cácphương phápnàykhôngđạtđượchiệuquảcaonhưtrongtiếngAnh.
Để có thể áp dụng các phương pháp phân loại văn bản đã được sử dụng thành côngtrênnhiềungônngữ(Anh, Pháp,…)nhưđãliệtkêtrên, điềukiệntiênquyếtlà phải tìmramột phương pháptách từtốtđể thôngqua đócải thiệnhiệu quảcủa các thuật toán phân loại.Trong tiếng Anh, đơnvị nhỏ nhất là “từ” nên việc tách từ trở nên khá đơn giản, trong khi đối với một số ngôn ngữ như tiếng Hoa, Nhật, Hàn Quốc... vàTiếngViệtcủachúngtaphảixửlýhoàntoànkhácdođơnvịnhỏnhấtlại
19
là “tiếng”. Do đó, trước khi thực hiện phân loại, chúng ta phải tìm hiểu về các hướng tiếp cận cho việc tách từ tiếng Việt, một vấn đề khá thú vị không kém các phươngphápphânloại.
20
Chương 3
CÁC PHƯƠNG PHÁP
TÁCH TỪ TIẾNG VIỆT
HIỆN NAY
TạisaotáchtừtiếngViệtlà mộttháchthức? SosánhgiữatiếngViệtvàtiếngAnh Nhậnxét
Bốicảnhcácphương pháptáchtừhiệnnay Bốicảnhchung
Cáchướngtiếpcậndựatrêntừ Cáchướngtiếpcậndựatrênkýtự
Mộtsốphương pháptáchtừtiếngViệthiệnnay
PhươngphápMaximumMatching:forward/backward Phươngphápgiảithuậthọccảitiến
MôhìnhtáchtừbằngWFSTvàmạngNeural Phươngphápquyhoạchđộng
Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet vàthuậttoánditruyền
Kếtluận
21
Được xếp là loại hình đơn lập
(isolate) hay còn gọi là loại hình phi hình thái, không biến hình, đơntiết
Từ không biến đổi hình thái, ý nghĩangữphápnằmởngoàitừ Ví dụ : Chịngã em nâng vàEm ngã
chịnâng
Phương thức ngữ pháp chủ yếu: trậttựtừvàhưtừ.
Ví dụ: Gạo xay và Xay gạo; đang học và học rồi ; “nó bảo sao không tới”, “sao không bảo nó tới”,“saokhôngtớibảonó”.. Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng
Tồn tại loại từ đặc biệt “ từ chỉ loại” (classifier) hay còn gọi là
Là loại hình biến cách (flexion) hay còn gọi là loại hình khuất chiết
Từ có biến đổihình thái, ý nghĩa ngữphápnằmởtrongtừ.
Vídụ:IseehimvàHeseesme.
Phương thức ngữ pháp chủ yếu là:phụtố.
Vídụ:studyingvàstudied
Kết hợp giữa các hình vị là chặt chẽ, khó xác định, được nhận diện bằngkhoảng trắnghoặc dấu câu.
Hiện tượng cấutạo bằng từ ghép thêm phụ tố (affix) vào gốc từ là
Chương 3. CÁC PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT HIỆN NAY
3.1.Tại saotách từ tiếngViệt là một thách thức? 3.1.1. So sánh giữa tiếng Việt và tiếng Anh
Dựa vào các đặc điểm của tiếng Anh và tiếng Việt được trình bày trong [Đinh Điền, 2004], chúng em lập bảng so sánh các đặc điểm chủ yếu giữa tiếng Anh và
22
phó danh từ chỉ loại kèm theo với danh từ, như: cái bàn, cuốn sách, bứcthư,conchó, consông,
rấtphổbiến.
Ví dụ: anticomputerizational ( anti- compute-er-ize-ation-al)
vìsao…
Có hiện tượng láy và nói lái trongtiếngViệt
Vídụ:lấplánh, lunglinh
Hiện đại -> hại điện,thầy giáo->
tháogiầy…
Bảng3.1.SosánhgiữatiếngViệtvàtiếngAnh 3.1.2. Nhận xét
TiếngViệtlàloạihìnhphihìnhthái nênviệcphânbiệtloạitừ(danhtừ,động từ, tínhtừ…)vàýnghĩatừlàrấtkhó,chodùcósửdụngtừđiển.
Việctiềnxửlývănbản (táchtừ,táchđoạn,táchcâu…)sẽthêmphứctạpvới phầnxửlýcáchưtừ,phụtừ,từláy…
Phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tínhxácsuấtxuấthiệncủatừcóthểkhôngchínhxácnhưmongđợi
Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng. Điều này khiến choviệcphântíchhìnhthái(táchtừ)tiếngViệttrởnênkhókhăn.Việc nhận diện ranh giớitừ là quan trọng làm tiền đề cho các xử lý tiếp theo sau đó,như:kiểmlỗichínhtả,gánnhãntừloại,thốngkêtầnsuấttừ,…
Vìgiữa tiếngAnhvà tiếngViệtcó nhiềuđiểmkhác biệtnên chúngtakhông thể ápdụngynguyêncácthuậttoántiếngAnhchotiếngViệt
3.2.Bối cảnhcác phương pháptách từ hiện nay 3.2.1. Bối cảnh chung
Dựa trên cơ sở thống kê các phương pháp tách từ trên tiếng Hoa của [Foo and Li, 2004], chúng em xin trình bày bối cảnh các phương pháp tách từ hiện nay cho tiếngViệtnhưsau:
23
Chinese segmentation Vietnamese segmentation
Character-based Word-based
Lê An Hà (03) H. Nguyễn et al (05)
Hybrid
Đinh Điền et al (01)
Luận văn này (05) Full word / Phrase Component
Shortest Match Longest Match Overlap Match
Hình3.4.CáchướngtiếpcậncơbảntrongtáchtừtiếngHoavàcáchướng tiếpcậnhiệntạiđượccôngbốtrong táchtừtiếngViệt
3.2.2. Các hướng tiếp cận dựa trên từ (Word-based approaches)
Hướng tiếpcận dựatrên từvớimụctiêu táchđược cáctừ hoànchỉnh trongcâu. Hướng tiếpcận nàycó thểchia ralà bahướng: dựatrên thốngkê (statistics-based),
dựa trên từ điển (dictionary-based) và hydrid (kết hợp nhiều phương pháp với hy vọngđạtđượcnhữngưuđiểmcủacácphươngphápnày)
3.2.2.1. CáccôngtrìnhtáchtừtiếngHoa
Hướng tiếp cận dựa trên thống kê (statistics-based) dựa trên các thông tin như tần số xuất hiện của từ trong tập dữ liệu huấn luyện đầu. Hướng tiếp cận này đặc
24
biệtdựa trêntậpngữ liệuhuấn luyện,nhờvậy nênhướng tiếpcận nàytỏ rarấtlinh hoạtvàhữudụngtrongnhiềulãnhvựcriêngbiệt[Nieetal.,1996].
Hướng tiếp cận dựa trên từ điển (dictionary-based) thường được sử dụng trong
phải khớp với các từ trong từ điển. Những hướng tiếp cận khác nhau sẽ sử dụng nhữngloạitừđiểnkhácnhau. Hướngtiếpcận “fullword/ phrase”cần sửdụngmột từđiểnhoàn chỉnhđểcóthểtách đượcđầyđủcác từhoặcngữtrongvăn bản,trong