Naïve Bayes (NB)

Một phần của tài liệu Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử (Trang 34 - 115)

NBlà phươngpháp phânloạidựavào xácsuấtđược sửdụngrộngrãitrong lĩnh vựcmáyhọc[Mitchell, 1996][Joachims,1997][Jason, 2001]đượcsửdụnglầnđầu tiêntronglĩnhvựcphânloạibởiMaronvàonăm1961[Maron,1961]sauđótrởnên phổ biến dùng trong nhiều lĩnh vựcnhư trong các công cụ tìm kiếm[Rijsbergen et al,1970],cácbộlọcmail[Sahamietal,1998]...

13

2.2.4.1. Ýtưởng

Ý tưởngcơbản của cáchtiếp cậnNaïve Bayes làsửdụng xácsuất có điềukiện giữatừvà chủđề đểdựđoán xácsuất chủđề củamộtvăn bản cầnphân loại.Điểm quantrọngcủaphươngphápnàychínhlàởchỗgiảđịnhrằngsựxuấthiệncủatấtcả cáctừtrongvănbảnđềuđộclậpvớinhau.NhưthếNBkhôngtậndụngđượcsựphụ thuộccủanhiềutừvàomộtchủđềcụthể

x,d i x,d i   H

BAYES (d′)=argmax 

   ∑ Pr(C′). ∏ Pr(wi|C′) =argmax    ∑ Pr(C′). ∏ Pr(w|C′)

Giả định đó làm cho việc tính toán NB hiệu quả và nhanh chóng hơn các phương pháp khác với độ phức tạp theo số mũ vì nó không sử dụng việc kếp hợp cáctừđểđưaraphánđoánchủđề.

2.2.4.2. Côngthứcchính

Mục đích chính là tính được xác suất Pr(Cj,d ′), xác suất để văn bản d ′ nằm tronglớp Cj.Theoluật Bayes, vănbản d ′ sẽ đượcgán vàolớp Cj nào cóxác suất

Pr(Cj,d ′)caonhất.Côngthứcsaudùngđểtính Pr(Cj,d ′) [Joachims,1997]

d′  Pr(Cj). ∏ Pr(wi|Cj)  i=1 d′ Cj∈CC′∈C i=1   Pr(Cj). ∏ Pr(w|Cj)TF(w,d′)  w∈F TF(w,d′) Cj∈CC′∈C wF  Với TF(w

i ,d′)làsốlầnxuấthiệncủatừ w

i trongvănbản d

d ′ làsốlượngcáctừtrongvănbản d ′

w

i làmộttừtrongkhônggianđặctrưng F vớisốchiềulà F

Pr(C

j )được tính dựa trên tỷ lệ phầntrăm của số văn bản mỗi lớptương ứ

ng

trongtậpdữliệuluyện: Pr(C

j ) = C j C = CjC′ C′∈C 14 Pr(w

i |Cj ) đượctínhsửdụngphépướclượngLaplace[Napnik,1982]:

Pr(w i |Cj ) = 1+TF(w i ,Cj ) F + ∑ TF(w′,Cj) w′∈F

Ngoài ra còn có các phương pháp NB khác có thể kể ra như sau ML Naive Bayes, MAP Naive Bayes, Expected Naive Bayes, Bayesian Naive Bayes [Jason, 2001]. Naive Bayes là một công cụ rất hiệu quả trong một số trường hợp. Kết quả cóthể rấttồinếudữ liệuhuấnluyện nghèonànvàcác thamsốdựđoán (nhưkhông gian đặc trưng) có chất lượng kém. Nhìn chung đây là một thuật toán phân loại tuyếntínhthíchhợptrongphân loạivănbảnnhiềuchủđề.NBcóưuđiểmlàcàiđặt đơn giản,tốcđộnhanh, dễdàng cậpnhậtdữliệu huấnluyệnmớivà cótínhđộclập caovớitậphuấnluyện,cóthểsửdụngkếthợp nhiềutậphuấnluyệnkhácnhau.Tuy nhiên NB ngoàigiả định tính độc lập giữacác từ cònphải cần đến một ngưỡng tối ưu để cho kết quả khả quan. Nhằm mục đích cải thiện hiệu năng của NB, các phương pháp như multiclass-boosting, ECOC [Berger, 1999] [Ghani,2000] có thể đượcdùngkếthợp.

2.2.5. Neural Network (NNet)

Nnetđượcnghiêncứumạnhtronghướngtrítuệnhântạo.Wienerlàngườiđã sử dụngNnetđểphân loạivănbản,sửdụng2hướng tiếpcận: kiếntrúcphẳng(không sửdụnglớpẩn)vàmạngnơron3lớp(baogồmmộtlớpẩn)[Wieneretal,1995]

Cả hai hệ thống trên đều sử dụng một mạng nơron riêng rẽ cho từng chủ đề, NNet học cách ánh xạ phi tuyến tính những yếu tố đầu vào như từ, hay mô hình vectorcủamộtvănbảnvàomộtchủđềcụthể.

Khuyết điểm của phương pháp NNet là tiêu tốn nhiều thời gian dành cho việc huấnluyệnmạngnơron.

2.2.5.1. Ýtưởng

Mô hình mạng neural gồm có ba thành phần chính như sau: kiến trúc

(architecture), hàm chi phí (cost function), và thuật toán tìm kiếm (search

15

nhập(inputs)đếngiátrịxuất(outputs).

Kiếntrúc phẳng(flatarchitecture) :Mạngphân loạiđơngiảnnhất (còngọi là mạng logic) có một đơn vị xuất là kích hoạt kết quả (logistic activation) và không cólớpẩn,kếtquảtrảvềởdạnghàm(functionalform)tươngđươngvớimôhìnhhồi quy logic. Thuật toán tìm kiếm chia nhỏ mô hình mạng để thích hợpvới việc điều chỉnh mô hình ứng với tập huấn luyện. Ví dụ, chúng ta có thể học trọng số trong mạng kết quả (logistic network) bằng cách sử dụng không gian trọng số giảm dần (gradient descent in weight space) hoặc sử dụng thuật toán interated-reweighted leastsquareslàthuậttoántruyềnthốngtronghồiquy(logisticregression).

Kiến trúc dun (modulararchitecture ): Việc sử dụngmột hay nhiều lớp ẩn

của những hàm kích hoạt phi tuyến tính cho phép mạng thiết lập các mối quan hệ giữanhữngbiếnnhập vàbiếnxuất.Mỗilớpẩn họcđểbiểudiễn lạidữliệu đầuvào bằng cách khám phá ra những đặc trưng ở mứccao hơn từ sự kết hợp đặc trưng ở mứctrước.

Hình 2. 3. Hình Kiến trúc mô đun (Modular Architecture) . Các kết quả của từng mạng con sẽ là giá trị đầu vào cho mạng siêu chủ đề và được nhân lại với

nhau để dự đoán chủ đề cuối cùng .

2.2.5.2. Côngthứcchính

Trong công trình củaWiener et al (1995) dựatheo khung củamô hình hồi quy, liên quan từđặc trưng đầu vào cho đến kết quả gán chủ đề tương ứngđược học từ

tậpdữliệu.Dovậy,đểphântíchmộtcáchtuyếntính,tácgiảdùnghàmsigmoidsau làmhàmtruyềntrongmạngneural:

p

= 1 1+e−η

Trong đó, η = βTx là sự kết hợp của những đặc trưng đầu vào và p phải thỏa điềukiện p ∈ (0,1)

2.2.6. Linear Least Square Fit (LLSF)

LLSF là một cách tiếp cận ánh xạ được phát triển bởiYang và Chute vào năm 1992 [Yang & Chute, 1992] Đầu tiên, LLSF được Yang và Chute thử nghiệm tronglĩnhvựcxácđịnhtừđồngnghĩasauđósửdụngtrongphânloạivàonăm1994 [Yang & Chute, 1994]. Các thử nghiệm củaỴang cho thấy hiệu suấtphân loại của LLSFcóthểngangbằngvớiphươngphápkNNkinhđiển.

2.2.6.1. Ýtưởng

LLSF sửdụng phương pháp hồi quyđể học từ tập huấnluyện và các chủ đềcó sẵn [Yang & Chute, 1994]. Tập huấn luyện được biểu diễn dưới dạng một cặp vectorđầuvàovàđầuranhưsau:

Vectorđầuvàomộtvănbảnbaogồmcáctừvàtrọngsố

Vector đầu ra gồm các chủ đề cùng với trọng số nhị phân củavăn bản ứngvới vectorđầuvào

Giải phương trìnhcác cặp vector đầu vào/đầu ra, ta sẽ được ma trậnđồng hiện củahệsốhồiquycủatừvàchủđề(matrixofword-categoryregressioncoefficients)

2.2.6.2. Côngthứcchính F LS =argmin F AB F 2 Trongđó

A, Blàmatrậnđại diệntậpdữliệuhuấn luyện(cáccộttrong matrậntương ứnglàcácvectorđầuvàovàđầura)

FLSlàmatrậnkếtquảchỉra mộtánhxạtừmộtvăn bảnbấtkỳvàovectorc

chủđềđãgántrọngsố

17

Nhờ vàoviệc sắpxếp trọngsố củacácchủ đề, tađược mộtdanh sáchchủđề có thểgán chovăn bảncần phânloại. Nhờ đặt ngưỡnglên trọngsố củacác chủđề mà ta tìm được chủ đề thích hợp cho văn bản đầu vào. Hệ thống tự động học các ngưỡng tối ưu cho từng chủ đề, giống với kNN.Mặc dù LLSF và kNN khác nhau về mặt thống kê, nhưng ta vẫn tìm thấy điểm chung ở hoạt động của hai phương pháplàviệchọcngưỡngtốiưu.

2.2.7. Centroid- based vector

Là một phương pháp phân loại đơn giản, dễ cài đặt và tốc độ nhanh do có độ phứctạptuyếntínhO(n)[Han, Karypis2000]

2.2.7.1. Ýtưởng

Mỗi lớp trong dữ liệu luyện sẽ được biểu diễn bởi một vector trọng tâm. Việc xácđịnh lớpcủamộtvăn bảnthửbất kìsẽ thôngquaviêc tìmvectortrọng tâmnào gần với vector biểu diễn văn bản thử nhất. Lớp của văn bản thử chính là lớp mà vectortrọngtâmđạidiện.Khoảngcáchđượctínhtheođộđocosine.

2.2.7.2. Côngthứcchính

Côngthứctínhvectortrọngtâmcủalớpi 1 {i} d

j

∈{i}

Độđokhoảngcáchgiữavector xC

i j cos ( ) = xC i x * C i Trongđó:

x làvectorvănbảncầnphânloại

Ci =

{i}làtậphợpcácvănbảnthuộcchủđềC i Chủđềcủa xC xthõa cos(x,C x )=argmax(cos(x,C i )) 18 2.3.Kết luận

Các thuậttoán phânloại trên từthuật toán phânloại 2 lớp(SVM)đến các thuật toán phânloại đa lớp(kNN) đềucó điểm chunglà yêucầu văn bản phảiđược biểu diễn dưới dạng vector đặc trưng. Ngoài ra các thuật toán như kNN,NB,LLSF đều phảisửdụngcác ướclượng thamsốvàngưỡng tốiưutrong khiđóthuậttoán SVM có thể tự tìm ra các tham số tối ưu này. Trong các phương pháp SVM là phương pháp sửdụngkhông gianvector đặctrưng lớnnhất (hơn10000chiều) trongkhi đó chỉlà2000đốivới NB,2415chokNNvàLLSF,1000choNnet[Yang,1997].Thời gian huấn luyện cũng khác nhau đối với từng phương pháp, Nnet (sử dụng mỗi mạng tương ứng một chủ đề) vàSVM là hai phương pháp có thờigian huấn luyện lâu nhất trong khi đó kNN,NB,LLSF và Centroid là các phương pháp có tốc độ (thờigianhuấnluyện,phânloại)nhanhvàcàiđặtdễdàng.

Về hiệu suất, dựa vào thử nghiệm của Yang [Yang, Liu, 1997] trên tập dữ liệu Reuter-21578vớihơn90chủđềvàtrên7769vănbản,tacóthểsắpxếpcácphương phápphânloạivăn bảntheothứtựnhưsauSVM>kNN>>{LLSF,NB,Nnet}. Tuy nhiên kết quả trên có thể không còn đúng khi áp dụng thử nghiệm phân loại trên TiếngViệt.Cáclýdochínhnhưsau:

Thứ nhất: khôngcómộttậpdữliệuchuẩndànhriêngchoviệcphânloại.

Thứ hai: hiệntại chưacó chuẩnthống nhấtnào chovấn đềfont vàdấu câucho TiếngViệt.

ngại dobị phụ thuộcnhiều vào cácphương pháp tách từ.Trong khi đó cácphương phápnàykhôngđạtđượchiệuquảcaonhưtrongtiếngAnh.

Để có thể áp dụng các phương pháp phân loại văn bản đã được sử dụng thành côngtrênnhiềungônngữ(Anh, Pháp,…)nhưđãliệtkêtrên, điềukiệntiênquyếtlà phải tìmramột phương pháptách từtốtđể thôngqua đócải thiệnhiệu quảcủa các thuật toán phân loại.Trong tiếng Anh, đơnvị nhỏ nhất là “từ” nên việc tách từ trở nên khá đơn giản, trong khi đối với một số ngôn ngữ như tiếng Hoa, Nhật, Hàn Quốc... vàTiếngViệtcủachúngtaphảixửlýhoàntoànkhácdođơnvịnhỏnhấtlại

19

là “tiếng”. Do đó, trước khi thực hiện phân loại, chúng ta phải tìm hiểu về các hướng tiếp cận cho việc tách từ tiếng Việt, một vấn đề khá thú vị không kém các phươngphápphânloại.

20

Chương 3

CÁC PHƯƠNG PHÁP

TÁCH TỪ TIẾNG VIỆT

HIỆN NAY

TạisaotáchtừtiếngViệtlà mộttháchthức? SosánhgiữatiếngViệtvàtiếngAnh Nhậnxét

Bốicảnhcácphương pháptáchtừhiệnnay Bốicảnhchung

Cáchướngtiếpcậndựatrêntừ Cáchướngtiếpcậndựatrênkýtự

Mộtsốphương pháptáchtừtiếngViệthiệnnay

PhươngphápMaximumMatching:forward/backward Phươngphápgiảithuậthọccảitiến

MôhìnhtáchtừbằngWFSTvàmạngNeural Phươngphápquyhoạchđộng

Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet vàthuậttoánditruyền

Kếtluận

21

Được xếp là loại hình đơn lập

(isolate) hay còn gọi là loại hình phi hình thái, không biến hình, đơntiết

Từ không biến đổi hình thái, ý nghĩangữphápnằmởngoàitừ Ví dụ : Chịngã em nâng vàEm ngã

chịnâng

Phương thức ngữ pháp chủ yếu: trậttựtừvàhưtừ.

Ví dụ: Gạo xay và Xay gạo; đang học và học rồi ; “nó bảo sao không tới”, “sao không bảo nó tới”,“saokhôngtớibảonó”.. Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng

Tồn tại loại từ đặc biệt “ từ chỉ loại” (classifier) hay còn gọi là

loại hình biến cách (flexion) hay còn gọi là loại hình khuất chiết

Từ có biến đổihình thái, ý nghĩa ngữphápnằmởtrongtừ.

Vídụ:IseehimvàHeseesme.

Phương thức ngữ pháp chủ yếu là:phụtố.

Vídụ:studyingvàstudied

Kết hợp giữa các hình vị là chặt chẽ, khó xác định, được nhận diện bằngkhoảng trắnghoặc dấu câu.

Hiện tượng cấutạo bằng từ ghép thêm phụ tố (affix) vào gốc từ là

Chương 3. CÁC PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT HIỆN NAY

3.1.Tại saotách từ tiếngViệt một thách thức? 3.1.1. So sánh giữa tiếng Việt và tiếng Anh

Dựa vào các đặc điểm của tiếng Anh và tiếng Việt được trình bày trong [Đinh Điền, 2004], chúng em lập bảng so sánh các đặc điểm chủ yếu giữa tiếng Anh và

22

phó danh từ chỉ loại kèm theo với danh từ, như: cái bàn, cuốn sách, bứcthư,conchó, consông,

rấtphổbiến.

Ví dụ: anticomputerizational ( anti- compute-er-ize-ation-al)

vìsao…

Có hiện tượng láy và nói lái trongtiếngViệt

Vídụ:lấplánh, lunglinh

Hiện đại -> hại điện,thầy giáo->

tháogiầy…

Bảng3.1.SosánhgiữatiếngViệtvàtiếngAnh 3.1.2. Nhận xét

TiếngViệtlàloạihìnhphihìnhthái nênviệcphânbiệtloạitừ(danhtừ,động từ, tínhtừ…)vàýnghĩatừlàrấtkhó,chodùcósửdụngtừđiển.

Việctiềnxửlývănbản (táchtừ,táchđoạn,táchcâu…)sẽthêmphứctạpvới phầnxửlýcáchưtừ,phụtừ,từláy…

Phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tínhxácsuấtxuấthiệncủatừcóthểkhôngchínhxácnhưmongđợi

Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng. Điều này khiến choviệcphântíchhìnhthái(táchtừ)tiếngViệttrởnênkhókhăn.Việc nhận diện ranh giớitừ là quan trọng làm tiền đề cho các xử lý tiếp theo sau đó,như:kiểmlỗichínhtả,gánnhãntừloại,thốngkêtầnsuấttừ,…

Vìgiữa tiếngAnhvà tiếngViệtcó nhiềuđiểmkhác biệtnên chúngtakhông thể ápdụngynguyêncácthuậttoántiếngAnhchotiếngViệt

3.2.Bối cảnhcác phương pháptách từ hiện nay 3.2.1. Bối cảnh chung

Dựa trên cơ sở thống kê các phương pháp tách từ trên tiếng Hoa của [Foo and Li, 2004], chúng em xin trình bày bối cảnh các phương pháp tách từ hiện nay cho tiếngViệtnhưsau:

23

Chinese segmentation Vietnamese segmentation

Character-based Word-based

Lê An Hà (03) H. Nguyễn et al (05)

Hybrid

Đinh Điền et al (01)

Luận văn này (05) Full word / Phrase Component

Shortest Match Longest Match Overlap Match

Hình3.4.CáchướngtiếpcậncơbảntrongtáchtừtiếngHoavàcáchướng tiếpcậnhiệntạiđượccôngbốtrong táchtừtiếngViệt

3.2.2. Các hướng tiếp cận dựa trên từ (Word-based approaches)

Hướng tiếpcận dựatrên từvớimụctiêu táchđược cáctừ hoànchỉnh trongcâu. Hướng tiếpcận nàycó thểchia ralà bahướng: dựatrên thốngkê (statistics-based),

dựa trên từ điển (dictionary-based) và hydrid (kết hợp nhiều phương pháp với hy vọngđạtđượcnhữngưuđiểmcủacácphươngphápnày)

3.2.2.1. CáccôngtrìnhtáchtừtiếngHoa

Hướng tiếp cận dựa trên thống (statistics-based) dựa trên các thông tin như tần số xuất hiện của từ trong tập dữ liệu huấn luyện đầu. Hướng tiếp cận này đặc

24

biệtdựa trêntậpngữ liệuhuấn luyện,nhờvậy nênhướng tiếpcận nàytỏ rarấtlinh hoạtvàhữudụngtrongnhiềulãnhvựcriêngbiệt[Nieetal.,1996].

Hướng tiếp cận dựa trên từ điển (dictionary-based) thường được sử dụng trong

phải khớp với các từ trong từ điển. Những hướng tiếp cận khác nhau sẽ sử dụng nhữngloạitừđiểnkhácnhau. Hướngtiếpcận “fullword/ phrase”cần sửdụngmột từđiểnhoàn chỉnhđểcóthểtách đượcđầyđủcác từhoặcngữtrongvăn bản,trong

Một phần của tài liệu Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử (Trang 34 - 115)

Tải bản đầy đủ (DOCX)

(155 trang)
w