Kết quả của Thực nghiệm 1 theo nhãn tính phân cực- 123docz.net

Độ chính xác Phân lớp tính phân cực Đặc trƣng\S.T 0.0 0.1 0.2 0.3 max wc2 67,02% 67,15% 67,10% 66,97% 67,15% ss2 65,23% 65,66% 65,49% 65,49% 65,75% ss3 65,62% 65,75% 65,10% 65,40% ps0 59,77% 64,70% 62,52% 67,02% 67,02% ps1 60,60% 64,66% 62,57% 67,02% ps2 61,04% 64,49% 62,52% 67,02% ps3 61,04% 65,01% 62,39% 67,02% ps4 60,99% 65,05% 62,26% 67,02% ps5 60,91% 64,88% 62,30% 67,02% ps6 60,95% 64,75% 62,26% 67,02% ps7 60,95% 64,66% 62,13% 67,02% ps8 61,13% 64,53% 62,13% 67,02% ps9 60,86% 64,49% 62,17% 67,02%

Trong thực nghiệm 1, tỉ lệ Số mẫu huấn luyện / Số mẫu đánh giá = 11.111 / 2.292 = 4,85.

Trong các Bảng 4.1 và Bảng 4.2, cột “max” chỉ độ chính xác cao nhất theo 3 nhĩm đặc trƣng (SS, PS, WC). Căn cứ vào giá trị max này (đƣợc in đậm và nghiêng), ta cĩ thể xác định đƣợc đặc trƣng và tham số phân lớp SVM (cột “S.T”) tốt nhất. Theo đĩ, 2 đặc trƣng tốt nhất và tham số phân lớp SVM tối ƣu (S.T) cho phân lớp tính chủ quan/tính phân cực cảm nghĩ đƣợc chọn nhƣ bảng 4.3 dƣới đây.

Bảng 4.3. Các đặc trưng, thơng số tốt nhất cho từng bài tốn phân lớp con.

Khung nhìn 1 Khung nhìn 2 S.T Phân lớp Tính chủ quan ps9 ss3 0.0 Phân lớp Tính phân cực cảm nghĩ ss3 wc2 0.1 4.2. Thực nghiệm 2

Sử dụng cùng các tập huấn luyện cĩ nhãn/đánh giá cho cả học cĩ giám sát lẫn học bán giám sát. Các đặc trƣng, tham số phân lớp SVM đƣợc thiết lập theo

Bảng 4.3. Mục đích là xem xét ảnh hƣởng của số lƣợng từ khĩa tối thiểu của câu trong tập huấn luyện cĩ nhãn đến chất lƣợng học bán giám sát.

Tham số Co-training với phân lớp tính chủ quan (nhị phân) đƣợc thiết lập theo tỉ lệ mẫu dƣơng/mẫu âm trong tập huấn luyện ORI: p=15, n=15. Với phân lớp tính phân cực cảm nghĩ (3 lớp), tham số đƣợc thiết lập: p=7, n=3, neu=20.

Với cách chọn dữ liệu nhƣ trong Hình 3.11, ta cĩ thống kê số lƣợng mẫu huấn luyện/đánh giá nhƣ trong Bảng 4.4 và độ chính xác sau khi đánh giá nhƣ trong Bảng 4.5 và Bảng 4.6.

Bảng 4.4. Số lượng mẫu huấn luyện/đánh giá dùng cho Thực nghiệm 2.

Từ khĩa tối thiểu trong câu thuộc L

(MinKW) Tập huấn luyện cĩ nhãn (L) Tập huấn luyện khơng nhãn (U) Tập đánh giá 0 11.111 0 2.292 1 11.053 58 2.292 2 10.855 256 2.292 3 10.508 603 2.292 4 10.046 1.065 2.292 5 9.434 1.677 2.292 6 8.763 2.348 2.292 7 8.006 3.105 2.292 8 7.186 3.925 2.292 9 6.391 4.720 2.292

Bảng 4.5. Kết quả của Thực nghiệm 2 theo nhãn tính chủ quan. MinKW\ MinKW\ Khung nhìn Phân lớp tính chủ quan Học cĩ giám sát (p=15, n=15) Co-training Độ chính xác đƣợc cải thiện ps9 ss3 ps9 ss3 ps9 ss3 0 60,08% 57,90% 1 60,08% 58,25% 59,95% 58,20% -0,13% -0,04% 2 60,34% 58,33% 60,51% 57,90% 0,17% -0,44% 3 59,34% 58,16% 59,99% 57,77% 0,65% -0,39% 4 58,38% 58,38% 59,29% 57,77% 0,92% -0,61% 5 57,85% 56,33% 58,81% 57,64% 0,96% 1,31% 6 60,03% 59,25% 58,81% 57,11% -1,22% -2,14% 7 60,17% 59,34% 60,03% 54,84% -0,13% -4,49% 8 57,59% 60,25% 59,95% 54,84% 2,36% -5,41% 9 57,24% 61,17% 59,90% 55,67% 2,66% -5,50% Độ chính xác phân lớp tính chủ quan đƣợc cải thiện nhiều nhất (ở mức

0,96% và 1,31%, đƣợc in đậm và nghiêng) khi chọn những câu cĩ từ khĩa tối thiểu bằng 5 vào tập huấn luyện cĩ nhãn.

Bảng 4.6. Kết quả của Thực nghiệm 2 theo nhãn tính phân cực cảm nghĩ.

MinKW\ Khung nhìn Phân lớp tính Phân cực cảm nghĩ Học cĩ giám sát Co-training (p=7, n=3, neu=20) Độ chính xác đƣợc cải thiện ss3 wc2 ss3 wc2 ss3 wc2 0 65,49% 62,52% 1 65,36% 62,52% 65,36% 62,57% 0,00% 0,04% 2 65,36% 62,26% 65,36% 62,65% 0,00% 0,39% 3 65,40% 62,57% 65,36% 63,00% -0,04% 0,44% 4 65,27% 61,65% 65,45% 63,09% 0,17% 1,44% 5 65,27% 61,74% 65,45% 63,31% 0,17% 1,57% 6 65,23% 61,61% 65,53% 63,70% 0,31% 2,09% 7 65,23% 60,56% 65,49% 58,90% 0,26% -1,66% 8 65,23% 60,34% 65,53% 58,99% 0,31% -1,35% 9 65,23% 58,73% 65,53% 58,60% 0,31% -0,13%

Độ chính xác phân lớp tính phân cực cảm nghĩ đƣợc cải thiện nhiều nhất, đƣợc in đậm và nghiêng, khi chọn những câu cĩ từ khĩa tối thiểu bằng 6 vào tập huấn luyện cĩ nhãn.

Tĩm lại, khi lựa chọn tập dữ liệu cĩ nhãn cho Co-training với tập dữ liệu ORI thì nên chọn những câu cĩ số từ khĩa tối thiểu bằng 5 hoặc 6. Lúc đĩ, hiệu năng Co-training đƣợc cải thiện đáng kể nhất so với tiếp cận học cĩ giám sát.

4.3. Thực nghiệm 3

Với mỗi tỉ lệ chọn tập L, U, thực nghiệm đƣợc tiến hành 5 lần. Tham số Co-training đƣợc thiết lập (p=15,n=15) cho phân lớp tính chủ quan và (p=7, n=3, neu=20) cho phân lớp tính phân cực cảm nghĩ.

Kết quả trung bình của 5 lần chạy theo từng tỉ lệ nhƣ trong các Bảng 4.7 đến 4.12.

Bảng 4.7. Kết quả Thực nghiệm 3 khi chọn L, U theo tỉ lệ 10%, 70%

Phân lớp tính chủ quan Phân lớp tính phân cực ps9 ss3 ss3 wc2 Cĩ giám sát 61,57% 60,22% 67,36% 67,28% Co-training 61,18% 59,52% 67,36% 67,36% Cải thiện -0,39% -0,70% 0,00% 0,09%

Bảng 4.8. Kết quả Thực nghiệm 3 khi chọn L, U theo tỉ lệ 20%, 60%

Phân lớp tính chủ quan Phân lớp tính phân cực ps9 ss3 ss3 wc2 Cĩ giám sát 64,44% 62,92% 67,45% 67,49% Co-training 66,54% 64,18% 67,54% 67,32% Cải thiện 2,09% 1,26% 0,09% -0,17%

Bảng 4.9. Kết quả Thực nghiệm 3 khi chọn L, U theo tỉ lệ 30%, 50%

Phân lớp tính chủ

quan Phân lớp tính phân cực

ps9 ss3 ss3 wc2

Cĩ giám sát 64,23% 62,31% 67,36% 67,28%

Co-training 64,62% 61,83% 67,36% 67,32%

Cải thiện 0,39% -0,48% 0,00% 0,04%

Bảng 4.10. Kết quả Thực nghiệm 3 khi chọn L, U theo tỉ lệ 40%, 40%

Phân lớp tính chủ quan Phân lớp tính phân cực

ps9 ss3 ss3 wc2

Cĩ giám sát 65,39% 64,00% 68,70% 68,70%

Co-training 65,83% 64,65% 68,70% 68,70%

Cải thiện 0,43% 0,65% 0,00% 0,00%

Bảng 4.11. Kết quả Thực nghiệm 3 khi chọn L, U theo tỉ lệ 50%, 30%

Phân lớp tính chủ quan Phân lớp tính phân cực

ps9 ss3 ss3 wc2

Cĩ giám sát 64,05% 63,40% 67,32% 67,28%

Co-training 63,40% 62,79% 67,32% 67,23%

Cải thiện -0,65% -0,61% 0,00% -0,04%

Bảng 4.12. Kết quả Thực nghiệm 3 khi chọn L, U theo tỉ lệ 60%, 20%

Phân lớp tính chủ quan Phân lớp tính phân cực

ps9 ss3 ss3 wc2

Cĩ giám sát 64,10% 62,53% 66,58% 66,49%

Co-training 64,49% 62,79% 66,58% 66,54%

Cải thiện 0,39% 0,26% 0,00% 0,04%

Từ các kết quả trên, ta thấy phân lớp tính phân cực đƣợc cải thiện nhiều nhất khi thực hiện với Co-training khi chọn tỉ lệ L, U là 20%, 60%. Với phân lớp tính phân cực cảm nghĩ thì tỉ lệ tốt nhất của L, U là 10%, 70%.

KẾT LUẬN

5.1. Kết luận

5.1.1. Những kết quả chính đạt được

Luận văn đã hiện thực 1 hệ thống khai phá dữ liệu cụ thể trên bài tốn khai phá quan điểm với 2 giai đoạn xây dựng mơ hình và đánh giá mơ hình. Trong đĩ, hầu hết tất cả các bƣớc đƣợc thực hiện 1 cách tự động từ tiền xử lý dữ liệu, đến tổng hợp các kết quả.

Thơng qua các thực nghiệm cụ thể, đã đánh giá ảnh hƣởng của từng đặc trƣng, tham số phân lớp SVM đến chất lƣợng phân lớp (Thực nghiệm 1). Qua đĩ, tìm ra 2 đặc trƣng tốt nhất, tham số phân lớp SVM tốt nhất cho từng bài tốn phân lớp con với cách chọn dữ liệu cụ thể.

Đã đánh giá hiệu năng của một thuật tốn học bán giám sát, cụ thể là Co- training, so với học cĩ giám sát. Thơng qua 2 thực nghiệm, tìm ra đƣợc cách chọn tập huấn luyện cĩ nhãn sao cho hiệu năng đƣợc cải thiện so với học cĩ giám sát.

5.1.2. Nhược điểm

Độ chính xác của các bộ phân lớp chƣa đƣợc cao (cao nhất là 68,70%, nhƣ trong Bảng 4.10). Hiệu năng phân lớp dựa trên học bán giám sát, Co- training, chƣa cao. Độ chính xác đƣợc cải thiện cao nhất là 2,09% (Bảng 4.6 và Bảng 4.8), trong khi thời gian xử lý của Co-training lớn hơn rất nhiều lần so với học cĩ giám sát.

Chƣa đƣa ra nhiều thực nghiệm với nhiều đặc trƣng, tham số Co-training, và tham số phân lớp SVM hơn. Cũng nhƣ chƣa thực nghiệm trên bộ phân lớp cơ sở khác với SVM.

Hiệu năng Co-training cĩ đƣợc cải thiện so với học cĩ giám sát nhƣng khơng phải trong mọi trƣờng hợp. Do đĩ, chỉ cĩ thể đƣa ra đƣợc nhận định bƣớc đầu, chƣa thể đánh giá tồn diện Co-training trên bài tốn khai phá quan điểm mức câu.

5.2. Hƣớng phát triển

Để đƣa ra đƣợc đánh giá tồn diện về thuật tốn Co-training cũng nhƣ ứng dụng đƣợc mơ hình vào thực tế, cần tiếp tục thực hiện theo hai hƣớng sau.

Để khắc phục độ chính xác thấp, cần thực nghiệm với nhiều loại đặc trƣng khác.

Về tốc độ xử lý Co-training thấp, cần thực nghiệm trên nhiều tham số Co- training (p, n) khác để tìm ra tham số tốt nhất thỏa mãn cả hai tiêu chí về độ chính xác và tốc độ xử lý.

Thực nghiệm với nhiều kho dữ liệu khác để so sánh với kết quả thực hiện trên kho MPQA2.0 từ đĩ mới đánh giá chính xác hơn về mơ hình.

5.2.2. Mở rộng, ứng dụng cho tiếng Việt

Hiện tại các thao tác và kết quả khai phá dữ liệu đƣợc thực hiện trên dữ liệu tiếng Anh, từ dữ liệu ban đầu là kho MPQA2.0 cho đến các mơ hình xây dựng đƣợc, nên khơng ứng dụng đƣợc cho dữ liệu tiếng Việt. Để ứng dụng đƣợc cho dữ liệu tiếng Việt, cĩ 2 hƣớng cần xem xét: (1) nếu dùng mơ hình đƣợc huấn luyện trên tập dữ liệu tiếng Anh thì dữ liệu tiếng Việt cần đƣợc dịch từ tiếng Việt sang tiếng Anh; (2) xây dựng kho dữ liệu tiếng Việt phục vụ huấn luyện và đánh giá trong bài tốn khai phá quan điểm.

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Hà Quang Thụy (Chủ biên), Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình Khai phá Dữ liệu Web, Nhà xuất bản Giáo Dục Việt Nam, tr.221-223, 231- 233, 235-236, 238.

2. Vũ Thanh Nguyên, Trang Nhật Quang (2009), Ứng dụng thuật tốn phân lớp rút trích thơng tin văn bản FSVM trên Internet. Tạp chí Phát triển KH&CN, tập 12, số 05 – 2009.

Tiếng Anh

3. Lizhen Qu, Cigdem Toprak, Niklas Jakob, Iryna Gurevych (2008),

Sentence Level Subjectivity and Sentiment Analysis Experiments in NTCIR-7MOAT Challenge, Tokyo, Japan.

4. Avrim Blum, Tom Mitchell (1998), Combining Labeled and Unlabeled Data with Co-Training, Carnegie Mellon University, Pittsburgh, USA. 5. Missen, M.M.S.(2009), Challenges for Sentence Level Opinion

Detection in Blogs, Toulouse, France.

6. Tom M. Mitchell (1997), Machine Learning, McGraw Hill, USA.

7. Soumen Chakrabarti (2003), Mining the Web: discovering knowledge from hypertext data, Morgan Kaufmann Publishers, USA.

8. JanyceWiebe, TheresaWilson, ClaireCardie (2005), Annotating Expressions of Opinions and Emotions in Language, Pittsburgh, USA. 9. Theresa Ann Wilson (2008), Fine-grained Subjectivity and Sentiment

Analysis: Recognizing the Intensity, Polarity, and Attitudes of Private States, Ph.D. thesis, University of Pittsburgh.

PHỤ LỤC 1

DANH SÁCH TỪ DỪNG TRONG THƢ VIỆN PATTERN2.0

a aboard about above across after again against all almost alone along alongside already also although always am amid amidst among amongst an and another anti any anybody anyone anything anywhere are area areas aren't around as ask asked asking asks astride at aught away back backed backing backs bar barring be became because become becomes been before began behind being beings below beneath beside besides best better between beyond big both but by came can can't cannot case cases certain certainly circa clear clearly come concerning considering could couldn't daren't despite did didn't differ different differently do does doesn't doing don't done down down downed downing downs during each early either end ended ending ends enough even evenly ever every everybody everyone everything everywhere except excepting excluding face faces fact facts far felt few fewer find finds first five following for four from full fully further furthered furthering furthers gave general generally get gets give given gives go goes going good goods got great greater greatest group grouped grouping groups had hadn't has hasn't have haven't having he he'd he'll he's her here here's hers herself high high high higher highest him himself his hisself how how's however i i'd i'll i'm i've

idem if ilk important in including inside interest interested interesting interests into is isn't it it's its itself just keep keeps kind knew know known knows large largely last later latest least less let let's lets like likely long longer longest made make making man many may me member members men might mightn't mine minus more most mostly mr mrs much must mustn't my myself naught near necessary need needed needing needn't needs neither never new new newer newest next no nobody non none noone nor not nothing

notwithstandin

g now nowhere number numbers of off often old older oldest on once one oneself only onto open opened opening opens opposite or order ordered ordering orders other others otherwise ought oughtn't our ours ourself ourselves out outside over own part parted parting parts past pending per perhaps place places plus point pointed pointing points possible present presented presenting presents problem problems put puts quite rather really regarding right right room rooms round said same save saw say says second seconds see seem seemed seeming seems seen sees self several shall shan't she she'd she'll she's should shouldn't show showed showing shows side sides since small smaller smallest so some somebody someone something somewhat somewhere state states still still such suchlike sundry sure take taken than that that's

the thee their theirs them

themselve s

then there there's therefore these they they'd they'll they're they've thine thing things think thinks this those thou though thought thoughts three through throughout thus thyself till to today together too took tother toward towards turn turned turning turns twain two under underneath unless unlike until up upon us use used uses various versus very via vis-a-vis want wanted wanting wants was wasn't way ways we we'd we'll we're we've well wells went were weren't what what's whatall whatever

whatsoeve

r when when's where where's whereas wherewith

wherewitha

l whether which whichever whichsoeve

r while who who's whoever whole whom whomever whomso

whomsoeve

r whose whosoever why why's will with within without won't work worked working works worth would wouldn't ye year years yet yon yonder you you'd you'll you're you've you-all young younger youngest your yours yourself yourselves

Kết quả của Thực nghiệm 1 theo nhãn tính phân cực cảm nghĩ

Các thuật tốn học cĩ giám sát khác

Các thuật tốn học bán giám sát