Mô tả thực nghiệm
Thực nghiệm nhằm đánh giá chất lượng phân loại tin tựđộng đối với dữ liệu test lấy từ các báo khác bao gồm: dantri.com.vn, baodatviet.vn và tuoitre.vn.
STT Phân lớp Số lượng văn bản 1 XAHOI 50 2 THEGIOI 50 3 KINHDOANH 50 4 VANHOA 50 5 THETHAO 50 6 PHAPLUAT 50 7 DOISONG 50 8 KHOAHOC 50 9 VITINH 50 10 XE 50 Tổng số 500
Đầu vào: Mô hình đã qua huấn luyện của hệ thống, và các dữ liệu lấy từ 3 nguồn tin dantri.com.vn, baodatviet.vn và tuoitre.vn ở dạng thô.
Đầu ra: Bảng đánh giá kết quả độ chính xác theo các chỉ số bao gồm: độ hồi tưởng (R), độ chính xác (P) và độđo F1.
Tập dữ liệu được dùng cho việc kiểm tra mô hình được mô tả trong bảng 10. Kết quả thực nghiệm Nhãn Độ chính xác (%) Độ hồi tưởng (%) F1 (%) XAHOI 34.85 46.00 39.66 THEGIOI 83.02 88.00 85.44 KINHDOANH 79.63 86.00 82.69 VANHOA 66.67 80.00 72.73 THETHAO 94.23 98.00 96.08 PHAPLUAT 89.58 86.00 87.75 DOISONG 69.23 54.00 60.67 KHOAHOC 76.67 46.00 57.50 VITINH 83.93 94.00 88.86 XE 100 84.00 91.30 Trung bình thô 77.78 76.20 76.25 Trung bình mịn 76.20 76.20 76.20 Bảng 11. Kết quả thực nghiệm 2
Nhận xét:
- Kết quả thực nghiệm 2 trong bảng 11 cho biết trong tổng số lượng văn bản được phân lớp, thì có khoảng 76% văn bản được phân lớp đúng theo cách phân lớp của báo dùng để test.
- Bảng 9 và bảng 11 cho thấy có sự khác biệt lớn về độ chính xác của thực nghiệm 2 so với thực nghiệm 1. Sở dĩ có sự khác nhau như vậy, là do trong thực nghiệm 2, khóa luận tiến hành kiểm tra với các báo điện tử khác với báo được sử dụng để học mô hình, các báo khác nhau này có cây phân lớp không tương
đồng nhau, do đó dẫn đến việc phân lớp đúng theo báo học mô hình là vnexpress.net thì có thể không đúng với báo kiểm tra tuoitre.vn. Ví dụ: tin “Phá
án buôn ma túy biên giới, 3 công an bị thương”1 theo cây phân lớp của tuoitre.vn được xếp vào lớp XAHOI, nhưng với một tin có nội dung hoàn toàn tương tự “3 cảnh sát bị thương khi truy bắt nhóm buôn ma túy”2 thì vnexpress.net lại xếp tin này vào phân lớp PHAPLUAT.
Kết luận
Kết quảđạt được của khóa luận
Từ việc nghiên cứu về các bài toán của hệ thống tổng hợp và phân loại tin tự động, khóa luận đã trình bày phương pháp tổng hợp và phân loại tin tức từ các trang báo điện tử
khác nhau. Qua những kết quả thực nghiệm cho thấy tính hiệu quả của phương pháp này. Về mặt nội dung, khóa luận đã đạt được những kết quả như sau:
- Giới thiệu các hệ thống tổng hợp tin hiện có của Việt Nam, ưu và nhược điểm.
- Nghiên cứu cơ sở lý thuyết về trích chọn thông tin tài liệu Web, giới hiệu mô hình phân lớp văn bản entropy cực đại. Chỉ ra thế mạnh của phương pháp này trong phân lớp văn bản phù hợp với nội dung phân lớp tin tức. Giới thiệu các đại lượng sử dụng cho việc đánh giá kết quả phân lớp.
- Thông qua mô hình lý thuyết nghiên cứu được về trích chọn tài liệu Web và phân lớp văn bản, khóa luận đã tiến hành xây dựng mô hình hệ thống tổng hợp và phân loại tin tựđộng.
- Trên cơ sở mô hình có được, khóa luận đã cài đặt được chương trình chính là hệ
thống tổng hợp và phân loại tin tựđộng bằng ngôn ngữ Java sử dụng môi trường Netbean.
- Đánh giá chất lượng tổng hợp và hiệu suất phân loại tin của hệ thống, từđó cho thấy chất lượng tổng hợp và hiệu suất phân loại đều rất tốt.
Mặc dù vậy, do hạn chế về thời gian và kiến thức khóa luận vẫn còn hạn chế sau:
- Khóa luận chưa xây dựng được giao diện người dùng cho hệ thống.
- Chưa đưa ra được phương pháp xử lý thỏa đáng đối với trường hợp một bài báo thuộc nhiều hơn một phân lớp.
- Chưa kiểm soát một cách toàn diện đối với trường hợp các bài báo có nội dung trùng nhau.
Định hướng tương lai
- Phân lớp một bài báo có thể thuộc vào nhiều lớp sử dụng phân lớp mờ Fuzzy.
- Kiểm soát trường hợp các bài báo có nội dung trùng nhau sử dụng chỉ số
Jaccard.
- Đồng thời khóa luận cũng cố gắng để sớm công bố hệ thống để phục vụ người sử dụng.
Tài liệu tham khảo
[1]. Nguyen Viet Cuong, Nguyen Thi Thuy Linh, Phan Xuan Hieu and Ha Quang Thuy (2005). “A Maximum Entropy Model for Vietnamese Web Content
Classification”. Proceedings of the 8th National Conference on Information Technology
of Vietnam: pages 174-189, Vietnam. (in Vietnamese).
[2]. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú. Giáo trình khai phá dữ liệu Web. Nxb GDVN, 2009, tr. 153-166,
tr. 220-233.
[3]. Berger, A., Della Pietra, S., and Della Pietra, V. A maximum entropy approach to
natural language processing. Computational Linguistics, volume 22, number 1, 1996,
pages 39-71.
[4]. Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data,
http://www.cs.uic.edu/~liub/WebMiningBook.html ,December, 2006.
[5]. Chieu, H. L. and Ng, H. T. A Maximum Entropy Approach to Information
Extraction from Semi-Structured and Free Text. Proceedings of the Eighteenth National
Conference on Artificial Intelligence (AAAI 2002), 2002, pages 786-791.
[6]. Crescenzi V., Mecca G., and Merialdo P. Roadrunner: Towards Automatic Data
Extraction from Large Web Sites.In Proc. of Very Large Data Bases (VLDB’01), pages
109–118, 2001.
[7]. Cuong Nguyen Viet, Nguyen Thi Thuy Linh, Ha Quang Thuy and Phan Xuan Hieu
(2006). “A Maximum Entropy Model for Text Classification”. Proceedings of
International Conference on Internet Information Retrieval 2006 (IRC 2006), pages 143-
149, Korea.
[8]. Darroch, J. and Ratcliff, D. Generalized iterative scaling for log-linear models.
Annals Mathematical Statistics, volume 43, number 5, 1972, pages 1470–1480.
[9]. Debnath S., Mitra P., and Giles C. L. Automatic extraction of informative blocks
from webpages. In Proc. SAC, pages 1722-1726, 2005.
[10]. Debnath S., Mitra P., Pal N., and Giles C. L. Automatic Identification of
[11]. Della Pietra, S., Della Pietra, V. and Lafferty, J. 1997. Inducing features of random
fields. IEEE Transactions on Pattern Analysis and Machine Intelligence, volume 19,
number 4, 1997, pages 380–393.
[12]. Gautam Pant, Parmini Srinivasan, and Filipo Menczer (2004). Crawling the Web.
Web Dynamic 2004: pg. 153-178.
[13]. Jaynes, E. R. (1957). Information Theory and Statistical Mechanics. Physic
Review, volume 106, 1957, pages 620-630.
[14]. Kushmerick WIEN N. Wrapper Induction for Information Extraction. Ph.D
Thesis. Dept. of Computer Science, University of Washington, TR UW-CSE-11-04- 1997.
[15]. NGAI Grace, WU Deka, CARPUAT Marine, WANG Chi-Shing, WANG Chi-
Yung. Semantic Role Labeling with Boosting, SVMs, Maximum Entropy, SNOW, and
Decision Lists.
[16]. Nigam, K., Lafferty, J. and McCallum, A. Using maximum entropy for text
classification. IJCAI-99 Workshop on Machine Learning for Information Filtering, 1999,
pages 61-67.
[17]. Nigam K., McCallum, A., Thrun S. and Mitchell, T. Text Classification from
Labeled and Unlabeled Documents using EM. Machine Learning, volume 39, number
2/3, 2000, pages 103-134.
[18]. Ratnaparkhi, A. A simple introduction to maximum entropy models for natural
language processing. Technical Report 97-08, Institute for Research in Cognitive Science,