L ỜI MỞ ĐẦU
4.3.1. Thiết lập thơng số cho Entropy cực đạ i
Với thuật tốn Entropy cực đại, khĩa luận sử dụng thư viện của tác giả Phan Xuân Hiếu [23], việc sử dụng địi hỏi phải thiết lập một số thơng số cho mơ hình. Các thơng số này được lựa chọn qua nhiều lần thử nghiệm, chi tiết được mơ tảở bảng 4.
Bảng 4. Tham số huấn luyện mơ hình Entropy cực đại
Tham số Giá trị Mơ tả
numIterations 10 Số bước lặp trong quá trình huấn luyện.
fRareThreshold 0
Các mệnh đề mơ tả thơng tin ngữ cảnh phải xuất hiện nhiều hơn số này thì sẽ được dùng để xây dựng các đặc trưng. cpRareThreshold 0 Các đặc trưng xuất hiện nhiều hơn số này thì sẽ khơng bị loại bỏ khỏi tập dữ liệu huấn luyện. 4.3.2. Kết quả thực nghiệm
Tiến hành thực nghiệm trên tập dữ liệu huấn luyện với số lượng bước lặp là 10. Các kết quả phân lớp thu được khá khả quan với thời gian khoảng 0.4594 giây/lần và được mơ tả trong một số bảng biểu và đồ thị sau.
‐ 41 -
Bảng 5. Kết quả 10 lần huấn luyện với Entropy cực đại
Độ chính xác Độ hồi tưởng F1
Bước lặp Thời
gian Avg 1 Avg 2 Avg 1 Avg 2 Avg1 Avg2
1 0.766 81.04 55.87 39.43 55.87 53.05 55.87 2 0.485 81.95 81.56 74.95 81.56 78.29 81.56 3 0.453 82.99 82.68 76.39 82.68 79.56 82.68 4 0.406 84.59 87.15 84.75 87.15 84.67 87.15 5 0.422 86.38 89.39 86.43 89.39 86.40 89.39 6 0.422 87.64 90.22 86.98 90.22 87.31 90.22 7 0.39 84.67 87.43 84.28 87.43 84.48 87.43 8 0.422 86.49 88.83 86.46 88.83 86.48 88.83 9 0.39 87.73 89.66 87.47 89.66 87.60 89.66 10 0.407 86.73 88.83 86.92 88.83 86.82 88.83 Trung bình 0.4563 84.821 84.162 79.406 84.162 81.466 84.162
‐ 42 -
Qua bảng trên, cho thấy kết quả khả quan nhất là ở bước lặp thứ 6 với độ đo F1 đạt 90.22% chi tiết bước lặp này như sau:
Bảng 6. Kết quả của bước lặp thứ 6 Tên lớp Độ chính xác Độ hồi tưởng F1 NgoaiTe 96.64 96.00 96.32 HuyDongVon 71.43 73.53 72.46 DichVuThanhToan 96.77 88.24 92.31 ChungKhoan 87.84 92.86 90.28 TinDung 85.51 84.29 84.89 Avg1 87.64 86.98 87.31 Avg2 90.22 90.22 90.22
Trong bảng kết quả trên thì kết quả của phân lớp HuyDongVon là kém nhất với độ đo chính xác là 72.46% và tốt nhất là phân lớp NgoaiTe với độ đo chính xác là 96.32%.
‐ 43 - 0 10 20 30 40 50 60 70 80 90 100 1 2 3 4 5 6 7 8 9 10 Bước lặp Độ đ o F1 F1-Avg2 F1-Avg1 Hình 7. Đồ thị biểu diễn sự phụ thuộc của độđo F1 vào số lần lặp 0 10 20 30 40 50 60 70 80 90 100 1 2 3 4 5 6 7 8 9 10 Bước lặp Độ chính x ác c ủ a phân l ớ p Độ chính xác Độ hồi tưởng F1 Hình 8. Tổng hợp độđo qua 10 lần huấn luyện
‐ 44 - 96.32 72.46 92.31 90.28 84.89 0 20 40 60 80 100 120 Ngoa iTe HuyD ongV on Dich VuTha nhToa n Chung Khoan TinDu ng Lớp Độ đ o F1 Hình 9. Biểu đồ biểu diễn độđo F1 của các lớp trong lần lặp thứ 6 4.4. Đánh giá kết quả thực nghiệm
Việc tiến hành thực nghiệm trên tập dữ liệu huấn luyện là 717 dữ liệu cho 5 phân lớp cho kết quả tốt về độ đo F1 là 90.22%. Cả 5 bộ phân lớp đều cho độ đo F1 gần 90%, đặc biệt, bộ phân lớp NgoaiTeđạt kết quả rất cao là 96.32% cho cả độ chính xác và độ hồi tưởng. Bộ phân lớp HuyDongVon thu được kết quả thấp nhất với độđo F1 là 72.46%.
Do số lượng dữ liệu mẫu cho từng lớp khá cân bằng nhau nên khả năng đốn nhận của bộ phân lớp là khá tốt. Nhưng muốn khả năng này cao hơn nữa thì tập dữ liệu huấn luyện cần gia tăng thêm về số lượng, đảm bảo cung cấp đầy đủ các ràng buộc từ dữ liệu cho mơ hình.
Như đã trình bày ở mục 2.4, tư tưởng chủ đạo của nguyên lý Entropy cực đại là thay vì thêm vào các ràng buộc mới, mơ hình tự tìm ra trong dữ liệu (tập câu hỏi mẫu) những ràng buộc và đặc trưng riêng cho từng phân lớp. Điều này làm cho sự phân lớp trong khi sử dụng mơ hình Entropy cực đại được đảm bảo cả khi tập dữ liệu khơng cĩ số lượng quá lớn và mỗi tài liệu chỉ chứa ít đặc trưng.
Từ kết quả của thực nghiệm cho thấy khi xây dựng bộ phân lớp văn bản tiếng Việt sử dụng mơ hình Entropy cực đại cho kết quả rất tốt.
‐ 45 -
KẾT LUẬN
Từ việc nghiên cứu lý thuyết và kết quả thực nghiệm cĩ thể khẳng định rằng bài tốn phân lớp văn bản thực sự cĩ vai trị ý nghĩa rất quan trọng trong việc tổ chức, quản lý cũng như tìm kiếm thơng tin trên nguồn tài nguyên lớn, đặc biệt với nguồn tài nguyên về lĩnh vực tài chính ngân hàng.
Sựđa dạng của các thuật tốn phân lớp dữ liệu làm cho việc lựa chọn thuật tốn để xây dựng module phân lớp văn bản cho từng ngơn ngữ trở nên khĩ khăn hơn.
Khĩa luận tiếp cận các vấn đề nĩi trên và nghiên cứu các thuật tốn phổ biến hiện nay, từ đĩ đưa ra phương pháp và thuật tốn áp dụng vào phân lớp dữ liệu ngân hàng tài chính trong tiếng Việt.
Về mặt nội dung, khĩa luận đã đạt được những kết quả sau:
-Nghiên cứu về bài tốn phân lớp văn bản: khái niệm, mơ hình, đánh giá phân lớp. Luận văn đã tập hợp và trình bày một số phương pháp phổ biến nhất hiện nay như k người láng giềng gần nhất, mơ hình cây quyết định, mơ hình Entropy cực đại, SVM. Sau đĩ trình bày ưu nhược điểm của từng phương pháp, từ đĩ đưa ra quyết định sử dụng mơ hình entropy cực đại khi áp dụng cho tiếng Việt.
-Xây dựng nhãn / lớp cho văn bản tài chính ngân hàng trong tiếng Việt.
-Xây dựng chương trình thi hành phân lớp văn bản được viết trên ngơn ngữ Java, mơi trường Eclipse được tích hợp từ module tiền xử lý văn bản (do khĩa luận xây dựng) và module phân lớp (khai thác mã nguồn bộ phân lớp Entropy cực đại). Kết quả thực nghiệm trên tập dữ liệu về lĩnh vực tài chính ngân hàng được crawler từ Web cho thấy tính khả thi của chương trình phân lớp văn bản sử dụng phương pháp Entropy cực đại với độđo F1 đạt 90.22%.
Bên cạnh đĩ, do thời gian và kiến thức cĩ hạn, khĩa luận vẫn cịn một vài hạn chế sau:
-Chương trình sử dụng thuật tốn Entropy cực đại cho bài tốn phân lớp văn bản mới thi hành trên một bộ dữ liệu tiếng Việt nên chưa đối sánh kết quả trên nhiều bộ dữ liệu. Chưa thi hành nhiều thuật tốn để chọn được phương pháp tốt.
Trong tương lại, khĩa luận sẽ tiếp tục hồn thiện mặt hạn chế đã đưa ra đĩ là sử dụng một số thuật tốn phân lớp khác với Entropy cực đại để tìm ra được thuật tốn hiệu nhất đối với bài tốn phân lớp dữ liệu tiếng Việt. Đồng thời, thử nghiệm trên nhiều bộ dữ liệu tiếng Việt khác nhau.
‐ 46 -
TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt
[1]. Nguyễn Thị Hương Thảo, “Phân lớp phân cấp Taxonomy văn bản Web và ứng dụng”, Khĩa luận tốt nghiệp đại học, Đại học Cơng nghệ, ĐHQGHN, 2006.
[2]. Nguyễn Minh Tuấn, “Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa Tiếng Việt trong lĩnh vực y tế ”, Khĩa luận tốt nghiệp đại học, Đại học Cơng Nghệ, ĐHQGHN, 2008.
Tài liệu Tiếng Anh
[3]. Aixin Sun, Ee-Peng Lim. Hierarchical Text Classification and Evaluation.
Proceedings of the 2001 IEEE International Conference on Data Mining (ICDM 2001) Pages 521-528, California, USA, November 2001.
[4]. Decision Tree, Analysis mindtools.com
[5]. T.M.Michell, Machine Learning, Mc Graw Hill
[6]. Nghiệp vụ ngân hàng. TS. Nguyễn Minh Kiều. Trường Đại Học Kinh Tế TPHCM. Nhà xuất bản Thống Kê, tháng 12-2005.
[7]. David J.C. MacKay. Information Theory, Inference, and Learning Algorthms Cambridge: Cambridge University Press, 2003. ISBN 0521642981
[8]. “Text Classification from Labeled and Unlabeled Documents using EM”. Machine Learning. Kluwer Academic Publishers, Boston. Manufactured in The Netherlands.
[9]. “An Extensive Empirical Study of Feature Selection Metrics for Text Classification”. George Forman, Intelligent Enterprise Technology Laboratory. HP Laboratories Palo Alto, HPL-2002-147 (R.1), November 20th , 2002*.
[10]. K. Nigam, J. Lafferty, and A. McCallum, "Using maximunm Entropy for text classification", Proceeding of the 16th International Joint Conference Workshop on Machine Learning for Information Filtering: 61-67 Stockholm, Sweden, 1999.
‐ 47 -
[11]. “Support Vector Machine Active Learning with Applications to Text Classification”. Simon Tong and Daphne Koller.
[12]. Lewis, D. and W.Gale: 1994, “A Sequential Algorithm for Training Text Classifiers”. In: Proceedings of the Seventeenth Annual International ACM- SIGIR Conference on Research and Development in Information Retrieval.pp. 3-12, Springer-Verlag.
[13]. Soumen Chakrabarti. Mining the web- discovering knowledge from Hypertext Data Morgan Kaufman Publishers, trang 183-188.
[14]. Pierre Baldi, Paolo Frasconi, Padhraic Smyth. Modeling the Internet and the Web: Probabilistic Methods and Algorithms. Published by John Wiley & Sons Ltd, The Southern Gate, Chichester West Sussex PO19 8SQ, England - 2003.
[15]. Nguyen Viet Cuong, Nguyen Thi Thuy Linh Ha, Quang Thuy and Phan Xuan Hieu (2006). A Maximum Entropy Model for Text Classification.
The International Conference on Internet Information Retrieval 2006:134- 139, Hankuk Aviation University, December 6, 2006, Goyang-si, Korea.
[16]. Sebastiani, F.:2001, “Machine Learning in Automated Text
Categorisation”. Technical Report IEI-B4-31-1999, Istituto di Elaborazione dell’Informazione.
[17]. Svetlane Kiritchenko. Hierarchical Text Categorization and Its Application to Bioinformatics. Ph.D thesis in Computer Science – School of Information Technology and Engineering Faculty of Engineering University of Ottawa, Canada 2005.
[18]. The Kluwer international Series in Engineering and Computer Science. “Data mining in finance”. Advances in Relational and Hybrid Methods. Boris Kovalerchuk, Central Washington University, USA and EvgenII Vityaev, Instutue of Mathematics Russian Academy of Sciences, Russia. [19]. “Classification of Text Documents”. Department of Computer Science and
Engineering, Michigan State University, East Lansing, Michigan, USA. [20]. “Flexible Text Classification for Financia, ApplicationL The Facile
‐ 48 -
[21]. “The Effect of Financial Statement Classification of Hybrid Financial Instrucments on Financial Analysts’s Stock Price Judgments”. Patrick E.Hopkis.
[22]. Li, X. & Roth, D. “Learning Question Classifiers”, Proceedings of the 19th International Conference on Computational Linguistics (COLING):556– 562, 2002.
[23]. Phan, X.H, “JTextPro: A Java-based Text Processing Toolkit”, http://jtextpro.sourceforge.net
[24]. Thorsten Joachims, SVM multiclass Multi-Class Support Vector Machine, Cornell University Department of Computer Science. Http://svmlight.joachims.org/
[25]. Kadri Hacioglu and Wayne Ward. "Question Classification with Support Vector Machines and Error Correcting Codes". Proceedings of HLT- NAACL2003:28-30, Edmonton, Alberta, Canada, May 2003.
‐ 49 -
DANH SÁCH CÁC TỪ DỪNG
Danh sách các từ dùng được sử dụng trong thực nghiệm:
Nhận, rằng, cao, nhà, quá, riêng, gì, muốn, rồi, số, thấy, hay, lên, lần, nào, qua, bằng, điều, biết, lớn, khác, vừa, nếu, thời gian, họ, từng, đây, tháng, trước, chính, cả, việc, chưa, do, nĩi, ra, nên, đều, đi, tới, tơi, cĩ thể, cùng, vì, làm, lại, mới, ngày, đĩ, vẫn, mình, chỉ, thì, đang, cịn, bị, mà, năm, nhất, hơn, sau, ơng, rất, anh, phải, như, trên, tại, theo, khi, nhưng, vào, đến, nhiều, người, từ, sẽ, ở, cũng, khơng, về, để, này, những một, các, cho, được, với, cĩ, trong, đã, là, và, của, ảnh.
Ngồi ra thì một số literal khơng cĩ ý nghĩa trong văn bản khi tiến hành phân lớp cũng được loại bỏ: