L ỜI MỞ ĐẦU
4.3.1. Thiết lập thông số cho Entropy cực đạ i
Với thuật toán Entropy cực đại, khóa luận sử dụng thư viện của tác giả Phan Xuân Hiếu [23], việc sử dụng đòi hỏi phải thiết lập một số thông số cho mô hình. Các thông số này được lựa chọn qua nhiều lần thử nghiệm, chi tiết được mô tảở bảng 4.
Bảng 4. Tham số huấn luyện mô hình Entropy cực đại
Tham số Giá trị Mô tả
numIterations 10 Số bước lặp trong quá trình huấn luyện.
fRareThreshold 0
Các mệnh đề mô tả thông tin ngữ cảnh phải xuất hiện nhiều hơn số này thì sẽ được dùng để xây dựng các đặc trưng. cpRareThreshold 0 Các đặc trưng xuất hiện nhiều hơn số này thì sẽ không bị loại bỏ khỏi tập dữ liệu huấn luyện. 4.3.2. Kết quả thực nghiệm
Tiến hành thực nghiệm trên tập dữ liệu huấn luyện với số lượng bước lặp là 10. Các kết quả phân lớp thu được khá khả quan với thời gian khoảng 0.4594 giây/lần và được mô tả trong một số bảng biểu và đồ thị sau.
‐ 41 -
Bảng 5. Kết quả 10 lần huấn luyện với Entropy cực đại
Độ chính xác Độ hồi tưởng F1 Bước lặp Thời
gian Avg 1 Avg 2 Avg 1 Avg 2 Avg1 Avg2 1 0.766 81.04 55.87 39.43 55.87 53.05 55.87 2 0.485 81.95 81.56 74.95 81.56 78.29 81.56 3 0.453 82.99 82.68 76.39 82.68 79.56 82.68 4 0.406 84.59 87.15 84.75 87.15 84.67 87.15 5 0.422 86.38 89.39 86.43 89.39 86.40 89.39 6 0.422 87.64 90.22 86.98 90.22 87.31 90.22 7 0.39 84.67 87.43 84.28 87.43 84.48 87.43 8 0.422 86.49 88.83 86.46 88.83 86.48 88.83 9 0.39 87.73 89.66 87.47 89.66 87.60 89.66 10 0.407 86.73 88.83 86.92 88.83 86.82 88.83 Trung bình 0.4563 84.821 84.162 79.406 84.162 81.466 84.162
‐ 42 -
Qua bảng trên, cho thấy kết quả khả quan nhất là ở bước lặp thứ 6 với độ đo F1 đạt 90.22% chi tiết bước lặp này như sau:
Bảng 6. Kết quả của bước lặp thứ 6 Tên lớp Độ chính xác Độ hồi tưởng F1 NgoaiTe 96.64 96.00 96.32 HuyDongVon 71.43 73.53 72.46 DichVuThanhToan 96.77 88.24 92.31 ChungKhoan 87.84 92.86 90.28 TinDung 85.51 84.29 84.89 Avg1 87.64 86.98 87.31 Avg2 90.22 90.22 90.22
Trong bảng kết quả trên thì kết quả của phân lớp HuyDongVon là kém nhất với độ đo chính xác là 72.46% và tốt nhất là phân lớp NgoaiTe với độ đo chính xác là 96.32%.
‐ 43 - 0 10 20 30 40 50 60 70 80 90 100 1 2 3 4 5 6 7 8 9 10 Bước lặp Độ đ o F1 F1-Avg2 F1-Avg1 Hình 7. Đồ thị biểu diễn sự phụ thuộc của độđo F1 vào số lần lặp 0 10 20 30 40 50 60 70 80 90 100 1 2 3 4 5 6 7 8 9 10 Bước lặp Độ chính x ác c ủ a phân l ớ p Độ chính xác Độ hồi tưởng F1 Hình 8. Tổng hợp độđo qua 10 lần huấn luyện
‐ 44 - 96.32 72.46 92.31 90.28 84.89 0 20 40 60 80 100 120 Ngoa iTe HuyD ongV on Dich VuTha nhToa n Chung Khoan TinDu ng Lớp Độ đ o F1 Hình 9. Biểu đồ biểu diễn độđo F1 của các lớp trong lần lặp thứ 6 4.4. Đánh giá kết quả thực nghiệm
Việc tiến hành thực nghiệm trên tập dữ liệu huấn luyện là 717 dữ liệu cho 5 phân lớp cho kết quả tốt về độ đo F1 là 90.22%. Cả 5 bộ phân lớp đều cho độ đo F1 gần 90%, đặc biệt, bộ phân lớp NgoaiTeđạt kết quả rất cao là 96.32% cho cả độ chính xác và độ hồi tưởng. Bộ phân lớp HuyDongVon thu được kết quả thấp nhất với độđo F1 là 72.46%.
Do số lượng dữ liệu mẫu cho từng lớp khá cân bằng nhau nên khả năng đoán nhận của bộ phân lớp là khá tốt. Nhưng muốn khả năng này cao hơn nữa thì tập dữ liệu huấn luyện cần gia tăng thêm về số lượng, đảm bảo cung cấp đầy đủ các ràng buộc từ dữ liệu cho mô hình.
Như đã trình bày ở mục 2.4, tư tưởng chủ đạo của nguyên lý Entropy cực đại là thay vì thêm vào các ràng buộc mới, mô hình tự tìm ra trong dữ liệu (tập câu hỏi mẫu) những ràng buộc và đặc trưng riêng cho từng phân lớp. Điều này làm cho sự phân lớp trong khi sử dụng mô hình Entropy cực đại được đảm bảo cả khi tập dữ liệu không có số lượng quá lớn và mỗi tài liệu chỉ chứa ít đặc trưng.
Từ kết quả của thực nghiệm cho thấy khi xây dựng bộ phân lớp văn bản tiếng Việt sử dụng mô hình Entropy cực đại cho kết quả rất tốt.
‐ 45 -
KẾT LUẬN
Từ việc nghiên cứu lý thuyết và kết quả thực nghiệm có thể khẳng định rằng bài toán phân lớp văn bản thực sự có vai trò ý nghĩa rất quan trọng trong việc tổ chức, quản lý cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn, đặc biệt với nguồn tài nguyên về lĩnh vực tài chính ngân hàng.
Sựđa dạng của các thuật toán phân lớp dữ liệu làm cho việc lựa chọn thuật toán để xây dựng module phân lớp văn bản cho từng ngôn ngữ trở nên khó khăn hơn.
Khóa luận tiếp cận các vấn đề nói trên và nghiên cứu các thuật toán phổ biến hiện nay, từ đó đưa ra phương pháp và thuật toán áp dụng vào phân lớp dữ liệu ngân hàng tài chính trong tiếng Việt.
Về mặt nội dung, khóa luận đã đạt được những kết quả sau:
-Nghiên cứu về bài toán phân lớp văn bản: khái niệm, mô hình, đánh giá phân lớp. Luận văn đã tập hợp và trình bày một số phương pháp phổ biến nhất hiện nay như k người láng giềng gần nhất, mô hình cây quyết định, mô hình Entropy cực đại, SVM. Sau đó trình bày ưu nhược điểm của từng phương pháp, từ đó đưa ra quyết định sử dụng mô hình entropy cực đại khi áp dụng cho tiếng Việt.
-Xây dựng nhãn / lớp cho văn bản tài chính ngân hàng trong tiếng Việt.
-Xây dựng chương trình thi hành phân lớp văn bản được viết trên ngôn ngữ Java, môi trường Eclipse được tích hợp từ module tiền xử lý văn bản (do khóa luận xây dựng) và module phân lớp (khai thác mã nguồn bộ phân lớp Entropy cực đại). Kết quả thực nghiệm trên tập dữ liệu về lĩnh vực tài chính ngân hàng được crawler từ Web cho thấy tính khả thi của chương trình phân lớp văn bản sử dụng phương pháp Entropy cực đại với độđo F1 đạt 90.22%.
Bên cạnh đó, do thời gian và kiến thức có hạn, khóa luận vẫn còn một vài hạn chế sau:
-Chương trình sử dụng thuật toán Entropy cực đại cho bài toán phân lớp văn bản mới thi hành trên một bộ dữ liệu tiếng Việt nên chưa đối sánh kết quả trên nhiều bộ dữ liệu. Chưa thi hành nhiều thuật toán để chọn được phương pháp tốt.
Trong tương lại, khóa luận sẽ tiếp tục hoàn thiện mặt hạn chế đã đưa ra đó là sử dụng một số thuật toán phân lớp khác với Entropy cực đại để tìm ra được thuật toán hiệu nhất đối với bài toán phân lớp dữ liệu tiếng Việt. Đồng thời, thử nghiệm trên nhiều bộ dữ liệu tiếng Việt khác nhau.
‐ 46 -
TÀI LIỆU THAM KHẢO
Tài liệu Tiếng Việt
[1]. Nguyễn Thị Hương Thảo, “Phân lớp phân cấp Taxonomy văn bản Web và
ứng dụng”, Khóa luận tốt nghiệp đại học, Đại học Công nghệ, ĐHQGHN, 2006.
[2]. Nguyễn Minh Tuấn, “Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa Tiếng Việt trong lĩnh vực y tế ”, Khóa luận tốt nghiệp đại học, Đại học Công Nghệ, ĐHQGHN, 2008.
Tài liệu Tiếng Anh
[3]. Aixin Sun, Ee-Peng Lim. Hierarchical Text Classification and Evaluation.
Proceedings of the 2001 IEEE International Conference on Data Mining (ICDM 2001) Pages 521-528, California, USA, November 2001.
[4]. Decision Tree, Analysis mindtools.com
[5]. T.M.Michell, Machine Learning, Mc Graw Hill
[6]. Nghiệp vụ ngân hàng. TS. Nguyễn Minh Kiều. Trường Đại Học Kinh Tế TPHCM. Nhà xuất bản Thống Kê, tháng 12-2005.
[7]. David J.C. MacKay. Information Theory, Inference, and Learning Algorthms Cambridge: Cambridge University Press, 2003. ISBN 0521642981
[8]. “Text Classification from Labeled and Unlabeled Documents using EM”. Machine Learning. Kluwer Academic Publishers, Boston. Manufactured in The Netherlands.
[9]. “An Extensive Empirical Study of Feature Selection Metrics for Text Classification”. George Forman, Intelligent Enterprise Technology Laboratory. HP Laboratories Palo Alto, HPL-2002-147 (R.1), November 20th , 2002*.
[10]. K. Nigam, J. Lafferty, and A. McCallum, "Using maximunm Entropy for text classification", Proceeding of the 16th International Joint Conference Workshop on Machine Learning for Information Filtering: 61-67 Stockholm, Sweden, 1999.
‐ 47 -
[11]. “Support Vector Machine Active Learning with Applications to Text Classification”. Simon Tong and Daphne Koller.
[12]. Lewis, D. and W.Gale: 1994, “A Sequential Algorithm for Training Text Classifiers”. In: Proceedings of the Seventeenth Annual International ACM- SIGIR Conference on Research and Development in Information Retrieval.pp. 3-12, Springer-Verlag.
[13]. Soumen Chakrabarti. Mining the web- discovering knowledge from Hypertext Data Morgan Kaufman Publishers, trang 183-188.
[14]. Pierre Baldi, Paolo Frasconi, Padhraic Smyth. Modeling the Internet and the Web: Probabilistic Methods and Algorithms. Published by John Wiley & Sons Ltd, The Southern Gate, Chichester West Sussex PO19 8SQ, England - 2003.
[15]. Nguyen Viet Cuong, Nguyen Thi Thuy Linh Ha, Quang Thuy and Phan Xuan Hieu (2006). A Maximum Entropy Model for Text Classification.
The International Conference on Internet Information Retrieval 2006:134- 139, Hankuk Aviation University, December 6, 2006, Goyang-si, Korea. [16]. Sebastiani, F.:2001, “Machine Learning in Automated Text
Categorisation”. Technical Report IEI-B4-31-1999, Istituto di Elaborazione dell’Informazione.
[17]. Svetlane Kiritchenko. Hierarchical Text Categorization and Its Application to Bioinformatics. Ph.D thesis in Computer Science – School of Information Technology and Engineering Faculty of Engineering University of Ottawa, Canada 2005.
[18]. The Kluwer international Series in Engineering and Computer Science. “Data mining in finance”. Advances in Relational and Hybrid Methods. Boris Kovalerchuk, Central Washington University, USA and EvgenII Vityaev, Instutue of Mathematics Russian Academy of Sciences, Russia. [19]. “Classification of Text Documents”. Department of Computer Science and
Engineering, Michigan State University, East Lansing, Michigan, USA. [20]. “Flexible Text Classification for Financia, ApplicationL The Facile
‐ 48 -
[21]. “The Effect of Financial Statement Classification of Hybrid Financial Instrucments on Financial Analysts’s Stock Price Judgments”. Patrick E.Hopkis.
[22]. Li, X. & Roth, D. “Learning Question Classifiers”, Proceedings of the 19th International Conference on Computational Linguistics (COLING):556– 562, 2002.
[23]. Phan, X.H, “JTextPro: A Java-based Text Processing Toolkit”,
http://jtextpro.sourceforge.net
[24]. Thorsten Joachims, SVM multiclass Multi-Class Support Vector Machine, Cornell University Department of Computer Science. Http://svmlight.joachims.org/
[25]. Kadri Hacioglu and Wayne Ward. "Question Classification with Support Vector Machines and Error Correcting Codes". Proceedings of HLT- NAACL2003:28-30, Edmonton, Alberta, Canada, May 2003.
‐ 49 -
DANH SÁCH CÁC TỪ DỪNG
Danh sách các từ dùng được sử dụng trong thực nghiệm:
Nhận, rằng, cao, nhà, quá, riêng, gì, muốn, rồi, số, thấy, hay, lên, lần, nào, qua, bằng, điều, biết, lớn, khác, vừa, nếu, thời gian, họ, từng, đây, tháng, trước, chính, cả, việc, chưa, do, nói, ra, nên, đều, đi, tới, tôi, có thể, cùng, vì, làm, lại, mới, ngày, đó, vẫn, mình, chỉ, thì, đang, còn, bị, mà, năm, nhất, hơn, sau, ông, rất, anh, phải, như, trên, tại, theo, khi, nhưng, vào, đến, nhiều, người, từ, sẽ, ở, cũng, không, về, để, này, những một, các, cho, được, với, có, trong, đã, là, và, của, ảnh.
Ngoài ra thì một số literal không có ý nghĩa trong văn bản khi tiến hành phân lớp cũng được loại bỏ: