Trong bài báo này, trình bày phương pháp phân loại văn bản tiếng Việt dựa trên mô hình chủ đề và phân loại dựa trên lý thuyết Naive Bayes. Đề xuất một cách tiếp cận mới để xây dựng tập từ chủ đề dựa trên mô hình xác suất có điều kiện nhằm giảm thiểu thời gian và chi phí so với việc xây dựng thủ công. Kết quả thực nghiệm cho thấy rằng, phương pháp của chúng tôi đề xuất có hiệu quả trong việc phân loại các văn bản tiếng Việt theo nhiều lớp chủ đề nhỏ hơn.
Nghiên cứu khoa học công nghệ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN MƠ HÌNH CHỦ ĐỀ VÀ LÝ THUYẾT NAIVE BAYES Bùi Khánh Linh1, Nguyễn Quỳnh Anh1, Nguyễn Nhật An2*, Nguyễn Thị Thu Hà1, Đào Thanh Tĩnh3 Tóm tắt: Trong báo này, chúng tơi trình bày phương pháp phân loại văn tiếng Việt dựa mô hình chủ đề phân loại dựa lý thuyết Naive Bayes.Chúng đề xuất cách tiếp cận để xây dựng tập từ chủ đề dựa mô hình xác suất có điều kiện nhằm giảm thiểu thời gian chi phí so với việc xây dựng thủ công Kết thực nghiệm cho thấy rằng, phương pháp chúng tơi đề xuất có hiệu việc phân loại văn tiếng Việt theo nhiều lớp chủ đề nhỏ Đồng thời, có độ xác cao thời gian xử lý phân loại nhanh so với phương pháp đề xuất trước Từ khóa: Khai phá liệu, Phân loại văn bản, Mơ hình chủ đề, Tiếng Việt, Naive Bayes ĐẶT VẤN ĐỀ Phân loại văn phần quan trọng việc khai phá liệu văn bản, nhiều hệ thống phân loại văn sử dụng kỹ thuật dựa tri thức (knowledge based) dựa luật xây dựng sẵn để tạo thành tập hợp quy tắc logic để hiểu phân loại văn Mỗi loại (hay gọi lớp – class) tương đương với chủ đề ví dụ “thể thao”, “chính trị” hay “nghệ thuật” Nhiệm vụ phân loại bắt đầu xây dựng từ tập văn D={d1,d2, ,dn} gọi tập huấn luyện, tài liệu di gán nhãn cj - với cj thuộc tập chủ đề C={c1,c2, ,cm} Nhiệm vụ xác định mơ hình phân loại, sở gán lớp để tài liệu dk phân loại xác vào chủ đề tập chủ đề C [1],[2],[3],[6] Bài tốn phân loại văn mơ thành trình học sau: Hình Quá trình học phân loại văn Đối với toán xử lý phân loại đối tượng, việc quan trọng xác định đặc trưng hầu hết toán này, số chiều đặc trưng lớn Bởi vậy, đề xuất trước ] [4], [5],[7-11], [13] gặp phải khó khăn sau: Thời gian tính tốn lớn (do số chiều đặc trưng nhiều) Tạp chí Nghiên cứu KH&CN quân sự, Số 37, 06 - 2015 89 Công nghệ thông tin & Khoa học máy tính Độ xác hiệu hệ thống bị hạn chế Một khó khăn khác cách xử lý phân loại tự động văn tiếng Việt, độ khó xử lý ngôn ngữ, ngôn ngữ tiếng Việt thuộc lớp ngôn ngữ đơn lập (single syllable language), từ tiếng Việt từ đơn từ ghép, khó khăn việc tách từ Bởi thế, chúng tơi tiếp cận tốn theo hai bước: xử lý giảm đặc trưng áp dụng lý thuyết Naive Bayes phân loại Xử lý giảm số chiều đặc trưng cách xây dựng mơ hình chủ đề (topic modeling), số lượng thuật ngữ (term) chủ đề giảm nhiều so với số từ văn bản, mặt khác giải tốn tách từ tiếng Việt nhờ làm tăng độ xác hệ thống, áp dụng lý thuyết Naive Bayes để phân loại văn theo chủ đề chọn [12] Phần báo trình bày phương pháp tiếp cận giải toán phân loại văn tiếng Việt dựa mơ hình chủ đề lý thuyết Bayes Phần báo trình bày cách thức thử nghiệm dựa phương pháp đề xuất phần cuối kết luận PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH CHỦ ĐỀ VÀ LÝ THUYẾT NAIVE BAYES 2.1 Xây dựng mơ hình chủ đề Khái niệm mơ hình chủ đề Griffiths Steyvers đưa lần vào năm 2002, 2003 Tiếp theo vào năm 2007, Griffiths cộng sinh mô hình xác suất cho văn dựa mơ hình phân phối ẩn Dirichlet (LDA) Nó mơ tả loại mơ hình thống kê để phát "chủ đề" trừu tượng có tập tài liệu Khi xem xét tài liệu bất kỳ, xuất từ tài liệu gợi ý cho người đọc chủ đề liên quan, xuất nhiều tài liệu khác mà [12]; Bảng Các từ chủ đề tập mô tả Andrews năm 2009 Theatre Stage Arts Play Dance Opera cast Music Band Rock Song Record Pop dance League Cup Season Team Game Match division Prison Years Sentence Jail Home Prisoner serving Rate Cent Inflation Recession Recovery Economy cut Pub Guinness Beer Drink Bar Dringking alcohol Market Stock Exchange Demand Share Group news Railway Train Station Steam Rail Engine track Air Aircraft Flying Flight Plane Airport pilot Với bảng trên, cột mô tả cho chủ đề riêng biệt Các nghiên cứu trước xây dựng mơ hình từ chủ đề dựa Bayes hay mơ hình Markov ẩn Trong báo này, lựa chọn cách thức xây dựng tập từ chủ đề dựa mơ hình xác suất điều kiện dựa tập liệu huấn luyện Tập liệu huấn luyện gồm văn phân loại trước người gán nhãn vào chủ đề thích hợp Hình minh họa số chủ đề tập không gian gồm n chủ đề khác Trong đó, ký hiệu o ký hiệu biểu diễn từ lõi (core term) ký hiệu x ký hiệu biểu diễn từ chủ đề không gian n chủ đề 90 B.K.Linh, N.Q.Anh, N.N.An,…, “Phân loại văn tiếng Việt … lý thuyết Naive Bayes.” Nghiên cứu khoa học cơng nghệ Hình Mơ hình chủ đề dựa xác suất Giả sử A={A1, ,Ak} không gian k chiều chủ đề Mỗi không gian Ai bao gồm tập từ thuộc khả xuất Ai khác Các khơng gian Ai Aj giao nhau, vậy, từ thuộc Ai thuộc khơng gian Aj khác Giả sử ta lấy từ gọi từ lõi (core term) không gian Ai (từ coi từ có trọng số cao nhất), khoảng cách từ cịn lại khơng gian Ai cần so với từ lõi Để tính khoảng cách từ so với lõi, chúng tơi sử dụng cách tính xác suất có điều kiện Trên thực tế, ta xây dựng mơ hình chủ đề theo phương pháp xác suất điều kiện theo bước sau: Tập văn huấn luyện gồm n văn D={d1, d2, , dn} Đối với văn phân vào chủ đề C={c1, c2, ,cm} Sử dụng VnTagger [14] để tách từ D trích rút tập danh từ N Tính tần suất xuất lớn danh từ chủ đề, gọi từ lõi (core) Tính xác suất có điều kiện từ cịn lại với từ core, từ thuộc chủ đề mà có xác suất điều kiện với từ core khác Dưới thuật toán mơ tả phương pháp xây dựng mơ hình chủ đề THUẬT TỐN XÂY DỰNG MƠ HÌNH CHỦ ĐỀ Đầu vào: - D: Tập văn huấn luyện gán nhãn tương ứng với chủ đề C; - VnTagger: Công cụ nhận dạng, tách từ; - C: Tập chủ đề Đầu ra: - T: Tập từ gán nhãn tương ứng với C Khởi tạo: V= ; N= ; n= ; For each di in Ck 1.1 Vk Vntagger(di); // nhận diện danh từ di đưa vào tập danh từ V For each Ck 2.1.1 If w(j) Vk then // Nếu từ wj thuộc tập danh từ V 2.1.1.1 n(j) n(j) +1; // đếm số lần xuất w(j) chủ đề Ck 2.1.1.2 Nk=argmax(n(j)); // Lấy tần suất lớn từ wj chủ đề Ck Tạp chí Nghiên cứu KH&CN quân sự, Số 37, 06 - 2015 91 Cơng nghệ thơng tin & Khoa học máy tính 3.1 3.1.1 For each Ck For all w in V if Pr(w(i)|Nk) 0 then Vk w(i); // cho từ w(i) vào tập Vk Ck 2.2 Phân loại văn tiếng Việt với mơ hình chủ đề Naive Bayes Sau xây dựng tập từ chủ đề lớp chủ đề Tiếp theo sử dụng phân loại Naive Bayes để xây dựng mơ hình phân loại tự động Sử dụng luật cực đại hóa hậu nghiệm (Maximum a posteriori-MAP) có cơng thức sau: (1) cmap arg max ( P (c | d )) arg max P (c) P (tk | c) cC cC 1 k nd Trong đó: Tk: từ văn bản; C : chủ đề; P(c|d): xác suất điều kiện lớp c với văn cho d, P(c): xác suất tiền nghiệm lớp c; P(tk|c): xác suất điều kiện từ tk với lớp c cho Sử dụng luật biến đổi Laplace cho công thức (1) chuyển thành Tct Tct P (t | c ) (Tct ' 1) (Tct ' ) B ' t 'V (2) t 'V Trong B’ tổng số tất từ chủ đề, Tct số lần xuất thuật ngữ t văn huấn luyện thuộc lớp c KẾT QUẢ THỰC NGHIỆM, THẢO LUẬN 3.1 Số liệu đầu vào 3.1.1 Xây dựng tập ngữ liệu Chúng thực nghiệm tập văn tiếng Việt Kho liệu xây dựng từ văn Internet Hiện tại, thu thập 3000 văn khác Chúng phải xây dựng kho liệu tiếng Việt gồm văn tải từ trang web http://vnexpress.net, http://vietnamnet.vn Để đảm bảo tính xác cao, văn xử lý thủ cơng tỉ mỉ, sau lưu lại vào file liệu txt Các file liệu sử dụng trình huấn luyện 3.1.2 Xây dựng mơ hình chủ đề Trong văn huấn luyện, phần tách từ sử dụng công cụ gán nhãn từ loại VnTagger, công cụ sử dụng kho ngữ liệu với 20,000 câu gán nhãn từ loại nhóm xử lý ngơn ngữ tự nhiên tiếng Việt phát triển nằm nhánh đề tài KC01.01/06-10 [14] Dữ liệu mơ hình chủ đề bao gồm danh từ, xử dụng công cụ VnTagger để tách danh từ tập liệu xây dựng, sau ta tiến hành xây dựng tập từ riêng chủ đề khác Để xây dựng tập từ chủ đề mục chủ đề, cần xác định từ lõi chủ đề Sau tính xác suất có điều kiện từ cịn lại so với từ lõi để xác định danh từ thuộc chủ đề 92 B.K.Linh, N.Q.Anh, N.N.An,…, “Phân loại văn tiếng Việt … lý thuyết Naive Bayes.” Nghiên cứu khoa học công nghệ Bảng mô tả số chủ đề từ chủ đề xây dựng phương pháp báo đề xuất Bảng Danh sách số chủ đề xây dựng TÊN CHỦ ĐỀ Nghệ thuật Thể thao Cơng nghệ Thị trường Tài Nhà đất Dân ca Bóng đá Lõi tứ Giá Cán cân Bất động sản Nghệ sĩ Bóng chày Tablet Thực phẩm Ngân hàng Nhà đất Showbiz Cầu thủ Điện thoại Chứng khoán Lãi suất Lãi suất Người mẫu Thủ môn Smartphone Chỉ số Tỉ lệ Biệt thự Ảnh Cup Iphone Lương Cắt giảm Chung cư Sân khấu Tỉ số Samsung Người mua Tài Chủ thầu Ca nhạc Chelsea Transformer Hàng hóa Chứng khốn Bất động sản 3.2 Phương pháp, cơng cụ mô Cách đánh giá phân loại văn tập trung vào đánh giá thực nghiệm không sử dụng cách đánh giá dựa phân tích lý thuyết Các đánh giá thực nghiệm phân loại văn sử dụng độ đo xác (precision) Ngồi ra, chúng tơi cịn lấy số đặc trưng thơ trung bình n văn thử nghiệm so sánh với phương pháp giảm bớt số đặc trưng thông qua việc xây dựng mơ hình chủ đề Số đặc trưng trung bình tính tổng số đặc trưng văn thử nghiệm tổng số văn thử nghiệm Trong đánh giá thực nghiệm so sánh với phương pháp truyền thống cách thức loại từ dừng, từ vô nghĩa văn phương pháp dựa mơ hình chủ đề 3.3 Kết mơ bình luận Để thử nghiệm sử dụng 220 văn với chủ đề khác nhau: Nghệ thuật, Thể thao, Công nghệ, Thị trường, Tài chính, Nhà đất Trong có chủ đề thị trường tài lĩnh vực tương đối giống Bảng Kết thực nghiêm Chủ đề Nghệ thuật Thể thao Công nghệ Thị trường Tài Nhà đất Số văn thử nghiệm 50 30 40 25 30 45 Phương pháp truyền thống Số đặc Độ trưng TB xác 1120 86% 835 88% 456 85.4% 727 78% 883 80.33% 954 82% Tạp chí Nghiên cứu KH&CN quân sự, Số 37, 06 - 2015 Phương pháp dựa mơ hình chủ đề Số đặc Độ trưng TB xác 435 91.6% 251 96% 216 97% 304 93% 378 94.8% 452 92% 93 Công nghệ thông tin & Khoa học máy tính Dựa cách đánh giá sử dụng độ đo xác cách so sánh với phương pháp truyền thống thấy có giảm chiều rõ rệt đặc trưng, số lượng đặc trưng sau xây dựng mơ hình chủ đề giảm 40.9% so với số lượng đặc trưng ban đầu tổng số 220 văn thực nghiệm (6 chủ đề khác nhau) Độ xác trung bình chủ đề tăng từ 83% lên tới 94.07% KẾT LUẬN Mơ hình chủ đề áp dụng vào nhiều tốn xử lý ngơn ngữ tự nhiên giới, dựa mơ hình chủ đề này, công cụ khai phá văn xây dựng đảm bảo tính ổn định, độ xác cao giảm thiểu chi phí mặt thời gian xử lý so với liệu thô Tuy nhiên, với cách thức xây dựng sử dụng mơ hình học xác suất HMM hay Naive Bayes mang lại tốn mặt chi phí thời gian xây dựng Trong báo này, sử dụng cách tiếp cận khác để xây dựng mơ hình chủ đề, giảm bớt thời gian chi phí, đặc biệt ngơn ngữ tiếng Việt chưa xây dựng mơ hình chủ đề, giải pháp giúp giải tốn xây dựng cơng cụ khai phá văn tiếng Việt Với mơ hình chủ đề xây dựng, tiến hành thử nghiệm với công cụ phân loại văn bản, kết thực nghiệm cho thấy hiệu phương pháp này, lớp văn phân loại thành lớp nhỏ hơn, số chiều đặc trưng giảm tới 50% so với số đặc trưng lúc ban đầu chưa xử lý Lời cảm ơn: Nhóm tác giả trân trọng cảm ơn giúp đỡ ý tưởng TS Nguyễn Lê Minh, TS Nguyễn Phương Thái, TS Nguyễn Văn Vinh – Đại học Công nghệ, Đại học Quốc Gia Hà nội hỗ trợ đóng góp giúp chúng tơi cách tiếp cận vấn đề giảm chiều đặc trưng xử lý toán liệu lớn TÀI LIỆU THAM KHẢO [1] C Apte, F Damerau, S Weiss “Automated Learning of Decision Rules for Text Categorization”,ACM Trans on Information Systems, 12(3), pp 233–251, 1994 [2] S Bhagat, G Cormode, S Muthukrishnan Node Classification in Social Networks, Book Chapter inSocial Network Data Analytics, Ed Charu Aggarwal, Springer, 2011 [3] Ana Cardoso-Cachopo, Arlindo L Oliveira, “An Empirical Comparison of Text Categorization Methods”, Lecture Notes in Computer Science, Volume 2857, Jan 2003, pages 183 – 196 [4] Han X., Zu G., Ohyama W., Wakabayashi T., Kimura F., “Accuracy Improvement of Automatic Text Classification Based on Feature Transformation and Multi-classifier Combination, LNCS”, Volume 3309, Jan 2004, pp 463-468 [5] Novovicova J., Malik A., and Pudil P., “Feature Selection Using Improved Mutual Information for Text Classification”, SSPR&SPR 2004, LNCS 3138, pp 1010, 2004 [6] Sebastiani F., “Machine Learning in Automated Text Categorization”, ACM Computing Surveys, vol 34 (1),2002, pp 1-47 [7] Soucy P and Mineau G., “Feature Selection Strategies for Text Categorization”, AI 2003, LNAI 2671, 2003, pp 505-509 [8] Sousa P., Pimentao J P., Santos B R and Moura-Pires F., “Feature Selection Algorithms to Improve Documents Classification Performance”, LNAI 2663, 2003, pp 288-296 94 B.K.Linh, N.Q.Anh, N.N.An,…, “Phân loại văn tiếng Việt … lý thuyết Naive Bayes.” Nghiên cứu khoa học công nghệ [9] Torkkola K., “Discriminative Features for Text Document Classification”, Proc International Conference on Pattern Recognition, Canada, 2002 [10] Vinciarelli A., “Noisy Text Categorization, Pattern Recognition”, 17th International Conference on (ICPR'04) , 2004, pp 554-557 [11] Zu G., Ohyama W., Wakabayashi T., Kimura F., "Accuracy improvement of automatic text classification based on feature transformation": Proc: the 2003 ACM Symposium on Document Engineering, November 20-22, 2003, pp.118-120 [12] Mark Steyvers, Tom Griffiths, Probabilistic Topic Models, In: In T Landauer, D McNamara, S Dennis, and W Kintsch (eds),Latent Semantic Analysis: A Road to Meaning Laurence Erlbaum [13] Ha Nguyen Thi Thu ; Quynh Nguyen Huu ; Khanh Nguyen Thi Hong ; Hung Le Manh, “Optimization for Vietnamese text classification problem by reducing features set”, Information Science and Service Science and Data Mining (ISSDM), 2012 6th IEEE International Conference on New Trends in , Page(s): 209 – 212 [14] http://vlsp.vietlp.org:8080 ABSTRACT VIETNAMESE TEXT CLASSIFICATION BASED ON TOPIC MODELING AND NAÏVE BAYES In this paper, we present a method for Vietnamese text classification based on topic modeling and Naïve Bayes theory In our method, we use a new method for building topic modeling by using conditional probability The experimental results, our method really effectively, high accuracy and can reduce complex of calculating This method process faster than proposed methods Keywords: Data mining, Text Classification, Topic Modeling, Vietnamese text, Naive Bayes Nhận ngày 16 tháng năm 2015 Hoàn thiện ngày 23 tháng năm 2015 Chấp nhận đăng ngày 12 tháng 06 năm 2015 Địa chỉ: Đại học Điện lực; Viện Khoa học công nghệ quân sự; * Email: nguyennhatan@gmail.com; 3Học viện KTQS Tạp chí Nghiên cứu KH&CN quân sự, Số 37, 06 - 2015 95 ... tốn phân loại văn tiếng Việt dựa mơ hình chủ đề lý thuyết Bayes Phần báo trình bày cách thức thử nghiệm dựa phương pháp đề xuất phần cuối kết luận PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN... từ w(i) vào tập Vk Ck 2.2 Phân loại văn tiếng Việt với mơ hình chủ đề Naive Bayes Sau xây dựng tập từ chủ đề lớp chủ đề Tiếp theo sử dụng phân loại Naive Bayes để xây dựng mơ hình phân loại tự... N.N.An,…, ? ?Phân loại văn tiếng Việt … lý thuyết Naive Bayes. ” Nghiên cứu khoa học công nghệ Bảng mô tả số chủ đề từ chủ đề xây dựng phương pháp báo đề xuất Bảng Danh sách số chủ đề xây dựng TÊN CHỦ ĐỀ