Trong bài viết đề xuất một giải pháp mới trong xử lý tiếng Việt bằng cách xây dựng mô hình chủ đề tiếng Việt. Phương pháp này sử dụng cách thức tìm một từ lõi và phát triển để tự sinh ra các từ khác trong chủ đề dựa trên Naive Bayes. Dựa trên tập dữ liệu huấn luyện, chúng tôi tính toán xác suất của các từ trong mô hình chủ đề tiếng Việt. Kết quả thực nghiệm cho thấy rằng, phương pháp của chúng tôi đề xuất có hiệu quả trong việc phân loại các văn bản tiếng Việt theo nhiều lớp chủ đề nhỏ hơn. Đồng thời, có độ chính xác khá cao và thời gian xử lý phân loại nhanh hơn so với các phương pháp đã được đề xuất trước đó.
Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX ―Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)‖; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00065 PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN MƠ HÌNH CHỦ ĐỂ Bùi Khánh Linh 1, Nguyễn Thị Thu Hà1, Nguyễn Thị Ngọc Tú1, Đào Thanh Tĩnh2 Khoa CNTT – Trường Đại học Điện lực – Hà Nội Khoa CNTT – Trường Đại học Lê Quý Đôn – Hà Nội linbk@epu.edu.vn, hantt@epu.edu.vn, tunn@epu.edu.vn, tinhdt@mta.edu.vn TÓM TẮT— Trong báo này, đề xuất giải pháp xử lý tiếng Việt cách xây dựng mơ hình chủ đề tiếng Việt Phương pháp sử dụng cách thức tìm từ lõi phát triển để tự sinh từ khác chủ đề dựa Naive Bayes Dựa tập liệu huấn luyện, chúng tơi tính tốn xác suất từ mơ hình chủ đề tiếng Việt Kết thực nghiệm cho thấy rằng, phương pháp chúng tơi đề xuất có hiệu việc phân loại văn tiếng Việt theo nhiều lớp chủ đề nhỏ Đồng thời, có độ xác cao thời gian xử lý phân loại nhanh so với phương pháp đề xuất trước Từ khóa— Mơ hình chủ đề, tiếng Việt, khai phá văn bản, từ lõi, Naive Bayes I ĐẶT VẤN ĐỀ Phân loại văn phần quan trọng việc khai phá liệu văn bản, nhiều hệ thống phân loại văn sử dụng kỹ thuật dựa tri thức (knowledge based) dựa luật xây dựng sẵn để tạo thành tập hợp quy tắc logic để hiểu phân loại văn Mỗi loại (hay gọi lớp – class) tương đương với chủ đề ví dụ ―thể thao‖, ―chính trị‖ hay ―nghệ thuật‖ Nhiệm vụ phân loại bắt đầu xây dựng từ tập văn D={d1,d2, ,dn} gọi tập huấn luyện, tài liệu di gán nhãn cj - với cj thuộc tập chủ đề C={c1,c2, ,cm} Nhiệm vụ xác định mơ hình phân loại, sở gán lớp để tài liệu dk phân loại xác vào chủ đề tập chủ đề C [1],[2],[3],[6] Bài toán phân loại văn mơ thành q trình học sau: Huấn luyện Nhãn Thuật tốn học Tập văn Trích chọn đặc trưng Văn Trích chọn đặc trưng Bộ phân loại Nhãn Phân loại Hình Quá trình học phân loại văn Đối với toán xử lý phân loại đối tượng, việc quan trọng xác định đặc trưng hầu hết toán này, số chiều đặc trưng lớn Bởi vậy, đề xuất trước [4], [5],[7-11], [13] gặp phải khó khăn sau: Thời gian tính tốn lớn (do số chiều đặc trưng nhiều) Độ xác hiệu hệ thống bị hạn chế Một khó khăn khác cách xử lý phân loại tự động văn tiếng Việt, độ khó xử lý ngơn ngữ, ngơn ngữ tiếng Việt thuộc lớp ngôn ngữ đơn lập (single syllable language), từ tiếng Việt từ đơn từ ghép, khó khăn việc tách từ Bởi thế, tiếp cận toán theo hai bước: xử lý giảm đặc trưng áp dụng lý thuyết Naive Bayes phân loại Xử lý giảm số chiều đặc trưng cách xây dựng mơ hình chủ đề (topic modeling), số lượng thuật ngữ (term) chủ đề giảm nhiều so với số từ văn bản, mặt khác giải toán tách từ tiếng Việt nhờ làm tăng độ xác hệ thống, áp dụng lý thuyết Naive Bayes để phân loại văn theo chủ đề chọn [12] Bùi Khánh Linh, Nguyễn Thị Thu Hà, Nguyễn Thị Ngọc Tú, Đào Thanh Tĩnh 533 Phần II báo trình bày phương pháp tiếp cận giải toán phân loại văn tiếng Việt dựa mơ hình chủ đề lý thuyết Bayes Phần III báo trình bày cách thức thử nghiệm dựa phương pháp đề xuất phần II cuối kết luận II PHƢƠNG PHÁP PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN MƠ HÌNH CHỦ ĐỀ VÀ LÝ THUYẾT NAIVE BAYES 2.1 Xây dựng mơ hình chủ đề Khái niệm mơ hình chủ đề Griffiths Steyvers đưa lần vào năm 2002, 2003 Tiếp theo vào năm 2007, Griffiths cộng sinh mơ hình xác suất cho văn dựa mơ hình phân phối ẩn Dirichlet (LDA) Nó mơ tả loại mơ hình thống kê để phát "chủ đề" trừu tượng có tập tài liệu Khi xem xét tài liệu bất kỳ, xuất từ tài liệu gợi ý cho người đọc chủ đề liên quan, xuất nhiều tài liệu khác mà [12] Bảng Các từ chủ đề tập mô tả Andrews năm 2009 Theatre Stage Arts Play Dance Opera cast Music Band Rock Song Record Pop dance League Cup Season Team Game Match division Prison Years Sentence Jail Home Prisoner serving Rate Cent Inflation Recession Recovery Economy cut Pub Guinness Beer Drink Bar Dringking alcohol Market Stock Exchange Demand Share Group news Railway Train Station Steam Rail Engine track Air Aircraft Flying Flight Plane Airport pilot Với bảng trên, cột mô tả cho chủ đề riêng biệt Các nghiên cứu trước xây dựng mơ hình từ chủ đề dựa Bayes hay mơ hình Markov ẩn Trong báo này, chúng tơi lựa chọn cách thức xây dựng tập từ chủ đề dựa mơ hình xác suất điều kiện dựa tập liệu huấn luyện Tập liệu huấn luyện gồm văn phân loại trước người gán nhãn vào chủ đề thích hợp Hình minh họa số chủ đề tập không gian gồm n chủ đề khác Trong đó, ký hiệu o ký hiệu biểu diễn từ lõi (core term) ký hiệu x ký hiệu biểu diễn từ chủ đề không gian n chủ đề Tiền tệ Tài Thể thao Thể thao Bóng đá Hình Mơ hình chủ đề dựa xác suất Giả sử A={A1, ,Ak} không gian k chiều chủ đề Mỗi không gian Ai bao gồm tập từ thuộc khả xuất Ai khác Các không gian Ai Aj giao nhau, vậy, từ thuộc Ai thuộc khơng gian Aj khác Giả sử ta lấy từ gọi từ lõi (core term) không gian Ai (từ coi từ có trọng số cao nhất), khoảng cách từ cịn lại khơng gian Ai cần so với từ lõi Để tính khoảng cách từ so với lõi, chúng tơi sử dụng cách tính xác suất có điều kiện Trên thực tế, ta xây dựng mơ hình chủ đề theo phương pháp xác suất điều kiện theo bước sau: Tập văn huấn luyện gồm n văn D={d1, d2, , dn} Đối với văn phân vào chủ đề C={c1, c2, ,cm} Sử dụng VnTagger [14] để tách từ D trích rút tập danh từ N Tính tần suất xuất lớn danh từ chủ đề, gọi từ lõi (core) Tính xác suất có điều kiện từ lại với từ core, từ thuộc chủ đề mà có xác suất điều kiện với từ core khác Dưới thuật tốn mơ tả phương pháp xây dựng mơ hình chủ đề PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN MƠ HÌNH CHỦ ĐỂ 534 THUẬT TỐN XÂY DỰNG MƠ HÌNH CHỦ ĐỀ Đầu vào: - D: Tập văn huấn luyện gán nhãn tương ứng với chủ đề C; - VnTagger: Công cụ nhận dạng, tách từ; - C: Tập chủ đề Đầu ra: - T: Tập từ gán nhãn tương ứng với C Khởi tạo: V= ; N=0; n=0; For each di in Ck Vk Vntagger(di); // nhận diện danh từ di đưa vào tập danh từ V For each Ck If w(j) Vk then // Nếu từ wj thuộc tập danh từ V n(j) n(j) +1; // đếm số lần xuất w(j) chủ đề Ck Nk=argmax(n(j)); // Lấy tần suất lớn từ wj chủ đề Ck For each Ck For all w in V if Pr(w(i)|Ni) 0 then Vk w(i); // cho từ w(i) vào tập Vk Ck 2.2 Phân loại văn tiếng Việt với mơ hình chủ đề Naive Bayes Sau xây dựng tập từ chủ đề lớp chủ đề Tiếp theo sử dụng phân loại Naive Bayes để xây dựng mơ hình phân loại tự động Ý tưởng: Ý tưởng cách tiếp cận Naïve Bayes sử dụng xác suất có điều kiện từ chủ đề để dự đoán xác suất chủ đề văn cần phân loại Điểm quan trọng phương pháp chỗ giả định xuất tất từ văn độc lập với Giả định làm cho việc tính tốn NB hiệu nhanh chóng phương pháp khác khơng sử dụng việc kết hợp từ để đưa phán đoán chủ đề Kết dự đoán bị ảnh hưởng kích thước tập liệu, chất lượng khơng gian đặc trưng… Cài đặt: Mô tả vector đặc trưng văn bản: Là vector có số chiều số đặc trưng toàn tập liệu, đặc trưng đơi khác Nếu văn có chứa đặc trưng có giá trị 1, ngược lại Thuật toán gồm giai đoạn huấn luyện phân lớp: Huấn luyện: tính Đầu vào: - Các vector đặc trưng văn tập huấn luyện (Ma trận MxN, với M số vector đặc trưng tập huấn luyện, N số đặc trưng vector) Tập nhãn/lớp cho vector đặc trưng tập huấn luyện Đầu ra: - Các giá trị xác suất Cơng thức tính làm trơn Laplace Trong đó: |docsi|: số văn tập huấn luyện thuộc phân lớp i Bùi Khánh Linh, Nguyễn Thị Thu Hà, Nguyễn Thị Ngọc Tú, Đào Thanh Tĩnh 535 |total docs|: số văn tập huấn luyện m số phân lớp Khởi tạo mảng A, B có kích thước m Duyệt qua văn tập liệu, đếm số văn phân lớp lưu vào A Tính xác suất cho phân lớp theo cơng thức lưu vào mảng B Cơng thức tính làm trơn Laplace: | | Trong đó: | |: Số văn trong phân lớp i có đặc trưng thứ k mang giá trị xk (hay số văn lớp i, có xuất hiện/khơng xuất đặc trưng k) : Số văn tập huấn luyện thuộc phân lớp i Số giá trị có đặc trưng thứ k Với vector đặc trưng mô tả bên trên, d k mang giá trị 2, tương ứng với xuất không xuất Do có giá trị, ta tính nhanh xác suất khơng xuất theo cơng thức ̅ Khởi tạo mảng chiều C, chiều có kích thước m (số phân lớp), chiều có kích thước N (số đặc trưng), chiều có kích (dk) để lưu giá trị Duyệt qua văn tập liệu, tiến hành thống kê số cần thiết để tính xác suất cơng thức lưu vào mảng C theo Phân lớp: Đầu vào: Vector đặc trưng văn cần phân lớp Các giá trị xác suất Đầu ra: Nhãn/lớp văn cần phân loại Cơng thức tính xác suất thuộc phân lớp i biết trước mẫu X ∏ Dựa vào vector đặc trưng văn cần phân lớp, áp dụng công thức tính xác suất thuộc phân lớp cho văn bản, chọn lớp có xác suất cao III KẾT QUẢ THỰC NGHIỆM, THẢO LUẬN 3.1 Số liệu đầu vào 3.1.1 Xây dựng tập ngữ liệu Chúng thực nghiệm tập văn tiếng Việt Tài liệu sử dụng để xây dựng kho từ chủ đề văn gán nhãn theo chủ đề Cho đến thời điểm này, kho ngữ liệu chuẩn phục vụ cho xây dựng kho từ chủ đề cho tiếng Việt chưa có Do đó, ta phải xây dựng kho liệu cách thủ công cách tìm kiếm văn nguồn thơng tin như: http://vnexpress.net, http://vietnamnet.vn, Tập văn đầu vào văn dạng thô, để đơn giản cho việc xử lý liệu, với văn đầu vào, ta thực hiệc qua bước tiền xử lý ký tự để đưa văn dạng xâu chuẩn Để đảm bảo tính xác cao, văn xử lý thủ cơng tỉ mỉ sau lưu lại vào file liệu txt gán nhãn theo chủ đề Các file liệu sử dụng trình huấn luyện 3.1.2 Xây dựng mơ hình chủ đề Trong văn huấn luyện, phần tách từ sử dụng công cụ gán nhãn từ loại VnTagger, công cụ sử dụng kho ngữ liệu với 20,000 câu gán nhãn từ loại nhóm xử lý ngơn ngữ tự nhiên tiếng Việt phát triển nằm nhánh đề tài KC01.01/06-10 [14] Dữ liệu mơ hình chủ đề bao gồm danh từ, sử dụng công cụ VnTagger để tách danh từ tập liệu xây dựng, sau ta tiến hành xây dựng tập từ riêng chủ đề khác PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH CHỦ ĐỂ 536 Để xây dựng tập từ chủ đề mục chủ đề, cần xác định từ lõi chủ đề Sau tính xác suất có điều kiện từ lại so với từ lõi để xác định danh từ thuộc chủ đề Bảng mô tả số chủ đề từ chủ đề xây dựng phương pháp báo đề xuất Bảng Danh sách số chủ đề xây dựng TÊN CHỦ ĐỀ Nghệ thuật Dân ca Nghệ sĩ Showbiz Người mẫu Ảnh Sân khấu Ca nhạc Thể thao Bóng đá Bóng chày Cầu thủ Thủ môn Cup Tỉ số Chelsea Công nghệ Lõi tứ Tablet Điện thoại Smartphone Iphone Samsung Transformer Thị trường Giá Thực phẩm Chứng khoán Chỉ số Lương Người mua Hàng hóa Tài Cán cân Ngân hàng Lãi suất Tỉ lệ Cắt giảm Tài Chứng khốn Nhà đất Bất động sản Nhà đất Lãi suất Biệt thự Chung cư Chủ thầu Bất động sản 3.2 Phƣơng pháp, công cụ mô Cách đánh giá phân loại văn tập trung vào đánh giá thực nghiệm không sử dụng cách đánh giá dựa phân tích lý thuyết Các đánh giá thực nghiệm phân loại văn sử dụng độ đo xác (precision) Ngồi ra, chúng tơi cịn lấy số đặc trưng thơ trung bình n văn thử nghiệm so sánh với phương pháp giảm bớt số đặc trưng thông qua việc xây dựng mơ hình chủ đề Số đặc trưng trung bình tính tổng số đặc trưng văn thử nghiệm tổng số văn thử nghiệm Trong đánh giá thực nghiệm so sánh với phương pháp truyền thống cách thức loại từ dừng, từ vô nghĩa văn phương pháp dựa mơ hình chủ đề 3.3 Kết mơ bình luận Để thử nghiệm sử dụng 220 văn với chủ đề khác nhau: Nghệ thuật, thể thao, công nghệ, thị trường, tài chính, nhà đất Trong có chủ đề thị trường tài lĩnh vực tương đối giống Hình 3: Bộ từ chủ đề sau huấn luyện Bảng Kết thực nghiệm Chủ đề Nghệ thuật Thể thao Công nghệ Thị trường Tài Nhà đất Số văn thử nghiệm 50 30 40 25 30 45 Phương pháp truyền thống Số đặc trưng TB Độ xác 1120 86% 835 88% 456 85.4% 727 78% 883 80.33% 954 82% Phương pháp dựa mơ hình chủ đề Số đặc trưng TB Độ xác 435 91.6% 251 96% 216 97% 304 93% 378 94.8% 452 92% Bùi Khánh Linh, Nguyễn Thị Thu Hà, Nguyễn Thị Ngọc Tú, Đào Thanh Tĩnh 537 Dựa cách đánh giá sử dụng độ đo xác cách so sánh với phương pháp truyền thống thấy có giảm chiều rõ rệt đặc trưng, số lượng đặc trưng sau xây dựng mô hình chủ đề giảm cịn 40.9% so với số lượng đặc trưng ban đầu tổng số 220 văn thực nghiệm (6 chủ đề khác nhau) Độ xác trung bình chủ đề tăng từ 83% lên tới 94.07% IV KẾT LUẬN Mơ hình chủ đề áp dụng vào nhiều toán xử lý ngôn ngữ tự nhiên giới, dựa mô hình chủ đề này, cơng cụ khai phá văn xây dựng đảm bảo tính ổn định, độ xác cao giảm thiểu chi phí mặt thời gian xử lý so với liệu thô Tuy nhiên, với cách thức xây dựng sử dụng mơ hình học xác suất HMM hay Naive Bayes mang lại tốn mặt chi phí thời gian xây dựng Trong báo này, sử dụng cách tiếp cận khác để xây dựng mơ hình chủ đề, giảm bớt thời gian chi phí, đặc biệt ngôn ngữ tiếng Việt chưa xây dựng mơ hình chủ đề, giải pháp giúp giải toán xây dựng công cụ khai phá văn tiếng Việt Với mơ hình chủ đề chúng tơi xây dựng, tiến hành thử nghiệm với công cụ phân loại văn bản, kết thực nghiệm cho thấy hiệu phương pháp này, lớp văn phân loại thành lớp nhỏ hơn, số chiều đặc trưng giảm tới 50% so với số đặc trưng lúc ban đầu chưa xử lý Lời cảm ơn: Nhóm tác giả trân trọng cảm ơn giúp đỡ ý tưởng TS Nguyễn Lê Minh, TS Nguyễn Phương Thái, TS Nguyễn Văn Vinh – Đại học Công nghệ, Đại học Quốc gia Hà Nội hỗ trợ đóng góp giúp chúng tơi cách tiếp cận vấn đề giảm chiều đặc trưng xử lý toán liệu lớn TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] C Apte, F Damerau, S Weiss Automated Learning of Decision Rules for Text Categorization,ACM Transactions on Information Systems, 12(3), pp 233–251, 1994 S Bhagat, G Cormode, S Muthukrishnan Node Classification in Social Networks, Book Chapter inSocial Network Data Analytics, Ed Charu Aggarwal, Springer, 2011 Ana Cardoso-Cachopo, Arlindo L Oliveira, An Empirical Comparison of Text Categorization Methods, Lecture Notes in Computer Science, Volume 2857, Jan 2003, Pages 183 - 196 Han X., Zu G., Ohyama W., Wakabayashi T., Kimura F., Accuracy Improvement of Automatic Text Classification Based on Feature Transformation and Multi-classifier Combination, LNCS, Volume 3309, Jan 2004, pp 463-468 Novovicova J., Malik A., and Pudil P., ―Feature Selection Using Improved Mutual Information for Text Classification‖, SSPR&SPR 2004, LNCS 3138, pp 1010–1017, 2004 Sebastiani F., ―Machine Learning in Automated Text Categorization‖, ACM Computing Surveys, vol 34 (1),2002, pp 1-47 [26] Shanahan J and Roma N., Improving SVM Text Classification Performance through Threshold Adjustment, LNAI 2837, 2003, 361-372 Soucy P and Mineau G., ―Feature Selection Strategies for Text Categorization‖, AI 2003, LNAI 2671, 2003, pp 505-509 Sousa P., Pimentao J P., Santos B R and Moura-Pires F., ―Feature Selection Algorithms to Improve Documents Classification Performance‖, LNAI 2663, 2003, pp 288-296 Torkkola K., ―Discriminative Features for Text Document Classification‖, Proc International Conference on Pattern Recognition, Canada, 2002 Vinciarelli A., ―Noisy Text Categorization, Pattern Recognition‖, 17th International Conference on (ICPR'04) , 2004, pp 554557 Zu G., Ohyama W., Wakabayashi T., Kimura F., "Accuracy improvement of automatic text classification based on feature transformation": Proc: the 2003 ACM Symposium on Document Engineering, November 20-22, 2003, pp.118-120 Mark Steyvers, Tom Griffiths, Probabilistic Topic Models, In: In T Landauer, D McNamara, S Dennis, and W Kintsch (eds),Latent Semantic Analysis: A Road to Meaning Laurence Erlbaum Ha Nguyen Thi Thu ; Quynh Nguyen Huu ; Khanh Nguyen Thi Hong ; Hung Le Manh, Optimization for Vietnamese text classification problem by reducing features set, Information Science and Service Science and Data Mining (ISSDM), 2012 th IEEE International Conference on New Trends in , Page(s): 209 – 212 http://vlsp.vietlp.org:8080 VIETNAMESE TEXT CLASSIFICATION BASED ON TOPIC MODELING Bui Khanh Linh, Nguyen Thi Thu Ha, Nguyen Thi Ngoc Tu, Dao Thanh Tinh ABSTRACT— In this paper, we present a method for Vietnamese text classification based on topic modeling This method is used to find a way from the core and development to other words in the subject based on Naïve Bayes theory The experimental results, our method really effectively, high accuracy and can reduce complex of calculating This method process faster than proposed methods Keywords— Topic modeling, Vietnamese text, data mining, core term, naïve bayes ... tốn phân loại văn tiếng Việt dựa mơ hình chủ đề lý thuyết Bayes Phần III báo trình bày cách thức thử nghiệm dựa phương pháp đề xuất phần II cuối kết luận II PHƢƠNG PHÁP PHÂN LOẠI VĂN BẢN TIẾNG VIỆT... dựng mơ hình chủ đề PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH CHỦ ĐỂ 534 THUẬT TỐN XÂY DỰNG MƠ HÌNH CHỦ ĐỀ Đầu vào: - D: Tập văn huấn luyện gán nhãn tương ứng với chủ đề C; - VnTagger: Công... dựng mơ hình chủ đề, giảm bớt thời gian chi phí, đặc biệt ngơn ngữ tiếng Việt chưa xây dựng mô hình chủ đề, giải pháp giúp giải tốn xây dựng cơng cụ khai phá văn tiếng Việt Với mơ hình chủ đề xây