Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	5
Dung lượng	453,26 KB

Nội dung

Bài viết Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến đề xuất mô hình phân loại văn bản tiếng Việt dựa trên kỹ thuật khai thác đồ thị con phổ biến và sử dụng giải pháp máy học để thực hiện. Các kết quả thực nghiệm bước đầu đã khẳng định đúng đắn của đề xuất đồng thời gợi mở một hướng nghiên cứu mới cho bài toán phân loại văn bản tiếng Việt. Mời các bạn cùng tham khảo!

Phân loại văn dựa kỹ thuật khai thác đồ thị phổ biến 1st ThS Hoàng Ngọc Dương 2nd ThS Phạm Ngọc Công Trường Sĩ quan Không quân Trường Sĩ quan Không quân Thành phố Nha Trang, Khánh Hòa Thành phố Nha Trang, Khánh Hòa Email: congpham82@gmail.com Email: hoangduongvtl@gmail.com Tóm tắt: Phân loại văn cơng việc phân tích nội dung văn bản, sau đưa định văn thuộc chủ đề loại văn biết chủ đề trước Trong lĩnh vực khai thác liệu, phương pháp tiếp cận như: Nạve Bayes, máy vectơ hỗ trợ (SVM), Cây định, K láng giềng gần (k-NN), mạng nơron … Trong báo này, đề xuất mơ hình phân loại văn tiếng Việt dựa kỹ thuật khai thác đồ thị phổ biến sử dụng giải pháp máy học để thực Mơ hình đề xuất thực nghiệm tập 2000 tài liệu văn tiếng Việt viết tải xuống từ trang báo điện tử vnexpress.net, dantri.vn, tuoitre.vn Các kết thực nghiệm bước đầu khẳng định đắn đề xuất đồng thời gợi mở hướng nghiên cứu cho toán phân loại văn tiếng Việt thị, văn biểu diễn thành đồ thị vô hướng đơn giản sử dụng thuật toán khai thác đồ thị phổ biến thuật toán gSpan để xác định đặc trưng cho chủ đề Sau bước công việc vec tơ hóa đồ thị văn Bước cuối thực huấn luyện phân loại SVM A Tiền xử lý văn Việc hệ thống thực tách từ văn Phương pháp tách từ sử dụng thư viện tách từ "JVnTextPro: A Java-based Vietnamese Text Processing Tool" phát triển nhóm tác giả Cam-Tu Nguyen, Xuan-Hieu Phan and Thu-Trang Nguyen, địa chỉ: http://jvntextpro.sourceforge.net/ Đây thư viện mã nguồn mở java Bước hệ thống tính tần suất xuất từ tập văn Để giảm kích thước đồ thị thời gian tính tốn đồ thị phổ biến, từ có tần suất xuất cao giữ lại Những từ có tần suất xuất loại bỏ Phương pháp thống kê tần suất xuất tính trọng số từ sử dụng phương pháp TF - IDF Sau bước thu từ khóa dùng để xây dựng đồ thị văn Từ khóa: Phân loại văn bản, phân lớp văn bản, đồ thị phổ biến I GIỚI THIỆU Phân loại văn trình gán văn vào nhiều chủ đề xác định trước Phân loại văn tự động lĩnh vực nghiên cứu quan tâm nhiều năm qua ứng dụng rộng rãi Hiện có nhiều phương pháp giải Nạve Bayes, định, k-láng giềng gần (k-NN), mạng nơron, máy vectơ hỗ trợ (SVM) áp dụng thực tế Các phương pháp sử dụng mô hình khơng gian vectơ biểu diễn văn B Mơ hình hóa văn thành đồ thị Ưu điểm mơ hình biểu diễn văn đồ thị mơ hình lưu giữ mối quan hệ từ văn ban đầu Có nhiều phương pháp xây dựng đồ thị từ văn như: đồ thị hình sao, đồ thị tần số vơ hướng, đồ thị đơn giản, Nhìn chung kiểu biểu diễn văn đồ thị sử dụng liền kề từ văn Mơ hình khơng gian vectơ phương pháp biểu diễn văn phổ biến Trong đó, từ văn trở thành đặc trưng (hay chiều vectơ biểu diễn văn bản) Mặc dù mơ hình cho kết phân loại tốt, tồn nhiều hạn chế Mơ hình khơng gian vectơ truyền thống tập trung vào tần suất xuất từ không nắm bắt mối quan hệ từ văn Nghiên cứu sử dụng mơ hình đồ thị vơ hướng để biểu diễn văn Trong phương pháp biểu diễn văn đồ thị đỉnh đồ thị biểu diễn “từ” văn bản, đỉnh gán nhãn tên “từ” Sau bước tiền xử lý văn bản, từ a đứng trước từ b tồn cạnh nối từ đỉnh a đến đỉnh b Trong năm gần mơ hình biểu diễn văn đồ thị phát triển mạnh áp dụng phân loại văn Mơ hình đồ thị có khả hạn chế nhược điểm biểu diễn vectơ truyền thống lưu lại mối quan hệ từ văn Ví dụ ta có văn bản: “Đại hội đại biểu toàn quốc lần thứ XIII Đảng Cộng sản Việt Nam thông qua Nghị quyết“ Hiện nay, mơ hình đồ thị khơng ngừng phát triển ứng dụng rộng rãi vào toán liên quan đến xử lý văn Khi ứng dụng vào loại toán khác nhau, thành phần thích hợp văn trở thành đỉnh đồ thị mối quan hệ hiệu đỉnh chọn để xây dựng cạnh đồ thị Đỉnh đồ thị biểu diễn câu, từ, hay câu kết hợp từ Cạnh dùng để thể mối quan hệ khác đỉnh như: trật tự xuất hiện, tần số đồng hiện, vị trí xuất Sau thực tách từ, loại bỏ hư từ từ có trọng số thấp, xây dựng đồ thị văn hình 2.1 Mục đích nghiên cứu trình bày phương pháp việc phân loại văn dựa biểu diễn đồ thị kỹ thuật khai thác đồ thị phổ biến Bên cạnh đó, áp dụng thử nghiệm mơ hình biểu diễn văn đồ thị kết hợp kỹ thật khai thác đồ thị phổ biến vào toán phân loại văn tiếng Việt II HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Quy trình phân loại văn xây dựng trải qua bước sau: Đầu tiên thực việc tách từ tính TF – IDF Sau bước việc mơ hình hóa văn thành đồ thị thực hiện: nhằm tận dụng ưu điểm mơ hình đồ Hình 2.1 Đồ thị văn chủ đề Chính trị - xã hội 105 C Mơ hình phân loại văn dựa kỹ thuật khai thác đồ thị phổ biến Ý tưởng phương pháp phân loại văn dựa kỹ thuật khai thác đồ thị phổ biến mơ tả hình 2.2 đây: Hình 2.3 Cấu trúc vec tơ đặc trưng đồ thị Ví dụ vec tơ hóa đồ thị: Hình 2.2 Huấn luyện phân loại văn dựa kỹ thuật khai thác đồ thị phổ biến Tập đồ thị phổ biến S = {S1, S2, , Sn} A Trong pha huấn luyện phân loại (Training): B - Đầu vào liệu dạng văn bản, pha huấn luyện trải qua bước: + Bước 1: Tập văn đưa qua tách từ "JVnTextPro: A Java-based Vietnamese Text Processing Tool" phát triển nhóm tác giả Cam-Tu Nguyen, Xuan-Hieu Phan and Thu-Trang Nguyen, địa chỉ: http://jvntextpro.sourceforge.net/ C D S1 A B S2 A C S3 E F S4 B D D E Sau bước tách từ, thu tập liệu từ khóa cho văn chủ đề Tiếp theo tính tần suất xuất trọng số từ văn Sử dụng phương pháp thống kê tần suất xuất tính trọng số từ theo phương pháp TF-IDF Sau bước từ không vượt ngưỡng bị loại bỏ Cuối thu tập liệu bơ từ khóa đặc trưng cho văn thuộc chủ đề phân loại Đồ thị văn G1 Vec tơ đồ thị văn G1 thu [1:1 2:1 3:0 4:1 n:?] Sn E Hình 2.4 Vec tơ hóa đồ thị + Bước 5: "Huấn luyện phân loại SVM": Sau có vec tơ đặc trưng văn chủ đề, tiến hành huấn luyện để phân loại sử dụng phân loại như: SVM, Naive Bayes, mạng nơron, định Trong nghiên sử dụng SVM, phân loại phổ biến + Bước : Mô hình hóa văn thành đồ thị Trong thực tế có nhiều phương pháp để biểu biễn văn đồ thị đồ thị khái niệm, đồ thị hình sao, đồ thị tần số xuất vô hướng, đồ thị có hướng Trong nghiên cứu sử dụng đồ thị vô hướng đơn giản, văn đồ thị Đỉnh biểu diễn “từ” văn Các đỉnh gán nhãn tên “từ” văn Sau bước tiền xử lý văn bản, từ a đứng trước từ b tồn cạnh nối từ đỉnh a đến đỉnh b Sau bước "Mơ hình hóa văn thành đồ thị" thu tập sở liệu đồ thị, với đỉnh cạnh gán nhãn, với loại văn (đã biết trước đồ thị thuộc loại nào) Các vec tơ đặc trưng đầu vào sau qua huấn luyện SVM cho mơ hình huấn luyện, sử dụng cho việc phân loại văn sau Trong pha kiểm tra phân loại (Testing): Qúa trình phân loại văn mơ tả hình 2.5 + Bước 3: Module "Khai thác đồ thị phổ biến": thực thuật tốn gSpan để tìm tất đồ thị phổ biến tập đồ thị mơ hình hóa với độ hỗ trợ minsup Ta tập đồ thị phổ biến S = {S1, S2, , Sn} cho tất chủ đề + Bước 4: Lần lượt vec tơ hóa đồ thị chủ đề G = {G1, G2, ,Gn} Tập đồ thị chủ đề chiếu lên không gian đặc trưng tập đồ thị phổ biến S để nhận vec tơ đặc trưng tương ứng Biểu diễn dạng vec tơ đặc trưng đồ thị Gi = {x1, x2, , xm} mô tả hình 2.3 Trong đó, xj tần suất (số lần xuất hiện) đồ thị phổ biến Sj đồ thị Gi Nếu vec tơ biểu diễn dạng nhị phân xj = {0, 1}, đó, xj = Sj khơng xuất Gi xj =1 tồn Sj Gi Có thể thấy, biểu diễn dạng vec tơ nhị phân tiết kiệm thời gian tính tốn Số chiều vec tơ Gi số lực lượng tập đồ thị phổ biến S Hình 2.5 Phân loại văn dựa kỹ thuật khai thác đồ thị phổ biến - Dữ liệu đầu vào tập văn chưa phân loại Quá trình kiểm tra phân loại văn trải qua bước sau: 106 + Bước 1: Thực tách từ thư viện Jvntextpro B Thực nghiệm mức độ xác phân lớp + Bước 2: Sau bước tách từ mơ hình hóa văn thành đồ thị, trích chọn đặc trưng đồ thị mơ hình hóa cách chiếu lên không gian đặc trưng S (như pha huấn luyện) nhận vec tơ đặc trưng tương ứng Để đánh giá kết phân loại, sử dụng số độ phủ (recall), độ xác (precision) số cân độ đo - F1 (F-measure) [11] Để tính số độ phủ, độ xác, độ đo F1, Một số tên gọi đặt sau: + Bước 3: Khi có tập vec tơ đăc trưng đưa qua phân loại SVM huấn luyện để phân loại văn TPi : Số lượng mẫu thuộc lớp ci phân loại xác vào lớp ci III THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ FPi: Số lượng mẫu không thuộc lớp ci bị phân loại nhầm vào lớp ci A Thực nghiệm giảm số lượng đồ thị phổ biến thông qua TF – IDF TNi: Số lượng mẫu không thuộc lớp ci phân loại (chính xác) Thơng qua việc xác định trọng số từ TF-IDF cho văn chủ đề tập liệu huấn luyện giúp loại bỏ số lượng lớn từ dư thừa không đại diện cho văn trước chuyển đổi thành đồ thị, chủ đề xác định ngưỡng (threshold) TF-IDF định khác nhằm để loại bỏ bớt từ dư thừa không làm từ, cụm từ đặc trưng quan trọng – làm đại diện cho chủ đề Ngoài ngưỡng TF-IDF xác định cho chủ đề phụ thuộc nhiều vào số lượng văn huấn luyện độ lớn văn chủ đề FNi: Số lượng mẫu thuộc lớp ci bị phân loại nhầm (vào lớp khác ci) Khi cơng thức tính độ phủ, độ xác độ đo F1 là: Độ phủ (recall): Độ xác (precision): Phương pháp xác định ngưỡng TF-IDF áp dụng lấy trung bình cộng trọng số TF-IDF tất từ văn để làm ngưỡng chung cho văn Độ đo F1 (F-measure): Ví dụ: ta có văn d={t1, t2, t3,…, tn} ta xác định ngưỡng threshold cho văn cách: Để đánh giá mức độ xác mơ hình huấn luyện chúng tơi tiến hành chạy thực nghiệm tập liệu sau: Thực nghiệm cho thấy việc xác định ngưỡng TF-IDF để loại bỏ từ không quan trọng văn huấn luyện làm giảm thiểu kích thước đồ thị nhiều số lượng tập đồ thị phổ biến (frequent graph) rút trích Chúng tơi tiến hành thực nghiệm với số lượng tập văn đầu vào khác (tăng dần số lượng) ngưỡng minSup 20, 30 bảng 3.1 đây: Dữ liệu đầu vào trình huấn luyện cho bảng 3.2 Bảng 3.2: Dữ liệu đầu vào trình huấn luyện phân loại (300 văn bản) Số lượng văn đầu vào chọn lọc Số đồ thị phổ biến (FreqGraph) minSup=30% Chính trị - xã hội 300 75 Tên Bảng 3.1: So sánh số lượng đồ thị phổ biến chủ đề Số lượng đồ thị phổ biến (FreqGraph) Số Chủ đề văn minSup = 20% Khơng Có tf-idf tf-idf minSup = 30% % Khơng Có tf-idf tf-idf Sức khỏe 300 77 % Thể thao 300 68 Kinh doanh 300 62 Chính trị - xã hội 300 402 94 23.38 294 75 25.51 500 613 140 22.84 476 96 20.17 Sức khỏe 300 354 97 27.40 281 77 27.40 500 567 113 19.93 432 102 23.61 Thể thao 300 456 85 18.64 378 68 17.99 500 546 122 22.34 436 98 22.48 Sau hồn tất q trình huấn luyện Ttiến hành thu thập số lượng lớn báo thuộc bốn chủ đề từ nguồn tin tức điện tử http://vnexpress.net/, http://dantri.com.vn/, http://tuoitre.vn/, trình kiểm nghiệm tiến hành sau: số lượng định văn chủ đề: Lấy 200 văn cho chủ đề đưa vào để thử nghiệm phân loại – sau tiến hành tính tốn độ đo Kết thực nghiệm trình bày bảng 3.3 đây: 300 430 76 17.67 362 62 17.12 Bảng 3.3: Kết phân loại liệu huấn luyện 300 văn 500 542 120 22.14 420 86 20.47 Kinh doanh Tên chủ đề 107 Độ xác Độ phủ (Recall) Độ đo F1 (Precision) (F-measure) Sức khỏe 0.908 0.84 0.873 Thể thao 0.849 0.9 0.874 Kinh doanh 0.864 0.86 0.862 Trung bình 0.874 0.873 0.873 Chính trị xã hội 0.818 0.855 0.836 Sức khỏe 0.878 0.825 0.851 Thể thao 0.866 0.87 0.868 Kinh doanh 0.832 0.84 0.836 Trung bình 0.849 0.848 0.848 Tỷ lệ (%) độ xác phân loại thể hình 3.2 đây: Tỷ lệ (%) độ xác phân loại thể hình 3.1 đây: Hình 3.2: Kết phân loại liệu huấn luyện 500 văn Sau tiến hành phân loại lại tăng liệu huấn luyện đầu vào Chúng nhận thấy liệu huấn luyện đầu vào tăng độ xác phân loại tăng Điều khẳng định tính đắn qúa trình học có giám sát Hình 3.1: Kết phân loại liệu huấn luyện 300 văn Để đánh giá mức độ xác mơ hình phân loại văn Trong bước thực nghiệm tiến hành tăng liệu đầu vào trình huấn luyện lên chủ đề Với chủ đề tăng số lượng văn huấn luyện lên thành 500 văn cho chủ đề Chúng cài đặt thuật tốn định để so sánh với mơ hình biểu diễn văn đồ thị chúng tơi Hình 3.3 đồ thị so sánh kết phân lớp theo mơ hình chủ đề Mơ hình biểu diễn văn đồ thị sử dụng kỹ thuật khai thác đồ thị phổ biến cho kết phân loại tốt Dữ liệu đầu vào trình huấn luyện cho bảng 3.4 Bảng 3.4: Dữ liệu đầu vào trình huấn luyện phân loại (500 văn bản) Số lượng văn đầu vào chọn lọc Số đồ thị phổ biến (FreqGraph) minSup=30% 500 96 Sức khỏe 500 102 Thể thao 500 98 Kinh doanh 500 86 Tên chủ đề Chính trị xã hội Hình 3.3: Kết phân loại (%) theo chủ đề Sau hoàn tất trình huấn luyện tiến hành lấy 200 văn cho chủ đề có đưa vào để thử nghiệm phân loại – sau tiến hành kiểm tra số lượng báo phân loại xác vào chủ đề làm kết so sánh đưa kết bảng 3.5 IV KẾT LUẬN Bài báo nghiên cứu cách biểu diễn văn thành đồ thị, kỹ thuật khai thác đồ thị phổ biến Chúng tiến hành xây dựng chương trình phân loại văn tiếng Việt dựa mơ hình biểu diễn văn đồ thị kỹ thuật khai thác đồ thị phổ biến Mơ hình đồ thị cho phép lưu trữ thông tin cấu trúc quan trọng văn vị trí, đồng hay thứ tự từ Những cơng việc là: tách từ tiếng Việt, xác định trọng số từ TF-IDF, mơ hình hóa văn thành đồ thị, cài đặt thuật toán gSpan để khai phá đồ thị phổ biến, tiến hành xây dựng vec tơ đặc trưng cho đồ thị cài đặt phân loại vec tơ đặc trưng dựa thuật tốn SVM Đóng góp đưa Bảng 3.5: Kết phân loại liệu huấn luyện 500 văn Tên chủ đề Độ xác (Precision) Độ phủ (Recall) (F-measure) Chính trị xã hội 0.873 0.89 0.881 Độ đo F1 108 phương pháp xác định ngưỡng TF-IDF áp dụng lấy trung bình cộng trọng số TF-IDF tất từ văn để làm ngưỡng chung cho văn từ làm giảm thiểu kích thước đồ thị nhiều số lượng tập đồ thị phổ biến (frequent graph) rút trích 1473-1479, IEEE, 2015 [3] ROUSSEAU, F (2015) “GRAPH-OF-WORDS: MINING AND RETRIEVING TEXT WITH NETWORKS OF FEATURES” Doctoral dissertation, École Polytechnique, 2015 [4] Vazirgiannis, M (2015) “Graph-of-word: boosting text mining with graphs” In CORIA, 2015 Tiến hành kiểm chứng, thực nghiệm đánh giá độ xác mơ hình xây dựng với liệu thực nghiệm báo tiếng việt lấy từ nguồn tin tức điện tử http://vnexpress.net/, http://dantri.com.vn/, http://tuoitre.vn/ [5] Blanco, R., & Lioma, C (2012) “Graph-based term weighting for information retrieval” Information retrieval, 15(1), pp 54-92, 2012 [6] Rousseau, F., & Vazirgiannis, M (2015, March) “Main core retention on graph-of-words for single-document keyword extraction” In European Conference on Information Retrieval, pp 382-393 Springer International Publishing, 2015 Kết thực nghiệm cho thấy mô hình phân loại đạt độ xác cao 84% Đặc biệt với chủ đề Chính trị xã hội chủ đề Thể thao, khẳng định hướng nghiên cứu đắn [7] Rousseau, F., & Vazirgiannis, M (2013, October) “Graph-of-word and TW-IDF: new approach to ad hoc IR” In Proceedings of the 22nd ACM international conference on Information & Knowledge Management, pp 59-68, ACM, 2013 Kết thử nghiệm cho thấy mơ hình đồ thị kết hợp khai thác đồ thị phổ biến cho kết phân loại tốt mơ hình truyền thống Để đánh giá xác nữa, dự kiến thu thập xây dựng liệu thử nghiệm lớn Đồng thời, thử nghiệm áp dụng loại mơ hình đồ thị khác vào toán phân loại để xác định loại mơ hình phù hợp [8] Yan, X., & Han, J (2002) “gspan: Graph-based substructure pattern mining” In Data Mining, 2002 ICDM 2003 Proceedings 2002 IEEE International Conference on, pp 721-724, IEEE, 2002 [9] Joachims, T (1998) “Text categorization with support vector machines: Learning with many relevant features” Machine learning: ECML-98, pp 137-142, 1998 [10] Huan, J., Wang, W., & Prins, J (2003, November) “Efficient mining of frequent subgraphs in the presence of isomorphism” In Data Mining, 2003 ICDM 2003 Third IEEE International Conference on, pp 549-552, IEEE, 2003 HƯỚNG PHÁT TRIỂN Trong thời gian tới, dự kiến tiến hành nghiên cứu, phát triển thêm để hoàn thiện nhiều chức như: [11] Yang, Y., & Liu, X (1999, August) “A re-examination of text categorization methods.” In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pp 42-49, ACM, 1999 Đưa mơ hình đồ thị có hướng vào toán xây dựng đồ thị văn Áp dụng mơ hình đề xuất cho tốn thực tế khác như: khai phá mạng xã hội, phân loại cảm xúc, phân loại phản hồi, IEEE conference templates contain guidance text for composing and formatting conference papers Please ensure that all template text is removed from your conference paper prior to submission to the conference Failure to remove template text from your paper may result in your paper not being published TÀI LIỆU THAM KHẢO [1] Rousseau, F., Kiagias, E., & Vazirgiannis, M (2015) “Text Categorization as a Graph Classification Problem” In ACL (1), pp 17021712, 2015 [2] Malliaros, F D., & Skianis, K (2015, August) “Graph-based term weighting for text categorization” In Advances in Social Networks Analysis and Mining (ASONAM), 2015 IEEE/ACM International Conference on, pp 109 ... hình phân loại văn dựa kỹ thuật khai thác đồ thị phổ biến Ý tưởng phương pháp phân loại văn dựa kỹ thuật khai thác đồ thị phổ biến mơ tả hình 2.2 đây: Hình 2.3 Cấu trúc vec tơ đặc trưng đồ thị. .. biểu diễn văn thành đồ thị, kỹ thuật khai thác đồ thị phổ biến Chúng tiến hành xây dựng chương trình phân loại văn tiếng Việt dựa mơ hình biểu diễn văn đồ thị kỹ thuật khai thác đồ thị phổ biến Mơ... Gi số lực lượng tập đồ thị phổ biến S Hình 2.5 Phân loại văn dựa kỹ thuật khai thác đồ thị phổ biến - Dữ liệu đầu vào tập văn chưa phân loại Quá trình kiểm tra phân loại văn trải qua bước sau:

Ngày đăng: 31/12/2022, 14:48