Phân loại văn bản dựa trên mô hình đồ thị

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - HOÀNG NGỌC DƯƠNG PHÂN LOẠI VĂN BẢN DỰA TRÊN MƠ HÌNH ĐỒ THỊ LUẬN VĂN THẠC SĨ Chuyên ngành : Công nghệ thơng tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS TS VÕ ĐÌNH BẢY (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 19 tháng 11 năm 2017 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên PGS.TS Đỗ Phúc TS Nguyễn Thị Thúy Loan TS Lê Thị Ngọc Thơ TS Nguyễn Hà Giang TS Trần Minh Thái Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV PGS.TS Đỗ Phúc TRƯỜNG ĐH CÔNG NGHỆ TP HCM PHÒNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 25 tháng năm 2017 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: HỒNG NGỌC DƯƠNG Giới tính: Nam Ngày, tháng, năm sinh: 05/10/1985 Nơi sinh: Vĩnh Thịnh, Vĩnh Lộc, Thanh Hóa Chuyên ngành: Công nghệ thông tin MSHV: 1541860001 I- Tên đề tài: PHÂN LOẠI VĂN BẢN DỰA TRÊN MƠ HÌNH ĐỒ THỊ II- Nhiệm vụ nội dung: Đề tài luận văn bao gồm nhiệm vụ với nội dung sau: Luận văn nghiên cứu phân loại văn dựa mơ hình đồ thị Trong đó, tập trung vào thuật toán khai phá đồ thị phổ biến gSpan thuật toán phân loại SVM cho tốn phân phân loại văn dựa mơ hình đồ thị Tăng hiệu suất phân loại việc tính TF-IDF nhằm loại bỏ hư từ tiếng Việt, cách loại bỏ từ có trọng số thấp Từ việc huấn luyện phân lớp nhanh xác III- Ngày giao nhiệm vụ: 25/9/2016 IV- Ngày hoàn thành nhiệm vụ: 30/6/2017 V- Cán hướng dẫn: PGS TS VÕ ĐÌNH BẢY CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Hoàng Ngọc Dương LỜI CÁM ƠN Tơi xin bày tỏ lịng biết ơn sâu sắc đến PGS TS Võ Đình Bảy, người tận tình bảo hướng dẫn tơi suốt q trình thực luận văn tốt nghiệp Tơi xin gởi lời cảm ơn đến trường Đại học Công nghệ TP.HCM tạo điều kiện tổ chức khóa học để tơi có điều kiện tiếp thu kiến thức thời gian để hoàn thành luận văn cao học Tôi xin chân thành cảm ơn thầy cô truyền đạt cho kiến thức quý báu trình học Cao học làm luận văn Xin chân thành cảm ơn người thân gia đình, anh chị em, bạn bè, đồng nghiệp giúp đỡ động viên tơi q trình thực hoàn thành luận văn Hoàng Ngọc Dương TÓM TẮT Luận văn nghiên cứu kỹ thuật phân loại văn dựa mơ hình đồ thị Cụ thể nghiên cứu khái niệm lý thuyết đồ thị, toán phân loại văn bản, thuật tốn phân loại văn thơng dụng, khai thác đồ thị phổ biến, chúng tơi tập trung vào thuật tốn khai phá đồ thị phổ biến gSpan thuật toán phân loại SVM cho toán phân phân loại văn dựa mơ hình đồ thị Phương pháp tiếp cận tốn phân loại văn chúng tơi trải qua bước sau: Bước 1: Thực việc tách từ tính TF – IDF Bước 2: Việc mơ hình hóa văn thành đồ thị thực sau bước Bước 3: Khai thác đồ thị phổ biến thuật toán gSpan Bước 4: Vec tơ hóa đồ thị văn Bước 5: Bước cuối thực huấn luyện phân lớp SVM Với cách tiếp cận chúng tôi, qua thực nghiệm liệu tiếng Việt báo lấy từ nguồn tin tức điện tử http://vnexpress.net/, http://dantri.com.vn/, http://tuoitre.vn/ Kết thực nghiệm cho thấy mơ hình phân loại chúng tơi đạt độ xác cao 85% Với kết này, đóng góp chúng tơi việc tính TF-IDF nhằm loại bỏ hư từ tiếng Việt, cách loại bỏ từ có trọng số thấp ngưỡng trung bình Qua làm giảm số lượng đồ thị phổ biến, theo số chiều vec tơ văn giảm theo Từ việc huấn luyện phân lớp nhanh xác Ngồi chúng tơi đóng góp hướng tiếp cận cho tốn phân loại văn tiếng Việt Đó phương pháp phân loại văn dựa mô hình đồ thị Qua làm giàu thêm phương pháp phân loại văn tiếng Việt Luận văn bao gồm chương – trình bày chi tiết ý tưởng, phương thức thực hiện, thực nghiệm đánh giá cho hệ thống phát triển, kết luận tổng quan kết đạt hướng phát triển cho đề tài MỤC LỤC Trang DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH CHƯƠNG 1: MỞ ĐẦU 1.1 Giới thiệu 1.2 Tổng quan phân loại văn 1.3 Mục tiêu luận văn 1.4 Nội dung nghiên cứu 1.5 Kết đạt 1.6 Bố cục luận văn CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan 2.1.1 Định nghĩa phân loại văn 2.1.2 Đặc trưng văn 2.2 Mơ hình biểu diễn văn 2.2.1 Mơ hình logic 2.2.2 Mơ hình phân tích cú pháp 2.2.3 Mơ hình khơng gian vector 2.2.4 Mơ hình boolean 11 2.2.5 Mơ hình tần suất 12 2.2.5.1 Phương pháp dựa tần sổ từ khóa (TF - Term Frequency) 12 2.2.5.2 Phương pháp dựa nghịch đảo tần sổ văn (IDF - Inverse Document Frequency) 12 2.2.5.3 Phương pháp TF - IDF 13 2.3 Các phương pháp phân loại văn 14 2.3.1 Phương pháp Naïve Bayes (NB) 14 2.3.2 Phương pháp K-Nearest Neighbor (k-NN) 15 2.3.3 Phương pháp Support vector Machine (SVM) 17 2.3.4 Phương pháp Phương pháp Linear Least Square Fit (LLSF) 27 2.3.5 Phương pháp Centroid - based vector 28 2.4 Khai thác đồ thị 28 2.4.1 Một số định nghĩa 28 2.4.1.1 Graph 28 2.4.1.2 Đồ thị gán nhãn 29 2.4.1.3 Đồ thị 30 2.4.2 Phân lớp đồ thị 30 2.4.2.1 Giới thiệu phân lớp đồ thị 30 2.4.2.2 Một số kỹ thuật phân lớp đồ thị 31 2.4.2.3 Các ứng dụng phân lớp đồ thị 33 2.4.3 Khai phá đồ thị phổ biến 33 2.4.3.1 Tổng quan khai phá đồ thị phổ biến 33 2.4.3.2 Một số thuật toán khai phá đồ thị phổ biến 36 2.5 Kết luận 44 CHƯƠNG 3: MƠ TẢ BÀI TỐN XỬ LÝ BÀI TỐN 46 3.1 Mô tả toán 46 3.2 Quy trình phân loại văn dựa mơ hình đồ thị 46 3.2.1 Tiền xử lý văn 47 3.2.2 Mô hình hóa văn thành đồ thị 47 3.2.4 Mô hình phân loại văn dựa kỹ thuật khai thác đồ thị 48 3.3 Kết luận 53 CHƯƠNG 4: THỰC NGHIỆM 54 4.1 Thực nghiệm giảm số lượng đồ thị phổ biến thông qua TF - IDF 54 4.2 Thực nghiệm mức độ xác phân lớp 55 4.3 Kết luận 58 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 60 5.1 Kết luận 60 5.2 Hướng phát triển 60 TÀI LIỆU THAM KHẢO 62 PHỤ LỤC 65 DANH MỤC CÁC TỪ VIẾT TẮT Tiếng Anh Từ viết tắt Tiếng Việt Term Frequency TF Tần suất thuật ngữ Inverse Document Frequency IDF Nghịch đảo tần suất tài liệu k-Nearest Neighbors k-NN k-láng giềng gần Support Vector Machine SVM Máy vectơ hỗ trợ Naive Bayes NB Bayes Depth First Search DFS Tìm kiếm theo chiều sâu - Dữ liệu đầu vào tập văn chưa phân lớp Quá trình kiểm tra phân loại văn trải qua bước sau: + Bước 1: Chúng thực công việc tách từ thư viện Jvntextpro + Bước 2: Sau bước tách từ việc mô hình hóa văn thành đồ thị, trích chọn đặc trưng đồ thị mơ hình hóa cách chiếu lên không gian đặc trưng S (như pha huấn luyện) để nhận vec tơ đặc trưng tương ứng thực + Bước 3: Khi có tập vec tơ đăc trưng đưa qua phân lớp SVM huấn luyện để phân lớp văn 3.3 Kết luận Trong chương này, vận dụng sở tảng lý thuyết tìm hiểu đúc kết từ chương hai – luận văn thực xây dựng hoàn chỉnh thành phần hệ thống theo dự đinh ban đầu đề tài chương Các thành phần hệ thống thiết kế xây dựng đảm bảo tính đầy đủ cải tiến đề xuất ban đầu chương – bám sát tảng lý thuyết ý tưởng chương hai – nhiên để đánh giá mức độ hồn thành tính khả thi hệ thống xây dựng – cần tiến hành chạy thực nghiệm để đánh giá mức độ xác hiệu thành phần hệ thống Các phương thức để tiến hành đánh kết chạy thực nghiệm chúng tơi trình bày chương luận văn Với cách tiếp cận đóng góp chúng tơi việc tính TF-IDF nhằm loại bỏ hư từ tiếng Việt, cách loại bỏ từ có trọng số thấp ngưỡng trung bình Qua làm giảm số lượng đồ thị phổ biến, theo số chiều vec tơ văn giảm theo Từ việc huấn luyện phân lớp nhanh xác Ngồi chúng tơi đóng góp hướng tiếp cận cho tốn phân loại văn tiếng Việt Đó phương pháp phân loại văn dựa mô hình đồ thị Qua làm giàu thêm phương pháp phân loại văn tiếng Việt Chúng tơi xây dựng chương trình tự động phân loại văn tiếng Việt áp dụng thực tế 53 CHƯƠNG 4: THỰC NGHIỆM 4.1 Thực nghiệm giảm số lượng đồ thị phổ biến thông qua TF - IDF Thông qua việc xác định trọng số từ TF-IDF cho văn chủ đề tập liệu huấn luyện giúp ta loại bỏ số lượng lớn từ dư thừa không đại diện cho văn trước chuyển đổi thành đồ thị, chủ đề xác định ngưỡng (threshold) TF-IDF định khác nhằm để loại bỏ bớt từ dư thừa không làm từ, cụm từ đặc trưng quan trọng – làm đại diện cho chủ đề Ngồi ngưỡng TF-IDF xác định cho chủ đề phụ thuộc nhiều vào số lượng văn huấn luyện độ lớn văn chủ đề Một phương pháp xác định ngưỡng TF-IDF áp dụng luận văn chúng tơi lấy trung bình cộng trọng số TF-IDF tất từ văn để làm ngưỡng chung cho văn Ví dụ: ta có văn 𝑑 = {𝑡1 , 𝑡2 , 𝑡3 … 𝑡𝑛 }  ta xác định ngưỡng threshold cho văn cách: 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑𝑑 = ∑1𝑛 𝑤𝑇𝐹−𝐼𝐷𝐹 (𝑡) |𝑑 | Thực nghiệm cho thấy việc xác định ngưỡng TF-IDF để loại bỏ từ không quan trọng văn huấn luyện làm giảm thiểu kích thước đồ thị nhiều số lượng tập đồ thị phổ biến (frequent graph) rút trích Chúng tiến hành thực nghiệm với số lượng tập văn đầu vào khác (tăng dần số lượng) ngưỡng minSup 20, 30 40 bảng 4.1 đây: Bảng 4.1: So sánh số lượng đồ thị phổ biến Số lượng đồ thị phổ biến (FreqGraph) Chủ đề Số văn minSup = 20% 200 Khơng Có TF-IDF TF-IDF 281 68 % 24.20 minSup = 30% Khơng Có TF-IDF TF-IDF 214 47 54 % 21.96 minSup = 40% Khơng Có TF-IDF TF-IDF 172 37 % 21.51 Chính 300 402 94 23.38 294 75 25.51 235 59 25.11 613 140 22.84 476 96 20.17 380 68 17.89 200 187 58 31.02 134 46 34.33 107 36 33.64 300 354 97 27.40 281 77 27.40 225 58 25.78 400 567 113 19.93 432 102 23.61 346 97 28.03 200 234 79 33.76 192 63 32.81 157 48 30.57 300 456 85 18.64 378 68 17.99 297 52 17.51 400 546 122 22.34 436 98 22.48 348 72 20.69 trị - xã hội Sức khỏe Thể thao 400 4.2 Thực nghiệm mức độ xác phân lớp Để đánh giá kết phân lớp, sử dụng số độ phủ (recall), độ xác (precision) số cân độ đo - F1 (F-measure) [24] Để tính số độ phủ, độ xác, độ đo F1, đặt số tên gọi sau: TPi : Số lượng mẫu thuộc lớp ci phân loại xác vào lớp ci FPi: Số lượng mẫu không thuộc lớp ci bị phân loại nhầm vào lớp ci TNi: Số lượng mẫu không thuộc lớp ci phân loại (chính xác) FNi: Số lượng mẫu thuộc lớp ci bị phân loại nhầm (vào lớp khác ci) Khi cơng thức tính độ phủ, độ xác độ đo F1 là: Độ phủ (recall): 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑡𝑝 𝑡𝑝 + 𝑓𝑛 Độ xác (precision): 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑡𝑝 𝑡𝑝 + 𝑓𝑝 Độ đo F1 (F-measure): 𝐹1 = ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 55 Để đánh giá mức độ xác mơ hình huấn luyện chúng tơi tiến hành chạy thực nghiệm tập liệu sau: Dữ liệu đầu vào trình huấn luyện cho bảng 4.2 Bảng 4.2: Dữ liệu đầu vào trình huấn luyện phân lớp (300 văn bản) Số lượng văn đầu Số đồ thị phổ biến vào chọn lọc (FreqGraph) minSup=25% Chính trị - xã hội 300 88 Sức khỏe 300 71 Thể thao 300 66 Tên chủ đề Sau hồn tất q trình huấn luyện tiến hành thu thập số lượng lớn báo thuộc ba chủ đề từ nguồn tin tức điện tử http://vnexpress.net/, http://dantri.com.vn/, http://tuoitre.vn/, trình kiểm nghiệm tiến hành sau: số lượng định văn chủ đề: lấy 200 văn cho chủ đề đưa vào để thử nghiệm phân lớp – sau chúng tơi tiến hành tính tốn độ đo Kết thực nghiệm trình bày bảng 4.3 đây: Bảng 4.3: Kết phân lớp với liệu huấn luyện 300 văn Độ xác Độ phủ Độ đo F1 (Precision) (Recall) (F-measure) Chính trị - xã hội 0.834 0.855 0.844 Sức khỏe 0.917 0.825 0.868 Thể thao 0.809 0.87 0.839 Trung bình 0.853 0.850 0.850 Tên chủ đề Trong bảng 4.4 trình bày chi tiết ma trận sai số Bảng 4.4: Ma trận sai số liệu phân loại (300 văn huấn luyện) Tên chủ đề Chính trị - xã hội Sức khỏe Thể thao Chính trị - xã hội 171 21 Sức khỏe 15 165 20 56 Thể thao 19 174 Để đánh giá mức độ xác mơ hình phân loại văn Trong bước thực nghiệm chúng tơi tăng liệu đầu vào q trình huấn luyện lên chủ đề Với chủ đè tăng số lượng văn huấn luyện lên thành 500 văn cho chủ đề Dữ liệu đầu vào trình huấn luyện cho bảng 4.5 Bảng 4.5: Dữ liệu đầu vào trình huấn luyện phân lớp (500 văn bản) Số lượng văn đầu Số đồ thị phổ biến vào chọn lọc (FreqGraph) minSup=25% Chính trị - xã hội 500 146 Sức khỏe 500 117 Thể thao 500 126 Tên chủ đề Sau hoàn tất trình huấn luyện chúng tơi tiến hành lấy 200 văn cho chủ đề có đưa vào để thử nghiệm phân lớp – sau chúng tơi đếm đếm số lượng báo phân lớp xác vào chủ đề để làm kết so sánh đưa kết bảng 4.6 Bảng 4.6: Kết phân lớp với liệu huấn luyện 500 văn Độ xác Độ phủ Độ đo F1 (Precision) (Recall) (F-measure) Chính trị - xã hội 0.87 0.9 0.885 Sức khỏe 0.955 0.845 0.897 Thể thao 0.843 0.91 0.875 Trung bình 0.889 0.885 0.886 Tên chủ đề Trong bảng 4.7 trình bày chi tiết ma trận sai số Bảng 4.7: Ma trận sai số liệu phân loại (500 văn huấn luyện) Tên chủ đề Chính trị - xã hội 57 Sức khỏe Thể thao Chính trị - xã hội 180 15 Sức khỏe 12 169 19 Thể thao 15 182 Sau tiến hành phân lớp lại tăng liệu huấn luyện đầu vào Chúng nhận thấy liệu huấn luyện đầu vào tăng độ xác phân lớp tăng Điều khẳng định tính đắn qúa trình học có giám sát Sau tăng liệu huấn luyện từ 300 văn loại lên thành 500 văn loại nhận thấy thời gian huấn luyện tăng lên nhiều Bảng 4.8 thể thời gian huấn luyện thay đổi tăng số mẫu huấn luyện Bảng 4.8: Thời gian huấn luyện thay đổi tăng số mẫu huấn luyện Tên chủ đề Chính trị - xã hội Sức khỏe Thể thao Số văn Thời gian huấn luyện Số văn Thời gian huấn luyện 24 phút 900 18 36 phút 1500 Thực nghiệm cuối làm tiến hành gộp chung văn thuộc ba chủ đề lại thành file tiến hành phân lớp Sau chúng tơi tiến hành đếm số lượng báo phân lớp xác vào chủ đề để làm kết so sánh đưa kết bảng 4.9 Bảng 4.9: Kết phân lớp gộp văn Tên chủ đề Chính trị - xã hội Sức khỏe Thể thao Chính trị - xã hội 180 15 Sức khỏe 12 169 19 Thể thao 15 182 Số lượng 600 Kết phân lớp gộp chủ đề lại chúng tơi đạt độ xác phân lớp riêng rẽ chủ đề 4.3 Kết luận Sau hồn thành q trình tổng kết toàn phần xây dựng, đặt phương pháp kiểm thử chạy thực nghiệm để đánh giá kết đạt thành phần 58 hệ thống, xây dựng thử nghiệm hệ thống phân loại văn tiếng Việt dựa mơ hình biểu diễn văn đồ thị Mơ hình đồ thị cho phép lưu trữ mối quan hệ từ văn Kết thử nghiệm cho thấy mơ hình đồ thị cho kết phân loại cao tất vượt ngưỡng 85% Trong chủ đề phân loại chủ đề Chính trị - xã hội chủ đề Thể thao đạt ngưỡng cao với độ xác 90% Chúng tơi hài lịng kết đạt kết chưa đạt dự kiến ban đầu Để đánh giá xác nữa, dự kiến thu thập xây dựng liệu huấn luyện thực nghiệm lớn Chúng hy vọng tin đạt kết thực nghiệm cao cho cải tiến nâng cấp tương lai 59 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Luận văn tập chung nghiên cứu vấn đề liên quan đến phân loại văn dựa mô hình đồ thị, gồm có: - Các khái niệm lý thuyết đồ thị: đồ thị gán nhãn, đồ thị con, tính đẳng cấu đồ thị, … - Bài toán khai phá đồ thị phổ biến, thuật toán phổ biến sử dụng cho toán khai phá đồ thị phổ biến gSpan, Subdue, Gaston, FSG, - Nghiên cứu thuật toán khai thác đồ thị phổ biến gSpan mơ hình SVM Áp dụng cho toán phân loại văn - Với kiến thức nghiên cứu được, tiến hành xây dựng chương trình phân loại văn dựa mơ hình đồ thị Những cơng việc là: tách từ tiếng Việt, xác định trọng số từ TF-IDF, mơ hình hóa văn thành đồ thị, cài đặt thuật toán gSpan để khai phá đồ thị phổ biến, tiến hành xây dựng vec tơ đặc trưng cho đồ thị cài đặt phân lớp vec tơ đặc trưng dựa thuật toán SVM - Tiến hành kiểm chứng, thực nghiệm đánh giá độ xác mơ hình xây dựng với liệu thực nghiệm báo tiếng việt lấy từ nguồn tin tức điện tử http://vnexpress.net/, http://dantri.com.vn/, http://tuoitre.vn/ - Kết thực nghiệm cho thấy mơ hình phân loại đạt độ xác cao 85% Đặc biệt với chủ đề Chính trị - xã hội chủ đề Thể thao đạt độ xác 90%, khẳng định hướng nghiên cứu đắn 5.2 Hướng phát triển Trong thời gian tới, tiến hành nghiên cứu, phát triển thêm để khắc phục số hạn chế luận văn như: - Xây dựng đánh giá mô hình với nhiều liệu thực tế - So sánh mơ hình xây dựng với mơ hình khác như: phân loại văn dựa vào mơ hình khơng gian vectơ truyền thống, sử dụng định, … 60 - Tăng tốc độ khai phá đồ thị phổ biến cách cài đặt song song hóa thuật tốn gSpan - Đưa mơ hình đồ thị có hướng vào tốn xây dựng đồ thị văn - Áp dụng mơ hình đề xuất cho toán thực tế khác như: khai phá mạng xã hội, phân loại hình ảnh dựa điểm quan tâm, phân loại email, 61 TÀI LIỆU THAM KHẢO [1] Rousseau, F., Kiagias, E., & Vazirgiannis, M (2015) “Text Categorization as a Graph Classification Problem” In ACL (1), pp 1702-1712, 2015 [2] Malliaros, F D., & Skianis, K (2015, August) “Graph-based term weighting for text categorization” In Advances in Social Networks Analysis and Mining (ASONAM), 2015 IEEE/ACM International Conference on, pp 1473-1479, IEEE, 2015 [3] ROUSSEAU, F (2015) “GRAPH-OF-WORDS: MINING AND RETRIEVING TEXT WITH NETWORKS OF FEATURES” Doctoral dissertation, École Polytechnique, 2015 [4] Vazirgiannis, M (2015) “Graph-of-word: boosting text mining with graphs” In CORIA, 2015 [5] Blanco, R., & Lioma, C (2012) “Graph-based term weighting for information retrieval” Information retrieval, 15(1), pp 54-92, 2012 [6] Rousseau, F., & Vazirgiannis, M (2015, March) “Main core retention on graph-ofwords for single-document keyword extraction” In European Conference on Information Retrieval, pp 382-393 Springer International Publishing, 2015 [7] Rousseau, F., & Vazirgiannis, M (2013, October) “Graph-of-word and TW-IDF: new approach to ad hoc IR” In Proceedings of the 22nd ACM international conference on Information & Knowledge Management, pp 59-68, ACM, 2013 [8] Yan, X., & Han, J (2002) “gspan: Graph-based substructure pattern mining” In Data Mining, 2002 ICDM 2003 Proceedings 2002 IEEE International Conference on, pp 721724, IEEE, 2002 [9] Joachims, T (1998) “Text categorization with support vector machines: Learning with many relevant features” Machine learning: ECML-98, pp 137-142, 1998 [10] Huan, J., Wang, W., & Prins, J (2003, November) “Efficient mining of frequent subgraphs in the presence of isomorphism” In Data Mining, 2003 ICDM 2003 Third IEEE International Conference on, pp 549-552, IEEE, 2003 62 [11] Kenji, A B E., Kawasoe, S., Sakamoto, H., Arimura, H., & Arikawa, S (2004) “Efficient substructure discovery from large semi-structured data” IEICE TRANSACTIONS on Information and Systems, 87(12), pp 2754-2763, 2004 [12] Thomas H Cormen, Leiserson, C E., Rivest, R L., & Stein, C (2001) Introduction to algorithms (Vol 6) Cambridge: MIT press [13] Zaki, M J (2002, July) “Efficiently mining frequent trees in a forest” In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining pp 71-80, ACM, 2002 [14] Yan, X., Zhu, F., Han, J., & Yu, P S (2006, April) “Searching substructures with superimposed distance” In Data Engineering, 2006 ICDE'06 Proceedings of the 22nd International Conference on pp 88-88, IEEE, 2006 [15] Agrawal, R., & Srikant, R (1994, September) “Fast algorithms for mining association rules” In Proc 20th int conf very large data bases, VLDB Vol 1215, pp 487-499, 1994 [16] Kuramochi, M., & Karypis, G (2001) “Frequent subgraph discovery” In Data Mining, 2001 ICDM 2001, Proceedings IEEE International Conference on, pp 313-320, IEEE, 2001 [17] Dehaspe, L., Toivonen, H., & King, R D (1998, August) “Finding Frequent Substructures in Chemical Compounds” In KDD Vol 98, p 1998 [18] Inokuchi, A., Washio, T., & Motoda, H (2000) “An apriori-based algorithm for mining frequent substructures from graph data” Principles of Data Mining and Knowledge Discovery, pp 13-23, 2000 [19] Hu, H., Yan, X., Huang, Y., Han, J., & Zhou, X J (2005) “Mining coherent dense subgraphs across massive biological networks for functional discovery” Bioinformatics, 21(suppl 1), pp 213-221, 2005 [20] Yang, Y., & Pedersen, J O (1997, July) “A comparative study on feature selection in text categorization” In Icml Vol 97, pp 412-420, 1997 63 [21] Vapnik, V (2013) The nature of statistical learning theory Springer science & business media [22] Joachims, T (1998) “Text categorization with support vector machines: Learning with many relevant features” Machine learning: ECML-98, pp 137-142, 1998 [23] Platt, J (1998) “Sequential minimal optimization: A fast algorithm for training support vector machines” 1998 [24] Yang, Y., & Liu, X (1999, August) “A re-examination of text categorization methods.” In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pp 42-49, ACM, 1999 64 PHỤ LỤC Một số hình ảnh chương trình phân loại văn dựa mơ hình đồ thị Giao diện chương trình Chức huấn luyện phân lớp: 65 Chức thực nghiệm gSpan: Chức phân loại văn bản: + Phân loại chủ đề: Chính trị - xã hội 66 + Phân loại chủ đề: Sức khỏe + Phân loại chủ đề: Thể thao 67 ... 48 Hình 3.2 Huấn luyện phân loại văn dựa mơ hình đồ thị 49 Hình 3.3 Cấu trúc vec tơ đặc trưng đồ thị 51 Hình 3.4 Vec tơ hóa đồ thị 51 Hình 3.5 Phân loại văn dựa mơ hình. .. trình phân loại văn dựa mơ hình đồ thị 46 3.2.1 Tiền xử lý văn 47 3.2.2 Mơ hình hóa văn thành đồ thị 47 3.2.4 Mơ hình phân loại văn dựa kỹ thuật khai thác đồ thị ... I- Tên đề tài: PHÂN LOẠI VĂN BẢN DỰA TRÊN MƠ HÌNH ĐỒ THỊ II- Nhiệm vụ nội dung: Đề tài luận văn bao gồm nhiệm vụ với nội dung sau: Luận văn nghiên cứu phân loại văn dựa mô hình đồ thị Trong đó,

Định dạng
Số trang	79
Dung lượng	2,23 MB