Phân loại văn bản dựa trên tiếp cận đồ thị- 123docz.net

Schenker và các đồng sự [82] sử dụng mô hình đồ thị biểu diễn văn bản và áp dụng thuật toán k-NN cải tiến để phân loại văn bản trên web. Thuật toán k-NN nguyên thủy chỉ áp dụng trên mô hình không gian vectơ do đó khi tìm sự tương đồng giữa đồ thị biểu diễn văn bản mới và các đồ thị biểu diễn văn bản trong tập huấn luyện, các tác giả sử dụng độ đo tương tự giữa các đồ thị dựa trên MCS (Maximal Common Subgraph). Tác giả đã thử nghiệm 5 loại mô hình biểu diễn văn bản (mô hình dạng đơn giản, dạng chuẩn, khoảng cách n đơn giản, khoảng cách n và đồ thị tần số) trên bộ dữ liệu văn bản web (F-series, J-series và K-series4). Kết quả thử nghiệm cho thấy, độ chính xác phân lớp của k-NN trên mô hình đồ thị tốt hơn k-NN trên mô hình không gian vectơ từ 3% đến 20% tùy theo bộ dữ liệu và kiểu đồ thị nhưng tốc độ xử lý chậm hơn. Trong đó, mô hình đồ thị dạng chuẩn và mô hình đồ thị đơn giản cho kết quả phân loại tốt nhất trên các bộ dữ liệu.

Với mục tiêu hạn chế nhược điểm của tiếp cận [82] về tốc độ xử lý cũng như việc khó áp dụng các thuật toán phân loại “tích cực” như Naïve Byaes, cây quyết định, … các tác giả [61] đề xuất mô hình lai dùng đồ thị biểu diễn văn bản trên web. Đầu tiên văn bản được biểu diễn thành đồ thị dạng chuẩn. Trên tập đồ thị tương ứng với những văn bản thuộc về cùng một lớp, thuật toán khai thác đồ thị con phổ biến FSG [51] xác định các đồ thị con phổ biến. Sau đó, sử dụng tập đồ thị con phổ biến của tất cả các lớp, các đồ thị biểu diễn văn bản được chuyển thành vectơ nhị phân thể hiện sự có mặt hay không của đồ thị con tương ứng. Các thuật toán phổ biến như k-NN (với độ đo tương tự Manhattan), C4.5 và Naïve Byaes được dùng khi xây dựng mô hình phân loại. Kết quả thử nghiệm cho thấy phương pháp sử dụng mô hình lai có độ chính xác phân lớp tốt phương pháp sử dụng riêng biệt mô hình không gian vectơ hay mô hình đồ thị [62], [63]. So với phương pháp sử dụng mô hình đồ thị, mô hình lai cho kết quả phân lớp tăng từ 0.5% đến 7% tùy theo bộ dữ liệu và thuật toán phân lớp. Bên cạnh đó, thời gian phân loại văn bản trung bình giảm một cách đáng kể từ 24 giây

trên mô hình đồ thị (áp dụng k-NN) xuống còn khoảng 0.017 giây (trên bộ dữ liệu K- series) cho mô hình lai.

Phát triển đồng thời với [61], các tác giả [11] sử dụng mô hình đồ thị hình sao biểu diễn văn bản nói chung và email nói riêng. Sau đó thuật toán khai thác đồ thị con Subdue [23] sẽ tìm tiếm các đồ thị con đại diện cho từng lớp (thư mục) đồ thị. Điểm khác biệt của Subdue so với các thuật toán khai thác đồ thị con phổ biến khác là Subdue có xu hướng tìm tập nhỏ các mẫu phổ biến và là thuật toán gần đúng tìm các mẫu có thể nén đồ thị đầu vào bằng cách thay thế các mẫu này bằng đỉnh đơn. Subdue có khả năng xác định cấu trúc đẳng cấu gần đúng trong dữ liệu đồ thị và vì vậy theo các tác giả nó rất phù hợp cho dữ liệu email thưa, ít thành phần liên kết phức và các mẫu đẳng cấu chính xác thường rất thấp. Cuối cùng, tác giả sử dụng phương pháp so khớp gần đúng giữa đồ thị biểu diễn văn bản (email) mới với tập đồ thị đại diện cho từng lớp và xác định lớp (thư mục) cho văn bản (email) mới. Tuy nhiên, mô hình đồ thị hình sao có nhược điểm là chỉ lưu trữ thông tin vị trí chứ không lưu trữ được thông tin thứ tự của các từ.

Phân loại văn bản dựa trên tiếp cận đồ thị

Bài toán gom cụm văn bản

Bài toán tóm tắt văn bản