5.6.Tổng kết chƣơng
Chƣơng 5 trình bày một số vấn đề khĩ khăn khi giải quyết bài tốn phân loại văn bản. Một trong các vần đề đĩ tập dữ liệu huấn luyện. Nhu cầu thực tế cho thấy, phân loại văn bản cũng cần phải thực hiện ngay chỉ khi chỉ cĩ một lƣợng nhỏ dữ liệu gán nhãn bởi vì việc thu thập dữ liệu huấn luyện là một việc tẻ nhạt, mất nhiều thời gian và tốn kém. Và một trong những phƣơng pháp giải quyết vấn đề này là sử dụng phân cụm dữ liệu trong phân loại văn bản.
Cĩ nhiều thuật tốn phân cụm dữ liệu đã đƣợc giới thiệu cho đến nay, nhƣng tổng quát lại chúng tuân theo hai cách tiếp cận là phân vùng và phân cấp. Việc sử dụng phân cụm đƣợc sử dụng để lựa chọn thuộc tính hoặc tăng chất lƣợng tập huấn luyện, bằng cánh tận dụng các thơng tin từ tập dữ liệu khơng nhãn.
Chƣơng 5 chủ yếu tập trung vào cách tiếp cận tăng cƣờng khả năng tập dữ liệu huấn luyện. Một số phƣơng pháp tiêu biểu để thực hiện việc bổ sung các thuộc tính mới, sinh ra từ kết quả phân cụm, cho khơng gian thuộc tính, phƣơng pháp của Katamura, 5.3.2, và phƣơng pháp của Kyriakopoulou, 5.3.3, hay tạo ra nhãn cho tập dữ liệu khơng nhãn, phƣơng pháp của Zeng, H.J., trình bầy ở 5.3.2.
Thực nghiệm trên corpus tiếng Việt cho thấy kết quả vƣợt trội của phƣơng pháp sử dụng phân cụm so với phƣơng pháp SVM thơng thƣờng đặc biệt là với trƣờng hợp tập huấn luyện cĩ nhãn là nhỏ, mặc dù SVM đƣợc coi là tốt nhất trong số các phƣơng pháp cơ bản. Thực nghiệm này chứng tỏ một hƣớng triển khai khả thi bài tốn phân loại văn bản tiếng Việt để cho kết quả tốt ngay cả khi chỉ cĩ một bộ dữ liệu cĩ nhãn nhỏ, và khơng phải dùng đến một corpus huấn luyện lớn. Phù hợp với Việt Nam là một nƣớc đang phát triển, và vẫn cịn nhiều hạn chế trong cộng đồng để xây dựng một bộ corpus huấn luyện đầy đủ và cơng phu cho phân loại văn bản nĩi riêng và xử lý ngơn ngữ tự nhiên nĩi chung.
CHƢƠNG 6 - CẢI TIẾN GIẢI THUẬT CHIẾT XUẤT THUỘC TÍNH NHĨM XÂU CON CHÍNH VÀ ÁP DỤNG TRONG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
6.1. Giới thiệu
Phân loại văn bản sử dụng học máy là một trong những tác vụ quan trọng nhất để tổ chức và quản lý thơng tin. Hầu hết các phƣơng pháp phân loại truyền thống sử dụng học máy đều coi văn bản nhƣ là một tập hợp các từ. Ngồi ra, trong một số phƣơng pháp phân loại văn bản khác, văn bản đƣợc xử lý nhƣ một chuỗi các ký tự- xâu con. Cách tiếp cận dựa trên xâu con cĩ các ƣu điểm sau:
- Các thuộc tính là các phần của một từ, hay thuộc tính cấu thành từ một từ đặc biệt (các cụm từ).
- Tránh đƣợc vấn đề tách từ, phƣơng pháp này tỏ ra thích hợp với các ngơn ngữ Á đơng nhƣ tiếng Trung, tiếng Việt, tiếng Hàn, tiếng Nhật …, bởi vì các ngơn ngữ này khơng sử dụng dấu cách để phân biệt các từ nhƣ trong các ngơn ngữ Âu Ấn nhƣ tiếng Anh, tiếng Pháp…
- Các thuộc tính khơng phải alphabet cĩ thể đƣợc xét đến, điều này đặc biệt quan trọng cho việc áp dụng phân loại văn bản cho lọc spam mail. Bởi vì các mail spam, cĩ khuynh hƣớng trá hình bằng cách sử dụng các thuộc tính khơng phải alphabet.
Ví dụ: “q.u.ả.n.g_c.á.o” thay vì “quảng cáo” để lọt qua các bộ lọc.
- Các văn bản khác nhau cĩ thể đƣợc xử lý theo một cách đồng nhất (các trang web, mail, nội dung chat).
Các nghiên cứu phân loại văn bản dựa trên chuỗi trƣớc đầy hầu nhƣ tập trung vào một số biến thể của mơ hình chuỗi Markov. Tuy nhiên các phƣơng pháp học sản sinh (generative learning) thƣờng kém hiệu quả hơn các phƣơng thức học phân biệt (discriminative learning). Mặc dù các phƣơng thức học phân biệt nhƣ SVM, Adaboost khá thành cơng với phân loại văn bản dựa trên các thuộc tính là các từ, nĩ khơng cĩ hiệu quả khi áp dụng trực tiếp vào phân
loại văn bản dựa trên các xâu con khi coi mọi xâu con trong Corpus là các thuộc tính.
Chƣơng này trình bày phƣơng pháp phân loại văn bản dựa trên việc xem xét các nhĩm xâu con chính nhƣ là các thuộc tính, lần đầu đƣợc giới thiệu bởi Dell Zhang [30], 2006, cùng với những cải tiến và áp dụng trong phân loại văn bản tiếng Việt. Ý tƣởng của phƣơng pháp là xây dựng khơng gian thuộc tính các nhĩm xâu con chính, bằng cách xác định và tách các nhĩm xâu con chính từ tập ngữ liệu. Ở đây cấu trúc dữ liệu cây hậu tố đƣợc sử dụng để biểu diễn tập văn bản và xác định các xâu con chính. Phần tiếp theo trình bày về cây hậu tố và các khái niệm liên quan.
6.2. Cây hậu tố
Cây hậu tố là một cấu trúc dữ liệu thể hiện cấu trúc bên trong của một xâu theo chiều sâu. Cây hậu tố đƣợc sử dụng để giải quyết bài tốn khớp chính xác (exact matching), tuy nhiên ƣu điểm vƣợt trội của nĩ là khả năng ứng dụng để giải quyết nhiều bài tốn về xâu phức tạp khác trong thời gian tuyến tính. Nĩ cịn cung cấp cầu nối giữa các bài tốn khớp chính xác và khớp khơng chính xác (inexact matching).
Bài tốn cơ bản của cây hậu tố là bài tốn xâu con, cho trƣớc một văn bản
T với độ dài m, việc xây dựng cây hậu tố cho xâu này cĩ độ phức tạp tính tốn là O(m), với một xâu S cĩ độ dài là n, với thời gian O(n), cĩ thể tìm đƣợc một xuất hiện của S trong T hay chi chỉ ra đƣợc rằng S khơng xuất hiện trong T.
Định nghĩa cây hậu tố:
Một cây hậu tố T của một xâu S cĩ m kí tự là một cây cĩ gốc và cĩ hƣớng, cĩ đúng m lá đƣợc đánh số từ 1 đến m. Một một nút trong khơng phải là gốc cĩ ít nhất hai con và mỗi một cạnh đƣợc gán nhãn bởi một xâu con khơng rỗng của S. Khơng cĩ 2 cạnh nào đi ra từ một nút cĩ các nhãn cạnh bắt đầu với cùng một ký tự. Đặc điểm chính của cây hậu tố là đối với bất kỳ một nút lá nào, thì gép xâu của các nhãn cạnh trên một đƣờng đi từ gốc đến nút lá i biểu thị xâu hậu tố của S bắt đầu tại vị trí i. Kí hiệu là S[i..m]