Phương pháp phân loại văn bản bằng cây quyết định

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 54)

Phương pháp dựa trên xác suất là một phương pháp cĩ bản chất tự nhiên mà

ảnh hưởng của nĩ khĩ thể giải thích rõ hết bởi con người. Tuy nhiên, cũng cĩ một lớp các thuật tốn khơng sử dụng xác suất hay cịn gọi là khơng sử dụng số học mà thay vào đĩ là sử dụng các mơ hình thể hiện. Trong những phương pháp này cĩ thể

kể đến hai phương pháp điển hình là phương pháp học luật quy nạp và cây quyết

định.

Phương pháp phân loại văn bản bằng cây quyết định đã được sử dụng như

một cơng cụ phân lớp chính trong các nghiên cứu của Fuhr và đồng nghiệp năm 1991 [45], Lewis và Catlett năm 1994 [49], Lewis và Ringuette năm 1994 [47]. Hay

được xem như là bộ phân lớp cơ bản trong nghiên cứu của Cohen và Singer năm 1999 [46], Joachims năm 1998 [28]. Ngồi ra, phương pháp phân loại văn bản bằng cây quyết định cũng được sử dụng như một thành phần trong bộ phân lớp tổng hợp trong nghiên cứu của Li và Jain năm 1998 [33], Schapire và Singer năm 2000 [51], Weiss và đồng sự năm 1999 [25].

Bộ phân lớp cây quyết định Mitchell, 1996 [53] là một dạng cây mà mỗi nút

được gán nhãn là một đặc trưng, mỗi nhánh là giá trị trọng số xuất hiện của đặc trưng trong văn bản cần phân lớp, và mỗi lá là nhãn của phân lớp tài liệu. Việc phân

lớp của một tài liệu dj sẽđược duyệt đệ quy theo trọng số của những đặc trưng cĩ xuất hiện trong văn bản dj. Thuật tốn lặp đệ quy đến khi đạt đến nút lá và nhãn của dj chính là nhãn của nút lá tìm được. Thơng thường việc phân lớp văn bản nhị phân sẽ tương thích với việc dùng cây nhị phân.

Cĩ rất nhiều bộ chuẩn cho phương pháp học của cây quyết định, và hầu hết các cách tiếp cận đều cĩ thể dùng cho bài tốn phân loại văn bản bằng cây quyết

định. Các phương pháp cĩ thể kểđến như ID3 (Fuhr et al, 1991 [45]), C4.5 (Cohen và Hirsh, 1998 [48]), (Cohen và Singer, 1999 [46]), (Joachims, 1998 [28]), (Lewis và Catlett, 1994 [49]) hay C5 (Li và Jain, 1998 [33])

™ Gán nhãn phân lớp cho quá trình huấn luyện của cây quyết định

Một vấn đề khả thi thường dùng cho việc học của cây quyết định trong phân lớp ci chính là ởđặt điểm “chia để trị”, cĩ thể mơ tả như sau:

Kiểm tra cĩ phải tất cả các tài liệu huấn luyện cĩ được gán cùng nhãn (bao gồm cả nhãn ci và khơng phải ci)

Nếu khơng, chọn lựa đặc trưng tk, phân chia tập huấn luyện thành các lớp tài liệu mà cĩ cùng giá trị với tk, sau đĩ đặt mỗi lớp vào một cây con. Quá trình sẽ lặp đệ quy cho đến khi đạt đến các nút lá của cây. Như thế tất cả tài liệu mỗi nút đều cĩ cùng nhãn với nhãn của nút lá.

Trong quá trình phân chia, bước quan trọng là chọn được nhãn tk mà nĩ cĩ tác dụng cho quá trình phân chia. Tuy nhiên đối với những cây quá đầy đủ, các nhánh của cây cĩ thể trở nên quá đặc biệt cho việc huấn luyện. Chính vì thế, hầu hết các phương pháp huấn luyện của cây quyết định đều bao gồm quá trình tỉa cành, tức là cắt bỏđi những cành nào quá đặc biệt cĩ thểảnh hưởng gây tình trạng “quá khớp”.

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 54)