Hƣớng tiếp cận

Một phần của tài liệu Giải pháp lọc thư điện tử theo phân tích nội dung (Trang 53 - 55)

Hƣớng tiếp cận lọc thƣ theo nội dung đang là hƣớng nghiên cứu khả thi nhất cho vấn đề thƣ rác. Tuy nhiên chúng cũng gặp phải những thiếu sĩt: các luật logic sử dụng các quyết định đúng/sai cứng nhắc để xác nhận thƣ cĩ phải là thƣ rác hay khơng. Những luật này thƣờng sử dụng khoảng dao động để đo mức độ tin cậy khi chúng phân lớp các thƣ nhận, nhƣ vậy, khi một điểm tin cậy bị vi phạm, thƣ đĩ bị coi nhƣ thƣ rác vì lí do sai trong việc phân loại thƣ. Thơng thƣờng, cái giá phải trả khi xem xét nhầm thƣ rác là thƣ rác thƣờng lớn hơn rất nhiều so với việc nhầm lẫn thƣ rác là thƣ hợp pháp.

45

Xuất phát từ điểm này, yêu cầu đầu tiên với mơ hình phân loại là cung cấp khả năng cho mỗi quyết định phân loại. Yêu cầu thứ hai là xác định hàm tƣơng quan giữa 2 loại lỗi. Dựa trên hai yêu cầu đĩ xây dựng lý thuyết quyết định. Các mơ hình phân loại văn bản nổi tiếng sử dụng phƣơng pháp Bayes là Phân loại Nạve Bayesian (Lewis & Ringuette 1994) (Mietchell 1997) (McCallum 1998) và ấn tƣợng hơn cả là mơ hình của Koler & Sahami 1997.

Chúng ta cần tìm hiểu các kỹ thuật phân loại bayesian để giải quyết vấn đề lọc thƣ. Bằng việc tao ra nền tảng mở rộng cho mơ hình bayesian, Chúng ta cĩ thể khơng chỉ áp dụng cho việc phân lớp văn bản truyền thống mà cịn sử dụng chúng vào các mục đích cụ thể khác. Chúng ta cũng cĩ thể sử dụng việc phân loại khi kết hợp với mơ hình loss, sau đĩ sử dụng quyết định tối ƣu khi trong việc phân loại thƣ là thƣ rác hay khơng.

Trong phần này, đầu tiên chúng ta xem xét các phƣơng pháp huấn luyện phân loại bayesian đối với dữ liệu văn bản. Sau đĩ, chúng ta tập trung vào các tính năng đặc trƣng của việc lọc thƣ rác để cĩ thể đƣa vào mơ hình huấn luyện theo khả năng.

Để cĩ thể xây dựng phân loại dựa trên khả năng trong việc phát hiện thƣ rác, chúng ta sử dụng dạng thức của mạng bayesian. Mạng Bayesian là đồ thị trực tiếp đƣợc thể hiện bằng khả năng phân tán (Pearl 1988). Trong đồ thì này. Mỗi giá trị biết ngẫu nhiên đƣợc đặt cho một đỉnh đồ thị. Cung nối trực tiếp giữa hai đỉnh chỉ ra khả năng ảnh hƣởng của đỉnh cha đối với đỉnh con. Cấu trúc của mạng giả sử rằng mỗi

đỉnh XI trong mạng phụ thuộc vào các đỉnh cha của nĩ. Để mơ tả khả năng phân tán,

mỗi đỉnh Xi trong đồ thì đƣợc định nghĩa bởi một bảng điều kiện khả năng, bảng này

xác định các giá trị khả năng của đỉnh Xi với các đỉnh là cha của nĩ.

Phân loại Bayesian là mạng Bayesian đƣợc áp dụng cho việc phân lớp. Nĩ chứa

đỉnh C đại diện cho giá trị lớp và các đỉnh Xi cho mỗi tính năng của lớp. Biến x

(nhận các giá trị x1, x2, … xn cho các biến tính năng), mạng Bayeasian cho phép

chúng ta tính tốn khả năng P(C=ck | X=x) cho mỗi khả năng lớp ck, Điều này dựa

trên lý thuyết bayesian.

Thành phần quan tâm trong cơng thức trên là P(X = x | C = Ck). Dạng thức cơ bản

nhất trong phân loại Nạve Bayesian (Good 1995). Trong đĩ giả sử rằng các mỗi tính

năng Xi là điều kiện độc lập đối với các tính năng khác và đƣợc cho bới biển phân lớp

46

Những năm gần đấy đã cĩ sự cải tiến lớp trong việc áp dụng mơ hình huấn luyện Bayesian (Cooper & Herkovits 1992) (Heckerman, Geiger & Chickering 1995). Đặc biệt đã cĩ các phƣơng pháp đối với mạng huấn luyện áp dụng riêng cho việc phân lớp (Friedman, Geiger & Goldszmidt 1997) (Sahami 1996). Các hƣớng tiếp cận sau này cho phép các dạng thức giới hạn phụ thuộc giữa các biến tính năng.

Hình 16.Mạng Bayesian tƣơng ứng với (a); (b)

Trong phần này chúng ta sử dụng mơ hình phân lớp Nạve Bayesian và làm rõ phƣơng pháp xây dựng mơ hình phân lớp Bayesian phức tạp hơn.

Đối với vấn đề lọc thƣ, việc cần thiết là xem nhƣ xét chúng là các vector tính năng vì vậy việc tạo ra phƣơng pháp phân lớp Bayeasian cĩ thể áp dụng trực tiếp. Trong phần nay chúng tơi sử dụng mơ hình khơng gian vector (Vector Space, Salton & McGill 1983) để định nghĩa mỗi chiều của khơng gian tƣơng ứng với các từ ngữ đƣợc trong thƣ. Mỗi thƣ đƣợc đại diện bởi một vector để chứng tỏ các từ ngữ cĩ xuất hiện trong thƣ hay khơng. Bằng cách thể hiện này chúng ta xem xét vấn đề huấn luyện đối với việc phân loại khả năng để nhận biết đƣợc thƣ rác đƣợc đƣa ra bởi tập huấn luyện cho trƣớc.

Một phần của tài liệu Giải pháp lọc thư điện tử theo phân tích nội dung (Trang 53 - 55)

Tải bản đầy đủ (PDF)

(88 trang)