III 2.2.3 Biểu diễn văn bản HyperText theo mụ hỡnh quan hệ
3.3.1. Thuật toỏn phõn lớp Bayes
Thuật toỏn phõn lớp Bayes là một trong những thuật toỏn phõn lớp điển hỡnh nhất trong khai thac dữ liệu và tri thức. í tưởng chớnh của thuật toỏn là tớnh xỏc suất cú sau của sự kiện c thuộc lớp x theo sự phõn loại dựa trờn xỏc suất cú trước của sự kiện c thuộc lớp x trong điều kiện T
Gọi V là tập tất cả cỏc từ vựng. Giả sử cú N lớp tài liệu: C1, C2,…,Cn
Mỗi lớp Ci cú xỏc suất p(Ci) và ngưỡng CtgTshi. Gọi p(C| Doc) là xỏc suất để tài liệu Doc thuộc lớp C.
Cho một lớp C và một tài liệu Doc, nếu xỏc suất p(C|Doc) tớnh được lớn hơn hoặc bằng giỏ trị ngưỡng của C thỡ tài liệu Doc sẽ thuộc vào lớp C.
Tài liệu Doc được biểu diễn như một vector cú kớch thước là số từ khoỏ trong tài liệu. Mỗi thành phần chứa một từ trong tài liệu và tần xuất xuất hiện của từ đú trong tài liệu. Thuật toỏn được thực hiện trờn tập từ vựng V, vector biểu diễn tài liệu Doc và cỏc tài liệu cú sẵn trong lớp, tớnh toỏn p(C|Doc) và quyết định tài liệu Doc sẽ thuộc lớp nào.
Xỏc suất p(C | DOC) được tớnh theo cụng thức sau: Xác suất p(C | Doc) đ−ợc tính theo cơng thức sau:
Với:
p(c | x, τ) = Σ p(c | x,T) p(T |⎯x) T in τ
Trong đĩ:
|V| : số l−ợng các từ trong tậpV Fj : từ khố thứ j trong từ vựng
TF(Fj | Doc) : Tần xuất của từ Fj trong tài liệu Doc (bao gồm cả từ đồng nghĩa)
TF(Fj | C) : Tần xuất của từ Fj trong lớp C (số lần Fj xuất hiện trong tất cả cỏc tài liệu thuục lớp C)
P(Fj | C) : Xỏc suất cú điều kiện để từ Fj xuất hiện trong tài liệu của lớp C Cụng thức F(Fi | C) được tớnh sử dụng ước lượng xỏc suất Laplace. Sở dĩ cú số 1 trờn tử số của cụng thức này để trỏnh trường hợp tần suất của từ Fi trong lớp C bằng 0, khi Fi khụng xuất hiện trong lớp C.
Để giảm sự phức tạp trong tớnh toỏn và giảm thời gian tớnh toỏn, ta để ý thấy rằng, khụng phải tài liệu Doc đĩ cho đều chứa tất cả cỏc từ trong tập từ vựng V. Do đú, TF(Fi | DOC) =0 khi từ Fi thuộc V nhưng khụng thuộc tài liệu Doc, nờn ta cú, (P(Fj | C))TF(Fj, Doc) = 1. Như vậy cụng thức (1) sẽ được viết lại như sau:
Như vậy trong quỏ trỡnh phõn lớp khụng dựa vào tồn bộ tập từ vựng mà chỉ dựa vào cỏc từ khúa xuất hiện trong tài liệu Doc.