Các định nghĩ a

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 68 - 69)

Nếu cĩ n thơng điệp cĩ khả năng xảy ra như nhau, thì xác xuất p của mỗi thơng điệp là 1/n và thơng tin chuyển tới bởi thơng điệp là –log2(p) = log2(n). ðĩ là, nếu cĩ 16 thơng điệp, thì log2(16) = 4 và ta cần 4 bits đểđịnh danh mỗi thơng điệp.

Nĩi chung, nếu ta cĩ phân tán xác xuất (probability distribution) P = (p1, p2, .., pn) thì thơng tin chuyển tải bởi sự phân tán này -Entropy của P- là:

I(P) = -(p1*log2(p1) + p2*log2(p2) + .. + pn*log2(pn))

Nếu tập T của các bản ghi được phân chia thành các lớp riêng biệt C1, C2, …, Ck trên cơ sở giá trị của thuộc tính phân loại, thì thơng tin cần để xác định lớp của phần tử của T là Info(T) = I(P), trong đĩ P là phân tán xác suất của các phần (C1, C2,..Ck):

P = (|C1|/|T|, |C2|/|T|, ..., |Ck|/|T|)

Nếu đầu tiên ta chia phần T trên cơ sở giá trị của các thuộc tính khơng phân loại X thành các tập T1, T2, .. Tn thì thơng tin cần để xác định lớp của một phần tử của T trở thành trọng số trung bình của thơng tin cần để xác định lớp của một phần tử của T, nghĩa là trọng số trung bình của Info(Ti):

n

Info(X, T) = Infox(T) = - ∑ ((|Ti| / |T|) * Info(Ti)) i=1

Giá trị lợi ích Gain(X,T) được định nghĩa là Gain(X,T) = Info(T) - Info(X,T)

ðiều này biểu diễn sự khác nhau giữa thơng tin cn để xác định mt phn t ca T và thơng tin cn để xác định mt phn t ca T sau khi giá tr

thuc tính X đã được biết, đĩ là, li ích thơng tin (gain) trong thuc tính X.

Ta cĩ thể dùng khái niệm gain để giới hạn (rank) các thuộc tính và để xây dựng các cây quyết định với mỗi node được định vị thuộc tính với gain lớn nhất trong số các thuộc tính chưa được xem xét trong đường đi từ gốc.

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 68 - 69)