Nếu cĩ n thơng điệp cĩ khả năng xảy ra như nhau, thì xác xuất p của mỗi thơng điệp là 1/n và thơng tin chuyển tới bởi thơng điệp là –log2(p) = log2(n). ðĩ là, nếu cĩ 16 thơng điệp, thì log2(16) = 4 và ta cần 4 bits đểđịnh danh mỗi thơng điệp.
Nĩi chung, nếu ta cĩ phân tán xác xuất (probability distribution) P = (p1, p2, .., pn) thì thơng tin chuyển tải bởi sự phân tán này -Entropy của P- là:
I(P) = -(p1*log2(p1) + p2*log2(p2) + .. + pn*log2(pn))
Nếu tập T của các bản ghi được phân chia thành các lớp riêng biệt C1, C2, …, Ck trên cơ sở giá trị của thuộc tính phân loại, thì thơng tin cần để xác định lớp của phần tử của T là Info(T) = I(P), trong đĩ P là phân tán xác suất của các phần (C1, C2,..Ck):
P = (|C1|/|T|, |C2|/|T|, ..., |Ck|/|T|)
Nếu đầu tiên ta chia phần T trên cơ sở giá trị của các thuộc tính khơng phân loại X thành các tập T1, T2, .. Tn thì thơng tin cần để xác định lớp của một phần tử của T trở thành trọng số trung bình của thơng tin cần để xác định lớp của một phần tử của T, nghĩa là trọng số trung bình của Info(Ti):
n
Info(X, T) = Infox(T) = - ∑ ((|Ti| / |T|) * Info(Ti)) i=1
Giá trị lợi ích Gain(X,T) được định nghĩa là Gain(X,T) = Info(T) - Info(X,T)
ðiều này biểu diễn sự khác nhau giữa thơng tin cần để xác định một phần tử của T và thơng tin cần để xác định một phần tử của T sau khi giá trị
thuộc tính X đã được biết, đĩ là, lợi ích thơng tin (gain) trong thuộc tính X.
Ta cĩ thể dùng khái niệm gain để giới hạn (rank) các thuộc tính và để xây dựng các cây quyết định với mỗi node được định vị thuộc tính với gain lớn nhất trong số các thuộc tính chưa được xem xét trong đường đi từ gốc.