Theo Shanon[19], Entropy thông tin mô tả mức độ hỗn loạn trong một tín hiệu lấy từ một sự kiện ngẫu nhiên. Nói cách khác, entropy cũng chỉ ra có bao nhiêu thông tin trong tín hiệu, với thông tin là các phần không hỗn loạn ngẫu nhiên của tín hiệu. Ví dụ, nhìn vào một dòng chữ tiếng Việt, được mã hóa bởi các chữ cái, khoảng cách, và dấu câu, tổng quát là các ký tự. Dòng chữ có ý nghĩa sẽ không hiện ra một cách hoàn toàn hỗn loạn ngẫu nhiên; ví dụ như tần số xuất hiện của chữ cái x sẽ không giống với tần số xuất hiện của chữ cái phổ biến hơn là t. Đồng thời, nếu dòng chữ vẫn đang được viết hay đang được truyền tải, khó có thể đoán trước được ký tự tiếp theo sẽ là gì, do đó nó có mức độ ngẫu nhiên nhất định. Entropy thông tin là một thang đo mức độ ngẫu nhiên này
Mỗi nguồn tin đều có những giả định về tính ngẫu nhiên của các địa chỉ nguồn thông tin, trạng thái hữu hạn của các kết nối. Mỗi trạng thái i, khả năng xảy ra của
các sự kiện lần lượt là p1, p2, p3, …, pn. Các xác suất xảy ra này là biết trước. Theo [19], mỗi trạng thái sẽ có một entropy Hi. Entropy của nguồn tin sẽ được tính bằng tổng các entropy này cùng với xác suất xuất hiện của các trạng thái.
j p j p P H P H i i j i i i i i log , .
Trong trường hợp theo dõi các kết nối đến hệ thống, các chỉ số về : - Địa chỉ nguồn kết nối
- Định dạng của kết nối (giao thức, các hàm gọi – GET, POST) - Các đặc tính kết nối (Độ dài gói tin, file tham chiếu)
đều có thể coi là những trạng thái của nguồn tin và có thể sử dụng để tính entropy của nguồn thông tin.
Theo [1], Entropy của một nguồn tin là một đại lượng luôn dương hoặc bằng không. Do Entropy của nguồn tin phụ thuộc tỉ lệ vào các thành phần có trong nguồn tin. Nếu ta chọn các thành phần mô hình tính là các địa chỉ IP, các trường flag trong gói tin TCP, ta có thể xây dựng được mô hình về entropy của nguồn tin. Những nghiên cứu của Jung [11] đã chỉ rõ về sự lặp lại của các địa chỉ IP nguồn, của các tài liệu mà khách hàng truy vấn tới. Từ đó ta có thể suy ra, trong một khoảng thời gian nhất định, entropy của nguồn tin đến hệ thống là tương đối ổn định hoặc thay đổi không đáng kể.
Trong trường hợp xảy ra tấn công DDoS, giả thiết là các nguồn địa chỉ IP được sử dụng là các địa chỉ giả mạo, có tính ngẫu nhiên. Trong tấn công, số lượng kết nối sẽ tăng vọt. Đồng thời, các cờ hiệu trong gói tin TCP do được tạo ngẫu nhiên nên cũng có số lượng tăng đột biến. Như vậy, có thể dễ dàng nhận thấy, entropy của nguồn
tin sẽ tăng lên và với mức độ thay đổi là rất lớn [6]. Nếu có thể theo dõi được sự thay đổi này thì sẽ phát hiện ra tấn công DDoS với sai biệt là nhỏ.