Lý thuyết lưu lượng và Internet

Kỹ thuật lưu lượng mạng có thể được thực hiện dưới ba hình thức khác nhau, bao gồm:

− Mô hình phân tích. − Phương pháp mô phỏng.

− Hay bằng đo lường thực nghiệm.

Trong 3 hình thức này thì phương pháp mô hình phân tích có nhiều lợi thế do hoạt động của nó hoàn toàn có thể kiểm soát được và cung cấp cái nhìn bên trong về mối quan hệ giữa các thông số đầu vào của mô hình và kết quả đầu ra. Mô hình phân tích điển hình thường là sử dụng các thông số đầu vào từ lưu lượng mạng Internet hiện tại như: nhu cầu lưu lượng hay các mô tả hệ thống, để dự đoán trạng thái hoặc các thông số của mạng Internet trong tương lai. Đây là bài toán rất phức tạp do bản chất biến thiên liên tục của Internet, và thực tế có hai cách tiếp cận giải quyết tính bất định này. Cách thứ nhất là tìm cách xác định các nhân tố bất biến của hệ thống, là các thông số hoặc biểu hiện hoạt động của mạng không thay đổi theo thời gian và trên các môi trường mạng khác nhau. Các nhân tố bất biến thường được xác định dựa trên dữ liệu đo thực nghiệm. Cách tiếp cận thứ hai trong việc khảo sát và phân tích các mạng Internet qui mô lớn và luôn biến đổi là tìm cách xác định một không gian tham số hữu ích, mà thực chất là dựa trên các giả thiết và kết quả đo lường cho trước để tìm tập các thông số mô tả đầy đủ trạng thái và các biểu hiện biến thiên của lưu lượng mạng.

Các mô hình phân tích lưu lượng có thể được thực hiện ở mức gói, mức luồng hoặc là các mô hình nguồn (kết hợp nhiều mức giao thức khác nhau). Mô hình ở mức gói thường mô tả quá trình đến hoặc phân bố kích thước của các gói riêng rẽ trên mạng mà không phân biệt giữa người dùng và các ứng dụng. Trong khi đó mô hình ở mức luồng không xem xét từng gói riêng rẽ mà mô tả lưu lượng dưới dạng các đặc tính luồng, các đặc tính điển hình bao gồm: quá trình đến của các luồng, chiều dài và kích thước của luồng.Chúng ta chỉ xét các mô hình mức luồng lưu lượng.

Việc xây dựng các mô hình phân tích cũng có nhiều cách, điều quan trọng là mô hình phân tích không chỉ phản ánh biểu hiện hoạt động và trạng thái của (lưu lượng) mạng thực tế mà còn phải có tính ứng dụng cao .

Tuy nhiên lưu lượng mạng Internet với đặc tính cụm và tương quan thời gian dài thì các mô hình dạng này không đủ để mô tả mà phải sử dụng các mô hình phân bố vệt dài (heavied-tail) hoặc mô hình tự đồng dạng (self-similarity). Phần tiếp theo trình bày một số khái niệm quan trọng của các mô hình này.

• Mô hình tự đồng dạng.

Lưu lượng Internet có đặc tính cụm rất lớn, nghĩa là đồ thị chuỗi thời gian quá trình đến của các gói có dạng rất nhấp nhô, không bằng phẳng và chỉ có thể được thể hiện tốt bằng các mô hình tự đồng dạng là mô hình mà các thuộc tính thống kê của nó bất biến trên tất cả các mức tổng hợp của tiến trình tương ứng. Mức độ tự đồng dạng thường được thể hiện bằng tham số H (Hurst), trong đó H càng lớn càng thể hiện tính tự đồng dạng cao và nếu H = (0.5 - 1) thì tiến trình tương ứng được xem là có đặc tính phụ thuộc thời gian dài (RLD). Về mặt toán học, mô hình (tiến trình) tự đồng dạng được định nghĩa như sau: giả thiết X là tiến trình ngẫu nhiên theo thời gian với r(k) là hàm tự tương quan, một tiến trình mới X(m) được định nghĩa như sau:

) 1 , ( ( ) ) ( = X k≥ X m k m (2-1) Trong đó: ( ) 1( ( 1) 1 ... ) km m k m k m X X X = − − + + + , với mọi k > = 1 (2-2) gọi là tiến trình tổng hợp của X ở mức m. Từ đó tiến trình X được gọi là tự đồng dạng với mọi m > = 1, nếu:

1 ( )

D H m

X ≈ m− X , với 0 < H < 1 (2-3) • Hàm phân bố luỹ tích (CDF)

Với một biến ngẫu nhiên X bất kỳ, hàm phân bố xác suất luỹ tích (CDF) được định nghĩa là: F(X) = P(X < = x), với mọi x.

Trong trường hợp X là biến ngẫu nhiên rời rạc , thì: F(X) = {y∑y≤x }

/ f(y)= {y∑y≤x}

Đối với dữ liệu đo lường thực nghiệm, có thể xây dựng hàm CDF của nó như sau:

Giả sử tập dữ liệu là xi, với i = 1,2,3,…n:

Sắp xếp xi theo thứ tự: x(1) < x(2) < … x(n -1) < x(n) , khi đó ta có: Fe(x(i)) = P (X ≤ x(i)) =

n i

(2-5) Từ đó có thể xác định hàm phân bố luỹ tích bù (CCDF) của X như sau:

) ( 1 ) (X F X F− = − (2-6)

• Phân bố vệt dài (Heavy -tailed)

Một phân bố được gọi là vệt dài (hay có phần đuôi kéo dài), nếu:

P[X > x] > ax-αx, với a > 0, α > 0 và khi x -- > ∞ (2-7) Một tập con của các hàm phân bố vệt dài được gọi là các phân bố có phần đuôi suy giảm theo luật luỹ thừa, được định nghĩa như sau:

P[X > x] > cx-α,với c > 0, α > 0 và khi x -- > ∞ (2-8) Một thuộc tính quan trọng của các phân bố vệt dài là: ∀k ≥α, giá trị tức thời (moment) thứ k của phân bố là vô hạn (=∞). Điều này có nghĩa nếu α <=2, phân bố vệt dài sẽ có lượng biến thiên vô hạn, hoặc nếu α <=1 thì phân bố vệt dài có giá trị trung bình vô hạn. L og 10 (1 -F (x ))

Một trong những phân bố dạng vệt dài đơn giản nhưng hết sức quan trọng trong phân tích lưu lượng mạng Internet là phân bố Pareto được định nghĩa như sau:

P[X > x] =Χcα với α > 0 (2-9) Có thể nhận dạng các phân bố vệt dài (hàm pdf của nó suy giảm theo luật luỹ thừa) bằng đồ thị hàm CCDF vẽ trên thang logarit, hay thường được gọi là đồ thị Log-Log CCDF. Theo đó đồ thị Log-log CCDF của các phân bố vệt dài thường có phần đuôi là đường dốc tuyến tính (như hình 2-1). Tham số α của các phân bố vệt dài có thể được dự đoán theo nhiều cách khác nhau, ví dụ bằng cách sử dụng độ dốc tuyến tính của đồ thị Log-log CCDF, hay sử dụng toán tử dự đoán Hill.

Đặc biệt phân bố Pareto có đồ thị log-log CCDF với toàn bộ phần đuôi là một đường thẳng dốc tuyến tính, còn hai phân bố log-Normal và Weibull thì không phải toàn bộ mà phần lớn đuôi của đồ thị log-log CCDF là dạng đường thẳng tuyến tính dốc, nhưng càng về phần cuối của đuôi thì lại càng có dạng cong.

Tiến trình bắt giữ gói lưu lượng

Phân tích luồng lưu lượng IP trên Internet