Tiến trình phân tích thô dữ liệu gói bắt được- 123docz.net

Các phép phân tích ban đầu đối với dữ liệu đo thường được thực hiện nhằm xác định các thuộc tính thống kê cơ bản của lưu lượng, như: phân bố số lượng gói/ luồng trong khoảng thời gian cho trước hay phân bố kích thước gói/ luồng,vv...và các thông số liên quan của phân bố như giá trị trung bình, Giá trị trung tâm, độ lệch tiêu chuẩn,vv...Mặc dù hình dạng của phân bố giả định của các tham số mạng cần quan tâm trong phép đo chưa biết, nhứng bằng Định lý giới hạn trung tâm (Central

Limit Theorem), hoàn toàn có thể nhận dạng được một số dịch chuyển đáng kể của

phân bổ. Và cho dù hình dạng phân bố của các tham số nào thì giá trị kỳ vọng của các mẫu lưu lượng đo thực cũng sẽ tiếp cận kỳ vọng của phân bố và độ lệch tiêu chuẩn của chúng sẽ tiếp cận độ lệch tiêu chuẩn của phân bố giả định chia cho căn bậc hai của kích thước mẫu. Các thông số thống kê đó có thể dễ dàng tính được dựa trên 3 giá trị của phép đo là số lượng mẫu, tổng giá trị và tổng bình phương của các mẫu.

Tuy nhiên do lưu lượng mạng thường thay đổi theo định kỳ, nên trị số “tiêu chuẩn” của các thông số lưu lượng cũng sẽ thay đổi theo, có thể khắc phục hiện tượng này bằng cách sử dụng các cửa sổ quan sát.

Các mức lưu lượng trong mạng chuyển mạch gói như Internet thường được đo trên các thang thời gian tương đối dài (15- 30 phút) so với kích thước cụm lưu lượng, nếu thang thời gian ngắn hơn thì lượng dữ liệu đo sẽ rất lớn và đôi khi phần hoặc thiết bị đo không đáp ứng được. Một số nghiên cứu [5] đã trình bày một số mô tả thống kê lưu lượng đo, như: PMR (tỉ lệ giá trị đỉnh/trị trung bình),CSQ (binh phương hệ số biến thiên), Dc (lượng tương quan), IDC (chỉ số phân tán của các bộ đếm các thông số liên quan đến lưu lượng đo), P (mức độ đỉnh) và tham số H (Hurst). Ba thông số đầu tiên ( PMR, CSQ, Dc) được xem là các tham số đo lường thực tế và người ta cũng đã nghiên cứu thêm về chúng với các dữ liệu đo được từ mạng Internet (6 tệp dữ liệu, với 100000 gói/tệp) và mạng báo hiệu ISDN (với 5 dòng dữ liệu), kết quả cho thấy rằng nếu chọn được thang thời gian thích hợp thì thông số PMR có thể cung cấp thông tin về sự thiếu hụt băng thông.

Kết quả nghiên cứu đặc tính tự tương quan của trễ xếp hàng trên các dữ liệu đo của mạng Ethernet và mạng ISDN, cho thấy mô hình GI/G/1 là phù hợp nhất cho việc mô tả dữ liệu đo. Việc so sánh trễ trung bình trong các trường hợp hệ số sử dụng khác nhau, khi hệ số sử dụng >0,5 thì hai đường cong GI/G/1 và dữ liệu đo biến đổi khác nhau. Khi xáo trộn một cách ngẫu nhiên tập dữ liệu đo nhằm triệt tiêu sự tương quan nhưng vẫn duy trì phân bố biên (marginal) thì kết quả cho thấy đường cong phân bố dữ liệu đo phù hợp với đường cong GI/G/1. Tiếp theo, chia dữ liệu đo thành các khối có kích thước cố định từ 10 – 100 gói/ khối nhằm duy trì được các cụm lưu lượng cục bộ, với kích thước khối là 15 gói, tiến hành xáo trộn các khối nhưng giữ nguyên thứ tự các gói trong từng khối, kết quả cho thấy trễ xếp hàng thay đổi so với dữ liệu đo gốc. Tuy nhiên nếu xáo trộn cục bộ các khối (nghĩa là giữ nguyên thứ tự các khối nhưng thay đổi thứ tự các gói trong từng khối) thì dữ liệu đo cho thấy sự tương quan thời gian dài và phù hợp với dữ liệu đo gốc trên khía cạnh trễ xếp hàng, do đó mô hình FBM (Fractional Brownian Motion) là phù hợp với dữ liệu đo trừ trường hợp thang thời gian ~ 10ms thì hiện tượng phụ thuộc thời gian ngắn là phổ biến. Đồng thời do sự giới hạn về độ dài của dữ liệu đo nên phân bố chiều dài hàng đợi của dữ liệu đo đối với các giá trị lớn suy giảm nhanh hơn so với mô hình.

Tóm lại các kết quả nghiên cứu trên cho thấy nếu mục đích nghiên cứu là phân tích và đánh giá các biểu hiện hoạt động và hiệu suất của mạng thì việc đo lường và phân tích dữ liệu đo tại các thang thời gian thấp là không cần thiết. Các thang thời gian thấp (xấp xỉ giá trị RTT) chỉ phù hợp cho việc phân tích và dự đoán tham số H là tham số phản ánh mức độ co cụm của lưu lượng hoặc hiện tượng phân bố vệt dài của các thông số lưu lượng tương ứng.

Một phương pháp khác là phân tích lưu lượng đo trong miền tần số, theo đó có thể chia lưu lượng thành 3 loại khác nhau, bao gồm :

• Loại tần số thấp (|ω|≤ωL),

• Loại tần số cao (|ω|≥ωH),

Kết quả nghiên cứu cho thấy tốc độ đỉnh của lưu lượng tần số thấp sẽ xác định băng thông của liên kết trong khi việc nhớ đệm sẽ có ảnh hưởng nhiều đến lưu lượng tần số cao, do đó việc lựa chọn đúng các tần số ωL và ωH sẽ giúp ích nhiều cho công việc đo lường và phân tích lưu lượng mạng thực tế.

Tiến trình phân tích thô dữ liệu gói bắt được

Tiến trình bắt giữ gói lưu lượng

Phân tích luồng lưu lượng IP trên Internet