Dữ liệu trong các phép đo lưu lượng thụ động thường rất lớn do đó cần thiết phải thực hiện một số biện pháp nhằm giảm kích thước hay nói cách khác là nén dữ liệu này lại để có thể lưu trữ, vận chuyển và phân tích được dễ dàng hơn. Một số phương pháp quan trọng đang được sử dụng hiện nay bao gồm: sử dụng các bản tóm tắt gói, sử dụng khái niệm luồng lưu lượng, và cuối cùng là biện pháp lấy mẫu.
- Sử dụng dấu hiệu gói lưu lượng
Một trong những cách có thể sử dụng để giảm được dữ liệu đo là sử dụng “dấu hiệu” gói và luồng, phương pháp này có thể áp dụng cho các phép đo trong đó mục đích không phải là nội dung của các goi mà là xác định biểu hiện của các gói lưu lượng khi di chuyển qua các thành phần mạng khác nhau, ví dụ như các phép đo trễ hay tỉ lệ mất gói, sơ đồ định tuyến hay xác định các tấn công từ chối dịch vụ (DdoS).
Ý tưởng của phương pháp này là sử dụng một số thuật toán để tính toán 1
mô tả tóm tắt (gọi là digest) nội dung của một gói lưu lượng, thuật toán đơn giản nhất đó là cộng tất cả các byte của gói dữ liệu lại với nhau, tuy nhiên kết quả là tỉ lệ xung đột tương đối cao. Bằng cách sử dụng các thuật toán tạo bảng tóm tắt tinh vi hơn, ví dụ sử dụng các cơ chế tạo mật mã như MD5 và SHA có thể giảm tỉ lệ va chạm cho dù chỉ sử dụng một phần các giá trị Hash. Cần lưu ý là khi tính các “mô
tả tóm tắt” của các gói cần phải bỏ qua những trường trong phần tiêu đề của gói IP
Phương pháp này cũng có thể áp dụng cho trường hợp các trang tài liệu web vì nếu một trang web được truyền nhiều lần trên cùng một liên kết người ta thường sử dụng cơ chế nhớ tạm thời (caching) để giảm lượng thông tin tải trên mạng.
- Sử dụng khái niệm luồng lưu lượng
Thực tế mỗi kết nối trên mạng Internet chứa nhiều gói IP và các gói liên tiếp nhau thường có phần tiêu đề tương tự nhau, ví dụ trong một phiên làm việc UDP hoặc TCP bình thường, các gói chỉ có một số ít trường khác nhau là:
+ Chỉ số nhận dạng khối dữ liệu IP, được sử dụng trong trường hợp cần phải phân đoạn khối dữ liệu TCP, tuy nhiên trong các phiên bản TCP mới nhất người ta tránh tối đa việc phân đoạn dữ liệu TCP bằng các bản tin khám phá PMTU
+ Trường checksum của gói IP + Số thứ tự khung dữ liệu TCP
+ Số thứ tự khung phúc đáp (ACK) của TCP + UDP hoặc TCP Checksum
Trường chỉ số nhận dạng khối dữ liệu IP cần thiết trong một số trường hợp, ví dụ để xác định các khối dữ liệu IP trùng lặp, tuy nhiên đối với bài toán mô hình hoá nguồn hoặc luồng dữ liệu thì nó là không cần thiết. Về chỉ số này cộng đồng nghiên cứu mạng Internet cũng đã thảo luận rất nhiều về sự cần thiết của nó và đa số thống nhất với nhau là có thể bỏ trường này vì các phiên bản TCP. Các trường Checksum được tính từ dữ liệu, đối với trường Checksum của gói IP thì hoàn toàn có thể kiểm tra được do nó chỉ tính trong phần tiêu đề của gói, nhưng phần checksum của TCP hoặc UDP thì cần phải bắt cả khối dữ liệu. Đối với trường TTL, nó sẽ thay đổi nếu như đường đi của các khối dữ liệu thay đổi, nên nếu mục đích phép đo là theo dõi các thay đổi trong bảng định tuyến của mạng thì cần phải ghi lại giá trị TTL.
Cuối cùng các trường số thứ tự gói TCP truyền và ACK của các gói liên tiếp nhau của cùng một luồng dữ liệu thực tế gần bằng nhau, nếu không có sự thay đổi
thứ tự hay mất các khối dữ liệu truyền thì chúng khác nhau 1 lượng đúng bằng kích thước phần tải tin của mỗi gói.
Tóm lại bằng cách kết hợp tất cả các phương pháp loại bỏ các trường không cần thiết hoàn toàn có thể nén phần tiêu đề của các gói dữ liệu lưu lượng với tỉ lệ. Cuối cùng phương pháp hay được áp dụng nhất hiện nay để nén dữ liệu đo là phương pháp lấy mẫu lưu lượng.
Việc lấy mẫu lưu lượng Internet là nhằm giảm lượng dữ liệu đo để có thể thu được các liên kết tốc độ cao mà tốc độ của thiết bị đo không đáp ứng được. Lấy mẫu có thể được thực hiện trong quá trình bắt giữu gói hoặc sau khi đã có dữ liệu đo tuỳ vào bản chất của bài toán và hạ tầng mạng.
Hiện nay có một số phương pháp và kỹ thuật lấy mẫu lưu lượng khác nhau có thể áp dụng tuỳ theo yêu cầu xử lý và độ chính xác của phép phân tích và nhìn chung có thể chia chúng thành hai loại chính bao gồm lấy mẫu theo thời gian và lấy mẫu theo sự kiện.
• Lấy mẫu theo thời gian là một trong những kỹ thuật xử lý tín hiệu truyền thống và theo lĩnh vực đo lường lưu lượng khái niệm này đựoc hiểu như sau: giả thiết dữ liệu lưu lượng đo được là D bao gồm 3 thông số quan trọng là:thời điểm đến của PDU ( đơn vị dữ liệu giao thức), TA,i; chiều dài của PDU là Li; và bản thân PDU là pi. Các thông số này sau đó được đặt lên trục thời gian với bộ đánh dấu Ts là số đơn vị thời gian giữa chúng, trong những klhoảng thời gian đó một hoặc nhiều tham số được tổng hợp để sử dụng trong các quá trình phân tích lưu lượng tiếp theo. Kỹ thuật lấy mẫu lưu lượng theo thời gian đơn giản nhất là chúng ta sẽ lấy mẫu lưu lượng trong mỗi khoảng thời gian Ts.
• Lấy mẫu theo sự kiện hay còn gọi là lấy mẫu thích ứng, không xem thời gian là tiêu chí để lấy mẫu gói mà việc lấy mẫu được thực hiện khi có sự kiện nào đó xảy ra ví dụ như sự kiện có n gói đến hay sự kiện kết thúc khoảng thời gian T không có gói nào đến kể từ gói cuối cùng. Tuy nhiên quá trình tổng hợp lưu lượng sau từng thao tác lấy mẫu cũng giống như trường hợp lấy mẫu theo thời gian.
Theo truyền thống thì quá trình đặc tính hoá lưu lượng mạng Internet thường được thực hiện một cách đơn giản bằng cách đo và lưu trữ các chuỗi phân bố của một số tham số nhất định như: kích thước gói, khoảng thời gian giữa các thời điểm đến, loại gói hay thông tin về phân bố luồng lưu lượng theo vị trí địa lý. Tuy nhiên do gần đây, tốc độ đường truyền mạng internet tăng lên rất lớn cho nên việc tiếp tục đo và lưu trữ toàn bộ lưu lượng trên đường truyền là không thể và lấy mẫu lưu lượng là giải pháp tối ưu để giải thoát trở ngại đó. Vì thế khi lựa chọn phương pháp lấy mẫu lưu lượng cần phải cân bằng giữa tỷ lệ phần trăm dữ liệu đo giảm được và độ chính xác của quá trình khôi phục các thông số dữ liệu gốc.