Cỏc phương phỏp nộn dữ liệ đ uo

Một phần của tài liệu Một số phát hiện mới trong đo lường và phân tích lưu lượng internet. Mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng769 (Trang 38)

5. Bố ục cc ủa luận ỏn

2.2.2 Cỏc phương phỏp nộn dữ liệ đ uo

Dữ liệu trong cỏc phộp đo lưu lượng thụ động thường rất lớn do đú cần thiết phải thực hiện một số biện phỏp nhằm giảm kớch thước hay núi cỏch khỏc là nộn dữ

liệu này lại để cú thể lưu tr , v n chuy n và phõn tớch ữ ậ ể được d dàng h n. M t s ễ ơ ộ ố

phương phỏp quan trọng đang được sử dụng hi n nay bao g m: s dệ ồ ử ụng cỏc b n ả

túm tắt gúi, sử ụ d ng khỏi ni m lu ng l u lệ ồ ư ượng, và cu i cựng là biố ện phỏp lấy mẫu.

Sử dụng dấu hiệu gúi lưu lượng

Một trong những cỏch cú thể sử dụng để gi m lả ượng d li u o là s dữ ệ đ ử ụng “dấu hiệu” gúi và luồng, phương phỏp này cú thể ỏp dụng cho cỏc phộp đo trong đú mục đớch khụng phải là nội dung của cỏc gúi mà là xỏc định biểu hi n cệ ủa cỏc gúi lưu lượng khi di chuyển qua cỏc thành phần mạng khỏc nhau, vớ dụ như cỏc phộp đo trễ hay tỉ lệ mất gúi, s ơ đồ định tuy n hay xỏc ế định cỏc t n cụng tấ ừ ch i d ch vố ị ụ

(DDoS).

í tưởng của phương phỏp này là sử ụ d ng một số thu t toỏn ậ để tớnh toỏn 1 mụ tả túm tắt (gọi là digest) nội dung của một gúi lưu lượng, thuật toỏn đơn giản nhất

đú là c ng t t c cỏc byte c a gúi d li u l i v i nhau, tuy nhiờn k t quộ ấ ả ủ ữ ệ ạ ớ ế ả là t l xung ỉ ệ đột tương i cao. Bđố ằng cỏch sử dụng cỏc thu t toỏn tậ ạo b n túm t t tinh vi h n, vớ ả ắ ơ

dụ sử dụng cỏc c ch tơ ế ạo m t mó nh MD5 [16] và SHA [17] cú th gi m t lậ ư ể ả ỉ ệ va chạm cho dự chỉ sử dụng một phần cỏc giỏ trịHash. C n l u ý là khi tớnh cỏc “ầ ư mụ tả túm tắt” của cỏc gúi cần phải bỏ qua những trường trong phần tiờu đề của gúi IP như DS, TTL và Checksum vỡ chỳng cú thể thay đổi trờn đường đi của gúi.

Phương phỏp này cũng cú thể ỏp dụng cho trường hợp cỏc trang tài liệu web vỡ nếu một trang web được truyền nhiều lần trờn cựng một liờn kết người ta thường sử dụng cơ chế nhớ tạm thời (caching) để giảm lượng thụng tin tải trờn mạng.

Sử dụng khỏi niệm luồng lưu lượng

Thực tế mỗi k t n i trờn mế ố ạng Internet chứa nhiều gúi IP và cỏc gúi liờn tiếp nhau thường cú phần tiờu đề tương tự nhau, vớ d trong m t phiờn làm vi c UDP ụ ộ ệ

hoặc TCP bỡnh thường, cỏc gúi chỉ cú mộ ốt s ớt trường khỏc nhau, là:

- Chỉ số nh n d ng kh i d li u IP, ậ ạ ố ữ ệ được s dử ụng trong trường h p c n ph i ợ ầ ả

phõn đ ạo n khối dữ liệu TCP, tuy nhiờn trong cỏc phiờn bản TCP mới nhất người ta trỏnh tối đa vi c phõn ệ đ ạo n dữ liệu TCP bằng cỏc bản tin khỏm phỏ PMTU

- Trường checksum của gúi IP - Số thứ ự t khung dữ liệu TCP

- UDP hoặc TCP Checksum

Trường chỉ số nh n d ng kh i d li u IP c n thi t trong mậ ạ ố ữ ệ ầ ế ộ ốt s trường h p, vớ ợ

d ụ để xỏc định cỏc khối dữ ệ li u IP trựng l p, tuy nhiờn ắ đối v i bài toỏn mụ hỡnh hoỏ ớ

nguồn hoặc luồng dữ liệu thỡ nú là khụng cần thi t. Vế ề chỉ số này c ng ộ đồng nghiờn cứu mạng Internet cũng đó thảo luận rất nhiều về sự cần thi t c a nú và ế ủ đa s th ng ố ố

nhất với nhau là cú thể bỏ trường này vỡ cỏc phiờn b n TCP m i hi n nay và giao ả ớ ệ

thức IPv6 khụng cho phộp phõn đ ạo n dữ liệu TCP. Cỏc trường checksum được tớnh từ dữ ệ li u, đối v i trớ ường Checksum của gúi IP thỡ hoàn toàn cú thể ể ki m tra được do nú chỉ tớnh trong phần tiờu đề của gúi, nhưng phần checksum của TCP hoặc UDP thỡ cần ph i b t c kh i d li u. ả ắ ả ố ữ ệ Đối v i trớ ường TTL, nú s thay ẽ đổi nếu nhưđường

đ ủi c a cỏc kh i dố ữ ệ li u thay đổi, nờn n u m c ớch phộp o là theo dừi cỏc thay ế ụ đ đ đổi trong bảng định tuyến của mạng thỡ cần phải ghi lại giỏ trị TTL.

Cuối cựng cỏc trường số th tứ ự gúi TCP truy n và ACK c a cỏc gúi liờn ti p ề ủ ế

nhau của cựng một luồng dữ ệ li u th c t gự ế ần b ng nhau, n u khụng cú s thay ằ ế ự đổi thứ tự hay m t cỏc kh i d li u truy n thỡ chỳng khỏc nhau 1 lấ ố ữ ệ ề ượng ỳng b ng kớch đ ằ

thước phần tải tin của mỗi gúi.

Túm lại bằng cỏch kết hợp tất cả cỏc ph ng phỏp loươ ại bỏ cỏc trường khụng cần thiết hoàn toàn cú thể nộn phần tiờu đề của cỏc gúi d li u l u lữ ệ ư ượng v i t lớ ỉ ệ 10:3 hoặc thậm chớ t t h n nh trong [18] và [19]. ố ơ ư

Cuối cựng phương phỏp hay được ỏp dụng nhất hiện nay để nộn dữ liệu đo là phương phỏp lấy mẫu lưu lượng. Phương phỏp này được trỡnh bày chi tiế ởt phần 2.3.

2.2.3 Vn đềđồng b thi gian

Trong nh ng phộp ữ đo bao gồm nhiề đ ểu i m đo và kết quả đ o cú chứa cỏc nhón thời gian thỡ cú mộ ất v n đề n y sinh là c n ph i ả ầ ả đồng b th i gian giộ ờ ữa cỏc đ ể đi m o. Một trong cỏc phương phỏp giải quyết thỏch thức này là sử dụng giao th c phõn ứ

phối thời gian qua mạng NTP (Network Time Protocol) để đồng bộ nguồn đồng hồ

của cỏc nỳt đo với một đồng hồ chuẩn, tuy nhiờn phương phỏp này cú một số nhược

đ ểi m sau:

- NTP tập trung vào độ chớnh xỏc trờn thang thời gian dài nờn v i cỏc thang thớ ời gian đo ngắn nú khụng chớnh xỏc và đồng thời cũn cú một lượng dịch chuyển nhất định

- Thụng tin thời gian của NTP cũng phải được truy n qua m ng trong quỏ trỡnh ề ạ đồng bộ hoỏ nờn c ng chũ ịu m t lộ ượng bi n thiờn tr (Jitter) nh t ế ễ ấ định, ngh a là ĩ

bản thõn nú cũng khụng phải là hoàn toàn chớnh xỏc

- Hai hệ thống mỏy tớnh sử dụng giao th c NTP ch cú th ứ ỉ ể đồng b hoỏ ngu n ộ ồ đồng hồ của chỳng đến xấp xỉ 10ms, nờn những phộp đo yờu cầu độ phõn giải thời gian cao hơn thỡ khụng thể ỏp d ng NTP ụ

Ngoài ra, nguồn đồng hồ th i gian th c trong cỏc mỏy tớnh thờ ự ường khụng được chớnh xỏc lắm, thường cú sai số vài giõy trong một ngày, vớ dụ: với sai số của ngu n ồ đồng hồ là 5s một ngày thỡ trong 10 phỳt s cú sai sẽ ố là 35ms, x p x vấ ĩ ới tr truy n ễ ề

gúi trờn mạng, do đú nếu chỳng ta ti n hành ế đo trễ truyền một chiều thỡ cú thể ấ th y là kết quả đ o sẽ bị sai nghiờm tr ng sau m t kho ng th i gian o ng n và k t qu ọ ộ ả ờ đ ắ ế ả

cuối cựng là khụng đồng nhất với nhau.

Vỡ thế đối với nh ng phộp o yờu c u ữ đ ầ độ chớnh xỏc cao v th i gian, ngề ờ ười ta thường cung cấp thụng tin đồng hồ ngoài băng sử dụng súng vụ tuy n trong ú ế đ

phương phỏp hữu ớch nhất là sử dụng ngu n thụng tin ồ định th i c a h th ng GPS. ờ ủ ệ ố

Hệ thống định vị toàn cầu GPS hiện nay cung cấp dịch vụ cho người dựng ở khắp mọi nơi và cú thể cung cấp nguồn đồng h vồ ới độ phõn gi i lờn ả đến 350ns và độ

chớnh xỏc 95% [20].

Tuy nhiờn trong luận ỏn này, bản chất phộp đo là thụ động b t cỏc gúi truy n ắ ề

trờn mạng nờn vấn đề này khụng nh hả ưởng gỡ đến kết qủ đa o cũng như đến quỏ trỡnh phõn tớch dữ liệ đu o nờn nghiờn cứu sinh khụng đi sõu xõy dựng giải phỏp

đồng bộ ờ th i gian cho cỏc phộp đo.

2.3 K thut ly mu lưu lượng mng Internet

Việc lấy mẫu lưu lượng Internet là nhằm giảm lượng dữ liệu đo và/hoặc để cú thể đ o được cỏc liờn kết tốc độ cao mà tốc độ của thi t b o khụng ỏp ng ế ị đ đ ứ được. Lấy mẫu cú thể được thực hiện trong quỏ trỡnh bắt giữ gúi hoặc sau khi đó cú dữ

liệu đo tuỳ vào bản chất của bài toỏn và hạ ầ t ng mạng.

Hiện nay cú m t s phộ ố ương phỏp và k thu t lỹ ậ ấy m u l u lẫ ư ượng khỏc nhau cú thể ỏp dụng tu theo yờu c u x lý và ỳ ầ ử độ chớnh xỏc c a phộp phõn tớch và nhỡn ủ

chung cú thể chia chỳng thành hai loại chớnh bao gồm (i) lấy mẫu theo thời gian và (ii) lấy mẫu theo sự kiện.

• Lấy mẫu theo thời gian là một trong những k thu t xỹ ậ ử lý tớn hi u truy n th ng ệ ề ố

và trong lĩnh vự đc o lường lư ượu l ng khỏi niệm này được hiểu như sau: giả thiết dữ liệu lưu lượng đo được là D bao gồm 3 thụng số quan trọng là: thời đ ểi m đến

của PDU (đơn vị dữ ệ li u giao th c), Tứ A,i; chiều dài c a PDU là Lủ i; và bản thõn PDU là pi. Cỏc thụng số này sau đú được đặt lờn trục thời gian với bộ đ ỏnh dấu

TS là sốđơn v thị ời gian giữa chỳng, trong những khoảng thời gian đú một hoặc nhiều tham sốđược tổng hợ đểp s dử ụng trong cỏc quỏ trỡnh phõn tớch lưu lượng tiếp theo. Kỹ thuậ ất l y m u l u lẫ ư ượng theo th i gian ờ đơn gi n nhả ất là chỳng ta sẽ

lấy mẫu lưu lượng trong mỗi khoảng thời gian TS.

• Lấy mẫu theo sự kiện hay cũn gọi là lấy mẫu thớch ứng, khụng xem thời gian là tiờu chớ để lấy m u gúi mà vi c l y m u ẫ ệ ấ ẫ được th c hi n khi cú s ki n nào ú ự ệ ự ệ đ

xảy ra vớ dụ như sự ki n cú N gúi ệ đến hay sự ki n kệ ết thỳc khoảng thời gian T

khụng cú gúi nào đến kể từ gúi cu i cựng. Tuy nhiờn quỏ trỡnh t ng h p l u ố ổ ợ ư

lượng sau từng thao tỏc lấy mẫu cũng giống như trường hợp lấy mẫu theo thời gian.

Theo truyền thống thỡ quỏ trỡnh đặc tớnh hoỏ lưu lượng mạng Internet thường

được thực hiện m t cỏch ộ đơn gi n b ng cỏch o và l u tr cỏc chu i phõn b cả ằ đ ư ữ ỗ ố ủa một số tham số nh t ấ định nh : ư kớch thước gúi, khoảng thời gian giữa cỏc thờ đ ểi i m đến, loại gúi hay thụng tin v phõn b lu ng lưu lượng theo vị trớ a lýề ố ồ đị . Tuy nhiờn do gầ đn õy, tốc độđường truyền mạng Internet tăng lờn rất lớn cho nờn việc tiế ụp t c

đo và l u tr toàn bư ữ ộ lưu lượng trờn đường truy n là khụng th và l y m u l u ề ể ấ ẫ ư

lượng là giải phỏp tối ưu để vượt qua trở ng i ú. Vi c l y m u l u lạ đ ệ ấ ẫ ư ượng m c dự ặ

cho phộp giảm dữ liệ đu o nhưng l i gõy ra v n ạ ấ đề vềđộ chớnh xỏc của quỏ trỡnh khụi phục dữ liệu gốc sau đú. Vỡ thế khi lựa chọn phương phỏp lấy mẫ ưu l u lượng, cần phải cõn bằng giữa tỉ lệ ph n tr m d li u o gi m ầ ă ữ ệ đ ả được và độ chớnh xỏc của quỏ trỡnh khụi phục cỏc thụng số dữ ệ li u g c. ố

2.3.1 Thut toỏn ly mu

Thuật toỏn lấy m u mụ t quỏ trỡnh c sẫ ả ơ ở lựa ch n cỏc m u l u lọ ẫ ư ượng, hi n ệ

nay cú ba thuật toỏn lấy mẫu phổ biến, bao gồm: lấy mẫu hệ thống, lấy mẫu ngẫu nhiờn và lấy mẫu phõn tầng.

2.3.1.1 Lấy mẫu hệ thống

Lấy mẫu hệ thống là quỏ trỡnh lựa chọn đ ểi m bắt đầu và thời lượng của cỏc khoảng lấy mẫu theo một hàm xỏc định. Vớ dụ, cú thể chọn một cỏch định k ph n ỳ ầ

tử thứn của d li u o ho c ch n t t c cỏc gúi ữ ệ đ ặ ọ ấ ả đến t i nh ng th i i m xỏc ạ ữ ờ đ ể định trước. Trong thực tế cú những quỏ trỡnh lấy mẫu mặc dự khụng theo những hàm tuần hoàn nhưng nếu quỏ trỡnh lựa chọn được xỏc định trước thỡ vẫn gọi là lấy mẫu một cỏch cú hệ thống. Kết quả của thuật toỏn lấy mẫu hệ thống này mang trong nú

nguy cơ làm sai lệch kết quả phõn tớch, đặc biệt nếu như tớnh hệ thống của quỏ trỡnh lấy mẫu tương đồng với tớnh hệ thống của quỏ trỡnh ngẫu nhiờn quan sỏt được (là quỏ trỡnh xảy ra của một đặc tớnh nào đú trong mạng) thỡ xỏc suất k t quế ả ấ l y mẫu bị

thiờn lệch là r t cao. ấ

2.3.1.2 Lấy mẫu ngẫu nhiờn

Thuật toỏn lấy mẫu ng u nhiờn ch n i m b t ẫ ọ đ ể ắ đầu c a cỏc kho ng l y m u theo ủ ả ấ ẫ

1 tiến trỡnh ngẫu nhiờn, nghĩa là việc l a chự ọn cỏc phầ ử ưn t (l u lượng) để l y m u là ấ ẫ

sự kiện độc lập nhau và do đú kết quả ự đ d oỏn cỏc thụng số ư l u lượng g c trong quỏ ố

trỡnh phõn tớch sau này ớt thiờn lệch hơn. Khỏc với thuật toỏn lấy mẫu cú hệ thống, thuật toỏn này yờu cầu ph i cú cỏc b t o s ngả ộ ạ ố ẫu nhiờn, theo đú cú hai loại lấy mẫu ngẫu nhiờn như sau:

- Lấy mẫu n từ tập N. như tờn g i c a nú, thuọ ủ ật toỏn này thực hiện lấy mẫu n

phần tử từ tập chung N phầ ửn t . Vớ d , cú th dựng b tụ ể ộ ạo s ng u nhiờn ố ẫ để tạo ta ra n số ngẫu nhiờn khỏc nhau trong phạm vi [1, N] sau ú chđ ọ ấn t t cả cỏc gúi cú vị trớ trựng v i cỏc s ng u nhiờn ú. D dàng th y là k t qu lớ ố ẫ đ ễ ấ ế ả ấy m u c a ẫ ủ

thuật toỏn này là tập cú kớch thước cốđịnh N.

- Lấy mẫu theo xỏc suất. với thu t toỏn l y m u d ng này thỡ vi c quy t ậ ấ ẫ ạ ệ ế định l a ự

chọn một phần t hay khụng ử được th c hi n theo m t qui luự ệ ộ ật xỏc suất cho trước, vớ dụ cú thể tung một đồng xu và sẽ chọn tất cả cỏc gúi mà đồng xu này hiện mặt ngửa (phõn bố Bộc nu li), do đú kớch thước của tập lấy mẫu theo thu t ậ

toỏn này sẽ cú kớch thước thay đổi. Qui luật xỏc suất cho vi c l a ch n mệ ự ọ ẫu khụng nhất thiết phải giống nhau với mọi gúi, do đú người ta phõn biệt hai kiểu thuật toỏn lấy mẫu theo xỏc suất là: (i) lấy mẫu xỏc suất đồng nhất (qui luật xỏc suất của tất cả cỏc gúi là như nhau) và (ii) lấy mẫu xỏc suất khụng đồng nhất (qui luật xỏc suất cú thể biến đổi theo từng gúi). Trong trường h p (i) cỏc gúi ợ được lựa ch n l y m u m t cỏch ọ ấ ẫ ộ độc lập với xỏc suất đồng nhất là p, và thuật toỏn này cú thể là lấy mẫu theo thời gian vỡ thế thường được gọi là lấy mẫu ngẫu nhiờn theo phõn bố hỡnh học. Đối v i trớ ường h p (ii) thỡ vi c lợ ệ ựa ch n l y m u ọ ấ ẫ

một gúi lưu lượng nào đấy cú thể thay đổi phụ thuộc cỏc đầu vào của quỏ trỡnh, thuật toỏn lấy mẫu loại này thường được dựng trong cỏc trường hợp muốn chỳ trọng lấy mẫu một số loại gọi hiếm khi xảy ra nhưng lạ ấi r t quan trọng. Việc khắc phục sự thiờn lệch trong kết qu dả ự đ oỏn thụng s lố ưu lượng g c sau này ố được thực hiện b ng cỏch tiờu chuằ ẩn hoỏ cỏc giỏ tr mị ẫu. Th c ra thỡ thu t toỏn ự ậ

thỏi luồng khụng đồng nhất, theo đú vi c l a chệ ự ọn m t gúi ộ để lấy m u hay ẫ

khụng, khụng chỉ phụ thuộc vào xỏc suất p của gúi đú mà cũn phụ thuộc vào trạng thỏi của luồng thụng tin tương ứng của gúi đú. Vớ dụ: khi xem xột một gúi, thỡ nếu nh nú thuư ộc một luồng ó tđ ồn tại thỡ nhất định gúi sẽ được lấy mẫu và bản ghi của luồng tương ứng sẽ được cập nhật, cũn nếu như nú khụng thuộc một luồng nào hiện cú thỡ sẽđược lấy mẫu với xỏc suất p (thay đổi theo từng gúi) và một bản ghi luồng mới được tạo ra.

2.3.1.3 Lấy mẫu phõn tầng

í tưởng chớnh đằng sau thuật toỏn lấy mẫu này là nhằm tăng độ chớnh xỏc

Một phần của tài liệu Một số phát hiện mới trong đo lường và phân tích lưu lượng internet. Mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng769 (Trang 38)