Chuẩn bị ữd liệ u

Một phần của tài liệu Một số phát hiện mới trong đo lường và phân tích lưu lượng internet. Mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng769 (Trang 111)

5. Bố ục cc ủa luận ỏn

4.3.1Chuẩn bị ữd liệ u

Để phục v cho vi c xõy dụ ệ ựng và ki m nghi m mụ hỡnh, nghiờn c u sinh s ể ệ ứ ử

dụng 4 tệp dữ liệu trong bảng 2-3, bao gồm DL1, DL2, DL4 và DL6. Việc lựa chọn 2 dữ liệu đo trờn mạng Internet của dự ỏn NLANR và 2 dữ liệ đ ạu o t i mạng ISP/IXP của EVN Telecom nhằm đảm bảo đỏnh giỏ đỳng hiệu suất và độ chớnh xỏc của thuật toỏn họ ực t động c ng nh mụ hỡnh l a ch n thu c tớnh. Cỏc cụng c HUT2FLOW ũ ư ự ọ ộ ụ

và FS2FLOW được sử dụng để t o cỏc luạ ồng lưu lượng IP tương ứng với thời gian time-out = 60s. Kết quả về số lượng luồng t o ra ạ đối v i m i t p d li u nh trong ớ ỗ ậ ữ ệ ư

bảng 4-1.

Một trong những khõu quan trọng của kỹ thuật phõn lo i b ng thu t toỏn h c ạ ằ ậ ọ

độ chớnh xỏc của thuật toỏn học tựđộng tuy nhiờn phương phỏp phổ dụng nh t, s ấ ẽ được trỡnh bày trong mục 4.3.5, là phương phỏp “ ỏnh giỏ chộo”, trong ú ngđ đ ười ta chia dữ liệu thành k phần và luõn phiờn s dử ụng làm d li u m u và d li u ki m ữ ệ ẫ ữ ệ ể

tra. Tuy nhiờn phương phỏp này yờu cầu cỏc phần dữ liệu nhỏ đ ú phải cú kớch thước tương đương nhau, vỡ thế luận ỏn chọn 2 tập dữ liệu (DL1, DL2) cú số lượng luồng tương đương nhau từ Internet và 2 tập dữ liệu (DL4, DL6) cũng cú số lượng luồng tương đương nhau đo tại mạng ISP/IXP c a EVN Telecom. K t quủ ế ả thực nghiệm cho thấy thuật toỏn học đạt độ chớnh xỏc cao nhất trong trường h p này.ợ

Bảng 4-1 Số lượng luồng của mỗi tệp dữ liệ ươu t ng ứng TT Tệp dữ liệu Số lượng luồng (τττττ = 60s) 1 DL1 943 667 2 DL2 887 941 3 DL4 148 183 4 DL6 186397

4.3.2 Xõy dng tp cỏc thuc tớnh ca lung lưu lượng IP

Để tỡm được đầ đủy cỏc thuộc tớnh quan trọng cú thể sử dụng cho vi c nhệ ận dạng và phõn loại luồng lưu lượng IP thỡ ngoài việc dựa vào kết quả của qỳa trớnh phõn tớch luồng, cũn yờu cầu sự hiểu biết sõu sắc về kiến trỳc và cơ chế hoạt động của cỏc giao thức trong mạng Internet. Nghiờn cứu sinh đó thực hiện nghiờn cứu một cỏch chi tiết cơ chế ho t ạ động c a cỏc giao thủ ức trong kiến trỳc phõn lớp TCP/IP, đặc biệt là cỏc cơ chế đ ề i u khiển luồng và sửa lỗi. Kết quả đ ó xỏc định

được tập h p kho ng 42 thu c tớnh ợ ả ộ đặc tr ng, nh trong b ng 4-2, ư ư ả để sử dụng cho bài toỏn phõn loại luồng lưu lượng IP.

Thực tế và theo kiến trỳc IPFIX [61] của IETF, số lượng thuộc tớnh cú thể cú của cỏc luồng lưu lượng IP là rấ ớt l n, tuy nhiờn khụng ph i t t cả ấ ả chỳng đều úng đ

gúp vào quỏ trỡnh phõn loại lưu lượng, do đú việc l a chự ọn và tớnh toỏn giỏ trị cỏc thuộc tớnh trong bảng 4-2 được thực hiện dựa trờn 3 nguyờn tắc là (i) đảm bảo tớnh tổng quỏt, (ii) đảm bảo tớnh hiệu quả và (iii) đảm bảo tớnh chớnh xỏc.

Tớnh tổng quỏt

Theo đú thuộc tớnh được lựa chọn phải hàm chứa trong nú thụng tin cho phộp phõn biệt lưu lượng của cỏc nhúm ứng dụng khỏc nhau và với cỏc thuộc tớnh này cú thể dễ dàng phõn lo i ạ được cỏc gúi/luồng lưu lượng mới cũng như cỏc biến thể của cỏc lớp lưu lượng đó được phõn biệt.

Cõu hỏi đặt ra là cần bao nhiờu thuộc tớnh thỡ đủ cho quỏ trỡnh phõn loại cỏc luồng lưu lượng IP? Về nguyờn tắc, càng nhiều thuộc tớnh thỡ khả năng th hi n ể ệ được hế ất t t cả cỏc biểu hiện biến thiờn của luồng l u lư ượng càng cao và do ú đ độ

chớnh xỏc của thuật toỏn phõn loại cũng cao hơn. Tuy nhiờn thực tế thực hiện mụ hỡnh lại cần phải hạn chế số lượng thuộc tớnh ở một m c nhứ ất định do cỏc yờu c u ầ

về thời gian, cụng suất tớnh toỏn và dung lượng lưu trữ. Giải phỏp là cần cú s cõn ự

bằng giữa hiệu suất tớnh toỏn và độ chớnh xỏc phõn loại, theo đú sẽ chỉ chọn những thuộc tớnh cung cấp nhiều thụng tin cho quỏ trỡnh phõn loại nhất. Mức cõn bằng trong luận ỏn này được chọn qua cỏc bước thực nghiệm.

Tớnh chớnh xỏc

Theo đú cỏc thuộc tớnh được chọn phải cho xỏc su t phõn biấ ệt sai cỏc gúi/luồng lưu lượng càng thấp càng tốt, hay núi cỏch khỏc chỳng phải mụ tả một cỏch chớnh xỏc đặc trưng của luồng lưu lượng từng ứng d ng cụ ụ thể.

Bảng 4-2 Tập cỏc thuộc tớnh của luồng ph c v bài toỏn phõn loụ ụ ại lưu lượng

TT Thuộc tớnh Mụ tả Ki u giỏ trể Cỏc thuộc tớnh chung của cỏc luồng 1 Khoỏ Tập 5 tham số định nghĩa luồng: địa chỉ IP nguồn và đớch, cổng ứng dụng nguồn và đớch, và s nh n d ng giao th c ố ậ ạ ứ Xõu

2 Bắt_đầu thời đ ểi m đến của gúi đầu tiờn của luồng Xõu

3 Kết_thỳc thời đ ểi m đến của gúi cuối cựng của luồng Xõu

4 Thời_lượng độ dài luồng lưu lượng đo bằng às Liờn tục

5 Kớch_thước_gúi_đầu

độ dài phầ ản t i tin c a gúi ủ đầy đủđầu tiờn (gúi đầy đủđược hiểu là gúi cú phần tải tin # 0)

Liờn tục

6 Hướng_một_số_gúi_đầu

Chuỗi 10 giỏ trị rời rạc (-1 hoặc 1) nhằm xỏc

định hướng truyền của m t s (<=10) gúi ộ ố đầu tiờn của lu ng: ồ

1: nếu hướng là từ nỳt khởi tạo luồng n đế

nỳt đỏp ứng

-1: theo hướng ngược lại

Chuỗi 10 giỏ trị

rời rạc lấy giỏ trị - 1 hoặc 1

7 Tỉ_lệ_dữ_liệu

Tỉ lệ giữa tổng số byte dữ liệu (chỉ tớnh phần tải tin) truyền bởi phớa khởi tạo luồng và bởi phớa đỏp ứng luồng

8 Phõn_bố_I.A.T_gúi

Phõn bố ờ r i rạc khoảng thời gian giữa cỏc th i ờ đ ểi m đến (I.A.T) của cỏc gúi thuộc luồng, thể hiện bởi 1 chuỗi 9 khoảng (bin) giỏ trị liờn tục. Giỏ trị ủ c a mỗi bin n m gi a ằ ữ

0 và 1 và thể hiện tỉ ệ l tương đối cỏc gúi cú I.A.T nằm trong bin đú.

Chuỗi 9 giỏ trị

liờn tục

9 Phõn_bố_I.A.T_luồng

Độ dài phầ đn uụi c a bi u ủ ể đồ phõn b th i ố ờ đ ểi m đến (i.a.t) c a cỏc lu ng l u lủ ồ ư ượng quan sỏt trong 1 cửa sổ thời gian cho trước (2 phỳt).

Liờn tục

10 Phõn_bố_số_luồng Tỉ lệ % số lượng luồng quan sỏt được trong

cửa sổ thời gian cho trước (2 phỳt) Liờn tục

Cỏc thuộc tớnh thể hiện phiờn lam việc kiểu đối thoại (conversation) κdt

Tỉ lệ giữa số lượng gúi đầy đủ thuộ đ ạc o n

đối thoại trờn t ng sổ ố gúi đầy đủ của lu ng ồ Liờn tục

βdt

Tỉ lệ giữa số lượng gúi đầy đủ thuộc m t ộ đ ạo n đối tho i trung bỡnh trờn t ng s gúi ạ ổ ố đầy đủ của lu ng. ồ

Liờn tục 11

γdt

Tỉ lệ cỏc gúi đối thoại truyền bởi phớa khởi

tạo phiờn làm việc Liờn tục

Thuộc tớnh thể hiện phiờn làm việc kiểu giao dịch (transaction)

12

κgd

Dấu hiệu cho biết mức độ thường xuyờn của cỏc trao đổi gúi kiểu “ping-pong” quan sỏt

được trong luồng l u lư ượng

Liờn tục

Cỏc thuộc tớnh trờn mỗi hướng của luồng

13 Phõn_bố_I.A.T_gúi

Phõn bố ờ r i rạc thể hiện bởi một chuỗi 9 giỏ trị liờn tục, cỏc giỏ trị liờn tục này thực ra là cỏc khoảng (bin) giỏ trị ủ c a khoảng thời gian giữa cỏc thời đ ểi m đến (I.A.T) của cỏc gúi trờn hướng đang xột. Giỏ trị trong mỗi bin nằm trong khoảng 0 và 1 và thể hiện tỉ ệ l tương đối cỏc gúi nằm trong bin đú.

Chuỗi 9 giỏ trị

liờn tục

14 Phõn_bố_tải tin Phõn bố ờ r i rạc chiều dài phần tải tin của cỏc

gúi thể hiện bởi một chuỗi 23 giỏ trị liờn tục,

Chuỗi 23 giỏ trị

cỏc giỏ trị liờn tục này thực ra là cỏc khoảng (bin) giỏ trị ủ c a chiều dài phần tải tin của mỗi gúi. Giỏ trị trong mỗi bin nằm trong khoảng 0 và 1.

15 Số_byte

Tổng số byte truyền (bao gồm cả cỏc byte phần tiờu đề lớp mạng và lớp vận chuyển) trờn hướng xột

Liờn tục

16 Số_byte_dữ_liệu Tổng số byte dữ liệu (tải tin) truyền trờn

hướng xột Liờn tục

17 Số_gúi Tổng số gúi truyền trờn hướng Liờn tục

18 Số_gúi_dữ_liệu Tổng số gúi đầy đủ (cú phần tải tin #0)

truyền trờn hướng Liờn tục

Cỏc thuộc tớnh th hi n phiờn làm vi c ki u tương tỏc t bàn phớm (keystroke interactive) ể ệ ệ ể ừ

19 κκκκκp

Dấu hiệu thể hiện sự thay đổi về thời lượng giữa cỏc lần phỏt gúi tương tỏc (nhận từ bàn phớm)

Liờn tục

20 βββββp Dấu hiệu tương tỏc dựa trờn tỉ lệ cỏc gúi nhỏ Liờn tục

21 γγγγγp Dấu hiệu về sự xuất hiện liờn tục của cỏc gúi nhỏ Liờn tục 22 δδδδδp Dấu hiệu về kiểu truyền kết hợp (piggy packing) Liờn tục 23 εεεεεp Dấu hiệu về sự khụng bỡnh thường (đồng bộ) của thời lượng giữa cỏc gúi của cỏc gúi nhỏ

liờn tiếp

Liờn tục

Cỏc thuộc tớnh th hi n phiờn làm vi c ki u tương tỏc dũng l nh (command-line interactive) ể ệ ệ ể ệ

24 κκκκκdl

Dấu hiệu về sự thay đổi thời lượng giữa cỏc

lần phỏt gúi (đối với cỏc gúi dũng lệnh) Liờn tục 25 βββββdl Dấu hiệu về sự tương tỏc dựa trờn tỉ lệ cỏc gúi nhỏ Liờn tục 26 γγγγγdl Dấu hiệu về sự xuất hiện của cỏc gúi nhỏ liờn tiếp Liờn tục

27 δδδδδdl Dấu hiệu về kiểu truyền piggy-packing Liờn tục

28 εεεεεdl

Dấu hiệu về sự khụng bỡnh thường (ko đồng

nhỏ liờn tiếp

Cỏc thuộc tớnh th hi n phiờn làm vi c ki u truy n fileể ệ ệ ể ề

29 κκκκκtf

Dấu hiệu về sự thay đổi thời lượng giữa cỏc

lần phỏt gúi trong quỏ trỡnh truyền file Liờn tục

30 βββββtf

Dấu hiệu về kiểu truyền dữ liệu dựa trờn tỉ lệ

gúi lớn Liờn tục

31 γγγγγtf Dấu hiệu về sự xuất hiện liờn tiếp của cỏc

gúi “piggy-packing” Liờn tục

32 Tốc_độ_bit_tb Là tốc độ bit trung bỡnh đo trong những

khoảng 5s

Liờn tục

33 κκκκκbhs

Dấu hiệu thể hiện mức độ gần với trị trung bỡnh của cỏc tốc độ bit đo trong những khoảng 5s (hay núi cỏch khỏc thể hiện tớnh khụng đổi của tốc độ bit)

Liờn tục

34 Tốc_độ_gúi_tb Là tốc độ gúi trung bỡnh đo trong những

khoảng 5s

Liờn tục

35 κκκκκghs

Dấu hiệu thể hiện mức độ gần với trị trung bỡnh của cỏc tốc độ gúi đo trong những khoảng 5s (hay núi cỏch khỏc thể hiện tớnh khụng đổi của tốc độ gúi)

Liờn tục

36 Trị_trung_tõm_Tải tin Vị trớ trung tõm (giữa) của phõn bố chiều dài

phần tải tin của cỏc gúi

Liờn tục

37 κκκκκphs

Dấu hiệu thể hiện mức độ gần với trị trung tõm của độ dài phần tải tin của cỏc gúi (hay núi cỏch khỏc thể ệ hi n tớnh khụng đổi c a ủ độ

dài phần tải tin)

Liờn tục

Phần tiếp theo sẽ lần lượt trỡnh bày chi ti t tế ừng thu c tớnh, giỏ tr cộ ị ủa chỳng trong trường hợp thuộc tớnh l y giỏ trấ ị rờ ại r c và gi i thớch giỏ trả ị ngưỡng c a cỏc ủ

thuộc tớnh lấy giỏ trị liờn tục, nhằm giỳp phõn lo i cỏc ki u l u lạ ể ư ượng khỏc nhau, vớ d ụ để phõn biệt giữa lưu lượng tương tỏc và khụng tương tỏc.

4.3.2.1 Cỏc thuộc tớnh liờn quan đến cỏc phõn bố ề ả v t i tin và i.a.t gúi và luồng

Phần này trỡnh bày về phương phỏp xỏc định cỏc thuộc tớnh luồng liờn quan

chiều dài phần tải tin của cỏc gúi trong 1 luồng, phõn bố thời đ ểi m đến giữa cỏc luồng và cuối cựng phõn bố số lượng luồng.

Phõn bố chiều dài phần tải tin của cỏc gúi rất quan trọng và cung cấp độ

chớnh xỏc tương đối cao cho quỏ trỡnh nhận dạng luồng l u lư ượng. Thực tế cỏc cơ

chế đ ề i u khiển thiết lập phiờn làm việc của cỏc ứng dụng thường đưa đến kết quả về

một kớch thước gúi trao đổi nhất định. Hơn nữa một số ứ ng dụng thường hay sử

dụng cỏc gúi với kớch thước cốđịnh cho trước và ớt khi gửi đi cỏc gúi với kớch thước nằm trong những khoảng khỏc. Vớ dụ, giao thức HTTP cú đặc tớnh là thường gử đi i cỏc gúi hoặc rất bộ hoặc rất lớn và vỡ th cỏc giỏ tr trung bỡnh hay bi n thiờn khụng ế ị ế

thể hiện đỳng phõn bố trong trường hợp này do cú thể bị ả nh hưởng b i cỏc giỏ tr ở ị đột biến (outlier), do vậy trong luận ỏn của mỡnh nghiờn cứu sinh sử dụng c phõn ả

bố (chiều dài phần tải tin của cỏc gúi) làm tiờu chớ thay vỡ chỉ ử s dụng tr trung bỡnh ị

và biến thiờn.

Trong phõn b này, viố ệc xỏc định kớch thước bin (khoảng giỏ trị) của phõn bố

rất quan trọng, và nghiờn cứu sinh đó chọn chỳng dựa trờn thực tế bắt gúi và phõn tớch mức độ thường xuyờn xảy ra của một số kớch thước nhất định trong dữ liệ đu o, cụ thể như sau (đơn vị tớnh theo byte):

[0-1), [1-2), [2-3), [3-5), [5-10), [10-20), [20-40), [40-50), [50-100), [100-180), [180-236), [236-269), [269-350), [350-450), [450-516), [516-549), [549-650), [650-1000), [1000- 1380), [1380-1381), [1381-1432), [1432-1473), [1473-∞∞∞∞∞).

Khi phõn tớch lưu lượng TCP và UDP trong cỏc mạng LAN Ethernet (MTU=1500 bytes) thỡ bin [1473-∞) sẽ là tập rỗng. Và mộ đ ềt i u quan trọng nghiờn cứu sinh nhận thấy đú là phõn bố phần tải tin của cỏc gúi là một trong cỏc thuộc tớnh hữu ớch nhất cho quỏ trỡnh phõn loại lưu lượng vỡ phõn bố này phụ thuộc rấ ớt l n vào giao thứ ức ng dụng và g n nhầ ư khụng phụ thuộc vào kớch thước khung t i a ố đ

(MTU) của cụng nghệ ạ m ng bờn dưới.

Với phõn bố I.A.T của cỏc gúi trong cựng m t lu ng, nghiờn c u sinh xỏc ộ ồ ứ định khoảng giỏ tr cị ủa cỏc bin từ 0-60s, gi i h n trờn 60s là do th i gian ớ ạ ờ time-out của luồng, như sau:

[0-0.000001), [0.000001-0.0001), [0.0001-0.001), [0.001-0.01), [0.01-0.1), [0.1- 1.0), [1.0-10.0), [10.0-60.0), [60.0-∞∞∞∞∞).

Và đương nhiờn bin cuối cựng sẽ luụn luụn trống do c ch ơ ế time-out của luồng chỉ cho phộp thời gian trễ ữ gi a cỏc gúi thu c luộ ồng <=60s.

40% 15% ... 25% 15% 5%

[0 [1 [2 [3 [5 [10 [20 [40 .... [1000 [1380 [1432 [1473 [1500 (a) Phõn bố ả t i tin của cỏc gúi thuộc luồng (đơn vị byte)

35% 60% 5%

[0 [10-6 [10-4 [10-3 [0.01 [0.1 [1 [10 [64 (b) Phõn bố I.A.T giữa cỏc gúi trong cựng một luồng (đơn v s). ị

Hỡnh 4-4 Mụ phỏng khỏi niệm cỏc phõn bố ờ r i rạc tải tin và I.A.T của cỏc gúi thuộc luồng

Về phõn bốI.A.T của cỏc lu ng, khỏc v i cỏc thu c tớnh khỏc, ồ ớ ộ đõy là thuộc tớnh liờn quan đến nhiều luồng lưu lượng, nờn nú phải được xem xột trong 1 khoảng thời gian nhất định. Việc xỏc định độ dài của sổ thời gian quan sỏt là bao nhiờu phụ

thuộc vào mụ đc ớch của bài toỏn phõn loại luồng lưu lượng cụ ể th , vớ dụđối với cỏc bài toỏn phõn loại luồng nhằm mụ đc ớch giỏm sỏt cỏc cuộc tấn cụng trong mạng thỡ thường cửa sổ thời gian này cú thể rất ng n do b n ch t cỏc cuắ ả ấ ộ ấc t n cụng thường chỉ tập trung g i 1 lử ượng l n l u lớ ư ượng trong th i gian r t ng n, ngờ ấ ắ ược l i v i cỏc ạ ớ

bài toỏn phõn loại luồng lưu lượng phục vụ cho mục đớch cung cấp QoS hoặc dự đoỏn xu hướng gia t ng c a l u lă ủ ư ượng, thỡ cửa s th i gian này thổ ờ ường ph i dài h n ả ơ để phản ảnh ỳng cỏc biđ ểu hi n bi n thiờn c a l u lệ ế ủ ư ượng.

Ngoài ra việc l a chự ọn kớch thước cửa sổ thời gian cũn ảnh hưởng đến hiệu suất hoạt động của thuật toỏn học tự động, theo đú kớch thước cửa sổ ng n s cho ắ ẽ

phộp tăng tốc độ quỏ trỡnh phõn loại ngược lại kớch thước cửa sổ dài hơn lại cho phộp đạt độ chớnh xỏc phộp phõn loại cao hơn. Hiện tại bài toỏn của luận ỏn này mới chỉđược thực hiện khụng trực tuyến với mục đớch đạt độ chớnh xỏc của phộp phõn loại càng cao càng tốt nờn nghiờn cứu sinh chọn cửa sổ thời gian là 2 phỳt.

Theo cỏc kết quả của quỏ trỡnh phõn tớch luồng l u lư ượng IP chở ương 3 thỡ cú hai thụng số quan tr ng cú khọ ả ă n ng phõn biệt lưu lượng của cỏc nhúm ứng dụng

Một phần của tài liệu Một số phát hiện mới trong đo lường và phân tích lưu lượng internet. Mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng769 (Trang 111)