Cỏc thuộc tớnh liờn quan đến cỏc phõn bố ảv ti tin và i.a.t gúi và luồng

Một phần của tài liệu Một số phát hiện mới trong đo lường và phân tích lưu lượng internet. Mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng769 (Trang 116 - 120)

5. Bố ục cc ủa luận ỏn

4.3.2.1Cỏc thuộc tớnh liờn quan đến cỏc phõn bố ảv ti tin và i.a.t gúi và luồng

Phần này trỡnh bày về phương phỏp xỏc định cỏc thuộc tớnh luồng liờn quan

chiều dài phần tải tin của cỏc gúi trong 1 luồng, phõn bố thời đ ểi m đến giữa cỏc luồng và cuối cựng phõn bố số lượng luồng.

Phõn bố chiều dài phần tải tin của cỏc gúi rất quan trọng và cung cấp độ

chớnh xỏc tương đối cao cho quỏ trỡnh nhận dạng luồng l u lư ượng. Thực tế cỏc cơ

chế đ ề i u khiển thiết lập phiờn làm việc của cỏc ứng dụng thường đưa đến kết quả về

một kớch thước gúi trao đổi nhất định. Hơn nữa một số ứ ng dụng thường hay sử

dụng cỏc gúi với kớch thước cốđịnh cho trước và ớt khi gửi đi cỏc gúi với kớch thước nằm trong những khoảng khỏc. Vớ dụ, giao thức HTTP cú đặc tớnh là thường gử đi i cỏc gúi hoặc rất bộ hoặc rất lớn và vỡ th cỏc giỏ tr trung bỡnh hay bi n thiờn khụng ế ị ế

thể hiện đỳng phõn bố trong trường hợp này do cú thể bị ả nh hưởng b i cỏc giỏ tr ở ị đột biến (outlier), do vậy trong luận ỏn của mỡnh nghiờn cứu sinh sử dụng c phõn ả

bố (chiều dài phần tải tin của cỏc gúi) làm tiờu chớ thay vỡ chỉ ử s dụng tr trung bỡnh ị

và biến thiờn.

Trong phõn b này, viố ệc xỏc định kớch thước bin (khoảng giỏ trị) của phõn bố

rất quan trọng, và nghiờn cứu sinh đó chọn chỳng dựa trờn thực tế bắt gúi và phõn tớch mức độ thường xuyờn xảy ra của một số kớch thước nhất định trong dữ liệ đu o, cụ thể như sau (đơn vị tớnh theo byte):

[0-1), [1-2), [2-3), [3-5), [5-10), [10-20), [20-40), [40-50), [50-100), [100-180), [180-236), [236-269), [269-350), [350-450), [450-516), [516-549), [549-650), [650-1000), [1000- 1380), [1380-1381), [1381-1432), [1432-1473), [1473-∞∞∞∞∞).

Khi phõn tớch lưu lượng TCP và UDP trong cỏc mạng LAN Ethernet (MTU=1500 bytes) thỡ bin [1473-∞) sẽ là tập rỗng. Và mộ đ ềt i u quan trọng nghiờn cứu sinh nhận thấy đú là phõn bố phần tải tin của cỏc gúi là một trong cỏc thuộc tớnh hữu ớch nhất cho quỏ trỡnh phõn loại lưu lượng vỡ phõn bố này phụ thuộc rấ ớt l n vào giao thứ ức ng dụng và g n nhầ ư khụng phụ thuộc vào kớch thước khung t i a ố đ

(MTU) của cụng nghệ ạ m ng bờn dưới.

Với phõn bố I.A.T của cỏc gúi trong cựng m t lu ng, nghiờn c u sinh xỏc ộ ồ ứ định khoảng giỏ tr cị ủa cỏc bin từ 0-60s, gi i h n trờn 60s là do th i gian ớ ạ ờ time-out của luồng, như sau:

[0-0.000001), [0.000001-0.0001), [0.0001-0.001), [0.001-0.01), [0.01-0.1), [0.1- 1.0), [1.0-10.0), [10.0-60.0), [60.0-∞∞∞∞∞).

Và đương nhiờn bin cuối cựng sẽ luụn luụn trống do c ch ơ ế time-out của luồng chỉ cho phộp thời gian trễ ữ gi a cỏc gúi thu c luộ ồng <=60s.

40% 15% ... 25% 15% 5%

[0 [1 [2 [3 [5 [10 [20 [40 .... [1000 [1380 [1432 [1473 [1500 (a) Phõn bố ả t i tin của cỏc gúi thuộc luồng (đơn vị byte)

35% 60% 5%

[0 [10-6 [10-4 [10-3 [0.01 [0.1 [1 [10 [64 (b) Phõn bố I.A.T giữa cỏc gúi trong cựng một luồng (đơn v s). ị

Hỡnh 4-4 Mụ phỏng khỏi niệm cỏc phõn bố ờ r i rạc tải tin và I.A.T của cỏc gúi thuộc luồng

Về phõn bốI.A.T của cỏc lu ng, khỏc v i cỏc thu c tớnh khỏc, ồ ớ ộ đõy là thuộc tớnh liờn quan đến nhiều luồng lưu lượng, nờn nú phải được xem xột trong 1 khoảng thời gian nhất định. Việc xỏc định độ dài của sổ thời gian quan sỏt là bao nhiờu phụ

thuộc vào mụ đc ớch của bài toỏn phõn loại luồng lưu lượng cụ ể th , vớ dụđối với cỏc bài toỏn phõn loại luồng nhằm mụ đc ớch giỏm sỏt cỏc cuộc tấn cụng trong mạng thỡ thường cửa sổ thời gian này cú thể rất ng n do b n ch t cỏc cuắ ả ấ ộ ấc t n cụng thường chỉ tập trung g i 1 lử ượng l n l u lớ ư ượng trong th i gian r t ng n, ngờ ấ ắ ược l i v i cỏc ạ ớ

bài toỏn phõn loại luồng lưu lượng phục vụ cho mục đớch cung cấp QoS hoặc dự đoỏn xu hướng gia t ng c a l u lă ủ ư ượng, thỡ cửa s th i gian này thổ ờ ường ph i dài h n ả ơ để phản ảnh ỳng cỏc biđ ểu hi n bi n thiờn c a l u lệ ế ủ ư ượng.

Ngoài ra việc l a chự ọn kớch thước cửa sổ thời gian cũn ảnh hưởng đến hiệu suất hoạt động của thuật toỏn học tự động, theo đú kớch thước cửa sổ ng n s cho ắ ẽ

phộp tăng tốc độ quỏ trỡnh phõn loại ngược lại kớch thước cửa sổ dài hơn lại cho phộp đạt độ chớnh xỏc phộp phõn loại cao hơn. Hiện tại bài toỏn của luận ỏn này mới chỉđược thực hiện khụng trực tuyến với mục đớch đạt độ chớnh xỏc của phộp phõn loại càng cao càng tốt nờn nghiờn cứu sinh chọn cửa sổ thời gian là 2 phỳt.

Theo cỏc kết quả của quỏ trỡnh phõn tớch luồng l u lư ượng IP chở ương 3 thỡ cú hai thụng số quan tr ng cú khọ ả ă n ng phõn biệt lưu lượng của cỏc nhúm ứng dụng khỏc nhau là: độ dài phầ đn uụi c a phõn b I.A.Tủ ố và s lượng lu ng quan sỏt đượcố ồ trong cửa sổ thời gian quan sỏt (2 phỳt).

Liờn quan đế độn dài đuụi của phõn bố I.A.T của cỏc luồng l u lư ượng IP, cũng từ kết qu phõn tớch chả ở ương 3, cú th sể ử ụ d ng hai phương phỏp để xỏc định

đú là: o lđ ường tr c ti p t bi u ự ế ừ ể đồ phõn b (ố histogram) hoặc sử dụng thụng s ốααααα (hệ số tổng hợp dữ liệu) trong cỏc đồ thịlog-log của phõn bố I.A.T của cỏc luồng.

Theo biểu đồ phõn b I.A.T cố ủa cỏc luồng lưu lượng một số ứ ng dụng i n đ ể

hỡnh (hỡnh 3-5) cho thấy cú thể phõn biệt lưu lượng cỏc ứng dụng ớt nhất thành hai nhúm là nhúm cỏc ứng d ng tụ ương tỏc cú độ dài uụi phõn b I.A.T ~(20-50)s và đ ố

nhúm cỏc ứng dụng khụng tương tỏc cú độ dài đuụi <~5s. Với mụ đc ớch phõn loại lưu lượng một cỏch tự động, nghiờn cứu sinh chọn mức ngưỡng 10s để nhận biết cỏc ứng dụng thuộc nhúm tương tỏc (telnet, ssh, imap, vv...) và cỏc ứng d ng thu c ụ ộ

nhúm khụng tương tỏc (www, dns, vv...).

Việc xỏc định phõn bố số lượng luồng quan sỏt được trong c a s th i gian ử ổ ờ

quan sỏt cũng được xỏc định theo phương phỏp khoảng giỏ trị (bin) như trong hỡnh 4-5 dưới đõy. Tuy nhiờn phõn bố này cú độ chớnh xỏc trong phõn loại khụng cao vỡ

độ phụ thu c c a cỏc giỏ tr này ph thuộ ủ ị ụ ộ ấ ớc r t l n vào t ng c s dừ ơ ở ữ ệ đ li u o và vào thời gian đo.

news imap ftp ssh telnet smtp dns www

[0 [10-2 [5.10-2 [10-1 [0.5 [1 [5 [10 [20 [40 [60 [100 (%)

Hỡnh 4-5 Phõn bố ố s lượng luồng trong cửa sổ quan sỏt

4.3.2.2 Cỏc thuộc tớnh xỏc định tớnh qui luật của tải tin và t c ố độ truyền

Mặc dự hai thuộc tớnh phõn bố rờ ạ ải r c t i tin và phõn b i.a.tố giữa cỏc gúi trong luồng trờn cú thở ể giỳp nhận d ng l u lạ ư ượng của cỏc ứng d ng cú thụ ời lượng giữa cỏc lần phỏt gúi cốđịnh, nhưng nú sẽ khụng thể nhận dạng được lưu lượng của cỏc ứng dụng cú khả năng i u ch nh t c đ ề ỉ ố độ phỏt (gúi) theo tr ng thỏi m ng. Vớ d ạ ạ ụ

khi nghiờn cứu đặc i m lđ ể ưu lượng của cỏc ứng dụng thời gian thực nh dư ịch v õm ụ

nhạc trực tuyến (Real-audio) và Video trực tuyến (Real-video), cỏc nhà nghiờn cứu [31,32] nhận thấy r ng nằ ếu xột ở thang thời gian lớn (>=10s) thỡ lưu lượng thể ệ hi n là tốc độ bit khụng đổi (CBR), nhưng nếu xột ở thang thời gian ngắn (hàng s) thỡ lưu lượng thể hiện đặc tớnh cụm (on/off) rừ ràng do cơ chế gửi luõn phiờn cỏc gúi õm thanh và hỡnh ảnh.

Trong luận ỏn này, nghiờn cứu sinh đó tiến hành đo và dự đoỏn tốc độ bit và tốc độ gúi trong cỏc khoảng thời gian 5s, là khoảng thời gian đủ dài để đạt được tốc

độ truyền g n nh khụng ầ ư đổi với cỏc ứng dụng gửi gúi theo dũng liờn tục (streaming) nhưng cũng đủ ngắn để khụng gặp phải những kết quả tốt nh ng khụng ư

phản ỏnh đỳng bản chất của lưu lượng. Mục đớch là nhằm nhận dạng lưu lượng của cỏc ứng dụng cú nhiều kết quả đ o tốc độ bit và tốc độ gúi trong những khoảng thời gian 5s gần với trị trung bỡnh của chỳng nhất.

Giả sử gọi R là tổng số phộp đo và r là số phộp đo cú kết quả nằm trong giới hạn độ lệch tiờu chuẩn tớnh từ trị trung bỡnh, khi đú cú thể ử ụ s d ng tỉ ố s r/R như ộ m t dấu hiệu để nhận biết tớnh qui luật của cỏc ng d ng. Khi t sứ ụ ỉ ố này cao (~1) cú nghĩa trị trung bỡnh sẽ phản ỏnh đỳng bản chất của luồng h n và rừ ràng toàn b ơ ộ

nguyờn lý và cỏch tớnh này chỉ cú ý nghĩa đối với cỏc luồng cú thời lượng lớn hơn

5s. Nghiờn cứu sinh c ng ó l p l i phũ đ ặ ạ ương phỏp này v i cỏc ng d ng phỏt cỏc gúi ớ ứ ụ

kớch thước cốđịnh, như cỏc ứng dụng audio streaming, và cho kết quả tương tự, tuy nhiờn giỏ trị trung bỡnh phải được thay bằng trị trung tõm.

Một phần của tài liệu Một số phát hiện mới trong đo lường và phân tích lưu lượng internet. Mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng769 (Trang 116 - 120)