Phõn bố I.A.T của cỏc luồng lưu lượng IP của tất cả cỏc ứng dụng

Một phần của tài liệu Một số phát hiện mới trong đo lường và phân tích lưu lượng internet. Mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng769 (Trang 71)

5. Bố ục cc ủa luận ỏn

3.2.2.1 Phõn bố I.A.T của cỏc luồng lưu lượng IP của tất cả cỏc ứng dụng

R2 càng gần 1 thỡ cú nghĩa là độ phự hợp càng cao. Cỏc giỏ trị trờn được tớnh toỏn với giả thiết độ ch c ch n b ng 95%. ắ ắ ằ Độ ch c chắ ắn cho bi t ph n tr m c hế ầ ă ơ ội mà một giỏ trị thực nghiệm mới (vớ dụ, I.A.T của luồng trong d li u l u lữ ệ ư ượng o m i) đ ớ

rơi vào khoảng giới hạn dự đoỏn.

3.2.2 Phõn tớch phõn b I.A.T ca cỏc lung lưu lượng IP

3.2.2.1 Phõn bố I.A.T của cỏc luồng lưu lượng IP của tất cả cỏc ứng dụng

Bằng cỏch ỏp dụng cỏc phương phỏp thống kờ trỡnh bày ở trờn NCS đó tiến hành phõn tớch phõn bố I.A.T của cỏc luồng lưu lượng IP trong hai trường hợp. Thứ

nhất (i) là phõn bố I.A.T của cỏc luồng lưu lượng IP tổng hợp của tất cả cỏc ứng dụng cú trong dữ liệu đo và (ii) là phõn bố I.A.T của cỏc luồng l u lư ượng c a t ng ủ ừ ứng d ng riờng r trong d li u o. ụ ẽ ữ ệ đ

Mục đớch của phộp phõn tớch I.A.T này là nhằm nhận d ng cỏc ạ đặc i m c a đ ể ủ

phõn bố quỏ trỡnh đến (khởi tạo) của cỏc luồng lưu lượng trờn mạng Internet ở lớp IP cũng như sự ph bi n c a m t sổ ế ủ ộ ố ứ ng d ng trờn m ng thụng qua s lụ ạ ố ượng luồng của chỳng. Từ đú hy vọng tỡm ra những đặc trưng về phõn bố I.A.T của từng kiểu

ứng d ng -> cho phộp phõn biụ ệt cỏc ứng dụng với độ chớnh xỏc nhất nh. đị

Số liệu sử dụng trong quỏ trỡnh phõn tớch là d li u l u lữ ệ ư ượng gúi thu th p ậ được trong bảng 2-3. Theo ú d li u gúi trong b ng 2-3 đ ữ ệ ả được x lý bử ằng ph n ầ

mềm HFA để tạo cỏc b n ghi lu ng v i c u trỳc nh trong b ng 2-4. B ng 3-1 (c t ả ồ ớ ấ ư ả ả ộ

trị thời gian time-out khỏc nhau. Một số giỏ tr th ng kờ c bị ố ơ ản c a d li u lu ng ủ ữ ệ ồ

bao gồm trị trung tõm (cột thứ 3), độ lệch tiờu chu n (c t th 4) và tr trung bỡnh ẩ ộ ứ ị

hay kỳ ọ v ng (cột thứ 5) cũng được thể hiện trong bảng 3-1.

Bảng 3-1 Cỏc thụng số ố th ng kờ th i iờ đểm đến (I.A.T) của cỏc luồng lưu lượng Dữ liệu, thời gian time-out (s) S ố luồng trong dữ liệu đo TT I.A.T, (ms) ĐL TC I.A.T, (ms) TB I.A.T, (ms) SSE exp. R2 exp. KS exp. KS Gam. KS Wei. KS Par. KS 5% DL1, 30 1011685 2,9 4,4 4,1 0,0062 0,9900 0,0627 0,0148 0,0146 0,2089 0,0024 DL1, 60 943667 2,9 4,8 4,4 0,0062 0,9952 0,0448 0,0410 0,0182 0,2115 0,0013 DL1, 90 902744 2,9 5,0 4,5 0,0087 0,9978 0,0336 0,0336 0,0136 0,2119 0,0013 DL1,120 880102 2,9 5,1 4,6 0,0090 0,9988 0,0316 0,0139 0,0143 0,2082 0,0065 DL2, 60 887941 2,9 5,1 4,7 0,3250 0,7915 0,0629 0,0138 0,0138 0,2131 0,0073 DL3, 60 887941 2,0 3,5 3,4 0,6845 0,4029 0,0545 0,0297 0,0218 0,2247 0,0029 DL4, 60 148183 20 77,8 48,6 0,6855 0,6028 0,0369 0,0189 0,0137 0,2171 0,0029 DL6, 60 186397 20 59,1 38,6 0,2785 0,6784 0,0323 0,0221 0,0234 0,2078 0,0026 DL7, 60 2900801 0,12s 2,18s 1,03s 0,0325 0,9887 0,0937 0,0364 0,0225 0,2007 0,0033

Ghi chỳ: TT: là giỏ trị trung tõm c a phõn b i.a.t c a cỏc lu ng l u lượng ủ ố ủ ồ ư

DL TC: là giỏ trị độ l ch tiờu chuẩn của phõn bố i.a.t của cỏc luồng lưu lượng ệ TB: giỏ trị trung bỡnh của phõn bố i.a.t của cỏc cỏc luồng lưu lượng

Hỡnh 3-2Hàm CDF I.A.T của cỏc lu ng l u lồ ư ượng th c nghi m trong t p d li u ự ệ ệ ữ ệ

Bắt đầu quỏ trỡnh phõn tớch bằng việc kiểm tra sự phụ thuộc của dữ liệu I.A.T thực nghiệm của cỏc luồng lưu lượng vào giỏ trịtime-out trong định nghĩa luồng bằng hàm phõn bố xỏc suất luỹ tớch (cdf). Theo đú hàm CDF của dữ liệu thực nghiệm đó được xõy dựng tương ứng với 4 giỏ trịtime-out khỏc nhau là: 30s, 60s, 90s và 120s và tớnh toỏn cỏc tham số thống kờ tương ứng của chỳng bao gồm trị

trung bỡnh và độ lệch tiờu chu n. K t qu (hỡnh 3-2) cho th y hỡnh d ng c a cỏc ẩ ế ả ấ ạ ủ

hàm CDF đạt được khụng thay đổi nhiều khi thay đổi giỏ trịtime-out, tuy nhiờn trị

trung bỡnh và độ lệch tiờu chuẩn thỡ cú thay đổi nhỏ. Vỡ thế trong cỏc quỏ trỡnh phõn tớch tiếp theo giỏ trịτττττ = 60s được chọn là giỏ trịtime-out chuẩn. Ngoài ra hỡnh dạng

đồ thị hàm CDF c a d li u th c nghi m trờn hỡnh 3-2 c ng cho th y chỳng phự ủ ữ ệ ự ệ ũ ấ

hợp với hỡnh dạng hàm CDF của phõn bố hàm Mũ.

Tuy nhiờn kết quả hỡnh 3-2 chưa đủ để cú thể kết lu n là quỏ trỡnh ậ đến c a ủ

cỏc luồng lưu lượng Internet tuõn theo phõn bố hàm mũ. Vỡ thế NCS tiếp tục kiểm tra mức độ phự h p c a cỏc phõn b bợ ủ ố ằng cỏch s dử ụng cỏc biểu đồ phõn b ố

(histogram) I.A.T của cỏc luồng để quan sỏt và đỏnh giỏ cỏc thụng số thống kờ của dữ liệu như vị trớ trung tõm, m c ứ độ phỏt tỏn, độ lệch tiờu chu n, cỏc ph n t ẩ ầ ử đột biến, cũng như tớnh đa mode (tức phải kết hợp nhi u phõn b lý thuy t v i nhau m i ề ố ế ớ ớ cú thể phản ỏnh đỳng phõn bố của d li u th c nghi mữ ệ ự ệ ) nếu cú. Cỏc thụng số này cho phộp xỏc định mụ hỡnh phõn bố phự hợp với tập dữ liệ đu o.

Để thiế ật l p bi u ể đồ, trước h t c n xỏc ế ầ định m t tham s quan tr ng, th hi n ộ ố ọ ể ệ độ “tinh” hay mức độ chi tiế ủt c a phõn bố đ, ú là kớch thước kho ng d li u (ả ữ ệ bin). Theo định nghĩa giỏ trị bin được tớnh bằng căn bậc 2 của số lượng đ ểi m d li u ữ ệ

trong tập dữ liệu đo tuy nhiờn trong luận ỏn này từ cỏc kết quả thực nghiệm nghiờn cứu sinh sử dụng giỏ tr ịbin = 120ms cho tất cả cỏc tập dữ liệu đo được trong bảng 1, trừ dữ ệ li u DL7 nghiờn c u sinh l y kớch thứ ấ ước bin=200ms do lượng dữ liệu trong tập dữ liệu này lớn hơn. Tiến hành vẽ cỏc biểu đồ tương ứng v i cỏc t p d ớ ậ ữ

liệu trong bảng 3-1 với cỏc giỏ trị được tiờu chuẩn hoỏ sao cho giỏ trị lớn nh t c a ấ ủ

trục tung (Y) bằng 1. Sự chuẩn hoỏ này là cần thiết vỡ đụi khi c n ph i phúng ầ ả đại cỏc khu vực I.A.T lớn do lượng dữ liệ đu o được nhiều và cũng là để quan sỏt được tốt hơn khi tiến hành so sỏnh cỏc biểu đồ với nhau.

Hỡnh 3-3 thể hi n biệ ểu đồ I.A.T c a cỏc luủ ồng lưu lượng IP của ba tệp dữ

liệu đại diện trong b ng 3-1 là DL1, DL4 và DL7 t t c vả ấ ả ới cựng th i gian ờ time- out=60s và được thực hiện bằng cụng cụ dfittool của ph n m m Matlab. Bi u ầ ề ể đồ

chớnh là sự hiển thị hỡnh dạng đồ ho cỏc phõn bạ ố xỏc suất khỏc nhau và cho phộp kiểm định cỏc giả thiết đó đặt ra. Nghiờn cứu sinh đ đó ỏnh giỏ mức độ phự hợp giữa

bi u ể đồ thực nghiệm với nhiều phõn b xỏc su t khỏc nhau, bao gố ấ ồm: Pareto, Gamma, Weibull và Hàm mũ, sau ú ỏnh giỏ hàm m t đ đ ậ độ xỏc su t (pdf) c a ấ ủ

chỳng, kết quả cho thấy biểu đồ của d li u th c nghi m phự hữ ệ ự ệ ợp nhất với phõn bố

hàm mũ, vốn là một trong những mụ hỡnh phõn bố xỏc suất đơn giản nhất.

Phõn bố hàm mũ theo lý thuyết cú một sốđặc iđ ểm phổ biến cho phộp đỏnh giỏ giảđịnh này (giảđịnh r ng biằ ểu đồ phõn b I.A.T cố ủa cỏc luồng tuõn theo phõn bố hàm mũ). Vớ dụ, một trong cỏc đặc đ ể đi m ú là giỏ tr trung bỡnh và ị độ lệch tiờu chuẩn của nú bằng nhau. Quan sỏt biểu đồ ta thấy rằng phõn bố của nú nghiờng d n ầ

về bờn phải (trị trung tõm < trị trung bỡnh), và khụng đối xứng. V trớ trung tõm cị ủa bi u ể đồ, là đ ểi m tập trung phần lớn cỏc giỏ trị của d li u I.A.T c a cỏc lu ng l u ữ ệ ủ ồ ư

lượng, rất gần với 0. Đ ềi u này núi lờn r ng c n ph i ki m ch ng thờm b ng cỏc ằ ầ ả ể ứ ằ biện phỏp khỏc mới cú thể khẳng địng rằng phõn bố I.A.T luồng l u lượng th c ư ự nghiệm cú tuõn theo phõn bố hàm mũ hay khụng. Hỡnh 3-3 cũng thể hiện thờm cỏc

đường cong phõn bố hàm mũ được vẽ bằng cỏch s dử ụng giỏ tr I.A.T trung bỡnh ị

thực nghiệm.

(b) DL4, 60s

(c) DL7, 60s

Với hai kết quả là đồ thị CDF và biểu đồ phõn bố của cỏc giỏ tr I.A.T th c ị ự

nghiệm, cú thể núi rằng về cơ bản hỡnh dạng biểu đồ phõn bố khoảng thời gian giữa cỏc thời đ ểi m đến của cỏc luồng lưu lượng IP tổng hợp phự hợp một cỏch tương đối với phõn bố hàm mũ .

Tuy nhiờn mức độ gi ng nhau phố ụ thuộc vào tệp dữ liệu đo, vớ dụ trờn hỡnh 3-3 thỡ dữ liệ đu o DL1 cú hỡnh dạng gần giống với đường cong hàm mũ nhất, trong khi dữ liệu DL7 cú mức độ phự hợp kộm nhất vỡ ta thấy trờn biểu đồ của nú cú cỏc

đỉnh nhọn bất thường và tr trung bỡnh và bi n thiờn tiờu chu n khỏc nhau khỏ l n. ị ế ẩ ớ

Cỏc đỉnh nhọn này núi lờn rằng khi đo lường với thời gian đủ dài sẽ cú xuất hiện nhiều giỏ trị I.A.T của cỏc luồng bằng nhau và bằng một giỏ trị ụ c thể (vớ dụ 5s).

Như đ ó núi ở trờn, mặc dự việc so sỏnh hỡnh dạng đồ hoạ cho phộp dễ dàng quan sỏt và đỏnh giỏ được toàn bộ tập d li u o, tuy nhiờn ữ ệ đ để ỏnh giỏ m t cỏch đ ộ

chi tiết hơn về cỏc khớa cạnh cụ thể của d li u c n ph i th c hi n thờm cỏc phộp ữ ệ ầ ả ự ệ

phõn tớch số liệu. Vỡ thế nghiờn cứu sinh thực hi n ti p bệ ế ước th 3 là ki m tra m c ứ ể ứ độ phự hợp về ặ ố ệ m t s li u b ng cỏch tớnh hai ch s ằ ỉ ốSSE/R2 và KS.

Phương phỏp tớnh SSE/R2đơn giản hơn nờn được thực hiện trước và kết quả

tương ứng thể hiện trờn hỡnh 3-4 và bảng 3-1. Hai chỉ số này được tớnh c ng b ng ũ ằ

cụng cụ dfittool của Matlab cho trường hợp phõn bố giả định là hàm Mũ. Vớ dụ

thụng số R2 của cỏc d li u DL1, DL4, và DL7 tữ ệ ương ng là 0.9952, 0.6028, và ứ

0.9887; cũn giỏ trị SSE tương ứng là: 0.0062, 0.6855 và 0.0325. Ngoài ra, hai chỉ số

này cũng được tớnh đối với trường h p hàm gi ợ ả định là cỏc phõn b Weibull và ố

Gamma, nhưng kết quả cho thấy phõn bố hàm mũ phự hợp hơn với phõn bố dữ liệu thực nghiệm. Nghiờn cứu sinh cũng ó so sỏnh biđ ểu đồ thực nghiệm của cỏc dữ liệu đo trong bảng 3-1 với phõn bố hàm mũ trong trường hợp thay đổi thời gian time-out của lu ng l u lồ ư ượng b ng nhi u giỏ tr khỏc nhau và kằ ề ị ết quả cho thấy khụng cú sự phụ thuộc lớn giữa giỏ trịtime-out của lu ng v i m c ồ ớ ứ độ phự h p c a ợ ủ

chỳng.

Tiếp tục tớnh chỉ số KS theo cụng thức 3-2-17. K t qu tớnh toỏn trờn cỏc dế ả ữ

liệu đo khỏc nhau được thể hiện trong bảng 3-1 cho cỏc trường hợp phõn bố giả định là: hàm Mũ, hàm Weibull, hàm Gamma, và hàm Pareto. Theo ú đ phõn bố Weibull và Gamma lại phự hợp hơn với dữ liệu thực nghiệm, sau đú mới đến phõn bố hàm mũ .

Cuối cựng nghiờn cứu sinh thực hiện kiểm tra mức độ phự hợp của dữ liệu thực nghiệm với cỏc phõn bố lý thuyết bằng cỏch quan sỏt hàm xỏc suất luỹ tớch bự CCDF (hỡnh 3-4). Trong quỏ trỡnh phõn tớch, nghiờn cứu sinh rỳt ra kết luận quan trọng về sự ầ c n thi t ph i thế ả ể ệ hi n hàm ccdf trờn c hai thang là thang tuyả ến tớnh và

thang logarit. Thang tuyến tớnh sẽ cho phộp đỏnh giỏ mức độ phự hợp toàn cục giữa dữ liệu đo với cỏc phõn bố lý thuyết, trong khi thang logarit lạ đi ỏnh giỏ chi ti t h n ế ơ

về biểu hiện của phần đuụi của phõn bố, vớ dụ để xem cú đặc tớnh vệt dài hay khụng.

(a) Thang tuyến tớnh

(b) thang logarit

Hỡnh 3-4 Hàm ccdf I.A.T của cỏc luồng lưu lượng (a) trờn thang tuyến tớnh và (b) thang logarit – DL2, 60s

Cú thể nhận thấy từ hàm CCDF, rằng khụng cú một phõn bố lý thuyết nào phự hợp hoàn toàn với phõn bố dữ ệ li u th c nghi m, mà m c ự ệ ứ độ phự h p c a cỏc ợ ủ

phõn bố lý thuy t phế ụ thuộc vào cỏc tập dữ liệ đu o khỏc nhau. Vớ dụ, với dữ liệu đo DL2 (hỡnh 3-4) thỡ dường như phõn b Gamma và Weibull là phự hố ợp hơn cả với dữ liệu thực nghiệm, tuy nhiờn với dữ liệu DL1 thỡ phõn bố hàm mũ lại cung c p ấ

mức độ phự hợp tốt hơn đặc biệt là với dữ ệ li u lu ng TCP. ồ

Tuy nhiờn cú một kết quả rừ ràng là cỏc phõn b vố ệt dài m nh nh Pareto ạ ư

hay Log-Normal cú mức độ phự hợp rất kộm, núi cỏch khỏc xột tổng thể thỡ dữ liệu I.A.T thực nghiệm của cỏc luồng lưu lượng phự hợp tốt hơn với phõn bố hàm Mũ, hoặc cỏc phõn bố vệt dài yếu như phõn bố Gamma và phõn bố Weibull . Đ ềi u này được xỏc thực bằng chỉ số KS trong phộp ki m tra Kolmogorov-Smirnov trong ể

bảng 3-1.

Trong tất cả cỏc tệp dữ liệ đu o cú thể thấy phõn bố Weibull phự hợp nhất, sau đấy là phõn bố hàm mũ và cuối cựng là phõn bố Gamma, đ ềi u này cũng phự hợp với nhiều nghiờn cứu khỏc như nghiờn cứu [36] về quỏ trỡnh đến của cỏc luồng lưu lượng TCP.

Túm lại đến õy, đ đ ềi u cú th k t lu n ể ế được là th i i m ờ đ ể đến của cỏc lu ng ồ lưu lượng Internet (hay tương ứng là quỏ trỡnh I.A.T) tuõn theo họ cỏc phõn bố Markov như hàm Mũ, Gamma và Weibull, tuỳ theo dữ liệu đo mà mức độ phự hợp của hàm Mũ hay hàm Gamma/Weibull cao hơn. Trong phần tiếp theo nghiờn cứu sinh tiếp tục khảo sỏt phõn bố I.A.T của cỏc lu ng l u lồ ư ượng IP c a t ng ủ ừ ứng d ng riờng r nh m hi u rừ h n bi u hi n c a quỏ trỡnh ụ ẽ ằ ể ơ ể ệ ủ đến c a chỳng. ủ

3.2.2.2 Phõn bố I.A.T của cỏc luồng lưu lượng IP của từng ứng dụng riờng lẽ

Thực tế trong lý thuyết lưu lượng mạng viễn thụng và đa phần cỏc nghiờn cứu về lưu lượng m ng Internet ngạ ười ta thường ch tỡm hi u và mụ hỡnh hoỏ phõn ỉ ể

bố I.A.T của cỏc luồng lưu lượng tổng hợp của tất cả cỏc ứng dụng trong dữ ệ li u đo mà khụng nghiờn cứu chi tiết đến bi u hiể ện của từng ứng dụng riờng l . Luẽ ận ỏn này, với mụ đc ớch đặt ra là tỡm kiếm cỏc d u hi u liờn quan ấ ệ đến bi u hi n ho t ể ệ ạ động của cỏc luồng lưu lượng nhằm nhận dạng và phõn loại lưu lượng của cỏc ứng dụng khỏc nhau, đó thực hiện khảo sỏt và phõn tớch thờm cỏc phõn bố I.A.T c a cỏc lu ng ủ ồ

lưu lượng đối với từng ứng dụng cụ thể trong cỏc tệp dữ liệu đo khỏc nhau.

Hỡnh 3-5 dưới đõy trỡnh bày kết quả phõn tớch biểu đồ phõn b I.A.T cố ủa cỏc luồng lưu lượng của một số ứ ng dụng chớnh, trong 2 tệp dữ liệu đại diện DL1 và

DL4, vẽ cựng với đường cong phõn bố hàm mũ giả định tương ứng cũng như kết qủa tớnh toỏn cỏc thụng số thống kờ quan trọng.

Kết quả phõn tớch biểu đồ cho thấy cú một số ứ ng d ng nh ụ ưwww và dns cú bi u ể đồ phõn bố rất phự h p v i phõn bợ ớ ố hàm m giũ ả định, trong khi một số ứ ng dụng khỏc nhưssh hay imap thỡ cú một mức độ sai khỏc nh t ấ định. C ng c n l u ý ũ ầ ư

rằng cú một số ứng dụng đặc biệt nhưtelnet, cú hỡnh dạng biểu đồ khỏc nhau với

Một phần của tài liệu Một số phát hiện mới trong đo lường và phân tích lưu lượng internet. Mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng769 (Trang 71)

Tải bản đầy đủ (PDF)

(162 trang)