5. Bố ục cc ủa luận ỏn
3.2.3.2 Phõn bố kớch thước luồng theo byte
Phõn bố kớch thước của cỏc luồng lưu lượng IP khi xột theo đơn vị dữ ệ li u byte phức tạp hơn nhiều, cỏc nghiờn cứu trước đõy như [68], [32], [39], [40] đó chỉ
ra rằng khụng cú một phõn bố lý thuyết đơn lẻ nào thể hiện sự phự hợp hoàn toàn với phõn bố dữ ệ đ li u o th c nghi m, mà ph i k t h p m t s phõn b ự ệ ả ế ợ ộ ố ốđể cú thể mụ hỡnh hoỏ kớch thước theo byte của cỏc luồng lưu lượng o th c nghi m. đ ự ệ
Khi kiểm chứng với tệp dữ liệ đu o trong bảng 2-3, nghiờn cứu sinh nhận thấy kết quả tương tự ụ ể, c th ph n l n s lầ ớ ố ượng luồng cú kớch thước từ kho ng 40 bytes ả đến 1 Kbyte i vđố ớ ưi l u lượng UDP và từ 40 byte đến 100 Kbyte i v i l u lđố ớ ư ượng
TCP -> hỡnh thành nờn mốt thứ nhất của phõn bố, và một số ớt luồng cú kớch thước > 100 Kbyte tạo thành mốt thứ hai của phõn bố, cú thể quan sỏt rất rừ mốt thứ hai này trờn thang logarit.
Kết quả (hỡnh 3-9) mụ hỡnh hoỏ cho thấy, thụng qua đồ thị CCDF thang logarit, trong khoảng thời gian quan sỏt nhất định phõn bốLog-normal phự hợp rất tốt với mốt th nh t c a phõn b trong khi phõn b ứ ấ ủ ố ốGamma lại th hi n r t t t ể ệ ấ ố đặc tớnh đuụi (mốt thứ 2) của phõn bố kớch thước cỏc luồng lưu lượng UDP. Tuy nhiờn khi mở rộng th i gian quan sỏt (t ng c hờ ă ơ ội để thờm vào cỏc lu ng cú ồ độ dài l n ớ
hơn) -> kết quả cho thấy phần đuụi của cỏc phõn bố kộo dài thờm rất nhiều (hàm CCDF gần như tuyến tớnh trờn thang logarit) và khi đú phõn bố Gamma khụng cũn phự hợp mà phải là Pareto. Vỡ vậy cú thể kết lu n r ng “ậ ằ sự kế ợt h p gi a hai phõn ữ bố Log-Normal và Pareto thể hiện tốt nhất phõn bố kớch thước cỏc luồng lưu lượng theo đơn vị byte”. Tuy vậy mụ hỡnh này r t ph c t p do cú nhi u tham s ấ ứ ạ ề ố
liờn quan do đú việc ỏp dụng nú trong cỏc mụ hỡnh hiệu suất thực tế là khụng khả
thi và ngoài ra việc xõy dựng m t mụ hỡnh chi ti t nh th nộ ế ư ế ằm ngoài phạm vi nghiờn cứu của luận ỏn. Gamma Pare to Log-normal 0 5 -6 -4 -2 0 Dữ liệu thực nghiệm 2.5 -2.5
log10(x = kich thuoc luong theo byte)
lo g1 0( 1- F (x )) DL1, 60s
Hỡnh 3-9 Đồ thị CCDF (thang logarit) phõn bố kớch thước cỏc luồng lưu lượng IP trong dữ liệu DL1 theo byte.
3.2.3.3 Phõn bố th i lờ ượng luồng
Hỡnh 3-10 Đồ thị CDF phõn b kớch thố ước th i lờ ượng cỏc lu ng l u lồ ư ượng IP, xột
trong dữ liệu DL1 và thời gian Time-out = 60s
Nghiờn cứu sinh tiếp tục kiểm tra phõn bố thời lượng của cỏc luồng lưu lượng IP, kết quả (hỡnh 3-10) cũng cho thấy sự xuất hiện của hiện tượng vệt dài và phự hợp tốt với phõn bố Log-normal. Cụ thể thời lượng của cỏc luồng l u lư ượng c a ủ
giao thức TCP phụ thuộc rất lớn vào thời đ ểi m xột trong ngày và cú rất ớt luồng lưu lượng dài, nguyờn nhõn cú thể do cơ ch ếtime-out c a giao th c v n chuy n TCP. ủ ứ ậ ể
Cụ th th i lể ờ ượng trung bỡnh c a cỏc lu ng TCP là ~55s (l n nh t ~10ủ ồ ớ ấ 5s), cũn cỏc luồng lưu lượng UDP cú thời lượng trung bỡnh ~20s (lớn nhất ~5.104s). Ngoài ra trị trung tõm của phõn bố thời lượng luồng (cả TCP và UDP) ~2s, đ ềi u này cú nghĩa là khoảng 50% số lượng luồng chỉ ồ t n tại dưới 2s.
Túm lại bằng cỏch phõn tớch trờn dữ liệu lưu lượng đo trong bảng 2-3, kết hợp với cỏc kết quả nghiờn cứu trước đõy, nghiờn cứu sinh đi đến một số kết lu n quan ậ
trọng sau đõy về phõn bố kớch thước luồng lưu lượng: Kớch thước cỏc luồng lưu lượng IP trờn mạng Internet, dự tớnh theo đơn vị gúi, byte hay theo thời gian đều cú lượng biến thiờn rất lớn và phõn bố thống kờ của chỳng thể hiện sự kế ợt h p c a hai ủ hoặc nhiều mụ hỡnh lý thuyết với nhau với đặc tớnh nổi b t là cú phầ đậ n uụi của phõn bố kộo dài giống hỡnh dạng của phõn bố Pareto hoặc Log-normal.
3.3 Kết luận
Qua cỏc phộp phõn tớch thống kờ và mụ hỡnh hoỏ cỏc tham số liờn quan của cỏc luồng lưu lượng IP đo được, kết quả cho th y ấ một số phỏt hiện mới về cỏc bi u ể
hiện hoạt động và biến thiờn của chỳng trong phạm vi cỏc mạng ISP/IXP đ ểi n hỡnh, đặc biệt là phõn bố I.A.T, bao gồm:
• Cú một số ứ ng dụng nhưwww, dns hay voip chi m tế ỉ lệ lớn s lố ượng luồng l u ư
lượng IP trong tổng số luồng của dữ liệu đo
• Tỉ lệ ph n tr m s lu ng l u lầ ă ố ồ ư ượng IP gi a cỏc ng d ng g n nh khụng thay ữ ứ ụ ầ ư đổi hoặc thay đổi rất ớt khi thay đổi giỏ trịtime-out dựng trong định nghĩa luồng. • Phõn bố I.A.T của cỏc luồng l u lư ượng IP xột trờn l u lư ượng t ng h p c a ổ ợ ủ
tất cả cỏc ứng dụng tuõn theo phõn bố hàm m ũ
• Phõn bố I.A.T của cỏc luồng lưu lượng IP của từng ng dứ ụng riờng lẽ cú những biểu hiện phức tạp hơn, cụ thể như sau:
• Một số ứng dụng như www, dns, smtp hay ftp cú phõn bố I.A.T của cỏc luồng phự hợp tốt với cỏc phõn bố hàm Mũ
• Trong khi cỏc ứng d ng khỏc nh imap, telnet hay ssh l i khụng phự h p t t v i ụ ư ạ ợ ố ớ phõn bố hàm Mũ, mà phự hợp hơn với cỏc phõn bố vệt dài yếu như phõn bố Weibull hay Gamma
• Từ cỏc đ ềi u trờn cho thấy cú sự tương quan lớn gi a phõn b I.A.T cữ ố ủa cỏc luồng lưu lượng tổng hợp với phõn bố I.A.T của cỏc luồng thuộc những ứng dụng chiếm tỉ lệ luồng lớn.
• Khi quan sỏt và nghiờn cứu phầ đn uụi của phõn bố I.A.T c a cỏc luủ ồng lưu lượng trờn từng ứng dụng riờng rẽ, cú dấu hiệu cho thấy sự khỏc nhau về độ dài ph n ầ đuụi của chỳng. Hay núi cỏch khỏc cú thể phõn chia cỏc ứng dụng thành một số nhúm dựa trờn độ dài đuụi của phõn bố I.A.T cỏc luồng lưu lượng của chỳng, cụ thể cú thể chia g n ỳng thành 3 nhúm nh sau:ầ đ ư
- Cỏc ứng dụng cú độ dài phần đuụi của phõn bố I.A.T tương đối dài (~30s) bao gồm imap và ssh
- Cỏc ứng dụng cú độ dài phần đuụi của phõn bố I.A.T trung bỡnh (~5s) bao gồm: www, smtp, ftp và voip
- Và cỏc ứng dụng cú độ dài phầ đn uụi của phõn bố I.A.T rất ngắn (~0,5-1s) bao gồm: dns, https (dịch vụ web b o mật) và nntp (dịch vụ tin tức).ả
Cú thể gi i thớch hi n tả ệ ượng này m t cỏch ộ định tớnh là do bi u hi n ho t ể ệ ạ động của cỏc ứng dụng tương ứng. Vớ dụ, với ứng dụng dns thỡ rừ ràng đa phần cỏc dịch vụ trờn mạng Internet hi n nay ệ đều c n s dầ ử ụng d ch v ị ụdns vỡ thế lưu
lượng dns xuất hiện thường xuyờn trờn mạng hơn, dẫn đến khoảng cỏch giữa cỏc thời đ ểi m đến (I.A.T) của cỏc luồng lưu lượng dns cũng đều (thường xuyờn) hơn hay lượng biến thiờn I.A.T của cỏc luồng lưu lượng IP của dịch vụdns rất bộ, nờn độ dài đuụi của phõn bố ng n. Ngắ ược l i cỏc ng d ng nh ạ ứ ụ ưimap (dịch vụ
thư đ ệ i n tử đ a dụng), hay ssh (truy nhập từ xa) thỡ biểu hi n hoệ ạt động của nú (hành vi người dựng) tương đối thất thường, cú những lỳc xuất hiện nhiều (vớ dụ
buổi sỏng thường mọi ng i kiườ ểm tra thư đ ệ i n tử, vv..), cú những lỳc rất ớt, do
đú độ bi n thiờn c a giỏ trế ủ ị I.A.T c a cỏc lu ng l u lủ ồ ư ượng IP c a ng d ng ủ ứ ụ imap hay ssh tương đối lớn dẫn n đế độ dài đuụi của phõn bố dài.
• Phỏt hiện này cho thấy cú thể sử dụng độ dài uụi c a phõn b I.A.T làm đ ủ ố dấu hiệu nhận dạng (một cỏch tương đối) luồng l u lư ượng IP c a m t s ủ ộ ố ki u ể ứng dụng trờn Internet.
• Phõn bố kớch thước (theo byte và theo gúi) và thời lượng của cỏc luồng lưu lượng IP tuõn theo cỏc phõn bố vệt dài Pareto và Log-Normal, kết quả này phự hợp với cỏc nghiờn cứu trước đõy.
• Cỏc kết quả phõn tớch đặc tớnh luồng này sẽ được sử dụng để tớnh toỏn t p cỏc ậ
thuộc tớnh đặc trưng của cỏc lu ng l u lồ ư ượng IP phục v cho mụ hỡnh nhụ ận d ng ạ
Ch−ơng 4 Mễ HèNH TỰ ĐỘNG NH N DẬ ẠNG VÀ PHÂN
LOẠI LUỒNG LƯU LƯỢNG IP TRấN INTERNET
4.1 Giới thiệu chung
Việc nhận dạng cỏc luồng lưu lượng của cỏc nhúm ứng dụng t lừ ưu lượng t ng ổ
hợp trờn mạng sẽ giỳp giải quyết cỏc thỏch thức hiện nay của Internet, bao gồm: - Cung cấp chất lượng dịch vụ (QoS): nếu cú th phõn bi t ể ệ được cỏc lu ng l u ồ ư
lượng IP của từng nhúm ứng dụng sẽ giỳp cho mạng cung cấp mức ưu tiờn xử lý tương ứng cho cỏc gúi thuộc nhúm đú. Vớ dụ, cỏc gúi dịch vụ tương tỏc thời gian thực thường yờu cầu tr tễ ổng c ng th p nờn m ng ph i u tiờn x lý và dành ộ ấ ạ ả ư ử
nhiều tài nguyờn (bộđệm, băng thụng) cho chỳng, cũn với cỏc gúi ứng dụng như
web hoặc thư đ iện tử thỡ khụng yờu cầu thời gian thực và cú thể được nhớ đệm lõu hơn, vv...
- Phỏt hiện cỏc tấn cụng trờn mạng: hiện nay v n ấ đề bảo m t và phũng tr virus ậ ừ
cho cỏc ứng dụng và hệ thống phõn tỏn trờn Internet là đặc biệt quan trọng và bằng việc nhận dạng được lưu lượng của cỏc ứng dụng khỏc nhau sẽ giỳp phỏt hiện cỏc luồng lưu lượng lạ vốn cú th là do virus ho c cỏc hỡnh thể ặ ứ ấc t n cụng khỏc trờn mạng như ấ t n cụng từ chối dịch vụ gõy ra.
- Phõn tớch xu hướng phỏt triển l u lư ượng và tỉ lệ chi m d ng tài nguyờn ế ụ mạng: nếu cú th phõn bi t ể ệ được cỏc lu ng l u lồ ư ượng c a t ng ng d ng khỏc ủ ừ ứ ụ
nhau sẽ giỳp phõn tớch, đỏnh giỏ và dự đ oỏn xu hướng phỏt triển lưu l ng cượ ủa từng ứng dụng trờn mạng và qua đú cú thể mụ hỡnh hoỏ cơ chế chia sẻ tài nguyờn giữa cỏc ứng dụng và giỳp cho quỏ trỡnh thiết kế, qui hoạch và tố ưi u mạng được tốt hơn.
- Đ ềi u khi n truy nh pể ậ : đ ềi u khiển truy nhập giỳp giải quyết tỡnh trạng tắc nghẽn cũng như đảm bảo việc phõn bổ tài nguyờn mạng được thực hiện dễ dàng và chớnh xỏc hơn. Nhận dạng lư ượu l ng của từng ứng dụng hoặc nhúm ứng dụng là
đ ềi u kiờn tiờn quy t cho quỏ trỡnh ế đ ềi u khiển truy nhập này.
Hiện nay đa phần cỏc thuật toỏn phõn loại lưu lượng được thực hiện ở mức gúi, tuy nhiờn do những hạn chế vềđộ chớnh xỏc và t i x lý quỏ l n c a phả ử ớ ủ ương phỏp này mà gầ đn õy xuất hiện xu hướng nghiờn cứu phõn loại lưu lượng ở mức lu ng. ồ
Mặc dự vậy cỏc nghiờn cứu theo hướng này cũng chỉ mớ ởi dạng s kh i ch yơ ở ủ ếu dựa trờn cỏc đặc đ ểi m thống kờ đơn giản của luồng lưu lượng TCP để phõn chia chỳng thành cỏc nhúm khỏc nhau (xem thờm phần 1.5.2). Luận ỏn giới thiệu một
phương phỏp mới xõy dựng mụ hỡnh tự động nhận dạng và phõn loại cỏc lu ng ồ lưu lượng IP trờn Internet với hai tiờu chớ là (i) độ chớnh xỏc phõn loại và (ii) tớnh khả thi cao để cú thể triển khai trờn cỏc bộđịnh tuyến hoạt động theo thời gian thực trờn mạng. Cú thể mụ tả ý tưởng của mụ hỡnh đú như trong hỡnh 4-1 dưới đõy.
L−u l−ợng mạng (Packets) Bộ phân loại gói
- Đo l−ờng mạng - Phân tích luồng - Quan sát hiệu suất
Thuật toán phân loại
- Các tiêu chí phân loại - Và Logic tạo quyết định
Quá Trình Xử Lý Gói Gần Thời Gian Thực
Xử Lý "Offline"
L−u l ợng đã đ− −ợc phân loại
Hỡnh 4-1 Mụ hỡnh phõn loại lưu lượng Internet ở ứ m c luồng
Trong mụ hỡnh này cỏc gúi lưu lượng trờn mạng sẽđược bắt giữđể phõn tớch nhằm tỡm ra cỏc đặc tớnh luồng đặc trưng của cỏc nhúm ứng dụng gọi là tập cỏc thuộc tớnh luồng. Tập thuộc tớnh luồng sau đú được s dử ụng làm d li u ữ ệ đầu vào để
cỏc thuật toỏn h c tọ ựđộng “học” qui luật nhận dạng tương ứng. Cỏc qui tắc nhận dạng tỡm được, cuối cựng, sẽ được ỏp dụng trờn cỏc b ộ định tuyến trờn mạng để
nhận dạng và phõn loại lưu lượng trong thời gian thực.
Trước đõy cũng đó cú một số nghiờn cứu theo hướng này (xem phần 1.5.2 trong chương 1), tuy nhiờn khảo sỏt của nghiờn cứu sinh cho thấy đa phần cỏc phương phỏp đú:
Chỉ tập trung nhiều vào thuật toỏn phõn loại
Sử dụng t p cỏc thụng s ậ ố đầu vào ớt và đơn gi n nh cỏc giỏ tr trung bỡnh, ả ư ị
biến thiờn, lớn nhất, bộ nhất của cỏc thụng số kớch thước gúi và kớch thước luồng, vv..
Kết quả là độ chớnh phõn loại khụng cao do t p thụng s ậ ố đầu vào khụng ph n ả
ỏnh đỳng bản chất biến thiờn và cỏc biểu hiện hoạt động của lưu lượng mạng. Chương này trước hết sẽ trỡnh bày phương phỏp phõn tớch và tớnh toỏn tập cỏc thuộc tớnh đặc tr ng c a cỏc lu ng l u lượng IP c ng nh kiểư ủ ồ ư ũ ư u giỏ tr của ị chỳng một cỏch đầ đủy nhất nhằm đảm bả độo chớnh xỏc của mụ hỡnh nhận dạng. Khỏi niệm đầ đủy õy ở đ được hi u là phể ản ỏnh đỳng bản chất biến thiờn và biểu
hiện hoạt động của cỏc luồng lưu lượng IP đồng thời thể hiện cỏc đặc trưng lưu lượng của từng nhúm ứng dụng.
Phần tiếp theo của chương trỡnh bày túm tắt cỏc thuật toỏn học tự động và mụ hỡnh lựa chọn thuộc tớnh sử dụng cho bài toỏn nh n d ng và phõn lo i cỏc lu ng l u ậ ạ ạ ồ ư
lượng IP. Phần cuối cựng sẽ trỡnh bày phương phỏp thực hiện mụ hỡnh này trong thực tế và kết quả mụ phỏng ỏnh giỏ đ độ chớnh xỏc c a nú trờn cỏc t p d li u l u ủ ệ ữ ệ ư
lượng thực nghiệm.
Cú thể túm t t m t sắ ộ ố đ úng gúp quan trọng trong phần này bao g m: ồ
- Tỡm được tập đầy đủ cỏc thu c tớnh ộ đặc trưng của cỏc luồng lưu lượng IP cũng như kiểu giỏ trị của chỳng dựa trờn cỏc kết quả phõn tớch luồng ở chương 3. - Xõy dựng được mụ hỡnh nhận dạng luồng lư ượu l ng IP của từng nhúm ứng dụng
trờn Internet, dựa trờn việc cải tiến thuật toỏn lựa chọn thu c tớnh CFS và ỏp ộ
dụng cỏc giải thu t h c t ậ ọ ựđộng của trớ tuệ nhõn t o, v i ạ ớ độ chớnh xỏc cao và
đảm bảo tớnh kh thi. ả
- Phỏt triển cụng cụ phần mềm (BKCLASS) cho phộp tựđộng hoỏ quỏ trỡnh phõn loại này
4.2 Cơ ở s lý thuyết học tựđộng
4.2.1 Định nghĩa
Học tự động [50], [51] là một trong cỏc kỹ thuật của trớ tuệ nhõn t o, và ạ được
định nghĩa là: “chương trỡnh mỏy tớnh học cỏch thực hiện một lớp cỏc nhiệm vụ (T) với hiệu suất (P) từ tập cỏc thực nghiệm (E)” hay núi 1 cỏch nụm na là chương trỡnh mỏy tớnh này khụng cú thuật toỏn định trước để gi i quyả ết vấn đề mà thay vào đú nú học cỏch giải quy t bài toỏn dế ần dần qua từng bước thực nghiệm giải quyết vấn đề
theo hướng cải thi n hi u su t th c hi n. ệ ệ ấ ự ệ
Về mặt toỏn h c cú th xem h c t ọ ể ọ ự động là m t quỏ trỡnh qui n p t ng quỏt ộ ạ ổ
trong đú cỏc bước xõy dựng mụ hỡnh được thực hiện dựa trờn kết quả của bước trước. Hiện nay k thuỹ ật này ó đ được ng d ng thành cụng trờn nhi u l nh v c nh ứ ụ ề ĩ ự ư
tổ chức và truy nhập cơ sở dữ ệ li u quan h , nh n d ng ti ng núi và ký t hay nh n ệ ậ ạ ế ự ậ
dạng ảnh, vv...Trong luận ỏn này nú được ỏp dụng vào quỏ trỡnh nhận dạng và phõn loại cỏc luồng lưu lượng IP trờn Internet.