Cụng cụ phõn tớch

Một phần của tài liệu Một số phát hiện mới trong đo lường và phân tích lưu lượng internet. Mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng769 (Trang 128)

5. Bố ục cc ủa luận ỏn

4.3.4Cụng cụ phõn tớch

Trong luận ỏn này, mụ hỡnh lựa chọn thu c tớnh và cỏc thuộ ật toỏn h c t ọ ự động được thực hiện bằng phần mềm BKCLASS (Bach Khoa Traffic Classification) phỏt triển dựa trờn cơ sở bộ ph n m m WEKA [58] (ầ ề Waikato Enviroment for Knowledge Analysis). Đõy là bộ phần mềm phổ dụng trong l nh v c ĩ ự

trớ tuệ nhõn t o ạ được phỏt tri n b ng ngụn ng lể ằ ữ ập trỡnh Java (cho phộp ch y trờn ạ

nhiều mụi trường hệ đ ề i u hành khỏc nhau) bởi trường đại học Waikato. Được xem là phần mềm đầy đủ nhất cho lĩnh vực học tựđộng nú bao gồm gần như tấ ảt c cỏc thuật toỏn học tựđộng nh C4.5/J.48, Naive Bayes/NBD, kNN, Adtree, SMO, vv... ư

và nhiều mụ hỡnh lựa chọn thu c tớnh cộ ũng như cụng cụ cho phộp chuyển đổi kiểu dữ liệu của cỏc thuộc tớnh luồng.

BKCLASS sử dụng ph n m m Weka dầ ề ưới d ng cỏc th vi n hàm Java. V ạ ư ệ ề

mặt dữ liệu, để phần mềm bkclass hoạt động được, cần phải chuẩn bị những dữ liệu sau:

- Tập dữ liệu đầu vào: bao gồm d li u m u và d li u ki m tra. Cỏc thành ph n ữ ệ ẫ ữ ệ ể ầ

của tập dữ liệu này thực chất chỉ là danh sỏch cỏc thu c tớnh c a ộ ủ đối tượng d ữ

liệu (luồng lưu lượng) và trong trường hợp dữ liệu mẫu thỡ thờm tờn lớp tương

ứng c a ủ đối tượng và cú thể được l u tr dư ữ ưới dạng d li u Text, b ng Excel ữ ệ ả

hoặc cơ sở dữ ệ li u. Weka cho phộp cỏc thuộc tớnh c a ủ đối tượng d li u l y ữ ệ ấ

nhiều kiểu giỏ trị khỏc nhau bao gồm: giỏ trị rờ ại r c tiờu chu n (danh sỏch m t ẩ ộ

số giỏ trị rờ ại r c h u h n), s thữ ạ ố ực hoặc số nguyờn, và d li u xõu. Toàn b cỏc ữ ệ ộ

dữ liệu đầu vào này được Weka lưu vào cỏc tệp cú đuụi .arff, dưới đõy là vớ dụ

về một thành phần dữ liệu m u (dẫ ữ liệu kiểm tra chỉ khỏc dữ liệu mẫu là khụng cú thuộc tớnh tờn lớp):

@attribute thoi_luong {20, 25, 30,70} @attribute kich_thuoc_goi_dau real

@attribute huong_mot_so_goi_dau {1,-1,-1,1,1,1,1,-1,-1,1} @attribute lop {1,2,3,4,5,6} @data 20,150,1,1 70,1000,-1,3 30,45,1,4

- Cỏc bộ phõn lo i: bkclass thạ ực hiện cỏc thuật toỏn học tự động trong cỏc bộ

phõn loại. Cỏc bộ phõn loại này được thực hiện theo hai chương trỡnh con, chương trỡnh con thứ nhất thực hiện thu t toỏn hậ ọc trờn cỏc tệp dữ ệ li u m u và ẫ đưa ra mụ hỡnh phõn loại, ti p ú chế đ ương trỡnh con th 2 th c hi n ki m tra mụ ứ ự ệ ể

hỡnh phõn loại tạo ra trờn cỏc tệp dữ ệ li u kiểm tra. Mụ hỡnh phõn loại là tổ hợp ỏnh xạ gi a t p con cỏc thu c tớnh cữ ậ ộ ủa đối tượng cần phõn lo i v i m t thuạ ớ ộ ộc tớnh đặc biệt là nhón của lớp tương ứng. Như đ ó núi ở trờn cỏc thuật toỏn h c t ọ ự động để xõy dựng mụ hỡnh phõn lo i bao g m: ạ ồ cõy quyết định C4.5; phõn bố Bayes Naive; SMO; vv...

- Cỏc bộ ọ l c: thành phần này của Weka cho phộp thực hiện cỏc ch c n ng ti n x ứ ă ề ử

loại bỏ bớt cỏc thành ph n d li u m u, vv... Hay núi cỏch khỏc nú ph c v cho ầ ữ ệ ẫ ụ ụ

bài toỏn lựa chọn thu c tớnh. ộ

Phần mềm Weka cũn nhiều thành phần khỏc nhưng luận ỏn này chỉ sử dụng 3 thành phần trờn trong bkclass với một số sửa đổi cho phự h p v i cỏc mụ hỡnh l a ợ ớ ự

chọn thuộc tớnh và thuật toỏn phõn loạ ở đi õy. Xem thờm về chương trỡnh Weka tại [58].

4.3.5 Phương phỏp đỏnh giỏ hiu suấ ủt c a cỏc b phõn loi

Trong lĩnh vực học tự động vi c ệ đỏnh giỏ độ chớnh xỏc của cỏc thuật toỏn học là vụ cựng quan trọng, nú quyết định kết quả phõn loại khi ỏp dụng mụ hỡnh học

được. Thự ếc t cú nhi u phề ương phỏp ỏnh giỏ đ độ chớnh c a cỏc thu t toỏn hủ ậ ọ ực t

động, luận ỏn này s dử ụng “phương phỏp đỏnh giỏ chộo”. Phương phỏp này hoạt

động như sau: chia tập d li u ữ ệ đầu vào thành k tập con sau đú sử ụ d ng (k-1) tập con làm dữ liệu mẫu và tập con cũn lại làm dữ liệu kiểm tra, quỏ trỡnh này được thực hiện luõn phiờn nhau (giữa dữ liệu kiểm tra và dữ liệu mẫu) tổng cộng k lần và s ố

liệu thống kờ v lề ỗ đượi c tớnh trung bỡnh trờn k lần đú.

Cụ thể trong 4 tập dữ liệu đầu vào là: DL1, DL2, DL4 và DL6 nghiờn cứu sinh thực hiệ đn ỏnh giỏ độ chớnh xỏc bằng cỏch sử dụng l n lầ ượt t ng t p d li u ừ ậ ữ ệ

làm dữ liệu ki m tra, cỏc d li u cũn l i làm d li u m u và nh th cú t t c 4 l n ể ữ ệ ạ ữ ệ ẫ ư ế ấ ả ầ

thực hiện thuật toỏn học và ki m tra khỏc nhau. Phể ương phỏp và lưu đồ thực hiện

đỏnh giỏ hiệu suất của cỏc thuật toỏn và mụ hỡnh phõn loại trong luận ỏn này được túm tắt như trong hỡnh 4-6.

Cỏc chỉ ố s thống kờ v l i sề ỗ ẽđược tớnh trong mỗi lần kiểm tra bao gồm:

- Độ chớnh xỏc (accuracy) hay cũn gọi là tỉ ệ l phõn loạ đi ỳng: được tớnh bằng tỉ

lệ phần trăm số luồng lưu lượng IP được phõn loại đỳng trờn tổng số luồng phõn loại xột trờn toàn bộ ệ t p d li u ữ ệ

- Độ tin cậy (precision): là số lượng luồng l u lư ượng được phõn loạ đi ỳng trờn tổng số luồng của loại đú (vớ dụ, trong tổng số luồng lưu lượng được phõn loại là lưu lượng tương tỏc thỡ thực chất bao nhiờu phần trăm đỳng là lưu lượng tương tỏc).

- Tỉ lệ phõn lo i dạ ương ỳng đ (recall): là tỉ lệ ph n tr m s lu ng l u lầ ă ố ồ ư ượng c a ủ

một lớp được phõn loại đỳng trờn tổng số luồng của lớp đú.

Trong 3 chỉ số này thỡ ch sỉ ố đầ đượu c tớnh cho toàn b tộ ập d li u xột, cũn ch ữ ệ ỉ

số thứ 2 và 3 được tớnh cho từng lớp. Khi đỏnh giỏ độ chớnh xỏc núi chung của một mụ hỡnh nhận dạng lưu lượng ứng dụng thỡ ngoài việc phải đảm bảo mộ ỉt t lệ phõn

loại đỳng cao, cũng cần phả đải m bảo tỉ lệ phõn lo i nh m r t th p vỡ n u khụng ạ ầ ấ ấ ế

trong một s trố ường hợp mang l i h u qu rạ ậ ả ấ ất x u, vớ d trong trụ ường h p phỏt hi n ợ ệ

tấn cụng trong mạng thỡ việc phõn loại một luồng lưu lượng bỡnh thường thành luồng lưu lượng lạ sẽ dẫn đến cảnh bỏo nhầm.

Cỏc chỉ số này được tớnh dựa trờn bốn khỏi ni m là TP, FP, TN và FN. Cỏc ệ

khỏi niệm này xuất phỏt từ bài toỏn cơ bản c a k thuủ ỹ ật phõn lo i b ng phạ ằ ương phỏp học tựđộng, trong đú người ta phõn loại cỏc đối tượng vào một trong hai l p ớ

là lớp cỏc giỏ trị dương (+) và lớp cỏc giỏ trị õm (-). T ú cú th hi u TP (ừ đ ể ể True Positive) thể hiện số lượng đối t ng d ng phõn loượ ươ ạ đi ỳng vào nhúm +, cũn FP là s ố đối tượng dữ liệu õm bị phõn loại sai vào nhúm +, tương tự TN là sốđối tượng dữ liệu õm phõn loại đỳng vào nhúm -, và FN là số đối tượng dữ liệu dương phõn loại nhầm vào nhúm -.

Với 4 khỏi niệm này, cú thể tớnh cỏc chỉ số hiệu suất như sau: Độ chớnh xỏc = TP TN TP TN FP FN + + + + (4-3-14) Độ tin cậy = TP TP FP+ (4-3-15) Tỉ lệ phõn loại dương đỳng = TP TP FN+ (4-3-16)

Đểđỏnh giỏ khả năng ỏp d ng th c t cụ ự ế ủa mụ hỡnh người ta s dử ụng hai thụng số hiệu suất là:

- Thời gian xõy dựng mụ hỡnh: là khoảng thời gian học và kiểm tra đỏnh giỏ đến khi cú được mụ hỡnh phõn loại cuối cựng

- Thời gian nhận dạng và phõn loại (luồng lưu lượng IP): là khoảng thời gian sử

Đ ộ chính xác cuối cùng Dữ li ệu Dự đoán Y N Các lớp dữ liệu mẫu Tập dữ liệu mẫu Tập dữ liệu ki ểm tra + + - - + Thu ật toán học tự động Đ ánh giá độ chính xác + - + - Mô hình phân lo ạ i cuối cùng Tập dữ liệu kiểm tra cuối cùng + - + - Xây dựng mô hình phân loại

Hỡnh 4-6 Lưu đồ qỳa trỡnh họ đc, ỏnh giỏ và kiểm tra mụ hỡnh phõn loại

4.3.6 La chn thuc tớnh

Lựa chọn thuộc tớnh là bước tiền xử lý nhằm tăng hiệu suất hoạt động c a ủ

thuật toỏn học, tiết kiệm chi phớ tớnh toỏn và quan trọng h n là t ng ơ ă độ chớnh xỏc của phộp phõn loại của mụ hỡnh học được đồng thời cũng trỏnh được hiện tượng “phự hợp giả tạo”. Vỡ th trong lu n ỏn này, trế ậ ước khi thực hiện thuật toỏn học tự động nghiờn cứu sinh tỡm cỏch xỏc định m t thộ ứ tự ắ s p x p cỏc thuế ộc tớnh theo trỡnh tự giảm dần về “lượng thụng tin” của chỳng bằng cỏc mụ hỡnh khỏc nhau.

Một thuộc tớnh được xem là khụng cần thiết khi nú khụng mang thụng tin gỡ về cỏc lớp lưu lượng khỏc nhau hay núi cỏch khỏc những thuộc tớnh này khụng cú khả năng phõn biệt lưu lượng, vớ dụ những thuộc tớnh chỉ ấ l y m t giỏ trộ ị duy nh t. ấ

Cũn một thuộc tớnh được xem là dư thừa nếu nú cú h s tệ ố ương quan lớn v i ớ

thuộc tớnh khỏc, lý do cần phải loại bỏ những thuộc tớnh dư thừa là do thự ếc t nú thường làm giảm độ chớnh xỏc của thuật toỏn phõn loại hoặc làm gia tăng xỏc suất “phự hợp giả ạ t o”.

Trước khi đi vào chi tiết giải thuật lựa chọn thuộc tớnh, nghiờn cứu sinh túm tắt (bảng 4-4) lại danh sỏch cỏc thuộc tớnh của luồng lưu lượng IP từ bảng 4-2. Để

tỡm ra từ bảng 4-4 cỏc thu c tớnh cung c p nhi u “thụng tin nh t” c ng nh cỏc ộ ấ ề ấ ũ ư

thuộc tớnh dư thừa hoặc khụng cần thi t cế ần mộ ơt c sở ữ ệ ư d li u l u lượng đủ l n, nờn ớ ở đ õy s d ng t p d li u DL7 v i g n 3 tri u lu ng làm t p d li u m u. ử ụ ậ ữ ệ ớ ầ ệ ồ ậ ữ ệ ẫ

Bảng 4-4 Danh sỏch cỏc thuộc tớnh luồng lưu lượng IP

TT Thuộc tớnh Kiểu giỏ trị

Cỏc thuộc tớnh chung cho cả hai hướng

1 Khoỏ Xõu

2 Bắt_đầu Xõu

3 Kết_thỳc Xõu

4 Thời_lượng Liờn tục

5 Kớch_thước_gúi_đầu Liờn tục

6 Hướng_một_số_gúi_đầu Chuỗi 10 giỏ trị rời rạc lấy giỏ trị -1 hoặc

1

7 Tỉ_lệ_dữ_liệu Liờn tục

8 Phõn_bố_I.A.T_gúi Chuỗi 9 giỏ trị liờn tục

9 Phõn_bố_I.A.T_luồng Liờn tục 10 Phõn_bố_số_luồng Liờn tục κdt Liờn tục βdt Liờn tục 11 γdt Liờn tục 12 κgd Liờn tục

Cỏc thuộc tớnh hướng truyền từ O->R (khởi tạo -> đỏp ng) ứ

13 O_Phõn_bố_I.A.T_gúi Chuỗi 9 giỏ trị liờn tục

14 O_Phõn_bố_tải tin Chuỗi 23 giỏ trị liờn tục

15 O_Số_byte Liờn tục 16 O_Số_byte_dữ_liệu Liờn tục 17 O_Số_gúi Liờn tục 18 O_Số_gúi_dữ_li u ệ Liờn tục o_κp Liờn tục o_βp Liờn tục o_γp Liờn tục o_δp Liờn tục 19 o_εp Liờn tục

o_κdl Liờn tục o_βdl Liờn tục o_γdl Liờn tục o_δdl Liờn tục 20 o_εdl Liờn tục o_κtf Liờn tục o_βtf Liờn tục 21 o_γtf Liờn tục 22 O_Tốc_độ_bit_tb Liờn tục 23 O_κbhs Liờn tục 24 O_Tốc_độ_gúi_tb Liờn tục 25 O_κghs Liờn tục

26 O_Trị_trung_tõm_Tải tin Liờn tục

27 O_κphs Liờn tục

Cỏc thuộc tớnh hướng truyền từ R->O (đỏp ng -> khứ ởi tạo)

28 R_Phõn_bố_I.A.T_gúi Chuỗi 9 giỏ trị liờn tục

29 R_Phõn_bố_tải tin Chuỗi 23 giỏ trị liờn tục

30 R_Số_byte Liờn tục 31 R_Số_byte_dữ_li u ệ Liờn tục 32 R_Số_gúi Liờn tục 33 R_Số_gúi_dữ_liệu Liờn tục r_κp Liờn tục r_βp Liờn tục r_γp Liờn tục r_δp Liờn tục 34 r_εp Liờn tục r_κdl Liờn tục r_βdl Liờn tục r_γdl Liờn tục r_δdl Liờn tục 35 r_εdl Liờn tục 36 r_κtf Liờn tục

r_βtf Liờn tục r_γtf Liờn tục 37 R_Tốc_độ_bit_tb Liờn tục 38 r_κbhs Liờn tục 39 R_Tốc_độ_gúi_tb Liờn tục 40 r_κghs Liờn tục

41 R_Trị_trung_tõm_Tải tin Liờn tục

42 r_κphs Liờn tục

Với lượng dữ liệu lớn như thế thỡ giữa hai mụ hỡnh lựa chọn thu c tớnh là mụ ộ

hỡnh hoỏn đổi và mụ hỡnh bộ lọc, mụ hỡnh b lộ ọc cú thời gian th c hi n nhanh h n ự ệ ơ

vỡ thế phần này trước hết sử dụng mụ hỡnh b lộ ọc v i thu t toỏn d a trờn hớ ậ ự ệ số

tương quan CFS kết hợp với cỏc phương phỏp tổ chức tỡm kiếm khỏc nhau, bao gồm: tỡm xuụi, tỡm ngược, tỡm thuộc tớnh tốt nhất trước và tỡm theo giải thuật di truyền. Kết quả về ứ th tự cung c p thụng tin c a cỏc thu c tớnh cho quỏ trỡnh nh n ấ ủ ộ ậ

dạng và phõn loại lưu lượng ứng dụng Internet được thể ệ hi n nh trong b ng 4-5. ư ả

Bảng 4-5 Kết qủa lựa chọn thuộc tớnh theo giải thuật CFS

Phương phỏp tỡm kiếm Kết quả tỡm kiếm

Tỡm xuụi 14,6,7,4,5,9,18,33,32,29,17,38,40,23,25

Tỡm theo giải thuật di truy n ề 14,6,7,4,5,9,18,33,32,29,17

Tỡm thuộc tớnh tốt nhất trước 9,18,33,32,29,14,6,7

Tỡm theo lớp (ranking) 9,14,7,33,29,18,6,7,40,23

Với phương phỏp tỡm xuụi, bảng 4-5 chỉ liệt kờ 15 thuộc tớnh quan trọng nhất cho quỏ trỡnh phõn loại (cú lượng thụng tin lớn), kết quả thực nghiệm cũng cho thấy 1 số thuộc tớnh như số 8, 26, 28, 37 và 41 g n nh khụng úng gúp thụng tin gỡ cho ầ ư đ

quỏ trỡnh phõn loại nờn cú th xem là thuể ộc tớnh dư thừa. Một phỏt hiện quan trọng nữa là phương phỏp tỡm kiếm theo giải thuật di truyền cho kết quả là tập thuộc tớnh giống 11 thuộc tớnh đầu của phương phỏp tỡm xuụi. Cũn hai phương phỏp tỡm kiếm tốt nhất trước và tỡm theo phõn lớp cho kết quả là cỏc tập con của phương phỏp tỡm xuụi, chỉ khỏc thứ tự cỏc thu c tớnh. i u này cho th y v cộ Đ ề ấ ề ơ bản cỏc phương phỏp tỡm kiếm khỏc nhau cho kết qu tả ương đương nhau. Sở dĩ NCS khụng th phử ương phỏp tỡm ngược là vỡ về mặ ết k t qu nú tả ương t phự ương phỏp tỡm xuụi tuy nhiờn v ề

mặt tớnh toỏn nú lại yờu cầu thời gian và năng lực tớnh toỏn lớn tương đương với mụ hỡnh hoỏn đổi.

Trong mụ hỡnh bộ lọc thỡ ngoài phương phỏp CFS cũn một số phương phỏp khỏc như phương phỏp dựa trờn hệ số thụng tin, phương phỏp d a trờn ự độ bất định

đối xứng (CBS), đểđảm bảo tớnh t ng quỏt lu n ỏn này c ng ó ch y th c nghi m ổ ậ ũ đ ạ ự ệ

với 2 phương phỏp này (lấy từ thư viện của chương trỡnh Weka) và kết quả tỡm

được tập con cỏc thuộc tớnh quan trọng nhất trong b ng 4-6. ả

Cuối cựng mặc dự việc thực hi n cỏc mụ hỡnh hoỏn ệ đổi yờu cầu năng lực và thời gian tớnh toỏn rất lõu, nhưng đểđảm bảo độ chớnh xỏc cho thuật toỏn phõn loại, nghiờn c u sinh cứ ũng ó cđ ố ắ g ng kiểm tra thực nghi m mụ hỡnh hoỏn ệ đổi v i trớ ường hợp thuật toỏn học tự động là NBD (là thuật toỏn học đơn giản nhất), kết quả cũng

được thể ệ hi n trong b ng 4-6. ả

Bảng 4-6 Kết quả lựa chọn thuộc tớnh theo cỏc mụ hỡnh bộ ọ l c khỏc và mụ hỡnh hoỏn đổi

Mụ hỡnh Kết quả tỡm kiếm

Mụ hỡnh bộ ọ l c dựa trờn hệ ố s thụng tin 14,6,29,4,5,9,18,33,32,20,17,21,34,23,25

Mụ hỡnh bộ ọ l c dựa trờn độ bất định i xđố ứng (CBS) 14,20,34,4,7,9,8,17,33,32,29,42

Mụ hỡnh hoỏn đổi với thuật toỏn NBD 17,8,7,9,23,18,33,20,29,15,14,6,21

Mặc dự cỏc phương phỏp lựa chọn thuộc tớnh trờn đõy cho kết quả là cỏc tập con về cơ bản tương đối gi ng nhau, tuy nhiờn th tố ứ ự của cỏc thu c tớnh l i khỏc ộ ạ

nhau, hay núi cỏch khỏc rất khú xỏc định thuộc tớnh nào là thuộc tớnh tốt nhất (cú lượng thụng tin lớn nhất). Tỏc giảđó gi i quy t v n đề nàyả ế ấ bằng cỏch k t h p cỏc ế ợ

kết quả này lại với nhau như sau: ti n hành gỏn cho m i thuế ỗ ộc tớnh thu c cỏc t p ộ ậ

con 1 giỏ trị trọng số W theo thứ ự t tỡm ra của chỳng:

W = 42 - thứ ự t (4-3-17) Sau đú tiến hành cộng giỏ trị trọng số củ ừa t ng thu c tớnh thu c cỏc tộ ộ ập con

Một phần của tài liệu Một số phát hiện mới trong đo lường và phân tích lưu lượng internet. Mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng769 (Trang 128)