Từ những gói tin đầutiên, phân loại sớm được lưu lượng mạng máy tính này là lưu lượng nên haylưu lượng nỗi sẽ tạo ra bước ngoặc lớn trong việc nâng cao chất lượng phụcvụ, hỗ trợ cho hệ t
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
BK
‹ TP.HCMBÙI TIEN DUC
PHAN TICH LƯU LƯỢNG MẠNGBACKGROUND VÀ FOREGROUND
(NETWORK TRAFFIC ANALYSIS OF
BACKGROUND AND FOREGROUND)
NGANH: KHOA HOC MAY TINH
MA NGANH: 60.48.01.01
LUAN VAN THAC SI
NGUOI HUONG DAN KHOA HOC:
TS TRAN MINH QUANG
TP HO CHI MINH, tháng 12 năm 2017
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM
Cán bộ hướng dẫn khoa học: 5-55 < s 2 £+E2k+E£E+x£k+s££zrscxe
(Ghi rõ họ, tên, học ham, học vi và chữ ký)
Cán bộ chấm nhận Xét Ì: << + E Sex SeEeESE+ESEEeEeEeEEEEeEsreerereree
(Ghi rõ họ, tên, học ham, học vi và chữ ký)
Cán bộ chấm nhận XÉ 2: + EE S338 ESESESESEESESEEEEEEEEsEeerereree
(Ghi rõ họ, tên, học ham, học vi và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Trường Dai học Bách Khoa, ĐHQGTp HCM ngay tháng năm
Thanh phan Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vi của Hội đông cham bao vệ luận vănthạc si)
Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Trưởng Khoa
quan lý chuyên ngành sau khi luận văn đã được sửa chữa (nêu có).
CHỦ TỊCH HOI DONG TRƯỞNG KHOA KH & KTMT
Trang 3ĐẠI HỌC QUOC GIA TP.HCM CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMTRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc
NHIEM VỤ LUẬN VĂN THAC SĨ
Họ tên học viên: BÙI TIẾN ĐỨC MSHV: 7140229
Ngày tháng, năm sinh: 06 / 01 / 1980 Nơi sinh: TP HCM
Ngành: Khoa Học Máy Tính Mã số: 60480101
I TÊN DE TÀI:
PHÁN TÍCH LƯU LƯỢNG MẠNG BACKGROUND VÀ
FOREGROUND(NETWORK TRAFFIC ANALYSIS OF BACKGROUND AND
Tp HCM, ngày thang năm 20
CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH & KTMT
(Họ tên và chữ ký) (Họ tên và chữ ký)
TS Trần Minh Quang
Trang 4LỜI CÁM ƠN
Trong suốt thời gian 3 năm ké từ khi bat đầu hoc cao học tại Trường Daihọc Bách khoa Tp Hồ Chí Minh đến nay, tôi đã nhận được rất nhiều sự quantâm, giúp đỡ của quý Thay Cô, gia đình và bạn bè
Tôi xin gửi lời cảm ơn chân thành đến quý Thây Cô ở Khoa Khoa Họcvà Kỹ thuật Máy Tính — Trường Dai Hoc Bách khoa Tp Hồ Chí Minh đãtruyền đạt vốn kiến thức quý báu cho chúng tôi trong suốt thời gian học tập và
nghiên cứu tại trường.
Với lòng tri ân sâu sắc nhất, tôi xin gửi lời cảm ơn Tién sĩ Trần MinhQuang đã tận tâm hướng dẫn tôi qua từng buổi học trên lớp cũng như nhữngbuổi báo cáo chuyên dé hàng tuân, thảo luận về lĩnh vực khai phá dữ liệu và
phân tích lưu lượng mang background va foreground.
Luận văn thạc sĩ của tôi được thực hiện trong khoảng thời gian gân |năm Bước dau đi vào thực tế, tìm hiểu về lĩnh vực khai phá dữ liệu, phân tíchlưu lượng mang background và foreground, kiến thức của tôi còn hạn chế vacòn nhiều thiếu sót Do vậy, tôi rất mong nhận được những ý kiến đóng gópquý báu của quý Thay Cô và các ban học cùng lớp để kiến thức của tôi trong
lĩnh vực này được hoàn thiện hơn.
Sau cùng, tôi xin kính chúc quý Thay Cô trong Khoa Khoa Học và Kỹthuật Máy Tinh thật dồi dao sức khỏe, niềm tin dé tiếp tục thực hiện sứ mệnhtrồng người của mình
Trân trọng.
TP HCM, ngày 04 tháng 12 năm 2017
Người thực hiện(Ky và chi họ tên)
Bùi Tiên Đức
Trang 5TÓM TAT
Mục tiêu của công trình nghiên cứu này là phần loại sớm lưu lượng
mạng máy tính Lưu lượng nên do các ứng dụng âm thầm tự động chạy tạo ra.Lưu lượng nỗi do ngưới dùng sử dụng ứng dụng tao ra Tùy theo nhu cầu màlưu lượng nên hay lưu lượng nồi sẽ được sử dung theo yêu cau
Bằng phương pháp thống kê thông tỉn (statistical information), đề tàinghiên cứu này đã chứng minh được rang: Chi cần từ 4 gói tin (packets) tới26 gói tin là phân loại thành công lưu lượng nổi hay lưu lượng nên
Đóng góp của đề tài chính là sự phân loại sớm lưu lượng mạng máy tính(transmission control protocol session) từ những gói tin (packets) đầu tiên dựatrên thong kê thông tin
Công trình nghiên cứu này chỉ dựa vào thống kê thông tin để chứngminh giao dịch mạng hiện tại trội về lưu lượng nỗi hay lưu lượng nên Nếutrội về lưu lượng nên thì gán nhãn background và ngược lại gan nhãn
foreground.
ABSTRACT
This paper aims at separating background (BG) and foreground (FG)network traffic based on statistical analysis of traffic lows BG traffic iscommonly periodically generated by silently running applications while FGtraffic is intentionally generated by users with different purposes such as websurfing, messaging, calling, By _ statistical information analyticalmethodologies, this research proved that using only from 4 packets up to 26packets can successfully classify FG or BG traffic.
The main contribution of this research is early traffic classification of thetransmission control protocol session from the first packets based onStatistical information.
This study only relies on statistical information If the currenttransmission controls protocol session exceeded about the BG traffic, it willassign label for the BG traffic and vice versa.
Trang 6LỜI CAM ĐOAN
Tôi xin cam đoan luận văn thạc sĩ “Phần tích lưu lượng mạngBackground va Foreground” là công trình nghiên cứu của riêng tÔI với sự
hướng dan tận tình của Tiến sĩ Trần Minh Quang Các số liệu và tài liệu trong
luận văn thạc sĩ của tôi là trung thực và chưa được công bố trong bat ky công
trình nghiên cứu nào Tat cả những tham khảo va kế thừa đều được trích dẫnvà tham chiếu day đủ
Thành quả này là sự miệt mài làm việc và trải qua nhiều thất bại, rút kinh
nghiệm mới đạt được thành công.
Trang 7MỤC LỤC
NHIỆM VỤ LUẬN VĂN THAC SĨ - - + << +kEeEEEEEeEvxrkerrerererree 2909.) 0901 3¡90v 4
050 v00 4
LỚI CAM ĐOAN cc cttS t2 2 122112112111111011.211111.11.111111.11111 xe 5
CHUONG 1: GIỚI THIEU DE TÀI -2- 2< +2 SE+e+e+EEe+EEEeEeEeererererees 8
I.I Giới thiỆU Ăn HH re 8
12 Ý nghĩa khoa học và tính thực tiễn của VAN đỀ ccccsccseserecee 81.3 Định nghĩa van dé nghiên cỨu ¿- - - + sE+s+E+kekeEeeseersrerered 91.4 Những khó khăn trong tiếp cận van dé phân loại sớm lưu lượng nềnhay lưu lượng nỗi từ những gói tin đầu tiên và cách giải quyết 11
CHUONG 2: MỤC TIỂU, GIỚI HAN VA DOI TƯỢNG NGHIÊN CUU 13
ZL Dinh nghia n 132.2 MỤC tlU woe cccessecececcccceccceeeessseeececcessssceeesseesccsessseceeeesecesesceseeseas 142.3 NC.uốo:iiẳ 15
2.4 Đối tượng nghiên COU vic ceccscccssescsesescsscscscecsesescsssessvevsesnscseeees 162.5 Kết SIT-NsL18204920117 = 16
CHƯƠNG 3: _ PHƯƠNG PHÁP NGHIÊN CỨU -. :-5 : 17
3.1 Phuong pháp thu thập dữ liệu 5555 S522 sxssssses 17
3.2 Cách tạo ra lưu lượng nên (Background Traffic) và lưu lượng nỗi
(Foreground Traffic) của một giao dịch mang (TCP Session) 183.3 THU NghieM 0 = 18
CHƯƠNG 4: PHAN LOẠI SOM LƯU LƯỢNG MẠNG MAY TINH TỪNHỮNG GÓI TIN ĐẦU TIỂN - 2-5-5 25+‡cx2xtcEteExeEreerxerrrrrrrrrre 20
4.1 Câu trúc giao dịch mang (Transmission Control Protocol Session =
TCP 000 ẻ 204.2 Phương pháp thực hiỆn: c1 1111113111185 511111 21
4.3 Lưu đồ phân loại sớm - - se SE Ek£E£EEeEEEvkekekrrrsrsrerered 214.4 Các thuộc tính rút trích được qua thống kê thông tin từ những giao
dịch mang (Transmission Control Protocol Session = TCP Session) 21
4.5 Đánh giá su ảnh hưởng của từng thuộc tính đến sự phân loại lưu
Tong MANY MAY tinh 2 284.6 Loại bỏ thuộc tính it anh huOng ccccccceesssssneeceeceeeesesssnnaeeseeees 29
Trang 84.7 Xác định số gói tin tối thiêu cho việc phân loại sớm 294.8 Su dụng giải thuật Cây quyết định (Decision tree), Naive Bayes,Support Vector Machine, Artifical Neuron Network hỗ trợ sẵn trong côngcụ weka để đánh giá sơ bộ kết quả phân loại sớm lưu lượng mạng máy tính
từ mười một thuộc tính tren - - << Ăc cSS S111 11331 5 se 30
4.9 Để xuất kỹ thuật phân loại sớm dựa trên thống kê thông tỉn 32CHƯƠNG 5: DANH GIA KET QUÁ NGHIÊN CỨU 5 - +: 35
5.7 ru - 40"/ldcố ao 42
5.9 Kết SIIINsLi 82049201177 42
CHUONG 6: KET LUẬN -:ScSc St ca S SE SE TT rererererees 43
TÀI LIEU THAM KHẢO :- test ESEESESESEEESEEEEEEEeEeEeeeErererererees 44PHAN LY LICH TRÍCH NGANG - 2 2< SE SE test SeEeEeEeEeEereererererees 46
Trang 9CHUONG 1: GIỚI THIỆU DE TÀI
1.1 Giới thiệu
Lưu lượng nên (Background Traffic) là lưu lượng mang máy tính đượctạo ra bởi các ứng dụng chạy âm thâm bên dưới hệ thông sinh ra mà người sửdụng không hé hay biết Lưu lượng nổi (Foreground Traffic) là lưu lượngmang máy tính được sinh ra khi có sự tương tác trực tiếp của người dùng lênhệ thống thông qua các tiện ích ứng dụng Ví dụ: hệ điều hành tự cập nhật,ứng dụng tự trao đối với máy chủ dé trao đổi thông tin, sinh ra lưu lượngnên; người dùng sử dụng các công cụ trực tuyến để đọc tin tức, tra cứu điểmthi, sẽ sinh ra lưu lượng ni
Lĩnh vực tối ưu hóa hệ thong, điều khién truy xuất, an ninh mang, nhậndạng tấn công DDOS, rất cần kết quả của sự phân loại sớm lưu lượngmang máy tính từ những gói tin (packet) dau tiên Trong khi lưu lượng nên vàlưu lượng nổi đang được được sinh ra và chưa kết thúc Từ những gói tin đầutiên, phân loại sớm được lưu lượng mạng máy tính này là lưu lượng nên haylưu lượng nỗi sẽ tạo ra bước ngoặc lớn trong việc nâng cao chất lượng phụcvụ, hỗ trợ cho hệ thống an ninh mạng, bảo mật dữ liệu cũng như tính riêng tưcủa người dùng Va đây chính là động lực cũng như là mục tiêu mà dé tàinày tiếp cận dé nghiên cứu Nhằm phát hiện sớm dé phân loại được luéng dữliệu được tạo ra là do người dùng tạo nên hay do các ứng dụng phần mềmchạy bên dưới hệ thông tạo thành
12 Ý nghĩa khoa học và tính thực tiễn của vấn để
* Ý nghĩa khoa họcTrải qua nhiều thập niên, nhiều công trình nghiên cứu về phân loại lưulượng mạng máy tính là lưu lượng nên hay lưu lượng nỗi lần lượt ra đời Vàmỗi công trình déu giải quyết được vẫn dé mà thực tế đặt ra Nhưng bên cạnhnhững thành tựu thì cũng sinh ra nhiều vẫn đề cần giải quyết Và phân loạisớm lưu lượng mang máy tính là lưu lượng nên hay lưu lượng nỗi từ nhữnggói tin dau tiên chính là van dé được sinh ra mà chưa có công trình nao tậptrung nghiên cứu Do đó, mục tiêu của đề tài là tập trung nghiên cứu phân loạisớm lưu lượng mang máy tính được sinh ra là lưu lượng nên hay lưu lượng
noi từ những gói tin dau tiên.
Trang 10* Ý nghĩa thực tiễnViệc phân loại sớm lưu lượng mạng máy tính là lưu lượng nên hay lưulượng noi từ những gói tin đầu tiên có ý nghĩa tích cực trong lĩnh vực mangmáy tính Kết quả mà công trình này tạo ra sẽ được dùng trực tiếp để nâng caochất lượng phục vụ, hỗ trợ an ninh mạng .
Ví dụ: Khi kiểm tra kết quả điểm thi đại học trực tuyến, sẽ tạo ra nhiều
lưu lượng nổi Dé nâng cao chất lượng phục vu, trong hệ thống cần tạm dừngmột số ứng dụng đang tạo ra lưu lượng nên Dé ưu tiên tài nguyên máy tính
phục vụ cho lưu lượng nỗi đang được tạo ra khi tra điểm.1.3 Định nghĩa van dé nghiên cứu
Lưu lượng nổi [1] (Foreground Traffic - FG) là lưu lượng do con ngườitạo ra trong quá trình sử dụng trực tiếp các thiết bị điện toán Ví dụ: sử dụngcông cu facebook để trao đổi thông tin với nhau, nhắn tin qua thư điện tử,duyệt các trang (websites) dé đọc tin tức, Lưu lượng nên [1] (BackgroundTraffic - BG) là lưu lượng do các ứng dụng chạy ngầm bên dưới hệ thông tạora Ví dụ: hệ điều hành cập nhật, phần mềm tự kết nối với máy chủ dé nangcấp phiên bản mới, các ứng dụng chạy ngầm bên dưới hệ thống tự trao đổi
thông tin với nhau,
Đề phân loại được lưu lượng nồi và lưu lượng nên, đã có rất nhiều côngtrình nghiên cứu để giải quyết vẫn đề này với nhiều cách làm khác nhau Sốlưu lượng nên được sinh ra thường nhiều hơn số lưu lượng nổi được sinh ra.Do số lưu lượng nên thường nhiều hơn nên dễ dẫn đến tình trạng “thắt cỗchai” trên mạng máy tính Bằng đánh giá hiệu quả của lưu lượng nên [2].Nghiên cứu này đã đánh giá được hiệu xuất lưu lượng nên thông qua môphỏng và phân tích tác động bởi các thông số từ mạng trên lượng lớn thờigian Và công trình này đã đề xuất được hướng đi mới nhằm giảm bớt đượctình trạng “thắt cô chai” do lưu lượng nên tạo ra Nhung [2] vẫn chưa giảiquyết được tài nguyên hệ thống bị chiếm dụng Và [3] với cách bật tắt mànhình để tối ưu hóa tài nguyên và phân biệt phần trăm gói tin (packet) thuộclưu lượng nên hay lưu lượng nỗi khi tắt hoặc mở màn hình đã giảm được năng
lượng tiêu thụ khi dựa trên phan tích lưu lượng điện thoại thông minh từ hai
mươi người sử dụng trong hơn năm tháng Từ số công (port number) và địachỉ (IP) rất khó để phân loại được lưu lượng mạng Bằng cách sử dụng mô
Trang 11nhiên của lưu lượng nỗi đã giảm được đáng ké chi phí tính toán Khi chia sẻtập tin theo mô hình mạng đồng dang (peer-to-peer network) sé tạo ra lượnglớn lưu lượng cạnh tranh với nhau Và [5] đã phân tích sự trì hoãn để giảiquyết vẫn đề này Công cụ học máy và xác suất thống kê cũng được đưa vàotrong lĩnh vực phân loại mang máy tính [6], [7] nhằm giải quyết cho nhữngvấn đề phân loại mạng khi phải phân tích trên lượng lớn đữ liệu thu thập đượctrong quá trình thực nghiệm Cũng có lưu lượng mạng rất “bất thường”.Chúng luôn thay đôi theo thời gian gây ra khó khăn cho những phương pháptrước khi dùng dé phân tích Và [8] đã phát hiện ra các lưu lượng bất thường
khi phân tích về “thời gian ngăn” Phát hiện ra sự “va chạm” của lưu lượng
nên trên lưu lượng nỗi [9] là phát hiện mới trong vấn đề phân tích lưu lượngmạng Khi dữ liệu dùng cho phân tích quá nhỏ thì kết quả phân tích thường bịsai lệch Do đó phân tích lưu lượng mang sử dụng thông tin tương đồng [10]ra đời đã giả quyết được một phân của bài toán này Hiện nay, trong lĩnh vựcphân loại lưu lượng mang, thống kê [11] và khai phá dữ liệu dé phân loại [12]đã được tích cực sử dụng như là công cụ hỗ trợ phân tích tốt nhất Nhưng nhìnchung, những phương pháp trên đều có chi phí khá cao từ O(nlogn) trở lên
Trước yêu câu đòi hỏi quá lớn cho vấn đề phân loại lưu lượng nên vàlưu lượng noi Nhiều phương pháp và cách giải mới ra đời Và cho tới hiệnnay, cách làm phân loại lưu lượng nên và lưu lượng nổi dựa trên phân tíchchu ki [1] của phiên giao dịch (TCP Session) là cách làm hiệu quả nhất vớichi phí thấp nhất Độ phức tap của cách làm nay [1] là O(n), và [1] hiệu quảhơn hắn những phương pháp ở trên Phương pháp [1] ra đời với độ phức tapO(n) đã đáp ứng được những nguyện vọng cũng như yêu câu hiện nay là phântích lưu lượng mạng với chỉ phí thấp nhất nhưng hiệu quả là cao nhất
Nhưng hiện tại, những công trình trên cần nhiều gói tin hoặc nhiều giaodich mạng đã hoàn thành dé phân tích là lưu lượng nổi hay lưu lượng nên Vàhiện giờ chưa có bất kì công trình nghiên cứu nào “phân tích sớm lưu lượngmạng là lưu lượng nên hay lưu lượng nổi” từ những gói tin (packet) đâu tiên.Và đây chính là động lực cũng như mục tiêu mà đề tài này nghiên cứu nhằmgiải quyết van dé đang được đặt ra này
Trang 121.4 Những khó khăn trong tiếp cận van dé phân loại sớm lưu lượng nênhay liu lượng nổi từ những gói tin đầu tiên và cách giải quyết
Đề phân loại sớm lưu lượng nên và lưu lượng nổi từ những gói tin đầutiên Chúng ta cần phải rút trích được những thuộc tính tiềm ân đặc trưng màchỉ lưu lượng nên hoặc lưu lượng nổi mới có Từ những thuộc tính tiềm ấnđặc trưng này, chúng sẽ được dùng như là những điều kiện tiên quyết cho việcchứng minh phân loại lưu lượng mạng là lưu lượng nên hay lưu lượng lượngnổi
Ví dụ: “thuộc tính tiềm ấn đặc trưng chu kì” chỉ lưu lượng nền mới cócòn lưu lượng nỗi thì không Bằng sự phát hiện ra “thuộc tính tiềm ân đặctrưng chu kì”, công trình nghiên cứu [1] đã dùng thuộc tính tiềm ấn đặc trưngnày để chứng minh trong quá trình nghiên cứu phân loại lưu lượng nền và lưulượng nỗi
Để rút trích được thuộc tính tiềm an đặc trưng mà chỉ lưu lượng nênhoặc lưu lượng nôi mới có ra phân tích Chúng ta can phải tiễn hành nhiều lầnthực nghiệm trên dữ liệu that, quan sát, suy luận, đặt câu hỏi, dùng biểu đồ đểđánh giá, để rút trích ra được những thuộc tính tiềm ân đặc trưng ở “dạngthô” nhằm phục vụ cho bước đầu tiên của công trình nghiên cứu này là rúttrích các thuộc tính tiềm an đặc trưng mà chỉ lưu lượng nên hoặc lưu lượngnổi mới có
Bước chứng minh thuộc tính tiềm an đặc trưng mà chỉ riêng lưu lượngnên hoặc lưu lượng nổi mới có là bước khó khăn và quan trọng nhất Cân phảidựa trên ban chất của các giao thức ở tang vận chuyền (transport layer), chúngta sẽ đặt ra thật nhiều “câu hỏi liên quan” đến các thuộc tính tiềm ấn đặc
trưng Vi dụ: “câu hỏi liên quan” là khoảng cách trung bình của các gói tin,
thông lượng trung bình, thời gian trung bình từ khi gửi gói tin đi cho đến khi
nhận lại được xác nhận,
Từ các số liệu thu thập được khi giải các “câu hỏi liên quan” này Tùyloại số liệu mà chúng ta dùng biểu đô tương ứng dé phân tích đánh giá, phântích phục vụ cho việc chứng minh thuộc tính tiềm ân đặc trưng này do lưulượng nên hay lưu lượng nỗi tao ra Sau đó chứng minh tiếp cần bao nhiêuthuộc tính tiềm an đặc trưng như vậy cho việc phục vụ chứng minh phân loạirõ lưu lượng nên hay lưu lượng nỗi Việc thu thập và chứng minh sẽ lặp lạicho đến khi tiệm cận đến yêu cầu đặt ra thì dừng
Trang 13Khi dừng, các kết quả này lại được đưa lên biéu đồ tương ứng dé đánhgiá một lần nữa Nếu cũng tiệm cận với yêu cau kết quả phân loại sớm đặt rasẽ chuyên tới bước tiếp theo đánh giá lại tông thé toàn bộ kết quả phân loạiđạt được băng phương pháp đánh giá: “sử dụng tiêu chí chính xác cao (HighPrecision - P), gọi về cao (High Recall — R) và hàm trung bình điều hòa F-
Score dé đánh giá kêt quả của toàn bộ công trình nghiên cứu”.
Trang 14CHƯƠNG2: MỤC TIỂU, GIỚI HẠN VÀ ĐÓI TƯỢNG
NGHIÊN CỨU
2.1 Định nghĩa
- Lưu lượng mang (network traffic): có thé được xem như là quá trìnhtruyền thông tin trên mạng máy tính
- Phiên giao dịch mang (TCP Session - Transmission Control Protocol
Session): là một quá trình làm việc gồm ba giai đoạn.+ Giai đoạn 1: thiết lập kết nối còn gọi là bắt tay ba bước, trong
tiến trình thiết lập kết nối thì máy khách (client process) luôn chủ
động (active) xin mở một giao dịch mạng (TCP Session); cònmáy chủ (server process) luôn ở trạng thái bị động (passive) va
lắng nghe (listening) để sẵn sang cho phép mở một giao dichmang (TCP Session) khi có yêu cầu xin mở
+ Giai đoạn 2: trao đôi dữ liệu giữa hai bên diễn ra với nguyên tacđã gửi dữ liệu thì phải nhận lại được xác nhận vì đường truyền
vat li (physical network) không bao dam cho việc gửi dữ liệuluôn đúng và đủ.
+ Giai đoạn 3: kết thúc kết nối với nguyên tắc bên gửi dữ liệu cuốicùng sẽ gửi gói tin kết thúc kết nối (cờ Fin và ACK của đoạn tintcp trong gói tin sẽ được thiết lập là 1) trước; bên nhận dữ liệucudi cùng cũng sẽ lần lượt gửi xác nhận và gửi gói tin kết thúckết nối; để kết thúc một giao dịch mạng (TCP Session), thì bênsửi dữ liệu cuối cùng sẽ gửi trả lại một xác nhận hoàn tất kết thúc
một phiên giao dịch mạng.
- Trong quá trình thiết lập kết nối ở giai đoạn I, hệ điều hành
(operating system - OS) cua máy khách (client process) và máy chu
(server process) cũng sẽ thỏa thuận và thiết lập luôn kích thước cửasố (windows zise) trong mỗi lần trao đối dữ liệu vi mỗi lần gửi chỉgửi một gói tin (packet) thì không hiệu quả Kích thước cửa số(windows size) là đơn vị quan trọng vì giúp điều phối kích thước khigửi và nhận; cũng như khi tắc nghẽn mạng hay tốc độ truyền tin
nhanh chậm.
Trang 15- Gói tin (packet) là đơn vị dữ liệu ở tầng mạng (network player) theo
mô hình tham khảo OSI (Open Systems Interconnection ReferenceModel).
- Thuộc tính tiềm an đặc trưng: là những thuộc tính không nhìn thay
hay quan sát được mà phải rút trích ra dựa trên sự nhận dạng đặc
trưng của từng thực thé đang xét
2.2 Mục tiêu
Hệ thống phân loại sớm lưu lượng mạng máy tính sẽ lẫy những gói tindau tiên của một phiên giao dịch mang (TCP Session), hệ thống phân tích sẽ
rút trích ra các thuộc tính tiêm ân nhăm làm “nguyên liệu” cho việc xây dựng
mô hình phân tích lưu lượng mạng Kết quả đâu ra của mô hình phân tích lưulượng mang là xác định rõ: “phiên giao dich mang này là lưu lượng nền hay
lưu lượng nôi?”
Ví dụ: Khi người dùng đang truy cập vào một trang web bất kì thì lưulượng nỗi đang được tạo ra Với những gói tin đầu tiên khi lưu lượng nổi dangđược tạo ra và chưa kết thúc phiên giao dịch mạng hệ thống phân tích lưulượng mạng sẽ xác định được rõ đây là lưu lượng nồi hay lưu lượng nên
Laptop-PT System
Routers Server-PT
Server abc Destination
Hình 1: Hệ thống phân tích lưu lượng mạng
Trang 16Khi người dùng sử dụng các thiết bị điện toán như: laptop, máy tính cánhân, điện thoại di động, dé lướt web, trao đổi thông tin với nhau, sử dụngtiện ích dé làm việc, thì ngay lập túc hàng loạt lưu lượng nổi dang được taora Chúng đến va đi liên tục thông qua những gói tin Các lưu lượng nổi luônmãi được sinh ra trong quá trình người dùng tương tác với thiết bi.
Nhưng bên cạnh đó, hàng loạt các ứng dụng khác cũng dang âm thầmchạy ngầm bên dưới hệ thống Các ứng dụng này sẽ tự kiểm tra phiên bản mớivới máy chủ hoặc trao đôi thông tin hoặc gửi thông tin của người dùng vềmáy chủ mà người dùng không bao giờ biết được Chúng cứ mãi âm thầm màchạy Và chúng cũng đang tạo ra hàng loạt lưu lượng nên
Hệ thông phân tích lưu lượng mạng ở hình 1 sẽ dựa vào các thuộc tínhđặc trưng nhìn thấy và quan sát được của giao dịch mạng (TCP Session) đểtính toán và rút trích ra các thuộc tính tiềm an đặc trưng mà chỉ lưu lượng nỗihay lưu lượng nên mới có Từ những thuộc tính tiềm an đặc trưng này, hệthống sẽ phân tích và phân loại sớm lưu lượng này là lưu lượng nổi hay lưu
lượng nên.
2.3 Giới hạn
Đề tài không đi theo hướng tôi ưu hóa hay khắc phục những nhượcđiểm của những công trình nghiên cứu trước Lí do, vì những công trình nàycần lượng lớn gói tin (packet) hoặc nhiều giao dịch mạng (TCP Session) đểkhai phá tri thức nhằm phục vụ cho mục tiêu phân loại Trong khi đó, mụctiêu của để tài này là từ những gói tin đầu tiên khi giao dịch mạng (TCPSession) vừa hoặc đang diễn ra là phải phân loại sớm lưu lượng này là lưulượng nỗi hay lưu lượng nên
Tầng vận chuyên (transport layer) có nhiều giao thức hoạt động Do bịgiới hạn vé thời gian nên dé tài chi tập trung nghiên cứu giao thức điều khiếnvận chuyển (TCP - Transmission Control Protocol) ở tang vận chuyển
(Transport Layer) theo mô hình tham khảo OSI (Open Systems
Interconnection Reference Model) nhằm phục vụ cho quá trình nghiên cứuphân loại sớm lưu lượng mạng là lưu lượng nên hay lưu lượng nổi từ nhữngthuộc tinh đặc tiềm an đặc trưng được khai phá rút trích ra
Trang 172.4 Đối trợng nghiên cứu
Khai phá, rút trích ra những thuộc tính tiềm an đặc trưng mà chỉ lưulượng nên hoặc lưu lượng nối mới có Chứng minh, giải thích, lý luận vềnhững thuộc tính đặc trưng tiềm an này Những thuộc tính tiềm an đặc trưngnày sẽ được sử dụng để xây dựng mô hình “phân tích lưu lượng mạngbackground và foreground” nhằm phục vụ cho mục tiêu là phát hiện sớm vàphân loại lưu lượng nên hay lưu lượng nỗi từ những gói tin (packet) đầu tiên
của giao dịch mạng (TCP Session).
Sau khi rút trích thành công và chứng minh các thuộc tính tiềm an đặc
trưng nay Mô hình phan tích lưu lượng mang sẽ được tập trung xây dựngnhăm phân loại sớm lưu lượng nên và lưu lượng nôi.
2.5 Kết qua đạt được
Những thuộc tính tiềm an đặc trưng đã được chứng minh và lý luận màchỉ lưu lượng nên hoặc lưu lượng nồi trội hơn (strong exceeded rate) sẽ đượcxem như là chất liệu để xây dựng mô hình “phân tích lưu lượng mang
background và foreground”.
Trang 18CHUONG 3: PHƯƠNG PHÁP NGHIÊN CỨU
3.1 Phương pháp thu thập dit liệu
Sử dụng phần mềm mã nguồn mở Wireshark phiên bản 2.2.2 để thuthập các gói tin (packet) trao đối diễn ra giữa các giao thức thuộc cùng lớp
mạng tương ứng của bộ giao thức TCP/IP Wrishark không tự sao chép các
gói tin mà chỉ hiến thị thông tin về các gói tin khi công cụ packet sniffer trảvề,
Hình 2 mô tả cau trúc hút gói tin (hay sao chép gói tin) (Packet SnifferStructure) ma công cu packet sniffer trả về
packet sniffer
ee eee
= '
' H |
1 packet Ị SH application (eg., www
analyzer “em browser, ftp client)
Revie case aes aaa |
to/from network to/from network
Hình 2: Cau trúc hút gói tin
(Lab 1: Packet Sniffing and Wireshark.pdf of WAYNE STATE UNI p.4)
Công cu hút gói tin (packet sniffer) là ứng dụng được tích hop sẵntrong wireshark Công cụ hút gói tin (packet sniffer) có 2 thành phân chính:
+ Sao chép gói tin (packet capture): sẽ thu thập toàn bộ các khung
(frame) di qua công giao tiếp mang (Network Interface Card - NIC).+ Phan tích gói tin (packet analysis): “hiểu rõ” cấu trúc khung dữ liệu(frame datagram) dé lay ra gói tin dữ liệu (packet datagram), từ góitin dữ liệu (packet datagram) sẽ lay ra phân đoạn dữ liệu (segmentdatagram), cuối cùng thi từ phân đoạn di liệu (segment datagram)sẽ lấy ra được dữ liệu (data) của người dùng
Đề phục vu cho quá trình phân tích gói tin Công cụ wireshark phiênbản 2.2.2 hỗ trợ chuyển đổi sang các định dạng csv, xml, ps, c, txt Trong
khuôn khô của công trình nghiên cứu này, định dạng xml và csv sẽ được sử
Trang 19dụng trong quá trinh phân tích gói tin (packet) Vì ưu điểm là hai định dạng.xml và csv chứa thông tin chỉ tiết về packet Phục vụ tốt cho quá trình khaiphá tri thức dé rút trích ra thuộc tính tiềm an đặc trưng cũng như phân tích cácđoạn tin ở tang vận chuyên (tcp segment) chứa trong gói tin (packet); nhamtìm ra các thuộc tính tiềm ân đặc trưng của chỉ riêng lưu lượng nên(background traffic) hoặc lưu lượng nồi (foreground traffic) mới có.
Dẫn chứng: Trong công trình nghiên cứu [1] về phân loại lưu lượng nền(Background Traffic) và lưu lượng nổi (Foreground Traffic) thì thuộc tínhtiềm ân đặc trưng “chu ki” (periodicity) chính là thuộc tính tiềm an đặc trưngmà chỉ lưu lượng nên (Background Traffic) mới có, còn lưu lượng nổi(Foreground Traffic) thì không có Nên bản chat của công trình nghiên cứunày chính là giải bài toán đặt ra bằng cách: chứng mình rõ được tính chu kìcủa lưu lượng nên (Background Traffic) dựa trên thuộc tính tiềm an đặc trưng
chu ki.
Với kết quả thu được là những thuộc tính tiềm an đặc trưng được rúttrích ra trong quá trình khai phá tri thức Những kết qua này sẽ được dùng như
là vật liệu cho quá trình xây dựng mô hình “phần tích lưu lượng mạng
Background va Foreground” dé phân loại lưu lượng nào là lưu lượng nên, lưulượng nào là lưu lượng nỗi
3.2 Cách tao ra lựH lượng nên (Background Traffic) và lưu lượng nổi
(Foreground Traffic) của một giao dich mang (TCP Session)
- Tao ra lưu lượng nên: dé các ứng dụng chạy ngầm bên dưới hệthống tự động chạy Vi dụ: facebook (smartphone) cập nhật phiênbản mới, BkvPlus trao đổi tự động với máy chủ, Firefox cập nhậtphiên bản mới nhất,
- Tạo ra lưu lượng noi: sử dụng các tiện tích phần mềm Ví du: duyệt
web, mở ứng dụng facebook, mở YouTube xem phim,
3.3 Thực nghiệm
- Nghiên cứu cách làm và kết quả của các công trình nghiên cứutrước đây dé hiểu rõ nhu cau, quá trình hình thành và phát triển củavấn đề phân loại lưu lượng mạng là lưu lượng nên (BackgroundTraffic) hay lưu lượng nỗi (Foreground Traffic)
Trang 20- Đặt ra câu hỏi liên quan va tự xây dựng công cụ nhỏ dé hỗ trợ quátrình nghiên cứu, khai phá, rút trích ra các thuộc tính tiềm ấn đặctrưng của lưu lượng nên và lưu lượng nôi Nhằm phục vụ và hỗ trợ
cho quá trình xây dựng mô hình “Phân loại lưu lượng mạngBackground và Foreground”.
Trang 21CHUONG 4: PHAN LOẠI SỚM LƯU LƯỢNG MẠNG MAYTÍNH TỪ NHỮNG GÓI TIN DAU TIEN
4.1 Cấu trúc giao dich mang (Transmission Control Protocol Session =
= ACK, data >» ( exchange
Data _~ - ACK, dataexchange [| _
Hình 3 bên trái thé hiện một giao dịch mang có dùng giao thức mã hóa
dữ liệu ở tâng vận chuyên, còn bên phải thê hiện một giao dịch mạng chỉ cơbản trao đôi dữ liệu.
Trang 224.2 Phương pháp thực hiện:
'
Hình 4: Phương pháp phân loại sớm
4.3 Lưu do phân loại sớm
Hình 5: Lưu đồ phân loại sớm
4.4 Các thuộc tính rút trích được qua thông kê thông tin từ những giao
dich mang (Transmission Control Protocol Session = TCP Session)
Chia kích thước tối da của gói tin (maximum segment size) lam nămphan: rất thấp, thấp, trung bình, cao, rất cao Kích thước của khối dữ liệudùng cho trao đối khóa dé mã hóa dữ liệu và trao đổi dữ liệu tùy theo như thé
nào mà sẽ được gan một trong năm mức này.
B là việt tat của lưu lượng nên và F là việt tắt của lưu lượng nôi.
Trang 23hơn nên sẽ cộng thêm F cho giao dich mạng đang xét.
TCP Session
Hình 7: Kiểm tra kích thướcHình 7 chỉ ra rang, nếu giao dịch mạng đang xét cớ chứa hai khối controng trong giao thức bảo mật ở tầng giao vận là rất cao và rất thấp thì cộng Bcho giao dịch mạng Nhưng kết quả thực nghiệm thì ngược lại nên sẽ công Fcho giao dịch mạng đang xét nêu có chưa thuộc tính này