Một số phát hiện mới trong đo lường và phân tích lưu lượng internet mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng

162 40 0
Một số phát hiện mới trong đo lường và phân tích lưu lượng internet mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN TÀI HƯNG MỘT SỐ PHÁT HIỆN MỚI TRONG ĐO LƯỜNG VÀ PHÂN TÍCH LƯU LƯỢNG INTERNET MƠ HÌNH VÀ CÁC THUỘC TÍNH PHÂN LOẠI LƯU LƯỢNG THEO ỨNG DỤNG LUẬN ÁN TIẾN SĨ KỸ THUẬT HÀ NỘI - 2007 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN TÀI HƯNG MỘT SỐ PHÁT HIỆN MỚI TRONG ĐO LƯỜNG VÀ PHÂN TÍCH LƯU LƯỢNG INTERNET MƠ HÌNH VÀ CÁC THUỘC TÍNH PHÂN LOẠI LƯU LƯỢNG THEO ỨNG DỤNG Chuyên nghành: Mã số: Kỹ thuật viễn thông 62.52.70.05 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS PHẠM MINH HÀ Hà Nội - 2007 i Lời cam đoan Tôi xin cam đoan luận án công trình nghiên cứu thân Các kết nghiên cứu luận án trung thực chưa cơng bố cơng trình khác Tác giả luận án NGUYỄN TÀI HƯNG ii Mục lục Lời cam đoan i Mục lục ii Danh mục chữ viết tắt v Danh mục từ khoá ký hiệu .vi Danh mục hình vẽ đồ thị vii Danh mục bảng .ix MỞ ĐẦU .1 Tính cấp thiết đề tài Đối tượng, mục tiêu phạm vi nghiên cứu luận án .2 Phương pháp nghiên cứu luận án Ý nghĩa khoa học thực tiễn luận án 5 Bố cục luận án Ch−¬ng TỔNG QUAN VỀ PHÂN TÍCH VÀ NHẬN DẠNG LUỒNG LƯU LƯỢNG INTERNET 1.1 Nhu cầu phân tích nhận dạng luồng lưu lượng ứng dụng Internet 1.2 Các nghiên cứu liên quan 10 1.3 Kết luận vấn đề nghiên cứu luận án 15 Ch−¬ng ĐO LƯỜNG VÀ LẤY MẪU LƯU LƯỢNG INTERNET 17 2.1 Giới thiệu chung 17 2.2 Đo lường thụ động .19 2.2.1 Khảo sát phương pháp ứng dụng đo lường thụ động 21 2.2.1.1 Tiến trình bắt giữ gói lưu lượng .21 2.2.1.2 Tiến trình phân tích thơ liệu gói bắt 22 2.2.1.3 Đo lường mạng đường trục 24 2.2.1.4 Đo lường mạng nội .25 2.2.1.5 Đo lường mạng quay số (Dial-up ADSL) 26 2.2.2 Các phương pháp nén liệu đo .27 2.2.3 Vấn đề đồng thời gian .28 2.3 Kỹ thuật lấy mẫu lưu lượng mạng Internet 29 2.3.1 Thuật toán lấy mẫu 30 2.3.1.1 Lấy mẫu hệ thống 30 2.3.1.2 Lấy mẫu ngẫu nhiên .31 2.3.1.3 Lấy mẫu phân tầng 32 2.3.2 Tần số lấy mẫu khoảng lấy mẫu 32 2.4 Phần mềm BKCAP 33 2.4.1 Yêu cầu thiết kế .33 2.4.2 Thiết kế hệ thống .35 2.4.3 Đánh giá hiệu suất hoạt động BKCAP 39 2.5 Tổ chức sở liệu đo 40 2.5.1 Các tệp liệu lưu lượng sử dụng luận án 40 2.5.2 Tỉ lệ phần trăm số lượng luồng theo ứng dụng .44 2.6 Kết luận .45 Ch−¬ng PHÂN TÍCH LUỒNG LƯU LƯỢNG IP TRÊN INTERNET .47 3.1 Khái niệm luồng lưu lượng Internet .48 iii 3.1.1 Định nghĩa 48 3.1.2 Cơ chế kết thúc luồng 49 3.1.3 Các thuộc tính luồng 50 3.2 Phân tích luồng lưu lượng IP Internet 51 3.2.1 Cơ sở toán học thống kê 51 3.2.1.1 Lý thuyết lưu lượng Internet .51 3.2.1.2 Phương pháp dự đoán phân bố phù hợp với liệu đo thực nghiệm 55 3.2.2 Phân tích phân bố I.A.T luồng lưu lượng IP .60 3.2.2.1 Phân bố I.A.T luồng lưu lượng IP tất ứng dụng 60 3.2.2.2 Phân bố I.A.T luồng lưu lượng IP ứng dụng riêng lẽ 67 3.2.2.3 Mơ hình đánh giá độ dài phần phân bố trình đến luồng lưu lượng IP 73 3.2.3 Phân bố kích thước luồng lưu lượng IP 80 3.2.3.1 Phân bố kích thước luồng theo gói 81 3.2.3.2 Phân bố kích thước luồng theo byte 82 3.2.3.3 Phân bố thời lượng luồng .84 3.3 Kết luận .85 Ch−¬ng MƠ HÌNH TỰ ĐỘNG NHẬN DẠNG VÀ PHÂN LOẠI LUỒNG LƯU LƯỢNG IP TRÊN INTERNET 87 4.1 Giới thiệu chung 87 4.2 Cơ sở lý thuyết học tự động .89 4.2.1 Định nghĩa 89 4.2.2 Thành phần 89 4.2.3 Học có giám sát học khơng có giám sát 90 4.2.4 Lựa chọn thuộc tính 90 4.2.4.1 Tổ chức tìm kiếm .91 4.2.4.2 Mơ hình hốn đổi 92 4.2.4.3 Mơ hình lọc .93 4.2.5 Thuật toán phân loại (thuật toán học) 94 4.2.5.1 Thuật toán C4.5 94 4.2.5.2 Thuật toán Naive Bayes / NBD .96 4.2.5.3 Thuật toán lân cận gần (kNN) 97 4.2.5.4 AdaBoost – kỹ thuật “Boosting” .97 4.3 Xây dựng mơ hình nhận dạng phân loại luồng lưu lượng IP phương pháp học tự động 98 4.3.1 Chuẩn bị liệu 100 4.3.2 Xây dựng tập thuộc tính luồng lưu lượng IP 101 4.3.2.1 Các thuộc tính liên quan đến phân bố tải tin i.a.t gói luồng 105 4.3.2.2 Các thuộc tính xác định tính qui luật tải tin tốc độ truyền 108 4.3.2.3 Các thuộc tính thể tính chất tương tác: dịng lệnh bàn phím 109 4.3.2.4 Các thuộc tính thể phiên làm việc kiểu truyền liệu 111 4.3.2.5 Các thuộc tính thể hướng truyền 112 4.3.3 Lớp lưu lượng 115 4.3.4 Cơng cụ phân tích 117 4.3.5 Phương pháp đánh giá hiệu suất phân loại 119 4.3.6 Lựa chọn thuộc tính .121 iv 4.3.7 Xây dựng mơ hình 127 4.3.8 Mô đánh giá mơ hình .128 4.3.8.1 Tỉ lệ phân loại sai .128 4.3.8.2 Tốc độ phân loại thời gian học 132 4.3.8.3 Sự phụ thuộc vào kích thước liệu mẫu .133 4.3.8.4 Sự phụ thuộc vào thời gian time-out luồng .133 4.3.8.5 Sự phụ thuộc vào kích thước cửa sổ luồng 135 4.4 Kết luận 137 KẾT LUẬN VÀ KIẾN NGHỊ 139 Kết nghiên cứu 139 Hướng phát triển đề tài 140 DANH MỤC CÁC CƠNG TRÌNH 141 TÀI LIỆU THAM KHẢO 142 PHỤ LỤC A - MỘT SỐ CƠNG CỤ THU THẬP VÀ ĐO LƯỜNG LƯU LƯỢNG GĨI HIỆN CÓ 149 v Danh mục chữ viết tắt Từ viết tắt Nghĩa tiếng Việt Một số từ viết tắt quan trọng sử dụng luận án Đơn vị liệu ứng dụng/giao thức ADU/PDU Phần mềm bắt gói phân tích lưu BKCAP lượng Internet Phần mềm phân loại lưu lượng BKCLASS Internet Hàm mật độ xác suất luỹ tích/luỹ CDF/CCDF tích bù Tấn công từ chối dịch vụ DoS Khoảng thời gian thời điểm I.A.T đến Giao thức điều khiển Internet ICMP Nghĩa tiếng Anh Application/Protocol Data Unit Bach Khoa Packet Capturing Bach Khoa Traffic Classification Complement/Cummulative Density Function Denial of Services Inter-arrival time Internet Control Message Protocol Lượng thông tin (của thuộc tính) Information Gain IG kiến trúc đo lường luồng lưu lượng IP Flow Import Export IPFIX IP Bộ công cụ tạo luồng lưu lượng HUT Flow Analysis HFA Giao thức web bảo mật Hyper Text Transfer Protocol, HTTPS Secured Chỉ số kiểm tra mức độ phù hợp Kolmogorov-Smirnov KS Thuật toán học tự động K Nearest Neighbors kNN Bộ thư viện hàm bắt gói Libraries for packet capturing Libpcap Giao thức điều khiển truy nhập Media Access Control MAC thuật toán học tự động Naive Bayes Discretization NBD Nghiên cứu sinh Researcher NCS Giao thức nhận thư điện tử Post Office Protocol v3 POP3 Chất lượng dịch vụ Quality of Services QoS Chỉ số kiểm tra mức độ phù hợp Sum of Square due to Error SSE Chương trình truy nhập từ xa an Secured SHell SSH toàn Chỉ số kiểm tra mức độ phù hợp R-Square R2 Chương trình truy nhập từ xa Remote login rlogin Giao thức gửi thư điện tử Simple Mail Transfer Protocol SMTP Trễ phía phát ->phía thu ->phía phát Round Trip Time RTT Thời gian sống gói mạng Time to live TTL TP, FP, TN, Các số tính độ tin cậy thuật True positive, False Positive, toán học tự động True Negative & False Negative FN vi Danh mục từ khoá ký hiệu Các từ khoá Học tự động Phân loại lưu lượng Phân tích luồng Vệt dài AdaBoost Goodness-of-fit Promiscuous Script Time-out Trace Là chương trình máy tính thuật tốn cho phép học tự động qui luật (phân loại) từ liệu mẫu Là trình nhận dạng lưu lượng ứng dụng nhóm ứng dụng mạng Internet từ phân chia thành nhóm khác Là q trình áp dụng kỹ thuật mơ hình thống kê tốn học để tìm hiểu đặc tính đặc trưng luồng lưu lượng Internet Là đặc tính phân bố có hàm mật độ xác suất có phần kéo dài, hay có nghĩa có lượng biến thiên vơ hạn (suy giảm chậm theo qui luật luỹ thừa) Một kỹ thuật học tự động cho phép tăng độ xác thuật tốn học cách kết hợp nhiều thuật tốn học xác Mức độ phù hợp phân bố liệu thực nghiệm với phân bố giả định Chế độ hoạt động card giao tiếp mạng cho phép chuyển tiếp tất gói lưu thơng mạng Một chương trình cho phép thực mà không cần biên dịch trước sang ngôn ngữ máy Khoảng thời gian tối đa hai gói liên tiếp xem luồng Tệp lưu trữ gói lưu lượng bắt theo khn dạng Tcpdump Các ký hiệu Phần lớn ký hiệu luận văn tuân theo ký hiệu chuẩn Các phương trình đánh số riêng Các ký hiệu hay dùng luận văn liệt kê bảng Bảng số ký hiệu Ký hiệu Ý nghĩa α τ Tham số phân bố vệt dài, thể mức độ kéo dài phần đuôi phân bố Biến thời gian time-out định nghĩa luồng lưu lượng IP Phân bố Dirac Khoảng cách hình học Ơ clit điểm toạ độ (x,y) Hàm mật độ xác suất (pdf) Hàm mật độ xác suất luỹ tích (cdf) Hàm mật độ xác suất luỹ tích thực nghiệm Hàm mật độ xác suất luỹ tích bù (ccdf) Entropy biến ngẫu nhiên X Xác suất biến ngẫu nhiên X lấy giá trị y Xác suất liệu y thuộc lớp cj δ (t ) D(x,y) f(x) F(X) Fe(X) 1-F(X) H(X) P(X=y) P(cj|y) vii Danh mục hình vẽ đồ thị Hình 2-1 Kiến trúc phần mềm bắt phân tích gói lưu lượng Internet BKCAP 37 Hình 2-2 Tổ chức sở liệu luồng lưu lượng đo BKCAP 38 Hình 2-3 Sơ đồ bố trí hệ thống đo thu thập liệu lưu lượng thực tế EVN Telecom 40 Hình 2-4 Định dạng fs 42 Hình 2-5 Phân chia gói lưu lượng thành luồng tương ứng .43 Hình 2-6 Phân bố số lượng luồng ứng dụng, thống kê từ tệp liệu đo DL1 DL7 .45 Hình 3-1 Đồ thị log-log CCDF phân bố vệt dài (theo [34][35]) 54 Hình 3-2 Hàm CDF I.A.T luồng lưu lượng thực nghiệm tệp liệu DL1, với giá trị time-out khác 61 Hình 3-3 Biểu đồ phân bố I.A.T luồng lưu lượng số liệu đo 64 Hình 3-4 Hàm ccdf I.A.T luồng lưu lượng (a) thang tuyến tính (b) thang logarit – DL2, 60s 66 Hình 3-5 Phân bố I.A.T luồng lưu lượng số ứng dụng hai tập liệu DL1 DL4 Tần suất xuất giá trị chuẩn hoá 72 Hình 3-6 Đồ thị Q-Q liệu thực nghiệm ứng dụng imap phân bố giả định, DL1, 60s .75 Hình 3-7 Vùng dài đồ thị log-log CCDF phân bố I.A.T luồng lưu lượng Internet (2, 4, 8, 16, 32, 64, 128, 256 512 mức tổng hợp liệu tương ứng) 78 Hình 3-8 Đồ thị log-log CCDF phân bố kích thước luồng lưu lượng Internet theo gói tệp liệu DL1 DL7 thời gian time-out 60s 81 Hình 3-9 Đồ thị CCDF (thang logarit) phân bố kích thước luồng lưu lượng IP liệu DL1 theo byte 83 Hình 3-10 Đồ thị CDF phân bố kích thước thời lượng luồng lưu lượng IP, xét liệu DL1 thời gian Time-out = 60s 84 Hình 4-1 Mơ hình phân loại lưu lượng Internet mức luồng .88 Hình 4-2 Mơ hình lựa chọn thuộc tính cho q trình phân loại tự động 93 Hình 4-3 Lưu đồ thuật toán phân loại luồng lưu lượng sử dụng kỹ thuật học tự động 100 Hình 4-4 Mơ khái niệm phân bố rời rạc tải tin I.A.T gói thuộc luồng 107 Hình 4-5 Phân bố số lượng luồng cửa sổ quan sát 108 Hình 4-6 Lưu đồ qúa trình học, đánh giá kiểm tra mơ hình phân loại 121 Hình 4-7 Thứ tự 20 thuộc tính quan trọng 126 Hình 4-8 Độ xác thuật toán phân loại khác thực tồn 42 thuộc tính .129 Hình 4-9 Độ xác thuật tốn phân loại khác thực 15 thuộc tính quan trọng 129 Hình 4-10 Độ tin cậy hay tỉ lệ phân loại lớp lưu lượng tương ứng 130 viii Hình 4-11 Độ tin cậy phân loại lớp lưu lượng tính trung bình tất tập liệu thuật toán học 131 Hình 4-12 Độ xác trung bình theo kích thước tập liệu mẫu 133 Hình 4-13 Độ xác phân loại theo thời gian time-out luồng, tệp liệu mẫu DL7 sử dụng 42 thuộc tính luồng 134 Hình 4-14 Biến thiên độ tin cậy theo thời gian time-out luồng, liệu DL7, sử dụng 42 thuộc tính 135 Hình 4-15 Sự phụ thuộc độ xác khoảng chồng lấn cửa sổ 137 Hình 4-16 Sự phụ thuộc độ xác kích thước cửa sổ .137 137 0.9 0.8 Độ xác 0.7 0.6 0.5 0.4 C4.5 kNN 0.3 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.1 0.15 0.05 0 Kho¶ng chång lÊn (s) Hình 4-15 Sự phụ thuộc độ xác khoảng chồng lấn ca s 1.0 0.9 0.8 Độ xác 0.7 0.6 0.5 0.4 0.3 C4.5 0.2 kNN 0.1 60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 KÝch th−íc cưa sỉ (s) Hình 4-16 Sự phụ thuộc độ xác kích thước cửa sổ 4.4 Kết luận Bằng cách áp dụng kỹ thuật học tự động trí tuệ nhân tạo sở tập thuộc tính đặc trưng luồng lưu lượng IP, nghiên cứu sinh xây dựng thành cơng mơ hình tự động nhận dạng phân loại lưu lượng Internet thành nhóm theo kiểu ứng dụng tương ứng với độ xác tin cậy cao đồng thời hiệu suất hoạt động mơ hình phạm vi cho phép áp dụng định tuyến Một số đóng góp quan trọng phần này, bao gồm: 138 • Khảo sát khả áp dụng kỹ thuật học tự động vào trình nhận dạng luồng lưu lượng IP Internet, cho thấy hướng nghiên cứu hữu dụng nhiều ứng dụng khác như: cung cấp chất lượng dịch vụ mạng, phát công mạng, dự báo xu hướng phát triển lưu lượng nhóm ứng dụng, điều khiển truy nhập, vv • Xây dựng thành cơng tập 42 thuộc tính luồng lưu lượng IP đặc trưng cho biểu hoạt động biến thiên lưu lượng mức luồng nhóm ứng dụng khác Trong số có thuộc tính lần xét đến liên quan đến nhiều luồng lưu lượng là: phân_bố_I.A.T_luồng phân_bố_số_luồng Với tập thuộc tính thuật tốn nhận dạng lưu lượng đạt độ xác độ tin cậy cao • Cải tiến thành cơng giải thuật lựa chọn thuộc tính dựa thuật toán lọc CFS, cho phép xếp hạng thuộc tính theo thứ tự quan trọng chúng thuật toán học tự động loại bỏ thuộc tính dư thừa khơng cần thiết, từ tìm 15 thuật tốn quan trọng Mơ hình cho phép cải thiện đáng kể hiệu suất thuật tốn học, giảm thời gian xây dựng mơ hình thời gian phân loại • Xây dựng thành cơng mơ hình cho phép nhận dạng phân loại lưu lượng Internet thành nhóm điển hình bao gồm: lớp lưu lượng tương tác, lớp lưu lượng truyền liệu, lớp lưu lượng thời gian thực, lớp lưu lượng giao dịch, lớp lưu lượng thư điện tử lớp lưu lượng web 139 KẾT LUẬN VÀ KIẾN NGHỊ Kết nghiên cứu Luận án đạt hai mục đích nghiên cứu quan trọng đặt ban đầu là: - Thực nghiên cứu đầy đủ chi tiết đặc tính biểu hoạt động luồng lưu lượng IP Internet làm sở cho việc tính tốn tập thuộc tính đặc trưng chúng - Trên sở tập thuộc tính đặc trưng xây dựng mơ hình cho phép tự động nhận dạng phân chia lưu lượng Internet thành nhóm ứng dụng khác Các đóng góp luận án bao gồm: Đề xuất xây dựng thành cơng mơ hình cho phép nhận dạng phân loại luồng lưu lượng IP thành sáu nhóm khác với độ xác tin cậy cao cách kết hợp kết phân tích luồng với thuật tốn học tự động Cải tiến thành cơng thuật tốn lựa chọn thuộc tính CFS để giảm số thuộc tính luồng từ 42 xuống cịn 15 thuộc tính quan nhất, cho phép giảm đáng kể thời gian học thời gian phân loại độ xác độ tin cậy phân loại gần không đổi Khảo sát cách đầy đủ đặc tính biểu hoạt động luồng lưu lượng IP Internet, với số phát liên quan đến trình đến chúng, bao gồm: (i) luồng lưu lượng IP tổng hợp có phân bố I.A.T tuân theo qui luật hàm mũ, (ii) luồng lưu lượng IP ứng dụng tuân theo ba phân bố hàm Mũ, Weibull Gamma tuỳ theo ứng dụng xét, (iii) có tương quan rõ ràng phân bố I.A.T luồng lưu lượng IP số ứng dụng chiếm tỉ lệ số lượng luồng lớn với phân bố I.A.T luồng lưu lượng IP tổng hợp toàn ứng dụng, có khác độ dài biểu đồ phân bố I.A.T luồng lưu lượng nhóm ứng dụng khác mạng Internet Phát phân chia cách tương đối lưu lượng Internet thành nhóm khác dựa kích thước phần biểu đồ phân bố I.A.T luồng lưu lượng IP ứng dụng Cụ thể chia ứng dụng thành nhóm nhóm ứng dụng có tính tương tác (ssh, imap, vv ), nhóm 140 ứng dụng khơng có tính tương tác (www, dns, vv ), nhóm ứng dụng dịch vụ mạng (ftp, https, vv ) Lần tìm tập 42 thuộc tính mơ tả xác đặc trưng ứng dụng luồng lưu lượng IP mạng Internet Đề xuất thực số cải tiến quan trọng thu thập gói lưu lượng Internet, bao gồm: (i) kỹ thuật cho phép định nghĩa cấu trúc phương pháp giải mã trực tuyến giao thức mạng Internet, (ii) tổ chức liệu đo dạng sở liệu quan hệ, (iii) thực thuật tốn lấy mẫu ngẫu nhiên gói quan sát nhằm giảm lượng liệu đo Các kết thực tế quan trọng, bối cảnh ứng dụng thông tin liên lạc gần thực qua mạng Internet, làm tiền đề cho việc giải thách thức mạng Internet như: cung cấp chất lượng dịch vụ mạng, phát công mạng, điều khiển truy nhập sử dụng tài nguyên mạng, hay đơn giản dự đoán xu hướng phát triển lưu lượng, vv Hướng phát triển đề tài Các kết nghiên cứu luận án mở hướng việc nghiên cứu lưu lượng nói riêng mạng Internet nói chung Một số hướng nghiên cứu có thể, xuất phát từ luận án bao gồm: - Thực thêm mô thực nghiệm để đánh giá thuộc tính luồng liên quan đến nhiều luồng lưu lượng (phân_bố_iat_luồng phân_bố_kích_thước_luồng), đặc biệt vấn đề chọn kích thước cửa sổ Cũng khảo sát khả tìm thêm thuộc tính dạng (tính nhiều luồng lưu lượng) - Khảo sát thêm khả áp dụng thuật toán học tự động khác phức tạp nhằm cải thiện thêm độ xác phân loại - Kiểm tra đánh giá thêm độ xác, độ tin cậy hiệu suất mơ hình nhận dạng phân loại tệp liệu đo khác có chứa nhiều ứng dụng thời gian thực hơn, như: điện thoại truyền hình Internet, trị chơi trực tuyến, dịch vụ mạng ngang hàng - Hoàn thiện phương pháp lấy mẫu lưu lượng thuật toán phức tạp cho phần mềm BKCAP nhằm giảm lượng liệu đo đảm bảo phản ánh chất lưu lượng - Tiếp tục hồn thiện thêm cơng cụ phần mềm BKCAP BKCLASS với giao diện đồ hoạ kiểm tra, đánh giá đầy đủ hiệu suất hoạt động độ tin cậy chúng môi trường phịng thí nghiệm để áp dụng mạng ISP/IXP thực tế Việt Nam 141 DANH MỤC CÁC CƠNG TRÌNH [1] Nguyễn Tài Hưng (1999), “Cơng nghệ mạng kỷ 21: ATM hay Gigabit Ethernet”, Tạp chí bưu viễn thơng, số 11/12, Tr 23-24 [2] Hung Nguyen Chan, Hung Nguyen Tai, Rafa Mompo Gomez, Belen Carro Martinez, Judith Redoli Granados (2001), “Monitoring hybrid fiber coaxial network on the transport layer”, Proceeding of the 6th European Conference on Networks & Optical Communications, NOC 2001, Ipswich UK, published by IOS Press Page 89-98 [3] Nguyễn Tài Hưng, Phạm Minh Hà (2002), “Qui trình lập qui hoạch mạng ATM”, Chun san cơng trình nghiên cứu - triển khai viễn thơng cơng nghệ thơng tin, Tạp chí bưu viễn thơng, Số 7, Tr 57-63 [4] Nguyễn Tài Hưng, Phạm Minh Hà (2005), “Phân tích phân bố thời điểm đến (IAT) luồng lưu lượng IP”, Tạp chí khoa học & cơng nghệ trường đại học kỹ thuật, Số 54, Tr 36-41 [5] Nguyen Tai Hung, Pham Minh Ha (2006), “Applications of Flow Analysis Results to Internet Traffic Classification Process”, Proceeding of HUTKAIST Symposium for Key Technologies, Hanoi University of Technologies, Hanoi, Vietnam, January 12~13, 2006 Page [6] Nguyen Huu Thanh, Ngo Quynh Thu, Nguyen Tai Hung (2006), “Link Estimation and Rate Control for Optimized Video Streaming on Overlay Networks”, Accepted Paper, Proceeding of The First International Conference on Communications and Electronics, HUT-ICCE, October 1011, 2006, Hanoi, Vietnam 142 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Tài Hưng (2005), Đo lường lưu lượng mạng Internet, Báo cáo chuyên đề lần 2, ĐHBK-HN Tiếng Anh [2] A Erramilli and J.L Wang (1994), “Monitoring packet traffic levels”, IEEE Global Telecommunications Conference, GLOBECOM’94 Communications: The Global Bridge, volume 1, pages 274–280 [3] A Erramilli, O Narayan, and W Willinger (1996), “Experimental queueing analysis with long-range dependent packet traffic”, IEEE/ACM Transactions on Networking, 4(2):209–223 [4] P.D.Amer and L.N.Cassel (1989), “Management of sampled real-time network measurements”, Proceedings 14th Conference on Local Computer Networks, pages 62–68 [5] Yonghwan Kim and San Qi Li (1996), “Timescale of interest in traffic measurement for link bandwidth and allocation design”, Proceedings IEEE INFOCOM ’96, Fifteenth Annual Joint Conference of the IEEE [6] M Cinotti, E.D Mese, S Giordano, and F Russo (1994), “Long-range dependence in ethernet traffic offered to interconnected DQDB MANs”, Singapore ICCS ’94, Conference Proceedings, volume 2, pages 479–484 [7] Will E Leland, Murad S Taqqu, Walter Willinger, and Dalinel V Wilson (1994), “On the self-similar nature of ethernet traffic”, IEEE/ACM Transactions on Networking, 2(1) [8] K C Claffy, G C Polyzos, and H W Braun (1993), “Traffic characteristics of the T1 NSFNET backbone”, Proc IEEE INFOCOM’93, 2:885–892 [9] K.C Claffy, H.-W Braun, and G.C Polyzos (1995), “A parameterizable methodology for internet traffic flow profiling”, IEEE Journal on Selected Areas in Communications, pages 1481–1494 [10] Raj Jain and Shawn A Routhier (1996), “Packet trains – measurements and a new model for computer network traffic”, IEEE Journal on Selected Areas in Communications, 4(6):986–995 [11] K Thompson, G.J Miller, and R Wilder (1997), “Wide-area internet traffic patterns and characteristics”, IEEE Network, 11(6):10–23 [12] E Drakopoulos (1992), “Analysis of a local computer network with workstations and x terminals”, 17th Conference on ocal Computer Networks, Proceedings., pages 206–215 143 [13] B.G Barnett and E.T Saulnier (1992), “High level traffic analysis of a LAN segment”, 17th Conference on Local Computer Networks, Proceedings., pages 188– 197 [14] F.Alvarez Del Pino, R.Chow, S.F Hussaini, H.A Latchman, and G.K Madhusudan (1992), “Performance analysis and traffic characterization of an ethernet campus network to identify and develop possible smds applications and scenarios”, IEEE Southeastcon ’92, Proceedings, volume 1, pages 398–391 [15] K Chandra and A.E Eckberg (1997), “Traffic characteristics of on-line services”, Second IEEE Symposium on Computers and Communications, Proceedings, pages 17–21 [16] R Rivest (1992), The MD5 Message-Digest Algorithm, Request for Comments RFC 1321, Internet Engineering Task Force [17] Anonymous (1995), FIPS 180-1, Secure Hash Standard, National Institute of Standards and Technology, US Department of Commerce, Washington, DC, USA [18] V Jacobson (1990), Compressing TCP/IP headers for low-speed serial links, Request for Comments RFC 1144, Internet Engineering Task Force [19] M Degermark, B Nordgren, and S Pink (1999), IP Header Compression, Request for Comments RFC 2507, Internet Engineering Task Force [20] Peter H.Dana (2005), Global positioning system overview, http://www.colorado.edu/geography/gcraft/notes/gps/gps_f.html [21] http://www.ietf.org/html.charters/OLD/rtfm-charter.html [22] C Barakat, P Thiran, G Iannaccone, C Diot, and P Owezarski (2003), “Modeling Internet backbone traffic at the flow level”, IEEE Transactions on Signal Processing (Special Issue on Signal Processing in Networking), 51(8):2111–2124 [23] CAIDA, Cooperative AssocI.A.Tion for Internet Data Analysis, http://www.caida.org [24] K C Claffy, H.-W Braun, and G C Polyzos (1995), “A parameterizable methodology for internet traffic flow profiling”, IEEE JSAC Special Issue on the Global Internet [25] N G Duffield, C Lund, and M Thorup (2002), “Properties and prediction of flow statistics from sampled packet streams”, Proceedings of ACM Sigcomm Internet Measurement Workshop [26] N G Duffield, C Lund, and M Thorup (2003), “Estimating flow distributions from sampled flow statistics”, Proceedings of ACM Sigcomm [27] K Papagiannaki, N Taft, and C Diot (2004), “Impact of flow dynamics on traffic engineering design principles”, Proceedings of IEEE Infocom, Hong Kong, China [28] C Barakat, G Iannaccone, and C Diot (2005), Ranking flows from sampled traffic, Technical report, Intel Research 144 [29] J.W Roberts (1999), Traffic theory and internet traffic management, France Telecom R&D [30] D Rossi, L Muscariello, M Mellia (2004), “On the Properties of TCP Flow Arrival Process”, IEEE International Conference on Communications (ICC 2004), Paris France [31] K Keys, D Moore, R Koga, E Lagache, M Tesch, and k claffy (2001), "The Architecture of CoralReef: an Internet Traffic Monitoring Software Suite," PAM2001 A workshop on Passive and Active Measurements [32] K Claffy, H-W Braun, G Polyzos (1995), "A Parameterizable Methodology for Internet Traffic Flow Profiling", IEEE JSAC, 13(8), pp 1481-1494 [33] Ryu, D Cheney, H Braun (2001), “Internet Flow Characterization: Adaptive Timeout Strategy and Statistical Modeling”, Passive and Active Measurement Workshop, Amsterdam [34] H Drees, L de Haan, and S Resnick (2000), How to make a hill plot, Technical Report No 1215, Cornell University, The Institute of Mathematical Statistics [35] M Crovella and M Taqqu (1999), “Estimating the heavy tail index from scaling properties”, Methodology and Computing in Applied Probability, 1(1):55–79 [36] A Feldmann (2000), Characteristics of TCP connection arrivals, Self-similar network traffic and performance evaluation, K Park and W Willinger (eds.), J Wiley & Sons, 2000 [37] http://www.itl.nist.gov/div898/software/dataplot/ftp/homepage.htm [38] http://www.cs.bu.edu/faculty/crovella/aest.html [39] B Y Choi, J Park, and Z Zhang (2002), Adaptive packet sampling for flow volume measurement, Technical Report TR-02-040, University of Minnesota [40] N G Duffield and C Lund (2003), “Predicting resource usage and estimation accuracy in an IP flow measurement collection infrastructure” Proceedings of ACM Sigcomm Internet Measurement Conference [41] M Roughan, S Sen, O Spatscheck, N Duffield (2004), “Class-of-Service Mapping for QoS: A statistical signature based approach to IP traffic classification“, ACM SIGCOMM Internet Measurement Workshop, Sicily, Italy [42] T Karagiannis, K Papagiannaki, and M Faloutsos (2005), “BLINC: Multilevel Traffic Classification in the Dark”, ACM Sigcomm, Philadelphia, PA [43] Cisco IOS Documentation (2006), Network-Based Application Recognition and Distributed Network-Based Application Recognition, http://www.cisco.com/univercd/cc/td/doc/product/software/ios122/122newft/122t/12 2t8/dtnbarad.htm [44] S Abdulrahman, Network Intrusion Detection Using Flow Characterization, project 145 description, http://www.cs.utk.edu/~abdulrah/project/paper.html [45] T Dunigan, G Ostrouchov (2000), “Flow Characterization for Intrusion Detection”, ORNL/TM-2001/115, http://www.csm.ornl.gov/~dunigan/pubs.html [46] W Lee, S.J Stolfo (2000), "A Framework for Constructing Features and Models for Intrusion Detection Systems”, ACM Transactions on Information and System Security, Vol No [47] V Paxson (1999), “Bro: A System for Detecting Network Intruders in Real-Time”, Computer Networks, 31(23-24), pp 2435-2463 [48] F Hernández-Campos, A B Nobel, F Donelson Smith, K Jeffay (2005), “Understanding Patterns of TCP Connection Usage with Statistical Clustering”, Proc of the Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems (MASCOTS), Atlanta [49] D Zuev, A W Moore (2005), “Internet Traffic Classification Using Bayesian Analysis Techniques”, ACM SIGMETRICS, Banff, Canada [50] Tom M Mitchell (1997), Machine Learning, McGraw-Hill Education (ISE Editions) [51] Ian H Witten, Eibe Frank (2005), Data Mining: Practical Machine Learning Tools and Techniques (Second Edition), Morgan Kaufmann [52] U M Fayyad and K B Irani (1993), "Multi-interval discretisation of continuous valued attributes for classification learning", Proceedings of the Thirteenth International Join Conference on Artificial Intelligence, Morgan Kaufmann [53] W H Press, B P Flannery, S A Teukolsky, and W T Vetterling (1988), Numerical Recipes in C, Cambridge University Press [54] J R Quinlan (1993), C4.5: Programs for machine learning, Los Altos, California: Morgan Kaufmann [55] D Aha, D Kibler (1991), “Instance-based learning algorithms”, Machine Learning, vol 6, pp 37-66 [56] Y Freund, R E Shapire (1996), “Experiments with a new boosting algorithm”, International Conference of Machine Learning, pp 148-156, San Francisco [57] Robert E Schapire and Yoram Singer (1998), “Improved boosting algorithms using confidence-related predictions”, Proceedings of the 17th Annual Conference on Computational learning theroy, page 80-91 [58] WEKA 3.4.4, http://www.cs.waikato.ac.nz/ml/weka/ [59] S Sen, M Roughan, O Spatscheck, N Duffield (2004), “Class-of-Service Mapping for QoS: A statistical signature-based approach to IP traffic classification“, ACM SIGCOMM Internet Measurement Workshop, Sicily, Italy [60] http://www.iana.org/assignments/port-numbers 146 [61] http://www.ietf.org/html.charters/ipfix-charter.html [62] http://www.statsoft.com/textbook/stathome.html [63] Milton, J Susan and Arnold, Jesse C (2003), Introduction to Probability and Statistic, New York: McGraw-Hill [64] R E Walpole, R H Myers, S L Myers, and K Ye (2002), Probability and Statistics for Engineers and Scientists, Prentice Hall, 7th Edition, ISBN 0-13041529-4 [65] M Crovella and M Taqqu (1999), Estimating the heavy tail index from scaling properties, Methodology and Computing in Applied Probability, 1(1):55–79 [66] http://www.itl.nist.gov/div898/handbook/ [67] http://www.itl.nist.gov/div898/handbook/eda/section3/eda35.htm [68] http://net.doit.wisc.edu/data/flow/size/ [69] Jean-Chrysostome Bolot (1993), “Characterizing end-to-end packet delay and loss in the internet”, Journal of High-Speed Networks, 2(3):305–323 [70] B.G Barnett and E.T Saulnier (1992), “High level traffic analysis of a LAN segment”, Proceedings of 17th Conference on Local Computer Networks, pages 188–197 [71] (2005), Internet tools taxonomy, http://www.caida.org/tools/taxonomy [72] K C Claffy, G C Polyzos, and H W Braun (1993), “Traffic characteristics of the T1 NSFNET backbone”, Proc IEEE INFOCOM’93, 2:885–892 [73] (2005), The DAG project, http://dag.cs.waikato.ac.nz [74] M Degermark, B Nordgren, and S Pink (1999), IP Header Compression, Request for Comments RFC 2507, Internet Engineering Task Force [75] Yin Zhang, Lee Breslau, Vern Paxson, and Scott Shenker (2002), On the characteristics and origins of internet flow rates”, IEEE SIGCOMM, Pittsburgh, PA, USA [76] Allen B Downey (1999), “Using pathchar to estimate internet link characteristics” SIGCOMM’99 [77] A Erramilli and J.L Wang (1994), “Monitoring packet traffic levels”, IEEE Global Telecommunications Conference, GLOBECOM ’94, Communications: The Global Bridge, volume 1, pages 274–280 [78] A Feldmann (1999), Continuous online extraction of http traces from packet traces [79] Anja Feldmann, Anna C Gilbert, Polly Huang, and Walter Willinger (1999), “Dynamics of IP traffic: A study of the role of variability and the impact of control”, SIGCOMM’99 147 [80] V Jacobson (1990), Compressing TCP/IP headers for low-speed serial links, Request for Comments RFC 1144, Internet Engineering Task Force [81] Van Jacobson (1997), Pathchar: How to infer the characteristics of internet paths, Lecture at Mathematical Sciences Research Institute [82] Raj Jain and Shawn A Routhier (1996), “Packet trains – measurements and a new model for computer network traffic”, IEEE Journal on Selected Areas in Communications, 4(6):986–995 [83] (1995), Netperf: A network performance benchmark, revision 2.0 [84] Vern Paxson (1997), “End-to-end Internet packet dynamics”, Proceedings of the ACM SIGCOMM Conference : Applications, Technologies, Architectures, and Protocols for Computer Communication (SIGCOMM-97), volume 27,4 of Computer Communication Review, pages 139–154, New York, ACM Press [85] Vern E Paxson (1997), Measurements and Analysis of End-to-End Internet Dynamics Technical report, University of California, Berkeley [86] P.D Amer and L.N Cassel (1989), “Management of sampled real-time network measurements”, Proceedings 14th Conference on Local Computer Networks, 1989, pages 62–68 [87] J Apisdort, K Claffy, K Thompson, and R Wilder (1996), “OC3MON: Flexible, affordable, high performance statistics collection”, Proceedings of the Tenth Systems Administration Conference (LISAX) (USENIX Association: Berkeley, CA), page 97 [88] F Alvarez Del Pino, R Chow, S.F Hussaini, H.A Latchman, and G.K Madhusudan (1992), “Performance analysis and traffic characterization of an ethernet campus network to identify and develop possible smds applications and scenarios”, IEEE Southeastcon ’92, Proceedings, volume 1, pages 398–391 [89] G Almes, S Kalidindi, and M Zekauskas (1999), A One-way Delay Metric for IPPM, Request for Comments RFC 2679, Internet Engineering Task Force [90] M Asawa (1998), “Measuring and analyzing service levels: a scalable passive approach”, Sixth International Workshop on Quality of Service, 1998, (IWQoS 98), pages 3–12 [91] Hans-Werner Braun and K Claffy (1995), “Post-NSFNET statistics collection”, Proceedings of INET’95, pages 577–587 [92] Jill M Boyce and Robert D Gaglianello (1998), “Packet loss effects on MPEG video sent over the public internet”, Proceedings of the sixth ACM international conference on Multimedia, pages 181–190 [93] B.G Barnett and E.T Saulnier (1992), “High level traffic analysis of a LAN segment”, Proceeding of 17th Conference on Local Computer Networks, pages 188– 197 148 [94] S Floyd and V Paxson (2001), “Difficulties in simulating the internet”, IEEE/ACMTransactions on Networking, 9(4):392–403 [95] V S Frost and B Melamed (1994), “Traffic modeling for telecommunications networks”, IEEE Communications Magazine, 32:70–81 [96] D Jagerman, B Melamed and W Willinger (1996), Stochastic modeling of traffic processes, Frontiers in Queueing: Models and Applications in Science and Engineering, CRC Press [97] H Hlavacs, G Kotsis and C Steinkellner (1999), Traffic source modeling, Technical Report No TR-99101, Institute of Applied Computer Science and Information Systems, University of Vienna [98] H J Fowler and W E Leland (1993), “Local area network traffic characteristics, with implications for broadband network congestion management”, IEEE Journal of Selected Areas in Communications, 7(9):1139–1149 [99] W E Leland, W Willinger, M S Taqqu, and D V Wilson (1994), “On the selfsimilar nature of ethernet traffic (extended version)”, IEEE/ACM Transactions on Networking, 2(1):1–15 [100] Kevin Thompson, G Miller, and R Wilder (1997), “Wide area internet traffic patterns and characteristics”, IEEE Network Magazine, 11(6):10–23 [101] WenJia Fang and Larry Peterson (1999), “Inter-AS traffic patterns and their implications”, Proceeding of IEEE GLOBECOM 99, pages 1859–1868, Rio de Janeiro, Brazil [102] Nevil Brownlee and kc claffy (2002), “Understanding internet traffic streams: Dragonflies and tortoises”, IEEE Communications Magazine [103] Shriram Sarvotham, Rudolf Riedi, and Richard Baraniuk (2001), “Connection-level analysis and modeling of network traffic”, Proceeding of ACM SIGCOMM Internet Measurement Workshop 2001, pages 99–104, San Francisco Bay Area 149 PHỤ LỤC A - MỘT SỐ CÔNG CỤ THU THẬP VÀ ĐO LƯỜNG LƯU LƯỢNG GÓI HIỆN CÓ Tên Một số chức Ở mức gói Tcpdump Bắt gói IP/TCP mạng LAN Ethernet Ethereal Bắt hiển thị các gói mạng mạng ethernet, FDDI, PPP, token-ring, X.25, IP over ATM, từ liệu đầu tcpdump (libpcap) ettercap Là công cụ cho phép bắt gói cổng cụ thể mạng LAN chuyển mạch, ngồi cịn số chức giám sát khác cắt kết nối, thu thập password, vv MRTG Là công cụ cho phép giám sát lưu lượng cách thu thập số liệu lưu lượng từ đếm SNMP định tuyến hệ thống mạng hiển thị chúng dạng đồ hoạ thời gian thực Sniffer Là cơng cụ cho phép bắt gói, phân Pro tích hệ số sử dụng băng thông, hệ số sử dụng giao thức, tỉ lệ gói khung lỗi, vv từ mạng LAN Ethernet, ATM POS (Packet Over SDH) Tuy nhiên sản phẩm thương mại SharpPcap Là phần mềm phát triển công nghệ NET cho phép bắt phân tích gói IP dựa thư Nguồn http://www.tcpdump.org/ http://www.ethereal.com/ http://ettercap.sourceforge.net/inde x.php?s=home http://people.ee.ethz.ch/~oetiker/w ebtools/mrtg/ http://www.networkgeneral.com/P roduct_Home.aspx http://www.codeproject.com/cs/int ernet/sharppcap.asp 150 việc WinPcap, ngồi cịn cho phép gửi lưu lượng thăm dò vào mạng Tcptrace, Đây công cụ cho phép xử lý tcpstats, hiển thị thông số thống kê, như: tcpreplay nhãn thời gian, số lượng byte gói gửi nhận, RTT, khả thông, vv từ tệp liệu đo cơng cụ bắt gói khác như: tcpdump, snoop HP Net Metrix Replay Là công cụ cho phép xử lý hiển thị lại thông số quan trọng liệu đo từ tcpdump Endace Đây số cơng cụ phần cứng phát triển phép bắt gói lưu lượng liên kết tốc độ cao OC3/STM-1, OC-12/STM-4, vv Một số đặc điểm quan trọng bao gồm: cho phép bắt 100% số lượng gói vận chuyển liên kết, có độ xác nhãn thời gian cao, tính lọc lưu lượng tiên tiến, hỗ trợ giao thức ATM Tuy nhiên sản phẩm thương mại hoá Libtrace Là thư viện cho việc xử lý tệp liệu đo từ nhiều dạng khác từ thiết bị đo, tệp liệu đo nén, hay DAG Hỗ trợ nhiều định dạng liệu đo giao thức khác ATM, Ethernet, POS, vv Ở mức luồng NetFlow Phân tích giám sát luồng lưu lượng Internet, lấy liệu từ http://www.tcptrace.org/ http://tcpreplay.synfin.net/trac/ http://www.cs.vu.nl/~herbertb/mis c/replay/ http://www.endace.com/ http://research.wand.net.nz/softwar e/libtrace.php http://www.cisco.com\ 151 định tuyến Cisco Cflowd Phân tích giám sát luồng lưu lượng Internet, lấy liệu đầu vào từ định tuyến Cisco CoralReef Phân tích luồng lưu lượng đặc tính tải lưu lượng liên kết ATM (OC3/12) Flowscan thực chất tập công cụ Cflowd, RRD (Round Robin Database) RRDTools cho phép phân tích tạo báo cáo luồng lưu lượng IP, sử dụng liệu xuất từ định tuyến mạng nprobe Cho phép phân tích xử lý liệu luồng lưu lượng theo dạng NetFlow fprobe Là công cụ cho phép thu thập liệu lưu lượng mạng sau xuất chúng thành luồng tương thích với phần mềm NetFlow CUFlow Đây phiên đơn giản công cụ Flowscan http://www.caida.org/tools/measur ement/cflowd/ http://www.caida.org/tools/taxono my/worktaxonomy.xml#coralreef http://www.caida.org/tools/utilities /flowscan/ http://www.ntop.org/nProbe.html http://fprobe.sourceforge.net/ http://www.columbia.edu/acis/net works/advanced/CUFlow/CUFlow html ... DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN TÀI HƯNG MỘT SỐ PHÁT HIỆN MỚI TRONG ĐO LƯỜNG VÀ PHÂN TÍCH LƯU LƯỢNG INTERNET MƠ HÌNH VÀ CÁC THUỘC TÍNH PHÂN LOẠI LƯU LƯỢNG THEO ỨNG DỤNG... mạng Phương pháp phân loại lưu lượng Internet phổ biến áp dụng sử dụng số hiệu cổng ứng dụng TCP UDP phần tiêu đề gói IP Theo IANA [60] ứng dụng mạng Internet gắn số cổng ứng dụng thuộc khoảng giá... để phân loại lưu lượng Internet thành nhóm khác như: nhóm lưu lượng cụm, nhóm lưu lượng sở liệu, nhóm lưu lượng tương tác, 15 nhóm lưu lượng www, vv Với đầu vào tập thuộc tính luồng lưu lượng

Ngày đăng: 27/02/2021, 11:36

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan