Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 144 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
144
Dung lượng
2,25 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG NGUYỄN HÀ DƢƠNG NGHIÊN CỨU ĐỀ XUẤT PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG TRÊN MẠNG INTERNET LUẬN ÁN TIẾN SĨ KỸ THUẬT v24: 11/10 Sửa theo ý kình so sánh tổng thơng lượng đạt luồng để lý giải thời gian bù t/h dài t/h lost packet? 10/4: Sửa theo ý kiến phản biện độc lập (PBĐL) v28, 16/5/2013: Sửa theo ý kiến lần PBĐL 2: Bổ sung thêm phụ lục mô Hà Nội – 2017 HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG NGUYỄN HÀ DƢƠNG NGHIÊN CỨU ĐỀ XUẤT PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG TRÊN MẠNG INTERNET Chuyên ngành: Kỹ thuật viễn thông Mã số: 62.52.02.08 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TSKH HOÀNG ĐĂNG HẢI Hà Nội – 2017 i LỜI CAM ĐOAN Tôi xin cam đoan luận án “Nghiên cứu đề xuất phƣơng pháp phân tích phát lƣu lƣợng bất thƣờng mạng Internet” cơng trình nghiên cứu tôi, trừ kiến thức tham khảo từ tài liệu rõ Các kết quả, số liệu nêu luận án trung thực, phần cơng bố tạp chí khoa học chun ngành, phần cịn lại chưa cơng bố cơng trình khác Tác giả Nguyễn Hà Dƣơng ii LỜI CẢM ƠN Luận án Tiến sĩ kỹ thuật thực Học viện Cơng nghệ Bưu Viễn thơng Tác giả xin chân thành cảm ơn PGS TSKH Hoàng Đăng Hải tận tình hướng dẫn, giúp đỡ tơi suốt q trình nghiên cứu Thầy có nhiều ý kiến quan trọng hướng nghiên cứu để tơi hồn thành luận án Tôi xin chân thành cảm ơn thày Học viện Cơng nghệ Bưu Viễn thông, Khoa Quốc tế Đào tạo Sau đại học, Khoa Viễn thông, Khoa Công nghệ thông tin trình học tập, nghiên cứu Học viện Tơi trân trọng cảm ơn Bộ môn Kỹ thuật hệ thống, Khoa Công nghệ thông tin, Trường Đại học Xây dựng tạo điều kiện thuận lợi, giúp đỡ trình nghiên cứu, hồn thành luận án Tơi xin bày tỏ biết ơn sâu sắc tới bố mẹ tôi, vợ tơi, tới gia đình bạn bè động viên, giúp đỡ, tạo điều kiện thuận lợi cho tơi hồn thành luận án Hà nội, tháng năm Nghiên cứu sinh iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC THUẬT NGỮ VIẾT TẮT vii DANH MỤC CÁC KÝ HIỆU ix DANH MỤC CÁC HÌNH VẼ x DANH MỤC CÁC BẢNG xii MỞ ĐẦU 1 Yêu cầu kiểm soát lưu lượng mạng Internet Lưu lượng mạng bất thường nhu cầu phát a Khái niệm lưu lượng mạng bất thường b Nguyên nhân gây lưu lượng mạng bất thường c Vấn đề phân tích phát lưu lượng mạng bất thường d Phạm vi luận án Những đóng góp luận án Cấu trúc luận án 10 CHƢƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 11 1.1 Thu thập lưu lượng mạng Internet 11 1.1.1 Các đặc tính lưu lượng mạng 11 1.1.2 Các phương pháp thu thập lưu lượng Internet 14 1.1.2.1 Thu thập mức gói tin 14 1.1.2.2 Thu thập mức luồng tin 15 1.2 Tổng quan phương pháp, mơ hình phân tích phát lưu lượng bất thường 15 1.2.1 Nhóm dựa vào thống kê 15 1.2.2 Nhóm dựa vào khai phá liệu học máy 17 1.2.3 Nhóm dựa vào tri thức 20 1.2.4 Tóm tắt ưu nhược điểm nhóm phương pháp 20 1.3 1.3.1 Phương pháp phân tích phát lưu lượng bất thường dựa PCA Cơ sở phương pháp PCA 22 22 iv 1.3.1.1 Dữ liệu tham số miền PCA 22 1.3.1.2 Vấn đề giảm chiều liệu với PCA 26 1.3.1.3 Phân tích phát bất thường với PCA 28 1.3.2 Các phương pháp phân tích phát lưu lượng bất thường điển hình dựa PCA 30 1.3.2.1 Lựa chọn thành phần 30 1.3.2.2 Tính khoảng cách thống kê 36 1.3.2.3 Vấn đề lựa chọn tập liệu mẫu 39 1.4 Nhận xét, đánh giá 40 1.5 Kết luận chương 41 CHƢƠNG PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG dPCA 43 2.1 Mở đầu 2.2 Mơ hình hệ thống phân tích phát lưu lượng bất thường dựa PCA 43 43 2.3 Cơng thức tính khoảng cách thống kê phân tích phát lưu lượng bất thường 44 2.3.1 Khoảng cách Euclidean bình phương khoảng cách Euclidean 45 2.3.2 Bình phương khoảng cách Euclidean có trọng số 45 2.3.3 Khoảng cách Mahalanobis 46 2.3.4 Khoảng cách Manhattan 47 2.3.5 Khoảng cách Minkowski 47 2.4 Công thức Minkowski bổ sung trọng số miền PCA 48 2.4.1 So sánh cách tính khoảng cách phương pháp PCA điển hình trước với cơng thức đề xuất 49 2.4.1.1 Phương pháp phân tích phần dư 49 2.4.1.2 Phương pháp sử dụng thống kê T2 50 2.5 Phương pháp dPCA CT7, CT8] 50 2.5.1 Lựa chọn tham số để tính khoảng cách dPCA 51 2.5.2 Sự phân cấp dPCA 53 2.5.3 Thiết lập mức ngưỡng 55 2.5.4 Quá trình tạo profile phát bất thường dPCA 56 2.6 Thử nghiệm, đánh giá kết 60 v 2.6.1 Các kiện thơng số đánh giá độ xác 60 2.6.2 Đồ thị ROC 61 2.6.3 Lựa chọn tập liệu thử nghiệm 62 2.6.4 Kịch thử nghiệm cho dPCA 64 2.6.5 Thử nghiệm, đánh giá phương pháp dPCA 65 2.6.5.1 Kết thử nghiệm dPCA1T với tham số khác 65 2.6.5.2 Thử nghiệm dPCA hai mức ngưỡng (dPCA2T) 79 2.7 Kết luận chương 82 CHƢƠNG PHƢƠNG PHÁP KHỬ NGOẠI LAI TRONG TẬP DỮ LIỆU MẪU 84 3.1 Vấn đề khử ngoại lai tập liệu mẫu 84 3.2 Phương pháp phát khử ngoại lai udPCA [CT8] 85 3.3 Phương pháp phát khử ngoại lai K-Means [CT4, CT5, CT8] 87 3.3.1 Khái niệm phân cụm liệu 87 3.3.2 Thuật toán phân cụm K-Means 88 3.3.3 Phát ngoại lai dựa K-means 89 3.3.4 Các bước phát khử ngoại lai tập liệu mẫu với K-means 91 3.4 Thử nghiệm phát khử ngoại lai 92 3.4.1 Kịch thử nghiệm 92 3.4.2 Khả phát ngoại lai udPCA K-means 92 3.4.3 Thử nghiệm dPCA khử ngoại lai tập liệu mẫu 94 3.4.3.1 Thử nghiệm với dPCA1T 94 3.4.3.2 Thử nghiệm với dPCA2T 99 3.5 Đánh giá khả phát ngoại lai udPCA 100 3.6 Kết luận chương 102 CHƢƠNG HỆ THỐNG GIÁM SÁT VỚI PHƢƠNG PHÁP PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG 104 4.1 Mở đầu 104 4.2 Kiến trúc hệ thống giám sát 104 4.2.1 Phạm vi thu thập liệu 104 4.2.2 Kiến trúc tổng thể hệ thống giám sát 105 4.2.3 Máy trinh sát 106 vi 4.2.4 Trung tâm phân tích, phát cảnh báo 109 4.3 Nhận dạng, phân loại bất thường khả kết hợp phát lưu lượng bất thường với phát công mạng dựa mẫu dấu hiệu 111 4.4 Mơ hình kết hợp phát bất thường với phát xâm nhập dựa tập mẫu dấu hiệu 112 4.5 Mô thử nghiệm phát công dPCA 114 4.5.1 Tập liệu thử nghiệm 114 4.5.2 Mô phỏng, thử nghiệm phát bất thường số loại công 116 4.6 Kết luận chương 118 KẾT LUẬN VÀ KHẢ NĂNG PHÁT TRIỂN TIẾP 120 DANH MỤC CƠNG TRÌNH CƠNG BỐ CỦA TÁC GIẢ 123 TÀI LIỆU THAM KHẢO 124 vii DANH MỤC THUẬT NGỮ VIẾT TẮT Từ viết Tiếng Anh tắt Tiếng Việt CDF Cumulative distribution function) Hàm phân bố tích lũy DNS Domain Name System Hệ thống tên miền dPCA Distance-based anomaly detection method in PCA subspace Distance-based anomaly detection dPCA1T method in PCA subspace using threshold Distance-based anomaly detection dPCA2T method in PCA subspace using threshold ECDF Phương pháp phân tích phát bất thường đề xuất luận án Phương pháp dùng mức ngưỡng Phương pháp dùng mức ngưỡng Empirical cumulative distribution Hàm phân bố tích lũy thực function nghiệm Trung bình dịch chuyển trọng EWMA Exponential Weighted Moving Average IP Giao thức Internet (Internet Protocol) ISP Internet Service Provider IDS Intrusion Detection System KDD Knowledge Discovery and Datamining Khoa học liệu LAN Local Area Network Mạng cục PC Principal Component Thành phần PCA Principal Component Analysis Phân tích thành phần ROC Receiver Operating Curve Đồ thị biểu diễn dự đoán SNMP Simple Network Management Protocol Giao thức quản lý mạng số theo hàm mũ Nhà cung cấp dịch vụ Internet Hệ thống phát công xâm nhập viii SVD Singular value decomposition SVM Support Vector Machine Vector máy hỗ trợ TCP Transmission Control Protocol Giao thức điều khiển truyền tin UDP User Datagram Protocol udPCA Uncleaned dPCA VLAN Virtual Local Area Network Mạng cục ảo VPN Virtual Private Network Mạng riêng ảo WAN Wide Area Network Mạng diện rộng Giao thức truyền liệu người dùng Phương pháp phát khử ngoại lai đề xuất 116 dst_host_srv_count Số lượng kết nối đến địa đích xét dịch vụ đích dst_host_diff_srv_rate % số kết nối đến dịch vụ giống với địa đích num_failed_logins Số lượng lần dăng nhập không thành công ứng dụng logged-in Bit cờ cho biết trạng thái đăng nhập thành công ứng dụng Bit thành công, bit không thành công 4.5.2 Mô phỏng, thử nghiệm phát bất thường số loại công Phần thử nghiệm thực đánh giá thông số sau: TPR FPR toàn kết nối thử nghiệm TPR cho biết tỷ lệ phát tổng cộng tất loại công FPR cho biết tỷ lệ phát sai liệu bình thường bị phát cơng Tỷ lệ phát số loại công: - Smurf: kiểu công từ chối dịch vụ số lượng lớn gói tin ICMP với địa nguồn giả mạo máy tích nạn nhân gửi đến địa IP quảng bá Khi thiết bị nhận gói tin quảng bá chấp nhận trả lời, số lượng lớn gói tin làm tràn tài ngun máy tính nạn nhân - Neptune: kiểu công từ chối dịch vụ cách gửi gói tin giả mạo địa IP nguồn để thiết lập phiên làm việc đến máy nạn nhân nhằm làm cho máy nạn nhân bị cạn kiệt tài nguyên - IP-Sweep: công quét, thăm dị để tìm máy tính thiết bị hoạt động - Portsweep: công quét cổng, tìm cổng mở dịch vụ chạy máy nạn nhân - Guest password: công dị tìm mật Hiện kiểu cơng thực cách tự động với trợ giúp từ điển mật hay dùng wi, c, k tham số dùng cơng thức tính khoảng cách trình bày chương chương 117 Trong loại công trên, phần lớn việc phát công cần liệu lưu lượng lớp mạng (Network Layer) lớp giao vận (Transport Layer) Tuy nhiên với cơng “Guest password” u cầu phải có liệu lớp ứng dụng (Application Layer) Đó thuộc tính “num_failed_logins” “logged-in.” Bảng 4.2 kết phát dPCA1T với tập liệu NSL-KDD Bảng 4.2 Kết phát dPCA1T với số loại công c wi k Nep- IPPortTPR FPR GuestSmurf tune sweep Sweep (%) (%) Pwd (%) (%) (%) 2 2 2 1 1/ i 3 16 87.3 83.1 84.9 84.2 88.4 90 82.9 5.0 4.9 5.1 5.1 5.4 5.3 4.8 73.1 76.2 86.2 73.9 81.6 71.2 67.7 100 99.1 99.1 99.2 98.1 99.5 99.4 87.5 63.8 76.2 62.6 88.1 99.5 13.3 31.4 17.0 19.4 40.5 49.8 73.6 82.7 88.1 88.6 86.8 86.8 98.1 96.2 98.1 1/ i 86.3 4.9 91.1 99.4 85.2 18.3 88.6 1/ i 86.6 5.0 90.2 99.8 80.4 37.1 98.1 1/ i 89 4.7 83.4 99.7 97.8 47.2 98.1 1/ i 89.6 5.3 86.1 99.9 87.6 66.0 88.7 1/ i 16 83.6 4.6 68.1 99.8 20.4 83.1 98.1 1/ i 1/ i 1/ i 1/ i Khi tăng số lượng PC để tính khoảng cách, tỷ lệ phát Portsweep tăng lên Tuy nhiên tỷ lệ phát Smurf, IPsweep lại giảm Điều cho thấy tăng số lượng PC lên, tỷ lệ xác TPR loại cơng tăng lên Lý thuộc tính liệu cho phát loại công phân bố PC khác Mỗi loại cơng nói riêng cần phải có tập thuộc tính riêng Ví dụ với IPsweep, thuộc tính cho biết biến động địa IP đích; với Portsweep cần biết thuộc tính biến động dải cổng số lượng dịch 118 vụ địa IP đích; cơng lớp ứng dụng dị tìm mật (Guest password) cần có thuộc tính đặc trưng ứng dụng Do PCA phương pháp đa biến, việc kết hợp nhiều thuộc tính với PCA xét tính tương quan thuộc tính Tuy nhiên giá trị bất thường thuộc tính miền PCA cho loại bất thường lại biến đổi theo quy luật khác với số lượng PC Trong [43], tác giả chứng minh phương pháp phát đơn biến có hiệu cho số loại công quét địa IP hay cổng Nghiên cứu [21, 5] cho thấy kết hợp nhiều phương pháp phát bất thường mang lại hiệu cao xu lĩnh vực Chính cần kết hợp phương pháp phát khác nhau, đa biến đơn biến, phương pháp dựa mẫu dấu hiệu phương pháp phát bất thường v.v thực tế để phát loại bất thường, cơng mạng Ví dụ ngồi dPCA, udPCA hệ thống giám sát dùng kết hợp Snort, Ossec, Nagios, v.v phần mềm phát xâm nhập dựa mẫu dấu hiệu, theo dõi trạng thái lưu lượng việc sử dụng tài nguyên mạng, máy tính, thiết bị 4.6 Kết luận chƣơng Trong chương 4, luận án trình bày nội dung sau: - Kiến trúc hệ thống giám sát gồm máy trinh sát trung tâm giám sát Bài trình bày kiến trúc tổng thể hệ thống, thành phần chức máy trinh sát, thành phần chức trung tâm giám sát - Phương pháp dPCA triển khai phần mềm tiện ích tích hợp vào phần mềm trinh sát dPCA thực chức phân tích, phát lưu lượng bất thường qua điểm trinh sát Mặt khác, dPCA cài đặt trung tâm giám sát để thực chức phân tích, phát lưu lượng bất thường toàn phân đoạn mạng có kết nối Internet - Vấn đề nhận dạng, phân loại bất thường khả kết hợp phát lưu lượng bất thường với phát công mạng dựa mẫu dấu hiệu Phát lưu lượng bất thường giai đoạn tồn q trình chẩn đoán nguyên nhân bất thường 119 - Luận án đề xuất mơ hình kết hợp phát xâm nhập dựa mẫu dấu hiệu phát bất thường - Phân tích tập liệu KDD-CUP 99, NSL-KDD NSL-KDD tập liệu có độ tin cậy cao KDD-CUP 99 thử nghiệm phương pháp phát công lựa chọn thử nghiệm khả phát bất thường số loại công với dPCA 120 KẾT LUẬN VÀ KHẢ NĂNG PHÁT TRIỂN TIẾP Mạng Internet có phát triển vượt bậc năm qua trở thành tảng thiếu lĩnh vực đời sống Tính mở đa dạng hạ tầng dịch vụ/ứng dụng làm cho khả kiểm sốt mạng Internet khó khăn nhiều Sự cố hạ tầng mạng, thay đổi mơi trường truyền dẫn, thay đổi cấu hình thiết bị, hoạt động truy cập mạng người dùng, số lượng dịch vụ/ứng dụng với đặc tính lưu lượng biến thiên đa dạng khác sử dụng, kể hành vi rà quét, trinh sát, thám, công mạng, tạo nên biến động bất thường lưu lượng mạng Việc giám sát, phát lưu lượng bất thường điều cần thiết, có ý nghĩa quan trọng nhà quản trị mạng, vận hành mạng Phát bất thường giúp cho quản trị mạng sớm phát nguyên nhân như: tắc nghẽn, cố mạng, lỗi luồng tin, thay đổi tuyến mạng, đột biến lưu lượng người dùng ứng dụng/dịch vụ kể công mạng Qua nghiên cứu sở lý thuyết khảo sát cơng trình nghiên cứu phương pháp phân tích phát lưu lượng mạng bất thường tới nay, luận án nguyên lý sử dụng, thiết lập đặc tính (thuộc tính) lưu lượng mạng điều kiện hoạt động bình thường (tạo thành đường sở - baseline) xác định khác biệt lưu lượng mạng đo so sánh với lưu lượng mạng bình thường nêu, vào mức ngưỡng để xác định lưu lượng bất thường Số lượng thuộc tính lưu lượng mạng dẫn đến tốn phân tích đa biến, có tương quan biến có độ phức tạp cao số chiều liệu cần xử lý Phát nhanh bất thường với độ xác chấp nhận có tầm quan trọng đặc biệt giai đoạn đầu cố, trước quản trị mạng thực phân tích chi tiết với độ xác cao giai đoạn phân tích, xử lý cố Trong số phương pháp khảo sát, nhóm phương pháp thống kê có ưu điểm dựa phân bố biết trước dựa hoàn toàn vào thực nghiệm, tham số trạng thái bình thường thu từ liệu thực nghiệm Phương pháp phân tích thành phần (PCA) quan tâm nhiều khả phân tích đa biến, phân tích tương quan biến, giảm độ phức tạp giảm chiều liệu trì phần lớn đặc tính liệu Do vậy, PCA phù hợp với 121 yêu cầu phát nhanh PCA phát bất thường với độ xác cao thiết lập tham số hợp lý Tuy nhiên, qua khảo sát cơng trình nghiên cứu dựa PCA điển hình tới nay, luận án điểm hạn chế, cụ thể là: - Các nghiên cứu tới sử dụng công thức khác (chủ yếu Euclidean, Mahalanobis) để tính khoảng cách so sánh khác biệt liệu để phát bất thường Các cơng thức có độ phức tạp tính tốn O(kn2) nên khó phù hợp với yêu cầu phát nhanh Chưa có cơng thức khái qt giúp cho việc phân tích tham số, lựa chọn tham số phù hợp nhằm giảm độ phức tạp, đạt hiệu phân tích, phát bất thường mức chấp nhận - PCA chuyển liệu miền với PC, tạo điều kiện giảm chiều liệu Tuy nhiên, vấn đề tồn sử dụng PC nào, số lượng PC để đạt hiệu đồng thời giảm độ phức tạp tính tốn - Khi PCA sử dụng tập liệu mẫu, ngoại lai xuất tập làm sai lệch kết phát Vẫn chưa có nghiên cứu đề cập cụ thể phương pháp loại bỏ ngoại lai tập liệu mẫu Từ vấn đề tồn nêu trên, luận án nghiên cứu có số đóng góp cụ thể sau: - Đề xuất cơng thức để tính khoảng cách dựa cơng thức Minkowski có bổ sung thêm trọng số miền PCA Luận án cơng thức tính khoảng cách nghiên cứu liên quan trước quy trường hợp riêng công thức khái quát - Đề xuất phương pháp có tên dPCA sử dụng cơng thức tổng qt tính khoảng cách nêu dPCA phân cấp có hai chế độ hoạt động dPCA1T dùng mức ngưỡng dPCA2T dùng mức ngưỡng Luận án thực thử nghiệm khảo sát với tham số khác Kết thử nghiệm cho thấy thay đổi tham số để giảm độ phức tạp tính tốn mức O(kn) so với độ phức tạp tính tốn O(kn2) cơng trình trước đó, trì hiệu phát (tỷ lệ TPR FPR) tương đương mức chấp nhận được, chí cho kết tốt số trường hợp dPCA cho phép lựa chọn mềm dẻo hai chế độ, lựa chọn linh hoạt tham số cơng thức tính khoảng cách đề xuất 122 - Đề xuất hai phương pháp phát khử ngoại lai tập liệu mẫu là: udPCA K-means kết hợp với phương pháp dPCA Các kết thử nghiệm cho thấy, việc khử ngoại lai tập liệu mẫu với udPCA K-means làm tăng tỷ lệ TPR lên đáng kể áp dụng dPCA khử ngoại lai so với áp dụng dPCA chưa khử ngoại lai Ngồi luận án đề xuất tích hợp phương pháp dPCA/udPCA/Kmeans vào hệ thống giám sát cho mục tiêu phân tích phát lưu lượng bất thường, phát công mạng phân đoạn mạng có kết nối Internet Khả n ng phát triển tiếp: Phân tích phát lưu lượng bất thường lĩnh vực rộng gồm nhiều mơ hình, phương pháp, kỹ thuật áp dụng Đối với phương pháp dựa PCA, độ phức tạp thuật toán PCA, phép biển đổi tuyến tính, tính tự tương quan khoảng thời gian v.v vấn đề cần phải quan tâm nghiên cứu phương pháp PCA nói chung Luận án nghiên cứu đề xuất chủ yếu phương pháp phát Những vấn đề khác bao gồm nhận dạng loại bất thường, xử lý sau phát bất thường, nhận dạng loại công, v.v vấn đề để ngỏ cho hướng phát triển tương lai Dữ liệu lưu lượng gồm thuộc tính tách chủ yếu từ lớp mạng (network layer lớp truyền tải (transport layer) Chính việc phát bất thường liên quan đến ứng dụng cụ thể, với loại liệu đặc trưng khác DNS, sở liệu, công mạng liên quan đến lớp ứng dụng không tạo đột biến lưu lượng (ví dụ: cơng leo thang quyền truy nhập) v.v cần thiết hướng phát triển sau 123 DANH MỤC CƠNG TRÌNH CƠNG BỐ CỦA TÁC GIẢ [CT1] Hồng Đăng Hải, Nguyễn Chung Tiến, Bùi Thanh Phong, Nguyễn Hà Dương, Nguyễn Trường Giang (2010), “Giải pháp giám sát an toàn mạng doanh nghiệp”, Tạp chí Cơng nghệ Thơng tin Truyền thơng, Kỳ 2, tr 35-41 [CT2] Hai Hoang, Thuong Pham, Duong Nguyen (2010), “Design and Deployment of a Monitoring Sensor for Enterprise s Networks”, 55th International Scientific Colloquium (IWK), Ilmenau, Germany, pp.810-816 [CT3] Hoàng Đăng Hải, Nguyễn Chung Tiến, Bùi Thanh Phong, Nguyễn Hà Dương, Nguyễn Trường Giang (2011), “Đề xuất giải pháp thiết kế thiết bị sensor cho hệ thống theo dõi an toàn mạng,” Hội nghị ICT.Rda'10 [CT4] Nguyen Ha Duong, Hoang Dang Hai (2015), “A semi-supervised model for network traffic anomaly detection,” in Proc of 17th International Conference on Advanced Communication Technology (ICACT), Korea, pp.70-75 [CT5] Nguyen Ha Duong, Hoang Dang Hai (2015), “A model for network traffic anomaly detection,” Transactions on Advanced Communications Technology (TACT), Vol 4, Issue 4, pp 644-650 [CT6] Nguyễn Hà Dương, Hoàng Đăng Hải (2015), “Phát lưu lượng mạng bất thường sử dụng phương pháp PCA lựa chọn đặc tính liệu,” Tạp chí Khoa học cơng nghệ, Chun san cơng trình nghiên cứu điện tử, viễn thơng cơng nghệ thơng tin, Học viện cơng nghệ ưu viễn thông,tập 53số 2C, tr.52-64 [CT7] Nguyễn Hà Dương (2015), “Một phương thức phát bất thường lưu lượng mạng,” K yếu Hội thảo quốc gia 2015 điện tử, truyền thông công nghệ thông tin (REV-ECIT 2015), tr 92-95 [CT8] Nguyễn Hà Dương, Hoàng Đăng Hải (2016) “Phát lưu lượng mạng bất thường điều kiện liệu huấn luyện chứa ngoại lai,” Tạp chí Khoa học công nghệ thông tin truyền thông, Học viện ưu viễn thơng, Bộ Thơng tin Truyền thông, tập 1, số 1, tr.3-15 124 TÀI LIỆU THAM KHẢO TIẾNG ANH [1] P Aggarwal S K Sharma (2015), “Analysis of KDD Dataset Attributes - Class wise for Intrusion Detection,” in Proc of 3rd International Conference on Recent Trends in Computing 2015 (ICRTC-2015), Procedia Computer Science, vol 57, pp 842-851 [2] L Braun, G Munz, G Carle (2010), “Packet sampling for worm and botnet detection in TCP connections,” in Proc of IEEE/IFIP Network Operations and Management Symposium (NOMS) 2010, Osaka, Japan [3] S.Al-Haj Baddar, A.Merlo, M.Migliardi (2014), “Anomaly detection in computer networks: A state-of-the art review,” Journal of Wireless Mobile Networks, Ubiquitous Computing and Dependable Applications, Vol.5, No.4, pp.29-64 [4] V Barnett, T Lewis (1994), “Outlier in Statistic Data,” John Wiley, 3rd ed [5] M.Bhuyan, D.Bhattacharyya, J.Kalita (2014),“Network anomaly detection: Methods, systems and tools,” IEEE Communications Surveys Tutorials, Vol.16, No.1, pp.303-336 [6] D Brauckhoff (2010), Network Traffic Anomaly Detection and Evaluation, Doctoral dissertation, ETH ZURICH, ETH No 18835 [7] D Brauckhoff, K Salamatian, M May (2009),“Applying PCA for traffic anomaly detection: Problems and solutions,” in Proc of IEEE Conference on Computer Communications (INFOCOM2009) [8] C Callegari, L Gazzarrini, S Giordano, M Pagano, and T Pepe “A Novel PCA-Based Network Anomaly Detection,” in IEEE International Conference on Communications (ICC), pp – Jun 2011 [9] R M Carrion, J Camacho, P G Teodoro (2015), "Multivariate statistical approach for anomaly detection and lost data recovery in wireless sensor networks," International Journal of Distributed Sensor Networks, Vol 2015, No.123 [10] R M Carrion, J Camacho, P G Teodoro (2016), "PCA-based multivariate statistical network monitoring for anomaly detection," Computers & Security, Vol 59, pp.118-137 125 [11] V Chandola, A.Banerjee, V.Kumar, (2009) "Anomaly Detection: A Survey", ACM Computing Surveys, Vol.41, Issue 3, Article No 15 [12] V Chatzigiannakis, S Papavassiliou, G Androulidakis (2009), “Improving network anomaly detection effectiveness via an integrated multi-metric-multilink (M3L) PCA-based approach,” Security and Communication Networks, pp 289–304 [13] S Chawla, A Gionis (2013), “K-means: A unified approach to clustering and outlier detection,” in Proc of the SIAM International Conference on Data Mining [14] A Das, S Misra, S Joshi, J Zambreno, G Memik, A Choudhary (2008), “An Efficient FPGA Implementation of Principle Component Analysis based Network Intrusion Detection System,” in Proc of Design, automation and test in Europe (DATE '08), pp 1160-1165 [15] D David (2011), “A performance analysis of Snort and Suricata Network Intrusion Detection and Prevention Engines In Proc of The Fifth International Conference on Digital Society (ICDS 2011), pp 187-192 [16] J.J.Davis, A.J.Clark (2011), “Data preprocessing for anomaly based network intrusion detection: A review,” Computer & Security, Vol.30, No.6-7, pp.353375 [17] A Delimargas, E Skevakis, H Halabian, H I Lambadaris (2015), “IPCA for network anomaly detection", IEEE MILCOM2015, pp 617-622 [18] R.Dunia, S.Qin (1997), “Multidimensional fault diagnosis using a subspace approach,” in American Control Conference [19] L Ertoz, E Eilertson, A Lazarevic, P Tan, V Kumar, and J Srivastava (2004), “The MINDS - Minnesota Intrusion Detection System,” Next Generation Data Mining, MIT Press [20] G Fernandes, J Rodrigues, M L Proenỗa (2015), Autonomous profile-based anomaly detection system using principal component analysis and flow analysis,” Applied Soft Computing, Vol 34, Issue C, pp 513-525 [21] R Fontugne, P Borgnat, P Abry, K Fukuda (2010), “MAWILab: combining diverse anomaly detectors for automated anomaly labeling and performance benchmarking,” in Proc of CoNEXT 2010, pp 1-12 126 [22] P Garcıa-Teodoro, J.Dıaz-Verdejo, G Macia-Fernandez (2009), E Va´zquez, “Anomaly-based network intrusion detection: Techniques, systems and challenges,” Journal of Computers and Security, Vol.28 Ed 1-2, pp.18-28 [23] P Gogoi, D K Bhattacharyya, B Borah, and J K Kalita (2011), “A Survey of Outlier Detection Methods in Network Anomaly Identification,” Computer Journal, vol 54, no 4, pp 570–588 [24] V.J Hodge, J Austin (2004), “A survey of oulier detection methodologies,” Artificial Intelligence Review, Vol 22, Issue 2, pp 85-126 [25] L Huang, X Nguyen, M Garofalakis, J M Hellerstein , M I Jordan , A D Joseph , N Taft (2007), “Communication-Efficient Online Detection of Network-Wide Anomalies,” in Proc of IEEE INFOCOM 2007, pp 134 – 142 [26] B Ingre, A Yadav, Performance analysis of NSL-KDD dataset using ANN (2015), in Proc of 2015 Signal Processing And Communication Engineering Systems (SPACES), pp 92-96 [27] J E Jackson (1980), “Principal component and Factor Analysis: Part 1: Principal Components”, Journal of Quality Technology, vol 12, pp 201-213 [28] J D Jobson (1992), “Applied Multivariate Data Analysis, Volume II: Categorical and Multivariate Methods,” Springer texts in statistics, SpingerVerlag, NY [29] I T Jolliffe (2002), "Principal Component Analysis", Springer Verlag, New York, 3rd ed [30] Y.Kanda, K.Fukuda, T.Sugawara (2010), “An evaluation of anomaly detection based on sketch and PCA”, in Proc of Global Telecommunications Conference (GLOBECOM 2010), pp 1-5 [31] M Kim, H Kong, S Hong, S.Chung (2004), “A flow-based method for abnormal network traffic detection”, in Proc of Network Operations and Management Symposium, pp 599 - 612 Vol.1 [32] E M Knorr, R T Ng, V Tucakov (2000), “Distance-based Outliers: Algorithms and Applications”, The International Journal on Very Large Data Bases , Vol 8, No 3-4, pp 237-253 [33] A Lakhina, M Crowella C.Diot (2004), “Diagnosing network-wide traffic anomalies”, in Proc of ACM SIGCOMM '04, pp.219-230 127 [34] A Lakhina, M Crovella, C Diot (2004), “Characterization of Network-Wide Anomalies in Traffic Flows”, in Proc of The 4th ACM SIGCOMM conference on Internet measurement, pp.201-206 [35] A Lakhina, M Crovella, C Diot (2005), “Mining Anomalies Using Traffic Feature Distributions”, in Proc of the 2005 ACM SIGCOMM '05, pp.217-228 [36] A Lakhina (2007), “Network Wide Traffic Analysis: Methods and Applications”, dissertation for the degree of Doctor of Philosophy, Boston University, UMI No 3232904 [37] Y Lee, Y Yeh, Y Wang (2013), “Anomaly detection via online oversampling Principle Component Analysis”, IEEE Trans on Knowledge and Data Engineering, Vol.25, No.7, pp.1460-1470 [38] X.Li, F Bian, M Crovella, C Diot, R Govindan, G Iannaccone, A Lakhina (2006), “Detection and identification of network anomalies using sketch subspaces”, in Proc of Internet Measurement Conference (IMC2006) [39] D Liu, C H Lung ; N Seddigh (2014), “Entropy-based robust PCA for communication network anomaly detection”, in IEEE/CIC International Conference on Communications in China (ICCC), pp 171 – 175 [40] Y Liu, L Zhang, Y Guan (2010), “Sketch-Based Streaming PCA Algorithm for Network-Wide Traffic Anomaly Detection”, Distributed Computing Systems (ICDCS), pp 807 – 816 [41] J MacQueen (1967), "Some methods for classification and analysis of multivariate observations", in Proc of Fifth Berkeley Symp on Math Statist and Prob., Vol 1, pp 281-297, Univ of Calif Press [42] J Mazel, R Fontugne, K Fukuda (2014), “A taxonomy of anomalies in backbone network traffic”, in Proc of 5th International Workshop on TRaffic Analysis and Characterization (TRAC 2014), pp 30–36 [43] G Munz (2010), “Traffic Anomaly Detection and Cause Identification Using Flow-Level Measurements”, PhD thesis, Technische Universität München [44] G Munz, S Li, G Carle (2007), “Traffic Anomaly Detection Using K-Means Clustering,” in GI/ITG Workshop MMBnet, CiteSeerX [45] S Myers, John Musacchio, Ning Bao (2010), “Intrusion Detection Systems: A Feature and Capability Analysis”, Technical Reports, UCSC-SOE-10-12 128 [46] D T Nguyen, G Memik, A Choudhary (2006), “A reconfigurable architecture for network intrusion detection using principal component analysis”, in Proc of The 2006 ACM/SIGDA 14th international symposium on Field programmable gate arrays, pp 235-235 [47] NetReflex System (Juniper) http://junipercloud.net/us/en/productsservices/network-edge-services/network-analytics/netreflex/ [48] S Novakov, C.H Lung, I Lambadaris, N Seddigh (2014), “A Hybrid Technique Using PCA and Wavelets in Network Traffic Anomaly Detection”, International Journal of Mobile Computing and Multimedia Communications, Vol No 1, pp.17-53 [49] Principal Component Analysis, https://onlinecourses.science.psu.edu/stat505 /node /49 [50] Principal Component _component_ analysis Analysis, https://en.wikipedia.org/wiki/ Principal [51] I Paredes-Oliva (2013), “Addressing Practical Challenges for Anomaly Detection in Backbone Networks”, Phd Dissertation in Computer Science, Universitat Polit`ecnica de Catalunya BarcelonaTech [52] A Patcha, J.M Park (2007), “An Overview of Anomaly Detection Techniques: Existing Solutions and Latest Technological Trends”, The International Journal of Computer and Telecommunications Networking, Vol 51 Issue 12, pp 34483470 [53] T Quirino, Z Xie, M Shyu (2006), “Collateral Representative Subspace Projection Modeling for Supervised Classification”, in Proc of 18th IEEE International Conference on Tools with Artificial Intelligence (ICTAI'06), pp 98105 [54] K H Ramah, H Ayari, F Kamoun (2006), “Traffic Anomaly Detection and Characterization in the Tunisian National University Network”, in Networking 2006, Vol 3976, Springer Berlin Heidelberg, pp 136-147 [55] C.R Rao (1996), “Principal component and factor analyses,” Handbook of Statistics, Vol.14, pp 489-505, Elsevier [56] M Roesch (1999), "Snort - Lightweight Intrusion Detection for Networks", in Proc of 13th USENIX Conference on System Administration, pp 229–238 129 [57] H Ringberg, A Soule, J Rexford, and C Diot (2007) “Sensitivity of PCA for traffic anomaly detection, in Proc of ACM SIG ETRICS ’07, pp 109–120 [58] M.L Shyu, S.C.Chen, K.Sarinnapakorn, L.W.Chang (2003), "A Novel Anomaly Detection Scheme Based on Principle Component Classifier", in Proc of the IEEE foundation and New Directions of Data Mining Workshop (ICDM03), pp 172-179 [59] M.L Shyu, S.C.Chen, K.Sarinnapakorn, L.W.Chang (2005), “Handling nominal features in anomaly intrusion detection problems, in 15th International Workshop on Research Issues in Data Engineering: Stream Data Mining and Applications (RIDE-SDMA'05) [60] J Song, H.Takakura, Y.Okabe Description of Kyoto University Benchmark Data 2006, pp 1-3 (http://www.taka kura.com/Kyoto data/BenchmarkDataDescription-v5.pdf) [61] J Song, H Takakura, Y Okabe, M Eto, D Inoue, K Nakao (2011), "Statistical Analysis of Honeypot Data and Building of Kyoto 2006+ Dataset for Nids Evaluation", in Proc of the First Workshop on Building Analysis Datasets and Gathering Experience Returns for Security(ACM, 2011), pp 29-36 [62] A Sperotto, G Schaffrath, R Sadre, C Morariu, A Pras, and B Stiller (2010), “An Overview of IP Flow-Based Intrusion Detection”, IEEE Commun Surveys Tutorials, vol 12, no , pp 343–356 [63] N Taft, K Papagiannaki, M Crovella, C Diot, E D Kolaczyk, A Lakhina (2004), “Structural analysis of network traffic flows,” in Proc of The joint international conference on Measurement and modeling of computer systems (SIG ETRICS ’04), pp 61–72 [64] M Tavallaee, E Bagheri, W Lu, A.A Ghorbani (2009), “A Detailed Analysis of the KDD CUP 99 Data Set”, in Proc of IEEE Symposium on Computational Intelligence for Security and Defense Applications (CISDA2009), pp 1-6 [65] H.Teng, K.Chen, S.Lu (1990), “Adaptive real-time anomaly detection using inductively generated sequential patterns”, in Proc of IEEE Computer Society Symposium on Research in Security and Privacy, pp 278-284 [66] The Cmulative Distribution Functions, STAT 414 - Continuous Random Variables: https://onlinecourses.science.psu.edu/stat414/node/98 130 [67] The Empirical CDF, STAT 464 - Applied Nonparametric Statistic: https:// onlinecourses.science.psu.edu/stat464/node/84 [68] The NSL-KDD Dataset (2009)- http://www.unb.ca/research/iscx/dataset/iscxNSL-KDD-dataset.html [69] The KDD cup /kddcup99.html dataset (1999), http://kdd.ics.uci.edu/databases/kddcup99 [70] C.Thomas, V Sharma N Balakrishnan (2008), “Usefulness of DARPA dataset for intrusion detection system evaluation”, in Proc of The International Society for Optical Engineering [71] M Thottan, G Liu, C Ji (2010), “Anomaly Detection Approaches for Communication Networks”, in Algorithms for Next Generation Networks, G Cormode, Ed London: Springer, pp 239-261 [72] W Wang, R Battiti (2006), “Identifying Intrusions in Computer Networks with Principal Component Analysis”, in Proc of First IEEE International Conference on Availability, Reliability and Security (ARES 2006), IEEE press society, pp 270-277 [73] W Wang, S Gombault (2007), “Detecting masquerades with principal component analysis based on cross frequency weights”, in Proc of 14th Anniversary HP-SUA Workshop, Munich, Germany, pp 227-232 [74] W Wang, X Zhang, S Gombault, S J Knapskog (2009), "Attribute Normalization in Network Intrusion Detection", in 10th International Symposium on Pervasive Systems, Algorithms and Networks (I-SPAN 2009), IEEE Press, pp 448-453 [75] W Wang, S Gombault, T Guyet (2008), “Towards fast detecting intrusions: using key attributes of network traffic”, in Proc of The 3rd International Conference on Internet Monitoring and Protection (ICIMP '08), pp 86-91 [76] D J Weller-Fahy, B J Borghetti, A A Sodemann (2015), “A Survey of Distance and Similarity Measures Used Within Network Intrusion Anomaly Detection”, IEEE Communication Surveys & Tutorials, Vol 17, No 1, pp.70-91 [77] Z Xie, T Quirino, M.-L Shyu, S.-C Chen, and L Chang (2006), “A distributed agent-based approach to intru-sion detection using the lightweight PCC anomaly de-tection classier”, In Proc of IEEE International Conference on Sensor Networks, Ubiquitous, and Trustworthy Com-puting (SUTC2006), pp 446–453