Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
624,25 KB
Nội dung
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THƠNG NGUYỄN HÀ DƢƠNG NGHIÊNCỨUĐỀXUẤT PHƢƠNG PHÁPPHÂNTÍCHVÀPHÁTHIỆN LƢU LƢỢNG BẤT THƢỜNG TRÊNMẠNGINTERNET Chuyên ngành: Kỹ thuật viễn thơng Mã số: 62.52.02.08 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2017 Cơng trình hồn thành tại: Học viện Cơng nghệ Bưu Viễn thơng Người hướng dẫn khoa học: PGS TSKH Hoàng Đăng Hải Phản biện 1:…………………………………………… …………………………………………… Phản biện 2:…………………………………………… …………………………………………… Phản biện 3…………………………………………… …………………………………………… Luận án bảo vệ trước Hội đồng chấm luận án cấp Học viện tại:……………………………………………………………… ……………………………………………………………………… Vào hồi ngày tháng năm Có thể tìm hiểu luận án thư viện:……………………………… Thư viện Quốc gia Việt Nam Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Phátlưulượngmạngbấtthường chủ đềnghiêncứu quan tâm nhiều năm qua Bấtthường nhiều nguyên nhân như: hỏng hóc thiết bị mạng, lỗi đường truyền, lỗi cấu hình, tăng đột ngột số lượng truy nhập khách hàng, hoạt động công tin tặc, phát tán thư rác, sâu máy tính v.v Để xác định nguyên nhân xử lý, việc cần thực thu thập liệu lưulượng mạng, tiến hành phântíchphát dấu hiệu bấtthường Sau cần phân loại nguồn gốc, xác định nguyên nhân xử lý bấtthường theo nguyên nhân Phântíchphátbấtthường giai đoạn quan trọng tồn q trình phạm vi nghiêncứu luận án Cụ thể, trọng tâm luận án sở lưulượngmạng thu thập cần có phươngpháp xác định xem lưulượng có phải bấtthường hay khơng để đưa cảnh báo Đối tượng nghiêncứu luận án nghiêncứuphươngphápphântíchphátlưulượngbấtthường dựa phântích thành phần (PCA), đềxuất số đóng góp mới, cụ thể gồm: - Đềxuất công thức cho tính khoảng cách dựa cơng thức Minkowski có bổ sung thêm trọng số - Đềxuấtphươngpháp có tên dPCA sử dụng cơng thức tính khoảng cách nêu dPCA hoạt động phân cấp dùng mức ngưỡng mức ngưỡng - Đềxuất hai phươngphápphát khử ngoại lai tập liệu mẫu là: phươngpháp udPCA phươngpháp K-means kết hợp với phươngpháp dPCA - Đềxuất mơ hình kết hợp phát xâm nhập dựa dấu hiệu phátbấtthường theo phươngpháp dPCA tích hợp vào hệ thống giám sát cho phântíchphátlưulượngbất thường, phát công mạngphân đoạn mạng có kết nối InternetPhươngphápnghiêncứu sử dụng luận án nghiêncứu mơ hình tốn học kết hợp với mơ phỏng, thử nghiệm Cấu trúc luận án gồm phần mở đầu, chương nội dung, phần kết luận Nội dung chương sau: - Chương 1: Cơ sở lý thuyết nghiêncứu liên quan - Chương 2: Phươngphápphântíchphátlưulượngbấtthường dPCA - Chương 3: Phươngpháp khử ngoại lai tập liệu mẫu - Chương 4: Hệ thống giám sát với phươngphápphátlưulượngbấtthường CHƢƠNG 1: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊNCỨU LIÊN QUAN 1.1 Thu thập lƣu lƣợng mạngInternetHiện nay, phươngphápđể thu thập lưulượng theo gói tin luồng tin Đểphátbất thường, nghiêncứu cho thấy cần tách lưulượng thu thành liệu thuộc tính Các thuộc tính gồm số byte, số gói tin, địa IP, cổng nguồn/ đích v.v… Việc lựa chọn thuộc tính liệu quan trọng ảnh hưởng trực tiếp đến hiệu suất c ng độ xác phát 1.2 Tổng quan phƣơng pháp, mơ hình phântíchphát lƣu lƣợng bất thƣờng Trong số năm qua, nhiều giải pháp đưa đểphântíchphátlưulượngbấtthường Mặc dù giải pháp đa dạng, song chúng thườngphân loại theo ba nhóm là: 1) nhóm dựa vào thống kê, 2) nhóm dựa vào khai phá liệu học máy, 3) nhóm dựa vào tri thức Việc phân loại mang tính chất tương đối thực tế phươngpháp đồng thời thuộc nhóm khác Phươngpháp thống kê dựa giả định mô hình tuân theo phân bố thống kê biết trước dựa liệu thực nghiệm điều kiện bình thường từ so sánh với độ lệch khoảng cách với điều kiện bình thườngđểphátbấtthường 1.3 Phƣơng phápphântíchphát lƣu lƣợng bất thƣờng dựa PCA (gọi tắt phƣơng pháp PCA) Đây phươngpháp thuộc nhóm thống kê, dựa thuật tốn phântích thành phần (Principal Component Analysis) làm tảng PCA thuật toán thống kê sử dụng phươngpháp biến đổi tuyến tính trực giao nhằm chuyển tập hợp quan sát có tương quan thành tập giá trị tuyến tính khơng tương quan gọi thành phần (Principal Component - gọi tắt PC) Tập hợp quan sát với liệu p-chiều ánh xạ sang miền m-chiều (miền hay khơng gian có m thành phần chính) Số lượng thành phần biến ban đầu Phươngpháp chung đểphântíchphátbấtthường tính khoảng cách thống kê tập liệu quan sát tới tâm hay trung bình thống kê tập liệu Khoảng cách phổ biến Euclidean, Mahalanobis Những phươngpháp PCA điển hình phươngphápphântích thành phần chính, phươngphápphântíchphần dư (dựa nhóm PC cuối), phươngpháp dựa thống kê T2 hay khoảng cách Mahalanobis (sử dụng PC chủ yếu thứ yếu) 1.4 Nhận xét, đánh giá Qua khảo sát cơng trình nghiêncứuphântíchphátlưulượngmạngbấtthường dựa PCA tới nay, đưa số nhận xét, đánh sau: Vẫn chưa có cơng thức bao qt cho tính khoảng cách để từ tìm tham số phù hợp với mục tiêu giảm độ phức tạp tính tốn song đạt hiệu Vấn đề sử dụng thành phần hiệu giảm số chiều liệu xét đến độ phức tạp thuật toán Đối với phươngpháp PCA sử dụng tập liệu mẫu, ngoại lai xuất tập liệu mẫu làm sai lệch profile Vì việc làm tập liệu mẫu trước tạo profile điều cần thiết Các nghiêncứu dựa PCA tới chưa có đềxuất cụ thể phươngpháp loại bỏ ngoại lai tập liệu mẫu mà thường giả thiết tập mẫu không chứa ngoại lai thử nghiệm Việc lựa chọn vị trí thu thập, lựa chọn thuộc tính lưulượng cần thu thập c ng góp phần quan trọng vào nâng cao hiệu phátbấtthường 1.5 Kết luận chƣơng Chương trình bày tổng quan sở lý thuyết nghiêncứu liên quan đến đề tài luận án có nhận xét đánh giá vấn đềphântíchphátlưulượngbấtthường với phươngpháp PCA, vấn đềnghiêncứu mở làm sở cho nghiêncứuđềxuất chương CHƢƠNG 2: PHƢƠNG PHÁPPHÂNTÍCHVÀPHÁTHIỆN LƢU LƢỢNG BẤT THƢỜNG 2.1 Mở đầu Chương trình bày mơ hình chung hệ thống phântíchphátlưulượngbấtthường với dựa PCA, đềxuấtphươngpháp dPCA thử nghiệm, đánh giá phươngphápđềxuất 2.2 Mơ hình hệ thống dựa phƣơng pháp PCA Hệ thống hoạt động theo hai pha: Pha tạo profile: Hệ thống cần tạo trước profile với liệu (dữ liệu không chứa bấtthường Pha hoạt động ngoại tuyến (offline) Pha phát hiện: Pha hoạt động trực tuyến online ỗi quan sát chứa thuộc tính liệu cần chuyển sang miền PCA từ áp dụng phươngphápphân tích, phátbấtthường Mơ hình chung hệ thống phân tích, phátlưulượngbấtthường dựa PCA bao gồm thành phần sau: Thu thập, tiền xử l liệu, tách thuộc tính Bộ biến đổi PCA: Dữ liệu sau q trình chuẩn hóa biến đổi để chuyển sang miền liệu PCA Module phântíchphátbất thường: thực việc phântích thành phần sử dụng đểphátbất thường, tính khoảng cách, thiết lập mức ngưỡng, tạo tập tham số trạng thái bình thường (profile) Từ profile tạo so sánh với liệu cần kiểm tra đểphátbấtthường Cảnh báo: Kết phát đưa cảnh báo 2.3 Cơng thức tính khoảng cách thống kê phântíchphát lƣu lƣợng bất thƣờng Việc xác định hệ thống trạng thái bình thường hay bấtthường phụ thuộc vào độ lệch hay khoảng cách thống kê (gọi tắt khoảng cách) điểm xét từ trạng thái bình thường Các phươngpháp tính khoảng cách phổ biến khoảng cách Euclidean, bình phương Euclidean, Mahalanobis Những phươngpháp khác khoảng cách Mahattan (hay City Block), khoảng cách Minkowski, khoảng cách Canberra chủ yếu sử dụng toán thống kê Luận án đềxuất áp dụng công thức Minkowski bổ sung trọng số miền PCA sau: Khi chuyển sang miền PCA, khoảng cách Minkowski từ quan sát đến tâm (gốc tọa độ miền PCA) là: p d yi i 1 c (2.11) Tuy nhiên, biến có độ biến thiên đơn vị khác Đồng thời, miền PCA, khơng cần thiết phải tính khoảng cách cho tất p thành phần Vì vậy, luận án bổ sung trọng số wi phù hợp với biến để làm giảm sai lệch cơng thức tính khoảng cách sau: q d wi yi c (2.13) ir Trong đó:d khoảng cách hình thành từ thành phần yi trọng số wi tương ứng wi trọng số cho thành phần yi c số m của| yi| số p số thuộc tính ban đầu số biến đầu vào 1 r q p Trong miền PCA, chọn tham số thích hợp, ta thu cơng thức tính khoảng cách đểphátbấtthường với hiệu tương đương với phươngpháp có 2.4 Phƣơng pháp PCA Phươngpháp dPCA (Distance-based anomaly detection method in PCA subspace phươngphápphântíchphátbấtthường miền PCA sử dụng công thức tính khoảng cách (2.13) 2.4.1 Lựa chọn tham số để tính khoảng cách dPCA Bằng cách thay đổi trọng số wi tham số c, ta thiết lập linh hoạt tham số cho cơng thức tính khoảng cách (2.13) Khi c=2, wi=1, công thức (2.13) trở thành: q d yi yr yr 12 yq (2.18) i r Công thức tương đương với công thức áp dụng phươngphápphântíchphần dư nghiêncứu khảo sát Khi c=2, wi ≠ 1: Về lý thuyết chọn nhiều giá trị wi khác cách thường dùng chuẩn hóa theo phương sai Do trị riêng λi đóng vai trò phương sai miền PCA nên chuẩn hóa với λi q yq2 y2 y2 y2 d i r (2.19) ir i r 2 q Công thức 2.19 tương đương với công thức phươngpháp PCA nghiêncứu khảo sát áp dụng thống kê T2 Khi c=1, wi =1 công thức (2.13) trở thành khoảng cách Manhattan miền PCA: q d yi yr yr 1 yq (2.21) i r Khi c=1, wi ≠ 1: Do trị riêng đóng vai trò phương sai miền PCA nên chuẩn hóa giá trị |yi| với bậc hai trị riêng q d i r yi i yr r y2 2 yq q (2.22) Nhận xét: - wi=1 phù hợp tính d với thành phần chênh lệch trị riêng không lớn, đặc biệt PC thứ yếu - wi ≠ phù hợp tính d với thành phần có chênh lệch đáng kể trị riêng Sự chênh lệch thường nằm PC chủ yếu dùng tất PC để tính khoảng cách - Độ phức tạp thuật tốn tính khoảng cách: o Khi c=2 độ phức tạp O(kn2) với k số PC sử dụng, n số lượng quan sát tính khoảng cách o Khi c=1 độ phức tạp O(kn) Do sử dụng c=1 để giảm độ phức tạp tạp tính khoảng cách dPCA so với cơng trình nghiêncứu điển hình dựa PCA trước 2.4.2 Sự phân cấp dPCA Hình 2.3 mơ tả chế độ hoạt động phươngpháp dPCA Tất PC Cấp PC thứ yếu Chế độ hoạt động dPCA Cấp PC chủ yếu Phântích PC Hình 2.1 Phân cấp phươngpháp dPCA Trong dPCA hoạt động theo cấp: Cấp 1: dPCA sử dụng PC thứ yếu để tính khoảng cách Trong trường hợp cần thiết sử dụng tất PC bỏ qua cấp Phươngpháp cần mức ngưỡng cho khoảng cách gọi dPCA1T (dPCA with threshold) Khi sử dụng tất PC để tính khoảng cách d, phátbấtthường có đột biến xuất PC khác Tuy nhiên sử dụng tất PC để tính khoảng cách với dPCA1T áp dụng số thuộc tính p ban đầu khơng q lớn tốn nhiều tài nguyên hệ thống nên đặt trọng số wi ≠ Cấp 2: Cấp có chế độ hoạt động 10 Ví dụ: liệu bình thường chiếm 90%, bấtthường chiếm 10%, 1% liệu bình thườngphát nhầm bấtthường c ng gây số lượng lớn cảnh báo sai Do tính khoảng cách với PC chủ yếu thứ yếu liên tục vừa tốn lực xử lý, tài nguyên hệ thống vừa làm tăng cảnh báo sai không cần thiết Khi trạng thái bình thường profile thiết lập tốt, phần lớn bấtthường PC chủ yếu phát với PC thứ yếu cấp Trong trường hợp số lượngbấtthườngphát với cấp khơng hiệu cấp hoạt động tốt t y theo điều kiện thực tế giảm tần suất kiểm tra cấp tắt hẳn cấp nhằm giảm tỷ lệ cảnh báo sai điều kiện liệu bình thường chiếm đa số giảm mức độ tính tốn 2.4.3 Thiết lập mức ngưỡng Thiết lập mức ngưỡng vấn đề khó phươngphápphátlưulượngbấtthường nói chung Mức ngưỡng tham số nhạy cảm tỷ lệ phátbấtthường xác tỷ lệ cảnh báo sai (phát nhầm liệu bình thườngbất thường) Trong luận án, mức ngưỡng tính dựa hàm phân bố tích l y thực nghiệm (Empirical cumulative distribution function ECDF) Đây hàm ước tính dựa liệu thực nghiệm hàm phân bố tích lu Từ α tỷ lệ cảnh báo sai ước lượng, ta tính khoảng cách với mức ngưỡng dN tương ứng với (1- α) hàm phân bố tích l y thực nghiệm Ví dụ: với α = 5%, mức ngưỡng lựa chọn tương ứng với 95% ECDF Tùy thuộc áp dụng dPCA1T dPCA2T, cần thiết lập hai mức ngưỡng với ECDF 2.5 Mô phỏng, thử nghiệm Việc thử nghiệm nhằm mục đích đánh giá độ xác phươngpháp luận án đềxuất so sánh với phươngpháp có Tập liệu thử nghiệm dựa tập liệu cộng đồng nghiêncứu chấp nhận) Kyoto Honeypot, Mỗi quan sát kết 11 nối có tổng cộng 14 thuộc tính Các thơng số đánh giá độ xác dựa thơng số phổ biến nghiêncứu có bao gồm: - TPR (True Positive Rate): Tỷ lệ số quan sát bấtthườngphát tổng số quan sát bấtthường thử nghiệm - FPR (False Positive Rate): Tỷ lệ số quan sát bình thường bị phát sai bấtthường tổng số quan sát bình thườngĐể so sánh với kết nghiêncứu điển hình có, biểu đồ bảng thể nhóm tham số sau: - Nhóm 1: nhóm sử dụng cơng thức (2.13) với c=2 wi=1 tương đương phươngphápphântíchphần dư nghiêncứu có Trên biểu đồ ký hiệu tham số (c=2, w=1) - Nhóm 2: nhóm sử dụng cơng thức (2.13) với c=1, wi=1/ tương đương phươngpháp sử dụng thống kê T2 nghiêncứu có Trên biểu đồ dạng cột nhóm có ký hiệu tham số (c=2, w1) - Nhóm 3: nhóm sử dụng cơng thức (2.13) với c=1,wi=1 Trên biểu đồ nhóm có ký hiệu tham số (c=1, w=1) - Nhóm 4: nhóm sử dụng cơng thức (2.13) với c=1, wi = 1/ i Trên biểu đồ nhóm có ký hiệu tham số ( c=1, w1) k số thành phần sử dụng để tính khoảng cách TP số kết nối phát Kết thử nghiệm thể hình 2.3, bảng 2.3 bảng 2.6 Nhận xét: Khi k=3, dPCA1T (nhóm nhóm 4) cho kết TP TPR cao nhóm 1, xấp xỉ nhóm Tỷ lệ cảnh báo sai FPR nhóm nhóm nhỏ nhóm xấp xỉ nhóm Khi tăng số lượng PC lên k=5, dPCA1T (nhóm nhóm 4) cho kết TP TPR cao nhóm 1và nhóm Tỷ lệ FPR nhóm nhóm nhỏ nhóm xấp xỉ nhóm Khi k=14 (tất PC), dPCA1T nhóm nhóm 2, song dPCA1T nhóm cho kết tốt 12 Các nhóm khoảng cách Hình 2.3 Số kết nối bấtthườngphát Bảng 2.3 Thử nghiệm dPCA1T 1 k 14 14 14 Mức ngƣỡng: 95% TPR (%) FPR (%) 92.4 4.7 91.8 5.2 94.4 5.3 94.6 4.9 91.9 5.6 93.8 5.0 94.3 4.8 91.3 5.2 92.1 5.4 1/ i 94.1 4.3 1/ i 98.1 4.7 1/ i 14 94.4 4.3 c 2 2 2 1 wi 1 1/ i 1/ i 1/ i 13 nhóm 2, xấp xỉ nhóm FPR nhóm c ng ngang xấp xỉ nhóm 1, 2.Như tăng số PC dPCA1T (k=5), TPR không thay đổi nhiều Sử dụng từ đến PC khơng khác biệt với sử dụng tất PC Vì vậy, trường hợp này, số PC thứ yếu cần lựa chọn k=3 Áp dụng c=1 nhóm nhóm (trường hợp riêng đềxuất luận án) có kết phát tương đương với áp dụng c=2 nhóm (của nghiêncứu có) độ phức tạp tính tốn việc tính d giảm Bảng 2.4 Thử nghiệm dPCA2T PC ch ếu, PC thứ ếu, FPR (%) 6.3 TPR (%) 99.6 92.2 1 99.9 7.2 1 100 8.1 1/ i 1 97.7 6.9 1/ i 1/ i 99.9 8.2 1/ i 1/ i 92.2 8.0 1/ i 1/ i 99.9 7.1 1/ i 1/ i 99.6 7.3 c wi k c wi k 1/ i 2 1/ i 2 1/ i 1/ i 6.9 dPCA2T thường cho kết TPR cao dPCA1T không nhiều Hơn FPR dPCA2T c ng tăng lên, mức độ tính tốn nhiều So với d ng c=2 kết TPR FPR dPCA2T với c=1 c ng gần tương đương Do sử dụng c=1 cơng thức tính khoảng cách với phươngpháp dPCA2T kết hợp linh hoạt với c=2 PC chủ yếu thứ yếu để giảm độ phức tạp PC thứ yếu phát biến đổi nhỏ mà 14 PC chủ yếu không phát nên PC thứ yếu thườngphát nhiều bấtthườngĐểphát nhanh cần dùng dPCA1T thứ yếu dPCA2T d ng để quét với tần suất thấp đểphát thêm bấtthường PC chủ yếu 2.6 Kết luận chƣơng Chương đềxuấtđềxuất cơng thức tính khoảng cách dựa công thức inkowski phươngpháp dPCA So sánh phươngpháp PCA có, dPCA đềxuất hoạt động phân cấp đểphát nhanh với PC thứ yếu Cấp phátbấtthường dùng dPCA1T với tất PC dPCA2T dPCA2T cho phép lựa chọn linh hoạt tham số phươngpháp có trước CHƢƠNG 3: PHƢƠNG PHÁP KHỬ NGOẠI LAI TRONG TẬP DỮ LIỆU MẪU 3.1 Vấn đề khử ngoại lai tập liệu mẫu Ngoại lai tập liệu mẫu ảnh hưởng đến profile trạng thái bình thường làm sai lệch kết phát Chương đềxuấtphươngpháp khử ngoại lai tập liệu mẫu udPCA Kmeans Đây đóng góp luận án mà qua khảo sát cơng trình dựa phươngpháp PCA chưa thực 3.2 Phƣơng phápphát khử ngoại lai udPCA Phươngpháp udPCA Unclean dPCA d ng đểphát ngoại lai trực tiếp tập liệu thuộc tính đầu vào uá trình tạo profile phát ngoại lai udPCA mơ tả hình 3.2 Trong đó, tập liệu mẫu cần khử ngoại lai chuẩn hóa, qua biến đổi PCA tính khoảng cách Khoảng cách so sánh với mức ngưỡng đểphát ngoại lai Những liệu bị phát ngoại lai bị loại bỏ khỏi tập liệu mẫu Tập liệu mẫu làm sau d ng cho phươngpháp dPCA Thực 15 chất udPCA cần tạo profile tạm thời để từ so sánh mức ngưỡng với điểm quan sát Dữ liệu đầu vào để tạo tập mẫu Chuẩn hóa PCA Tính hoảng cách Mức ngƣỡng So ánh hoảng cách mức ngƣỡng Phát ngoại lai Hình 3.2 Quá trình phát ngoại lai udPCA Profile udPCA không dựa tập mẫu mà tạo trực tiếp với liệu thuộc tính đầu vào udPCA sử dụng tất PC đểphát ngoại lai Lý phát ngoại lai trực tiếp tập mẫu, trạng thái bình thường profile khơng ổn định nên ngoại lai xuất PC Vì vậy, udPCA sử dụng phươngpháp ngưỡng với đầy đủ PC đểphát ngoại lai có mức biến thiên lớn PC khác Để khử nhiều ngoại lai cần thiết lập ngưỡng mức thấp so với phươngpháp sử dụng tập liệu mẫu đặt mức ngưỡng cao bỏ qua nhiều ngoại lai Điều phải trả giá việc tăng tỷ lệ FPR hay số lượng liệu bình thường bị phát sai tăng lên 16 Khi khử ngoại lai, không ngoại lai vượt mức ngưỡng bị loại bỏ mà liệu bình thường c ng bị loại bỏ khỏi tập liệu mẫu Đây liệu bình thường tạo nên khoảng cách lớn liệu bình thường khác nên ảnh hưởng đến tham số profile Sự ảnh hưởng liên quan đến liệu bình thường có khoảng cách lớn nên liệu bị phát sai bấtthường dPCA Nói cách khác việc loại bỏ liệu bình thường có khoảng cách lớn làm cho tỷ lệ cảnh báo sai FPR dPCA tăng lên ột k thuật để khắc phục vấn đề sau thiết lập mức ngưỡng profile dPCA, chỉnh mức ngưỡng lên khoảng định 3.3 Phƣơng phápphát khử ngoại lai K-Means K-means thuật toán phân cụm phổ biến áp dụng nhiều lĩnh vực K-means sử dụng giá trị trung bình (mean) đối tượng cụm làm tâm cụm phân nhóm đối tượng có vào K cụm (K cần xác định trước) cho khoảng cách đối tượng đến tâm cụm (centroid ) nhỏ Phươngphápđểphát ngoại lai K-means sau: Đểphát ngoại lai cần thiết lập cụm bình thường normal cluster cụm chứa ngoại lai outlier cluster Trong trường hợp K=2, có cụm bình thường cụm lại chứa ngoại lai Cụm chứa ngoại lai coi cụm có số lượng điểm nhỏ so với cụm bình thường Do vậy, kết phân cụm chọn cụm có số lượng điểm nhỏ cụm chứa ngoại lai Một điểm xi coi ngoại lai nếu: - xi nằm gần tâm cụm chứa ngoại lai cụm bình thường - xi nằm phạm vi giới hạn khoảng cách ngưỡng đến tâm cụm bình thường Những điểm phát ngoại lai bị loại bỏ tập liệu mẫu dPCA 3.4 Thử nghiệm phát khử ngoại lai 17 Quá trình thử nghiệm c ng thực liệu Kyoto Honeypot Việc thử nghiệm nhằm mục đích: đánh giả ảnh hưởng ngoại lai đến khả phátbất thường, khả phát ngoại lai udPCA, khả phát ngoại lai K-means, hiệu việc khử ngoại lai tập liệu mẫu Tập liệu mẫu gồm có 10% ngoại lai, 90% lại kết nối bình thường Mức ngưỡng d đặt 75% đến 80% ECDF Bảng 3.2 trình bày kết phát ngoại lai udPCA, đó: - Tỷ lệ phát ngoại lai: tỷ lệ số lượng ngoại lai phát xác tổng số ngoại lai thử nghiệm Thông số thực chất TPR Tỷ lệ cao chứng tỏ khả phát ngoại lai cao - Tỷ lệ phát sai ngoại lai: tỷ lệ số lượng liệu bình thườngphát sai ngoại lai tổng số liệu bình thường thử nghiệm Thơng số thực chất FPR Bảng 3.2 Kết phát ngoại lai udPCA T lệ phát T lệ phát c wi k 1/ i 14 99.8 16.7 1/ i 14 99.4 16.7 1/ i 14 100 16.6 1/ i 14 99.2 16.7 1/ i 14 97.7 17.0 1/ i ngoại lai ) ngoại lai ) 14 98.8 22.3 Bảng 3.3 kết phát ngoại lai K-means ức ngưỡng khoảng cách Euclidean dùng K-means xác định tương ứng với 75% đến 80% hàm phân bố tích l y thực nghiệm Kết cho thấy K-means c ng phát ngoại lai với hiệu tương đương với udPCA 18 Bảng 3.3 Kết phát ngoại lai K-Means T lệ phát ngoại lai T lệ phát ) ngoại lai (%) 100 15.2 100 24.1 99.7 21.8 99.3 18.0 Bảng 3.4 biểu diễn kết phát dPCA1T chương trước khử ngoại lai cho tập liệu mẫu Ngoại lai làm ảnh hưởng đến khả phátbất thường, cụ thể làm tỷ lệ TPR suy giảm Bảng 3.4 Kết dPCA1T trước loại bỏ ngoại lai c wi k Mức ngƣỡng TPR (%) FPR (%) 42.4 1.4 1/ i 41.5 1.1 1/ i 14 27.8 2.3 1/ i 29.3 2.2 1/ i 14 28.3 2.8 1 26.4 2.5 Bảng 3.5 biểu diễn kết phát dPCA mức ngưỡng (dPCA1T) sau khử ngoại lai cho tập liệu mẫu Bảng 3.5 Kết dPCA1T sau loại bỏ ngoại lai c wi k Mức ngƣỡng 95% TPR FPR (%) (%) 99.9 15.9 Mức ngƣỡng 99% TPR FPR (%) (%) 99.9 6.7 19 1/ i 100 19.6 100 7.6 1/ i 14 100 20.8 100 6.6 1/ i 100 19.6 100 6.7 1/ i 14 100 20.8 100 6.1 1 17.1 98.9 6.7 100 ức ngưỡng 95% mức ngưỡng giống d ng cho dPCA chương 2; ức ngưỡng 99% mức ngưỡng nâng lên để b vào lượng liệu bình thường bị loại bỏ trình khử ngoại lai cho tập mẫu Nhận xét: Việc khử ngoại lai tập liệu mẫu làm tăng tỷ lệ TPR dPCA so với dPCA trước khử ngoại lai bảng 3.4 Tuy nhiên, ngồi ngoại lai, số liệu bình thường có khoảng cách lớn c ng bị loại bỏ khỏi tập mẫu Điều ảnh hưởng đến chất lượng tập mẫu tham số profile Kết tỷ lệ cảnh báo sai FPR tăng lên đáng kể Việc chỉnh mức ngưỡng sau khử ngoại lai giảm tác động liệu bình thường bị Do tỷ lệ FPR giảm so với giữ nguyên mức ngưỡng 3.5 Kết luận chƣơng Các kết thử nghiệm cho thấy udPCA K-means phươngpháp hiệu để khử ngoại lai Sau khử ngoại lai, tỷ lệ phátbấtthường TPR dPCA tăng lên r rệt Hạn chế việc khử ngoại lai làm tăng tỷ lệ cảnh báo sai FPR Để khắc phục vấn đề này, luận án đềxuất k thuật chỉnh mức ngưỡng để b lại hao hụt liệu bình thường bị khử với udPCA Kmeans, cải thiện tỷ lệ FPR Tỷ lệ FPR cao dPCA sau khử ngoại lai chấp nhận số liệu bình thường gây đột biến lưulượng c ng coi bấtthường Thực tế người d ng có hành động hợp lệ vượt ngồi mức bình thường Việc phátluồng gây đột biến c ng cần thiết coi dạng bấtthường 20 CHƢƠNG 4: HỆ THỐNG GIÁM SÁT VỚI PHƢƠNG PHÁPPHÁTHIỆN LƢU LƢỢNG BẤT THƢỜNG 4.1 Mở đầu Trong chương này, luận án đềxuất việc ứng dụng phươngpháp dPCA vào hệ thống giám sát triển khai thực tế cho mạng nội tổ chức, doanh nghiệp có kết nối Internet 4.2 Kiến trúc hệ thống giám sát Một hệ thống giám sát điển hình thường gồm phần chính: Các máy trinh sát phần trung tâm phântích xử lý hay gọi trung tâm giám sát Máy trinh sát (sensor): Thu thập thông tin kiện mạng chuyển trung tâm giám sát để xử lý, phântích Ngồi ra, máy trinh sát có thêm chức phân tích, phát sơ để có cảnh báo nhanh gửi trung tâm giám sát Sensor phần cho chức thu thập thơng tin thực thêm chức phân tích, phát (do cố mạng, tắc nghẽn, cơng mạngđể có cảnh báo nhanh gửi trung tâm giám sát dPCA đềxuấttích hợp tiện ích vào phần mềm sensor, thực chức phân tích, phátlưulượngbấtthường qua điểm trinh sát Mặt khác, dPCA cài đặt trung tâm giám sát để thực chức phân tích, phátlưulượngbấtthường toàn phân đoạn mạngĐể thu thập liệu lưulượng cho dPCA sensor, sử dụng phần mềm cơng cụ Ntop, Fprobe để thu lưulượngphân đoạn mạng có kết nối Internet Dữ liệu thuộc tính tổng hợp từ kết nối luồng tin Tập liệu thuộc tính sau lưu tạm thời máy trinh sát chuyển sở liệu trung tâm giám sát Trung tâm giám sát gồm 04 thành phần chính: 1) Thu thập thơng tin từ máy trinh sát xử lý liệu sơ bộ; Cơ sở liệu; 3) 21 Xử lý, phân tích, phátbất thường; 4) Quản trị hệ thống, hiển thị cảnh báo 4.3 Nhận ạng, phân loại ất thƣờng n ng ết hợp phát lƣu lƣợng bất thƣờng với phát công mạng Sau phát cần xác định nguyên nhân, phân loại bấtthường ột số cơng trình nghiêncứu sử dụng phân lớp, phân cụm đểphân loại bấtthường vào lớp tạo sẵn cụm Các cơng trình khác sử dụng mẫu dấu hiệu để nhận dạng bấtthường phổ biến Có thể kết hợp phátbấtthường với phát xâm nhập dựa mẫu dấu hiệu để xác định kiểu công dựa tập luật sở liệu loại công biết Cách kiểm tra trực tiếp người đòi hỏi người quản trị, chun gia phântích loại bấtthườngphát 4.4 Mơ hình ết hợp phátbất thƣờng với IDS Trong hệ thống giám sát, dPCA cần kết hợp với thành phần khác, đặc biệt phậnphát xâm nhập dựa tập mẫu dấu hiệu (IDS) Dữ liệu đầu vào để tạo tập mẫu kiểm tra phần mềm phát xâm nhập IDS theo mẫu dấu hiệu ví dụ Snort, Suricata, Bro để loại bỏ công biết Tiếp đó, tập liệu mẫu qua khử ngoại lai để khử ngoại lai xuất Bộ biến đổi PCA d ng để tính tham số profile tính khoảng cách Khoảng cách vượt giá trị ngưỡng coi bấtthường Kết phát kiểm tra lại IDS mẫu dấu hiệu phươngpháp học máy dựa lớp bấtthường biết Những bấtthường nhận dạng kiểm tra trực tiếp Để tránh tải cho IDS theo mẫu dấu hiệu, liệu phát bình thường khơng phải kiểm tra lại tồn IDS theo mẫu dấu hiệu mà kiểm tra lại cách ngẫu nhiên để xem có cơng hay khơng 4.5 Mô thử nghiệm phát công c a dPCA 22 Luận án áp dụng dPCA đểphát số loại tân công với tỷ lệ phát bảng 4.2 Từ kết thấy dPCA áp dụng đểphát cơng Tuy nhiên loại cơng cần số lượng PC(k) khác để đạt kết tốt Bảng 4.2 Kết phát dPCA1T với số loại công IPPortGuestSmurf sweep Sweep Pwd (%) (%) c wi k 1 3 73.1 76.2 87.5 63.8 31.4 17.0 88.1 88.6 1/ i 86.2 76.2 19.4 86.8 1/ i 73.9 62.6 40.5 86.8 1/ i 81.6 88.1 49.8 98.1 1/ i 71.2 99.5 73.6 96.2 1/ i 16 67.7 13.3 82.7 98.1 1/ i 91.1 85.2 18.3 88.6 1/ i 90.2 80.4 37.1 98.1 1/ i 83.4 97.8 47.2 98.1 1/ i 86.1 87.6 66.0 88.7 1/ i 16 68.1 20.4 83.1 98.1 4.6 Kết luận chƣơng Trong chương 4, luận án trình bày kiến trúc hệ thống giám sát Luận án đềxuất áp dụng dPCA vào hệ thống giám sát có kết hợp với IDS mẫu dấu hiệu phươngpháp nhận dạng bất 23 thường Kết mô phát số loại công cho thấy khả áp dụng dPCA đểphát công khả thi thực tế KẾT LUẬN Luận án hạn chế phươngpháp PCA có số đóng góp cụ thể sau: - Đềxuất công thức để tính khoảng cách miền PCA dựa cơng thức Minkowski có bổ sung thêm trọng số - Đềxuấtphươngpháp có tên dPCA phân cấp với mức ngưỡng: dPCA1T dPCA2T Kết thử nghiệm cho thấy thay đổi tham số để giảm độ phức tạp tính tốn so với cơng trình trước đó, trì hiệu phát tương đương mức chấp nhận - Đềxuất hai phươngphápphát khử ngoại lai tập liệu mẫu là: udPCA K-means Các kết thử nghiệm cho thấy, việc khử ngoại lai tập liệu mẫu với udPCA Kmeans làm tăng tỷ lệ TPR lên đáng kể áp dụng dPCA khử ngoại lai so với áp dụng dPCA chưa khử ngoại lai - Luận án đềxuất ứng dụng phươngpháp dPCA vào hệ thống giám sát cho mục tiêu phântíchphátlưulượngbất thường, phát cơng mạngphân đoạn mạng có kết nối Internet có kết hợp với phát xâm nhập dựa mẫu dấu hiệu 24 DANH MỤC CƠNG TRÌNH CƠNG BỐ CỦA TÁC GIẢ [1] Hai Hoang, Thuong Pham, Duong Nguyen 2010 , Design and [2] [3] [4] [5] [6] [7] [8] Deployment of a onitoring Sensor for Enterprise’s Networks , 55th International Scientific Colloquium (IWK), Ilmenau, Germany, pp.810-816 Hoàng Đăng Hải, Nguyễn Chung Tiến, Bùi Thanh Phong, Nguyễn Hà Dương, Nguyễn Trường Giang 2011 , Đềxuất giải pháp thiết kế thiết bị sensor cho hệ thống theo dõi an toàn mạng,” Hội nghị ICT.Rda'10 Hoàng Đăng Hải, Nguyễn Chung Tiến, Bùi Thanh Phong, Nguyễn Hà Dương, Nguyễn Trường Giang 2010 , Giải pháp giám sát an tồn mạng doanh nghiệp , Tạp chí Cơng nghệ Thông tin Truyền thông, Kỳ 2, tr 35-41 Nguyen Ha Duong, Hoang Dang Hai 2015 , A semi-supervised model for network traffic anomaly detection, in Proc of 17th International Conference on Advanced Communication Technology (ICACT), Korea, pp.70-75 Nguyen Ha Duong, Hoang Dang Hai 2015 , A model for network traffic anomaly detection, Transactions on Advanced Communications Technology (TACT), Vol 4, Issue 4, pp 644-650 Nguyễn Hà Dương, Hoàng Đăng Hải 2015 , Phátlưulượngmạngbấtthường sử dụng phươngpháp PCA lựa chọn đặc tính liệu, Tạp chí Khoa học cơng nghệ, Chun san cơng trình nghiêncứu điện tử, viễn thông công nghệ thông tin, Học viện công nghệ Bưu viễn thơng,tập 53-số 2C, tr.52-64 Nguyễn Hà Dương 2015 , ột phương thức phátbấtthườnglưulượng mạng, Kỷ yếu Hội thảo quốc gia 2015 điện tử, truyền thông công nghệ thông tin (REV-ECIT 2015), tr 92-95 Nguyễn Hà Dương, Hoàng Đăng Hải 2016 Phátlưulượngmạngbấtthường điều kiện liệu huấn luyện chứa ngoại lai, Tạp chí Khoa học cơng nghệ thơng tin truyền thơng, Học viện Bưu viễn thơng, Bộ Thơng tin Truyền thông, tập 1, số 1, tr.3-15 ... đánh giá vấn đề phân tích phát lưu lượng bất thường với phương pháp PCA, vấn đề nghiên cứu mở làm sở cho nghiên cứu đề xuất chương CHƢƠNG 2: PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG... - Luận án đề xuất ứng dụng phương pháp dPCA vào hệ thống giám sát cho mục tiêu phân tích phát lưu lượng bất thường, phát cơng mạng phân đoạn mạng có kết nối Internet có kết hợp với phát xâm nhập... vào hệ thống giám sát cho phân tích phát lưu lượng bất thường, phát cơng mạng phân đoạn mạng có kết nối Internet Phương pháp nghiên cứu sử dụng luận án nghiên cứu mơ hình tốn học kết hợp với