1. Trang chủ
  2. » Công Nghệ Thông Tin

Phát hiện lưu lượng mạng bất thường trong điều kiện dữ liệu huấn luyện chứa ngoại lai

14 70 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 708,79 KB

Nội dung

Bài viết này đề cập các vấn đề phát hiện lưu lượng mạng bất thường trong điều kiện dữ liệu huấn luyện chứa ngoại lai và đề xuất một phương pháp cải tiến dựa trên thuật toán phân tích thành phần chính PCA gọi tên là dPCA. Kết quả thử nghiệm được đánh giá dựa trên tập dữ liệu Kyoto Honeypot.

Nguyễn Hà Dương, Hoàng Đăng Hải PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN CHỨA NGOẠI LAI Nguyễn Hà Dương*, Hoàng Đăng Hải+ Khoa Công nghệ thông tin, Trường Đại học Xây Dựng Hà Nội + Học viện Cơng nghệ Bưu Viễn thơng * Tóm tắt: Phát lưu lượng mạng bất thường đối mặt với nhiều khó khăn, thách thức như: xác định mức ngưỡng dùng để so sánh phát bất thường, trích chọn đặc trưng liệu, giảm số liệu cần xử lý, độ xác cần thiết Ngồi ra, ngoại lai gây sai lệch đáng kể trình phát Bài báo đề cập vấn đề phát lưu lượng mạng bất thường điều kiện liệu huấn luyện chứa ngoại lai đề xuất phương pháp cải tiến dựa thuật tốn phân tích thành phần PCA gọi tên dPCA Kết thử nghiệm đánh giá dựa tập liệu Kyoto Honeypot Từ khóa: Phát lưu lượng mạng bất thường, phát ngoại lai, an ninh mạng.1 I MỞ ĐẦU Tính mở đa dạng hạ tầng mạng, dịch vụ ứng dụng tạo biến động, thăng giáng đáng kể lưu lượng mạng Mặt khác, hoạt động cơng tin tặc mạng góp phần khơng nhỏ việc tạo lưu lượng đột biến so với lưu lượng bình thường mạng Phát lưu lượng mạng bất thường chủ đề nghiên cứu quan tâm nhiều thời gian qua trở thành hướng nghiên cứu đặc biệt quan tâm phát triển lĩnh vực an ninh mạng [1] Lưu lượng mạng bất thường Tác giả liên hệ: Nguyễn Hà Dương, email: nghaduong@gmail.com Đến tòa soạn: 12/2/2016, chỉnh sửa: 12/4/2016, chấp nhận đăng: 12/5/2016 Một phần kết báo trình bày hội thảo quốc gia ECIT’2015 lưu lượng có biến đổi khơng bình thường, có thăng giáng đáng kể so với lưu lượng bình thường mạng Sự biến đổi bất thường nhiều ngun nhân, ví dụ điển hình cơng tin tặc mạng (như DoS, Scan) lỗi mạng Ví dụ, cơng DoS thường tạo lượng lưu lượng đột biến so với lưu lượng bình thường mạng Phát nhanh sớm lưu lượng mạng bất thường giúp sớm phát dấu hiệu công mạng So với phương pháp truyền thống phát công mạng dựa dấu hiệu (signature-based) thường dùng hệ thống phát xâm nhập (Intrusion Detection System - IDS) [2,3,4], phương pháp dựa kiện bất thường (anomaly-based detection) có ưu cho phép phát kiểu cơng Nếu phát dựa mẫu dấu hiệu công biết, hệ thống phát tin tặc thay đổi vài chi tiết để biến công trở thành kiểu Vì vậy, hệ thống ADS (Anomaly Detection System) phát triển dựa phương pháp phát hành vi bất thường (ví dụ [1,2]) Triển khai ADS khó khăn nhiều so với IDS truyền thống Các IDS thường dựa việc so sánh mẫu lưu lượng mạng thu với mẫu dấu hiệu biết trước lưu sở liệu tập mẫu Ngược lại, ADS khơng đòi hỏi mẫu liệu cơng biết trước Đối với ADS, cần xác định tập hợp lưu lượng mạng bình thường Lưu lượng mạng thu so sánh với tập hợp coi bình thường nêu Dữ liệu Số năm 2016 Tạp chí KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN không nằm tập bình thường bị coi bất quan Phần III trình bày phương pháp đề xuất thường Các phương pháp phát lưu lượng báo Phần IV kết thử nghiệm Phần V mạng bất thường cho ADS phải đối mặt với kết luận số vấn đề chủ yếu sau: 1) Cần xác định tập mẫu liệu không chứa bất II CÁC NGHIÊN CỨU LIÊN QUAN thường để từ phát kiện bất Các cơng trình nghiên cứu phát lưu lượng thường tập liệu thu từ mạng mạng bất thường tới chủ yếu dựa 2) Để tăng độ xác, tập mẫu liệu thường nguyên lý nhất, đặc tính lớn với số lượng biến (thuộc tính liệu) lớn dẫn lưu lượng mạng điều kiện hoạt động bình đến tốn tài nguyên hệ thống, thời gian xử lý dài, thường theo cách xác định tốc độ phát chậm Vấn đề cần trích chọn khác biệt lưu lượng mạng so sánh với đặc trưng liệu cho giảm yêu cầu lượng lưu lượng mạng bình thường nêu Ranh giới liệu phải xử lý bảo đảm độ khác biệt mức ngưỡng (Threshold) thường có biến động theo thời gian ADS thường xác cần thiết, tốc độ xử lý phát nhanh xây dựng theo mơ hình thống kê, khai phá 3) Thực tế tập mẫu liệu bình thường có liệu, học máy, [1-12] Mục tiêu đặt tạo thể chứa phần liệu bất thường (gọi chung đường sở (Baseline) bao gồm mức ngoại lai) làm sai lệch q trình huấn ngưỡng biến động theo thời gian Tuy nhiên, luyện kết phát Do cần phương số lượng liệu số thuộc tính liệu lớn nên pháp loại bỏ ngoại lai khỏi tập liệu huấn luyện việc tạo đường sở so sánh với đường sở vấn đề phức tạp, phải xử lý nhiều Đã có nhiều cơng trình nghiên cứu phát khó khả thi lưu lượng mạng bất thường đề xuất tới nay, song phương pháp phát theo mô Một số nghiên cứu tập trung vào lựa chọn đặc hình thống kê, khai phá liệu, học máy trưng liệu nhằm giảm yêu cầu lượng coi hiệu khả thi (xem [5-12]) Một liệu phải xử lý Thuật tốn phân tích thành phần số nghiên cứu áp dụng thuật tốn PCA (Principle (PCA-Principle Component Analysis) [13Component Analysis) [13-17] cho thấy khả 16] đề xuất áp dụng nhằm chuyển đổi giảm lượng liệu cần xử lý, độ xác tập liệu (p chiều) sang miền liệu tương đối cao, khả phát nhanh Mặc dù (m chiều, với m < p) nhằm giảm số chiều liệu vậy, vấn đề phát điều kiện liệu huấn luyện có chứa ngoại lai chưa quan tâm Trong phần này, báo tóm tắt số cơng trình mức Ngoại lai phần tử bất thường điển hình [12-16] sử dụng phương pháp lẫn vào tập liệu dùng để huấn luyện Những PCA có liên quan đến nội dung PCA phần tử gây sai lệch tham số thuật toán thường sử dụng để giảm số chiều huấn luyện ảnh hưởng đến hiệu suất hoạt liệu giữ phần lớn đặc tính liệu Mỗi trị riêng thành phần tương động hệ thống ứng phần với biến thiên thuộc Bài báo đề xuất phương pháp phát tính hay biến liệu Trị riêng lớn lưu lượng mạng bất thường điều kiện chứa nhiều biến thiên vector riêng tương liệu huấn luyện chứa ngoại lai Phương pháp ứng phản ánh quy luật biến thiên lớn nên xây dựng dựa tảng thuật toán PCA quan trọng Do vậy, thành phần với số cải tiến: giảm thiểu thành phần quan trọng cần xếp trước thành thứ yếu để tính đường sở, khử ngoại lai với phần không quan trọng [1-3][7][13-16] chế độ không giám sát phân cụm, phân cấp phát Bài báo bố cục thành ba phần Trong [5,12,13,14], tác giả theo dõi thay sau Phần II trình bày số nghiên cứu liên đổi giá trị thành phần phát Tạp chí KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG Số năm 2016 Nguyễn Hà Dương, Hoàng Đăng Hải thay đổi bất thường thành phần định Các thành phần (Principal Component – PC) phân chia thành thành phần chủ yếu phản ánh quy luật biến thiên lưu lượng y(m) trạng thái bình thường hệ thống thành phần dư thừa phản ánh biến thiên không theo quy luật y(p-m) Trong [5,12], độ lớn phần dư tái tạo tương ứng với y(p-m) phân tích từ phát dấu hiệu bất thường dựa mức ngưỡng Một cách tương tự tính khoảng cách Euclidean liệu chuẩn hóa z liệu tái tạo từ thành phần y(m) [13] Tuy nhiên tái tạo lại z từ thành phần y(m) làm tăng mức độ xử lý hệ thống Trong [14], khoảng cách Mahalanobis dựa thành phần chủ yếu thứ yếu sử dụng để phân tích dấu hiệu bất thường Hiệu phương pháp phụ thuộc vào số lượng tỷ lệ PC chủ yếu thứ yếu Tác giả [15] sử dụng phương pháp Histogram Phương pháp đơn giản song đòi hỏi lượng liệu phải lớn để đạt tỷ lệ phát cao Cơng trình [16] đề xuất giảm bớt tập thuộc tính liệu nhằm giảm độ phức tạp thuật tốn phát phần thứ yếu Điều phù hợp với phương pháp phân tích phần dư Do vậy, lựa chọn thành phần phù hợp mang lại hiệu phát 3) PCA nhạy cảm với liệu ngoại lai Do đó, cần giảm thiểu tác động ngoại lai, cần lọc bớt liệu đầu vào ngoại lai cho tập huấn luyện PCA phát sinh ngoại lai khơng mong muốn Vì vậy, cần đánh giá tác động thành phần đến việc phát sinh ngoại lai, từ lựa chọn thành phần đặc tính lưu lượng mạng cần thiết để giảm tác động yếu tố III PHƯƠNG PHÁP DPCA A Cơ sở thuật toán PCA PCA phương pháp chuyển đổi tập liệu (p chiều) sang miền liệu (m chiều, với m < p) nhằm giảm số chiều liệu [13-16] Thuật toán PCA sở sau Gọi X tập liệu gồm n quan sát với p biến X1, X2,… Xp tổ chức thành ma trận nxp (n hàng, p cột) Mỗi biến biểu thị thuộc tính liệu ban đầu Mỗi quan sát x=(x1, x2,…,xp) T chứa p thuộc tính khác Gọi R ma trận Qua nghiên cứu cơng trình liên quan, ta rút tương quan pxp tính từ X, (l , e ) cặp k k số nhận xét sau: trị riêng vector riêng R xếp theo thứ tự giảm dần trị riêng (l1³ l2³ …³ lp>0) 1) Các nghiên cứu áp dụng PCA sử dụng cách so sánh biến thiên lưu lượng với Phép biến đổi thuật toán PCA sở đường sở, song giảm liệu cần xử lý chuyển điểm liệu ban đầu sang kết qua việc biến đổi sang miền liệu sử dụng thành phần Khi thành phần thứ i thành phần Tuy nhiên, sử dụng quan sát x T thành phần vấn đề chưa = yi e= ei1 z1 + ei z2 + + eip z p )1( i z nghiên cứu cụ thể Các thành phần chia thành thành phần chủ yếu (những đó: yi thành phần thứ iT quan sát x ban đầu, i=1…p, ei=(ei1,ei2,…,eip) vectơ thành phần đầu tiên, có trị riêng lớn nhất) riêng thứ i, z = (z1, z2,…,zp)T vectơ chuẩn hóa thành phần thứ yếu (những thành phần x, zk biến thứ k tính theo cơng thức cuối có trị riêng nhỏ nhất) xk − xk zk = )2( 2) Các thành phần chủ yếu có xu hướng sk phản ánh biến thiên bình thường lưu lượng Trong điều kiện liệu huấn luyện sạch, với xk giá trị trung bình, sk phương sai bất thường có xu hướng xuất thành biến thứ k, k = 1…p Số năm 2016 Tạp chí KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN Bài toán phát bất thường với PCA đưa tốn tính tốn khoảng cách d liệu chuẩn hóa z liệu tái tạo từ thành phần yi quan sát Khoảng cách so sánh với mức ngưỡng để xác định tập liệu bình thường hay bất thường Nhiều phương pháp tính khoảng cách áp dụng, điển hình như: Euclidean, Manhattan [13], Mahalanobis [14],… Việc xử lý lượng liệu lớn nhiều biến làm tăng thời gian xử lý liệu tốn tài nguyên hệ thống Vì vậy, áp dụng thuật tốn PCA giảm thiểu số chiều khơng cần thiết tăng hiệu tận dụng tài nguyên hệ thống B Phương pháp dPCA đó: ≤ r < q ≤ p , wi trọng số cho thành phần yi, d độ lệch hình thành từ thành phần yi trọng số tương ứng wi, c số mũ yi c số, số thực số nguyên wi, c lựa chọn dựa thực nghiệm Một giá trị ngưỡng dN xác định dựa vào hàm phân bố tích lũy thực nghiệm độ lệch d (empirical cumulative distribute function - ecdf) tính liệu huấn luyện Khi có quan sát mới, giá trị d tính dựa tham số huấn luyện sau: Chuẩn hóa liệu dựa giá trị trung bình bậc hai phương sai cho thuộc tính Trong phần này, báo đề xuất phương pháp (biến đầu vào) dPCA (Distance-based anomaly detection method in PCA subspace) tảng thuật tốn PCA • Sử dụng vectơ riêng để chuyển quan sát sở với số cải tiến: giảm thiểu thành phần sang trục miền PCA thứ yếu để tính đường sở, khử ngoại lai • Tính giá trị d dựa công thức (3) so sánh với chế độ không giám sát phân cụm, phân cấp với ngưỡng thiết lập dN huấn luyện Nếu phát Về bản, phương pháp dPCA sử d > dN, quan sát coi bất thường dụng thuật toán PCA sở để giảm số chiều Ngược lại quan sát coi bình thường liệu (p chiều), song giữ phần lớn đặc tính liệu ban đầu cách giữ lại m thành phần Phương pháp dPCA hoạt động hai chế độ: bán giám sát không giám sát Tương tự [18], ta chia m thành phần thành r thành phần chủ yếu m=p-q+1 thành dPCA chế độ khơng giám sát khơng u cầu phần thứ yếu Từ kết nghiên cứu huấn luyện mà phát trực tiếp với liệu có nêu phần 2, khơng thiết phải tính khoảng Chế độ có yêu cầu bổ sung lượng cách cho tồn thành phần Những liệu bình thường phải lớn nhiều so với lượng liệu bất thường có xu hướng xuất liệu bất thường Nếu điều bị vi phạm thành phần cuối (thành phần khơng thể tạo trạng thái bình thường thứ yếu) Theo cách này, ta cần quan sát mạng để so sánh phát khác liệu thành phần thứ yếu (miền biệt quan sát có dấu hiệu bất thường PCA), qua giảm thiểu lượng liệu cần xử lý Các kết phần thử nghiệm chứng dPCA chế độ bán giám sát hoạt động theo hai pha: minh phương pháp bảo đảm độ xác • Pha huấn luyện (Training phase): Pha này cần thiết giảm thiểu độ phức tạp, hoạt động ngoại tuyến (offline) Hệ thống tăng tốc độ xử lý được huấn luyện trước với liệu “sạch” (không chứa bất thường hay ngoại lai) Dữ Công thức tính khoảng cách để phát dấu hiệu liệu sau chuyển đổi PCA tạo thành hồ sơ bất thường miền PCA phương trạng thái bình thường (normal profile) của pháp dPCA đề xuất sau: hệ thống Hồ sơ trạng thái chứa các tham số q c huấn luyện vectơ riêng, trị riêng và giá d = ∑ wi yi )3( i=r trị ngưỡng Tập hợp giá trị d Tạp chí KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG Số năm 2016 Nguyễn Hà Dương, Hồng Đăng Hải tính tất quan sát với liệu huấn luyện tạo nên đường sở để phát ngoại lai Vì coi d độ lệch quan sát để xét quan sát bình thường hay bất thường • Pha phát hiện (Detection phase): Pha này hoạt động trực tuyến (online) Mỗi quan sát mới là một vectơ chứa các thuộc tính dữ liệu cần chuyển sang miền của PCA với các vectơ riêng và trị riêng đã có pha huấn luyện Bộ phát hiện áp dụng phương pháp dPCA để tính độ lệch và so sánh với giá trị ngưỡng Nếu độ lệch vượt quá giá trị ngưỡng, quan sát mới được coi là bất thường và ngược lại là bình thường dPCAL1 kiểm tra lại dPCAL2 Lý sử dụng tất PC thường có độ ổn định phát cao C Phương pháp dPCA với thành phần thứ yếu chế độ bán giám sát (dPCAL1) Trong nghiên cứu Lakhina [5] Wang [13], thực chất phần dư khoảng cách z zN zN tái tạo từ thành phần chủ yếu Khi chuyển sang không gian PCA, công thức trở thành: d= z( A ) q = ( z − z( N ) )T ( z − z( N ) ) = ∑ yi2 i =r )4( Trong công thức trên, d tổng bình phương thành phần thứ yếu (1 < r < q ≤ p) Các thành phần Như cách thiết lập wi = số thứ yếu (dPCAL1) Phát bất c = công thức (3), phương pháp dPCA thường đạt kết tương tự nghiên cứu (dPCA) Lakhina [5] Wang [13] Khi tính d với các Tất thành phần thành phần chính thứ yếu, phương pháp dPCA sẽ (dPCAL2) tương đương với phương pháp tính phần dư nêu [5,13] song thay vì phải chủn đởi dữ Hình Phương pháp dPCA chế độ bán giám sát liệu trở lại z khơng gian ban đầu Hình mơ tả phương pháp dPCA chế độ [13], dPCA cho phép thực hiện trực tiếp với y bán giám sát Khi dPCA thực với miền PCA, giảm bớt độ thành phần thứ yếu (gọi dPCAL1) phức tạp coi kiểm tra nhanh xem có tượng bất thường mạng hay không Tuy nhiên, Nếu thiết lập d với trọng số wi = 1/λi số bất thường có xu hướng xuất c =2 công thức (4), ta kết tương thành phần thứ yếu, chúng tự với nghiên cứu Shyu [14] Thực chất xuất thành phần khác Vì phương pháp chuẩn hóa bình phương dPCA kiểm tra với tất với thành giá trị y theo trị riêng thành phần phần với tần suất thấp để phát Nếu chênh lệch giá trị thành bất thường (dPCAL2) Cứ phần thứ yếu đáng kể, chuẩn hóa theo trị sau x lần kiểm tra với dPCAL1 lại có lần riêng làm giảm khác biệt công thức kiểm tra với dPCAL2 Số lần x tùy thuộc nhu cầu tính khoảng cách Thực chất, phương pháp giám sát mạng Thực nghiệm cho thấy dPCAL2 Shyu [14] sử dụng song song hai khoảng cách cần thực với PC (chiếm 70%-80% với thành phần chủ yếu thứ yếu Điều mức biến thiên tổng trị riêng) mà vấn có ưu điểm làm tăng khả phát bảo đảm độ xác cần thiết Do bỏ bất thường có nhược điểm làm qua số PC khác công thức tính khoảng tăng tỷ lệ cảnh báo sai liệu bình thường bị cách d để tăng tốc độ xử lý phát với phát bất thường Ngoài việc sử dụng hai dPCAL2 Nếu thấy số lượng bất thường phát mức ngưỡng song song làm tăng độ phức với dPCAL2 tăng đột biến tăng tần suất tạp thuật tốn Phương pháp dPCA cần dPCAL2 Mỗi xuất bất thường tính khoảng cách với thành phần thứ yếu Số năm 2016 Tạp chí KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN sử dụng thành phần thứ yếu nên giảm Với trọng số wi = 1/ li số c =2, công thức yêu cầu tính tốn (3) cho kết quả: q d =∑ i =r yi2 li )5( D Phương pháp dPCA với tất thành phần chế độ bán giám sát (dPCAL2) Khi sử dụng đầy đủ thành phần chính, số Để chuẩn hóa cho giá trị thành phần r cơng thức (3) Thường trường thứ yếu, thiết lập wi = 1/ li1/ số c hợp liệu huấn luyện chứa ngoại lai, dùng tất =1 Kết đạt tương tự (5) song thành phần cơng thức tính cơng thức đơn giản khơng cần tính bình khoảng cách tốt Nếu tính d với toàn bợ phương giá trị thành phần chính, bậc giá trị của p thành phần chính công thức hai trị riêng phải tính lần pha (5), kết cho lại sẽ tương đương với khoảng cách Mahalanobis hoặc thống kê T2, c2 (Chihuấn luyện square) Tuy nhiên, vấn đề độ phức tạp cao q yi d =∑ )6( phải tính toán nhiều Bài báo đề xuất li i=r cách giảm độ phức tạp tính tốn sử dụng công thức (6) (7) So với (5), công thức (6), (7) Nếu thiết lập trọng số wi = 1/ li số c =1, có hiệu tương đương lại đơn cơng thức tính d đạt kết gần tương đương giản Do không phải tính bình phương cho với (5), (6) song không cần tính bậc hai của yi mỗi tính d nên phép tính đơn giản (wi trị riêng pha huấn luyện chỉ phải tính một lần pha huấn luyện, q y pha phát hiện w là hằng số) Khi thiết lập cặp giá d =∑ i )7( trị này, cần lưu iý không áp dụng phương pháp i = r li thống kê tham số theo phân bố biết trước (T2, c2) Trong thực tế trị riêng thành phần để tim mức ngưỡng bằng cách tra bảng của phân ̀ thứ yếu khơng có khác biệt đáng kể bớ tương ứng thiết lập wi = số c = cho các thành phần chính thứ yếu Kết quả tính d sẽ tương E Khử ngoại lai liệu huấn luyện với đương với (4), (5), (6), (7) song công thức đơn dPCA chế độ không giám sát giản nhiều dPCA chế độ bán giam sát đòi hỏi liệu q d = ∑ yi )8( hay nói cách khác cần tập liệu huấn luyện i=r không chứa ngoại lai ngoại lai dẫn đến sai lệch Độ phức tạp thuật tốn tính khoảng cách d kết phát Vì vậy, dPCA chế độ không với công thức (4) (5) O(n2) tương đương giám sát sử dụng để phát với độ phức tạp [5,13,14] Các cơng thức bất thường có mục đích sử dụng để lọc (6), (7), (8) có độ phức tạp O(n), giảm độ bỏ bớt ngoại lai liệu huấn luyện cho chế phức tạp so với (4), (5) Lưu ý d độ phức tạp độ bán giám sát thuật tốn tính khoảng cách dPCA chưa tính đến độ phức tạp thuật tốn PCA Để loại được ngoại lai, cần thiết lập ngưỡng ở mức Trong pha huấn luyện, thuật tốn PCA có độ thấp so với ngưỡng thường đặt chế đợ phức tạp O(np2) tính ma trận tương quan bán giám sát vì nếu đặt mức ngưỡng cao sẽ bỏ qua O(p3) tính cặp trị riêng/vectơ riêng Độ nhiều ngoại lai Khi đó, khơng ngoại lai mà phức tạp thuật tốn PCA khơng thay đổi liệu bình thường vượt ngưỡng (trong cơng trình nghiên cứu trước phải cũng bị loại bỏ khỏi tập huấn luyện Điều chấp nhận điều này) nên giảm số chiều liệu p này nghĩa tỷ lệ FPR (False Positive Ratio) tức cần thiết Trong pha phát hiện, dPCAL1 số dữ liệu biǹ h thường bị phát hiện sai Tạp chí KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Số năm 2016 Nguyễn Hà Dương, Hoàng Đăng Hải tăng lên Do vậy, đặt mức ngưỡng phù hợp cần thiết Việc loại bỏ dữ liệu biǹ h thường có khoảng cách lớn những dữ liệu biǹ h thường khác rõ ràng cần thiết chúng ảnh hưởng đến ma trận hiệp phương sai, giá trị trung bình, tập dữ liệu miền PCA, bao gờm cả vectơ riêng, trị riêng và giá trị thành phần chiń h Việc khử ngoại lai liệu huấn luyện với dPCA thực sau: Phân loại cho biết điểm liệu thuộc cụm Để phát ngoại lai phân loại, cần thiết lập cụm liệu bình thường ngoại lai Trong trường hợp K=2, có cụm bình thường cụm lại ngoại lai F Khử ngoại lai liệu huấn luyện phương pháp K-Means A Dữ liệu dùng cho thử nghiệm Để phát điểm ngoại lai, cần thiết lập khoảng cách tối đa (dmax) Khi khoảng cách từ điểm đến tâm cụm bình thường vượt • Dữ liệu đầu vào ánh xạ sang miền PCA dmax, điểm xét coi ngoại lai Những điểm bị loại bỏ khỏi tập liệu • Tính khoảng cách d dựa huấn luyện công thức (5), (6), (7) với tất thành phần IV THỬ NGHIỆM • Xác định mức ngưỡng dựa hàm phân bố tích lũy thực nghiệm phân bố biết trước Mục tiêu của thử nghiệm là đánh giá khả (phân bố F, c2) phát hiện phương pháp đề xuất, khả loại • Loại bỏ tất quan sát có khoảng cách bỏ ngoại lai và ảnh hưởng của ngoại lai đến hiệu suất của hệ thống trước và sau khử ngoại lai lớn mức ngưỡng Quá trình thử nghiệm thực dựa • Những liệu lại tập liệu dùng cho phần mềm Matlab R2013a huấn luyện Một phương pháp khử ngoại lai khác đề xuất báo sử dụng kỹ thuật phân cụm dựa thuật toán K-means Trước thực phân cụm với K-means, liệu đầu vào chuẩn hóa theo cơng thức (2) Q trình phân cụm thuật toán K-means bao gồm bước sau: Bước 1: Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm đại diện tâm cụm C1, C2, … CK Bước 2: Tính khoảng cách điểm đến K tâm (thường dùng khoảng cách Euclidean) Bước 3: Nhóm đối tượng vào cụm gần Bước 4: Xác định lại tâm cho cụm Bước 5: Thực lại bước sai số bình phương khơng thay đổi Cách thức chung để thử nghiệm hệ thống phát lưu lượng mạng bất thường (hay rộng phát công mạng) là: 1) Thu thập liệu mạng điều kiện hoạt động bình thường (dữ liệu sạch, chưa có cơng hay bất thường); 2) Thiết lập tập liệu mẫu cho lưu lượng bình thường, tạo đường sở; 3) Thu thập liệu mạng thực tế so sánh với tập mẫu bình thường (đường sở) để phát Các chuẩn thu thập lưu lượng phổ biến tcpdump, flowdump, netflow, IPFIX Dữ liệu thu thường bao gồm những thông tin bản địa chỉ IP nguồn và đích, cổng nguồn và đích, giao thức… Để thiết lập tập liệu mẫu, thuộc tính quan trọng luồng tin tách tổng hợp, chuẩn hóa thành thuộc tính (attribute) hay đặc trưng (feature) [19-22] Các Việc xác định giá trị K ảnh hưởng nhiều đến kết thuộc tính thường thống kê từ giá trị phân cụm phát bất thường Phát thu với tham số khác loại giao ngoại lai dựa phân loại liệu vào cụm thức, kết nối, thời gian,…[1,2,5,6,12] Số năm 2016 Tạp chí KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN Do việc thu thập, tổng hợp liệu qua công cụ tcpdump, flowdump,… chuyển đổi thành thuộc tính đòi hỏi nhiều thời gian, công sức nên hầu hết nghiên cứu tới sử dụng tập liệu có sẵn thu thập mạng thực tế để thử nghiệm Điển hình tập liệu KDD, NSL-KDD, Kyoto Honeypot [19-22] Đây thực chất liệu thực thu từ mạng hoạt động Để giúp nhà nghiên cứu đánh giá, so sánh phương pháp đề xuất, tập liệu thường đánh nhãn để phân biệt bình thường (phục vụ cho thiết lập tập mẫu bình thường) bất thường hay có cơng (phục vụ cho việc kiểm nghiệm) Đây liệu đo từ thực tế, nên việc sử dụng tập liệu để kiểm nghiệm không ảnh hưởng đến chất lượng phương pháp phát Tương tự nghiên cứu [1,4,5-10,12-16], báo sử dụng tập liệu nêu thu từ mạng thực tế để kiểm nghiệm B Tập liệu Kyoto Honeypot Đây tập liệu thực tế thu hệ thống “bẫy” tổ ong (Honeypot) đại học Kyoto (Nhật Bản) từ năm 2006 đến năm 2009 [22] Honeypot sử dụng với mục đích đánh lừa tin tặc công vào hệ thống để thu thập liệu cho việc phân tích dấu vết Bảng I Thuộc tính dùng thử nghiệm tập liệu Kyoto Honeypot Thuộc tính Ý nghĩa dst_host_count 10 dst_host_srv_ count Số lượng kết nối đến địa đích xét dịch vụ đích 11 dst_host_same_ src_port_rate số kết nối có cổng % nguồn với kết nối xét trường dst_host_count 12 dst_host_serror_ số kết nối có lỗi SYN % rate dst_host_count Số lượng địa đích 13 dst_host_srv_ serror_rate số kết nối có lỗi SYN % dst_host_srv_count 14 destination Port Number Số hiệu cổng đích kết nối Lưu lượng thu từ hệ thống Honeypot có điểm đặc biệt phần lớn cơng có nguồn gốc từ Internet Các thuộc tính tập liệu tương tự KDDCUP 99 lược bỏ bớt thuộc tính coi khơng cần thiết Số thuộc tính tương đương với KDDCUP 99 14 Ngoài tập bổ sung thêm 10 thuộc tính khác Kyoto Honeypot có ưu điểm phản ánh xác quy luật biến thiên mạng điều kiện bình thường tính khách quan kiện bất thường lưu lượng mạng Internet C Các thông số đánh giá • True Positive (TP): Sự kiện mẫu bất thường phát xác No Thuộc tính duration service src_bytes Số lượng byte gửi từ nguồn đến đích • True Negative (TN): Sự kiện mẫu bình thường phát xác dst_bytes Số lượng byte gửi từ đích nguồn count Số lượng kết nối đến địa đích xét 2s • False Negative (FN): Sự kiện phát mẫu bình thường song thực tế bất thường same_srv_rate Số lượng kết nối count có kiểu dịch vụ serror_rate Số kết nối có lỗi đồng SYN % srv_serror_rate Số kết nối có lỗi đồng % SYN kiểu dịch vụ thời gian s Ý nghĩa No Thời gian kết nối Dịch vụ (ví dụ HTTP) Tạp chí KHOA HỌC CƠNG NGHỆ 10 THƠNG TIN VÀ TRUYỀN THƠNG Số năm 2016 • False Positive (FP): Sự kiện phát mẫu bất thường song thực tế bình thường • Precision (PR): Tỷ lệ số mẫu phát bất thường xác tổng số mẫu phát bất thường tập liệu kiểm tra: PR = TP TP + FP )9( • True Positive Rate (TPR) gọi Recall: Tỷ lệ số mẫu bất thường phát Nguyễn Hà Dương, Hoàng Đăng Hải xác số mẫu bất thường thực tế tập liệu kiểm tra: giá trị thành phần chủ yếu nhiều Điều làm ngoại lai có xu hướng xuất thành phần thứ yếu Vì TP TPR = )10( k = 14, có suy giảm rõ rệt tỷ lệ TPR kết TP + FN phát so với lựa chọn sử dụng thành • False Positive (FPR): Tỷ lệ số mẫu bất phần thứ yếu Do cần thiết có chuẩn thường phát sai số mẫu bình thường hóa theo mức biến thiên trị riêng cho tập liệu kiểm tra thành phần cần sử dụng khoảng cách FP FPR = )11( với thành phần chủ yếu công TN + FP thức (5),(6),(7) Total Accuracy (TA): Độ xác tổng số mẫu phát xác bất thường bình thường số mẫu tập liệu: TP + TN TA = TP + FP + TN + FN )12( Trong thông số trên, TPR FPR hai thông số quan trọng TA cho biết tỷ lệ phát tổng cộng PR thông số hay sử dụng nhiên giá trị PR số trường hợp khơng biểu thị hồn tồn độ xác Ví dụ: số lượng mẫu bình thường gấp 100 lần số lượng mẫu bất thường, cần tỷ lệ 1% FPR làm cho PR thấp D Kết thử nghiệm Bảng II Thử nghiệm với liệu huấn luyện wi c k PR (%) TPR (%) FPR (%) TA (%) 2 98.4 91.8 93.5 98.4 89.2 2.9 91.7 14 98.5 57 1.8 70.3 1/λi 2 98.7 90.8 2.5 93 1/λi 98.5 91.1 2.9 93 1/λi 98.5 91.9 2.8 93.6 1/λi 98.5 92 2.8 93.7 1/λi 14 98.8 87.9 2.1 91.2 / li 98.5 91.3 2.89 93.2 / li 14 98.9 88.6 2.1 91.6 Bảng II thống kê kết phát thử nghiệm 1/ li 98.6 91.4 2.7 93.3 với liệu huấn luyện Kyoto Honeypot với trọng số số thành phần khác 1/ li 14 98.8 91.5 2.3 93.5 Dữ liệu pha huấn luyện sử dụng 5.000 kết nối đánh nhãn bình thường Dữ liệu pha phát có 1 98.4 90.1 2.9 92.4 số lượng khoảng 100.000 - 120.000 kết nối 1 14 98.5 62.9 1.9 74.4 Giá trị k bảng II - VI số thành phần Các ngày khảo sát lựa chọn ngẫu Theo công thức (5): Công thức (5) chuẩn hóa tất thành phần với wi = 1/ li làm nhiên để có kết khách quan cho giá trị phân phối đồng Theo công thức (3), wi = 1, c = 2: Các kết d Khi k=14, giá trị d tương đương với khoảng tương tự với số thành phần k = 2, cách Mahalanobis thống kê T2 Có thể thấy k = 3, k = 4, k = Kết dựa nghiên sử dụng thành phần thứ yếu cứu [5, 13] công thức (4) tương đương (k=2,3,4,5), kết phát đạt tương tự k=14 Điều cho thấy bất thường có cơng thức (3) wi =1, c = xu hướng xuất thành phần Nếu sử dụng tất thành phần (k = 14), thứ yếu Do không cần thiết phải sử dụng tất chênh lệch giá trị thành phần thành phần cơng thức tính d, chủ yếu thứ yếu, giá trị d chứa giảm số chiều liệu cần tính tốn Số năm 2016 Tạp chí KHOA HỌC CÔNG NGHỆ 11 THÔNG TIN VÀ TRUYỀN THÔNG PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN Tỷ lệ của TPR chỉ sử dụng các thành phần chính thứ yếu còn cho thấy không cần thiết phải thực hiện tính cả hai khoảng cách và so sánh hai mức ngưỡng song song nghiên cứu của Shyu [14] tung w=1, c=1, k=3 Điểm hồn hảo điểm góc bên trái với tọa độ (0,1) TPR 100% FPR 0% Trên thực tế đạt kết Việc lựa chọn điểm tối ưu khó thực điểm liên tục thay đổi với lưu lượng mạng Trong thử nghiệm, Theo công thức (6), wi = / li , c = 1: Các kết báo lựa chọn mức ngưỡng cố định theo hàm phân phát tương đương cơng thức bố tích lũy thực nghiệm với tỷ lệ sai số ước tính (5) cơng thức (6) đơn giản khơng (FPR) khoảng 2-5% phải tính bình phương cho thành phần Từ kết thử nghiệm thấy, điều d kiện liệu huấn luyện sạch, lựa chọn Theo cơng thức (7), wi = 1/ li , c = 1: Các kết thành phần thứ yếu với k = k = để phát tương đương công thức giảm số chiều liệu (5), (6) khơng phải tính bậc hai trị Khi liệu huấn luyện dPCA bán giám sát riêng pha huấn luyện chứa ngoại lai, kết TPR thấp (bảng III) Theo công thức (8), wi = 1, c = 1: Đây công thức đơn giản kết phát tương đương công thức (4), (5), (6), (7) sử dụng thành phần thứ yếu Với k = 14, giống công thức (4), chênh lệch giá trị thành phần làm giảm tỷ lệ TPR Số lượng kết nối trước loại bỏ ngoại lai nhỏ 10000 Số lượng ngoại lai liệu huấn luyện 10% tổng số kết nối bình thường.Lưu ý TPR cho biết khả phát bất thường tổng số bất thường thử nghiệm Nếu khả phát bất thường thấp làm cho hiệu phương pháp đề xuất suy giảm Ngoại lai làm ảnh hưởng đến thông số huấn luyện làm sai lệch kết phát Bảng III Kết phát dPCA trước loại bỏ ngoại lai liệu huấn luyện wi c k PR )%( TPR )%( FPR )%( TA )%( 98.9 4.66 35.7 / li 14 97.7 16.4 0.8 43.4 / li 14 98.2 16 0.6 43.2 Bảng IV Kết phát loại bỏ ngoại lai dPCA chế độ khơng giám sát Hình Đồ thị ROC d biểu diễn quan hệ tỷ lệ FPR TPR với liệu huấn luyện wi =1, c=1, k=3 wi c k PR )%( TPR )%( FPR )%( TA )%( / li 14 50 100 11.1 90 / li 14 49.7 99.3 11.1 89.9 / li 14 49.3 98.6 11.2 89.7 Hình đồ thị ROC [23] với khoảng cách d biểu Bảng IV thống kê tỷ lệ phát với phương thị mối quan hệ tỷ lệ cảnh báo sai (FPR) pháp dPCA chế độ khơng giám sát (trước trục hồnh tỷ lệ cảnh báo (TPR) trục huấn luyện) với mục đích loại bỏ ngoại Tạp chí KHOA HỌC CƠNG NGHỆ 12 THƠNG TIN VÀ TRUYỀN THƠNG Số năm 2016 Nguyễn Hà Dương, Hồng Đăng Hải lai cho liệu huấn luyện Tất ngoại ngoại lai liệu huấn luyện với K-means lai phát bị loại bỏ tập liệu huấn wi = 1/li, c = 1, k = luyện chế độ bán giám sát Ngưỡng d Bảng VI Kết phát loại bỏ ngoại lai đặt 75% đến 80% hàm phân bố K-Means liệu huấn luyện tích lũy thực nghiệm Chế độ khơng giám sát PR TPR FPR TA Test dPCA sử dụng để phát bất thường )%( )%( )%( )%( cần thiết Bảng V Kết phát dPCA bán giám sát sau loại bỏ ngoại lai liệu huấn luyện wi c k PR )%( TPR )%( FPR )%( TA )%( 78.9 99.1 5.1 95.6 / li 73.2 97.4 6.9 93.8 / li 14 78 100 5.4 95.4 / li 75.2 100 6.4 94.6 / li 84 98.3 3.6 96.7 / li 14 76.6 100 95 1 84.3 93.3 3.4 96.1 42.1 100 15.2 86.3 39.6 100 16.9 84.8 44.2 98.5 14 87.4 30.5 100 25.3 77.1 34.7 83.5 17.5 82.6 Bảng VII Kết phát dPCA sau loại bỏ ngoại lai K-Means liệu huấn luyện Bảng V kết phát dPCA chế độ bán giám sát sau loại bỏ ngoại lai Hình đồ thị ROC d sau khử ngoại lai liệu huấn luyện với dPCA chế độ không giám sát wi =1, c=1, k=3 PR )%( 79.7 TPR )%( 100 FPR )%( 15.7 TA )%( 90 77.5 100 18.3 88.8 14 77.7 100 18.1 88.88 79.8 100 15.6 90.3 14 79.6 84.3 13.4 85.7 91.8 100 5.6 96.6 14 86.4 100 9.9 93.9 77.8 97.5 17.5 88.3 wi k Hình Đồ thị ROC d sau khử ngoại lai với dPCA chế độ không giám sát liệu huấn luyện với wi =1, c=1, k=3 Bảng VI thống kê kết phát loại bỏ ngoại lai K-means Bảng VII kết phát Hình Đồ thị ROC d sau khử ngoại lai liệu huấn sau loại bỏ ngoại lai K-means luyện với K-means wi = 1/ li , c=1, k=3 liệu huấn luyện cho chế độ bán giám sát dPCA Hình đồ thị ROC d sau khử Sự xác dPCA chế độ bán giám sát phụ Số năm 2016 Tạp chí KHOA HỌC CƠNG NGHỆ 13 THÔNG TIN VÀ TRUYỀN THÔNG PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN thuộc chất lượng liệu huấn luyện bao gồm số lượng ngoại lai lẫn vào liệu huấn luyện, mức độ biến thiên lưu lượng mạng điều kiện bình thường khác biệt kết nối bình thường với bất thường tính d Những kết thống kê đạt điều kiện liệu mạng bình thường khác biệt đáng kể với điều kiện bất thường Tuy nhiên, có khoảng thời gian khác biệt bị thu hẹp làm cho kết phát có sai số lớn Bảng VIII kết thống kê dPCA với liệu bình thường có đột biến ngày với tập liệu Kyoto Honeypot thay đổi thường xuyên Một mức ngưỡng cho kết tốt với thời điểm lại không phù hợp với thời điểm khác Một giải pháp cho vấn đề coi liệu bình thường gây đột biến lưu lượng ngoại lai Từ đó, thay đặt lại mức ngưỡng cho d, áp dụng phương pháp khử ngoại lai trình bày để làm liệu huấn luyện Bảng VIII Kết phát dPCA liệu bình thường có thay đổi đột biến wi c k PR )%( TPR )%( FPR )%( TA )%( 94.4 54.4 81.3 li/1 94.5 55.5 81.78 li/1 14 95 65.4 2.1 85.4 / li 94.3 53.9 81.2 Hinh Đồ thị ROC d với wi = 1/ li , c=1, k=14 / li 14 95.6 70.3 87.4 1 94.3 54 81.2 Bảng IX Kết phát tốt (TPR) dPCA so với Bảng VIII khử ngoại lai dữ liệu huấn luyện Kết bảng VIII cho thấy, tỷ lệ TPR k = 14 cao k = Lý bất thường trường hợp khơng xuất PC thứ yếu mà thành phần khác Do bên cạnh dPCAL1, sử dụng dPCAL2 với nhiều thành phần (k = 14) để phát bất thường cần thiết Để có kết TPR tốt hơn, ta thay đổi mức ngưỡng với giá trị phù hợp với đồ thị ROC d Thí dụ với trường hợp wi=1/li, c=1, k=14 (đồ thị ROC Hình 5), hạ mức ngưỡng xuống 95% hàm ecdf kết PR = 91.8%, TPR = 91%, FPR = 5%, TA = 93.5% Tương tự với trường hợp wi c k PR )%( TPR )%( FPR )%( TA )%( 81.2 92.6 13.2 89 / li 81.7 93.5 13 89.5 / li 14 79.7 83.9 13.2 85.7 li/1 86.6 99.8 9.5 94.1 li/1 14 80 93 14.4 88.5 1 80.1 91.8 14.1 88.17 Kết phát dPCA sau khử ngoại lai thống kê Bảng IX Như vậy, việc khử ngoại lai áp dụng cho trường hợp liệu bình thường gây thay đổi wi= / li , c=1, k=14 hạ mức ngưỡng xuống đột biến lưu lượng không giống với đại 92% hàm ecdf kết PR = 87.5%, đa số liệu bình thường khác TPR = 90.2%, FPR = 8%, TA = 91.3% Các kết thử nghiệm cho thấy, việc áp dụng Nhưng trình bày phần trên, chọn mức dPCA với dPCAL1 dPCAL2 chấp nhận ngưỡng phù hợp với điểm tối ưu TPR FPR thực tế Đây khơng phải kết khó lưu lượng mạng thực tế làm cho điểm phát hiện tốt mà phương pháp đề xuất đạt Tạp chí KHOA HỌC CƠNG NGHỆ 14 THƠNG TIN VÀ TRUYỀN THƠNG Số năm 2016 Nguyễn Hà Dương, Hồng Đăng Hải các tác giả đưa vào bài báo để đảm TÀI LIỆU THAM KHẢO bảo tính khách quan với sự thay đổi của lưu lượng [1] M.Bhuyan, D.Bhattacharyya, J.Kalita, mạng Những biến động trạng thái bình “Network anomaly detection: Methods, thường lưu lượng mạng phức tạp systems and tools,” IEEE Communications kiện bất thường, dPCAL1 khơng phát Surveys Tutorials, vol 16, no 1, pp 303hiện hết bất thường xảy Vì 336, 2014 dPCAL2 giải pháp hỗ trợ cho dPCAL1 [2] S Myers, J Musacchio, N Bao, bất thường xuất thành phần “Intrusion Detection Systems: A Feature khác and Capability Analysis,” Tech Report UCSC-SOE-10-12, Jack Baskin School of V KẾT LUẬN Engineering, 2010 Các phương pháp phát lưu lượng mạng bất [3] K Wankhade, S Patka, R Thool, “An Overview of Intrusion Detection Based on thường khó phức tạp nhiều so với phương Data Mining Techniques,” Proc of IEEE pháp phát dựa dấu hiệu truyền thống CSNT, 2013 trước mẫu dấu hiệu Ngồi ra, có nhiều vấn đề thách thức cần mơ hình hóa trạng thái [4] C Kacha, K A Shevade, “Comparison of bình thường, trích chọn đặc trưng liệu cho Different Intrusion Detection and Prevention Systems,” Intl Journal of Emerging giảm độ phức tạp bảo đảm độ Technology and Advanced Engineering, vol xác tốc độ phát hiện, loại bỏ ngoại lai gây sai 2, no.12, pp.243-245, 2012 lệch liệu huấn luyện Kết nghiên cứu cho thấy áp dụng thuật toán PCA sở để chuyển liệu sang miền PCA nhằm giảm chiều liệu nhằm khắc phục nhược điểm Việc lựa chọn thành phần chủ yếu thứ yếu giúp giảm độ phức tạp, tăng độ xác cần Bài báo đề xuất phương pháp dPCA cải tiến từ PCA sở với phương pháp tính khoảng cách tổng hợp cho cơng thức tính trước Khi liệu chuyển sang miền PCA, dPCA phát mợt sớ loại ngoại lai hiệu dPCA dùng phương pháp tính khoảng cách để chọn đường sở phân cụm để khử ngoại lai liệu huấn luyện Kết thử nghiệm cho thấy thay đổi độ xác phương pháp đề xuất với tham số khác thuật tốn tính khoảng cách số lượng thành phần tùy theo yêu cầu thực tế Kết phân tích thử nghiệm cho thấy dPCA phát lưu lượng mạng bất thường điều kiện liệu huấn luyện chứa ngoại lai Đây đóng góp so với cơng trình nghiên cứu trước [5] A Lakhina, M Crovella, and C Diot, “Diagnosing network-wide traffic anomalies,” Proc of ACM SIGCOMM, pp 219–230, 2004 [6] A Patcha, J.M Park, “An Overview of Anomaly Detection Techniques: Existing Solutions and Latest Technological Trends” The International Journal of Computer and Telecom-munications Networking, vol 51, no 12, pp 3448-3470, Aug 2007 [7] W Zhang, Q Yang, Y Geng, “A Survey of Anomaly Detection Methods in Networks,” Proc of International Symposium on Computer Network and Multimedia Technology, Jan 2009, pp 1–3 [8] M Thottan, G Liu, C Ji, Anomaly Detection Approaches for Communication Networks: Algorithms for Next Generation Networks, G Cormode, Ed London: Springer, 2010, pp 239-261 [9] V Jyothsna, V V Rama Prasad, K M Prasad, “A Review of Anomaly based Intrusion Detection Systems,” International Số năm 2016 Tạp chí KHOA HỌC CƠNG NGHỆ 15 THÔNG TIN VÀ TRUYỀN THÔNG PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN Journal of Computer Applications, vol 28, [19] M Tavallaee, E Bagheri, W Lu, A A Ghorbani A Detailed Analysis of the KDD no 7, pp 28-34, 2011 CUP 99 Data Set., Proc of IEEE CISDA [10] A Jain, B Verma, J L Rana, “Anomaly 2009 Intrusion Detection Techniques: A Brief Review,” International Journal of Scientific [20] The KDD99 cup data, http://kdd.ics.uci.edu/ databases/kddcup 99/kddcup99.html, 1999 & Engineering Research, vol 5, no 7, pp 17-23, 2014 [21] The NSL-KDD data, http://nsl.cs.unb.ca/ nsl-kdd, 2009 [11] Y Bouzida Efficient intrusion detection using principal component analysis Proc [22] J Song, H Takakura, Y Okabe, “Description of 7th World Multiconference on Systemics, of Kyoto University Benchmark Data,” 2006, Cybernetics and Informatics, 2003 pp 1-3 (http://www.taka kura.com/Kyoto data/BenchmarkData-Description-v5.pdf) [12] A Lakhina, M Crovella, and C Diot, “Mining anomalies using traffic feature [23] https://vi.wikipedia.org/wiki/Duong_cong_ distributions,” Proc of ACM SIGCOMM, ROC 2005 NETWORK TRAFFIC ANOMALY [13] W Wang and R Battiti, “Identifying DETECTION |WITH OUTLIER Intrusions in Computer Networks with IN TRAINING DATA Principal Component Analysis,” Proc of IEEE ARES, 2006 [14] M Shyu, S Chen, K Sarinnapakorn, L Chang Principal Componentbased Anomaly Detection Scheme Foundations and Novel Approaches in Data Mining, vol 9, pp 311329, 2006 [15] D Brauckhoff, K Salamatian, M May, “Applying PCA for Traffic Anomaly Detection: Problems and Solutions,” Proc of IEEE INFOCOM, 2009 [16] L Mechtri, F D Tolba, N Ghoualmi, “Intrusion detection using principal component analysis,” Proc of IEEE ICESMA, 2010 [17] L Ertoz, E Eilertson, A Lazarevic, P Tan, V Kumar, and J Srivastava, “Data MiningNext Generation Challenges and Future Directions,” MIT Press, 2004 [18] Nguyễn Hà Dương, Hoàng Đăng Hải, “Phát lưu lượng mạng bất thường sử dụng phương pháp PCA lựa chọn đặc tính liệu,” Chun san cơng trình nghiên cứu điện tử, viễn thơng cơng nghệ thơng tin, Tạp chí Khoa học công nghệ, Tập 53, Số 2C, 2015, tr.52-64 Tạp chí KHOA HỌC CƠNG NGHỆ 16 THƠNG TIN VÀ TRUYỀN THÔNG Số năm 2016 Abstract: Network traffic anomaly detection has many challenges: adjust threshold, extract data features, reduce data dimension, precision parameters, etc Besides that, outliers can significantly impact the performance of detection This paper describes the issues of network traffic anomaly detection with outliers in training data and proposes an enhanced method (called dPCA) based on principal component analysis algorithm The experiment was evaluated witth Kyoto Honeypot dataset Nguyễn Hà Dương, KS (2001), ThS (2003) ĐH Bách Khoa Hà Nội Giảng viên Khoa CNTT, Trường ĐH Xây dựng Hà Nội Lĩnh vực nghiên cứu: Mạng hệ thống thơng tin, an ninh mạng, viễn thơng Hồng Đăng Hải, PGS.TSKH., TS (1999), TSKH (2003) Đại học Tổng hợp Kỹ thuật Ilmenau, CHLB Đức Học viện Công nghệ Bưu Viễn thơng Lĩnh vực nghiên cứu: Chất lượng dịch vụ, giao thức truyền thông, hiệu mạng, mạng hệ thống thông tin, an ninh mạng, viễn thông ... PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN thuộc chất lượng liệu huấn luyện bao gồm số lượng ngoại lai lẫn vào liệu huấn luyện, mức độ biến thiên lưu lượng mạng điều. ..PHÁT HIỆN LƯU LƯỢNG MẠNG BẤT THƯỜNG TRONG ĐIỀU KIỆN DỮ LIỆU HUẤN LUYỆN khơng nằm tập bình thường bị coi bất quan Phần III trình bày phương pháp đề xuất thường Các phương pháp phát lưu lượng. .. phát lưu lượng mạng bất thường (hay rộng phát công mạng) là: 1) Thu thập liệu mạng điều kiện hoạt động bình thường (dữ liệu sạch, chưa có cơng hay bất thường) ; 2) Thiết lập tập liệu mẫu cho lưu

Ngày đăng: 30/01/2020, 11:37

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN