Nghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụ
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Phùng Văn Thuần NGHIÊN CỨU HỆ THỐNG PHÁT HIỆN XÂM NHẬP IDS CHO MÁY CHỦ DỊCH VỤ CHUYÊN NGÀNH HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN CHIẾN TRINH HÀ NỘI – 2018 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: Tiến Sĩ Nguyễn Chiến Chinh (Ghi rõ học hàm, học vị) Phản biện 1: PGS TS Lê Thanh Hương Phản biện 2: TS Vũ Văn Thỏa Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng .năm 2018 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Kể từ đời, Internet không ngừng phát triển mở rộng mang lại nhiều tiện ích hữu dụng như: hệ thống thư điện tử, trị chuyện trực tuyến, tìm kiếm liệu, trao đổi thơng tin Khả kết nối tồn giới mang lại thuận tiện cho tất người, tiềm ẩn nguy khó lường đe dọa tới mặt đời sống xã hội Việc trộm thông tin mạng gây ảnh hưởng đến tính riêng tư cho cá nhân, vụ lừa đảo, công gây từ chối dịch vụ gây ảnh hưởng lớn đến hoạt động kinh doanh cho cơng ty gây phiền tối cho người sử dụng Internet làm cho vấn đề bảo mật mạng ln vấn đề nóng quan tâm đến thời điểm Bên cạnh đó, hình thức phá hoại mạng trở nên tinh vi phức tạp Do hệ thống, nhiệm vụ bảo mật đặt cho người quản trị mạng quan trọng cần thiết Xuất phát từ thực tế đó, việc tìm hiểu cách công phổ biến phịng chống loại cơng thiết thực Vấn đề bảo mật đặt đóng góp lớn việc hạn chế ngăn chặn bảo mật, Firewall ngăn chặn kết nối khơng đáng tin cậy, mã hóa làm tăng độ an tồn cho việc truyền liệu, chương trình diệt virus với các sở liệu cập nhật Những yêu cầu dẫn đến yêu cầu phải có phương pháp bảo mật hỗ trợ cho phương pháp bảo mật truyền thống Hệ thống phát hiệm xâm nhập IDS (Intruction Detection System) hệ thống giám sát lưu thơng mạng có khả phát hoạt động khả nghi hay hành động xâm nhập trái phép hệ thống mạng tiến trình cơng, cung cấp thơng tin nhận biết đưa cảnh báo cho hệ thống, người quản trị Từ lý trên, học viên lựa chọn đề tài “Nghiên cứu hệ thống phát xâm nhập IDS cho máy chủ dịch vụ ” cho luận văn Thạc sĩ Mục đích nghiên cứu luận văn - Nghiên cứu hệ thống phát xâm nhập IDS cho máy chủ dịch vụ - Nghiên cứu kỹ thuật phân tích lưu lượng dựa thống kê, học máy nhằm phát sớm dấu hiệu công phần mềm độc hại - Nghiên cứu hệ thống phát xâm nhập trái phép dựa phân tích lưu lượng mạng bất thường - Đề xuất xây dựng hệ thống phát xâm nhập trái phép IDS cho máy chủ dịch vụ dựa thuật toán PCA Xây dựng hệ thống IDS cho thiết bị mạng, thiết lập hệ thống thu thập thông tin cho vùng lưu lượng mạng, kết hợp với hệ thống IDS cho máy chủ tạo thành hệ thống cho toàn mạng II NỘI DUNG Nội dung luận văn chia thành chương với nội dung cụ thể sau: Chương 1: TỔNG QUAN VỀ IDS - Khái quát IDS - Phân loại IDS - Kiến trúc thành phần IDS - Cơ chế hoạt động IDS - Kết luận chương Chương 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH LƯU LƯỢNG PHÁT HIỆN TẤN CƠNG MẠNG - Phân tích lưu lượng mạng điển hình - Phân tích lưu lượng mạng dựa học máy khai phá liệu - Phân tích lưu lượng bất thường - Kết luận chương Chương 3: ỨNG DỤNG PCA XÂY DỰNG IDS CHO MÁY CHỦ DỊCH VỤ - Kiến trúc hệ thống giám sát - Phạm vi thu thập liệu - Đề xuất phương pháp xây dựng IDS máy chủ dịch vụ đánh giá kết - Kết luận chương CHƯƠNG 1: TỔNG QUAN VỀ IDS 1.1 Khái quát IDS Hệ thống phát xâm nhập (Intrusion Detection System - IDS) hệ thống phần cứng phần mềm có chức giám sát lưu thơng mạng, tự động theo dõi kiện xảy hệ thống máy tính, phân tích để phát vấn đề liên quan đến an ninh, bảo mật đưa cảnh báo cho nhà quản trị IDS phân biệt công vào hệ thống từ bên (từ người hệ thống) hay cơng từ bên ngồi (từ hacker) IDS phát dựa dấu hiệu đặc biệt nguy biết (tương tự phần mềm dựa virus dựa vào dấu hiệu đặc biệt để phát diệt virus) hay dựa so sánh lưu lượng mạng với baseline (thông số đo đạc chuẩn hệ thống) để tìm dấu hiệu khác thường Một hệ thống phát xâm nhập trái phép cần thỏa mãn yêu cầu sau: ✓ Tính xác (Accuracy) ✓ Hiệu (Performance) ✓ Tính trọn vẹn (Completeness) ✓ Chịu lỗi (False Tolerance) ✓ Khả mở rộng (Scalability) 1.1.1 Lịch sử phát triển IDS Trên giới: Ra đời cách khoảng 30 năm, khái niệm phát xâm nhập xuất qua báo James Anderson Khi người ta cần IDS với mục đích dị tìm nghiên cứu hành vi bất thường thái độ người sử dụng mạng, phát việc lạm dụng đặc quyền để giám sát tài sản hệ thống mạng 1.1.2 Lợi ích chung IDS Ưu điểm hệ thống phát kiểu công chưa biết trước Tuy nhiên, hệ thống lại sinh nhiều cảnh báo sai định nghĩa chung công Thống kê cho thấy hệ thống này, hầu hết cảnh báo cảnh báo sai, có nhiều cảnh báo từ hành động bình thường, có vài hành động có ý đồ xấu, hầu hết hệ thống có khả giới hạn cảnh báo nhầm 1.1.3 Những thành phần IDS - Hệ thống đăng nhập mạng sử dụng để phát lỗ hổng vấn đề từ chối dịch vụ (DoS) mạng Ở có hệ thống kiểm tra lưu lượng mạng - Các công cụ đánh giá lỗ hổng kiểm tra lỗi lỗ hổng hệ điều hành, dịch vụ mạng (các quét bảo mật) - Các sản phẩm chống virus thiết kế để phát phần mềm mã nguy hiểm virus Trojan horse, worm Mặc dù tính mặc định giống hệ thống phát xâm nhập thường cấp công cụ phát lỗ hổng bảo mật hiệu - Tường lửa (firewall) - Các hệ thống bảo mật/mật mã, ví dụ VPN, SSL, S/MIME, Kerberos, Radius… 1.2 Phân loại IDS 1.2.1 Hệ thống phát xâm nhập dựa host (Host IDS) 1.2.2 Hệ thống phát xâm nhập dựa mạng (NIDS) 1.2.3 Phát xâm nhập IDS lai (Distributed (Hybrid) IDS) 1.3 Kiến trúc IDS Kiến trúc hệ thống IDS bao gồm thành phần chính: - Thành phần thu thập thông tin (Information Collection) - Thành phần phát (Detection) - Thành phần phản ứng (Response) 1.4 Cơ chế phát xâm nhập IDS Mục đích hệ thống IDS nhằm cảnh báo cho người quản trị phát xâm nhập Những hệ thống báo trộm kích hoạt tín hiệu dựa chuyển động đầu dị Các hệ thống IDS có hai dạng chế kích hoạt (triggering mechanism): - Phát sử dụng sai (dựa dấu hiệu) - Phát bất thường (dựa mô tả sơ lược) 1.5 Kết chương Chương trình bày tổng quan sở lý thuyết, nghiên cứu liên quan đến IDS, đề tài luận văn bao gồm nội dung sau: - Tổng quan hệ thống phát xâm nhập IDS, ưu điểm, nhược điểm hệ thống phát xâm nhập IDS - Phân loại IDS theo dựa host dựa mạng - Kiến trúc thành phần hệ thống phát IDS - Cơ chế hoạt động – phát xâm nhập hệ thống IDS Chương 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH LƯU LƯỢNG PHÁT HIỆN TẤN CÔNG MẠNG 2.1 Tổng quan phương pháp, mơ hình phân tích phát lưu lượng bất thường Trong nhiều năm qua, có nhiều giải pháp đưa để phân tích phát lưu lượng bất thường Các mơ hình, phương pháp phân tích phát lưu lượng bất thường chia thành nhóm là: nhóm phương pháp thống kê, nhóm phương pháp dựa vào tri thức, nhóm phương pháp dựa vào khai phá liệu học máy Phương pháp, mơ hình tri thức (Knowledge model) xây dựng luật mẫu dấu hiệu để phát bất thường Về bản, hệ thống cần thu thập thông tin tri thức loại bất thường khác Phương pháp khai phá liệu học máy (Data mining/Machine Learning) thường áp dụng phân cụm (Clustering) phân lớp (Classification) để phát bất thường 2.2 Lưu lượng mạng bất thường 2.2.1 Khái niệm lưu lượng mạng bất thường Bất thường định nghĩa “sự sai lệch vượt khỏi phạm vi thủ tục, quy tắc khn dạng bình thường” Lưu lượng mạng bất thường (sau gọi tắt lưu lượng bất thường) lưu lượng luồng thông tin không tuân theo ứng xử, hành vi thơng thường Sự biến đổi bất thường nhiều nguyên nhân khác Việc xét bất thường cho ứng dụng khác nằm phạm vi nghiên cứu luận văn Luận văn tập trung vào phát bất thường chủ yếu liên quan đến lưu lượng mạng mô tả liệu thuộc tính máy chủ dịch vụ 2.2.2 Nguyên nhân gây lưu lượng mạng bất thường Bất thường xảy nhiều nguyên nhân Bảng sau liệt kê nguyên nhân điển hình gây kiện bất thường lưu lượng mạng • Nguyên nhân tắc nghẽn mạng: Đây chất tự nhiên mạng chuyển mạch gói Mơi trường mạng hội tụ với xuất ngày nhiều loại hình dịch vụ, ứng dụng, tắc nghẽn tượng phổ biến • Do tăng đột biến số lượng truy nhập người dùng vào mạng (vào trang tin tức, máy chủ, sở liệu ) • Các cố hệ thống: Lỗi hỏng hóc thiết bị, đường truyền dẫn đến tăng/giảm lưu lượng mạng (giảm tuyến có thiết bị lỗi, tăng sang tuyến khác, tái định tuyến) • Các hành vi qt thăm dị mạng công mạng (làm tràn ngập băng thông, tràn lưu lượng gây đột biến tăng lưu lượng mạng, gây tượng tắc nghẽn cục bộ, công từ chối dịch vụ, sâu, virus…) 2.2.3 Phân tích phát lưu lượng mạng bất thường Phân tích phát lưu lượng mạng bất thường nghĩa cần phân tích, xác định tập hợp phạm vi giới hạn liệu coi bình thường luồng tin thực theo dõi, so sánh liệu tiếp nhận với liệu coi bình thường Nếu liệu khơng nằm tập liệu bình thường coi bất thường Q trình phân tích, phát xử lý bất thường gồm giai đoạn sau: • Thu thập lưu lượng mạng • Tiền xử lý liệu, trích chọn (tách) thuộc tính liệu cần thiết • Phân tích, phát bất thường: dựa mẫu liệu thu thập từ lưu lượng mạng, phân tích tìm liệu có dấu hiệu bất thường để có cảnh báo sớm 12 sai (hoặc ma trận tương quan) phép phân tích SVD (Singular Value Decomposition) sau chuẩn hóa liệu Trong phần này, luận văn trình bày nghiên cứu phương pháp PCA dựa số cơng trình điển hình có, từ đưa đề xuất để cải thiện hiệu phương pháp PCA 2.4 Kết chương Chương trình bày nghiên cứu, phương pháp phân tích lưu lượng bất thường liên quan đến đề tài luận văn Các nội dung sau: - Tổng quan phân loại phương pháp phân tích phát lưu lượng bất thường - Một số phương pháp phân tích phát lưu lượng bất thường điển hình - Nhận xét đánh giá vấn đề phân tích phát lưu lượng bất thường Việc lựa chọn phương pháp phát bất thường đạt hiệu kiểm chứng cần thiết Học viên sử dụng phương pháp PCA chứng tỏ ưu điểm bật có khả ứng dụng thực tiễn 13 Chương 3: ỨNG DỤNG PCA XÂY DỰNG IDS CHO MÁY CHỦ DỊCH VỤ 3.1 Thuật tốn phân tích thành phần PCA 3.1.1 Giới thiệu Phân tích thành phần (Principal Component Analysis - PCA) thuật tốn để phân tích cấu trúc tương quan biến đầu vào PCA chuyển đổi trục tọa độ ban đầu sang trục tọa độ biến ban đầu chuyển thành biến khơng có tương quan gọi thành phần (Principal Component - PC) Các thành phần xếp theo thứ tự giảm dần độ biến thiên (phương sai) Mục tiêu PCA tìm thành phần mơ tả nhiều quy luật biến thiên biến ban đầu Những thành phần dụng để miêu tả cấu trúc tương quan liệu Những thành phần cịn lại coi nhiễu phần dư loại bỏ khơng cần thiết Do PCA cịn thuật toán thường sử dụng để giảm số chiều liệu giữ phần lớn đặc tính liệu Ưu điểm PCA: - Giúp giảm chiều liệu giữ phần lớn đặc tính liệu - Thay giữ lại trục tọa độ không gian cũ, PCA xây dựng khơng gian chiều hơn, lại có khả biểu diễn liệu tốt tương đương không gian cũ, nghĩa đảm bảo độ biến thiên liệu chiều - Các trục tọa độ không gian tổ hợp tuyến tính khơng gian cũ, PCA xây dựng đặc tính (feature) dựa đặc tính quan sát Điểm bật đặc tính biểu diễn tốt liệu ban đầu 14 - Trong không gian mới, liên kết tiềm ẩn liệu khám phá, mà đặt khơng gian cũ khó phát hơn, liên kết khơng thể rõ - Các trục tọa độ không gian đảm bảo trực giao đôi với nhau, khơng gian ban đầu trục khơng trực giao 3.1.2 Thuật tốn PCA Cho ma trận X = {xij} ϵ Rn x p ccác bước PCA sau: Bước 1: Tiền xử lý Dữ liệu ban đầu có giá trị thay đổi bất thường nên cần phải có bước tiền xử lý để chuẩn hóa giá trị cột ma trận X Có hai cách tiền xử lý thường dùng cho PCA Centered PCA Normed PCA Centered PCA: mang tất featute (của cột X) gốc tọa độ: X {xij } Sau bước tiền xử lý, ma trận X đầu vào cho bước xij xij g j (3a) n n gj x i 1 ij n Trong n số dịng X, gj giá trị trung bình cột thứ j X Normed PCA: mang tất feature gốc tọa độ, đồng thời chuẩn hóa quãng độ lệch chuẩn 1: X {xij } xij xij g j n j Trong j độ lệch chuẩn (standard deviation) cột thứ j X Bước 2: Xây dựng khơng gian Tính ma trận hiệp phương sai (covariance) feature X : (3b) 15 T V X X (4) Do tích ma trận X với chuyển vị nên V ϵ Rp x p ma trận positive semidefinite kích thước p x p Hơn V có p trị riêng λi ≥ 0, i =1…p PCA tìm trị riêng vector riêng tương ứng V, xếp theo thứ tự giảm dần trị riêng Giả sử p trị riêng V là: λ1 ≥ λ2 ≥ λp (5) Và véc tơ riêng tương ứng u1, u2, , um Các véc tơ ui hồn tồn tuyến tính, trục khơng gian Bước 3: Chuyển liệu từ không gian ban đầu vào không gian Xây dựng không gian từ k véc tơ (từ lớn đến nhỏ) m véc tơ riêng V, (k < m) Như gọi: U = [u 1| u2|…| uk] ϵ Rm x k tọa độ điểm hệ tọa độ là: F XU 3.1.2.1 Dữ liệu tham số miền PCA Dữ liệu đa biến biểu diện dạng vector Mỗi vector chứa biến (variable) hay thuộc tính (attribute), chiều (dimension) Một vector liệu gọi điểm (point), quan sát (observation), đối tượng (object) tùy thuộc vào bối cảnh sử dụng Ví dụ phân cụm hay dùng thuật ngữ điểm, đối tượng Tuy nhiều cách gọi khác chất thuật ngữ (xét toán phát bất thường) Các vector liệu xếp vào ma trận trở thành hàng ma trận liệu Trong luận văn thuật ngữ quan sát điểm, biến thuộc tính sử dụng thường xuyên với ý nghĩa tương đương 16 3.1.3 Phương pháp phân tích phát lưu lượng bất thường dựa PCA Học viên sử dụng phương pháp phân tích phần dư để xác định lưu lượng bất thường: Phương pháp phân tích phần dư (Residual Analysis) với thống kê Q (Qstatistic) cơng bố cơng trình nghiên cứu Phương pháp nhóm Lakhina ứng dụng vào phát lưu lượng mạng bất thường Trong thống kê, khác biệt giá trị quan sát giá trị dự đón gọi phần dư (residual) Trong miền PCA, phương pháp phân tích phần dư kiểm tra độ lệch quan sát ban đầu từ biến thiên tạo thành m thành phần giữ lại Những thành phần thường phản ánh quy luật biến thiên bình thường lưu lượng mạng Những thành phần cịn lại mang thơng tin bất thường nhiều Điều có nghĩa chuyển sang miền PCA tách thành hai phần riêng biệt phản ánh quy luật biến thiên bình thường bất thường Vì chia thành phần thành hai tập hợp: Tập hợp bình thường S( N ) gồm m thành phần tập bất thường S( A) , gồm p-m thành phần cịn lại Lakhina lựa chọn giá trị m dựa lần độ lệch chuẩn [24,25] Giá trị ui so sánh với giá trị ngưỡng Nếu xuất giá trị lớn mức ngưỡng thành phần thứ m+1, q trình kiểm tra dừng lại Khi m thành phần cọi phần bình thường thuộc tập S( N ) Các thành phần cịn lại coi phần dư chứa thơng tin bất thường nằm S ( A) z z( N ) z( A ) z( N ) giá trị tao lại z từ m thành phần z( A) phần dư cần xét để phát bất thường z( N ) Em EmT z C( N ) z 17 z( A) ( I Em EmT ) z C( A) z Xét độ lớn z( A) Z( A) : z( A) Với C( A) C( A) z (3.7) ma trận tính từ tập liệu ban đầu, quan sát z kiểm tra độ lớn z( A) so sánh với mức ngưỡng 3.1.3.1 Công thức tổng quát khoảng cách thống kê phân tích phát bất thường Việc xác định hệ thống trạng thái bình thường hay bất thường phụ thuộc vào độ lệch hay khoảng cách thống kê (gọi tắt khoảng cách) điểm xét từ trạng thái bình thường Khoảng cách thống kê khơng thiết khoảng cách hình học, hàm entropy, xác xuất, phân bố… coi khoảng cách thống kê Một cách tổng quát, khoảng cách hai điểm x, y không gian Euclidean R với n chiều tính sau : d x y n xi yi i 1 Khoảng cách Euclidean bình phương khoảng cách Euclidean phổ biến nhiều toán thống kê Tuy nhiên với liệu đa biến, biến có độ biến thiên đơn vị khác Những biến có xu hướng tạo giá trị lớn chiếm nhiều phần Euclidean Vì cần có trọng số phù hợp với biến để làm giảm sai lệch cơng thức tính khoảng cách Euclidean Bình phương khoảng cách Euclidean trọng số (Weighted Euclidean Distance) khắc phục phần nhược điểm này: p d i ( xi X ) i 1 Trong đó: i 1/ i2 trọng số biến (3.8) 18 i2 phương sai biến 3.1.4 Thiết lập mức ngưỡng Việc thiết lập mức ngưỡng vấn đề khó phương pháp phát lưu lượng bất thường nói chung Mức ngưỡng tham số “nhạy cảm” tỷ lệ phát bất thường xác tỷ lệ cảnh báo sai (phát nhầm liệu bình thường bất thường) - Phương pháp thứ giả định mơ hình tn theo phân bố thống kê biết trước - Phương pháp thứ hai ước lượng mức ngưỡng dựa thực nghiệm Trong luận văn học viên xác định ngưỡng Q tính theo thống kê Q đề xuất Jackson [22]: Q 1[ c 22 h02 h0 c 1 213 322 h (h 1) 20 ] 1 h0 i (3.9) p i=1,2,3 j m 1 i j giá trị độ lệch mức giới hạn bình thường: c ( cho biết xác xuất hệ thống gặp lỗi) Với cho trước, tính cơng thức tính mực ngưỡng theo cơng thức (3.9) 3.2 Mơ hình hệ thống phân tích liệu bất thường PCA Mơ hình chung hệ thống phát lưu lượng bất thường dựa phương pháp PCA máy chủ thi trắc nghiệm Hệ thống hoạt động theo hai pha: Pha tạo profile: hệ thống cần tạo trước profile với liệu “sạch” (dữ liệu không chứa bất thường) Pha hoạt động ngoại tuyến (offline) Pha phát hiện: pha hoạt động trực tuyến (online) Mỗi quan sát vector chứa thuộc tính liệu cần chuyển sang miền PCA với vector riêng trị riêng có profile Bộ phát áp dụng phương pháp phân tích, phát bất thường so sánh với giá trị ngưỡng Nếu độ lệch 19 vượt giá trị ngưỡng, quan sát coi bất thường ngược lại bình thường Mơ hình bao gồm thành phần sau: • Thu thập, tiền xử lý liệu, tách thuộc tính: lưu lượng mạng thu thập bắt gói tin luồng tin Nếu thực thu thập lưu lượng máy tính dùng cơng cụ tcpdump, flowdump Dữ liệu tiền xử lý, tách thuộc tính khối lượng đặc trưng sử dụng cho trình phân tích, phát bất thường • Bộ biến đổi PCA: liệu q trình chuyển hóa chuyển sang miền liệu PCA Sau trình này, kết thu gồm cặp vector riêng trị riêng (ei , i ) với giá trị thành phần yi quan sát Các véc tơ riêng/trị riêng tính từ ma trận tương quan ma trận hiệp phương sai Các thành phần xếp theo thứ tự giảm dần trị riêng tương ứng • Module phân tích phát bất thường: liệu sau phân tích PCA tiếp tục đưa đến module phát bất thường Tại thực việc phân tích thành phần sử dụng để phát bất thường, tính khoảng cách, thiết lập mức ngưỡng, tạo tham số trạng thái bình thường (profile) Từ profile tạo so sánh với liệu cần kiểm tra để phát bất thường • Cảnh báo: kết phát đưa cảnh báo Hiện kết thường cần phân tích người quản trị hệ thống để tìm hiểu nguyên nhân cảnh báo xuất 20 3.3 Kiến trúc hệ thống giám sát máy chủ dịch vụ thi trắc nghiệm 3.3.1 Phạm vi thu thập liệu Trong luận văn học viên xây dựng thành phần hệ thống mạng thi trắc nghiệm trường Đại học Cơng nghệ Giao thơng vận tải (Hình 3.4): hệ thống trung tâm – Server thi trắc nghiệm, kết nối nội (qua switch, router), kết nối với ISP Internet (có thể có tường lửa) Phạm vi hệ thống giám sát gồm vùng chính: vùng kết nối nội cho máy tính người dùng, vùng hệ thống trung tâm, vùng kết nối Internet 3.2.2 Kiến trúc tổng thể hệ thống giám sát Một hệ thống giám sát điển hình thường gồm phần chính: máy trinh sát phần trung tâm phân tích xử lý hay cịn gọi trung tâm giám sát • Máy trinh sát (sensor): thu thập thông tin kiện mạng chuyển trung tâm giám sát để xử lý, phân tích Ngồi ra, máy trinh sát có thêm chức phân tích, phát sơ để có cảnh báo nhanh gửi trung tâm giám sát • Trung tâm phân tích, xử lý: thực lưu giữ thông tin thu thập vào sở liệu (database), phân tích liệu thu để phát dấu hiệu bất thường, phát công xâm nhập mạng đưa cảnh báo 3.2.3 Máy trinh sát 3.2.4 Trung tâm phân tích, phát cảnh báo 3.3 Nhận dạng, phân loại bất thường khả kết hợp phát lưu lượng bất thường với phát công mạng dựa mẫu dấu hiệu Phát lưu lượng bất thường giai đoạn tồn q trình chẩn đốn ngun nhân bất thường Sau phát cần xác định nguyên nhân, phân loại bất thường biện pháp phòng chống, khắc phục hậu bất thường gây 21 3.4 Mô hình phát lưu lượng bất thường máy chủ dịch vụ Trong hệ thống giám sát, PCA thành phần để phát bất thường mạng cần giám sát cần phải làm việc kết hợp với thành phần khác Một thành phần quan trọng làm việc với PCA phận phát xâm nhập dựa tập mẫu dấu hiệu Dữ liệu đầu vào để tạo tập mẫu kiểm tra phần mềm phát xâm nhập IDS theo mẫu dấu hiệu (ví dụ Snort, Suricata, Bro) để loại bỏ công biết Trong trường hợp liệu đầu vào để tạo tập mẫu đảm bảo (bởi người quản trị mạng), liệu sử dụng trực tiếp làm tập liệu mẫu Bộ biến đổi PCA dùng để tính tham số profile Những liệu đọc vào sau ánh xạ qua tham số profile tính khoảng cách Nếu khoảng cách vượt giá trị ngưỡng, liệu tương ứng coi bất thường, ngược lại bình thường Kết phát kiểm tra lại mẫu dấu hiệu trong, phần mềm phát xâm nhập theo mẫu dấu hiệu Snort/Suricata/Bro phương pháp học máy dựa bất thường biết Những bất thường nhận dạng kiểm tra trực tiếp người Để tránh tải cho IDS theo mẫu dấu hiệu, liệu phát bình thường khơng phải kiểm tra lại toàn IDS theo mẫu dấu hiệu mà kiểm tra lại cách ngẫu nhiên để xem có cơng hay khơng Điều sở liệu IDS chứa nhiều luật (Rule) sử dụng tất luật làm tải IDS Tuy nhiên, thấy nhiều liệu bình thường bị phát cơng, tất liệu bình thường phải kiểm tra IDS 3.4.1 Các loại công phổ biến máy chủ dịch vụ: - Tấn công chủ động (Active Attack) - Tấn công bị động (Passive Attack) - Tấn công mật (Password Attack) 22 - Tấn cơng phá mã khóa (Compromised – key Attack) - Giả mạo địa IP - Vơ hiệu hóa chức hệ thống - Lỗ hổng không cần Login 3.5 Mô thử nghiệm phát công PCA máy chủ dịch vụ: 3.5.1 Tập liệu thử nghiệm KDD (Knowledge Data Mining Data Set) tập liệu tri thức thuộc lĩnh vực khác như: y tế, an ninh mạng, kinh tế… tổng hợp từ điều kiện thực tế sử dụng thuật toán, phương pháp khai phá liệu Một tập liệu hay sử dụng để kiểm nghiệm phương pháp phát xâm nhập KDD - CUP99 KDD - CUP 99 tách trường liệu đặc trưng (thuộc tính) từ gói tin sau tổng hợp lại cho kết nối Các trường liệu hay thuộc tính trở thành biến đầu vào cho chế phát công Tiếp đó, NSL – KDD tập liệu phát triển từ tập KDD - CUP 99 loại bỏ kết nối dư thừa trùng lặp Do khắc phục số nhược điểm quan trọng KDD - CUP 99, NSL – KDD tập liệu có độ tin cậy cao KDD - CUP 99 thử nghiệm phương pháp phát cơng Những phương pháp đề xuất có độ xác cao với KDD CUP 99 thử nghiệm với NSL – KDD có kết bị suy giảm nhiều Những cơng trình nghiên cứu gần thử nghiệm với tạp liệu này, chứng tỏ NSL – KDD tập liệu có đủ độ tin cậy để mô phỏng, thử nghiệm phát bất thường công mạng Với lý trên, chương 3, NSL – KDD tập liệu lựa chọn thử nghiệm phân tích phát lưu lượng bất thường nói chung số loại cơng nói riêng 23 3.5.2 Mơ thử nghiệm phát bất thường số loại công Phần thử nghiệm thực đánh giá thơng số sau: • TPR FPR tồn kết nối thử nghiệm TPR cho biết tỷ lệ phát tổng cộng tất loại công FPR cho biết tỷ lệ phát sai liệu bình thường bị phát cơng • Tỷ lệ phát số loại công: - Smurf: kiểu cơng từ dối dịch vụ số lượng lớn gói tin ICMP với địa nguồn giả mạo máy tính nạn nhân gửi đến địa IP quảng bá Khi thiết bị nhận gói tin quảng bá chấp nhận trả lời, số lượng lớn gói tin làm tràn tài nguyên máy tính nạn nhân - Neptune: kiểu cơng từ chối dịch vụ cách gửi gói tin giả mạo địa IP nguồn để thiết lập phiên làm việc đến máy nạn nhân nhằm làm cho máy nạn nhân bị cạn kiệt tài nguyên - Pingsweep: kiểu cơng qt, thăm dị cách ping qt cổng để tìm máy tính thiết bị hoạt động - Portsweep: công quét cổng, tìm cổng mở dịch vụ chạy máy nạn nhân - Guest password: công dị tìm mật Hiện kiểu cơng thực cách tự động với trợ giúp từ điển mật hay dùng • wi trọng số cơng thức tính khoảng cách, k số thành phần sử dụng k = 16 sử dụng tất PC Trong tất loại công trên, phần lớn việc phát công cần liệu lưu lượng tầng mạng (Network Layer) tầng giao vận (Transport Layer) Tuy nhiên với công “Guest password” yêu cầu phải có liệu 24 tầng ứng dụng ( Application Layer) Đó thuộc tính “num_failed_logins” “logged_in” Do phương pháp PCA phương pháp đa biến, việc kết hợp nhiều thuộc tính với PCA xét tính tương quan thuộc tính Tuy nhiên giá trị ngoại lai thuộc tính miền PCA cho loại bất thường lại biến đổi theo quy luật khác với số lượng PC Chính cần kết hợp phương pháp phát khác đơn biến, đa biến, phương pháp dựa mẫu dấu hiệu, IDS phương pháp phát bất thường… thực tế để phát loại bất thường, cơng mạng Ví dụ ngồi PCA hệ thống giám sát cịn kết hợp IDS Snort, Ossec, Nagios… phần mềm phát xâm nhập dựa mẫu dấu hiệu, theo dõi trạng thái lưu lượng việc sử dụng tài nguyên mạng, máy tính, thiết bị kết nối vào máy chủ dịch vụ 3.6 Kết luận chương Trong chương 3, luận văn trình bày nội dung: - Kiến trúc hệ thống giám sát bao gồm máy trinh sát trung tâm giám sát - Kiến trúc tổng thể hệ thống giám sát, thành phần chức máy trinh sát, thành phần chức trung tâm giám sát - Phương pháp PCA phần mềm tiện tích tích hợp vào phần mềm trinh sát PCA thực chức phân tích, phát lưu lượng bất thường qua điểm trinh sát Mặt khác, PCA cài đặt trung tâm giám sát để thực chức phân tích, phát lưu lượng bất thường toàn phân đoạn mạng có kết nối Internet - Vấn đề nhận dạng, phân loại bất thường khả kết hợp IDS phát lưu lượng bất thường dựa mẫu dấu hiệu Phát lưu lượng bất thường giai đoạn tồn q trình chẩn đốn ngun nhân bất thường - Phân tích tập liệu KDD-CUP 99, NSL-KDD 25 KẾT LUẬN Mạng Internet có phát triển vượt bậc năm qua trở thành tảng thiếu lĩnh vực đời sống Tính mở đa dạng hạ tầng dịch vụ/ứng dụng làm cho khả kiểm sốt mạng Internet khó khăn nhiều lần Sự cố hạ tầng mạng, thay đổi môi trường truyền dẫn, thay đổi cấu hình thiết bị, hoạt động truy cập mạng người dùng, số lượng dịch vụ/ứng dụng so đặc tính lưu lượng biến thiên đa dạng khác sử dụng,… kể hành vi rà quét, trinh sát, thám, cơng mạng,… tạo nên biến động bất thường lưu lượng mạng Việc giám sát, phát lưu lượng mạng bất thường cần thiết, có ý nghĩa quan trọng người quản trị mạng, vận hành mạng Phát bất thường giúp cho người quản trị mạng sớm phát nguyên nhân : tắc nghẽn, cố mạng, lỗi luồng tin, thay đổi định tuyến mạng, đột biến lưu lượng người dùng ứng dụng/dịch vụ kể công mạng Trong số phương pháp khảo sát, thống kê có ưu điểm dựa phân bố biết trước dựa hoàn toàn vào thực nghiệm, tham số trạng thái bình thường thu từ liệu thực nghiệm, phát bất thường với độ xác cao thiết lập tham số hợp lý Tuy nhiên khó thiết lập tham số, mức ngưỡng,… Số lượng thuộc tính lưu lượng mạng dẫn đến tốn phân tích đa biến, có tương quan biến cố có độ phức tạp cao số chiều liệu cần xử lý Do vậy, phương pháp phân tích thành phần PCA đề xuất số năm trở lại Phương pháp PCA quan tâm nhiều cộng đồng nghiên cứu Các phương pháp phân tích phát lưu lượng bất thường dựa PCA có mục tiêu giảm bớt số chiều liệu song đảm bảo trì phần lớn đặc tính liệu, qua giúp phân tích, phát bất thường lưu lượng mạng hiệu 26 Mặc dù tỏ hiệu so với nhiều phương pháp khác, song qua khảo sát cơng trình nghiên cứu điển hình dựa PCA, luận văn vấn đề tồn cần tiếp tục nghiên cứu cụ thể là: - Chưa khử ngoại lai xuất liệu đầu vào dẫn đến có sai lệch kết phát - Mức ngưỡng đưa dựa vào thực nghiệm chưa xác, phát sai sót lưu lượng bình thường bất thường - Đặc trưng PCA thành phần Tuy nhiên sử dụng PC nào, số lượng PC để đạt hiệu đồng thời giảm độ phức tạp tính tốn - Các nghiên cứu PCA chủ yếu phân tích giải pháp, chưa khả áp dụng vị trí cụ thể mạng Những đóng góp luận văn: - Nghiên cứu kỹ thuật phân tích lưu lượng dựa thống kê, học máy nhằm phát sớm dấu hiệu công, xâm nhập phần mềm độc hại Sử dụng thuật toán PCA, kết hợp với IDS phát lưu lượng bất thường qua dấu hiệu để loại bỏ công biết - Đề xuất mơ hình phân tích lưu lượng mạng nhằm phát sớm dấu hiệu công, xâm nhập phần mềm độc hại máy chủ thi trắc nghiệm trường Đại học Công nghệ Giao thông vận tải Hướng phát triển luận văn - Thử nghiệm mơ hình phát xâm nhập mạng dựa phân tích lưu lượng bất thường với tập liệu thực phát trực tuyến - Nghiên cứu phương pháp tự động phát công, xâm nhập trái phép - Nghiên cứu xử lý sau phát bất thường, nhận dạng loại công ... cứu hệ thống phát xâm nhập IDS cho máy chủ dịch vụ - Nghiên cứu kỹ thuật phân tích lưu lượng dựa thống kê, học máy nhằm phát sớm dấu hiệu công phần mềm độc hại - Nghiên cứu hệ thống phát xâm nhập. .. báo cho hệ thống, người quản trị 2 Từ lý trên, học viên lựa chọn đề tài ? ?Nghiên cứu hệ thống phát xâm nhập IDS cho máy chủ dịch vụ ” cho luận văn Thạc sĩ Mục đích nghiên cứu luận văn - Nghiên cứu. .. - Đề xuất xây dựng hệ thống phát xâm nhập trái phép IDS cho máy chủ dịch vụ dựa thuật toán PCA Xây dựng hệ thống IDS cho thiết bị mạng, thiết lập hệ thống thu thập thông tin cho vùng lưu lượng