Một phương án tổ chức ngữ cảnh dữ liệu cho bộ phát hiện tấn công mạng scada sử dụng mạng nơron MLP

13 6 0
Một phương án tổ chức ngữ cảnh dữ liệu cho bộ phát hiện tấn công mạng scada sử dụng mạng nơron MLP

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài viết giới thiệu một mô hình IDS cho hệ SCADA có khả năng phát hiện tấn công trong hệ SCADA với độ chính xác cao. Mô hình này được xây dựng dựa trên mạng nơron MLP với hai lớp ẩn và sử dụng giải thuật di truyền để xác định số lượng nơron tối ưu trong các lớp ẩn.

Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University MỘT PHƯƠNG ÁN TỔ CHỨC NGỮ CẢNH DỮ LIỆU CHO BỘ PHÁT HIỆN TẤN CÔNG MẠNG SCADA SỬ DỤNG MẠNG NƠRON MLP Nguyễn Văn Xuân*, Phạm Văn Nguyên, Nguyễn Tăng Cường Đại học Kỹ thuật Lê Q Đơn Tóm tắt Bài báo giới thiệu mơ hình IDS cho hệ SCADA có khả phát cơng hệ SCADA với độ xác cao Mơ hình xây dựng dựa mạng nơron MLP với hai lớp ẩn sử dụng giải thuật di truyền để xác định số lượng nơron tối ưu lớp ẩn Điểm đặc biệt mơ hình đề xuất nằm khả xem xét mẫu liệu ngữ cảnh để mạng nơron MLP nhận dạng cơng xác Để tạo ngữ cảnh, tập liệu ban đầu xây dựng lại thành vectơ ngữ cảnh gồm nhiều gói tin liên tiếp trước đưa vào mạng nơron MLP Các kết thử nghiệm cho thấy mơ hình đề xuất có độ xác vượt trội Từ khóa: Phát công; mạng nơron MLP; IDS; hệ thống SCADA Giới thiệu Hệ thống SCADA (Supervisory Control and Data Acquisition) quan trọng tầm quốc gia doanh nghiệp lớn ln có nguy bị cơng từ mã độc hại, tin tặc, từ nhà thầu cạnh tranh nhau, từ khủng bố, Ví dụ: Năm 2000, trạm bơm dịch vụ nước Maroochy Úc bị công làm dừng hệ thống [1] Năm 2003, sâu máy tính vượt qua tường lửa xâm nhập vào hệ thống SCADA nhà máy hạt nhân Davis Besse Ohio [2] Năm 2010, Stuxnet [3] công vào nhà máy hạt nhân Iran, sâu Stuxnet cảnh báo cho giới mức độ nghiêm trọng lỗ hổng đe dọa đến hệ thống SCADA Tấn công (hay xâm nhập) nói chung hiểu nỗ lực để phá vỡ lạm dụng vào hệ thống [4] Thông thường công dựa việc khai thác lỗ hổng hệ thống, có nghĩa hệ thống bị cơng, cịn tồn lỗ hổng Do đó, nhiệm vụ nhà quản trị mạng phải phát công sớm tốt để có biện pháp bảo mật phù hợp nhằm giảm thiểu rủi ro cho hệ thống tránh thiệt hại cho doanh nghiệp Khái niệm IDS (Intrusion detection system) dùng để hệ thống an ninh nhằm phát xâm nhập [4, 5, 6] IDS thành phần quan trọng sở hạ tầng an ninh mạng Các hệ thống IDS thực việc kiểm tra, giám sát hệ thống dựa hoạt động mạng để tìm phát * Email: xuannv8171@gmail.com 98 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University cách sớm xâm nhập, cơng sau kích hoạt cảnh báo cơng để nhà quản trị mạng có biện pháp xử lý kịp thời trường hợp bị công Các hệ thống IDS phân loại theo dạng chính: IDS dựa dấu hiệu công IDS dựa bất thường Các IDS dựa dấu hiệu công sử dụng kỹ thuật phân tích, so sánh, tìm kiếm nhằm phát dấu hiệu cơng điển hình (mà hệ thống biết) để đưa cảnh báo cơng Cịn IDS dựa bất thường phát công dựa vào kỹ thuật phát liệu bất thường hệ thống Có nghĩa hệ thống IDS cần phải biết đặc điểm liệu bình thường phát liệu khơng bình thường đưa cảnh báo công Để phát công hệ thống IDS kể trên, sử dụng kỹ thuật máy học [4] như: Support Vector Machine (SVM), mạng nơron RBF (Radial Basis Function), định, mạng nơron nhân tạo… Ngoài ra, IDS áp dụng cho hệ thống IT (Information Technology) đơn khơng hồn tồn phù hợp với hệ thống SCADA, chất hệ thống IT hệ thống SCADA cơng nghiệp khác Chính vậy, năm gần đây, có nhiều nghiên cứu an ninh cho hệ thống SCADA cơng nghiệp nhiều mơ hình IDS cho hệ SCADA công nghiệp đề xuất Trong [5], tác giả đề xuất phương pháp phát xâm nhập dựa kỹ thuật SVM: Phương pháp K-OCSVM kết hợp K-means clustering với One-class SVM phương pháp IT-OCSVM sử dụng thơng tin phân tích mạng xã hội (SNA - Social Network Analysis) nhằm gắn thêm trọng số cho gói tin từ nguồn khác kết hợp với K-means clustering OCSVM để phân loại gói tin bình thường hay cơng Theo tác giả phương pháp thích hợp sử dụng cho hệ SCADA lớn, SCADA phân tán Phương pháp thứ có ưu điểm khả phát tốt lại làm giảm hiệu hệ thống Phương pháp thứ hai cải thiện khả phát giảm tải cho hệ thống thích hợp cho ứng dụng thời gian thực Kết phát phương pháp tập kiểm tra đạt 99,05% tập liệu từ nguồn khác 97,07% Trong [6], tác giả sử dụng mạng nơron nhân tạo tác thuật toán học sâu (Deep learning) nhằm phân loại gói tin bình thường gói tin cơng hệ SCADA Các gói tin mơ hình thử nghiệm tác giả bắt cơng cụ Wireshark, sau sử dụng số cơng cụ lọc, mã hố để có tập liệu Tập liệu chia thành hai tập 70% cho huấn luyện 30% cho kiểm tra Kết phân loại tập kiểm tra cao 99,89% Phương pháp sử dụng [5] chưa thực tốt thử nghiệm tập liệu độc lập trình xử lý thơng tin phức tạp Cịn [6], thử nghiệm cho kết tốt tập liệu kiểm tra tách từ tập liệu thực nghiệm 99 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University tác giả, nhiên phương pháp chưa thử nghiệm tập liệu độc lập Ngồi ra, q trình tạo tập liệu dùng làm đầu vào cho mạng nơron phức tạp phải qua nhiều bước sử dụng công cụ bên thứ Wireshark Trong báo này, nghiên cứu đề xuất mơ hình IDS cho hệ SCADA sở mạng nơron truyền thẳng nhiều lớp MLP (Multi Layer Perceptron), cho phép phát liệu bất thường kết hợp ngữ cảnh liệu để nâng cao tỉ lệ phát xâm nhập giảm thiểu cảnh báo giả Có ba dạng liệu bất thường [4]: điểm bất thường, bất thường tập thể bất thường ngữ cảnh Khi trường hợp liệu cụ thể không tuân theo phần liệu chung gọi điểm liệu bất thường Khi tập hợp liệu tương tự hoạt động bất thường tồn tập hợp liệu gọi bất thường tập thể Dạng thứ 3, bất thường ngữ cảnh xảy trường hợp liệu xem xét bất thường hay bình thường cần đặt mối quan hệ cụ thể Ví dụ, chi tiêu hàng tháng 500$, tháng chi tiêu 2000$ tháng dịp lễ tết, lễ hội chi tiêu bình thường, cịn tháng khơng phải dịp đặc biệt liệu chi tiêu bất thường Ngữ cảnh xét báo không xét độc lập gói tin mà cần xét nhóm gói tin liên tiếp để tìm mối quan hệ chúng, từ kết luận xác gói tin cơng hay bình thường Khi đưa độc lập gói tin vào luyện mạng MLP mạng học mối quan hệ trường liệu gói tin, báo khơng sử dụng độc lập gói tin mà sử dụng nhóm gói tin liên tiếp gồm gói tin cần kiểm tra 3, gói tin phía trước để luyện mạng MLP Cách luyện mạng giúp mạng MLP không học mối quan hệ trường liệu gói tin mà cịn học mối quan hệ gói tin với từ nhận dạng xác gói tin cơng hay bình thường Bộ liệu sử dụng để huấn luyện, kiểm tra mơ hình Đối với hệ thống IT, có liệu KDD [7] cho nhà nghiên cứu thử nghiệm mức độ hiệu IDS mà họ nghiên cứu Bộ liệu phần quan trọng việc thúc đẩy nghiên cứu để đánh giá IDS cho mạng máy tính cung cấp điểm chuẩn cho nhà nghiên cứu khác để so sánh xác nhận kết sử dụng rộng rãi cho nghiên cứu IDS đến Đối với hệ thống SCADA, khó khăn với nghiên cứu lĩnh vực an ninh cho hệ SCADA thiếu liệu thử nghiệm cơng khai có sẵn để so sánh hiệu suất độ xác cho giải pháp đề xuất Với mong muốn xây dựng 100 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University tập liệu sử dụng chung, rộng rãi cho nhà nghiên cứu IDS cho hệ SCADA, Wei Gao [8] nghiên cứu công bố liệu vậy, phiên liệu dựa hệ thống SCADA cho đường ống dẫn gas Sau đó, Thornton [9] cịn số nhược điểm liệu Tiếp theo, Turnipseed [10] kế thừa hệ thống Wei Gao công bố liệu phiên thứ hai với mẫu công đảm bảo ngẫu nhiên hơn, phù hợp cho thử nghiệm thuật toán khác IDS cho hệ SCADA Bộ liệu mơ tả phần đây, hình kiến trúc hệ thống tạo tập liệu Turnipseed Trong hình 1: HMI thực chức điều khiển giám sát hiển thị thông tin đường ống ga (Pipeline) PLC điều khiển điều khiển trực tiếp đường ống ga Logger: Bộ ghi liệu trung gian để thu lại gói tin sau gán nhãn tạo tập liệu Resp Inj, Recon, DOS, Cmd Inj khối tạo công chèn đáp ứng, công trinh sát, công từ chối dịch vụ, cơng chèn lệnh Hình Kiến trúc hệ thống tạo tập liệu Turnipseed [10] Mỗi mẫu liệu công hay mẫu bình thường chứa 17 thuộc tính thuộc tính đầu mơ tả bảng đây: Bảng Các thuộc tính mẫu tập liệu [10] STT Thuộc tính Mơ tả 01 Address Địa Slave giao thức Modbus 02 Function Mã hàm giao thức Modbus 03 Length Độ dài gói Modbus 04 Setpoint Điểm đặt áp suất hệ thống chế độ tự động 05 Gain PID gain 06 Reset rate PID reset rate 07 Deadband PID dead band 101 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University STT Thuộc tính Mơ tả 08 Cycle time PID cycle time 09 Rate PID rate 10 System mode Chế độ hệ thống, 2: auto, 1: manual, 0: off 11 Control scheme 0: điều khiển máy bơn, 1: điều khiển van từ 12 Pump Điều khiển máy bơm, 1: on, 0: off 13 Solenoid Điều khiển van từ, 1: opened, 0: closed 14 Pressure measurement Giá trị áp suất đo đường ống 15 CRC Mã kiểm lỗi gói Modbus 16 Command/response 1: lệnh, 0: đáp ứng 17 Time Dấu thời gian cho gói Modbus 18 Binary result Phân nhóm nhị phân, 0: normal, 1: attack 19 Attack Categorized Phân nhóm cơng (0->7) 20 Specific result Kết chi tiết công (0->35) Bộ liệu kiểm tra IDS cho hệ SCADA Turnipseed xây dựng cho hệ thống đường ống gas sử dụng giao thức Modbus (chi tiết liệu bạn đọc tham khảo [10]) gồm có 274.628 mẫu có 214.580 mẫu bình thường (chiếm 78,1%) 60.048 mẫu công (chiếm 21,9%) Trong liệu có chứa nhóm cơng mơ tả bảng Bảng Bảy nhóm cơng khác tập liệu [10] Nhóm cơng Viết tắt Normal/Mẫu bình thường Normal(0) Nạve Malicious Response Injection/Tấn cơng chèn đáp ứng đơn giản NMRI(1) Complex Malicious Response Injection/Tấn công chèn đáp ứng tinh vi CMRI(2) Malicious State Command Injection/Tấn công thay đổi trạng thái MSCI(3) Malicious Parameter Command Injection/Tấn công thay đổi tham số MPCI(4) Malicious Function Code Injection/Tấn công giả mạo mã hàm MFCI(5) Denial of Service/Tấn công từ chối dịch vụ DoS(6) Reconnaissance/Tấn công trinh sát Recon(7) 102 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University Xây dựng mô hình phát xâm nhập Phát bất thường dùng mạng MLP Cảnh báo cơng Gói bình thường + cơng Đặt gói tin ngữ cảnh Trích rút thuộc tính tạo vectơ chuẩn IDS-SCADA Bắt giữ gói tin Thiết bị chủ MTU/PLC MODBUS Thiết bị tớ RTU/PLC Hình Mơ hình phát cơng dựa mạng nơron ngữ cảnh Hình mơ hình phát công vào hệ thống SCADA đề xuất gồm khâu Khâu cần thu thập, bắt giữ lại gói tin hệ thống mạng SCADA, sau chuyển gói tin bắt cho khâu bên trích rút thuộc tính bảng tạo vectơ chuẩn, tiếp tục chuyển lên khâu bên khâu đặt gói tin ngữ cảnh Khâu đặt gói tin ngữ cảnh cần lưu giữ lại gói tin khứ, nhận gói tin làm nhiệm vụ ghép gói tin với 3, gói tin q khứ phía trước để tạo ngữ cảnh chuyển cho tầng mạng nơron MLP nhận dạng Nếu mạng nơron MLP phát bất thường tức có cơng chuyển thông tin đến khâu cảnh báo công để thông báo, cảnh báo cơng 3.1 Mạng nơron MLP Hình mơ tả mơ hình mạng nơron truyền thẳng nhiều lớp MLP với vectơ đầu vào X có n chiều, vectơ đầu Y có m chiều Trong báo sử dụng mạng nơron truyền thẳng nhiều lớp MLP thuật toán lan truyền ngược (back propagation) [11] sử dụng công cụ Neural Network Toolbox Matlab để cài đặt huấn luyện, kiểm tra mạng nơron Bộ công cụ cho lựa chọn thuật tốn khác phục vụ cho q trình luyện mạng như: Trainscg 103 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University (Scaled conjugate gradient backpropagation), Traingd (Basic gradient descent), Traingdm (Gradient descent with momentum), Traingdx (Adaptive learning rate), Trainbfg (BFGS quasi - Newton) Trong báo này, chúng tơi sử dụng thuật tốn huấn luyện Traingdx (Adaptive learning rate) Lớp Y1 … Yk Ym Lớp ẩn Lớp vào X1 … Xi Xn Hình Mạng nơron truyền thẳng nhiều lớp MLP 3.2 Xây dựng cấu trúc mạng MLP Nhược điểm dùng mạng nơron chưa có phương pháp luận chung để thiết kế cấu trúc mạng cho toán nhận dạng điều khiển Vấn đề khó khăn sử dụng mạng MLP việc xác định số lượng nơron lớp ẩn cách hợp lý Để khắc phục vấn đề này, báo sử dụng giải thuật di truyền nhằm xác định số lượng nơron tối ưu cho lớp ẩn Giải thuật di truyền (Genetic Algorithms - GA) biết đến giải thuật tìm kiếm dựa học thuyết chọn lọc tự nhiên cho phép đạt tới cực trị toàn cục Thực ra, GA thuộc lớp thuật toán xác suất, lại khác thuật toán ngẫu nhiên chúng kết hợp phần tử tìm kiếm trực tiếp ngẫu nhiên Khác biệt quan trọng phương pháp tìm kiếm GA phương pháp tìm kiếm khác GA trì xử lý tập lời giải (quần thể) - đa số phương pháp khác xử lý điểm khơng gian tìm kiếm Chính thế, GA mạnh phương pháp tìm kiếm có nhiều [12, 13] Trong báo sử dụng mạng MLP lớp, lớp đầu có nơron sử dụng hàm kích hoạt hàm tuyến tính, đầu lớp có giá trị ứng với gói tin bình thường, ứng với gói tin công Các tác giả thử nghiệm ba trường hợp: Ngữ cảnh k = tức có gói tin bình thường đặt gói tin khác cần kết luận cơng hay bình thường, tương tự xét ngữ cảnh k = 5, Lớp đầu vào chọn kích thước vectơ vào 68 điểm vào ứng với k = 102, 136 điểm vào tương ứng với k = 5, (Hình 4a, 4b, 4c) 104 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University Hình 4a Cấu trúc mạng nơron ứng với ngữ cảnh k = Hình 4b Cấu trúc mạng nơron ứng với ngữ cảnh k = Hình 4c Cấu trúc mạng nơron ứng với ngữ cảnh k = Hai lớp ẩn, số nơron hai lớp ẩn tối ưu chọn sở thuật tốn tìm kiếm GA sau: Lớp ẩn có 20 nơron, lớp ẩn có 15 nơron ứng với ngữ cảnh k = 3, tương tự hai lớp ẩn ứng với k = tương ứng 23 26 nơron, 37 34 ứng với k = (Hình 4a, 4b, 4c) Hai lớp ẩn sử dụng hàm kích hoạt hàm Sigmoid Thuật tốn GA tìm kiếm số nơron tối ưu cho hai lớp ẩn khoảng từ đến 50 nơron Thuật toán GA chạy máy tính để bàn Core i3 3.3GHz, RAM 12G thời gian tìm kiếm khoảng 72 (3 ngày) cho kết quả, kích thước quần thể ban đầu 30 khởi tạo ngẫu nhiên, cho kết chạy khoảng 60 hệ 3.3 Xây dựng lại tập liệu để tạo ngữ cảnh Do tập liệu ban đầu tập hợp gói tin độc lập, gói tin ghi, gói tin chưa đặt ngữ cảnh để huấn luyện, kiểm tra mạng MLP Do đó, để đặt gói tin ngữ cảnh cần cấu trúc lại tập liệu ban đầu mà ghi tập liệu gồm (k+1) gói tin liên tiếp nhau, (k+1) gói tin liên tiếp k gói tin đầu gói bình thường, gói tin cuối thứ (k+1) cần xem xét gói bình thường hay cơng, q trình xây dựng lại tập liệu sau: 105 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University Gọi Wi (i = 1,2,…N) ghi (gói tin) tập liệu ban đầu, N - số ghi tập liệu ban đầu Ti: Đầu phân loại gói tin Wi, Ti = nghĩa gói Wi bình thường, Ti = nghĩa gói Wi cơng (gói tin xâm nhập trái phép) W: Ngữ cảnh gồm k ghi bình thường, chọn k = 3, 5, Pi: Bản ghi gồm k gói tin bình thường W, gói tin Wi+k đầu Ti+k gói tin Wi+k; Pi = [W, Wi+k, Ti+k] P: Tập liệu gồm (N-k) ghi, ghi có (k+1) gói tin cũ Bước 1: Khởi tạo: i = 1, P = [] - tập rỗng ngữ cảnh W gồm k gói tin bình thường tập liệu ban đầu, khơng tính tổng quát, giả sử k gói tin liên tiếp tập liệu đầu gói tin bình thường ta có W sau: W = [Wi, Wi+1, Wi+2,….,Wi+k-1] Bước 2: Pi gói tin gán gồm k gói tin bình thường W, gói tin Wi+k, đầu Ti+k Wi+k; Pi = [W, Wi+k, Ti] Bước 3: Cập nhật lại ngữ cảnh W Nếu Ti+k = tức gói Wi+k bình thường, cập nhật gói tin Wi+k vào W gỡ bỏ gói tin cũ bên trái W ra, W cập nhật lại là: W = [Wi+1, Wi+2,…,Wi+k] Nếu Ti+k = tức Wi+k gói cơng không cập nhật Wi+k vào W, ngữ cảnh W không thay đổi Bước 4: Cập nhật Pi vào tập liệu mới, P = [P; Pi] i = i+1, Nếu i

Ngày đăng: 26/05/2021, 12:43

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan