Bài viết Ứng dụng học máy trong phát hiện bất thường trên nền tảng ELK nhằm xây dựng một giải pháp phát hiện bất thường, dự đoán tấn công theo phương pháp học không giám sát, dựa trên bộ công cụ ELK Stack để thu thập và xử lý dữ liệu từ log ứng dụng, tạo các véctơ đặc trưng và sau đó áp dụng thuật toán PCA để phát hiện những điểm bất thường trong dữ liệu log. Mời các bạn cùng tham khảo!
Ứng dụng học máy phát bất thường tảng ELK Vũ Đức Thịnh Khoa Công nghệ Thông Tin Đại học Cơng nghiệp Thực phẩm TP Hồ Chí Minh TP Hồ Chí Minh, Việt Nam thinhvd@hufi.edu.vn với dấu hiệu phát xâm nhập lưu trữ sở liệu hệ thống xét xem hành động diễn an tồn hay khơng an tồn Ví dụ phát xâm nhập dựa vào dấu hiệu: kiểm tra log thấy người dùng cố gắng kết nối vào hệ thống quyền tài khoản “root”, nhập sai mật nhiều lần vi phạm nguyên tắc thiết lập hệ thống; thư điện tử không rõ nguồn mà có đính kèm file exe, pif, application, gadget, … chứa mã độc Abstract—Phát bất thường chứng minh phương pháp có giá trị nhiều lĩnh vực khác kinh tế, y tế, xâm nhập mạng… Trong nghiên cứu này, tác giả xây dựng giải pháp phát bất thường, dự đốn cơng theo phương pháp học khơng giám sát, dựa công cụ ELK Stack để thu thập xử lý liệu từ log ứng dụng, tạo véctơ đặc trưng sau áp dụng thuật toán PCA để phát điểm bất thường liệu log Keywords—ELK, PCA, phát bất thường I MỞ ĐẦU Kỹ thuật đơn giản hiệu trường hợp gặp mối đe dọa lưu trữ sở liệu hệ thống không hiệu trường hợp chưa gặp phải Đây mặt hạn chế phương pháp này, nên dùng mơ hình mạng lớn hay giao thức ứng dụng khơng thể theo dõi bao qt hết thành phần có hệ thống có độ tin cậy thấp Phát bất thường xác định kiện, mẫu khác biệt đáng kể so với hành vi khuôn mẫu tiêu chuẩn Các dị thường liệu gọi độ lệch chuẩn, giá trị ngoại lệ, nhiễu, vật lạ, … Trong bối cảnh phát bất thường mạng/ xâm nhập mạng phát lạm dụng thuật ngữ sử dụng phổ biến bất thường ngoại lệ Ví dụ: hoạt động làm tăng lưu lượng mạng đột biến thường đáng ý, hoạt động tăng đột biến nằm ngồi nhiều kỹ thuật phát bất thường truyền thống; mẫu lưu lượng bất thường hệ thống mạng máy tính có nghĩa tin tặc cơng gửi liệu nhạy cảm đến điểm mà không phép • Phát dựa vào bất thường Kỹ thuật phát dựa vào bất thường trình tổng hợp hành động thơng thường khoảng thời gian từ nhiều đối tượng người dùng, máy chủ, kết nối mạng hay dịch vụ tạo thành hồ sơ thông tin để miêu tả hành động bình thường sau so sánh với kiện diễn hệ thốn để phát bình thường hay bất thường Phương pháp có độ xác cao hệ thống phát bất thường thiết lập hệ thống có thời gian vận hành dài để triển khai phân tích học tất hành động bình thường hệ thống Phát bất thường bước khai thác liệu nhằm xác định điểm liệu, kiện quan sát khác với hành vi bình thường tập liệu Dữ liệu bất thường cố nghiêm trọng, chẳng hạn trục trặc kỹ thuật, thay đổi hành vi trình sử dụng người dùng Máy học dần sử dụng để tự động hoá việc phát bất thường Trong nghiên cứu này, tác giả sử dụng công cụ ELK Stack (Beat, Logstash, Elastic Search, Kibana) [1] để thu thập phân tích data log services; phát dấu hiệu bất thường cách sử dụng kỹ thuật Dimensionality Reduction (DR) [2]; theo dõi, dự đoán, phát cảnh báo hành vi, điểm, dấu hiệu bất thường file log, traffic vào hệ thống, hành động xâm nhập trái phép hay hành động truy cập hợp pháp trình hoạt động hệ thống thuật tốn Principal Component Analysis (PCA)[3] • Phương pháp phát dựa mơ hình Phương pháp phát dựa mơ hình áp dụng kĩ thuật, phương pháp học máy; trí tuệ nhận tạo; mơ hình sử dụng thuật toán để phát thời điểm bình thường hay bất bình thường, triển khai qui luật phát công cách tự động từ sở liệu mô Phương pháp sử dụng rộng rãi hệ thống dự đốn, phát cơng hay xâm nhập trái phép kể cũ hay nhiên nhiều lúc đưa cảnh báo nhầm so với hai phương pháp II CƠ SỞ LÝ THUYẾT • Kỹ thuật phát dựa vào phân tích trạng thái giao thức A Các phương pháp phát bất thường • Phương pháp dựa dấu hiệu Hiện nay, kẻ công thường thông qua giao thức mạng để công hay xâm nhập bất hợp pháp vào hệ thống Mỗi giao thức điều có cấu trúc cách hoạt động riêng biệt, kỹ thuật phát dựa vào phân tích trạng thái giao thức trình hoạt động giao Dấu hiệu đặc trưng hệ thống bị virus, công, xâm nhập trái phép, … thống kê trình hệ thống vận hành lưu lại Hệ thống triển khai so sánh liệu thu thập 137 thức, sử dụng liệu hoạt động hợp lệ giao thức có sẵn hệ thống để xem xét có hành vi công xảy hay không Hạn chế phương pháp tập trung liệu, phải phân tích thực giám sát trạng thái hoạt động cho nhiều phiên làm việc lúc; cịn vấn đề phương pháp khơng thể phát cơng có dấu hiệu đặt trưng phương pháp giao thức thừa nhận đậy hành vi thông thường, ví dụ: thực lập lập lại hành động bình thường nhiều lần khoảng thời gian ngắn cơng từ chối dịch vụ Mặc khác xảy xung đột giao thức hệ thống giao thức có mạng [4][5][6][7] III PHƯƠNG PHÁP PHÁT HIỆN BẤT THƯỜNG DỰA TRÊN ELK VÀ PCA Phát bất thường ngày ứng dụng nhiều việc phát xâm nhập, công hệ thống nói chung hệ thống mạng nói riêng Trong đó, thuật tốn phân lớp thường sử dụng nhằm xây dựng mơ hình phát xâm nhập trái phép, để dự đoán phát cơng có bất thường xảy Tuy nhiên, nghiên cứu tác giả thực toán phát bất thường phương pháp học không giám sát máy học dựa mơ hình đây: B Kỹ thuật Dimensionality Reduction Principal Component Analysis • Dimensionality Reduction (DR) Số lượng lớn thành phần đầu vào gây hiệu suất cho thuật toán học máy Giảm số chiều lĩnh vực nghiên cứu chung liên quan đến việc giảm số lượng thành phần đầu vào kỹ thuật quan trọng học máy Khi xử lý liệu có chiều cao, thường hữu ích giảm kích thước cách chiếu liệu xuống không gian có chiều thấp để nắm bắt chấ liệu điều gọi giảm kích thước liệu đảm bảo thông tin truyền tải tương tự DR mang lại trình bày ngắn gọn hơn, dễ hiểu khái niệm mục tiêu, tập trung ý người dùng vào biến có liên quan nhất, kỹ thuật DR giúp cho việc nén liệu, thời gian tính tốn nhanh Ví dụ: Dữ liệu địi hỏi trực quan hóa để hiểu rõ với liệu có chiều khơng thể quan sát Kỹ thuật DR mang lại số lượng chiều giảm xuống để quan sát cách xác Giảm số chiều sử dụng để phát bất thường • Hình Mơ hình thực nghiệm phát bất thường A Thu thập phân tích log mail Postfix – Logstash Nhằm mục đích đánh giá phương pháp phát bất thường theo mơ hình tốn - Hình 1, tác giả dựa vào tập liệu thu thập từ logmail Postfix mơ hình Tập liệu log bao gồm thuộc tính từ gói tin kết nối đến hệ thống thời gian, smtpd, sasl_method, sasl_username, qmgr, cleanup, saslauthd… Bằng cách sử dụng Logstash công cụ ELK để phân tích xây dựng cấu trúc log, Logstash thực cơng việc phân tích cú pháp từ log mail gồm 03 giai đoạn: input, filter ouput với plugin phù hợp Do mơ hình thực nghiệm cài đặt Logstash Elasticsearch máy chủ, nên thiết lập đầu Logstash thông qua localhost để kết nối với Elasticsearch Principal Component Analysis (PCA) PCA kỹ thuật phổ biến để giảm kích thước tập liệu bao gồm nhiều biến số tương quan với nhau, dù nặng hay nhẹ, giữ lại mức độ biến động có tập liệu mức tối đa Đây kỹ thuật có nguồn gốc từ đại số tuyến tính sử dụng kỹ thuật chuẩn bị liệu để tạo phép chiếu trước xây dựng mơ hình Từ cấu hình trên, Logstash tự động phân tích tất thơng tin có log mail đường dẫn /var/log/maillog lưu trữ liệu Elastichsearch Kết quả, có 777.509 hits phân tích Elasticsearch PCA thực cách chuyển đổi biến thành tập hợp biến mới, gọi thành phần (hoặc đơn giản PC) trực giao, xếp theo thứ tự cho việc trì biến thể có biến ban đầu giảm di chuyển xuống theo thứ tự Theo phương pháp thành phần thứ giữ lại biến đổi tối đa có thành phần ban đầu Các thành phần ký hiệu riêng ma trận hiệp phương sai, chúng trực giao [8][9] Ví dụ: Ban đầu có 1000 biến có tương quan tuyến tính với nhau, ta sử dụng PCA xoay chiều không gian cũ trở thành chiều không gian cịn lại 10 biến khơng có tương quan tuyến tính mà giữ nhiều lượng thơng tin từ nhóm biến ban đầu Hình Phân tích log Elasticsearch B Thực tạo vector đặc trưng với watcher Tiếp theo tác giả công cụ watcher để tạo vector đặc trưng (vector tỷ lệ trạng thái) từ liệu phân tích lưu trữ Elasticsearch công cụ ELK với Index : maillog-2022.01.01 Wacher thực thông qua bước trigger, input, condition, transform action Trong nghiên 138 cứu tác giả thực tạo vector mà không cần transform, chọn khung thời gian 10 giây thực đếm số lần xuất chương trình 10 giây Sau có kết cuối vector tỷ lệ trạng thái lưu trữ Index: mail-program-watch-4 Kết sau thực Watcher, từ 777.509 hit tạo 4097 vector đặc trưng lưu trữ Elasticsearch Hình Trực quan hóa liệu thuật tốn PCA Từ hình ảnh trực quan hóa cho thấy điểm xa tập thành phần chính, từ thấy bất thường Ngược lại, điểm gần thể bình thường D Trực quan hóa liệu bất thường – Kibana Để trực quan hóa liệu bất thường, tác giả thực tạo ánh xạ với Kibana để trực quan hóa q trình bất thường Hình Watcher tạo vector đặc trưng Index mailprogram-vector-4 C Chương trình Python thuật tốn PCA Bước này, tác giả áp dụng thuật tốn phân tích thành phần PCA tập hợp véc tơ đặc trưng chương trình Python Ý tưởng ban đầu tạo tập hợp mục liệu để tìm mục bất thường cách sử dụng reconstruction error Sau tiền xử lý chuẩn hoá liệu dạng số, tác giả tiến hành chia nhỏ ma trận liệu nguồn thành thành phần thơng qua thư viện scikit-learning cung cấp lớp PCA phù hợp với tập liệu Thuật toán PCA trích chọn véc tơ đặc trưng tiêu biểu số trường liệu ban đầu Tiếp theo sau tái tạo lại liệu ban đầu vài thành phần Dữ liệu tái tạo tương tự, khơng hồn toàn giống với liệu gốc Các mục liệu tái tạo khác biệt với mục gốc tương ứng mục bất thường Hình Biểu đồ trực quan hóa phát ngưỡng bất thường IV KẾT QUẢ VÀ THẢO LUẬN A Kết thực nghiệm Nghiên cứu trình bày giải pháp phát bất thường hệ thống mail dựa tập liệu log mail Qua phân tích kết thực nghiệm khẳng định tính đắn giải pháp nghiên cứu với thực tế hệ thống Tại thời điểm xảy bất thường, đối chiếu kết với tình trạng hệ thống mail máy chủ mail Postfix nhận lượng thư lớn Đồng thời, hệ thống gửi cảnh báo tài khoản Telegram quản trị viên thời điểm với phát vector bất thường Qua dự đoán nguyên nhân hệ thống mail hoạt động chậm số lượng thư tăng đột biến ảnh hưởng đến hệ thống Kết giải pháp phát dự đốn cơng phần mềm hệ thống mà tác giả hướng tới nghiên cứu Hình Dữ liệu sau tiền xử lý 139 đề xuất phương pháp phát bất thường Các vấn đề khác phát dị thường, xử lý phát dị thường phát công hướng mở cho nghiên cứu REFERENCES [1] [2] [3] [4] [5] [6] Hình Hình ảnh hệ thống gửi cảnh báo Telegram [7] B Hướng phát triển Phân tích phát bất thường hướng nghiên cứu bao gồm nhiều lĩnh vực, nhiều mơ hình, phương pháp kỹ thuật áp dụng khác Đối với phương pháp dựa PCA, độ phức tạp thuật tốn PCA, phép biến đổi tuyến tính, tự tương quan khoảng thời gian, … vấn đề cần lưu ý xem xét phương pháp PCA Trong phạm vi nghiên cứu này, tác giả hướng tới mục tiêu kiểm tra [8] [9] 140 https://vi.wikipedia.org/wiki/Elasticsearch [Online; accessed Arpil, 18 , 2022] Wei Xu System Problem Detection by Mining Console Logs PhD thesis, University of California, Berkeley, 2010 Peters, C A (2013) Intrusion and Fraud Detection using Multiple Machine Learning Algorithms (Doctoral dissertation, The University of Manitoba) Reddy, R R., Kavya, B., & Ramadevi, Y (2014) A Survey on SVM Classifiers for Intrusion Detection International Journal of Computer Applications, 98(19) Varun Chandola, Arindam Banerjee, and Vipin Kumar “Anomaly Detection: A Survey” In: ACM Comput Surv 41.3 (July 2009), 15:1– 15:58 issn: 0360- 0300 doi: 10.1145/1541880.1541882 Subutai Ahmad, Alexander Lavin, Scott Purdy, Zuha Agha: Unsupervised real-time anomaly detection for streaming data, Neurocomputing 262 (2017) 134– 147 Aaron Hart Michael Berthold Rosaria Silipo, Iris Adae Seven techniques for dimensionality reduction KNIME, 2014 Francisco Lima Principal component analysis in r https://www.rbloggers.com/principal-component-analysis-in-r/, 2018 [Online; accessed January 23, 2018] Lewis Lehe Victor Powell Principal component analysis explained visually http://setosa.io/ev/principal-component-analysis/ [Online; accessed April, 24 ,2022] ... PHÁP PHÁT HIỆN BẤT THƯỜNG DỰA TRÊN ELK VÀ PCA Phát bất thường ngày ứng dụng nhiều việc phát xâm nhập, cơng hệ thống nói chung hệ thống mạng nói riêng Trong đó, thuật tốn phân lớp thường sử dụng. .. nhằm xây dựng mơ hình phát xâm nhập trái phép, để dự đoán phát cơng có bất thường xảy Tuy nhiên, nghiên cứu tác giả thực toán phát bất thường phương pháp học khơng giám sát máy học dựa mơ hình đây:... Giảm số chiều sử dụng để phát bất thường • Hình Mơ hình thực nghiệm phát bất thường A Thu thập phân tích log mail Postfix – Logstash Nhằm mục đích đánh giá phương pháp phát bất thường theo mơ hình