Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
1,89 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -oo0oo - NGUYỄN ĐĂNG TIỆP GIẢI PHÁP VÀ CÔNG CỤ HỖ TRỢ PHÁT HIỆN BẤT THƯỜNG TRONG HOẠT ĐỘNG VẬN HÀNH KHAI THÁC CÁC HỆ THỐNG THÔNG TIN TẠI VIETTEL LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội – 09/2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -oo0oo - NGUYỄN ĐĂNG TIỆP GIẢI PHÁP VÀ CÔNG CỤ HỖ TRỢ PHÁT HIỆN BẤT THƯỜNG TRONG HOẠT ĐỘNG VẬN HÀNH KHAI THÁC CÁC HỆ THỐNG THÔNG TIN TẠI VIETTEL Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã Số: 8480104.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN HƯỚNG DẪN KHOA HỌC: PGS TS PHẠM NGỌC HÙNG Hà Nội – 09/2020 i Mục lục LỜI CẢM ƠN ii LỜI CAM ĐOAN iv DANH MỤC HÌNH VẼ v Giới thiệu Chương Kiến thức 1.1 Bất thường phương pháp phát bất thường phổ biến 1.1.1 Bất thường 1.1.2 Các phương pháp phát bất thường phổ biến 1.1.3 Các thách thức phát bất thường 11 1.2 Các phương pháp đánh giá hệ thống phân lớp liệu 12 1.2.1 True/False Positive/Negative 12 1.2.2 Độ xác độ hồi tưởng 13 1.2.3 Tóm tắt 15 Chương 2: Mơ hình phát hành vi đăng nhập hệ thống bất thường 16 2.1 2.2 2.3 2.3.1 2.3.2 Giới thiệu đề tài phát bất thường hệ thống 16 Mơ tả tốn bất thường đăng nhập 16 Giới thiệu mô hình hệ thống phát bất thường 17 Cách thức phân tích liệu 21 Xây dựng mơ hình phân tích liệu 26 Chương 3: Thực nghiệm 28 3.1 3.2 3.2.1 3.2.2 3.2.3 3.3 3.3.1 3.3.2 3.4 Kiến trúc công cụ 28 Cài đặt công cụ 28 Phân hệ lưu trữ liệu lớn 29 Phân hệ xử lý 30 Phân hệ phân tích ca sử dụng phát bất thường đăng nhập 31 Thực nghiệm 33 Thu thập liệu kịch 33 Chọn ngưỡng cảnh báo bất thường 37 Áp dụng thực nghiệm 39 Kết luận 41 TÀI LIỆU THAM KHẢO 43 ii LỜI CẢM ƠN Trước tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo, PGS TS Phạm Ngọc Hùng, người hướng dẫn, khuyến khích, bảo tạo cho điều kiện tốt từ bắt đầu thực luận văn hoàn thành cơng việc Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo Khoa Công nghệ thông tin, Trường Đại học Công nghệ, ĐHQGHN tận tình đào tạo, cung cấp cho tơi kiến thức vô quý giá tạo điều kiện tốt cho tơi suốt q trình học tập, nghiên cứu Trường Đồng thời xin cảm ơn tất người thân u gia đình tơi tồn thể bạn bè người ln giúp đỡ, động viên tơi q trình học tập nghiên cứu Cuối cùng, xin chân thành cảm ơn đồng nghiệp giúp đỡ, tạo điều kiện thuận lợi cho tơi học tập nghiên cứu chương trình Thạc sĩ Trường Đại học Công nghệ, ĐHQGHN iii DANH MỤC TỪ VIẾT TẮT/THUẬT NGỮ Từ viết tắt Từ đầy đủ AD Active Directory ASN Autonomous System Number ATTT AV CNTT DNS GSM An tồn thơng tin Antivirus Cơng nghệ thông tin Domain Name System Gateway Security Managerment Hadoop Distributed File System Internet Protocol Internet Service Provider JavaScript Object Notation HDFS IP ISP JSON NIST NSM Ý nghĩa Một sản phẩm Microsoft gồm số dịch vụ chạy Windows Server nhằm mục đích quản lý quyền truy cập vào tài nguyên mạng Số hiệu mạng thường dùng thủ tục định tuyến động mạng Internet Phần mềm diệt virus máy tính Hệ thống quản lý tên miền Hệ thống quản lý an tồn thơng tin lớp Gateway Hệ thống lưu trữ file dùng Hadoop Giao thức Internet Nhà cung cấp dich vụ Internet Một dạng liệu tuân theo quy luật định mà hầu hết ngôn ngữ lập trình đọc Có thể sử dụng lưu vào tệp, ghi có sở liệu dễ dàng National Institute of Standards Viện tiêu chuẩn Công nghệ Quốc and Technology gia Mỹ Hệ thống quản lý bảo mật lớp mạng PCA Network Security Management Principal component analysis SDM Security Data Mining SIEM VPN Security Information and Event Management Single Sign-on User & Entity Behavior Analytics Virtual Private Network Phương pháp phân tích thành phần Hệ thống khai phá liệu an tồn thơng tin Hệ thống quản lý phân tích kiện an tồn thơng tin Hệ thống quản lý đăng nhập lần Phân tích bất thường hành vi người dùng thực thể Mạng riêng ảo VTNet Viettel Networks Tổng Công ty Mạng lưới Viettel SSO UEBA iv LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ chuyên ngành hệ thống thông tin “Giải pháp công cụ hỗ trợ phát bất thường hoạt động vận hành khai thác hệ thống thơng tin Viettel” cơng trình nghiên cứu riêng hướng dẫn PGS TS Phạm Ngọc Hùng, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng, hợp pháp trích dẫn trung thực Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 01 tháng năm 2020 Học viên Nguyễn Đăng Tiệp v DANH MỤC HÌNH VẼ Hình 1.1 Một ví dụ bất thường điểm tập liệu không gian hai chiều Hình 1.2 Ví dụ bất thường bối cảnh Hình 1.3 Ví dụ bất thường tập hợp lưu lượng hệ thống Hình 1.4 Ví dụ tốn phân lớp phát thư rác Bảng 1.1 Ma trận nhầm lẫn 12 Bảng 1.2 Ma trận nhầm lẫn chuẩn hóa 13 Hình 1.4 Cách tính độ xác độ hồi tưởng 14 Hình 2.1 Mơ hình tổng thể hệ thống giám sát an tồn thơng tin 19 Hình 2.2: Mơ hình luồng liệu cho hệ thống phát bất thường 20 Hình 2.3 Mơ hình hệ thống phát bất thường 21 Hình 2.4 Các thuộc tính liên quan đến địa IP 22 Hình 2.5 Cấu trúc liệu hành vi phát bất thường 23 Bảng 2.1 Các thuộc tính sử dụng để phát bất thường đăng nhập 24 Hình 2.6: Mơ hình phân bố thuộc tính 26 Hình 3.1: Mơ hình luồng liệu cho hệ thống phát bất thường 28 Hình 3.2: Hệ thống lưu trữ liệu 29 Hình 3.3: Hệ thống lưu trữ liệu (tiếp) 29 Hình 3.5: Hệ thống quản lý việc xử lý song song 31 Hình 3.6 Lập lịch cấu hình chạy định kì phân tích liệu 32 Hình 3.7 Các job chạy định kì phân tích liệu 32 Hình 3.8 Job chạy định kì phân tích liệu hành vi bất thường 33 Bảng 3.1 Kết chạy với tập liệu 34 Bảng 3.2 Kết chạy với tập liệu 38 Hình 3.8 Biểu đồ ngưỡng 63 38 Hình 3.9: Kết đầu việc xác định ngưỡng cảnh bảo 39 Hình 3.10 Cảnh báo hệ thống 40 Giới thiệu Trong năm gần đây, phát triển mạnh hệ thống ứng dụng công nghệ thông tin (CNTT) đem lại lợi ích khơng nhỏ cho người bao gồm đời sống, công nghệ, kinh tế, xã hội, v.v Bên cạnh đó, vấn đề an ninh bảo mật đảm bảo an tồn thơng tin cho hệ thống công nghệ thông tin thách thức không nhỏ Các hành vi xâm nhập trái phép, công vào hệ thống máy tính cá nhân hay tổ chức ngày gia tăng gây thiệt hại nghiêm trọng Theo trang thông tin VTV (Đài truyền hình Việt Nam), báo cáo năm 2020 công ty bảo mật Bkav công bố cho thấy, Việt Nam, vào năm 2018, tổng thiệt hại công mạng gần 15.000 tỷ đồng đến hết năm 2019, số gần 21.000 tỷ đồng Mức thiệt hại tăng thêm 6.000 tỷ đồng, tương đương với khoảng 40% Theo thống kê Bkav, số lượng máy tính bị liệu năm 2019 lên tới 1.8 triệu lượt, tăng 12% so với năm 20181 Và theo báo cáo từ hãng bảo mật Kaspersky, so với năm 2018, số lượng mối đe dọa phát phần mềm diệt vi-rút web tăng gấp năm lần (523%), tổng cộng 2.660.000 vào năm 20192 Tháng 4/2019, liệu cá nhân 100 triệu người dùng dịch vụ tìm kiếm Ấn Độ có tên JustDial bị lộ sở liệu trực tuyến không bảo vệ Dữ liệu bị rò rỉ thu thập thời gian thực từ khách hàng truy cập dịch vụ qua trang Web, ứng dụng di động chí gọi bao gồm tên người dùng, địa email, số điện thoại di động, địa chỉ, nghề nghiệp chí ảnh cá nhân, v.v.3 Tháng 6/2019, quan thu thập y tế Mỹ (AMCA) bị khai thác liệu làm lộ thông tin cá nhân thơng tin tốn gần 20 triệu bệnh nhân sau bị công xâm nhập vào cổng tốn họ Thơng tin bị truy cập trái phép bao gồm tên, ngày sinh, địa chỉ, điện thoại, ngày dịch vụ, nhà cung cấp, thông tin số dư thẻ tín dụng tài khoản ngân hàng, v.v Chỉ vài tuần sau vi phạm công bố, AMCA nộp đơn xin phá sản với lý tài pháp lý4 Tháng 8/2019, Capital One, ngân hàng thương mại lớn Mỹ, bị đánh cắp liệu, làm lộ thông tin cá nhân 106 triệu thẻ tín dụng từ năm 2005 đến năm https://vtv.vn/cong-nghe/18-trieu-luot-may-tinh-viet-nam-bi-mat-du-lieu-trong-nam-201920200115170552486.htm https://www.kaspersky.com/about/press-releases/2019_malware-variety-grows-by-137-in-2019due-to-web-skimmers “Over100MillionJustDialUsers’PersonalDataFoundExposedOntheInternet,”byMohitKumar,TheHa ckerNews,April17,2019 “Data Breach Forces Medical Debt Collector AMCA to File for Bankruptcy Protection,” by Charlie Osborne, ZDNet, June 19, 2019 2019 Tin tặc khai thác cấu hình sai thiết bị tường lửa máy chủ cung cấp dịch vụ ảo hoá (Cloud) Capital One lấy cắp 700 thư mục liệu5 Tháng 10/2019, liệu y tế cá nhân gần triệu người New Zealand bị lộ công xâm nhập vào hệ thống tổ chức Tu Ora Compass Health Một tin tặc với tên “Vanda The God” đe dọa bán thông tin Các điều tra cho thấy hệ thống bị công vào bốn lần khác nhau5 Tháng 11/2019, UniCredit, ngân hàng Italia, bị xâm phạm liệu dẫn đến rò rỉ thông tin cá nhân ba triệu khách hàng, sau kẻ công không xác định xâm phạm tệp cũ từ năm 2015 chứa hồ sơ khách hàng, bao gồm tên, số điện thoại địa email5 Trong số hành động biện pháp để đảm bảo an tồn thơng tin theo tiêu chuẩn Viện tiêu chuẩn Công nghệ Quốc gia Mỹ (National Institute of Standards and Technology - NIST), nay, đơn vị tập trung làm tốt việc định nghĩa, nhận dạng tài sản, nguy an tồn thơng tin từ thực biện pháp bảo vệ khắc phục nâng cấp hệ thống Tuy nhiên, hai biện pháp quan trọng khác chưa thực tốt phát triển thực hoạt động thích hợp để xác định xuất kiện an ninh mạng tổ chức triển khai hoạt động xử lý liên quan đến việc phát cảnh báo liên quan đến an tồn thơng tin Cụ thể, kế hoạch ứng phó, truyền thơng, phân tích, giảm nhẹ thiệt hại cải tiến Để thực hai nhiệm vụ này, việc phân tích bất thường kiện hệ thống biện pháp quan trọng để hỗ trợ phát kịp thời kiện an ninh mạng để từ đơn vị có biện pháp ứng phó kịp thời để đảm bảo an tồn thơng tin Việc phân tích bất thường hành vi người dùng thực thể (User & Entity Behavior Analytics – UEBA) chủ đề quan tâm nhiều đơn vị giới có nhiều hãng cơng nghệ bảo mật quan tâm đến vấn đề LogRhythm hay Exabeam, Securonix xây dựng công cụ cho việc để phát cảnh báo nguy an tồn thơng tin hệ thống Hiện tại, Tổng Công ty Mạng lưới Viettel (VTNet) vận hành hệ thống công nghệ thông tin lớn với hàng nghìn máy chủ thiết bị mạng, thiết bị bảo mật hệ thống sở liệu lớn lưu trữ nhiều thông tin quan trọng liên quan đến hạ tầng mạng lưới cung cấp dịch, thông tin cá nhân, tài khoản, giao dịch khách hàng, v.v Hệ thống cung cấp dịch vụ cho hàng triệu khách hàng với 60 triệu thuê bao di động triệu thuê bao cố định băng rộng tính đến đầu năm 2020 Và để đảm bảo việc cung cấp dịch vụ hệ thống, hoạt động vận hành khai thác hệ thống công https://www.ntsc.org/assets/pdfs/cyber-security-report-2020.pdf nghệ thông tin với việc truy cập vào máy chủ, sở liệu, thiết bị mạng để kiểm tra tình trạng hoạt động, khai thác, cập nhật liệu, xử lý lỗi dịch vụ phát sinh, v.v diễn thường xun liên tục Chính vậy, hệ thống CNTT lớn quan trọng có nguy rủi ro cao việc an tồn thơng tin (ATTT) Một số nguy ATTT hệ thống việc xâm nhập, tác động trái phép vào hệ thống nhằm lấy cắp, sửa đổi thông tin, đặc biệt thông tin thông tin liệu khách hàng, phá hoạt gây thiệt hại kinh tế (như thay đổi thông tin, giá trị tài khoản khách hàng) ảnh hưởng lớn đến uy tín đến cơng ty Các hoạt động kiểm sốt triển khai công cụ, giải pháp bảo mật nhằm tăng cường giám sát, bảo vệ cho hệ thống CNTT triển khai áp dụng chặt chẽ Tuy nhiên, hoạt động kiểm tra, đánh giá bất thường hoạt động vận hành khai thác hệ thống CNTT chưa có cơng cụ để quản lý tồn diện để phân tích đưa cảnh báo hệ thống giám sát ATTT VTNet Một số nội dung phải thực thủ công cách thực định kỳ kiểm tra lại log tác động hệ thống để phát xử lý trường hợp sai phạm truy cập, tác động hệ thống sai quy định Do đó, yêu cầu thực tế đặt cần xây dựng cơng cụ phân tích nhằm phân tích kiện, dấu hiệu bất thường việc truy cập, tác động vào hệ thống quan trọng nhằm hỗ trợ cho việc phát hiện, cảnh báo để tổ chức hành động xử lý kịp thời để đảm bảo an tồn thơng tin đơn vị Mục đích nghiên cứu luận văn hướng đến giải toán phát bất thường hoạt động vận hành khai thác hệ thống CNTT VTNet Các bất thường cần phát đăng nhập trái phép vào hệ thống, tiến trình lạ thực dò quét hệ thống mạng nội bộ, thực kết nối bất thường, tiến trình mở cổng bất thường hệ thống từ việc phân tích log kết nối, đăng nhập (thời điểm đăng nhập vào hệ thống, thời gian tác động, địa IP client sử dụng, địa IP hệ thống bị tác động, thông tin yêu cầu liệu truy xuất, nội dung thay đổi, v.v.) Vì hệ thống VTNet lớn nên đề tài tập trung thực hệ thống CNTT quan trọng nhằm xây dựng mơ hình cơng cụ thu thập, phân tích log phát bất thường đăng nhập hệ thống Và kết từ đề tài giúp đơn vị giám sát vấn đề bất thường việc kết nối đăng nhập vào hệ thống Từ đó, đề tài góp phần vào việc đảm bảo an tồn thơng tin đơn vị, giúp giảm thiểu rủi ro việc lấy cắp, sửa đổi phá hoại thông tin quan trọng VTNet, khách hàng hạn chế việc gây thiệt hại kinh tế, uy tín đơn vị Ngồi ra, cơng cụ phát bất thường tiếp tục mở rộng với nhiều tốn phân tích phát bất thường khác hoạt động vận hành khai thác hệ thống thông tin đơn vị bất thường lưu lượng kết nối, bất thường giao dịch tài chính, bất thường vệc tác động lệnh vào hệ thống, v.v tình phân tích phức tạp với nhiều kiện kết hợp lại với 29 3.2.1 Phân hệ lưu trữ liệu lớn - Về lưu trữ phân tán ứng dụng công nghệ lưu trữ tệp phân tán (Distributed File System) tàng công nghệ Hadoop có sẵn để lưu trữ liệu lớn với tính bật như: Băng thơng đọc/ghi lớn; có chế tự lưu đảm bảo an tồn cho liệu, mơ hình thiết kế dễ dàng nâng cấp phần cứng, hỗ trợ đa dạng định dạng liệu từ liệu có cấu trúc đến liệu bán cấu trúc liệu phi cấu trúc hệ thống Hadoop Như giới thiệu Chương 3, liệu log đươc lấy từ từ nguồn syslog từ hệ thống máy chủ, ứng dụng, thiết bị sát mạng từ endpoint cài đặt máy chủ để thu thập thông tin, hoạt đông máy chủ truyền lên lưu trữ hệ thống log tập trung Hình 3.2: Hệ thống lưu trữ liệu Hình 3.3: Hệ thống lưu trữ liệu (tiếp) 30 Các liệu thô, qua hệ thống xử lý log, phân tích log (parse log) theo chuẩn riêng, log riêng, xử lý nén, đánh index để việc xử lý nhanh lưu trữ tệp hệ thống HDFS (Hadoop Distributed File System) Hình 3.2 Hình 3.3 Các tệp lấy từ nguồn lưu vào thư mục khác Trong Hình 3.2, liệu từ hệ hống Email, AD, SSO, VPN v.v lưu trữ vào thư mục riêng Tiếp theo Hình 3.3 chi tiết tệp lưu trữ hệ thống thư mục cụ thể Về quản lý dịch vụ hệ thống lưu trữ HDFS, hệ thống quản lý tệp có giải diện để lý quản lý dịch vụ lưu trữ phân tán hệ thống HDFS Như Hình 3.4, thấy hệ thống chạy với 11 nodes phân tán số hệ thống hệ thống có 714 TB dung lượng cho lưu trữ liệu, tỉ lệ sử dụng ổ đĩa 59,29% Hình 3.4: Quản lý dịch vụ trữ liệu HDFS 3.2.2 - Phân hệ xử lý Tính tốn song song: Dựa tảng xử lý liệu MapReduce tiếng Google, hệ thống cho phép thực phép xử lý liệu phức tạp lượng liệu lớn thời gian ngắn Triển khai thuật toán phức tạp vào giám sát phát công thay truy vấn Cơ sở liệu phương pháp tiếp cận truyền thống Áp dụng việc tổ chức xử lý song song thực tế, thực cấu hình hệ thống cấp tài nguyên để xử lý liệu quản lý (mỗi container khối CPU, MEM khối động, định nghĩa được) Mỗi container cấp phát máy vật lý Mỗi ứng dụng chạy nhiều container nhiều máy khác để tính tốn song song Trong Hình 3.5 mơ tả việc quản lý hệ thống với thông tin tài 31 nguyên sử dụng hệ thống gồm CPU, MEM, tình trạng node số lượng ứng đụng chạy Hình 3.5: Hệ thống quản lý việc xử lý song song Và nội dung luận văn tập trung vào ứng dụng công nghệ học máy vào phát bất thường công tác vận hành khai hệ thống công nghệ thông tin Viettel theo các sử dụng phát bất thường đăng nhập hệ thống 3.2.3 Phân hệ phân tích ca sử dụng phát bất thường đăng nhập Đây phân hệ xây dựng để phục vụ cho toán mà luận văn đưa Phân hệ phân tích phát bất thường đăng nhập vào hệ thống thiết kế chạy định kì để xây dựng hồ sơ hành vi thực đánh giá để phát bất thường theo mơ hình tốn học áp dụng tính điểm bất thường hành vi đăng nhập giới thiệu Chương Từ liệu lưu trữ xử lý 3.2.1 3.2.2 dựa tảng có sẵn, phân hệ phân tích ca sử dụng phát bất thường đăng nhập được xây dựng ngôn ngữ Scala Phân hệ bao gồm nhiều tiến trình nhỏ Tiến trình trích xuất thơng tin đầu vào từ sở liệu gốc phục vụ toán nêu luận văn bao gồm đối tượng tác động, đối tượng chịu tác động, loại đăng nhập vào hệ thống (login hay logout), thuộc tính gồm địa IP, thời gian đăng nhập Tiến trình thực hiên bổ sung thêm thơng tin phục vụ phân tích Từ thơng tin thuộc tính địa IP, thực truy vấn danh mục quản lý địa IP bổ sung thêm thông tin dải IP, nhà cung cấp dịch vụ Internet (ISP), thông tin quốc gia từ thông tin thời gian, phân hệ bổ sung thông tin ngày ngày tuần Tiến trình thứ ba, sau có thơng tin đầu vào thưc lưu trữ tính điểm hành vi theo công thức giới thiệu Mục 2.3.2 Và tiến trình thứ tư thực ghi nhận ngưỡng cảnh báo thiết lập giao diện hệ thống với kết phân tích từ tiến trình thứ ba thực đẩy cảnh báo sang hệ thống giám sát an tồn thơng tin chung đơn vị 32 Phân hệ sau viết ngôn ngữ Scala, qua Framework Spark, Hadoop Sau xây dựng xong chương trình biên dịch qua Scala compiler thành tệp thực thi (.jar) Tệp thực thi đưa vào lên hệ thống Hadoop YARN để lập lịch chạy để thực với cấu Hình 3.6 tham số cụ thể để phân tích bất thường Hình 3.6 Lập lịch cấu hình chạy định kì phân tích liệu Hình 3.7 Các job chạy định kì phân tích liệu 33 Việc quản lý hoạt động phân tích hành vi đăng nhập bất thường hệ thống đưa thành job để chạy định kì lần hàng ngày Hình 3.7 3.8 Trong Hình 3.7 mơ tả ca sử dụng anomaly-bihavior-detection để phân tích hành vi bất thường Hình 3.7 mơ tả chi tiết thành phần tiến trình Hình 3.8 Job chạy định kì phân tích liệu hành vi bất thường Sau có kết phân tích hành vi, hệ thống thực so sánh với ngưỡng đặt để đánh giá mức độ bất thường Nếu hành vi đánh giá bất thường hệ thống phát sinh cảnh báo trình bày cụ thể phần 3.3 Thực nghiệm 3.3.1 Thu thập liệu kịch Trong phần này, để thực nghiệm kết đạt được, phạm vi tốn trình bày luận văn, liệu tạo việc sử dụng công cụ sinh ngẫu nhiên ghi theo kịch giả lập lịch sử truy cập hành vi người sử dụng bình thường hành vi có thuộc tính địa IP, địa điểm truy cập, khung thời gian truy cập hệ thống ngày ngày tuần thay đổi có thay đổi có tính lặp lại Và cơng cụ tạo tạo ghi hành vi coi bất thường địa IP, địa điểm, thời gian truy cập khác với kịch sử dụng bình thường Bộ liệu tạo với 3763678 ghi log đăng nhập 200000 người dùng từ 10000 IP nguồn khác vào hệ thống theo hành vi thông thường người dùng tạo 99116 ghi bất thường để kiểm thử khả phát hệ thống Các hành vi đăng nhập liệu tạo thời gian kéo dài vịng 60 ngày Sau đó, thực chạy hệ thống với 34 liệu đầu vào cho kết phân tích hành vi bất thường tương ứng với ngưỡng Bảng 3.1 Như Bảng 3.1, từ tập liệu qua phân hệ phân tích ca sử dụng cài đặt 3.2.3, kết đầu gồm có: - - Precision: tỉ lệ phát bất thường xác tổng số bất thường dự đốn Recall: tỉ lệ dự đoán bất thường tổng số bất thường thực tế FPR: tỉ lệ bắt sai TP: số lượng bất thường bắt TN: số lượng bình thường bắt FP: số lượng mẫu bình thường bắt bất thường FN: số lượng mẫu bất thường dự đốn bình thường Bảng 3.1 Kết chạy với tập liệu Precision (tỉ lệ phát bất thường xác tổng số bất thường dự đoán) Ngưỡng 0.0263349 Recall (tỉ lệ dự đoán bất thường tổng TP (số số bất FPR ( tỉ lượng thường lệ bắt bất thực tế) sai) thường) FP (số lượng mẫu bình TN ( số thường lượng bình bắt bất thường) thường) FN (số lượng mẫu bất thường dự đốn bình thường) 99116 3664562 0.0482328 0.998134 0.532719 98931 1712380 1952182 185 0.0561484 0.998043 0.453772 98922 2001688 1662874 194 0.0611156 0.998043 0.414697 98922 2144879 1519683 194 0.0767376 0.998043 0.324779 98922 2474390 1190172 194 0.0884911 0.998043 0.278056 98922 2645609 1018953 194 0.1053897 0.998043 0.229143 98922 2824853 839709 194 0.141881 0.998043 0.163265 98922 3066266 598296 194 0.1739267 0.998043 0.12821 98922 3194727 469835 194 0.2005604 0.998043 0.1076 98922 3270256 394306 194 10 0.221522 0.998043 0.094864 98922 3316928 347634 194 11 0.2366555 0.998043 0.087071 98922 3345484 319078 194 12 0.2480641 0.998043 0.081825 98922 3364708 299854 194 13 0.2632108 0.998043 0.075563 98922 3387656 276906 194 14 0.2710905 0.998043 0.072582 98922 3398580 265982 194 15 0.2824371 0.990869 0.068089 98211 3415046 249516 905 16 0.2904458 0.990829 98207 3424644 239918 909 0.06547 35 17 0.3013314 0.990819 0.062136 98206 3436861 227701 910 18 0.3175403 0.990819 0.057596 98206 3453497 211065 910 19 0.3334884 0.990678 0.053553 98192 3468315 196247 924 20 0.3623116 0.98981 0.047119 98106 3491890 172672 1010 21 0.4301219 0.971589 0.034817 96300 3536972 127590 2816 22 0.4774294 0.94457 0.027964 93622 3562088 102474 5494 23 0.5192851 0.916068 0.022937 90797 3580509 84053 8319 24 0.5448389 0.86533 0.019552 85768 3592911 71651 13348 25 0.5767772 0.848319 0.016836 84082 3602865 61697 15034 26 0.6052547 0.840429 0.014825 83300 3610234 54328 15816 27 0.6297039 0.836717 0.013308 82932 3615794 48768 16184 28 0.6562904 0.835526 0.011835 82814 3621191 43371 16302 29 0.6907088 0.834487 0.010107 82711 3627525 37037 16405 30 0.7239781 0.833821 0.008598 82645 3633053 31509 16471 31 0.7481842 0.833498 0.007588 82613 3636757 27805 16503 32 0.8044505 0.833044 0.005477 82568 3644491 20071 16548 33 0.844384 0.832721 0.004151 82536 3649351 15211 16580 34 0.8648736 0.832187 0.003517 82483 3651675 12887 16633 35 0.8870246 0.831521 0.002864 82417 3654065 10497 16699 36 0.8999137 0.830956 0.0025 82361 3655402 9160 16755 37 0.9053335 0.829402 0.002346 82207 3655966 8596 16909 38 0.9145591 0.828211 0.002093 82089 3656893 7669 17027 39 0.9258301 0.826537 0.001791 81923 3657999 6563 17193 40 0.9426712 0.824186 0.001356 81690 3659594 4968 17426 41 0.9483249 0.821341 0.001211 81408 3660126 4436 17708 42 0.953905 0.788177 0.00103 78121 3660787 3775 20995 43 0.9610261 0.77147 0.000846 76465 3661461 3101 22651 44 0.9660904 0.748789 0.000711 74217 3661957 2605 24899 45 0.9702745 0.725826 0.000601 71941 3662358 2204 27175 46 0.9734786 0.716585 0.000528 71025 3662627 1935 28091 47 0.9778054 0.705406 0.000433 69917 3662975 1587 29199 48 0.9809298 0.693339 0.000365 68721 3663226 1336 30395 49 0.984972 0.679123 0.00028 67312 3663535 1027 31804 50 0.9856499 0.663879 0.000261 65801 3663604 958 33315 51 0.9868842 0.649835 0.000234 64409 3663706 856 34707 52 0.9889211 0.633107 0.000192 62751 3663859 703 36365 36 53 0.9901948 0.6154 0.000165 60996 3663958 604 38120 54 0.9922475 0.596594 0.000126 59132 3664100 462 39984 55 0.9936848 0.579442 0.000100 57432 3664197 365 41684 56 0.9944665 0.562089 0.000085 55712 3664252 310 43404 57 0.9960856 0.546844 0.000058 54201 3664349 213 44915 58 0.9972268 0.533315 0.000040 52860 3664415 147 46256 59 0.9984189 0.522408 0.000022 51779 3664480 82 47337 60 0.998424 0.51134 0.000022 50682 3664482 80 48434 61 0.9990699 0.498507 0.000013 49410 3664516 46 49706 62 0.9998759 0.487913 0.000002 48360 3664556 50756 63 0.477774 47355 3664562 51761 64 0.463215 45912 3664562 53204 65 0.447223 44327 3664562 54789 66 0.430617 42681 3664562 56435 67 0.387233 38381 3664562 60735 68 0.362757 35955 3664562 63161 69 0.339925 33692 3664562 65424 70 0.299114 29647 3664562 69469 71 0.251614 24939 3664562 74177 72 0.246206 24403 3664562 74713 73 0.241202 23907 3664562 75209 74 0.233908 23184 3664562 75932 75 0.226946 22494 3664562 76622 76 0.220671 21872 3664562 77244 77 0.212307 21043 3664562 78073 78 0.205628 20381 3664562 78735 79 0.191977 19028 3664562 80088 80 0.150732 14940 3664562 84176 81 0.113624 11262 3664562 87854 82 0.096816 9596 3664562 89520 83 0.094132 9330 3664562 89786 84 0.058356 5784 3664562 93332 85 0.045654 4525 3664562 94591 86 0.045109 4471 3664562 94645 87 0.033547 3325 3664562 95791 88 0.000747 74 3664562 99042 37 3.3.2 89 0.000242 24 3664562 99092 90 0.000101 10 3664562 99106 91 0.000080 3664562 99108 92 0.000080 3664562 99108 93 0.000080 3664562 99108 94 0.000080 3664562 99108 95 0.000080 3664562 99108 96 0.000050 3664562 99111 97 0.000040 3664562 99112 98 0.000040 3664562 99112 99 0.000040 3664562 99112 Chọn ngưỡng cảnh báo bất thường Sau thực phân tích tập liệu kết phân tích, tính điểm mức độ bất thường hành vi với đối tượng, việc cần thực xác định số ngưỡng cảnh báo hành vi bất thường hệ thống SDM Hệ thống tự động đẩy cảnh báo sang hệ thống giám sát hành vi đánh giá bất thường số vượt ngưỡng thiết lập Và với ngưỡng cảnh báo, kết số lượng phát cảnh báo bất thường khác Ngoài ra, việc đặt ngưỡng cảnh báo hệ thống liên quan đến việc giám sát điều tra, xử lý cảnh báo hệ thống giám sát an tồn thơng tin đưa vào hoạt động thực tế Chính vậy, việc chọn ngưỡng tùy thuộc vào mục đích đơn vị sử dụng với toán cụ thể Từ kết chạy thực nghiệm với tập liệu mẫu, với ngưỡng đặt cho thấy kết phát có thay đổi số lượng mẫu đánh giá bất thường số mẫu đánh giá bình thường Ngồi ra, kết Bảng 3.1 cho thấy các số tỉ lệ phát bất thường xác tổng số bất thường dự đoán, tỉ lệ dự đoán bất thường tổng số bất thường thực tế, tỉ lệ bắt sai tập liệu thay đổi ngưỡng Có thể thấy tăng số lượng phát bất thường kèm với việc bắt nhầm hành vi bình thường thành bất thường Do đó, việc đặt ngưỡng điều chỉnh theo để đạt đươc mục tiêu mong muốn tốn q trình ứng dụng với tình hình thực tế Ví dụ cụ thể với tập liệu mẫu nêu trên, để ngưỡng từ 63 trở lên Bảng 3.2, kết cho thấy tỉ lệ bắt sai Nếu chọn ngưỡng làm ngưỡng cảnh bất thường phù hợp với toán xử lý tự động cảnh báo có cảnh báo bất 38 thường chắn Đơn vị giám sát an tồn thơng tin khơng cần phải xác minh độ xác cảnh báo (cảnh báo có cảnh báo sai) mà điều hành tổ chức xử lý Tuy nhiên ngưỡng này, việc phát bất thường đạt 47,8%, bỏ sót nhiều mẫu bất thường (cụ thể 51761 mẫu) Và mong muốn giảm việc bỏ sót trường hợp bất thường tăng số lượng phát bất thường lên việc dự đốn sai xảy (thực tế bình thường dự đốn bất thường) Bảng 3.2 Kết chạy với tập liệu threshold Precision (tỉ lệ phát bất thường xác tổng số bất thường dự đốn) Recall (tỉ lệ dự đoán bất thường tổng số bất thường thực tế) 63 64 65 FPR ( tỉ lệ bắt sai)) TP (số lượng bất thường) TN ( số lượng bình thường) FP (số lượng mẫu bình thường bắt bất thường) FN (số lượng mẫu bất thường dự đốn bình thường) 0.477774 47355 3664562 51761 0.463215 45912 3664562 53204 0.447223 44327 3664562 54789 Để hỗ trợ cho việc chọn ngưỡng cảnh báo, luận văn sử dụng việc mô kết biểu đồ với ba đường Precision, Recall FPR mơ tả Hình 3.8 Từ biểu đồ, nhìn trực quan kết thay đổi số đánh giá kết đầu hệ thống phát bất thường thay đổi ngưỡng Như Hình 3.8, ngưỡng 63 tỉ lệ bắt xác bất thường 100% khơng có trường hợp bắt bất thường sai (với số Prescison=1, FPR=0) Tuy nhiên, tỉ lệ bắt số bất thường đại 47,8%, bỏ sót 52,2% bất thường Hình 3.8 Biểu đồ ngưỡng 63 Do đó, với tốn phát bất thường trình bày Mục 1.2, số tối ưu cho mơ hình tỉ lệ xác tỉ lệ phát bất thường cao (từ số 39 Precision Recall cao) Và với tập kiệu mẫu sử dụng, thông qua việc biểu diễn biểu đồ mô kết đầu ra, ngưỡng 41 đánh giá tốt việc phát bất thường Với tỉ lệ bắt nhầm FPR thấp với 0,1% Hình 3.9: Kết đầu việc xác định ngưỡng cảnh bảo Như vậy, với tập liệu thực hiện, sau đánh giá kết quả, định ngưỡng phù hợp cho việc xác định bất thường đẩy cảnh báo Các trường hợp nhận định bất thường vượt cao ngưỡng đặt (nằm phía bên phải ngưỡng biểu đồ thể hiện) Sau đánh giá độ xác mơ hình, với tập liệu mẫu luận văn định sử dụng ngưỡng cảnh báo ngưỡng 41 mà presision recall cao với presision = 0.948 recall = 0.821 để áp dụng 3.4 Áp dụng thực nghiệm Áp dụng thực tế với hệ thống đơn vị, hệ thống phát bất thường (SDM) triển khai thực phân tích liệu thực hệ thống cơng nghệ thông tin VTNet Hệ thống SDM với 11 node phân tán lưu trữ xử lý 50 TB liệu lưu 60 ngày dùng cho việc phân tích bất thường Và hệ thống lên lịch (job) để chạy lần/ngày để phân tích cảnh bảo hành vi đăng nhập bất thường vào hệ thống ngày Hệ thống SDM liên kết với hệ thống giám sát cảnh báo an tồn thơng tin (Security Management) thông qua máy chủ Redis6 để cảnh báo bất thường việc đăng nhập hệ thống quan trọng Email, AD, SSO, VPN v.v Kết hệ thống giám sát tháng gần đây, hệ thống SDM phân tích đẩy cảnh báo đăng nhập bất thường hệ thống công nghệ thống VTNet xác minh xác Như Hình 3.10, hệ thống giám sát ATTT nhận thông tin từ hệ thống SDM cảnh bảo nhập VPN người dùng từ IP Viêt Nam Redis tên biết tắt REmote DIctionary Server) mã nguồn mở dùng để lưu trữ liệu có cấu trúc, sử dụng sở liệu, nhớ đệm hay trình chuyển tiếp tin nhắn danh sách tác vụ chờ xử lý Nó hệ thống lưu trữ liệu với dạng khóa-giá trị (KEYVALUE) mạnh mẽ phổ biến 40 Hình 3.10 Cảnh báo hệ thống Với việc áp dụng vào thực tế, hệ thống phát bất thường hoạt động vận hành khai thác hệ thống CNTT VTNet cụ thể với toàn đăng nhập bất thường vào hệ thống mà luận văn trình bày bước đầu có kết định Hệ thống tích hợp cơng cụ giám sát ATTT khác có tạo nên hệ thống quản lý toàn diện ATTT VTNet Như vậy, đề xuất đưa Chương Chương này, luận văn trình bày việc xây dựng cơng cụ phân tích mơ hình sử dụng thuật tốn để tính điểm hành vi đăng nhập vào hệ thống người sử dụng mơ hình hóa kết thử nghiệm nhằm hỗ trợ xác định ngưỡng tối ưu cho việc xác định hành vi bất thường Việc hoàn thành xây dựng phần mềm chạy thử tập liệu thực nghiệm cho thấy hệ thống hoạt động mơ hình hóa kết phân tích trực quan để hỗ trợ đưa định việc đặt ngưỡng để phát bất thường Với hành vi đánh giá bất thường, hệ thống đẩy cảnh bảo hệ thống giám chung ATTT VTNet để phận chuyên trách xử lý Hiện công cụ áp dụng phát nhiều trường hợp đăng nhập bất thường vào hệ thống quan trọng hỗ trợ tốt cho công tác quản lý giám sát ATTT đơn vị 41 Kết luận Trong bối cảnh ngành công nghệ thống tin phát triển, vấn đề an tồn thơng tin chủ đề nóng cần quan tâm Các thiệt hại việc an tồn thơng tin gây ngày lớn nguy hệ thống bị công tăng lên Các cố ATTT xảy năm 2019 Việt Nam giới cho thấy thiệt hại to lớn việc liệu, uy tín dẫn đến phá sản tổ chức Do đó, nhu cầu thực tiễn cần xây dựng triển khai giải pháp để giám sát, cảnh báo, ngăn chặn kịp thời nguy ATTT tin vận hành hệ thống vơ cần thiết Luận văn trình bày số thơng tin tình hình ATTT Việt nam giới năm gần cần thiết phải triển khai giải giải pháp ATTT có tốn phân tích bất thường hệ thống Nội dung luận văn trình bày tìm hiểu lý thuyết, kiến thức bất thường phương pháp phát bất thường thách thức với toàn Đồng thời luận văn đề đề xuất cách thức phát hành vi bất thường hệ thống, xây dựng giải pháp, mơ hình phần mềm để phân tích thực áp dụng cụ thể với toàn xác định hành vi đăng nhập bất thường vào hệ thống Ngồi việc tìm hiểu lý thuyết, luận văn trình bày cách thức vận dụng cơng cụ có cài đặt hệ thống quản lý hệ thống lưu trữ phân tán xử lý liệu phân tán Hadoop Đồng thời xây dựng thành công ứng dụng tảng liêu phân tán kiểm thử thuật toán, xác định ngưỡng cảnh báo để phát hành vi bất thường hệ thống dụng thực tế VTNet – đơn vị quản lý hạ tầng công nghệ thông tin, viễn thông lớn Viettel Kết nghiên cứu luận văn thể áp dụng cho dự án tăng cường bảo vệ an toàn thông tin VTNet, nhằm phát hành vi đăng nhập bất thường hệ thống truy cập hệ thống bất thường thời gian, địa IP truy cập v.v để từ cảnh báo hệ thống để phận quản lý ATTT có những biện pháp kiểm tra hành động xử lý kịp thời với bất thường Nó góp phần hiệu vào cơng tác đảm bảo an tồn thơng tin hệ thống liệu quan trọng VTNet Tuy nhiên, với thời gian có hạn, đề tài luận văn triển khai cho việc phát hành vi đăng nhập bất thường vào hệ thống nhiều loại bất thường cần phải mở rộng kết nối bất thường hệ thống mạng, tiến trình máy chủ mở cổng bất thường, hệ thống có tiến trình tạo tiến tình khác bất thường, tiến trình rundll32 hệ thống thực thi với tham số bất thường v.v Ngồi ra, hệ thống cơng cụ cho việc phát bất thường nhiều nội dung tiếp tục phải cải tiến tối ưu 42 tài nguyên hệ thống sử dụng để lưu trữ, phân tích (tài nguyên cho hệ thống sử dụng đánh giá lớn) Và việc phân tích mang tính hậu kiểm, chạy hàng ngày có báo cáo sau chạy theo lịch trình đặt ra, chưa thực phân tích, phát cảnh báo theo thời gian thực Hướng nghiên cứu luận văn tiếp tục nghiên cứu tối ưu thuật toán để nâng cao hiệu phát bất thường Đồng thời, luận văn tiếp tục cải tiến công cụ để sử dụng tài nguyên hệ thống hiệu hơn, mở rộng việc triển khai với toán phân tích, phát hành vi bất thường khác cảnh bảo theo thời gian thực nhằm tăng cường hiệu cơng tác giám sát an tồn thơng tin đơn vị 43 TÀI LIỆU THAM KHẢO [1] B Arindam, C.Varun and K Vipin (2009), “Anomaly detection: A survey”, ACM Computing Surveys, 31(3), pp 1-72 [2] Harsh H Patel, Purvi Prajapati (2018) “Study and Analysis of Decision Tree Based Classification Algorithms”, International Journal of Computer Sciences and Engineering, Vol Issue 10 [3] Iyigun, Cem & Ben-Israel, Adi (2013), “Probabilistic Distance Clustering, Algorithm and Applications”, Clustering Challenges in Biological Networks [4] Kaustav Das & Jeff Schneider (2007), “Detecting anomalous records in categorical datasets”, Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 220-229 [5] Li, Youguo & Wu, Haiyan (2012), “A Clustering Method Based on K-Means Algorithm”, Physics Procedia, Vol 25, pp 1104-1109 [6] Markus Goldstein and Andreas Dengel (2012), Histogram-based Outlier Score (HBOS): A fast Unsupervised Anomaly Detection Algorithm [7] Murtagh, Fionn & Contreras, Pedro (2011), “Methods of Hierarchical Clustering”, Computing Research Repository [8] Mr.Sudhir M.Gorade, Prof.Ankit Deo2,Prof Preetesh Purohit (2017), “A Study of Some Data Mining Classification Techniques”, International Research Journal of Engineering and Technology (IRJET), Vol 04 Issue 04 [9] Philipp Christian Petersen (2020), Neural Network Theory, University of Vienna [10] Shikha Agrawal, Jitendra Agrawal (2015), “Survey on Anomaly Detection using Data Mining Techniques”, In 19th International Conference on Knowledge Based and Intelligent Information and Engineering Systems, Vol 60, pp 708-713 [11] S.Neelamegam, Dr.E.Ramaraj (2013), Classification algorithm in Data mining: An Overview, In International Journal of Computer Applications (0975 – 8887), Vol 79 No [12] T Sajana, C M Sheela Rani and K V Narayana (2016), “A Survey on Clustering Techniques for Big Data Mining”, Indian Journal of Science and Technology, Vol 9(3) ... Tổng Công ty Mạng lưới Viettel SSO UEBA iv LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ chuyên ngành hệ thống thông tin ? ?Giải pháp công cụ hỗ trợ phát bất thường hoạt động vận hành khai thác. ..ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -oo0oo - NGUYỄN ĐĂNG TIỆP GIẢI PHÁP VÀ CÔNG CỤ HỖ TRỢ PHÁT HIỆN BẤT THƯỜNG TRONG HOẠT ĐỘNG VẬN HÀNH KHAI THÁC CÁC HỆ THỐNG THƠNG TIN TẠI VIETTEL... Ngồi ra, cơng cụ phát bất thường tiếp tục mở rộng với nhiều toán phân tích phát bất thường khác hoạt động vận hành khai thác hệ thống thông tin đơn vị bất thường lưu lượng kết nối, bất thường giao