Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 52 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
52
Dung lượng
778,09 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -oo0oo - NGUYỄN ĐĂNG TIỆP GIẢI PHÁP VÀ CÔNG CỤ HỖ TRỢ PHÁT HIỆN BẤT THƯỜNG TRONG HOẠT ĐỘNG VẬN HÀNH KHAI THÁC CÁC HỆ THỐNG THÔNG TIN TẠI VIETTEL LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội – 09/2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -oo0oo - NGUYỄN ĐĂNG TIỆP GIẢI PHÁP VÀ CÔNG CỤ HỖ TRỢ PHÁT HIỆN BẤT THƯỜNG TRONG HOẠT ĐỘNG VẬN HÀNH KHAI THÁC CÁC HỆ THỐNG THÔNG TIN TẠI VIETTEL Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã Số: 8480104.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN HƯỚNG DẪN KHOA HỌC: PGS TS PHẠM NGỌC HÙNG Hà Nội – 09/2020 i Mục lục LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC HÌNH VẼ Giới thiệu Chương Kiến thức 1.1 Bất thường phương pháp 1.1.1 Bất thường 1.1.2 Các phương pháp phát bất t 1.1.3 Các thách thức phát b 1.2 Các phương pháp đánh giá 1.2.1 True/False Positive/Negative 1.2.2 Độ xác độ hồi tưởng 1.2.3 Tóm tắt Chương 2: Mơ hình phát hành vi đăng nhập hệ thống bất thường 2.1 2.2 2.3 2.3.1 2.3.2 Giới thiệu đề tài phát bất th Mơ tả tốn bất thường đăng Giới thiệu mơ hình hệ thống phá Cách thức phân tích liệu Xây dựng mơ hình phân tích Chương 3: Thực nghiệm 3.1 3.2 3.2.1 3.2.2 3.2.3 3.3 3.3.1 3.3.2 3.4 Kiến trúc công cụ Cài đặt công cụ Phân hệ lưu trữ liệu lớn Phân hệ xử lý Phân hệ phân tích ca sử dụng ph Thực nghiệm Thu thập liệu kịch Chọn ngưỡng cảnh báo bất thườ Áp dụng thực nghiệm Kết luận TÀI LIỆU THAM KHẢO ii LỜI CẢM ƠN Trước tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo, PGS TS Phạm Ngọc Hùng, người hướng dẫn, khuyến khích, bảo tạo cho điều kiện tốt từ bắt đầu thực luận văn hồn thành cơng việc Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo Khoa Công nghệ thông tin, Trường Đại học Cơng nghệ, ĐHQGHN tận tình đào tạo, cung cấp cho kiến thức vô quý giá tạo điều kiện tốt cho tơi suốt q trình học tập, nghiên cứu Trường Đồng thời xin cảm ơn tất người thân u gia đình tơi tồn thể bạn bè người giúp đỡ, động viên tơi q trình học tập nghiên cứu Cuối cùng, xin chân thành cảm ơn đồng nghiệp giúp đỡ, tạo điều kiện thuận lợi cho tơi học tập nghiên cứu chương trình Thạc sĩ Trường Đại học Công nghệ, ĐHQGHN Từ viết tắt AD ASN ATTT AV CNTT DNS GSM HDFS IP ISP JSON NIST NSM PCA SDM SIEM SSO UEBA VPN VTNet iv LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ chuyên ngành hệ thống thông tin “Giải pháp công cụ hỗ trợ phát bất thường hoạt động vận hành khai thác hệ thống thơng tin Viettel” cơng trình nghiên cứu riêng hướng dẫn PGS TS Phạm Ngọc Hùng, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng, hợp pháp trích dẫn trung thực Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 01 tháng năm 2020 Học viên Nguyễn Đăng Tiệp v DANH MỤC HÌNH VẼ Hình 1.1 Một ví dụ bất thường điểm tập liệu không gian hai chiều Hình 1.2 Ví dụ bất thường bối cảnh Hình 1.3 Ví dụ bất thường tập hợp lưu lượng hệ thống Hình 1.4 Ví dụ tốn phân lớp phát thư rác Bảng 1.1 Ma trận nhầm lẫn 12 Bảng 1.2 Ma trận nhầm lẫn chuẩn hóa 13 Hình 1.4 Cách tính độ xác độ hồi tưởng .14 Hình 2.1 Mơ hình tổng thể hệ thống giám sát an tồn thơng tin 19 Hình 2.2: Mơ hình luồng liệu cho hệ thống phát bất thường 20 Hình 2.3 Mơ hình hệ thống phát bất thường 21 Hình 2.4 Các thuộc tính liên quan đến địa IP 22 Hình 2.5 Cấu trúc liệu hành vi phát bất thường 23 Bảng 2.1 Các thuộc tính sử dụng để phát bất thường đăng nhập 24 Hình 2.6: Mơ hình phân bố thuộc tính 26 Hình 3.1: Mơ hình luồng liệu cho hệ thống phát bất thường 28 Hình 3.2: Hệ thống lưu trữ liệu 29 Hình 3.3: Hệ thống lưu trữ liệu (tiếp) 29 Hình 3.5: Hệ thống quản lý việc xử lý song song 31 Hình 3.6 Lập lịch cấu hình chạy định kì phân tích liệu .32 Hình 3.7 Các job chạy định kì phân tích liệu 32 Hình 3.8 Job chạy định kì phân tích liệu hành vi bất thường 33 Bảng 3.1 Kết chạy với tập liệu 34 Bảng 3.2 Kết chạy với tập liệu 38 Hình 3.8 Biểu đồ ngưỡng 63 38 Hình 3.9: Kết đầu việc xác định ngưỡng cảnh bảo .39 Hình 3.10 Cảnh báo hệ thống .40 Giới thiệu Trong năm gần đây, phát triển mạnh hệ thống ứng dụng công nghệ thông tin (CNTT) đem lại lợi ích không nhỏ cho người bao gồm đời sống, công nghệ, kinh tế, xã hội, v.v Bên cạnh đó, vấn đề an ninh bảo mật đảm bảo an tồn thơng tin cho hệ thống cơng nghệ thông tin thách thức không nhỏ Các hành vi xâm nhập trái phép, công vào hệ thống máy tính cá nhân hay tổ chức ngày gia tăng gây thiệt hại nghiêm trọng Theo trang thông tin VTV (Đài truyền hình Việt Nam), báo cáo năm 2020 công ty bảo mật Bkav công bố cho thấy, Việt Nam, vào năm 2018, tổng thiệt hại công mạng gần 15.000 tỷ đồng đến hết năm 2019, số gần 21.000 tỷ đồng Mức thiệt hại tăng thêm 6.000 tỷ đồng, tương đương với khoảng 40% Theo thống kê Bkav, số lượng máy tính bị liệu năm 2019 lên tới 1.8 triệu lượt, tăng 12% so với năm 2018 Và theo báo cáo từ hãng bảo mật Kaspersky, so với năm 2018, số lượng mối đe dọa phát phần mềm diệt vi-rút web tăng gấp năm lần (523%), tổng cộng 2.660.000 vào năm 2019 Tháng 4/2019, liệu cá nhân 100 triệu người dùng dịch vụ tìm kiếm Ấn Độ có tên JustDial bị lộ sở liệu trực tuyến không bảo vệ Dữ liệu bị rò rỉ thu thập thời gian thực từ khách hàng truy cập dịch vụ qua trang Web, ứng dụng di động chí gọi bao gồm tên người dùng, địa email, số điện thoại di động, địa chỉ, nghề nghiệp chí ảnh cá nhân, v.v Tháng 6/2019, quan thu thập y tế Mỹ (AMCA) bị khai thác liệu làm lộ thơng tin cá nhân thơng tin tốn gần 20 triệu bệnh nhân sau bị công xâm nhập vào cổng tốn họ Thơng tin bị truy cập trái phép bao gồm tên, ngày sinh, địa chỉ, điện thoại, ngày dịch vụ, nhà cung cấp, thơng tin số dư thẻ tín dụng tài khoản ngân hàng, v.v Chỉ vài tuần sau vi phạm công bố, AMCA nộp đơn xin phá sản với lý tài pháp lý Tháng 8/2019, Capital One, ngân hàng thương mại lớn Mỹ, bị đánh cắp liệu, làm lộ thông tin cá nhân 106 triệu thẻ tín dụng từ năm 2005 đến năm https://vtv.vn/cong-nghe/18-trieu-luot-may-tinh-viet-nam-bi-mat-du-lieu-trong-nam-201920200115170552486.htm https://www.kaspersky.com/about/press-releases/2019_malware-variety-grows-by-137-in-2019due-to-web-skimmers “Over100MillionJustDialUsers’PersonalDataFoundExposedOntheInternet,”byMohitKumar,TheHa ckerNews,April17,2019 “Data Breach Forces Medical Debt Collector AMCA to File for Bankruptcy Protection,” by Charlie Osborne, ZDNet, June 19, 2019 2019 Tin tặc khai thác cấu hình sai thiết bị tường lửa máy chủ cung cấp dịch vụ ảo hoá (Cloud) Capital One lấy cắp 700 thư mục liệu Tháng 10/2019, liệu y tế cá nhân gần triệu người New Zealand bị lộ công xâm nhập vào hệ thống tổ chức Tu Ora Compass Health Một tin tặc với tên “Vanda The God” đe dọa bán thông tin Các điều tra cho thấy hệ thống bị công vào bốn lần khác Tháng 11/2019, UniCredit, ngân hàng Italia, bị xâm phạm liệu dẫn đến rò rỉ thông tin cá nhân ba triệu khách hàng, sau kẻ công không xác định xâm phạm tệp cũ từ năm 2015 chứa hồ sơ khách hàng, bao gồm tên, số điện thoại địa email Trong số hành động biện pháp để đảm bảo an tồn thơng tin theo tiêu chuẩn Viện tiêu chuẩn Công nghệ Quốc gia Mỹ (National Institute of Standards and Technology - NIST), nay, đơn vị tập trung làm tốt việc định nghĩa, nhận dạng tài sản, nguy an tồn thơng tin từ thực biện pháp bảo vệ khắc phục nâng cấp hệ thống Tuy nhiên, hai biện pháp quan trọng khác chưa thực tốt phát triển thực hoạt động thích hợp để xác định xuất kiện an ninh mạng tổ chức triển khai hoạt động xử lý liên quan đến việc phát cảnh báo liên quan đến an toàn thơng tin Cụ thể, kế hoạch ứng phó, truyền thơng, phân tích, giảm nhẹ thiệt hại cải tiến Để thực hai nhiệm vụ này, việc phân tích bất thường kiện hệ thống biện pháp quan trọng để hỗ trợ phát kịp thời kiện an ninh mạng để từ đơn vị có biện pháp ứng phó kịp thời để đảm bảo an tồn thơng tin Việc phân tích bất thường hành vi người dùng thực thể (User & Entity Behavior Analytics – UEBA) chủ đề quan tâm nhiều đơn vị giới có nhiều hãng công nghệ bảo mật quan tâm đến vấn đề LogRhythm hay Exabeam, Securonix xây dựng công cụ cho việc để phát cảnh báo nguy an tồn thơng tin hệ thống Hiện tại, Tổng Công ty Mạng lưới Viettel (VTNet) vận hành hệ thống công nghệ thơng tin lớn với hàng nghìn máy chủ thiết bị mạng, thiết bị bảo mật hệ thống sở liệu lớn lưu trữ nhiều thông tin quan trọng liên quan đến hạ tầng mạng lưới cung cấp dịch, thông tin cá nhân, tài khoản, giao dịch khách hàng, v.v Hệ thống cung cấp dịch vụ cho hàng triệu khách hàng với 60 triệu thuê bao di động triệu thuê bao cố định băng rộng tính đến đầu năm 2020 Và để đảm bảo việc cung cấp dịch vụ hệ thống, hoạt động vận hành khai thác hệ thống công 5https://www.ntsc.org/assets/pdfs/cyber-security-report-2020.pdf nghệ thông tin với việc truy cập vào máy chủ, sở liệu, thiết bị mạng để kiểm tra tình trạng hoạt động, khai thác, cập nhật liệu, xử lý lỗi dịch vụ phát sinh, v.v diễn thường xuyên liên tục Chính vậy, hệ thống CNTT lớn quan trọng có nguy rủi ro cao việc an tồn thơng tin (ATTT) Một số nguy ATTT hệ thống việc xâm nhập, tác động trái phép vào hệ thống nhằm lấy cắp, sửa đổi thông tin, đặc biệt thông tin thông tin liệu khách hàng, phá hoạt gây thiệt hại kinh tế (như thay đổi thông tin, giá trị tài khoản khách hàng) ảnh hưởng lớn đến uy tín đến cơng ty Các hoạt động kiểm sốt triển khai công cụ, giải pháp bảo mật nhằm tăng cường giám sát, bảo vệ cho hệ thống CNTT triển khai áp dụng chặt chẽ Tuy nhiên, hoạt động kiểm tra, đánh giá bất thường hoạt động vận hành khai thác hệ thống CNTT chưa có cơng cụ để quản lý tồn diện để phân tích đưa cảnh báo hệ thống giám sát ATTT VTNet Một số nội dung phải thực thủ công cách thực định kỳ kiểm tra lại log tác động hệ thống để phát xử lý trường hợp sai phạm truy cập, tác động hệ thống sai quy định Do đó, yêu cầu thực tế đặt cần xây dựng công cụ phân tích nhằm phân tích kiện, dấu hiệu bất thường việc truy cập, tác động vào hệ thống quan trọng nhằm hỗ trợ cho việc phát hiện, cảnh báo để tổ chức hành động xử lý kịp thời để đảm bảo an tồn thơng tin đơn vị Mục đích nghiên cứu luận văn hướng đến giải toán phát bất thường hoạt động vận hành khai thác hệ thống CNTT VTNet Các bất thường cần phát đăng nhập trái phép vào hệ thống, tiến trình lạ thực dị qt hệ thống mạng nội bộ, thực kết nối bất thường, tiến trình mở cổng bất thường hệ thống từ việc phân tích log kết nối, đăng nhập (thời điểm đăng nhập vào hệ thống, thời gian tác động, địa IP client sử dụng, địa IP hệ thống bị tác động, thông tin yêu cầu liệu truy xuất, nội dung thay đổi, v.v.) Vì hệ thống VTNet lớn nên đề tài tập trung thực hệ thống CNTT quan trọng nhằm xây dựng mơ hình cơng cụ thu thập, phân tích log phát bất thường đăng nhập hệ thống Và kết từ đề tài giúp đơn vị giám sát vấn đề bất thường việc kết nối đăng nhập vào hệ thống Từ đó, đề tài góp phần vào việc đảm bảo an tồn thơng tin đơn vị, giúp giảm thiểu rủi ro việc lấy cắp, sửa đổi phá hoại thông tin quan trọng VTNet, khách hàng hạn chế việc gây thiệt hại kinh tế, uy tín đơn vị Ngồi ra, cơng cụ phát bất thường tiếp tục mở rộng với nhiều toán phân tích phát bất thường khác hoạt động vận hành khai thác hệ thống thông tin đơn vị bất thường lưu lượng kết nối, bất thường giao dịch tài chính, bất thường vệc tác động lệnh vào hệ thống, v.v tình phân tích phức tạp với nhiều kiện kết hợp lại với 29 3.2.1 Phân hệ lưu trữ liệu lớn - Về lưu trữ phân tán ứng dụng công nghệ lưu trữ tệp phân tán (Distributed File System) tàng công nghệ Hadoop có sẵn để lưu trữ liệu lớn với tính bật như: Băng thơng đọc/ghi lớn; có chế tự lưu đảm bảo an tồn cho liệu, mơ hình thiết kế dễ dàng nâng cấp phần cứng, hỗ trợ đa dạng định dạng liệu từ liệu có cấu trúc đến liệu bán cấu trúc liệu phi cấu trúc hệ thống Hadoop Như giới thiệu Chương 3, liệu log đươc lấy từ từ nguồn syslog từ hệ thống máy chủ, ứng dụng, thiết bị sát mạng từ endpoint cài đặt máy chủ để thu thập thông tin, hoạt đông máy chủ truyền lên lưu trữ hệ thống log tập trung Hình 3.2: Hệ thống lưu trữ liệu Hình 3.3: Hệ thống lưu trữ liệu (tiếp) 30 Các liệu thơ, qua hệ thống xử lý log, phân tích log (parse log) theo chuẩn riêng, log riêng, xử lý nén, đánh index để việc xử lý nhanh lưu trữ tệp hệ thống HDFS (Hadoop Distributed File System) Hình 3.2 Hình 3.3 Các tệp lấy từ nguồn lưu vào thư mục khác Trong Hình 3.2, liệu từ hệ hống Email, AD, SSO, VPN v.v lưu trữ vào thư mục riêng Tiếp theo Hình 3.3 chi tiết tệp lưu trữ hệ thống thư mục cụ thể Về quản lý dịch vụ hệ thống lưu trữ HDFS, hệ thống quản lý tệp có giải diện để lý quản lý dịch vụ lưu trữ phân tán hệ thống HDFS Như Hình 3.4, thấy hệ thống chạy với 11 nodes phân tán số hệ thống hệ thống có 714 TB dung lượng cho lưu trữ liệu, tỉ lệ sử dụng ổ đĩa 59,29% Hình 3.4: Quản lý dịch vụ trữ liệu HDFS 3.2.2 - Phân hệ xử lý Tính tốn song song: Dựa tảng xử lý liệu MapReduce tiếng Google, hệ thống cho phép thực phép xử lý liệu phức tạp lượng liệu lớn thời gian ngắn Triển khai thuật toán phức tạp vào giám sát phát cơng thay truy vấn Cơ sở liệu phương pháp tiếp cận truyền thống Áp dụng việc tổ chức xử lý song song thực tế, thực cấu hình hệ thống cấp tài nguyên để xử lý liệu quản lý (mỗi container khối CPU, MEM khối động, định nghĩa được) Mỗi container cấp phát máy vật lý Mỗi ứng dụng chạy nhiều container nhiều máy khác để tính tốn song song Trong Hình 3.5 mơ tả việc quản lý hệ thống với thông tin tài 31 nguyên sử dụng hệ thống gồm CPU, MEM, tình trạng node số lượng ứng đụng chạy Hình 3.5: Hệ thống quản lý việc xử lý song song Và nội dung luận văn tập trung vào ứng dụng công nghệ học máy vào phát bất thường công tác vận hành khai hệ thống công nghệ thông tin Viettel theo các sử dụng phát bất thường đăng nhập hệ thống 3.2.3 Phân hệ phân tích ca sử dụng phát bất thường đăng nhập Đây phân hệ xây dựng để phục vụ cho toán mà luận văn đưa Phân hệ phân tích phát bất thường đăng nhập vào hệ thống thiết kế chạy định kì để xây dựng hồ sơ hành vi thực đánh giá để phát bất thường theo mơ hình tốn học áp dụng tính điểm bất thường hành vi đăng nhập giới thiệu Chương Từ liệu lưu trữ xử lý 3.2.1 3.2.2 dựa tảng có sẵn, phân hệ phân tích ca sử dụng phát bất thường đăng nhập được xây dựng ngôn ngữ Scala Phân hệ bao gồm nhiều tiến trình nhỏ Tiến trình trích xuất thơng tin đầu vào từ sở liệu gốc phục vụ toán nêu luận văn bao gồm đối tượng tác động, đối tượng chịu tác động, loại đăng nhập vào hệ thống (login hay logout), thuộc tính gồm địa IP, thời gian đăng nhập Tiến trình thực hiên bổ sung thêm thơng tin phục vụ phân tích Từ thơng tin thuộc tính địa IP, thực truy vấn danh mục quản lý địa IP bổ sung thêm thông tin dải IP, nhà cung cấp dịch vụ Internet (ISP), thông tin quốc gia từ thông tin thời gian, phân hệ bổ sung thông tin ngày ngày tuần Tiến trình thứ ba, sau có thông tin đầu vào thưc lưu trữ tính điểm hành vi theo cơng thức giới thiệu Mục 2.3.2 Và tiến trình thứ tư thực ghi nhận ngưỡng cảnh báo thiết lập giao diện hệ thống với kết phân tích từ tiến trình thứ ba thực đẩy cảnh báo sang hệ thống giám sát an tồn thơng tin chung đơn vị 32 Phân hệ sau viết ngôn ngữ Scala, qua Framework Spark, Hadoop Sau xây dựng xong chương trình biên dịch qua Scala compiler thành tệp thực thi (.jar) Tệp thực thi đưa vào lên hệ thống Hadoop YARN để lập lịch chạy để thực với cấu Hình 3.6 tham số cụ thể để phân tích bất thường Hình 3.6 Lập lịch cấu hình chạy định kì phân tích liệu Hình 3.7 Các job chạy định kì phân tích liệu 33 Việc quản lý hoạt động phân tích hành vi đăng nhập bất thường hệ thống đưa thành job để chạy định kì lần hàng ngày Hình 3.7 3.8 Trong Hình 3.7 mô tả ca sử dụng anomaly-bihavior-detection để phân tích hành vi bất thường Hình 3.7 mơ tả chi tiết thành phần tiến trình Hình 3.8 Job chạy định kì phân tích liệu hành vi bất thường Sau có kết phân tích hành vi, hệ thống thực so sánh với ngưỡng đặt để đánh giá mức độ bất thường Nếu hành vi đánh giá bất thường hệ thống phát sinh cảnh báo trình bày cụ thể phần 3.3 Thực nghiệm 3.3.1 Thu thập liệu kịch Trong phần này, để thực nghiệm kết đạt được, phạm vi tốn trình bày luận văn, liệu tạo việc sử dụng công cụ sinh ngẫu nhiên ghi theo kịch giả lập lịch sử truy cập hành vi người sử dụng bình thường hành vi có thuộc tính địa IP, địa điểm truy cập, khung thời gian truy cập hệ thống ngày ngày tuần thay đổi có thay đổi có tính lặp lại Và cơng cụ tạo tạo ghi hành vi coi bất thường địa IP, địa điểm, thời gian truy cập khác với kịch sử dụng bình thường Bộ liệu tạo với 3763678 ghi log đăng nhập 200000 người dùng từ 10000 IP nguồn khác vào hệ thống theo hành vi thông thường người dùng tạo 99116 ghi bất thường để kiểm thử khả phát hệ thống Các hành vi đăng nhập liệu tạo thời gian kéo dài vòng 60 ngày Sau đó, thực chạy hệ thống với 34 liệu đầu vào cho kết phân tích hành vi bất thường tương ứng với ngưỡng Bảng 3.1 Như Bảng 3.1, từ tập liệu qua phân hệ phân tích ca sử dụng cài đặt 3.2.3, kết đầu gồm có: - - Precision: tỉ lệ phát bất thường xác tổng số bất thường dự đoán Recall: tỉ lệ dự đoán bất thường tổng số bất thường thực tế FPR: tỉ lệ bắt sai TP: số lượng bất thường bắt TN: số lượng bình thường bắt FP: số lượng mẫu bình thường bắt bất thường FN: số lượng mẫu bất thường dự đốn bình thường Bảng 3.1 Kết chạy với tập liệu Prec (tỉ lệ thườ chín số thườ đốn Ngưỡng 10 11 12 13 14 15 16 35 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 36 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 37 89 90 91 92 93 94 95 96 97 98 99 3.3.2 Chọn ngưỡng cảnh báo bất thường Sau thực phân tích tập liệu kết phân tích, tính điểm mức độ bất thường hành vi với đối tượng, việc cần thực xác định số ngưỡng cảnh báo hành vi bất thường hệ thống SDM Hệ thống tự động đẩy cảnh báo sang hệ thống giám sát hành vi đánh giá bất thường số vượt ngưỡng thiết lập Và với ngưỡng cảnh báo, kết số lượng phát cảnh báo bất thường khác Ngoài ra, việc đặt ngưỡng cảnh báo hệ thống liên quan đến việc giám sát điều tra, xử lý cảnh báo hệ thống giám sát an tồn thơng tin đưa vào hoạt động thực tế Chính vậy, việc chọn ngưỡng tùy thuộc vào mục đích đơn vị sử dụng với toán cụ thể Từ kết chạy thực nghiệm với tập liệu mẫu, với ngưỡng đặt cho thấy kết phát có thay đổi số lượng mẫu đánh giá bất thường số mẫu đánh giá bình thường Ngồi ra, kết Bảng 3.1 cho thấy các số tỉ lệ phát bất thường xác tổng số bất thường dự đoán, tỉ lệ dự đoán bất thường tổng số bất thường thực tế, tỉ lệ bắt sai tập liệu thay đổi ngưỡng Có thể thấy tăng số lượng phát bất thường kèm với việc bắt nhầm hành vi bình thường thành bất thường Do đó, việc đặt ngưỡng điều chỉnh theo để đạt đươc mục tiêu mong muốn toán q trình ứng dụng với tình hình thực tế Ví dụ cụ thể với tập liệu mẫu nêu trên, để ngưỡng từ 63 trở lên Bảng 3.2, kết cho thấy tỉ lệ bắt sai Nếu chọn ngưỡng làm ngưỡng cảnh bất thường phù hợp với toán xử lý tự động cảnh báo có cảnh báo bất 38 thường chắn Đơn vị giám sát an tồn thơng tin khơng cần phải xác minh độ xác cảnh báo (cảnh báo có cảnh báo sai) mà điều hành tổ chức xử lý Tuy nhiên ngưỡng này, việc phát bất thường đạt 47,8%, bỏ sót nhiều mẫu bất thường (cụ thể 51761 mẫu) Và mong muốn giảm việc bỏ sót trường hợp bất thường tăng số lượng phát bất thường lên việc dự đốn sai xảy (thực tế bình thường dự đoán bất thường) Bảng 3.2 Kết chạy với tập liệu threshold 63 64 65 Để hỗ trợ cho việc chọn ngưỡng cảnh báo, luận văn sử dụng việc mô kết biểu đồ với ba đường Precision, Recall FPR mô tả Hình 3.8 Từ biểu đồ, nhìn trực quan kết thay đổi số đánh giá kết đầu hệ thống phát bất thường thay đổi ngưỡng Như Hình 3.8, ngưỡng 63 tỉ lệ bắt xác bất thường 100% khơng có trường hợp bắt bất thường sai (với số Prescison=1, FPR=0) Tuy nhiên, tỉ lệ bắt số bất thường đại 47,8%, bỏ sót 52,2% bất thường Hình 3.8 Biểu đồ ngưỡng 63 Do đó, với tốn phát bất thường trình bày Mục 1.2, số tối ưu cho mơ hình tỉ lệ xác tỉ lệ phát bất thường cao (từ số 39 Precision Recall cao) Và với tập kiệu mẫu sử dụng, thông qua việc biểu diễn biểu đồ mô kết đầu ra, ngưỡng 41 đánh giá tốt việc phát bất thường Với tỉ lệ bắt nhầm FPR thấp với 0,1% Hình 3.9: Kết đầu việc xác định ngưỡng cảnh bảo Như vậy, với tập liệu thực hiện, sau đánh giá kết quả, định ngưỡng phù hợp cho việc xác định bất thường đẩy cảnh báo Các trường hợp nhận định bất thường vượt cao ngưỡng đặt (nằm phía bên phải ngưỡng biểu đồ thể hiện) Sau đánh giá độ xác mơ hình, với tập liệu mẫu luận văn định sử dụng ngưỡng cảnh báo ngưỡng 41 mà presision recall cao với presision = 0.948 recall = 0.821 để áp dụng 3.4 Áp dụng thực nghiệm Áp dụng thực tế với hệ thống đơn vị, hệ thống phát bất thường (SDM) triển khai thực phân tích liệu thực hệ thống công nghệ thông tin VTNet Hệ thống SDM với 11 node phân tán lưu trữ xử lý 50 TB liệu lưu 60 ngày dùng cho việc phân tích bất thường Và hệ thống lên lịch (job) để chạy lần/ngày để phân tích cảnh bảo hành vi đăng nhập bất thường vào hệ thống ngày Hệ thống SDM liên kết với hệ thống giám sát cảnh báo an tồn thơng tin (Security Management) thơng qua máy chủ Redis để cảnh báo bất thường việc đăng nhập hệ thống quan trọng Email, AD, SSO, VPN v.v Kết hệ thống giám sát tháng gần đây, hệ thống SDM phân tích đẩy cảnh báo đăng nhập bất thường hệ thống công nghệ thống VTNet xác minh xác Như Hình 3.10, hệ thống giám sát ATTT nhận thông tin từ hệ thống SDM cảnh bảo nhập VPN người dùng từ IP Viêt Nam Redis tên biết tắt REmote DIctionary Server) mã nguồn mở dùng để lưu trữ liệu có cấu trúc, sử dụng sở liệu, nhớ đệm hay trình chuyển tiếp tin nhắn danh sách tác vụ chờ xử lý Nó hệ thống lưu trữ liệu với dạng khóa-giá trị (KEYVALUE) mạnh mẽ phổ biến 40 Hình 3.10 Cảnh báo hệ thống Với việc áp dụng vào thực tế, hệ thống phát bất thường hoạt động vận hành khai thác hệ thống CNTT VTNet cụ thể với toàn đăng nhập bất thường vào hệ thống mà luận văn trình bày bước đầu có kết định Hệ thống tích hợp cơng cụ giám sát ATTT khác có tạo nên hệ thống quản lý toàn diện ATTT VTNet Như vậy, đề xuất đưa Chương Chương này, luận văn trình bày việc xây dựng cơng cụ phân tích mơ hình sử dụng thuật tốn để tính điểm hành vi đăng nhập vào hệ thống người sử dụng mơ hình hóa kết thử nghiệm nhằm hỗ trợ xác định ngưỡng tối ưu cho việc xác định hành vi bất thường Việc hoàn thành xây dựng phần mềm chạy thử tập liệu thực nghiệm cho thấy hệ thống hoạt động mô hình hóa kết phân tích trực quan để hỗ trợ đưa định việc đặt ngưỡng để phát bất thường Với hành vi đánh giá bất thường, hệ thống đẩy cảnh bảo hệ thống giám chung ATTT VTNet để phận chuyên trách xử lý Hiện công cụ áp dụng phát nhiều trường hợp đăng nhập bất thường vào hệ thống quan trọng hỗ trợ tốt cho công tác quản lý giám sát ATTT đơn vị 41 Kết luận Trong bối cảnh ngành công nghệ thống tin phát triển, vấn đề an tồn thơng tin chủ đề nóng cần quan tâm Các thiệt hại việc an tồn thơng tin gây ngày lớn nguy hệ thống bị công tăng lên Các cố ATTT xảy năm 2019 Việt Nam giới cho thấy thiệt hại to lớn việc liệu, uy tín dẫn đến phá sản tổ chức Do đó, nhu cầu thực tiễn cần xây dựng triển khai giải pháp để giám sát, cảnh báo, ngăn chặn kịp thời nguy ATTT tin vận hành hệ thống vô cần thiết Luận văn trình bày số thơng tin tình hình ATTT Việt nam giới năm gần cần thiết phải triển khai giải giải pháp ATTT có tốn phân tích bất thường hệ thống Nội dung luận văn trình bày tìm hiểu lý thuyết, kiến thức bất thường phương pháp phát bất thường thách thức với toàn Đồng thời luận văn đề đề xuất cách thức phát hành vi bất thường hệ thống, xây dựng giải pháp, mơ hình phần mềm để phân tích thực áp dụng cụ thể với toàn xác định hành vi đăng nhập bất thường vào hệ thống Ngồi việc tìm hiểu lý thuyết, luận văn trình bày cách thức vận dụng cơng cụ có cài đặt hệ thống quản lý hệ thống lưu trữ phân tán xử lý liệu phân tán Hadoop Đồng thời xây dựng thành công ứng dụng tảng liêu phân tán kiểm thử thuật toán, xác định ngưỡng cảnh báo để phát hành vi bất thường hệ thống dụng thực tế VTNet – đơn vị quản lý hạ tầng công nghệ thông tin, viễn thông lớn Viettel Kết nghiên cứu luận văn thể áp dụng cho dự án tăng cường bảo vệ an tồn thơng tin VTNet, nhằm phát hành vi đăng nhập bất thường hệ thống truy cập hệ thống bất thường thời gian, địa IP truy cập v.v để từ cảnh báo hệ thống để phận quản lý ATTT có những biện pháp kiểm tra hành động xử lý kịp thời với bất thường Nó góp phần hiệu vào cơng tác đảm bảo an tồn thơng tin hệ thống liệu quan trọng VTNet Tuy nhiên, với thời gian có hạn, đề tài luận văn triển khai cho việc phát hành vi đăng nhập bất thường vào hệ thống nhiều loại bất thường cần phải mở rộng kết nối bất thường hệ thống mạng, tiến trình máy chủ mở cổng bất thường, hệ thống có tiến trình tạo tiến tình khác bất thường, tiến trình rundll32 hệ thống thực thi với tham số bất thường v.v Ngoài ra, hệ thống cơng cụ cho việc phát bất thường cịn nhiều nội dung tiếp tục phải cải tiến tối ưu 42 tài nguyên hệ thống sử dụng để lưu trữ, phân tích (tài nguyên cho hệ thống sử dụng đánh giá lớn) Và việc phân tích mang tính hậu kiểm, chạy hàng ngày có báo cáo sau chạy theo lịch trình đặt ra, chưa thực phân tích, phát cảnh báo theo thời gian thực Hướng nghiên cứu luận văn tiếp tục nghiên cứu tối ưu thuật toán để nâng cao hiệu phát bất thường Đồng thời, luận văn tiếp tục cải tiến công cụ để sử dụng tài nguyên hệ thống hiệu hơn, mở rộng việc triển khai với tốn phân tích, phát hành vi bất thường khác cảnh bảo theo thời gian thực nhằm tăng cường hiệu công tác giám sát an tồn thơng tin đơn vị 43 TÀI LIỆU THAM KHẢO [1] B Arindam, C.Varun and K Vipin (2009), “Anomaly detection: A survey”, ACM Computing Surveys, 31(3), pp 1-72 [2] Harsh H Patel, Purvi Prajapati (2018) “Study and Analysis of Decision Tree Based Classification Algorithms”, International Journal of Computer Sciences and Engineering, Vol Issue 10 [3] Iyigun, Cem & Ben-Israel, Adi (2013), “Probabilistic Distance Clustering, Algorithm and Applications”, Clustering Challenges in Biological Networks [4] Kaustav Das & Jeff Schneider (2007), “Detecting anomalous records in categorical datasets”, Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 220-229 [5] Li, Youguo & Wu, Haiyan (2012), “A Clustering Method Based on K-Means Algorithm”, Physics Procedia, Vol 25, pp 1104-1109 [6] Markus Goldstein and Andreas Dengel (2012), Histogram-based Outlier Score (HBOS): A fast Unsupervised Anomaly Detection Algorithm [7] Murtagh, Fionn & Contreras, Pedro (2011), “Methods of Hierarchical Clustering”, Computing Research Repository [8] Mr.Sudhir M.Gorade, Prof.Ankit Deo2,Prof Preetesh Purohit (2017), “A Study of Some Data Mining Classification Techniques”, International Research Journal of Engineering and Technology (IRJET), Vol 04 Issue 04 [9] Philipp Christian Petersen (2020), Neural Network Theory, University of Vienna [10] Shikha Agrawal, Jitendra Agrawal (2015), “Survey on Anomaly Detection using Data Mining Techniques”, In 19th International Conference on Knowledge Based and Intelligent Information and Engineering Systems, Vol 60, pp 708-713 [11] S.Neelamegam, Dr.E.Ramaraj (2013), Classification algorithm in Data mining: An Overview, In International Journal of Computer Applications (0975 – 8887), Vol 79 No [12] T Sajana, C M Sheela Rani and K V Narayana (2016), “A Survey on Clustering Techniques for Big Data Mining”, Indian Journal of Science and Technology, Vol 9(3) ... ĐẠI HỌC CÔNG NGHỆ -oo0oo - NGUYỄN ĐĂNG TIỆP GIẢI PHÁP VÀ CÔNG CỤ HỖ TRỢ PHÁT HIỆN BẤT THƯỜNG TRONG HOẠT ĐỘNG VẬN HÀNH KHAI THÁC CÁC HỆ THỐNG THƠNG TIN TẠI VIETTEL Ngành: Hệ thống thơng tin Chun... ĐOAN Tôi xin cam đoan luận văn thạc sĩ chuyên ngành hệ thống thông tin ? ?Giải pháp công cụ hỗ trợ phát bất thường hoạt động vận hành khai thác hệ thống thông tin Viettel” công trình nghiên cứu... nội dung luận văn tập trung vào ứng dụng công nghệ học máy vào phát bất thường công tác vận hành khai hệ thống công nghệ thông tin Viettel theo các sử dụng phát bất thường đăng nhập hệ thống 3.2.3