Mục đích của Luận văn này là tìm hiểu về thuật toán phân loại học máy; tìm hiểu về hành vi bất thường người dùng web; nghiên cứu phương pháp phân loại hành vi bất thường của người dùng web dựa trên các thuật toán học máy. Mời các bạn cùng tham khảo!
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - Khuất Thị Ngọc Ánh PHƢƠNG PHÁP PHÁT HIỆN TẤN CÔNG WEB ỨNG DỤNG DỰA TRÊN KỸ THUẬT PHÂN TÍCH HÀNH VI Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 Hà Nội 2020 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Đỗ Xuân Chợ Phản biện 1: …………………………………………… Phản biện 2: …………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng .năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng 1 MỞ ĐẦU Tính cấp thiết đề tài Các nguy an tồn thơng tin giới nói chung Việt Nam nói riêng liên tục tăng phát triển số lượng mức độ nguy hiểm công Theo ghi nhận số công ty bảo mật giới, vài năm trở lại Việt Nam coi điểm nóng mã độc cơng website trái phép Hàng loạt công website diễn với quy mô lớn vào website doanh nghiệp, tổ chức phủ… gây an tồn thơng tin ảnh hưởng nghiêm trọng đến uy tín doanh nghiệp, tổ chức phủ Hiện nay, quan nhà nước, tổ chức phủ có nhiều biện pháp tích cực việc phịng chống phát cơng website Rất nhiều biện pháp ứng dụng triển khai thực tế Tuy nhiên, kỹ thuật công website ngày biến đổi tinh vi phức tạp, đặc biệt truy cập thể hành vi bất thường người dùng website dễ dàng để vượt qua giám sát sản phẩm an toàn web Website Trường Đại học Công nghệ Giao thông vận tải sử dụng cho phép nhiều user bao gồm sinh viên, giảng viên cán công nhân viên chức sử dụng để làm việc tra cứu thông tin Hàng ngày có hàng trăm nghìn giao dịch, người dùng truy cập vào website trường nhằm khai thác thực mục đích Trong số truy cập có nhiều truy cập bất thường người người dùng web ghi nhận, gây an toàn thơng tin uy tín nhà trường Chính vậy, vấn đề phát ngăn chặn truy nhập bất thường người dùng web lên Website Trường Đại học Công nghệ Giao thông vận tải quan tâm Từ lý trên, học viên với giúp đỡ TS Đỗ Xuân Chợ lựa chọn đề tài: “Phương pháp phát cơng web ứng dụng kỹ thuật phân tích hành vi” Tổng quan vấn đề cần nghiên cứu Hiện việc tăng trưởng phát triển nhanh chóng Internet dẫn đến nhu cầu bảo mật đảm bảo an tồn thơng tin doanh nghiệp ngày trọng Theo Báo cáo an ninh website Q3/2018 CyStack [17], quý năm 2018 giới có 129.722 website bị tin tặc công chiếm quyền điều khiển Như vậy, phút trơi qua lại có website bị tin tặc kiểm soát Bằng việc chiếm quyền điều khiển website tin tặc gây nhiều vấn đề rắc rối cho chủ website: đánh cắp liệu, cài đặt mã độc, phá hoại website, tạo trang lừa đảo (phishing), tống tiền…Theo thống kê, Việt Nam đứng thứ 19 (chiếm 0.9%) số quốc gia có website bị tin tặc công Cụ thể quý năm 2018 có 1.183 website Việt Nam bị tin tặc cơng kiểm sốt Các website giới thiệu sản phẩm dịch vụ Doanh nghiệp đối tượng bị tin tặc công nhiều nhất, chiếm tới 71,51% Vị trí thứ hai website Thương mại điện tử chiếm 13,86% Các website có tên miền gov.vn phủ chiếm 1.9% danh sách với tổng số 23 website bị cơng Ngồi việc sử dụng phương pháp phịng chống cơng truyền thống, xu hướng xử dụng trí tuệ nhân tạo, học máy để áp dụng lĩnh vực an toàn thơng tin để phát nhanh chóng tăng độ xác Có hướng tiếp cận dựa vào dấu hiệu hành vi để phát cơng web nói chung hành vi bất thường người dùng web nói riêng Mỗi phương pháp có ưu điểm nhược điểm định Trong luận văn, tác giả sâu vào việc nghiên cứu phương pháp phát hành vi bất thường người dùng web dựa kỹ thuật phân tích hành vi Để luận văn đạt kết trên, cần nghiên cứu làm rõ nội dung: - Tìm hiểu số lỗ hổng, điểm yếu cơng lên web ứng dụng; - Nghiên cứu tìm hiểu số phương pháp công nghệ phát công web ứng dụng; - Nghiên cứu phương pháp phát công web kỹ thuật phân tích hành vi sở thuật tốn học máy hành vi người dùng Mục đích nghiên cứu • Tìm hiểu thuật tốn phân loại học máy; • Tìm hiểu hành vi bất thường người dùng web; • Nghiên cứu phương pháp phân loại hành vi bất thường người dùng web dựa thuật toán học máy Đối tƣợng phạm vi nghiên cứu • Đối tượng nghiên cứu: Dữ liệu Truy cập web, liệu truy cập web ứng dụng trường Đại học Cơng nghệ Giao thơng vận tải • Phạm vi nghiên cứu: Hệ thống website phương pháp phát hành vi người dùng web Phƣơng pháp nghiên cứu Dựa thuật toán học máy có giám sát từ phân loại người dùng xác định người dùng bất thường Cấu trúc nội dung luận văn gồm chương với nội dung sau: Chƣơng 1: Nguy an tồn thơng tin web biện pháp phòng chống Nội dung chương luận văn trình bày số kỹ thuật công website bao gồm: số phương pháp công, công cụ hỗ trợ công Bên cạnh đó, chương luận văn trình bày số phương pháp cơng cụ phịng chống công web Chƣơng 2: Phƣơng pháp phát cơng web dựa kỹ thuật phân tích hành vi Nội dung chương luận văn nghiên cứu số phương pháp phát công web bao gồm kỹ thuật phát công cụ mã nguồn mở hỗ trợ phát công web Ngồi ra, chương trình bày phương pháp phát công web dựa kỹ thuật phân tích hành vi Chƣơng 3: Thực nghiệm đánh giá Nội dung chương luận văn thực thực nghiệm phát công web dựa kỹ thuật phân tích hành vi sở thuật toán hành vi lựa chọn phân tích chương Kết luận 4 CHƢƠNG 1: NGUY CƠ MẤT AN TỒN THƠNG TIN WEB VÀ BIỆN PHÁP PHỊNG CHỐNG 1.1 Kỹ thuật cơng web Ngày nguy an tồn thơng tin ngày xảy nhiều dẫn đến hậu nghiêm trọng mà người quản trị website lường trước Đặc biệt công web ngày tinh vi khó lường Chính vậy, mục luận văn khảo sát phương thức công lỗ hổng bảo mật Website dựa khuyến nghị OWASP (The Open Web Application Security Project- dự án mở bảo mật ứng dụng Web) 1.1.1 Tấn công SQL injection 1.1.2 Tấn công kiểu Broken Authentication And Session Management 1.1.3 Tấn công Cross Site Scripting (XSS) 1.1.4 Kiểu công Insecure Direct Object References 1.1.5 Tấn công Sensitive Data Exposure 1.1.6 Tấn công Missing Function Level Access Control 1.1.7 Tấn công Using Components with Known Vulnerabilities 1.1.8 Tấn công Unvalidated Redirects and Forwards 1.1.11 Tấn cơng APT 1.2 Phƣơng pháp phịng chống cơng web 1.2.1 Các phương pháp phịng chống cơng web phổ biến Phƣơng pháp phịng chống cơng SQL injection Phƣơng pháp phịng chống cơng Cross Site Scripting (XSS) Phƣơng pháp phịng chống cơng Cross-Site Request Forgery (CSRF) 1.2.2 Một số phương pháp nâng cao bảo mật hệ thống máy chủ website Kết luận chƣơng Trong chương 1, luận văn khảo sát nguy an tồn thơng tin Website tìm hiểu kĩ thuật cơng vào lỗ hổng phổ biến (Top 10 OWAPS) Từ đưa số phương pháp phịng chống công xây dựng Website Vấn đề phát sớm cơng Website để có biện pháp phịng ngừa hữu hiệu đóng vai trị quan trọng Chương tiếp theo, luận văn nghiên cứu phương pháp phát công Website dựa kĩ thuật phân tích hành vi 6 CHƢƠNG 2: PHƢƠNG PHÁP PHÁT HIỆN TẤN CÔNG TRÊN WEB DỰA TRÊN KỸ THUẬT PHÂN TÍCH HÀNH VI 2.1 Giới thiệu phƣơng pháp phát công web 2.1.1 Một số phương pháp phát cơng web Hình 2.1: Phân loại phƣơng pháp phát công web 2.1.2 Công cụ phát công web 2.1.2.1 Sử dụng tường lửa WAF 2.1.2.2 Sử dụng hệ thống phát xâm nhập Chức IDS Kiến trúc hệ thống phát xâm nhập IDS Cách thức làm việc IDS Ưu điểm Network-Based IDSs: Quản lý network segment (gồm nhiều host) 7 "Trong suốt" với người sử dụng lẫn kẻ cơng Cài đặt bảo trì đơn giản, không ảnh hưởng tới mạng Tránh DOS ảnh hưởng tới host Có khả xác định lỗi tầng Network (trong mơ hình OSI) Độc lập với OS Hạn chế Network-Based IDSs: Có thể xảy trường hợp báo động giả (false positive), tức khơng có intrusion mà NIDS báo có intrusion Khơng thể phân tích traffic mã hóa (vd: SSL, SSH, IPSec…) NIDS đòi hỏi phải cập nhật signature để thực an tồn Có độ trễ thời điểm bị attack với thời điểm phát báo động Khi báo động phát ra, hệ thống bị tổn hại Không cho biết việc attack có thành cơng hay khơng Giới hạn băng thơng Ưu điểm Host - Based IDS: Hạn chế Host - Based IDS: 2.1.2.3 Cơng cụ phần mềm dị quét 2.2 Phƣơng pháp phát hành vi bất thƣờng ngƣời dùng web sử dụng học máy 2.2.1 Một số thuật tốn phát cơng web 2.2.1.1 Phương pháp học có giám sát sử dụng SVM (SVM- Support vector machine) 2.2.1.2 Decision Tree 2.2.1.3 Random Forest 2.2.1.4 KNN 2.2.2 Lựa chọn trích xuất hành vi người dùng web 2.2.2.1 Mô tả liệu Trong luận văn, tác giả trích xuất hành vi bất thường từ liệu công web CSIC 2010 Bảng 2.1: Mô tả trƣờng liệu liệu CSIC Cột liệu Mô tả index Số thứ tự method Phương thức cho HTTP/1.1 GET, HEAD, POST, PUT, … url Đường dẫn hay địa dùng để tham chiếu đến tài nguyên mạng Internet userAgent Là chuỗi nhận dạng trình duyệt web gửi yêu cầu đến máy chủ web cacheControl Tối ưu tốc độ tải trang, tăng tính bảo mật accept Là kiểu liệu mà nhận từ response, response mà dại trả khác kiểu bị ban Thường thấy kiểu text/html, application/xhtml+xm acceptEncoding Khai báo kiểu mã hóa nội dung mà request chấp nhận acceptCharset Sử dụng để thiết lập ký tự chấp nhận Cột liệu Mô tả acceptLanguage Sử dụng để ngôn ngữ chấp nhận host Địa IP máy chủ contentLength Chỉ dẫn kích cỡ phần thân đối tượng, số thập phân hệ 8, gửi tới người nhận contentType Là kiểu thông tin mà server trả cho client, phải phù hợp với accept mà client request tới Chứa thơng tin mã hóa dùng để gửi lên server, cookie giúp xác định phiên client-server Chứa liệu tham số người dùng gửi lên payload Thơng thường tốn phân tích hành vi người dùng để xác định bất thường, tập trung chủ yếu vào trường liệu người dùng nhập vào Đối với tập liệu CSIC thu thập luận văn tập trung vào trường payload, url cookie để xây dựng feature 2.2.2.2 Trích chọn thuộc tính sử dụng kỹ thuật TF-IDF (Term Frequency – Inverse Document Frequency) Ứng dụng N-Gram trích xuất kí tự từ văn Mơ hình ngôn ngữ thống kê cho phép gán (ước lượng) xác suất cho chuỗi m phần tử (thường từ) P( tức cho phép dự đoán khả chuỗi từ xuất ngơn ngữ Theo cơng thức Bayes: P(AB) = P(B|A) * P(A) Trong đó: P(A): Xác suất xảy kiện A 10 P(B): Xác suất xảy kiện B P(B|A): Xác suất (có điều kiện) xảy kiện B biết kiện A xảy Từ ta được: P( = P( ) * P( | ) * P( ) *…* P( | … | ) Theo cơng thức tốn tính xác suất chuỗi từ quy tốn tính xác suất từ với điều kiện biết từ trước (có thể hiểu xác suất để P( đứng đầu chuỗi hay nói cách khác người ta đưa thêm ký hiệu đầu dòng start vào chuỗi) Trong thực tế, dựa vào giả thuyết Markov người ta tính xác suất từ dựa vào nhiều n từ xuất liền trước nó, thơng thường n= 0,1,2,3 Vì vậy, nhiều người gọi mơ hình ngơn ngữ mơ hình N-gram, n số lượng từ (bao gồm từ cần tính từ ngữ cảnh phía trước) - Với n = 1, unigram - Với n = 2, ta có khái niệm bigram - Với n = 3, ta có trigram Nhưng n lớn số trường hợp lớn nên thường người ta sử dụng với n = 1,2 đôi lúc Theo công thức Bayes, mơ hình ngơn ngữ cần phải có lượng nhớ vơ lớn để lưu hết xác suất tất chuổi độ dài nhỏ m Rõ ràng, điều m độ dài văn ngôn ngữ tự nhiên (m tiến tới vơ cùng) Để tính xác suất văn với lượng nhớ chấp nhận được, ta sử dụng xấp xỉ Markov bậc n: P( = P( ) * P( | ) * P( | * P( ) *… | … )* P( … ) | 11 Với công thức này, ta xây dựng mơ hình ngơn ngữ dựa việc thống kê cụm có n+1 từ Các mơ hình N-gram hình dung thơng qua ví dụ sau: TF-IDF Term Frequency – Inverse Document Frequency (TF-IDF) giải pháp đánh trọng số kết hợp tính chất quan trọng từ tài liệu chứa (TF- tần suất xuất từ tài liệu) với tính phân biệt từ tập tài liệu nguồn (IDF- nghịch đảo tần suất tài liệu) Đây kỹ thuật thường sử dụng kết hợp với thuật toán khác để xử lý văn Mục đích kỹ thuật tính trọng số từ, qua đánh giá mức độ quan trọng từ văn Trong đó: - TF tính theo cơng thức: tf(t,d) = { Trong đó: tf(t, d): tần suất xuất từ t văn d f(t, d): Số lần xuất từ t văn d max({f(w, d) : w ∈ d}): Số lần xuất từ có số lần xuất nhiều văn d - IDF tính theo cơng thức: idf(t,D) = log { } Trong đó: idf(t, D): giá trị idf từ t tập văn |D|: Tổng số văn tập D |{d ∈ D : t ∈ d}|: thể số văn tập D có chứa từ t 12 - Giá trị TF-IDF: tfidf(t, d, D) = tf(t, d) x idf(t, D) Ví dụ trích chọn thuộc tính sử dụng kết hợp N-Gram TF-IDF cho request người dùng: http://localhost:8080?id=abc';+drop+table+usuarios; Thu kết bảng 2.2 Bảng 2.2: Kết trích chọn thuộc tính sử dụng kết hợp N-Gram TF-IDF tfidf tfidf tfidf tab 0.23375 rop 0.138057 =ab 0.138057 ble 0.23375 st: 0.138057 ?id 0.138057 abl 0.23375 t:8 0.138057 alh 0.138057 abc 0.23375 tp: 0.138057 bc' 0.138057 ';+ 0.138057 dro 0.138057 bct 0.138057 lho 0.138057 cal 0.138057 c'; 0.138057 e+a 0.138057 cta 0.138057 ttp 0.138057 hos 0.138057 +ab 0.138057 htt 0.138057 +dr 0.138057 id= 0.138057 +ta 0.138057 le+ 0.138057 //l 0.138057 le; 0.138057 /lo 0.138057 loc 0.138057 80 0.138057 d=a 0.138057 0?i 0.138057 oca 0.138057 808 0.138057 op+ 0.138057 80? 0.138057 ost 0.138057 :// 0.138057 p+t 0.138057 :80 0.138057 p:/ 0.138057 ;+d 0.138057 13 Kết luận chƣơng Trong chương luận văn giới thiệu tổng quát phương pháp phát công web số công cụ hỗ trợ phát công Từ hạn chế việc sử dụng công cụ công, luận văn đề xuất phương pháp phát hành vi bất thường người dùng web sử dụng học máy thơng qua thuật tốn: SVM, Random Forest, KNN Luận văn đưa phương pháp tính sử dụng kĩ thuật trích chọn thuộc tính văn TF-IDF để lựa chọn trích xuất hành vi người dùng đưa cảnh báo trước công web cho người quản trị Trên sở kết đạt chương 2, chương luận văn tiến hành thực nghiệm phát cơng web dựa kỹ thuật phân tích hành vi sở thuật toán (SVM, Random Forest, KNN) hành vi trích xuất- lựa chọn 14 CHƢƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Một số yêu cầu cài đặt 3.1.1 Yêu cầu chung cho cài đặt thử nghiệm - Phần cứng: Bộ xử lý 32bit (x86) 64bit (x64) có tốc độ gigahertz (GHz) nhanh hơn; RAM 4GB trở lên; Đĩa cứng có dung lƣợng trống 10 GB (64 bit) - Phần mềm: Cài đặt hệ thống Windows/Linux (Centos 7.2); Công cụ lập trình: Phần mềm Python 2.7 trở lên phần mềm Pycham Professional 2020.1 - Dữ liệu: CSIC 2010, liệu công thu thập website trường Đại học Công nghệ Giao thông vận tải 3.1.2 Giới thiệu chung Python 3.2 Kịch thực nghiệm Bộ liệu CSIC đầu vào chia thành nhiều tập khác để kiểm nhiệm mơ hình Q trình xây dựng mơ hình bao gồm hai giai đoạn chính: - Giai đoạn 1: Huấn luyện mơ hình (Training phase) - Giai đoạn 2: Kiểm thử mơ hình (Testing phase) 15 Hình 3.1: Q trình xây dựng mơ hình Giai đoạn huấn luyện mơ hình (bao gồm bƣớc chính): - Bước 1: Bộ liệu request bình thường từ người dùng tập liệu CSIC Tại bước này, thực tính tốn xuất ký tự quan trọng lưu chúng sở liệu - Bước 2: Mô-đun không gian vectơ sử dụng để chuyển đổi liệu chuỗi thành vectơ Sử dụng kĩ thuật trích chọn thuộc tính TF-IDF kết hợp N-Gram - Bước 3: Mô-đun xử lý liệu sử dụng thuật toán học máy (lần lượt thay thuật toán khác để xác định mơ hình tối ưu cho tốn: KNN, SVM, Random Forest) Giai đoạn kiểm thử mơ hình: - Bước 1: Phần liệu thử nghiệm tiến hành loại bỏ nhãn liệu - Bước 2: Thực q trình trích xuất đặc trưng liệu tương tự bước giai đoạn - Bước 3: Thử nghiệm mơ hình ứng với thuật tốn học máy xây dựng giai đoạn Tác giả lựa chọn phương pháp đánh giá độ xác cách sử dụng ma trận độ đo (confusion matrix) F1score mô tả sau: Confusion Matrix phương pháp đánh giá kết toán phân loại với việc xem xét số độ xác độ bao quát dự đoán cho lớp Một confusion matrix gồm số sau lớp phân loại: TP (True Positive): mẫu mang nhãn dương phân lớp vào lớp dương TN (True Negative): mẫu mang nhãn âm phân lớp vào lớp âm FP (False Positive - Type Error): mẫu mang nhãn âm bị phân lớp sai vào lớp dương 16 FN (False Negative - Type Error): mẫu mang nhãn dương bị phân lớp sai vào lớp âm Hình 3.2: Ma trận độ đo (Conusion matrix) Ký hiệu TP True Positive; TN True Negative; FP False Positive FN False Negative Thực phép đo Precision – Recall, đó, Precision tỉ lệ số điểm TP điểm phân loại Positive, Recall tỉ lệ số điểm TP số điểm thực Positive Công thức sau: precision= recall= Ta thấy rằng, Precision Recall phủ cao tốt Nhưng thực tế, hai giá đạt cực đại lúc thông thường phải tìm kiếm cân Thước đo F1score trung bình hài hịa Precision Recall Nó có xu hướng khơng hai giá trị có xu hướng khơng F1score = 2* Kịch thực nghiệm chi tiết: Trong mơ hình sử dụng liệu bao gồm 25065 liên kết bất hợp pháp số loại công (XSS, SQL injection) 36000 liên kết hợp pháp Bộ 17 liệu từ số nguồn liệu công cụ bảo vệ hệ thống tệp nhật ký hệ thống phát ngăn chặn xâm nhập, yêu cầu HTTP (phương thức GET, phương thức POST) tường lửa ứng dụng Web Các liệu ban đầu thực phân chia thành hai phần riêng biệt với 80% liên kết để đào tạo 20% liên kết để thử nghiệm Trong trình thử nghiệm thêm số phương pháp học máy để so sánh phương pháp đề xuất 3.3 Một số kết thực nghiệm Thực thử nghiệm liêu bao gồm: - 36000 request bình thường; - 25065 request bất thường; - Tỉ lệ chia liệu Traning/Testing 8/2; - Số lớp liệu cần phần lớp: Bình thường/Bất thường Từ việc thực phân chia liệu đầu vào tập bình thường thành đoạn với tỉ lệ trên, ta bảng kết quả: 0.9767 0.9692 N=3 N=4 [326 4698] 0.9967 [22 5002] [7171 18] 0.9563 [7148 41] 0.9942 [8 2494] [3598 [131 2371] 0.9975 0.9974 0.9980 0.9969 0.9977 0.9752 0.9862 2494] [22 5002] [7171 18] [8 [3598 7] 0.9648 [7090 99] 7] 0.9969 0.9837 Matrix Confusion [3594 11] 0.9811 F1_Score [136 4888] 0.9862 Recall [136 4888] 0.9807 Precision 0.9974 0.9980 0.9862 Precision Rừng ngẫu nhiên [313 4711] 0.9579 Confusion [7090 99] 0.9922 F1_Score [7133 56] Recall Matrix Precision Matrix Confusion SVM Nhận xét: Kết sau chạy với thuật tốn học máy ta thu mơ hình tốt với thuật toán SVM Ngram = 0.9695 N=2 F1_Score KNN thƣờng theo kịch Bảng 3.1: Kết thực nghiệm xây dựng phân lớp bình thƣờng/bất 0.9969 0.9977 0.9811 Recall 18 19 Phát bất thường từ hành vi người dùng web vấn đề khó phịng chống cơng ứng dụng web Thuật toán phân loại đề xuất để phát liên kết bất hợp pháp dựa ứng dụng phương pháp học máy với việc trích chọn đặc trưng thuộc tính liệu người dùng Thuật tốn phát liên kết bất hợp pháp phân tích liên kết theo chuỗi bước để xác định xem liên kết hợp pháp hay độc hại Mặc dù thuật tốn đề xuất cải thiện độ xác phân loại liên kết bất hợp pháp, với gia tăng số lượng tham số có yêu cầu, độ xác phân loại giảm Do đó, thời gian tới, cần tìm kết hợp phương pháp phát bất thường dựa học sâu nhằm cải thiện độ xác phân loại không liên kết đáng ngờ đặc trưng loại công chưa định danh Kết luận chƣơng Trong chương luận văn xây dựng ba kịch thử nghiệm phân loại hành vi người dùng web Với kịch xây dựng mơ hình học máy như: KNN, SVN, Random Forest Các kết thử nghiệm ban đầu cho thấy giải pháp phát công web ứng dụng dựa kỹ thuật phân tích hành vi đề xuất có tính khả thi cao phù hợp với yêu cầu đề 20 KẾT LUẬN Những đóng góp luận văn Với mục tiêu nghiên cứu phương pháp phát công web ứng dụng dựa kỹ thuật phân tích hành vi thử nghiệm, luận văn sâu nghiên cứu vấn đề xung quanh đề tài nghiên cứu, thuật toán học máy phát công web để ứng dụng vào phát hành vi bất thường người dùng Những kết đạt luận văn: - Khảo sát số nguy an tồn thơng tin thông qua kĩ thuật công web, đưa phương pháp phịng chống cơng web phổ biến đưa số phương pháp nhằm nâng cao bảo mật hệ thống - Tìm hiểu phương pháp phát công web dựa kỹ thuật phân tích hành vi Thực trích xuất hành vi bất thường từ liệu công web (bộ liệu CSIC 2010) sử dụng kĩ thuật trích chọn TF-IDF kết hợp NGram - Lựa chọn ứng dụng thuật toán học máy nhằm phân loại hành vi cơng hành vi bình thường lên web, sử dụng thuật tốn học máy có giám sát: KNN, SVM, Random forest - Thực nghiệm xây dựng mơ hình phân lớp bình thường/bất thường theo kịch để đưa mơ hình tốt sử dụng N-Gram với n=3 Hƣớng phát triển luận văn Một số hướng phát triển luận văn: - Mặc dù thuật tốn đề xuất cải thiện độ xác phân loại liên kết bất hợp pháp, với gia tăng số lượng tham số có yêu cầu, độ xác phân loại giảm Do đó, cần tìm kết hợp phương pháp phát bất thường dựa học sâu nhằm cải thiện độ xác phân 21 loại khơng liên kết đáng ngờ đặc trưng loại công chưa định danh - Thực nghiên cứu phương pháp phát công web dựa kỹ thuật phân tích hồ sơ hành vi ... TRÊN WEB DỰA TRÊN KỸ THUẬT PHÂN TÍCH HÀNH VI 2.1 Giới thiệu phƣơng pháp phát công web 2.1.1 Một số phương pháp phát cơng web Hình 2.1: Phân loại phƣơng pháp phát công web 2.1.2 Công cụ phát công. .. nghiên cứu số phương pháp phát công web bao gồm kỹ thuật phát công cụ mã nguồn mở hỗ trợ phát công web Ngồi ra, chương trình bày phương pháp phát công web dựa kỹ thuật phân tích hành vi Chƣơng 3:... Kết luận chƣơng Trong chương luận văn giới thiệu tổng quát phương pháp phát công web số công cụ hỗ trợ phát công Từ hạn chế vi? ??c sử dụng công cụ công, luận văn đề xuất phương pháp phát hành vi