Phát hiện hành vi chèn mã dịch vụ web

THÔNG TIN TÀI LIỆU

Nội dung

Bài viết này khảo sát hiệu năng phân loại của các mô hình dựa trên học máy để phát hiện hiệu quả hành vi tấn công chèn mã tới các dịch vụ Web. Báo cáo đề xuất việc thu thập và xây dựng bộ mẫu tấn công chèn mã dùng cho việc huấn luyện và đánh giá với hơn 400 nghìn mẫu với 9 dạng.

Phạm Hoàng Duy, Nguyễn Ngọc Điệp PHÁT HIỆN HÀNH VI CHÈN MÃ DỊCH VỤ WEB Phạm Hoàng Duy, Nguyễn Ngọc Điệp Bộ mơn An tồn thơng tin, Khoa CNTT 1, Học Viện Cơng Nghệ Bưu Chính Viễn Thơng Tóm tắt: Nhu cầu giám sát truy nhập tới dịch vụ Web để phát dạng công từ Web log tăng theo phát triển Internet nhằm đảm bảo chất lượng phục vụ an toàn dịch vụ Báo cáo khảo sát hiệu phân loại mơ hình dựa học máy để phát hiệu hành vi công chèn mã tới dịch vụ Web Báo cáo đề xuất việc thu thập xây dựng mẫu công chèn mã dùng cho việc huấn luyện đánh giá với 400 nghìn mẫu với dạng Các thử nghiệm tiến hành tập liệu với thuật học: Cây định, rừng ngẫu nhiên, SVM, XGB mạng học sâu (DNN) cho kết khả quan, DNN đạt giá trị F1 lên tới 97,5% Từ khóa: IDS, Phát cơng, Tấn cơng chèn mã, An tồn thơng tin, Dịch vụ Web, Học máy GIỚI THIỆU Với phát triển Internet ứng dụng Web, việc phát bất thường dịch vụ Web khơng có phát thao tác sai người dùng mà cần đảm bảo phát hành vi có mục đích xấu làm suy giảm chất lượng phục vụ web-site, với hành vi gian lận Một biện pháp quan trọng hỗ trợ phát bất thường theo dõi giám sát truy nhập từ người dùng tới máy chủ cung cấp dịch vụ Web, qua cung cấp thơng tin hiệu hành vi truy nhập người dùng có tác dụng to lớn với việc đảm bảo chất lượng an toàn dịch vụ cung cấp Dựa thông tin thu từ liệu log dịch vụ Web, nhiều kỹ thuật phát truy nhập bất thường phát triển triển khai hiệu thực tế I Kỹ thuật phát truy nhập bất thường dựa luật sử dụng phổ biến nhờ tính dễ nắm bắt tiếp cận với người quản trị dịch vụ Web Có hai cách tiếp cận để sinh luật Cách thứ dựa vào luật tĩnh, tạo cách thủ công thông qua việc phân tích hành vi truy nhập người dùng ghi lại file nhật ký (Weblog) Cách tiếp cận khác tạo luật động cách sử dụng thuật toán kỹ thuật khai phá liệu hay học máy Đối với kỹ thuật sinh luật tĩnh, trước tiên cần tạo kịch tình mà người quản trị muốn mô Chẳng hạn, có hai tham số khác biệt truy nhập tới web-site việc kết hợp hai tham số gây cố bảo mật, người quản trị cần lập mơ hình cho trường hợp Bên cạnh quy tắc này, người quản trị phải thực phân tích tương quan để xem trường hợp giải công hay không [1] Luật chứa nhiều tham số như: khung thời gian, lặp lại mẫu, loại dịch vụ, cổng Thuật toán sau kiểm tra liệu từ file nhật ký tìm kịch cơng hay hành vi bất thường Kỹ thuật sinh luật tĩnh có khả phát nhanh xác công xét tới Tuy nhiên, điểm yếu kỹ thuật khối lượng việc làm thủ công lớn có khả bỏ sót cơng tiềm ẩn chưa tính đến Trong thực tế, luật tĩnh thường ứng dụng để phát cơng đơn giản có quy luật, dễ dàng tìm đặc trưng cơng Đối với công phức tạp kiểu công chèn mã nói chung (chèn lệnh, chèn mã, thay đổi tham số, …) kỹ thuật khơng có nhiều hiệu Các phương pháp dựa việc sinh luật động [2]–[6] mơ hình học máy giải vấn đề việc sinh luật tĩnh cho phép phát công tiềm ẩn chưa người quản trị biết đến Các thuật toán tiêu biểu thường sử dụng cho cách tiếp cận kể đến thuật toán luật kết hợp, định, rừng ngẫu nhiên … Nhưng mơ hình học sử dụng thuật tốn địi hỏi phải giải phức tạp việc phân tích liệu nhiều chiều, thuật tốn có độ phức tạp tính tốn cao Mặt khác, liệu sử dụng cho học máy có ảnh hưởng quan trọng tới hiệu việc phát hành vi công dịch vụ Web Bộ liệu CSIC 2010 [7] biết tới liệu mẫu cho hành vi truy nhập bình thường cơng tới dịch vụ thương mại điện tử với tổng cộng khoảng 60.000 truy vấn không rõ truy vấn công thuộc dạng cụ thể Việc xây dựng liệu đủ lớn cập nhật thuận tiện có ích việc thử nghiệm kỹ thuật học máy xây dựng hệ thống phát công chi tiết cho người quản trị dịch vụ Web Rõ ràng, kỹ thuật học máy cho phép phát hành vi công cách hiệu linh hoạt với hành vi mới, mà người quản trị Web chưa thực nắm rõ Vì vậy, báo cáo nghiên cứu việc áp dụng kỹ thuật học máy phát dạng công chèn mã cách chi tiết từ việc phân tích liệu Web-log truy nhập người dùng Cụ thể, tác giả thực khảo sát đề xuất mơ hình phân loại cho việc phát hành vi Tác giả liên hệ: Phạm Hoàng Duy, Email: duyph@ptit.edu.vn Đến tòa soạn: 8/2020, chỉnh sửa 09/2020, chấp nhận đăng:10/2020 SỐ 03 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 44 PHÁT HIỆN HÀNH VI CHÈN MÃ DỊCH VỤ WEB công chèn mã tới dịch vụ Web phân biệt với hành vi bình thường sử dụng mơ hình học máy, với thuật toán tiêu biểu bao gồm thuật toán dựa định, máy véc-tơ tựa (SVM), mạng học sâu (DNN) Bên cạnh đó, báo cáo đề xuất liệu mẫu cập nhật chứa dạng hành vi công chèn mã tới dịch vụ Web cách chi tiết nguyên nhân dẫn đến việc tràn đệm phần khác kỹ thuật ngăn chặn dễ bị vượt qua Kẻ công sử dụng lỗi tràn đệm để làm hỏng ngăn xếp thực thi ứng dụng Web Bằng cách gửi liệu đầu vào xây dựng cách cẩn thận tới ứng dụng Web, kẻ cơng khiến ứng dụng Web thực thi mã tùy ý thực tế kiểm sốt máy tính chạy ứng dụng Cấu trúc báo cáo sau Phần II trình bày vấn đề lý thuyết thực tiễn liên quan tới việc phát hành vi công dựa toán phân loại học máy Cụ thể, phần trước tiên giới thiệu hành vi công chèn mã tiêu biểu theo OWSAP nghiên cứu việc sử dụng kỹ thuật học máy cho việc phát phân loại hành vi công dịch vụ Web Ngồi ra, phần trình bày mơ hình phân loại đa lớp thuật toán tiêu biểu khảo sát cho việc phân loại phát hành vi công dịch vụ Web Vấn đề biểu diễn hành vi truy nhập người dùng dịch vụ Web khảo sát phần Lỗi tràn đệm có ứng dụng Web máy chủ Web hỗ trợ Web tĩnh động Tràn đệm gây rủi ro đáng kể cho người dùng ứng dụng Khi ứng dụng Web sử dụng thư viện ngoài, chẳng hạn thư viện đồ họa để tạo hình ảnh, chúng có rủi ro tự phơi trước công tràn đệm Tràn đệm tìm thấy mã ứng dụng Web tùy chỉnh Các lỗi tràn đệm ứng dụng Web tùy chỉnh có khả bị phát thơng thường có tin tặc cố gắng tìm khai thác lỗ hổng ứng dụng cụ thể Nếu phát ứng dụng tùy chỉnh, khả khai thác lỗ hổng (ngoài việc làm sập ứng dụng) giảm đáng kể thực tế mã nguồn thông báo lỗi chi tiết cho ứng dụng thường khơng có sẵn cho tin tặc Phần III đề xuất mơ hình phân loại đa lớp cho việc phát hành vi công cách thức xây dựng liệu mẫu sử dụng cho việc huấn luyện Phần trình bày phân tích mơ hình thử nghiệm khảo sát hiệu thuật toán học máy với liệu mẫu xây dựng Phần cuối trình bày kết luận hướng phát triển tương lai II PHÁT HIỆN VÀ PHÂN LOẠI HÀNH VI CHÈN MĂ DỰA TRÊN HỌC MÁY A Các hành vi chèn mã tới dịch vụ Web Phần trình bày khái niệm liên quan đến hành vi công liên quan đến việc chèn liệu bất thường chuẩn bị cách có chủ ý tới dịch vụ Web, theo phân loại tổ chức OWSAP 1) Chèn mã Chèn mã (Code injection) thuật ngữ chung cho loại cơng sử dụng mã mà đó, mã chèn vào ứng dụng ứng dụng dịch thực thi Kiểu công khai thác khả liệu không đáng tin cậy xử lý không an tồn Các loại cơng thường nhằm vào trường hợp thiếu xác thực liệu đầu vào/đầu thích hợp Kiểu cơng giới hạn môi trường dịch ngôn ngữ sử dụng chương trình bị cơng Ví dụ, kẻ cơng chèn mã PHP vào ứng dụng thực thi chúng khai thác phạm vi khả PHP 2) Chèn lệnh Chèn lệnh (Command injection) hình thức cơng nhằm thực thi lệnh tùy ý hệ điều hành máy chủ thông qua ứng dụng dễ bị công Các cơng chèn lệnh xảy ứng dụng chuyển liệu khơng an tồn người dùng cung cấp (biểu mẫu, cookie, mào đầu HTTP, v.v.) sang hệ thống Trong công này, lệnh hệ điều hành kẻ công cung cấp thường thực thi với đặc quyền ứng dụng dễ bị công Các công chèn lệnh phần lớn xác nhận đầu vào khơng thích đáng 3) Tràn đệm Tràn đệm (Buffer overflow) có lẽ dạng lỗ hổng bảo mật phần mềm biết đến nhiều Hầu hết nhà phát triển phần mềm biết đến lỗ hổng này, công tràn đệm nhằm vào ứng dụng cũ phổ biến Một phần vấn đề có nhiều SOÁ 03 (CS.01) 2020 4) Chèn CRLF CRLF thực tế chuỗi ký tự xuống dòng CR đầu dịng LF Tấn cơng chèn CRLF xảy người dùng thực việc gửi chuỗi CRLF tới ứng dụng Web Điều thường thực cách sửa đổi tham số HTTP URL 5) Chuỗi định dạng Tấn công chuỗi định dạng (Format string) xảy liệu vào xử lý lệnh thực ứng dụng Web Bằng cách này, kẻ cơng thực thi mã, đọc ngăn xếp gây lỗi phân đoạn ứng dụng chạy, gây hành vi làm tổn hại đến bảo mật tính ổn định hệ thống Cuộc cơng thực ứng dụng không xác thực đầu vào cách đắn Trong trường hợp này, tham số chuỗi định dạng, ví dụ %x, chèn vào liệu gửi đến, chuỗi phân tích cú pháp hàm định dạng việc chuyển đổi mô tả tham số thực thi Tuy nhiên, hàm định dạng cần nhiều đối số làm đầu vào đối số không cung cấp, dẫn đến hàm đọc ghi ngăn xếp 6) Sửa đổi tham số Tấn công giả mạo tham số Web dựa việc sửa đổi tham số trao đổi máy khách máy chủ để thay đổi liệu ứng dụng, chẳng hạn thông tin quyền người dùng, hay thông tin sản phẩm, v.v Thông thường, thông tin lưu trữ cookie, trường liệu ẩn URL Kiểu cơng thực người dùng có mục đích xấu muốn khai thác ứng dụng lợi ích riêng họ kẻ công muốn công người thứ ba cách sử dụng công trung gian (Man-in-the-middle) Thành công công phụ thuộc vào lỗi chế xác thực logic toàn vẹn Việc khai thác dẫn đến hậu khác bao gồm XSS, SQLi 7) Mã chéo Các công mã chéo XSS (Cross-Site Scripting) loại cơng chèn liệu, đoạn mã (script) độc hại chèn vào trang web Các cơng XSS TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 45 Phạm Hồng Duy, Nguyễn Ngọc Điệp xảy kẻ công sử dụng ứng dụng Web để gửi mã độc, thường dạng đoạn mã phía trình duyệt, đến người dùng cuối khác Các lỗ hổng cho phép công thành công phổ biến xảy ứng dụng Web sử dụng đầu vào từ người dùng kết đầu tạo mà không kiểm tra từ liệu theo kiểu không giám sát Luật kết hợp tạo từ liệu có phân loại Để đảm bảo luật liên kết chặt chẽ với mẫu, người ta sử dụng ngưỡng hỗ trợ để loại bỏ luật có mức hỗ trợ thấp Các kỹ thuật dựa khai thác luật kết hợp sử dụng để phát hành vi xâm nhập mạng nghiên cứu [1], [11], [12] Kẻ cơng sử dụng XSS để gửi đoạn mã độc hại cho người dùng khơng ngờ tới Trình duyệt người dùng cuối khơng có cách để biết đoạn mã không đáng tin cậy thực thi đoạn mã Vì trình duyệt cho đoạn mã đến từ nguồn đáng tin cậy, đoạn mã truy cập cookie, mã thông báo phiên thông tin nhạy cảm khác trình duyệt giữ lại sử dụng với trang web Các đoạn mã chí viết lại nội dung trang HTML Mơ hình FARM (Fuzzy Association Rule Model) phát triển Chan cộng [13] nhắm đến công giao thức SOAP công XML tới dịch vụ Web Hầu hết nghiên cứu hệ thống phát bất thường máy chủ hệ thống mạng phát công mức thấp mạng ứng dụng Web hoạt động mức ứng dụng cao Mơ hình luật kết hợp mờ FARM hệ thống phát bất thường cho vấn đề an ninh mạng đặc biệt ứng dụng thương mại điện tử dựa Web 8) Chèn mã SQL Một công chèn mã SQLi (SQL injection) bao gồm chèn truy vấn SQL thông qua liệu đầu vào từ máy khách đến ứng dụng Web Việc khai thác SQLi thành công dẫn tới khả lộ liệu nhạy cảm từ sở liệu, sửa đổi liệu hay thực thi thao tác quản trị sở liệu số trường hợp điều khiển hệ điều hành Các công SQLi kiểu công chèn liệu, lệnh SQL đưa vào liệu đầu vào để tác động đến việc thực thi lệnh SQL xác định trước B Kỹ thuật học máy phát công Các kỹ thuật phát hành vi truy nhập bất thường dựa luật mà chúng biểu diễn hành vi hệ thống Kết phân tích dựa vào tập luật cho phép xác định hành vi cụ thể thuộc dạng cơng hay bình thường Các kỹ thuật phát hành vi cơng kiểu dựa phân loại sử dụng kỹ thuật học máy hoạt động theo giả thuyết tổng quát sau đây: “Bộ phân loại có khả phân biệt lớp bình thường cơng học khơng gian đặc trưng định” Phân loại đa lớp giả định liệu huấn luyện chứa mục gán nhãn thuộc nhiều lớp thông thường báo cáo [8] [9] Các kỹ thuật phát hành vi bất thường dựa vào phân loại để phân biệt lớp hành vi bình thường với lớp lại Một mẫu liệu cần kiểm tra coi bất thường khơng phân loại bình thường phân loại hay tập luật tương ứng với lớp Một số kỹ thuật phân loại phụ kết hợp điểm số tin cậy với dự đoán phân loại Nếu khơng có phân loại đủ tin cậy để phân loại mẫu liệu cần kiểm tra bình thường mẫu liệu coi bất thường Kỹ thuật dựa luật cho toán đa lớp bao gồm hai bước Bước học luật từ liệu huấn luyện thuật toán học định, rừng ngẫu nhiên (Random Forest), Mỗi luật có độ tin cậy tương ứng mà giá trị tỷ lệ với trường hợp huấn luyện phân loại xác theo luật tổng số trường hợp huấn luyện với luận Bước thứ hai tìm luật biểu diễn tốt cho trường hợp cần kiểm tra Nghịch đảo độ tin cậy ứng với luật tốt giá trị bất thường trường hợp cần kiểm tra Một số biến thể kỹ thuật dựa luật mô tả nghiên cứu [2]–[6] Việc khai thác luật kết hợp [10] sử dụng để phát bất thường theo kiểu lớp cách tạo luật SỐ 03 (CS.01) 2020 Phát hành vi cơng sử dụng kỹ thuật sinh luật với phân loại đa lớp sử dụng thuật tốn mạnh để phân biệt trường hợp thuộc lớp khác Điều cho phép xác định cách chi tiết nhóm hành vi bình thường bất thường Mặt khác, giai đoạn kiểm chứng kỹ thuật thường nhanh trường hợp cần kiểm tra so sánh với mơ hình tính tốn trước Ngồi mơ hình dựa luật, mơ hình học sâu sử dụng cho việc phân biệt phát cách hành vi truy nhập trái phép từ liệu mạng Các tác giá báo cáo [14] sử dụng mạng nơ-ron hồi quy để tự động phân lớp liệu truy nhập, chẳng hạn truy vấn http, thuật học hồi quy thời gian thực Sau đó, việc phân loại truy nhập sử dụng kỹ thuật véc-tơ học máy Việc sử dụng thuật học thời gian thực giúp cho phương pháp đề xuất có khả áp dụng cho hệ thống theo dõi thời gian thực mở rộng bước Các báo cáo [15], [16] sử dụng kiến trúc nhớ dàingắn hạn LSTM (Long-Short Term Memory) cho mạng nơron hồi quy để xây dựng mơ hình phát xâm nhập với tập liệu thử nghiệm KDD 99 [17] Các tác giả [15] mở rộng kiến trúc LSTM cách cho phép gán trọng số thích ứng phần tử mạng cho phép phần tử mạng chống lại trạng thái không mong muốn từ đầu vào Kết thu khả quan với mức độ phát đạt 90% Tuy nhiên, báo cáo [16] sử dụng phần tập liệu KDD 99 để làm liệu huấn luyện Các tác giả [18] đánh giá khả mạng học sâu việc phân loại hành vi truy nhập bất thường với liệu Kết chứng tỏ khả học phân loại hành vi ưu việt mạng học sâu Với việc xây dựng mơ hình phân loại dựa liệu gán nhãn tính xác nhãn gán cho lớp bình thường khác có ảnh hưởng định đến hiệu mơ hình phân loại, mà thực tế thường khó để có liệu hoàn hảo Mặt khác, liệu sử dụng mơ hình học máy phổ biến phổ biến rộng rãi, ngoại trừ liệu hành vi công Web CSIC 2010 [7] C Mô hình học phân loại cho phát cơng 1) Mơ hình khái qt Bài tốn phân loại, toán học máy, nhằm xây dựng mơ hình phân loại từ tập liệu dán nhãn (giai đoạn huấn luyện), tiếp theo, phân loại trường hợp cần kiểm tra vào số TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 46 PHÁT HIỆN HÀNH VI CHÈN MÃ DỊCH VỤ WEB lớp cách áp dụng mơ hình học (giai đoạn kiểm chứng) Như giới thiệu phần trước, với việc phát hành vi truy nhập công kỹ thuật học máy giúp tạo điều kiện xây dựng phân loại, tự động tìm hiểu đặc trưng lớp cần phân loại, chẳng hạn hành vi cơng bình thường cách học từ liệu mẫu Cách tiếp cận cho phép nâng cao tính tự động đối mặt với mối đe dọa sửa đổi kỹ thuật công cũ giữ lại số đặc điểm việc xâm nhập trước Để sử dụng kỹ thuật học máy để phát phân loại hành vi truy nhập người dung, trước hết phải xây dựng tập liệu gán nhãn để huấn luyện Mỗi ghi tập liệu mô tả đặc trưng nhãn (cũng gọi lớp) Các đặc trưng bắt nguồn từ số đặc điểm cụ thể hành vi người dùng, chẳng hạn kích thước truy vấn tần suất đoạn tham số định truy vấn; nhãn giá trị nhị phân cho biết truy vấn bình thường hay khơng Việc phân tích để tìm đặc trưng hành vi người dùng áp dụng kỹ thuật xác định cấu trúc hay thành phần liệu thu thập Các phân tích thống kê bổ sung thêm đặc trưng hành vi người dùng biểu diễn mức độ tương quan thành phần liệu hay biểu diễn trừu tượng cấu trúc liệu thu thập Việc áp dụng mơ hình phân loại cho việc phát cơng sử dụng hai giai đoạn Giai đoạn đầu thực việc huấn luyện nhằm xây dựng mơ hình học máy thích ứng với đặc trưng liệu đầu vào nhờ thuật toán học máy Giai đoạn sau thực việc dự doán, đánh giá chất lượng mơ hình học việc sử dụng liệu đánh giá hay kiểm tra Kết thu cho biết chất lượng hay hiệu mơ hình thu Thuật tốn huấn luyện phân tích ghi định để huấn luyện để tạo mơ hình tốn học ánh xạ mối quan hệ đặc trưng nhãn ghi truy nhập người dùng Mơ hình đó, gọi phân loại, sử dụng để dự đoán lớp ghi liệu kiểm chứng ghi định để thử nghiệm Bộ phân loại đọc nhãn đưa dự đoán; nhãn liệu thử nghiệm sử dụng dự đoán so sánh với nhãn thực phân tích hiệu suất 2) Các thuật toán học máy thử nghiệm Phần giới thiệu số thuật toán học máy tiêu biểu, sử dụng để xây dựng mơ hình phân loại cho nhiều dạng công vào dịch vụ Web Trước hết, báo cáo giới thiệu thuật toán tiêu biểu cho việc phân loại SVM số thuật học tăng cường Ngoài ra, báo cáo đề cập tới mạng học sâu Đây mơ hình có tác động sâu rộng đến ứng dụng mơ hình học máy gần đây, đặc biệt lĩnh vực nhận dạng tiếng nói, xử lý ảnh xử lý ngôn ngữ tự nhiên Đặc trưng bật mơ hình học sâu việc sử dụng khối lượng lớn liệu so với cách tiếp cận truyền thống Các mơ hình sử dụng nhiều tham số cho phép khai thác thông tin tập liệu khổng lồ cách hiệu a) SVM SVM [19], Support Vector Machine, coi phân loại xác cho văn [20] SVM dựa việc sinh hàm từ tập liệu huấn luyện dán nhãn Các hàm hàm phân loại mà kết dạng nhị phân Các hàm hàm hồi quy khái qt SỐ 03 (CS.01) 2020 Với mục tiêu phân loại, hàm SVM tìm kiếm siêu phẳng khơng gian nhiều chiều để phân tách lớp liệu thành hai phần riêng biệt Dữ liệu huấn luyện ban đầu ánh xạ phi tuyến vào khơng gian đặc trưng có chiều lớn hơn, sau xây dựng siêu phẳng cho mẫu âm dương liệu huấn luyện phân tách với biên tối đa Điều tạo ranh giới định phi tuyến khơng gian đầu vào Các u cầu tính tốn SVM khơng có đặc biệt b) Rừng ngẫu nhiên Thuật toán rừng ngẫu nhiên [21] RF (Random Forest) thường sử dụng trình huấn luyện mơ hình học máy phân loại Đây thuật toán cho phép sinh tập luật phân loại từ liệu đầu vào dựa việc kết hợp định riêng lẻ Trong thực tế, RF trở thành công cụ tin cậy cho phân tích phân loại hồi quy liệu c) XGB XGB [22], eXtreme Gradient Boost, kỹ thuật học máy tăng cường hiệu cao để xây dựng phân loại Nhờ vào việc tối ưu hóa đệm, nén liệu khả mở rộng, XGB hoạt động với khối lượng lớn liệu song sử dụng tài nguyên nhiều so với hệ thống có XGB cung cấp dạng phần mềm mã nguồn mở công cụ chứng tỏ lực thi KDD Cup 2015 d) Mạng học sâu Trong lĩnh vực an ninh mạng, mạng học sâu thu hút quan tâm hiệu suất đáng kinh ngạc tiềm mạng học sâu thể vấn đề khác mà coi giải khứ Học sâu lĩnh vực hẹp học máy qua việc mô chức não người cịn có tên mạng lưới thần kinh nhân tạo Mạng học máy perceptron thông thường sử dụng ba lớp (lớp đầu vào, lớp ẩn, lớp đầu ra) phục vụ cho việc khai thác thông tin nhờ vào việc huấn luyện lớp ẩn lớp đầu theo liệu huấn luyện cung cấp Như vậy, mạng học máy “hình dung” cách thức biểu diễn tập liệu Mạng perceptron sâu nhiều lớp, mạng nơ-ron sâu tích chập mạng nơ-ron hồi quy cách tiếp cập phổ biển thời mơ hình học sâu Ngun nhân chủ yếu cho việc dùng mơ hình học sâu tính hiệu thực tế so với cách tiếp cận khác Hơn thế, mơ hình học sâu cung cấp kỹ thuật tiên tiến mặt lý thuyết biến thể thuật học Sự thành cơng mơ hình học sâu cần phải kể đến phổ biến tính toán hiệu cao sử dụng xử lý đồ họa Khi biểu diễn dạng ma trận véc-tơ, việc tính tốn tăng tốc nhờ phần cứng thư viện đồ họa tối ưu hóa Kết huấn luyện kiểm chứng mơ hình tiến hành cách nhanh chóng hiệu D Biểu diễn liệu hành vi người dùng Các tương tác người dùng với dịch vụ Web lưu giữ lại file Web-log máy chủ Thông tin quan trọng file truy vấn dịch vụ Web đóng gói theo giao thức HTTP Các thông tin phần mào đầu truy vấn HTTP sử dụng để huấn luyện Các thông tin thu thập từ truy vấn HTTP cần phân tích để trích xuất thơng tin quan trọng Chẳng TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 47 Phạm Hồng Duy, Nguyễn Ngọc Điệp hạn như, trước tiên URL trích xuất ghép nối với phương thức HTTP (ví dụ: GET, POST, PUT, v.v.) Mặt khác, truy vấn HTTP chứa tham số dành cho chương trình Web, ví dụ: parameter1 = value1 & parameter2 = value2 Các tham số cần trích xuất biến đổi phù hợp theo mơ hình học máy sử dụng Phần khảo sát số cách biểu diễn hành vi người dùng đặc trưng TF-IDF từ liệu truy vấn thu thập 1) Biểu diễn đặc trưng Mỗi truy vấn tới ứng dụng Web qua giao thức HTTP biểu diễn đặc trưng [23] dựa thống kê đơn giản tham số gửi, thống kê cấu trúc tham số đường dẫn (URI) người dùng sử dụng Đặc trưng truy vấn bao gồm: • • • • • • • • • Độ dài truy vấn Độ dài tham số Độ dài mô tả thông tin host Độ dài mào đầu “Accept-Encoding” Độ dài mào đầu “Accept-Language” Độ dài mào đầu “Content-Length” Độ dài mào đầu “User-Agent” Giá trị byte nhỏ truy vấn Giá trị byte lớn truy vấn Đặc trưng tham số gửi tới máy chủ dịch vụ: • • • Số lượng tham số Số chữ tham số Số ký tự khác tham số Đặc trưng đường dẫn tới trang ứng dụng: • • • • • • Số chữ số đường dẫn tới trang Số ký tự khác đường dẫn tới trang Số lượng chữ đường dẫn tới trang Số lượng ký tự đặc biệt đường dẫn tới trang Số lượng từ khóa đường dẫn tới trang Độ dài đường dẫn Việc phân tích thống kê giúp bổ sung thêm thơng tin đặc trưng như: phát liên kết đặc trưng với định lượng mối tương quan với dạng hành vi người dùng mà mơ hình học máy muốn phân tách Việc sử dụng toàn hay phần đặc trưng kể có tác động trước hết đến hiệu thuật tốn phân loại Nói cách khác, chất lượng việc phân tích phụ thuộc trực tiếp vào việc lựa chọn đặc trưng sử dụng mơ hình biểu diễn hành vi truy vấn người dùng 2) Biểu diễn đặc trưng sử dụng TF-IDF Chuỗi tham số truy vấn HTTP coi dạng văn trao đổi người dùng ứng dụng Web, nên chuỗi mã hóa sử dụng độ đo TF-IDF từ khóa hay cụm từ khóa tham số truy vấn HTTP Độ đo TF-IDF độ đo phổ biến SOÁ 03 (CS.01) 2020 phân tích văn [24], cho biết tần suất xuất từ khóa TF (Term Frequency) nghịch đảo IDF (Inverse Document Frequency) Các độ đo TF IDF xác định công thức sau: f(𝑡,𝑑) tf(𝑡, 𝑑) = max{f(𝑤,𝑑) ∶ 𝑤 ∈ 𝑑} |𝐷| idf(𝑡, 𝐷) = log |{𝑑 ∈ 𝐷∶ 𝑡 ∈ 𝑑}| (1) (2) Trong f(t, d) số lần xuất từ khóa t tham số truy vấn người dùng; max{f(w, d): w ∈ d}: số lần xuất nhiều từ khóa w truy vấn; D: tổng tham số truy vấn người dùng; d ∈ D : t ∈ d: số văn chứa t Độ đo TF-IDF cho phép đánh giá tương đồng tham số truy vấn HTTP Với liệu từ Web-log, tham số sử dụng truy vấn tách khỏi nội dung truy vấn nguyên thủy, ký tự đánh dấu (như ‘=’) tham số truy vấn loại bỏ Để xác định độ đo TF-IDF, thông thường chuỗi tham số chuyển thành cụm từ ký tự tiến hành xác định TF-IDF cho cụm (n-gram=3) 3) Nhận xét Cách thức biểu diễn hành vi truy nhập dịch vụ Web người dùng có ảnh hưởng trực tiếp lên hiệu mơ hình học máy việc phát hiệu hành vi bất thường Cách thức biểu diễn kết hợp n-gram TF-IDF cung cấp lượng thông tin lớn nhiều so với thức biểu diễn đặc trưng Vì vậy, thời gian độ phức tạp để xử lý liệu theo kiểu TF-IDF lớn nhiều so với cách thức biểu diễn phổ thông Điều khiến cho khối lượng liệu tăng lên đáng kể vấn đề quan trọng cần giải Trong phạm vi báo cáo này, kết hợp ngram TF-IDF lựa chọn cho mơ hình học máy khả biểu diễn phong phú đặc trưng tượng tác người dùng với ứng dụng Web III PHÂN LOẠI HÀNH VI CHÈN MĂ TỚI DỊCH VỤ WEB Mơ hình học máy phân loại mơ hình đáng quan tâm cho việc phát hành vi chèn mã từ người dùng tới ứng dụng Web nhờ vào khả nhận biết dạng hành vi người dùng từ tập liệu mẫu cho trước Dữ liệu tương tác người dùng tới ứng dụng Web cần phân chia thành hai nhóm: bình thường bất thường Dạng bình thường chứa đựng truy vấn Web người dùng thông thường sử dụng dịch vụ Web Dạng bất thường dạng truy vấn chứa cấu trúc liệu đặc biệt nhằm thực việc công chèn mã tới ứng dụng hay máy chủ ứng dụng Web giới thiệu phần trước Các dạng hành vi bình thường bất thường tập liệu mẫu cần gán nhãn phân biệt với Phần trình bày chi tiết hiệu mơ hình học phân loại áp dụng cho việc phát hành vi chèn mã tới ứng dụng Web dựa mô hình định, học tăng cường, SVM mạng học sâu A Mơ hình thử nghiệm TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 48 PHÁT HIỆN HÀNH VI CHÈN MÃ DỊCH VỤ WEB Mơ hình phân loại Dữ liệu mẫu Phân tách truy vấn Phân tách tham số Tiền xử lý Huấn luyện học máy Xây dựng đặc trưng ngram TF-IDF Hình Mơ hình huấn luyện phân loại hành vi cơng Hình biểu diễn mơ hình thử nghiệm phân loại cách hành vi công chèn mã tới máy chủ Web Dữ liệu đầu vào mơ hình thông tin thu thập từ file nhật ký máy chủ dịch vụ Web người quản trị xác nhận bình thường mẫu cơng Việc tiền xử lý nhằm loại bỏ liệu dư thừa truy vấn trùng nhau, có lỗi hay từ khóa đặc trưng cho công cụ sinh mẫu công Việc làm giảm số lượng mẫu truy nhập khơng bình thường song làm giảm việc huấn luyện bị thiên lệch số mẫu truy nhập công cụ thể Chi tiết liệu dùng để huấn luyện trình bày phần sau Sau tiền xử lý, liệu tiến hành phân tích TF-IDF dựa cụm ký tự thay cụm từ (n-gram=3) Thực nghiệm cho thấy cụm ký tự giúp giảm thiểu không gian biểu diễn truy vấn mang lại hiệu tốt cụm từ Việc huấn luyện phân loại triển khai thuật toán học máy trình bày phần trước bao gồm SVM tuyến tính, rừng ngẫu nhiên, xgb mạng học sâu để phân biệt hành vi công kiểu chèn mã tới dịch vụ Web Việc cho phép đánh giá hiệu thuật toán để lựa chọn thuật tốn tối ưu cho mơ hình phân loại Mơ hình phân loại huấn luyện được lưu lại phục vụ cho việc phân tích hành vi truy nhập ghi nhận Mơ hình thử nghiệm triển khai mơi trường lập trình Python thư viện scikit-learn, xgboost, keras, cho phép triển khai nhanh chóng hiệu mơ hình học máy Mặt khác, môi trường phát triển cho phép kết nối thuận tiện với hệ quản trị sở liệu phù hợp với việc quản lý liệu Web log lớn MongoDB, Spark B Xây dựng liệu Bộ liệu HTTP CSIC 2010 [7] liệu mẫu phổ biến sử dụng việc đánh giá thử nghiệm hiệu mơ hình phát truy nhập bất thường lĩnh vực nghiên cứu Mặc dù, liệu chứa mẫu truy nhập bất thường nhiều dạng công XSS, chèn mã SQL song việc áp dụng liệu cho việc phân tích hành vi truy nhập người dùng tới dịch vụ Web cụ thể khơng thực phù hợp Vì vậy, việc xây dựng liệu phù hợp cho dịch vụ Web cần theo dõi giám sát đóng vai trị quan trọng việc theo dõi phân tích truy nhập người dùng Báo cáo đề xuất cách thức bán tự động để xây dựng liệu dùng cho việc xây dựng mơ hình phân loại sử dụng kỹ thuật học máy sử dụng công cụ đánh giá an ninh SỐ 03 (CS.01) 2020 Các cơng cụ kiểm tra đánh giá an ninh cho dịch vụ Web cung cấp nguồn quan trọng mẫu truy nhập bất thường nhiều dạng khác công chiếm quyền, XSS, hay chèn mã SQL Các mẫu hữu ích cho việc xây dựng liệu mẫu Tuy nhiên, định dạng mẫu khơng hồn tồn phù hợp với hệ thống phân tích truy nhập dịch vụ Web người dùng cuối Bên cạnh mẫu truy nhập công chèn mã, mẫu truy nhập bình thường sinh tự động cơng cụ dò quét cấu trúc dịch vụ Web Với trang Web động, q trình dị qt hỗ trợ thủ công người quản trị Như vậy, hệ thống cung cấp nhóm liệu truy nhập mẫu bao gồm mẫu cơng chi tiết mẫu bình thường OWASP Zed Attack Proxy (ZAP) công cụ bảo mật mã nguồn mở phổ biến trì cách tích cực nhờ cộng đồng người dùng đơng đảo ZAP giúp người quản trị dịch vụ Web tự động tìm vấn đề an ninh ứng dụng Web giai đoạn phát triển thử nghiệm ứng dụng Không thế, ZAP công cụ hữu ích cho người kiểm thử xâm nhập có kinh nghiệm sử dụng để kiểm tra bảo mật thủ công Trong báo cáo này, ZAP sử dụng để sinh mẫu truy nhập công tới dịch vụ Web cần theo dõi giám sát ZAP cài đặt chế độ hoạt động tối đa để thu dạng truy nhập chèn mã (tấn công XSS, chèn mã SQL, hay thay đổi tham số ) số mẫu sinh nhiều Các mẫu phân loại lưu lại dạng file bán cấu trúc tương ứng để xử lý sau cho loại công khác Bên cạnh cơng cụ phân tích an ninh, ZAP cung cấp chế dị qt cấu trúc dịch vụ Web thơng qua dịch vụ spider AJAX spider Các công cụ cho phép lưu lại thông tin cấu trúc trang dịch vụ lưu vào file riêng làm mẫu hành vi bình thường Ngồi ra, liệu hành vi bình thường thu thập từ file nhật ký ứng dụng Web Các tác giả tiến hành sử dụng công cụ ZAP để thu thập liệu truy nhập dịch vụ Web tới web-site thử nghiệm có web-site dựng nên từ dịch vụ web tiếng DVWA cho việc thử nghiệm kiểm tra lỗ hổng Web phổ biến Các liệu thu thập từ file nhật ký kết hợp với liệu sinh từ công cụ ZAP, sau loại bỏ trùng lặp từ khóa liên quan đến cơng cụ ZAP tạo thành liệu mẫu Chi tiết liệu bảng Bảng Bộ liệu mẫu Phân loại Số lượng Tỷ lệ Kiểu truy nhập Bình thường normal 8479 3% codeinj 43746 11% Chèn mã cmdinj 62942 16% Chèn lệnh buf 2435 1% Tràn đệm crlf 17815 5% Chèn CRLF fstr 1333 1% Chuỗi định dạng param 5485 2% Thay đổi tham số sqli 264100 65% Chèn mã SQL xss 2144 1% Tấn công XSS TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 49 Phạm Hồng Duy, Nguyễn Ngọc Điệp Trong tổng số 400.000 liệu khác biệt truy nhập người dùng, có 65% liệu hành vi chèn mã SQL theo sau chèn lệnh(cmdinj) chèn mã (codeinj) với tỷ lệ khoảng 10% tổng số liệu Tỷ lệ truy nhập bình thường người dùng chiếm số nhỏ 3% Điều phản ánh thực tế cấu trúc liệu truy nhập thông thường người dùng không đa dạng phong phú truy vấn bất thường có mục đích xấu Rõ ràng, liệu không cân đặt nhiều thách thức cho thuật toán học máy C Thử nghiệm đánh giá 1) Thử nghiệm Như trình bày phần trên, hệ thống phát truy nhập công phát triển dựa môi trường Python 3.7 thư viện scikit-learn Bộ liệu mẫu thu từ phần phân chia theo tỷ lệ 8:2 tổng số 400.000 mẫu để huấn luyện kiểm tra Việc phân chia thực cách ngẫu nhiên song trì tỷ lệ phân bố mẫu tương đương với hai tập liệu huấn luyện kiểm tra Hình thể hiệu phân loại chung của thuật toán học máy Kết hình cho thấy thuật toán học máy cho kết tốt phân biệt xác hành vi cơng bình thường với giá trị lớn 90% Trong số thuật học rf dt có hiệu tổng thể đáng kể so với thuật học lại đánh giá tổng thể qua số f1 recall Bảng thể độ đo hiệu chi tiết thuật toán DNN, rf, xgb Xét khả phát chi tiết hành vi chèn mã, toàn thuật tốn học máy khảo sát có khả phân biệt tốt hành vi chèn mã codeinj, chèn lệnh cmdinj, chèn sql sqli, chèn xss Số lượng mẫu phần lớn (hơn 90%) liệu mẫu Các kết thực nghiệm có giá trị tuyệt số f1 đạt 100% Bảng Hiệu số thuật học Thuật toán Hành vi precision recall f1 normal 0.98 0.98 0.98 codeinj 1 cmdinj 1 buf 0.96 0.98 crlf 1 fstr 0.91 0.99 0.95 param 0.99 0.99 0.99 sqli 1 xss 1 normal 0.65 0.91 0.76 codeinj 0.99 0.99 0.99 cmdinj 0.99 0.99 buf 0.96 0.98 crlf 1 fstr 0.91 0.25 0.4 param 0.95 0.51 0.66 sqli 0.97 0.99 xss 1 normal 0.99 0.97 0.98 codeinj 1 cmdinj 1 0.9 buf 0.97 0.98 0.85 crlf 1 fstr 0.9 0.98 0.94 0.98 0.99 sqli 1 xss 1 Các liệu huấn luyện kiểm tra biến đổi sử dụng cấu trúc ba với ký tự (n-gram = đơn vị ký tự) tính tốn TF-IDF từ cụm từ chuỗi truy nhập người dùng Thực tế, nhiều chuỗi truy nhập người dùng tham số truy vấn mã hóa dạng chuỗi số nên việc lựa chọn đơn vị phân tích ký tự phù hợp đơn vị từ Hơn thế, đơn vị phân tích ký tự đảm bảo kích cỡ từ vựng hợp lý hiệu tốt so với việc sử dụng đơn vị phân tích từ Thuật tốn định (decision tree) sử dụng thuật học nêu phần trước để xây dựng lực học cho thuật học khác, bao gồm dt: định; rf: rừng ngẫu nhiên, liSVM: SVM tuyến tính dùng chiến lược ovr (one-versus-rest), xgb: eXtreme Gradient Boost, DNN: mạng học sâu Hiệu thuật toán xem xét sử dụng độ đo tiêu chuẩn precision, recall, f1 Các tham số cấu hình tương ứng phân loại sau tối ưu sau Số rf 150 Hàm đánh giá softmax sử dụng để phân loại xgb Mạng học sâu xây dựng với kiến trúc lớp ẩn kết nối đầy đủ (fully-connected), với kích cỡ lớp 512, 384, 128 80 nút, hàm kích hoạt ReLU cuối hàm softmax Mạng huấn luyện sử dụng thư viện Keras, sử dụng batch_size 256 tốc độ học (learning rate) 0,001 DNN rf xgb 0.95 0.8 param 0.75 precision rf recall dt xgb liSVM f1 DNN Hình Hiệu thuật học thử nghiệm SOÁ 03 (CS.01) 2020 Ngoại trừ hành vi công xss khác biệt, hành vi chèn mã nêu giống Chẳng hạn như, người cơng sử dụng sqli để kích hoạt TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 50 PHÁT HIỆN HÀNH VI CHÈN MÃ DỊCH VỤ WEB câu lệnh công vào hệ điều hành máy chủ hay hệ quản trị sở liệu Về mặt hình thức, kiểu cơng trùng hợp với kiểu công chèn lệnh Dù vậy, thuật toán thể khả tốt phân biệt xác kiểu cơng Sự khác biệt hiệu thuật tốn khảo sát thể chủ yếu nhóm nhỏ hành vi cơng cịn lại (buf, crlf, fstr, param) hành vi truy nhập bình thường Hình Giá trị f1 thuật tốn định Hình cho thấy hiệu vượt trội thuật toán xgb so với rừng ngẫu nhiên rf định dt, đặc biệt với hành vi công dạng chuỗi định dạng fstr thay đổi tham số param Với hai dạng cơng thuật tốn xgb đạt giá trị f1 80% hai thuật tốn cịn lại đạt 40% với fstr Với hành vi bình thường người dùng, giá trị f1 rf dt đạt khoảng 75% xgb vượt 90% Các thuật tốn cịn lại bao gồm mạng học sâu DNN liSVM có hiệu tốt ngang xgb với giá trị f1 đạt 92% xét loại hành vi cần phân biệt, mà chúng chiếm tỷ lệ nhỏ mẫu đánh giá Cụ thể thuật học DNN cho kết tốt giúp phân biệt rõ ràng hành vi công fstr so với thuật học cịn lại Hình Giá trị f1 thuật toán xgb, liSVM DNN dùng Kết hứa hẹn khả ứng dụng tốt vào thực tiễn giám sát đảm bảo chất lượng phục vụ dịch vụ Web Mặt khác, hiệu mơ hình học máy phân loại hành vi cơng bình thường phụ thuộc vào chất lượng liệu mẫu sử dụng Báo cáo đề xuất việc xây dựng cách thức xây dựng liệu đáp ứng nhu cầu giám sát phân tích hành vi truy nhập người dùng dựa công cụ ZAP cho phép kiểm thử an toàn dịch vụ Web Các mẫu liệu cơng bình thường lưu vào file bán cấu trúc tương ứng với tên hành vi công, chẳng hạn mẫu truy nhập bình thường normal.csv Điều cho phép hỗ trợ hiệu cho cơng việc quản trị, phân tích giám sát dịch vụ Web với nguồn lực hạn chế Cấu trúc đơn giản cho phép người quản trị bổ sung thêm mẫu truy nhập rõ ràng bình thường hay mẫu cơng Nói cách khác, người quản trị hay vận hành dịch vụ Web tự trì thư viện hành vi truy nhập người dùng tùy theo nhu cầu riêng Các thuật tốn sinh luật dựa định giúp cho người quản trị dễ dàng hình dung cách thức hoạt động hệ thống Mặt khác mơ hình sử dụng thuật tốn định cho phép xây dựng mơ hình phân loại cách nhanh chóng tương đối hiệu Báo cáo cho thấy mơ hình học máy kết hợp sử dụng đặc trưng ngram TD-IDF để biểu diễn truy nhập người dùng mang lại kết tốt với hành vi cơng có tỷ lệ lớn liệu mẫu codeinj, sqli, hay xss Mơ hình phân loại dựa thuật tốn SVM tuyến tính với chiến lược ovr cho kết khả quan, xem xét tốc độ huấn luyện hiệu phân loại Mơ hình SVM cho kết phân loại chi tiết tốt nhiều so với định rừng ngẫu nhiên Dù vậy, SVM có nguy thiên lệch (over-fitting) liệu huấn luyện Trong mạng học sâu DNN, thể thử nghiệm, có kết tốt trang bị nhiều biện pháp hiệu để hạn chế vấn đề over-fitting Với việc sử dụng phần cứng đặc biệt, việc huấn luyện phân loại hành vi truy nhập cải thiện đáng kể Vấn đề trở nên phức tạp khối lượng liệu cần cho việc xây dựng triển khai mơ hình phân loại tăng mạnh Với dịch vụ Web có quy mơ vừa nhỏ, việc sử dụng phần cứng hỗ trợ tính tốn cho mạng học sâu trở ngại đáng kể hạn chế khả mở rộng để đáp ứng việc gia tăng khối lượng liệu Mơ hình sử dụng thuật tốn xgb cung cấp khả cân tốc độ huấn luyện, hiệu phân loại, mức độ xác khả mở rộng sau cho người quản trị dịch vụ Web Kết thực nghiệm cho thấy mơ hình dựa xgb có hiệu phân loại chút so với mạng học sâu DNN Bộ phần mềm xgb trang bị sẵn chế đối phó với vấn đề over-fitting Ngoài khả tận dụng phần cứng hỗ trợ tính tốn mạng học sâu DNN, cách thức xây dựng thuật toán xgb thuận tiện cho việc chia-trộn gần với chế xử lý tính tốn liệu lớn Apache Spark 2) Đánh giá Với phát triển Internet ứng dụng Web, hành vi bất thường người dùng dịch vụ Web biến đổi từ việc dùng sai hành vi có IV KẾT LUẬN chủ đích nhằm làm suy giảm chất lượng phục vụ webViệc phát triển mạnh mẽ dịch vụ Web làm cho site hành vi gian lận tài chính, gây tổn thất uy vấn đề quản trị giám sát hành vi truy nhập người tín danh tiếng nhà cung cấp dịch vụ dùng trở nên cấp bách nhằm đảm bảo chất lượng phục Kỹ thuật học máy với thuật học khảo sát cho vụ an toàn dịch vụ Web Việc phân biệt thấy khả học đặc trưng kết hợp n-gram TF-IDF phát hành vi công chèn mã tới dịch vụ Web hành vi cơng hành vi bình thường người SỐ 03 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 51 Phạm Hồng Duy, Nguyễn Ngọc Điệp có tác dụng cảnh báo cung cấp thông tin hiệu cho người quản trị dịch vụ Web trình vận hành Báo cáo nghiên cứu cách thức phát hành vi công kiểu chèn mã tới dịch vụ Web sqli, xss, hay tràn đệm phân loại hành vi bình thường từ liệu nhật ký truy nhập máy chủ Web Các truy nhập người dùng biểu diễn thông qua đặc trưng n-gram TF-IDF khả phân loại hành vi cải thiện đáng kể theo cách biểu diễn Báo cáo trình bày cách thức xây dựng trì liệu dùng cho việc xây dựng mơ hình phân loại dựa cơng cụ kiểm thử an tồn ZAP Người quản trị dịch vụ Web dễ dàng trì cập nhập liệu theo nhu cầu quản lý giám sát riêng dạng file bán cấu trúc Kết thực nghiệm chứng tỏ mơ hình học máy có khả xây dựng mơ hình phân loại tốt từ liệu thử nghiệm với độ đo hiệu f1 đạt 90% Trong mơ hình phân loại dựa mạng học sâu cho hiệu tốt Với việc hỗ trợ từ môi trường phát triển Python, mơ hình thử nghiệm có khả tích hợp dễ dàng thuận tiện với tảng khác Đặc biệt, mơ hình dựa xgb có nhiều đặc tính thuận lợi cho việc tích hợp với tảng xử lý liệu lớn đáp ứng tốt việc mở rộng quản trị giám sát với dịch vụ Web TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] M V Mahoney and P K Chan, “Learning rules for anomaly detection of hostile network traffic,” in Data Mining, 2003 ICDM 2003 Third IEEE International Conference on, 2003, pp 601–604 W Fan, M Miller, S Stolfo, W Lee, and P Chan, “Using artificial anomalies to detect unknown and known network intrusions,” Knowl Inf Syst., vol 6, no 5, pp 507–527, 2004 G G Helmer, J S K Wong, V Honavar, and L Miller, “Intelligent agents for intrusion detection,” in Information Technology Conference, 1998 IEEE, 1998, pp 121–124 W Lee, S J Stolfo, and P K Chan, “Learning patterns from unix process execution traces for intrusion detection,” in AAAI Workshop on AI Approaches to Fraud Detection and Risk Management, 1997, pp 50–56 S Salvador, P Chan, and J Brodie, “Learning States and Rules for Time Series Anomaly Detection.,” in FLAIRS conference, 2004, pp 306–311 H S Teng, K Chen, and S C Lu, “Security audit trail analysis using inductively generated predictive rules,” Sixth Conf Artif Intell Appl., pp 24–29, 1990 C T Gimnez, A P Villegas, and G Á Marón, “HTTP data set CSIC 2010.” 2010 C De Stefano, C Sansone, and M Vento, “To reject or not to reject: that is the question-an answer in case of neural classifiers,” IEEE Trans Syst Man, Cybern Part C (Applications Rev., vol 30, no 1, pp 84–94, 2000 D Barbara, N Wu, and S Jajodia, “Detecting novel network intrusions using bayes estimators,” in Proceedings of the 2001 SIAM International Conference on Data Mining, 2001, pp 1–17 R Agrawal and R Srikant, “Mining sequential patterns,” in Data Engineering, 1995 Proceedings of the Eleventh International Conference on, 1995, pp 3–14 M V Mahoney, P K Chan, and M H Arshad, “A machine learning approach to anomaly detection,” 2003 G Tandon and P K Chan, “Weighting versus pruning in rule validation for detecting network and host anomalies,” in Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, 2007, pp 697–706 SOÁ 03 (CS.01) 2020 [13] G.-Y Chan, C.-S Lee, and S.-H Heng, “Discovering fuzzy association rule patterns and increasing sensitivity analysis of XML-related attacks,” J Netw Comput Appl., vol 36, no 2, pp 829–842, 2013 [14] L O Anyanwu, J Keengwe, and G A Arome, “Scalable Intrusion Detection with Recurrent Neural Networks,” in 2010 Seventh International Conference on Information Technology: New Generations, 2010, pp 919–923 [15] S Althubiti, W Nick, J Mason, X Yuan, and A Esterline, “Applying Long Short-Term Memory Recurrent Neural Network for Intrusion Detection,” in SoutheastCon 2018, 2018, pp 1–5 [16] J Kim, J Kim, H L Thi Thu, and H Kim, “Long Short Term Memory Recurrent Neural Network Classifier for Intrusion Detection,” in 2016 International Conference on Platform Technology and Service (PlatCon), 2016, pp 1–5 [17] S Hettich and S D Bay, “The UCI KDD Archive [http://kdd.ics.uci.edu],” Univ California, Dep Inf Comput Sci., 1999 [18] H D Pham and N D Nguyen, “Intrusion detection using deep neural network,” Southeast Asian J Sci., vol 5, no 2, pp 111–125, 2017 [19] V Vapnik, The nature of statistical learning theory Springer science & business media, 2000 [20] S Chakrabarti, Mining the Web: Discovering knowledge from hypertext data Elsevier, 2002 [21] L Breiman, “Random forests,” Mach Learn., vol 45, no 1, pp 5–32, 2001 [22] T Chen and C Guestrin, “Xgboost: A scalable tree boosting system,” in Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, 2016, pp 785–794 [23] H T Nguyen, C Torrano-Gimenez, G Alvarez, S Petrović, and K Franke, “Application of the generic feature selection measure in detection of web attacks,” in Computational Intelligence in Security for Information Systems, Springer, 2011, pp 25–32 [24] R R Larson, “Introduction to information retrieval,” J Am Soc Inf Sci Technol., vol 61, no 4, pp 852–853, 2010 DETECT CODE INJECTION BEHAVIORS IN WEB SERVICE Abstract: The need to monitor access to Web services to detect attacks from Web log increases with Internet development in order to maintain service quality and safety of these services This paper examines the performance of machine learning-based models to effectively detect code injection attacks to Web services Also, the paper proposes to build a set of a labelled data-set of these attacks with about 400 thousand samples in categories including normal accesses Experiments conducted on this data-set using the following algorithms: decision tree, random forest, SVM, XGB and deep learning network (DNN) showed positive results, of which DNN reached F1 value up to 97, 5% Keywords: IDS, Web attack detection, Code injection, Web log, Information security, Web service, Machine learning Phạm Hoàng Duy tham gia giảng dạy Khoa CNTT từ năm 2000; hoàn thành nghiên cứu Tiến sỹ 2005-2009 Đại học Queensland, Australia Trí tuệ nhân tạo; lĩnh vực giảng dạy nghiên cứu quan tâm: hệ thống thông minh ứng dụng Email: duyph@ptit.edu.vn TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 52 PHÁT HIỆN HÀNH VI CHÈN MÃ DỊCH VỤ WEB Nguyễn Ngọc Điệp tham gia giảng dạy An tồn thơng tin Khoa CNTT 1, Học viện Cơng nghệ Bưu Viễn thơng từ năm 2013; hoàn thành nghiên cứu Tiến sỹ Học viện Cơng nghệ Bưu Viễn thơng năm 2017 phương pháp học máy cho nhận dạng hoạt động người; lĩnh vực nghiên cứu quan tâm: nhận dạng hoạt động, xử lý ngơn ngữ tự nhiên, an tồn thơng tin Email:diepnn@ptit.edu.vn SỐ 03 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 53 ... hướng phát triển tương lai II PHÁT HIỆN VÀ PHÂN LOẠI HÀNH VI CHÈN MĂ DỰA TRÊN HỌC MÁY A Các hành vi chèn mã tới dịch vụ Web Phần trình bày khái niệm liên quan đến hành vi công liên quan đến vi? ??c chèn. .. với thuật học khảo sát cho vụ an toàn dịch vụ Web Vi? ??c phân biệt thấy khả học đặc trưng kết hợp n-gram TF-IDF phát hành vi công chèn mã tới dịch vụ Web hành vi công hành vi bình thường người SỐ...PHÁT HIỆN HÀNH VI CHÈN MÃ DỊCH VỤ WEB công chèn mã tới dịch vụ Web phân biệt với hành vi bình thường sử dụng mơ hình học máy, với thuật toán

Ngày đăng: 04/08/2021, 15:22