Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 80 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
80
Dung lượng
8,5 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN NHAN THANH NHÃ PHÁT HIỆN TẤN CÔNG DRIVE-BY DOWNLOAD VỚI HỆ THỐNG CAPTURE-HPC VÀ HỌC MÁY LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60 48 01 01 Ngƣời hƣớng dẫn khoa học: TS Phạm Nguyên Khang TP HỒ CHÍ MINH - 2015 Phát công drive-by download với hệ thống Capture-HPC học máy LỜI CẢM ƠN Qua thời gian học tập thực luận văn, nhận đƣợc nhiều giúp đỡ, động viên từ quý thầy cô, gia đình bạn bè Đặc biệt trình thực luận văn này, tơi xin trân trọng gửi lời cảm ơn sâu sắc đến: Thầy TS Phạm Nguyên Khang, ngƣời đề tài, hƣớng dẫn tận tâm, nhiệt tình, ln tạo điều kiện thuận lợi thƣờng xuyên kiểm tra tiến độ, có góp ý, nhận xét hữu ích q trình thực luận văn Đồng thời, muốn gửi lời cảm ơn đến Trƣờng Đại học Công nghệ thông tin, phòng đào tạo sau đại học nói chung q thầy nói riêng giảng dạy, tạo điều kiện học tập tốt giúp đỡ suốt thời gian theo học trƣờng Cuối cùng, cảm ơn đến ba mẹ, gia đình bạn bè tôi, ngƣời động viên, giúp đỡ suốt trình học tập thực luận văn Vì thời gian kiến thức có hạn, luận văn khơng tránh khỏi thiếu sót Tơi mong đƣợc góp ý q báo q thầy bạn bè Trang ii Phát công drive-by download với hệ thống Capture-HPC học máy LỜI CAM ĐOAN Tôi xin cam đoan luận văn với đề tài “Phát công drive-by download với hệ thống Capture-HPC học máy” kết nghiên cứu thực dƣới hƣớng dẫn trực tiếp Thầy TS Phạm Nguyên Khang Mọi tài liệu tham khảo luận văn đƣợc trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian địa điểm công bố Các số liệu, kết thực nghiệm luận văn trung thực HCM, ngày 22 tháng 10 năm 2015 Học viên thực Nhan Thanh Nhã Trang iii Phát công drive-by download với hệ thống Capture-HPC học máy MỤC LỤC LỜI CẢM ƠN ii LỜI CAM ĐOAN iii MỤC LỤC iv DANH MỤC BẢNG viii DANH MỤC HÌNH ix TÓM TẮT x ABSTRACT xi CHƢƠNG GIỚI THIỆU 1.1 Lý chọn đề tài .1 1.2 Mục đích đề tài 1.3 Đối tƣợng phạm vi nghiên cứu .2 1.3.1 Đối tƣợng nghiên cứu 1.3.2 Phạm vi nghiên cứu 1.4 Phƣơng pháp nghiên cứu 1.4.1 Nghiên cứu lý thuyết 1.4.2 Thực nghiệm 1.5 Ý nghĩa khoa học thực tiễn đề tài 1.5.1 Ý nghĩa khoa học 1.5.2 Ý nghĩa thực tiễn 1.6 Bố cục luận văn CHƢƠNG CƠ SỞ LÝ THUYẾT 2.1 Drive-by Download 2.1.1 Giới thiệu công Drive-by Download Trang iv Phát công drive-by download với hệ thống Capture-HPC học máy 2.1.2 Cách thức thực công điều khiển truy cập 2.2 Cơ chế lây nhiễm .8 2.2.1 An toàn Web Server 2.2.2 Nội dung đƣợc đóng góp từ ngƣời dùng 2.2.3 Quảng cáo 2.2.4 Nhà cung cấp thứ ba 10 2.3 Cơng cụ tự động hóa 10 2.4 Các chiến lƣợc khai thác 11 2.4.1 Khai thác phần mềm 11 Khai thác lỗ hổng trình duyệt 11 Khai thác lỗ hổng Plug-in .12 Khai thác lỗ hổng định dạng tập tin 14 2.4.2 Đánh lừa ngƣời dùng 15 2.5 Cách thức phát công điều khiển truy cập .16 2.5.1 Honeypot 17 2.5.2 Client Honeypot 19 2.6 Capture-HPC: 22 2.7 Máy học Véctơ hỗ trợ 25 2.7.1 Mơ hình phân lớp tuyến tính 26 2.7.2 Mơ hình phân lớp tuyến tính có nhiễu 30 2.7.3 Mơ hình phân nhiều lớp 34 Phân loại lớp với lớp lại- “One vs rest” 35 Phân loại theo cặp- Cách phân lớp “One vs One” 35 2.8 Máy học Naïve Bayes (Bayes thơ ngây) 35 2.8.1 Định lý Bayes 36 Trang v Phát công drive-by download với hệ thống Capture-HPC học máy 2.8.2 Thuật tốn Nạve Bayes 37 2.8.3 Ví dụ minh họa phân lớp Naïve Bayes 38 2.8.4 Giải thuật huấn luyện Bộ phân lớp Naïve Bayes 40 2.8.5 Giải thuật phân lớp Naïve Bayes: 40 2.8.6 Ƣớc lƣợng Laplace 40 2.8.7 Ƣu nhƣợc điểm Naïve Bayes 41 2.9 Máy học định 42 2.9.1 Khái niệm định 42 2.9.2 Xây dựng định 44 2.9.3 Chọn thuộc tính phân hoạch 45 2.9.4 Các vấn đề phân lớp liệu sử dụng định 51 Tránh “quá khớp” liệu .51 Thao tác với thuộc tính liên tục .52 CHƢƠNG XÂY DỰNG MƠ HÌNH PHÂN LOẠI TRANG WEB 54 3.1 Giới thiệu 54 3.2 Thu thập liệu .54 3.2.1 Cài đặt cấu hình hệ thống Capture-HPC 54 3.2.2 Cấu hình hệ thống Capture-HPC 55 3.2.3 Thu thập liệu 56 3.3 Phân loại trang web dựa danh sách ngoại lệ 57 3.4 Phân loại trang web dựa mơ hình máy học 59 3.4.1 Biểu diễn liệu 59 3.4.2 Xây dựng mơ hình nhận dạng công phƣơng pháp học máy 62 CHƢƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 64 4.1 Dữ liệu .64 Trang vi Phát công drive-by download với hệ thống Capture-HPC học máy 4.2 Nghi thức kiểm tra tiêu chí đánh giá 64 4.3 Nhận dạng danh sách ngoại lệ 65 4.4 Nhận dạng website độc hại mô hình máy học 66 4.5 Đánh giá kết 67 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 68 5.1 Kết luận .68 5.2 Hƣớng phát triển 68 Tài liệu tham khảo 69 Trang vii Phát công drive-by download với hệ thống Capture-HPC học máy DANH MỤC BẢNG Bảng 2.1 – Phần trăm sử dụng plug-in trình duyệt thơng dụng 13 Bảng 2.2 – Ví dụ lỗ hổng đƣợc biết plug-in trình duyệt 13 Bảng 2.3 – Lỗ hổng định dạng tập tin Microsoft Offices 14 Bảng 2.4 – Tập huấn luyện trích từ Quinlan‟s ID3 : Chơi tennis .38 Bảng 2.5 – Xác suất thuộc tính 39 Bảng 3.1 – Tác nhân thu đƣợc sau thống kê .60 Bảng 3.2 – Hành động đối tƣợng bị giám sát file .60 Bảng 3.3 – Hành động đối tƣợng bị giám sát registry 61 Bảng 3.4 – Các đối tƣợng (file) bị thay đổi trạng thái .61 Bảng 3.5 – Các đối tƣợng (registry) bị thay đổi trạng thái .61 Bảng 4.1 – Ma trận phân lớp .65 Bảng 4.2 – Bảng kết xác định công dựa danh sách ngoại lệ 66 Bảng 4.3 – Bảng kết xác định cơng mơ hình SVM .67 Trang viii Phát công drive-by download với hệ thống Capture-HPC học máy DANH MỤC HÌNH Hình 2.1 – Ví dụ trang web u cầu ActiveX plug-in để chơi file video .13 Hình 2.2 – Trang web Rogue Anti-virus 16 Hình 2.3 – Mơ hình loại Honeypot 18 Hình 2.4 – Một Server Honeypot truyền thống bị “black-hat” cơng 20 Hình 2.5 – Hoạt động Client Honeypot .21 Hình 2.6 – Danh sách ngoại lệ đƣợc phép .23 Hình 2.7 – Danh sách ngoại lệ không đƣợc phép 24 Hình 2.8 – Đƣờng thẳng phân cách không gian chiều 26 Hình 2.9 – Đƣờng phân cách theo phƣơng khác 27 Hình 2.10 – Dữ liệu huấn luyện có nhiễu 31 Hình 2.11 – Mơ hình phân nhiều lớp 35 Hình 2.12 định từ bảng Quinlan‟s 43 Hình 3.1 – Mơ hình Capture-HPC 54 Hình 3.2 – File cấu hình config.xml Capture server 55 Hình 3.3 – Cấu hình danh sách ngoại lệ tập tin 55 Hình 3.4 – Cấu hình danh sách ngoại lệ registry 56 Hình 3.5 – Cấu hình danh sách ngoại lệ tiến trình .56 Hình 3.6 – Nhật ký hoạt động duyệt URL Capture-HPC 57 Hình 3.7 – Mơ hình nhận dạng 63 Hình 4.2 – Quy luật file thu đƣợc 66 Hình 4.3 – Quy luật registry thu đƣợc 66 Trang ix Phát công drive-by download với hệ thống Capture-HPC học máy TÓM TẮT Trong năm gần Drive-by download trở thành cách thức chung để công ứng dụng web Tấn công Drive-by download xảy ngƣời dùng viếng thăm vào trang web chứa mã độc, điều dẫn đến máy tính ngƣời dùng bị nhiễm độc Mã độc đƣợc cài đặt cách tự động Cuối cùng, kết kiểu cơng tồn máy tính nạn nhân bị điều khiển Capture-HPC [5] kỹ thuật bảo mật cho phép tìm mã độc server Capture-HPC làm việc dựa kiểm tra trạng thái client, thay đổi trạng thái hoạt động phần mềm độc hại Capture-HPC hệ thống đƣợc sử dụng lĩnh vực nghiên cứu cơng trình duyệt web thu thập phần mềm gián điệp Tuy nhiên phân loại trang web dựa danh sách ngoại lệ đƣợc xây dựng thủ công làm giảm khả phát phân loại công hệ thống Trong luận văn này, trình bày phƣơng pháp xây dựng danh sách ngoại lệ tự động tƣơng thích với hệ thống Ngồi ra, chúng tơi đề xuất phƣơng pháp xác định luật cơng dựa mơ hình khai thác liệu Thử nghiệm tập liệu mơ hình máy học Naive Bayes, định máy học véc-tơ hỗ trợ (Support vector machine) cho kết xác mơ hình phân loại danh sách ngoại lệ Từ khóa: An ninh mạng, Drive-by-download, trang web độc hại, khai khoáng liệu, SVM, Cây định, Nạve Bayes Trang x Phát cơng drive-by download với hệ thống Capture-HPC học máy Máy chủ đƣợc cài đặt hệ điều hành Fedora 10 Capture-Server Máy trạm đƣợc cài đặt hệ điều hành Fedora 10 Cài đặt VMware server 1.0.9 với tùy chọn mặc định Cài hệ điều hành Window XP capture-client lên máy ảo VMware 3.2.2 Cấu hình hệ thống Capture-HPC Cấu hình máy chủ: Cấu hình tập tin config.xml nhƣ hình 3.2 Hình 3.2 – File cấu hình config.xml Capture server Cấu hình tập tin FileMonitor.exl để hệ thống Capture-HPC ghi nhận lại thay đổi hệ thống viết xóa tập tin (xem hình 3.3) Hình 3.3 – Cấu hình danh sách ngoại lệ tập tin Trang 55 Phát công drive-by download với hệ thống Capture-HPC học máy Cấu hình tập tin RegistryMonitor.exl để hệ thống Capture-HPC ghi nhận lại thay đổi hệ thống viết xóa registry (hình 3.4) Hình 3.4 – Cấu hình danh sách ngoại lệ registry Cấu hình tập tin ProcessMonitor.exl để hệ thống Capture-HPC ghi nhận lại thay đổi hệ thống tiến trình đƣợc tạo Hình 3.5 – Cấu hình danh sách ngoại lệ tiến trình Máy trạm: giữ nguyên cấu hình mặc định 3.2.3 Thu thập liệu Để thu thập liệu phục vụ cho nghiên cứu, sử dụng hệ thống Capture-HPC (đã đƣợc trình bày phần trên) duyệt danh sách trang web: - Danh sách trang web bình thƣờng: Đây trang web bình thƣờng, khơng có chứa hình thức cơng Để đảm bảo danh sách đƣợc sử dụng trang web sạch, sử dụng nguồn từ Alexa top trang web phổ biến Đây nguồn trang web đƣợc nhiều nghiên cứu sử dụng - Danh sách trang web công: Đây trang web có chứa cơng điều khiển truy cập (drive-by download) Những trang web đƣợc thu thập từ website nhƣ malwaredomainlist.com, blade-defender.org Một nguồn khác đƣợc sử dụng làm mẫu cho công điều khiển truy cập Metasploit Trang 56 Phát công drive-by download với hệ thống Capture-HPC học máy Kết thu đƣợc tập tin nhật ký mô tả hoạt động diễn hệ thống duyệt trang web Nhật ký hoạt động đƣợc Capture-HPC cung cấp bao gồm thông tin trạng thái thay đổi duyệt trang web Kết đƣợc ghi lại qua hình 3.6 Hình 3.6 – Nhật ký hoạt động duyệt URL Capture-HPC Nhật ký hoạt động URL chứa thông tin bao gồm: Đối tƣợng bị giám sát: vị trí thay đổi, bao gồm: tập tin hệ thống, tiến trình, registry Thời gian: thời gian xảy thay đổi Tác nhân: Nguồn bắt đầu thay đổi Hành động: loại hành động, có khác trạng thái Path : thể đích đến kết gây tác nhân, giá trị tập tin, tiến trình hay registry Đối tƣợng: thể tiến trình đƣợc chạy sau thực hành động 3.3 Phân loại trang web dựa danh sách ngoại lệ Nhƣ trình bày chƣơng 2, hệ thống Capture-HPC xác định trang web độc hại hay lành tính dựa thay đổi hệ thống bao gồm thay đổi của: tập tin hệ thống, registry hệ thống tiến trình hệ thống Capture-HPC cung cấp Trang 57 Phát công drive-by download với hệ thống Capture-HPC học máy thông tin trạng thái tập tin, registry, tiến trình bao gồm nhiều hành động khác nhau: File : read, open, write Registry : OpenKey, QueryKey,CreateKey, QueryValueKey, EnumerateKey, EnumerateValueKey, SetValueKey, DeleteValueKey, CloseKey Process: created Số lƣợng hành động trạng thái diễn lớn, phần lớn hành động nhằm để khai thác lỗ hổng hệ điều hành, trình duyệt, plug-in … nhƣ: read, open file OpenKey, QueryKey, … registry Các hành động không trực tiếp dẫn đến thay đổi hệ thống máy tính ngƣời dùng Trong đó, hành động đến việc thay đổi trạng thái là: write, delete, SetValueKey, DeleteValueKey, created Do thông tin dùng để đánh giá nhằm phân loại trang web dựa trạng thái thay đổi tác nhân nên hành động trung gian đƣợc bỏ qua: open, read, OpenKey, QueryValueKey Khi duyệt trang web, tập tin registry đƣợc ghi xóa thƣ mục lớn hoàn toàn khác khơng đƣa đƣợc tính tổng qt để tạo quy luật phân loại trang web Việc giám sát, đánh giá thƣ mục chứa tập tin, registry thay đổi đƣa nhìn tổng quan thay đổi hệ thống giúp tạo nên quy luật phân loại trang web Danh sách ngoại lệ (đƣợc phép) đƣợc tạo tự động dựa việc xây dựng quy luật, quy luật bao gồm thông tin tác nhân, hành động diễn thay đổi hệ thống từ tập tin nhật ký hoạt động trang web Quá trình xây dựng danh sách ngoại lệ đƣợc thực theo bƣớc: 1) Tạo quy luật dựa kiện đối tƣợng bị giám sát trích thơng tin đặc trƣng: Ví dụ: “file”, “4/09/2015 18:35:12.885”, “C:\Program Files\Capture\CaptureClient.exe” , “Write”, “C:\Program Files\Capture\logs\172.16.35.128.pcap”, “-1” Trang 58 Phát công drive-by download với hệ thống Capture-HPC học máy - Tác nhân: C:\Program Files\Capture\CaptureClient.exe - Hành động: Write - Kết hành động: C:\Program Files\Capture\logs\172.16.35.128.pcap 2) Kết hợp thơng tin tạo thành quy luật có dạng nhƣ sau: Write C:\Program Files\Capture\CaptureClient.exe C:\Program Files\Capture\logs\172.16.35.128.pcap Tập quy luật tạo nên danh sách ngoại lệ đƣợc phép Trong thực nghiệm chọn ngẫu nhiên 100 logfile từ website để xây dựng danh sách ngoại lệ 3.4 Phân loại trang web dựa mơ hình máy học Việc phân loại trang web dựa danh sách ngoại lệ cho kết phụ thuộc vào số quy luật mà danh sách ngoại lệ có nên độ xác phân loại trang web thƣờng khơng ổn định Phần đây, chúng tơi trình bày phƣơng pháp đề xuất để phát website độc hại Phƣơng pháp áp dụng kỹ thuật học máy để xây dựng mơ hình nhận dạng dựa liệu thu thập từ CaptureHPC 3.4.1 Biểu diễn liệu Dữ liệu thu thập từ việc truy cập trang web với hệ thống Capture-HPC tập tin nhật ký đƣợc biểu diễn dƣới dạng văn Để áp dụng kỹ thuật học máy loại liệu này, trƣớc tiên ta cần phải trích xuất đặc trƣng quan trọng biểu diễn lại tập tin nhật ký cho tập tin nhật ký (tƣơng ứng với phần tử) có số lƣợng thuộc tính Mỗi dòng liệu tập tin nhật ký cung cấp cho ta đặc trƣng thay đổi trạng thái là: loại trạng thái bị thay đổi, tác nhân, hành động kết hành động Vì chúng tơi đề xuất sử dụng thơng tin để trích đặc trƣng cho tập tin nhật ký Trang 59 Phát công drive-by download với hệ thống Capture-HPC học máy Q trình trích đặc trƣng biểu diễn tập liệu (dùng để huấn luyện kiểm thử) bao gồm bƣớc sau: 1) Thu thập danh sách trạng thái, tác nhân hành động đối tƣợng bị thay đổi trạng thái Danh sách tác nhân, hành động đối tƣợng bị thay đổi trạng thái đƣợc trình bày bảng 3.1, 3.2, 3.3, 3.4 3.5 Bảng 3.1 – Tác nhân thu đƣợc sau thống kê STT Tác nhân C:\Program Files\Capture\CaptureClient.exe C:\Program Files\Internet Explorer\iedw.exe C:\Program Files\Internet Explorer\IEXPLORE.EXE C:\Program Files\VMware\VMware Tools\VMwareService.exe C:\WINDOWS\explorer.exe C:\WINDOWS\system32\dwwin.exe C:\WINDOWS\system32\lsass.exe C:\WINDOWS\system32\services.exe C:\WINDOWS\system32\svchost.exe 10 C:\WINDOWS\system32\wbem\wmiadap.exe 11 C:\WINDOWS\system32\wbem\wmiprvse.exe 12 C:\WINDOWS\system32\wuauclt.exe 13 System Bảng 3.2 – Hành động đối tƣợng bị giám sát file Trang 60 Phát công drive-by download với hệ thống Capture-HPC học máy Hành động STT Write Delete Bảng 3.3 – Hành động đối tƣợng bị giám sát registry Hành động STT SetValueKey DeleteValueKey Bảng 3.4 – Các đối tƣợng (file) bị thay đổi trạng thái Đối tƣợng bị thay đổi STT C:\$BitMap C:\Document and Settings\Admin\Application Data\Macromedia\Flash Player … 49 C:\WINDOWS\Temp Bảng 3.5 – Các đối tƣợng (registry) bị thay đổi trạng thái Đối tƣợng bị thay đổi STT HKCU\Software\Microsoft\Windows\CurrentVersion\Internet Settings\ZoneMap HKCU\Software\Microsoft\Windows\ShellNoRoam\BagMRU … 93 HKLM\SYSTEM\ControlSet001\Services\Tcpip\Parameters Trang 61 Phát công drive-by download với hệ thống Capture-HPC học máy 2) Xây dựng tập thuộc tính Mỗi thuộc tính đƣợc xây dựng cách ghép tác nhân, hành động đối tƣợng bị thay đổi, ví dụ: C:\WINDOWS\explorer.exe:Write:C:\$BitMap 3) Biểu diễn tập tin nhật ký dựa thuộc tính Với tập tin nhật ký (tƣơng ứng với trang web), ta đếm số lần xuất thuộc tính tập tin nhật ký Thuộc tính khơng xuất tập tin nhật ký có số lần xuất Bằng cách này, ta thu thập đƣợc bảng liệu với hàng tƣơng ứng với tập tin nhật ký cột tƣơng ứng với thuộc tính Mỗi (i, j) bảng liệu mô tả số lần xuất thuộc tính j tập tin i 3.4.2 Xây dựng mơ hình nhận dạng cơng phương pháp học máy Với cách biểu diễn liệu nhƣ trên, biểu diễn trang web gồm phần: véc-tơ đặc trƣng (mô tả tần số xuất thuộc tính file nhật ký) nhãn trang web (độc hại hay bình thƣờng) Tập liệu đƣợc dùng để huấn luyện mơ hình nhận dạng website độc hại dựa mơ hình máy học (SVM, Nạve Bayes, Cây định) nhƣ trình bày phần 2.7, 2.8, 2.9 + Để nhận dạng trang web có phải website độc hại hay khơng, bƣớc ta trích đặc trƣng nhƣ làm với liệu huấn luyện Sau đó, đƣa véctơ đặc trƣng vào mơ hình nhận dạng đƣợc huấn luyện, mơ hình máy học dự báo website có độc hại hay khơng Sơ đồ huấn luyện nhận dạng đƣợc cho trình bày hình 3.7 Trang 62 Phát công drive-by download với hệ thống Capture-HPC học máy Log file Thuộc tính Nhãn 010 101 000 …… …… Tác nhân neg neg pos neg …… Trích Rú trích Đặc trung Hành động Đối tƣợng Mơ hình Huấn luyện Huấn luyện SVM/ Nạve Bayes Cây định Mơ hình học máy Web site Log file Nhận dạng Biểu diễn rút trích đặc trung Tấn cơng / Khơng cơng Hình 3.7 – Mơ hình nhận dạng Trang 63 Phát cơng drive-by download với hệ thống Capture-HPC học máy CHƢƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Trong chƣơng trƣớc, chúng tơi trình bày tổng quan phƣơng pháp xây dựng danh sách ngoại lệ phƣơng pháp phân loại dựa mơ hình máy học SVM Tiếp theo chƣơng này, chúng tơi trình q trình thử nghiệm kết thử nghiệm việc lấy mẫu liệu, xây dựng danh sách ngoại lệ tự động phƣơng pháp phân loại dựa mơ hình máy học SVM, Naïve Bayes Cây định (Decision tree) 4.1 Dữ liệu Chúng sử dụng tập liệu thu đƣợc từ 898 trang web với hệ thống Capture-HPC, đƣợc cài đặt Khoa CNTT&TT, trƣờng Đại học Cần Thơ Tập liệu bao gồm 898 tập tin nhật ký (mỗi tập tin ứng với trang web) có 551 website 347 website độc hại Để biểu diễn liệu cho phƣơng pháp học máy, thống kê số tác nhân, hành động đối tƣợng bị ảnh hƣởng tập tập tin nhật ký Kết sau thống kê số lƣợng tác nhân 13, số lƣợng hành động 5, số lƣợng đối tƣợng bị ảnh hƣởng 170 Tổng số thuộc tính khác sau ghép tác nhân, hành động kết 8728 thuộc tính 4.2 Nghi thức kiểm tra tiêu chí đánh giá Chúng sử dụng nghi thức kiểm tra chéo k-fold để đánh giá hiệu nhận dạng mơ hình Dữ liệu đƣợc chia thành k phần (fold) nhau, lặp lại k lần, lần sử dụng k-1 folds để huấn luyện mơ hình fold để kiểm tra, sau tính trung bình k lần kiểm tra, phƣơng pháp thƣờng sử dụng 10-folds (k=10) Các tiêu chí đánh giá so sánh phƣơng dựa tiêu chí chuẩn học máy: precision, recall, accuracy độ đo F1 Giả sử ta có ma trận phân lớp (confusion matrix) nhƣ bảng 4.1 Trang 64 Phát công drive-by download với hệ thống Capture-HPC học máy Bảng 4.1 – Ma trận phân lớp Dự đoán => Dƣơng Âm Dƣơng TP FN Âm FP TN Ta có: TP: tổng số phần tử dƣơng đƣợc giải thuật dự đoán lớp dƣơng FN: tổng số phần tử lớp dƣơng đƣợc giải thuật dự đoán lớp âm TN: tổng số phần tử lớp âm đƣợc giải thuật dự đoán lớp âm FP: tổng số phần tử lớp âm đƣợc giải thuật dự đoán lớp dƣơng Các độ đo hiệu quả: 4.3 Nhận dạng danh sách ngoại lệ Danh sách ngoại lệ đƣợc phép đƣợc xây dựng 100 tập tin nhật ký lấy ngẫu nhiên từ có 551 trang web Các tập tin nhật ký lại đƣợc dùng để kiểm thử hiệu việc phân loại dựa danh sách ngoại lệ Kết thu đƣợc gồm tập quy luật theo trạng thái Kết đƣợc ghi nhận lại hình 4.2 quy luật Registry thu đƣợc (hình 4.3) Trang 65 Phát cơng drive-by download với hệ thống Capture-HPC học máy Hình 4.2 – Quy luật file thu đƣợc Hình 4.3 – Quy luật registry thu đƣợc Kết nhận dạng website độc hại 789 tập tin đƣợc trình bày bảng 4.2 Độ xác nhận dạng tổng thể 97.72% Bảng 4.2 – Bảng kết xác định công dựa danh sách ngoại lệ Precision Recall F1 Accuracry 98.72% 97.64% 98.17% 97.72% 4.4 Nhận dạng website độc hại mơ hình máy học Để đánh giá hiệu nhận dạng website độc hại phƣơng pháp máy học, sử dụng phần mềm mã nguồn mở Weka, thƣ viện e1071 R cho giải thuật SVM Naïve Bayes, thƣ viện tree cho giải thuật Cây định Đầu vào mơ hình học tập liệu đƣợc xây dựng bƣớc Chúng sử dụng tiêu Trang 66 Phát công drive-by download với hệ thống Capture-HPC học máy chí đánh giá chuẩn đƣợc dùng để đánh giá hiệu phân lớp mơ hình máy học nhƣ: Accuracy, Precision, Recall độ đo F1 Kết nhận dạng công với phƣơng pháp học máy đƣợc cho bảng 4.3 Bảng 4.3 – Bảng kết xác định cơng mơ hình học máy Mơ hình Precison Recall F1 Accuracy SVM tuyến tính 100% 100% 100% 100% Cây định 100% 99.11% 99.57% 99.67% Bayes thơ ngây 99.9% 99.9% 99.9% 99.89% 4.5 Đánh giá kết Danh sách ngoại lệ đƣợc xây dựng tự động cho kết phân loại tốt với độ xác 97.72% Phƣơng pháp phân loại dựa mô hình máy học SVM, Cây định đƣợc chạy phần mềm R Kết SVM đạt độ xác 100%, Cây định độ xác nhỏ đạt 99.67% Tốc độ chạy chƣơng trình SVM (4 giây) nhanh so với Cây định (13 giây) Tốc độ chạy mơ hình Nạve Bayes (Bayes thơ ngây) chạy (115 giây), nên chạy phần mềm mã nguồn mở Weka, kết thu đƣợc nhƣ nêu bảng 4.3 Nhƣ nhận dạng website độc hại mơ hình SVM hiệu so với mơ hình Cây định, Naïve Bayes sử dụng danh sách ngoại lệ Trang 67 Phát công drive-by download với hệ thống Capture-HPC học máy CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Trong chƣơng này, tổng kết lại vấn đề nắm đƣợc mặt lý thuyết, kết thử nghiệm hƣớng phát triển luận văn thời gian tới 5.1 Kết luận Qua trình thực đề tài luận văn “Phát công drive-by download: cải tiến luật xác định công ứng dụng Capture-HPC” thân thu đƣợc kết sau: - Hiểu đƣợc phƣơng thức công điều khiển truy cập drive-by download phƣơng pháp phát công - Triển khai cài đặt thành công ứng dụng Capture-HPC để thu thập liệu phục vụ cho đề tài - Đề tài đề xuất kiểm thử thành công hai giải pháp xây dựng danh sách ngoại lệ tự động dựa mơ hình máy học để phát cơng 5.2 Hƣớng phát triển Trích đặc trƣng thử nghiệm mơ hình máy học khác (ngoại trừ Nạve Bayes Cây định thử nghiệm rồi) Triển khai tích hợp mơ hình máy học SVM vào hệ thống Capture-HPC để ngăn chặn tự động việc truy cập website độc hại Trang 68 Phát công drive-by download với hệ thống Capture-HPC học máy Tài liệu tham khảo Anley, C., Advanced SQL Injection in SQL Server Applications, NGSSoftware Insight Security Research (NISR) Publication, 2002 Frei, S., T Duebendorfer, G Ollmann and M May, Understanding the web browser threat: Examination of vulnerable online web browser populations and the “insecurity iceberg”, ETH Zurich Tech Report Nr 288 Garrett, B., Travis, H., Micheal, I., Atul, P & Kevin, B (2008), Social networks and context-aware spam, in „Proceedings of the ACM 2008 conference on Computer supported cooperative work‟ ACM, San diago, CA, USA Goodin, D (The Register) SQL injection taints BusinessWeek.com Hes, R., Ramon Steeson, Christain Seifert, The Capture-HPC client architecture Keats, S and Koshy, E (2009), The web’s most dangerous search term, Technical report, McAfee Le, V L., (2013), Detecting heap-spray attacks in drive-by downloads: Giving attackers a hand, Proceedings of IEEE 38th Conference on Local Computer Networks (LCN), 300-303 Leyden, J., Drive-by download attack compromises 500k websites http://www.channelregister.co.uk/2008/05/13/zlob_trojan_forum_compromis e_attack Microsoft Malware Protection Center, Microsoft Security Intelligence Report volume (July through December 2008) 10 SANS Institute Infosec Reading Room, Understanding ISS Vulnerabilities, Fix them, 2001 11 Common Vulnerabilities and Exposures, http://cve.mitre.org/ 12 Security Focus, Multiple Microsoft http://www.securityfocus.com/bid/6068 ISS Vulnerabilities, 13 Vapnik, V., The Nature of Statistical Learning Theory Springer, NewYork, 1995 14 http://www.theregister.co.uk/2008/09/16/businessweek_hacked/ Trang 69 ... quan công Drive- by Download, mơ hình phát cơng Drive- by Download , mơ hình Capture- HPC mơ hình học máy 2.1 Drive- by Download 2.1.1 Giới thiệu cơng Drive- by Download Có thể nói cơng Drive- by Download. .. cập Drive- by Download - Honeypots Client Honeypot - Các mơ hình học máy: Naive Bayes, định máy học véc-tơ hỗ trợ (SVM) Trang Phát công drive- by download với hệ thống Capture- HPC học máy 1.3.2... Trang x Phát cơng drive- by download với hệ thống Capture- HPC học máy ABSTRACT Drive- by downloads have become one of the most common ways to attack web application in recent years Drive- by downloads