Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 77 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
77
Dung lượng
1,63 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ HUYÊN NGHIÊNCỨUMỘTSỐKỸTHUẬTPHÁTHIỆNTRANGWEBGIẢMẠOVÀỨNGDỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2016 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ HUYÊN NGHIÊNCỨUMỘTSỐKỸTHUẬTPHÁTHIỆNTRANGWEBGIẢMẠOVÀỨNGDỤNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: TS NGUYỄN NGỌC CƢƠNG THÁI NGUYÊN - 2016 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân tìm hiểu, nghiêncứu dƣới hƣớng dẫn TS Nguyễn Ngọc Cƣơng Các chƣơng trình thực nghiệm thân lập trình, kết hoàn toàn trung thực Các tài liệu tham khảo đƣợc trích dẫn thích đầy đủ TÁC GIẢ LUẬN VĂN Nguyễn Thị Huyên ii LỜI CẢM ƠN Tôi xin bày tỏ lời cảm ơn chân thành tới tập thể thầy cô giáo Viện công nghệ thông tin – Viện Hàn lâm Khoa học Công nghệ Việt Nam, thầy cô giáo Trƣờng Đại học Công nghệ thông tin truyền thông - Đại học Thái Nguyên giảng dạy cho suốt trình học tập chƣơng trình cao học trƣờng Đặc biệt xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS Nguyễn Ngọc Cƣơng quan tâm, định hƣớng đƣa góp ý, gợi ý, chỉnh sửa quý báu cho trình làm luận văn tốt nghiệp Cũng nhƣ bạn bè đồng nghiệp, gia đình ngƣời thân quan tâm, giúp đỡ chia sẻ với suốt trình làm luận văn tốt nghiệp Dù có nhiều cố gắng nhƣng chắn không tránh khỏi thiếu sót mong nhận đƣợc đóng góp ý kiến thầy, cô bạn để luận văn đƣợc hoàn thiện Tôi xin chân thành cảm ơn! Thái Nguyên, tháng 05 năm 2016 Nguyễn Thị Huyên iii MỤC LỤC Trang MỞ ĐẦU Chƣơng TỔNG QUAN VỀ AN NINH MẠNG VÀ BÀI TOÁN GIẢMẠO WEBSITE 1.1 Tổng quan an ninh mạng .4 1.1.1 Giới thiệu an ninh mạng 1.1.2 Nguy ảnh hƣởng tới an toàn mạng 1.1.3 Các khái niệm 1.1.4 Các loại công mạng 1.1.5 Các phƣơng thức công .8 1.2 Dịch vụ website 17 1.2.1 Giới thiệu Website 17 1.2.2 Các hình thức giảmạoweb 18 1.2.3 Các kiểu lừa đảo Phishing .20 1.3 Bài toán giảmạo website 23 1.3.1 Giảmạo 23 1.3.2 Mộtsốkỹthuật 23 Chƣơng CÁC KỸTHUẬTPHÁTHIỆN WEBSITE GIẢMẠO 26 2.1.Thuật toán TF - IDF (Term Frequency/Inverse Document Frequency) 26 2.1.1 Phƣơng pháp dựa tần số từ khóa (TF – Term Frequency) 26 2.1.2 Phƣơng pháp dựa nghịch đảo tần số văn (IDF – Inverse Document Frequency) .26 2.1.3 Phƣơng pháp TF × IDF .27 2.2 Thuật toán sử dụng phƣơng pháp thống kê (Bayesian) .28 2.2.1 Định lý Naïve Bayes 28 2.2.2 Ví dụ 30 2.2.3 Thuật toán Naïve Bayes .31 2.3 Thuật toán so khớp 32 2.3.1 Thuật toán so khớp chuỗi sơ khai 33 2.3.2 Thuật toán Rabin – Karp .35 2.3.3.Thuật toán Boyer Moore Horspool .36 2.3.4 DOM Tree 38 2.4 Thuật toán dựa tƣơng đồng hình ảnh trangweb .38 2.4.1 Thuật Toán K-Means 39 iv 2.4.2 Thuật toán so khớp đồ thị 43 Chƣơng XÂY DỰNG CHƢƠNG TRÌNH PHÁTHIỆN WEBSITE GIẢMẠOVÀỨNGDỤNG .46 3.1 Ứngdụngthuật toán Naive Bayes phát website giảmạo .46 3.2 Các luật xác định giảmạo áp dụng cho thuật toán 47 3.2.1 Phátgiảmạo dựa địa .47 3.2.2 Phátgiảmạo dựa đặc tính bất thƣờng 52 3.2.3 Phátgiảmạo dựa tính dùng HTML JavaScript 53 3.2.4 Phátgiảmạo dựa tên miền 55 3.3 Thiết kế chƣơng trình .55 3.4 Phân tích thuật toán 56 3.4.1 Ý tƣởng 56 3.4.2 Cài đặt 56 3.5 Giao diện chƣơng trình kết 59 KẾT LUẬN 64 Hƣớng phát triển 64 TÀI LIỆU THAM KHẢO .65 PHỤ LỤC 67 Phần mềm WEKA 67 v DANH SÁCH KÍ HIỆU, TỪ VIẾT TĂT Viết tắt Viết đầy đủ |X| Lực lƣợng tập X APWG Anti Phishing Working Group ARP Address Resolution Protocol CSDL Cơ sở liệu Phishing Giảmạo DHCP Dynamic Host Configuration Protocol DNS Domain Name System DOM Document Object Model TF-IDF Term Frequency – Inverse Document Frequency WEKA Waikato Environment for Knowledge Analysis NB Naïve Bayes MAC Media Access Control LAN Local Area Network DoS Dinal of Services TCP/IP Transmission Control Protocol / Internet Protocol SMTP Simple_Mail_Transfer_Protocol URL Uniform Resource Locator XML Extensible Markup Language vi DANH MỤC CÁC BẢNG VÀ HÌNH VẼ Hình 1.1 Báo cáo tội phạm Internet Hình 1.2 Số lƣợng liệu bị đánh cắp Hình 1.3 Tỷ lệ lỗ hổng trangweb .6 Hình 1.4 Mô tả hoạt động bảng CAM .9 Hình 1.5 Quá trình cấp phát ip từ máy chủ DHCP .10 Hình 1.6 Minh họa DHCP Rouge .11 Hình 1.7 Minh họa việc chuyển hƣớng ngƣời dùng .12 Hình 1.8 Minh họa việc cấp phát IP giả .13 Hình 1.9 Minh họa cách thức giảmạo ARP 14 Hình 1.10 Minh họa trình giảmạo MAC 15 Hình 1.11 Minh họa Fake DNS 16 Hình 2.1 Thuật toán K-means dạng sơ đồ khối 39 Hình 2.2 Ví dụ đồ thị .43 Hình 3.1 Giao diện chƣơng trình 59 Hình 3.2 Kết chƣơng trình .60 Hình 3.3 Kiểm tra URL 63 Hình Giao diện phần mềm Weka 67 Hình Giao diện Weka Explorer 68 Hình Giao diện Weka Explorer sau chọn CSDL Websites Phishing 68 Hình Phân loại liệu .69 MỞ ĐẦU Đặt vấn đề Hiện nay, công nghệ thông tin hầu nhƣ đƣợc áp dụng rộng rãi toàn cầu, nƣớc dần chuyển từ từ tiếp xúc với công nghệ thấy đƣợc lợi ích to lớn việc áp dụng công nghệ thông tin vào lĩnh vực nhƣ kinh doanh, quản lý, mua sắm, nói chung tất nhu cầu ngƣời Một dịch vụ công nghệ hàng đầu đƣợc sử dụng phổ biến dịch vụ WEB Với công nghệ WEB đáp ứng nhu cầu ngƣời Giảmạo (phishing biến thể từ fishing nghĩa câu cá phreaking nghĩa nhử ngƣời dùng tiết lộ bí mật), lĩnh vực bảo mật máy tính hành vi giảmạo ác ý nhằm lấy đƣợc thông tin nhạy cảm nhƣ tên ngƣời dùng, mật chi tiết thẻ tín dụng cách giả dạng thành chủ thể tin cậy giao dịch điện tử Vấn đề giảmạo (phishing hay fake) nói chung giảmạoweb nói riêng loại tội phạm kỹthuật xã hội có xu hƣớng gia tăng mạng Giảmạo đƣợc báo cáo vấn nạn web lần vào năm 2001 hiệp hội bảo vệ khách hàng, hiệp hội thƣơng mại liên bang Mỹ ngày nhóm làm việc chống giảmạo APWG (Anti Phishing Working Group) đƣa thông sốtrangwebgiả tăng khoảng 50% năm Hầu hết công lừa đảo đại xảy cách thu hút ngƣời sử dụng truy cập vào trangweb độc hại trông hoạt động giống nhƣ gốc Khi đó, ngƣời sử dụng bị thuyết phục trang xác thực cung cấp thông tin cá nhân bao gồm thông tin xác thực thông tin ngân hàng Những thông tin thƣờng đƣợc kẻ sử dụng để thực số hình thức hành vi trộm cắp hay gian lận thực tế Do vậy, việc nghiêncứupháttrangwebgiảmạo nhu cầu cấp thiết Pháttrangwebgiảmạo việc để ngăn chặn xóa bỏ trangwebgiảmạoHiện có nhiều cách tiếp cận khác để pháttrangwebgiảmạoMột đặc tính bật trangwebgiảmạo phải tƣơng tự nhƣ trangweb gốc Điều có nghĩa hai trangweb gốc webgiảmạo có cấu trúc giống đến mức tốt để ngƣời dùng có đủ tự tin tiết lộ thông tin nhạy cảm Hầu hết trang lừa đảo làm tốt việc tạo giao diện hợp lệ cách chép bố trí trang, font, kiểu, logo chí thông tin bảo mật trang hợp lệ Có nhiều kỹthuật giải pháp để pháttrangwebgiả mạo: Hướng mở rộng giải pháp từ thư rác: Thuật toán TF-IDF (Term Frequency/Inverse Document Frequency) sử dụng từ khóa để xác định trang cụ thể Kỹthuật thƣờng đƣợc dùng khai thác văn với máy tìm kiếm để tìm trang liên quan Thuật toán TFIDF xác định từ khóa trang web, từ khóa đƣợc đƣa vào máy tìm kiếm chẳng hạn Google lấy nhóm URL Nếu trangweb bị nghi ngờ nằm nhóm trang đƣợc coi hợp lệ, ngƣợc lại bị cho lừa đảo hầu hết trang lừa đảo thứ hạng cao kết máy tìm kiếm Thuật toán đƣợc ứngdụng giải pháp Cantina đƣợc phát triển nhà nghiêncứu Đại học Carnegie Mellon với việc sử dụng năm từ khóa có tần suất xuất cao trang Tuy nhiên giải pháp phù hợp có hai giả thiết sau: - Thứ nhất, trang lừa đảo phải nhìn hoạt động giống với trang hợp lệ cho kết từ khóa đƣợc xác định TF-IDF giống - Thứ hai, máy tìm kiếm phải cho kết xếp hạng trangweb hợp lệ xác cao trang lừa đảo Hướng sử dụng giải pháp Bayesian: Thuật toán lọc Bayesian vốn đƣợc phát triển để phát thƣ rác nhƣng nhà nghiêncứu Đại học Iowa sử dụngthuật toán để phát triển thành công cụ chống lừa đảo đƣợc đặt tên B-APT Lợi thuật toán có khả phát đƣợc đối tƣợng chƣa nhìn thấy trƣớc Việc sử dụng phép lọc Bayesian giải pháp hứa hẹn cho việc phát lừa đảo ngày 55 3.2.4 Phátgiảmạo dựa tên miền 3.2.4.1 PageRank PageRank giá trị từ "0" đến "1" PageRank nhằm đo lƣờng tầm quan trọng trangweb Internet Giá trị PageRank quan trọng trangweb Trong liệu này, có khoảng 95% trangweb lừa đảo PageRank Hơn nữa, 5% trangweb lừa đảo lại đạt đƣợc giá trị PageRank lên đến "0,2" Rule:IF{ 3.2.4.2 Google Index Tính kiểm tra xem trangweb có mục Google hay không Khi trangweb đƣợc lập mục Google, đƣợc hiển thị kết tìm kiếm (Webmaster resources, 2014) Thông thƣờng, trangweb lừa đảo truy cập thời gian ngắn kết nhiều trangweb lừa đảo không đƣợc tìm thấy mục Google Rule:IF{ 3.2.4.3 Số lượng liên kết trỏ tới trangSố lƣợng liên kết trỏ đến trangweb cho thấy mức độ hợp pháp nó, số liên kết miền (Dean, 2014) Trong liệu này, nhà khoa học thấy 98% trangweb lừa đảo liên kết trỏ đến chúng Mặt khác, trangweb hợp pháp có liên kết bên trỏ đến chúng Rule: IF{ 3.3 Thiết kế chƣơng trình Chƣơng trình đƣợc thực theo quy tắc: Tenfold cross validation, thực nhƣ sau: 56 - Bƣớc 1: Mỗi dòng CSDL Websites Phishing ứng với trang web, ta đọc 11055 trangweb CSDL chia chúng thành 10 phần cách ngẫu nhiên - Bƣớc (Training): Đọc số liệu k phần (k = 7, 8, 9) đƣợc chia bƣớc để huấn luyện theo thuật toán NaïveBayes - Bƣớc (Testing):Thực trình kiểu tra 11055 trangweb Kết chƣơng trình đƣa đƣợc tính toán quy đổi số liệu: DR = TP/(TP + FN) FPR = FP/(TN + FP) Acc = (TP + TN) /(TP + TN + FP + FN) Chƣơng trình thực lặp bƣớc hai ba mƣời lần, lần tính toán cho số liệu Sau lấy giá trị trung bình mƣời lần tính toán 3.4 Phân tích thuật toán 3.4.1 Ý tƣởng Ý tƣởng cách tiếp cận Naïve Bayes sử dụng xác suất có điều kiện thuộc tính nhãn (phishing normal) để dự đoán xác suất nhãn trangweb cần phân loại Điểm quan trọng phƣơng pháp chỗ giả định xuất tất thuộc tính độc lập với Giả định làm cho việc tính toán Naïve Bayes hiệu nhanh chóng phƣơng pháp khác không sử dụng việc kết hợp thuộc tính để đƣa phán đoán nhãn Kết dự đoán bị ảnh hƣởng kích thƣớc tập liệu, chất lƣợng không gian đặc trƣng… 3.4.2 Cài đặt Mô tả vector đặc trƣng trang web: Là vector có số chiều số thuộc tính toàn tập liệu, thuộc tính đôi khác Nếu trangweb có chứa đặc trƣng có giá trị 1, ngƣợc lại Thuật toán gồm giai đoạn huấn luyện phân lớp: 3.4.2.1 Huấn luyện Tính ( ) ( | ) Đầu vào: 57 Các vector đặc trƣng trangweb tập huấn luyện (Ma trận MxN, với M số vector đặc trƣng tập huấn luyện, N số đặc trƣng vector) Tập nhãn/lớp cho vector đặc trƣng tập huấn luyện Đầu ra: Các giá trị xác suất ( ) ( | ) Công thức tính ( ) làm trơn Laplace | | ( ) | | Trong đó: |web si|: sốtrangweb tập huấn luyện thuộc phân lớp i |total webs|: sốtrangweb tập huấn luyện m số phân lớp Cài đặt: Khởi tạo mảng A, B có kích thƣớc m Duyệt qua trangweb tập liệu, đếm sốtrangweb phân lớp lƣu vào A Tính xác suất cho phân lớp theo công thức lƣu vào mảng B Công thức tính ( | ) làm trơn Laplace: ( | ) | | | | Trong đó: | |: Sốtrangweb trong phân lớp i có đặc trƣng thứ k mang giá trị xk (hay sốtrangweb lớp i, có xuất hiện/không xuất đặc trƣng k) |: Sốtrangweb tập huấn luyện thuộc phân lớp i | Sốgiá trị có đặc trƣng thứ k Cài đặt: Với vector đặc trƣng nhƣ mô tả bên trên, d k mang giá trị 2, tƣơng ứng với xuất không xuất Do có giá trị, ta có 58 thể tính nhanh xác suất không xuất theo công thức (̅) ( ) Khởi tạo mảng chiều C, chiều có kích thƣớc m (số phân lớp), chiều có kích thƣớc N (số đặc trƣng), chiều có kích (d k) để lƣu giá trị ( | ) Duyệt qua văn tập liệu, tiến hành thống kê số cần thiết để tính xác suất ( | ) theo công thức lƣu vào mảng C 3.4.2.2 Phân lớp Đầu vào: Vector đặc trƣng trangweb cần phân lớp Các giá trị xác suất ( ) ( | ) Đầu ra: Nhãn/lớp trangweb cần phân loại Công thức tính xác suất thuộc phân lớp i biết trƣớc mẫu X ( | ) ( )∏ ( | ) Dựa vào vector đặc trƣng trangweb cần phân lớp, áp dụng công thức tính xác suất thuộc phân lớp cho trang web, chọn lớp có xác suất cao 3.4.2.3 Ví dụ Websites Var Bit Class Web1 Phishing Web Normal Web 1 Normal Web Phishing Web Phishing Web Normal ( ) 59 ( ( ) | ) (̅̅̅̅̅| ( ) | ) (̅̅̅̅| ) ( | ) (̅̅̅̅̅| ( ) | ) (̅̅̅̅| ) Webnew = (1,0) ( | ) ( | ) Vậy trangweb thuộc lớp Phishing 3.5 Giao diện chƣơng trình kết Hình 3.1 Giao diện chƣơng trình 60 Chức nút lệnh giao diện chƣơng trình: - Nút Random Split: Thực việc đọc 11055 trangweb CSDL Websites Phishing chia chúng thành 10 phần cách ngẫu nhiên - Nút “Training”: Thực đọc k phần 10 phần (k = 7, 8, 9) trangweb để huấn luyện theo thuật toán NaïveBayes - “Nút “Testing”: Thực việc kiểm thử 11055 trangweb có CSDL đƣa kết luận cho trangweb Sau tính toán hiệu chƣơng trình dựa độ đo DR, FPR Acc - Nút “Check URL”: Thực trình đọc URL trangweb đƣợc nhập từ textbox URL kiểm tra xem trangweb vừa nhận có phải trangweb phishing hay không - Nút “Exit”: Thoát khỏi chƣơng trình Hình dƣới kết thử nghiệm hàm, luật,… WEKA chƣơng trình sử dụngthuật toán NaïveBayes sở liệu Websites Phishing Hình 3.2 Kết chƣơng trình 61 Với trình huấn luyện sử dụng 10 tập kết chƣơng trình nhƣ sau: Trong 4898 trangweb hợp pháp chƣơng trình cho kết quả: - Số lƣợng trangweb hợp pháp phân loại TN = 4571 - Số lƣợng trangweb hợp pháp phân loại sai thành trangweb lừa đảo FP = 327 Trong 6157 trangweb lừa đảo chƣơng trình cho kết quả: - Số lƣợng trangweb lừa đảo phân loại TP = 5747 - Số lƣợng trangweb lừa đảo phân loại sai thành trangweb hợp pháp FN = 410 Và kết độ đo (đơn vị %): DR = 93.34% FPR = 6.68% Acc = 93.33% Với trình huấn luyện sử dụng 10 tập kết chƣơng trình nhƣ sau: Trong 4898 trangweb hợp pháp chƣơng trình cho kết quả: - Số lƣợng trangweb hợp pháp phân loại TN = 4504 - Số lƣợng trangweb hợp pháp phân loại sai thành trangweb lừa đảo FP = 394 Trong 6157 trangweb lừa đảo chƣơng trình cho kết quả: - Số lƣợng trangweb lừa đảo phân loại TP = 5630 - Số lƣợng trangweb lừa đảo phân loại sai thành trangweb hợp pháp FN = 527 Và kết độ đo (đơn vị %): DR = 91.44% FPR = 8.04% Acc = 91.67% Với kết trên, ta thấy tập liệu huấn luyện đa dạng tỉ lệ pháttrangwebgiảmạo lớn 62 Kết đƣợc so sánh với số phƣơng pháp phân loại đƣợc tích hợp WEKA với CSDL WebPhishing phƣơng pháp tenford cross validation nhƣ sau: Phƣơng pháp DR FPR Acc My Result 93.13 6.49 93.33 NaiveBayes Simple 95.05 9.62 92.98 Bayes.WAODE 94.56 7.29 93.74 Function.Logistic 95.34 7.7 93.99 Function.RBFNetwork 91.6 9.42 91.15 Function.Spegasos 95.05 7.72 93.82 Lazy.IB1 97.92 4.51 96.84 misc.HyperPipes 23.79 57.56 Rules.ConjunctiveRule 91.44 14.31 88.89 Rules.Ridor 93.6 8.11 92.84 Tree.BFTree 96.74 5.61 95.69 Tree.RandomForest 98.29 3.886 97.34 Tree.RandomTree 97.26 4.74 96.37 Xét tỉ lệ phát độ xác tổng thể phƣơng pháp làm tác giảđứng vị trí lần lƣợt thứ 10 thứ tổng số 13 phƣơng pháp Tuy nhiên tỉ lệ phát sai (FPR) chƣơng trình tác giảđứng vị trí thứ Về thời gian chạy chƣơng trình: Thời gian chạy chƣơng trình phụ thuộc vào kích thƣớc khối liệu đầu vào, để phân loại tập 11055 website chƣơng trình chạy trung bình khoảng 50 giây Ngoài ra, chƣơng trình có chức kiểm tra trangweb thực tế đƣợc nhập vào textbox kết luận trangwebtrangweb thƣờng hay trangwebgiảmạo 63 Hình 3.3 Kiểm tra URL Hình kết trangwebgiảmạo với URL đƣợc lấy từ trangweb PhishTank (https://www.phishtank.com) Kết chƣơng trình đƣợc trả dƣới dạng thông báo trangwebgiảmạo thƣờng Đồng thời, chƣơng trình tải giao diện trangweb lên hình ngƣời dùng tiện theo dõi đánh giá 64 KẾT LUẬN Luận văn đạt đƣợc kết sau đây: - Tìm hiểu tổng quan giảmạo web, phƣơng pháp phát website phishing sử dụng - Tìm hiểu thuật toán Naïve Bayes, cài đặt ứngdụng vào trình huấn luyện pháttrangwebgiảmạo - Xây dựng chƣơng trình mô trình huấn luyện phát website phishing - Thử nghiệm với liệu chuẩn WebsitePhishing so sánh kết với số phƣơng pháp học máy khác WEKA Hƣớng phát triển - Cần nghiêncứu khâu tiền xử lý, xây dựng mẫu huấn luyện tiêu chuẩn nhƣ phƣơng pháp cải tiến để cải thiện kết - Nâng cao khả phát cách kết hợp nhiều phƣơng pháp lại với - Xây dựng hệ thống phát website phishing ứngdụng vào thực tế 65 TÀI LIỆU THAM KHẢO [1] Lê Đắc Nhƣờng, Nguyễn Gia Nhƣ, Lê Đăng Nguyên, Lê Trọng Vĩnh Song song hóa thuật toán so khớp mẫu QuickSearch NIDS sử dụng mô hình chia sẻ nhớ OpenMP Pthreads Tạp chí Đại học Quốc gia Hà Nội, tháng 12/2012 Vol 28(4), Tr 255 – 263 [2] Nguyễn Ngọc Cƣơng, Phạm Ngọc Lãng (2014), Mạng truyền liệu, NXB Thông Tin Truyền Thông [3] Le Dang Nguyen, Dac Nhuong Le, Le Trong Vinh, Detecting phishing web Pages based on DOM-Tree Structure and Graph Matching Algorithm- The Fifth International Symposium on Information and Communication Technologies, SoICT 2014, December 4-5, 2014, Hanoi, Vietnam [4] Yue Zhang, Jason Hong and Lorrie cranor “CANTINA: A Content – Based Approach to Detecting Phishing Web Sites”, In the Proceedings of the 16th International Conference on World Wide We, p639-648, 2007 [5] Likarish, Eunjin Jung, Dunbar D., and Hansen T.E., “B-APT: Bayesian Anti-Phishing Toolbar”, In the Proceeding of 16th International Conference on Communication 2008 (ICC’08), pp 17451749, 2008 [6] Vinnarasi Tharania I, R Sangareswari, and M Saleembabu, “Web Phishing Detection In Machine Learning Using Heuristic Image Based Method”, International Journal of Engineering Research and Applications, Vol.2, Issue 5, pp.1589-1593, 2012 [7] Kranti W., Supriya A And N V Puri, “ An Efficient Approach to Detecting Phishing A Web Using K-Means and Naive- Bayes 66 Algoriths”, International Journal of Research in Advent Technology, Vol.2, No.3, pp.106-111, 2014 [8] Jangjong Fan, Kehyih Su, “An Efficient Algorith for Matching Multiple Patterns”, IEEE Transactions on Knowledge and Data Engineering, vol 5, no 2, pp 339-351, 1993 67 PHỤ LỤC Phần mềm WEKA WEKA (Waikato Environment for Knowledge Analysis) phần mềm khai thác liệu thuộc dự án trƣờng đại học Waikato, New Zealand lần năm 1993 Mục tiêu để xây dựng công cụ đại nhằm phát triển kĩ thuật máy học áp dụng chúng vào toán khai thác liệu thực tế, sử dụng giảng thuật giải Machine Learning nhiều trƣờng đại học lớn giới WEKA đƣợc viết ngôn ngữ Java JDK, cấu trúc gồm 600 lớp tổ chức thành 10 packages Với chức chính: - Khảo sát liệu: Tiền xử lí liệu, phân lớp, gom nhóm liệu, khai thác luật kết hợp - Thực nghiệm mô hình: cung cấp phƣơng tiện để kiểm chứng đánh giá mô hình học - Biểu diễn trực quan liệu nhiều dạng đồ thị… Trong đề tài, chủ yếu sử dụng phần mềm để khảo sát liệu nhằm so sánh với chƣơng trình xây dựng đề tài Giao diện phần mềm WEKA: Hình Giao diện phần mềm Weka Từ giao diện WEKA thực bƣớc: 68 - Bƣớc Chọn nút tác vụ Explorer, giao diện Weka Explorer xuất Hình Giao diện Weka Explorer - Bƣớc Tại thẻ Preprocess chọn nút Open file… để nạp tệp sở liệu Thông thƣờng sở liệu lƣu dạng *.arff *.csv Hình Giao diện Weka Explorer sau chọn CSDL Websites Phishing 69 WEKA thống kê đƣa thuộc tính có sở liệu hiển thị giao diện, hộp Attributes nhấn nút All để chọn tất thuộc tính - Bƣớc Chọn thẻ Classify để chọn sử dụng phƣơng pháp phân loại Hình Phân loại liệu - Bƣớc Chọn hàm, luật,… phân loại mục Classify nhấn nút Choose Thiết lập số tùy chọn mục Test options, ta chọn sử dụng phƣơng pháp Cross-validation - Bƣớc Nhấn nút Start để thực hiện, theo dõi kết vùng Classifier output Để tìm hiểu chức khác phần mềm Weka chi tiết cách sử dụng bạn đọc tìm hiểu tại: https://www.cs.waikato.ac.nz/ml/weka/ ... trang web giả mạo Hiện có nhiều cách tiếp cận khác để phát trang web giả mạo 2 Một đặc tính bật trang web giả mạo phải tƣơng tự nhƣ trang web gốc Điều có nghĩa hai trang web gốc web giả mạo có cấu... đồng hình ảnh hai trang web để so sánh thành phần chi tiết chúng để phát trang Web giả mạo Chính học viên lựa chọn đề tài Nghiên cứu số kỹ thuật phát trang Web giả mạo ứng dụng cho luận văn... toán kỹ thuật phát giả mạo web - Xây dựng chƣơng trình thử nghiệm tìm kiếm trang web giả mạo thuật toán Naïve Bayes Đối tƣợng phạm vi nghiên cứu - Bài toán giả mạo web, thuật toán liên quan đến phát