Nghiên cứu một số kỹ thuật phát hiện trang web giả mạo và ứng dụng

24 70 0
Nghiên cứu một số kỹ thuật phát hiện trang web giả mạo và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 MỞ ĐẦU Hiện nay, công nghệ thông tin áp dụng rộng rãi toàn cầu, nước dần chuyển từ từ tiếp xúc với cơng nghệ thấy lợi ích to lớn việc áp dụng công nghệ thông tin vào lĩnh vực kinh doanh, quản lý, mua sắm, nói chung tất nhu cầu người Một dịch vụ công nghệ hàng đầu sử dụng phổ biến dịch vụ WEB Với cơng nghệ WEB đáp ứng nhu cầu người Giả mạo (phishing biến thể từ fishing nghĩa câu cá phreaking nghĩa nhử người dùng tiết lộ bí mật), lĩnh vực bảo mật máy tính hành vi giả mạo ác ý nhằm lấy thông tin nhạy cảm tên người dùng, mật chi tiết thẻ tín dụng cách giả dạng thành chủ thể tin cậy giao dịch điện tử Vấn đề giả mạo (phishing hay fake) nói chung giả mạo web nói riêng loại tội phạm kỹ thuật xã hội có xu hướng gia tăng mạng Trang web giả mạo phát lần vào năm 2001 hiệp hội bảo vệ khách hàng, hiệp hội thương mại liên bang Mỹ ngày nhóm làm việc chống giả mạo APWG (Anti Phishing Working Group) đưa thông số trang web giả tăng khoảng 50% năm Hầu hết công lừa đảo đại xảy cách thu hút người sử dụng truy cập vào trang web độc hại có giao diện hoạt động giống trang web gốc Khi đó, người sử dụng bị thuyết phục trang cung cấp thơng tin cá nhân bao gồm thông tin xác thực thông tin ngân hàng Những thông tin thường kẻ lừa đảo sử dụng để thực số hình thức hành vi trộm cắp hay gian lận thực tế Do vậy, việc nghiên cứu phát trang web giả mạo nhu cầu cấp thiết Chính học viên lựa chọn đề tài “Nghiên cứu số kỹ thuật phát Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn trang Web giả mạo ứng dụng” cho luận văn cao học Bố cục luận văn gồm Chương sau: Chương 1: Tổng quan an ninh mạng toán giả mạo website Chương Các kĩ thuật phát website giả mạo Chương Cài đặt thử nghiệm Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Chương 1: TỔNG QUAN VỀ AN NINH MẠNG VÀ BÀI TOÁN GIẢ MẠO WEBSITE 1.1 Tổng quan an ninh mạng 1.1.1 Giới thiệu an ninh mạng 1.1.2 Nguy ảnh hưởng đến an ninh mạng toàn cầu 1.1.3 Các khái niệm 1.1.3.1.Tấn công giả mạo Tấn công giả mạo làm cho địa nguồn gói tin bị thay đổi xuất phát từ địa (máy tính) khác Trong đó: kẻ cơng thiết lập giới giả giống thật xung quanh nạn nhân Nạn nhân khơng nhận khác biệt thật giả 1.1.3.2 Hành động gây thông tin Là định, hành động người dùng dẫn tới hậu bị tiết lộ, thất thơng tin bí mật thân bị kẻ khác vi phạm quyền riêng tư 1.1.3.3 Khung cảnh / bối cảnh Trình duyệt hiển thị cho người dùng nhiều loại khung cảnh, người dùng dựa vào để đưa định 1.1.3.4 Lỗ hổng Các lỗ hổng bảo mật hệ thống điểm yếu tạo ngưng trệ dịch vụ, thêm quyền người sử dụng cho phép truy nhập không hợp pháp vào hệ thống Các lỗ hổng nằm dịch vụ cung cấp sendmail, web, ftp Ngoài lỗ hổng cịn tồn tại hệ điều hành Windows NT, Windows 95, UNIX; ứng dụng mà người sử dụng thường xuyên sử dụng Word processing, hệ databases Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Theo cách phân loại Bộ quốc phòng Mỹ, loại lỗ hổng bảo mật hệ thống chia sau: Lỗ hổng loại C: lỗ hổng loại cho phép thực phương thức công theo DoS (Dinal of Services - Từ chối dịch vụ) Mức độ nguy hiểm thấp, ảnh hưởng tới chất lượng dịch vụ, làm ngưng trệ, gián đoạn hệ thống; không làm phá hỏng liệu đạt quyền truy nhập bất hợp pháp Lổ hổng loại B: Các lỗ hổng cho phép người sử dụng có thêm quyền hệ thống mà không cần thực kiểm tra tính hợp lệ Mức độ nguy hiểm trung bình; Những lỗ hổng thường có ứng dụng hệ thống; dẫn đến lộ thông tin yêu cầu bảo mật Lỗ hổng loại A: Các lỗ hổng cho phép người sử dụng ngồi truy nhập vào hệ thống bất hợp pháp Lỗ hổng nguy hiểm, làm phá hủy toàn hệ thống 1.1.3.5 Web giả mạo Web giả mạo giống trang web mà kẻ công tạo từ trang web ban đầu Các trang web giả mạo trông giống y hệt với trang web thực: có giao diện liên kết tương tự Kẻ công kiểm soát trang web giả để giám sát, thu thập thông tin nạn nhân vào trang web mà nạn nhân dẫn kẻ công tới 1.1.4 Các loại công mạng 1.1.5 Các phương thức công 1.2 Dịch vụ Website 1.2.1 Giới thiệu website Website “trang web” lưu trữ máy chủ hay hosting hoạt động Internet Đây nới giới thiệu thông tin, hình ảnh doanh nghiệp, sản phần dịch vụ doanh nghiệp hay giới thiệu kì thơng tin để khách hàng truy cập đâu, lúc Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 1.2.2 Các hình thức giả mạo trang web Phishing hình thức gian lận để có thơng tin nhạy cảm username, password, credit card … cách giả mạo thực thể đáng tin cậy giao tiếp mạng Quá trình giao tiếp thường diễn trang mạng xã hội tiếng, trang web đấu giá, mua bán hàng online…mà đa số người dùng khơng cảnh giác với Phishing sử dụng email tin nhắn tức thời, gửi đến người dùng, yêu cầu họ cung cấp thông tin cần thiết Người dùng chủ quan cung cấp thơng tin cho trang web, trơng có vẽ hợp pháp, lại trang web giả mạo hacker lập nên 1.2.3 Các kiểu lừa đảo Phishing Dựa vào phương thức trên, kẽ lừa đảo bắt đầu tiến hành trình lừa đảo Căn theo cách thức hoạt động, người ta phân loại công lừa đảo thành loại sau  Main-in-the-Middle Attacks  Url Obfuscation Attacks  Cross-Site Scripting Attacks  Hidden Attacks 1.3 Bài toán giả mạo website 1.3.1 Giả mạo Giả mạo hành vi giả mạo ác ý nhằm lấy thông tin nhạy cảm tên người dùng, mật chi tiết thẻ tín dụng cách giả dạng thành chủ thể tin cậy giao dịch điện tử Do vậy, việc nghiên cứu phát trang web giả mạo nhu cầu cấp thiết 1.3.2 Một số kĩ thuật - Sử dụng thư điện tử giả mạo - Sử dụng website giả mạo - Bắt chước URL Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn - Cập nhật thông tin cá nhân - Che giấu URL - Nhiễm độc DNS Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Chương CÁC KĨ THUẬT PHÁT HIỆN WEBSITE GIẢ MẠO 2.1 Thuật toán TF-IDF 2.1.1 Phương pháp dựa tần số từ khóa 2.1.2 Phương pháp dựa nghịch đảo tần số văn 2.1.3 Phương pháp TF-IDF Phương pháp tổng hợp hai phương pháp TF IDF, giá trị ma trận trọng số tính sau: m [1 + log(fij )] log ( ) fij ≥ hi Wij = { ngược lại Đây phương pháp kết hợp ưu điểm hai phương pháp Trọng số wij tính tần số xuất từ khóa ti văn dj độ từ khóa ti tồn sở liệu Một số ưu, nhược điểm phương pháp biểu diễn này: • Ưu điểm Các tài liệu xếp theo mức độ liên quan đến nội dung yêu cầu Tiến hành lưu trữ tìm kiếm đơn giản phương pháp Logic • Nhược điểm Việc xử lý chậm hệ thống từ vựng lớn phải tính tốn toàn vector tài liệu Khi biểu diễn vector với hệ số số tự nhiên làm tăng mức độ xác việc tìm kiếm làm tốc độ tính tốn giảm rẩt nhiều phép nhân vector phải tiến hành số tự nhiên số thực, việc lưu trữ vector tốn phức tạp Hệ thống không linh hoạt lưu trữ từ khóa Chỉ cần thay đổi Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn nhỏ bảng từ vựng kéo theo vector hóa lại tồn tài liệu lưu trữ, bỏ qua từ có nghĩa bổ sung tài liệu mã hóa trước 2.2 Thuật toán sử dụng phương pháp thống kê 2.2.1.Định lý Nạve Bayes 2.2.2 Ví dụ 2.2.3 Thuật tốn Nạve Bayes Thuật tốn Nạve Bayes dựa định lý Bayes phát biểu sau: P(Y|X) = P(XY) P(X|Y)P(Y) = P(X) P(X) Áp dụng toán phân loại, kiện gồm có: D: tập liệu huấn luyện vector hóa dạng x⃗ = (x1 , x2 , … , xn ) Ci: phân lớp i, với i = {1,2,…,m} Các thuộc tính độc lập điều kiện đôi với Theo định lý Bayes: 𝑃(𝐶𝑖 |𝑋) = 𝑃(𝑋|𝐶𝑖 )𝑃(𝐶𝑖 ) 𝑃(𝑋) Theo tính chất độc lập điều kiện: n P(X|Ci ) = ∏ P(xk |Ci ) k=1 Trong đó: P(Ci |X) xác suất thuộc phân lớp i biết trước mẫu X P(Ci ) xác suất phân lớp i P(xk |Ci ) xác suất thuộc tính thứ k mang giá trị xk biết X thuộc phân lớp i Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Các bước thực thuật tốn Nạve Bayes: Bước 1: Huấn luyện Nạve Bayes (dựa vào tập liệu), tính P(Ci ) P(xk |Ci ) Bước 2: Phân lớp X new = (x1 , x2 , … , xn ), ta cần tính xác suất thuộc phân lớp biết trước Xnew Xnew gán vào lớp có xác suất lớn theo công thức n max (P(Ci ) ∏ P(xk |Ci )) Ci ∈C k=1 2.3 Thuật toán so khớp 2.3.1 Thuật toán so khớp chuỗi sơ khai 2.3.2 Thuật toán Rabin – Karp Cấu trúc thuật toán thể sau: RabinKarp(string T[1…n], P[1…m]) Đầu vào: Chuỗi văn T Chuỗi mẫu P Đầu ra: Số nguyên, vị trí xuất mẫu Định nghĩa biến: Số nguyên n  Số nguyên m  n = length[T] m = length[P] Hsub:= hash(P[1…m]); Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 10 For i từ đến n-m+1 If hs = hsub If s[i…i+m-1] = sub Return i Hs: = hash(T[i+1…i+m]) Return not found 2.3.3 Thuật toán Boyer Moore Horspool Thuật toán tiền xử lý: Đầu vào : Chuỗi kí tự mẫu P Đầu ra: Mảng bmBC chứa vị trí dịch kí tự tương ứng P Định nghĩa biến: Biến nguyên m 0 m  length [P] for i = to 255 bmBC[i] = m for i = to ( m-1) bmBC[x[i]] = m-i-1 Thuật toán Cấu trúc thuật toán thể sau: BMH-String-Matching(T,P) [5] Đầu vào: Chuỗi văn T Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 11 Chuỗi mẫu P Đầu ra: Kiểu biến nguyên (vị trí xuất P T) Định nghĩa biến: Biến nguyên m  Biến nguyên n 0 Mảng nguyên T,P prebmBC () pos = while (pos tj+pos = pj )do j j-1 if(j = 0) return (pos + 1) j  j + bmbc[Tpos+m] end of while 2.3.4.DOM Tree DOM tên gọi tắt Document Object Model (Mơ hình đối tượng tài liệu) – chuẩn định nghĩa W3C dùng để truy xuất thao tác tài liệu có cấu trúc dạng HTML XML ngơn ngữ lập trình thơng dịch Javascript, PHP, python,… Do vậy, để so sánh hai trang web với so sánh hai DOM – Tree tương ứng chúng DOM giúp thao tác liệu theo mơ hình hướng đối tượng Các phần tử bên tài liệu có cấu trúc định nghĩa thành đối tượng, phương thức thuộc tính để truy xuất dễ dàng mà đảm bảo tính cấu trúc: Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 12 phần tử đối tượng, sở hữu thuộc tính phương thức để làm việc với thuộc tính thêm, xóa, sửa, cập nhật Bên cạnh đó, bạn thêm bớt phần tử tùy thích, giúp cho nội dung cấu trúc trang web ln cập nhật động 2.4 Thuật tốn dựa tương đồng hình ảnh trang web 2.4.1 Thuật toán k-mean Thuật toán K-Means thực qua bước sau: Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm đại diện tâm cụm Tính khoảng cách đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean) Nhóm đối tượng vào nhóm gần Xác định lại tâm cho nhóm Thực lại bước khơng có thay đổi nhóm đối tượng 2.4.2 Thuật toán so khớp đồ thị Một trang Web (hay trang HTML) biểu diễn dạng DOM - Tree ngược lại người ta cập nhật trang Web dễ dàng việc sửa đổi DOM-Tree Do vậy, việc xem xét hai trang web có giống hay khơng, hồn tồn so sánh xem hai DOM-Tree tương ứng chúng Mă ̣t khác, dạng đặc biệt đồ thị Vì vậy, tổng quát từ bài toán phát hiêṇ trang Web giả ma ̣o chúng ta có thể đưa về toán so khớp đồ thị Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 13 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 14 Chương XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN WEBSITE GIẢ MẠO 3.1 Ứng dụng thuật toán Naive Bayes phát website giả mạo Hệ thống gồm hai trình bản: Quá trình huấn luyện trình kiểm thử - Quá trình huấn luyện: Input: 11055 trang web với 31 thuộc tính sau: having_IP_Add port RightClick HTTPS_token popUpWidnow URL_Length Request_URL Iframe Shortining_Ser URL_of_Ancho age_of_domain ress vice r having_At_Sy mbol double_slash_re directing Prefix_Suffix having_Sub_Do main SSLfinal_State DNSRecord Links_in_tags web_traffic SFH Page_Rank Submitting_to_e Google_Index mail Links_pointing_ Abnormal_URL to_page Redirect on_mouseover Statistical_repor t Result Domain_registe ration_length Favicon Bộ CSDL WebPhishing download địa chỉ: https://archive.ics.uci.edu/ml/datasets/Phishing+Websites Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 15 Output: Huấn luyện NaiveBayes (dựa vào tập liệu), tính P(Ci) P(xk | Ci) - Quá trình kiểm thử: Input: 11055 trang web giá trị P(Ci) P(xk | Ci) Output: Các giá trị TP, TN, FP, FN tương ứng với test ba giá trị trung bình DR (Detection Rate), FPR (False Positive Rate), Acc (Accuracy) Trong + TP: Số lượng website giả mạo kết luận + TN: Số lượng website hợp pháp kết luận + FP: Số lượng website hợp pháp kết luận sai thành giả mạo + FN: Số lượng website giả mạo kết luận sai thành hợp pháp Và giá trị trung bình tính sau: DR = TP/(TP + FN) FPR = FP/(TN + FP) Acc = (TP + TN) / (TP + TN + FP + FN) 3.2 Các luật xác định giả mạo áp dụng cho thuật toán 3.2.1 Phát giả mạo dựa ghi 3.2.1.1 Sử dụng IP 3.2.1.2 Sử dụng URL dài để ẩn thông tin 3.2.1.3 Sử dụng dịch vụ rút ngắn URL 3.2.1.4 URL có chứa ký tự @ 3.2.1.5 Chuyển hướng sử dụng ký hiệu “//” 3.2.1.6 Thêm tiền tố hậu tố “-” vào tên miền 3.2.1.7 Tên miền phụ nhiều tên miền phụ Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 16 3.2.1.8 HTTPS (Hypertext Transfer Protocol với Secure Sockets Layer) 3.2.1.9 Thời gian đăng ký tên miền 3.2.1.10 Favicon 3.2.1.11 Sử dụng cổng Non-Standard 3.2.1.12 Sự diện “HTTP” phần tên miền 3.2.2.Phát giả mạo dựa đặc tính bất thường 3.2.2.1 Yêu cầu URL 3.2.2.2 Liên kết thẻ , 3.2.2.3 Server Form Handler (SFH) 3.2.2.4 Gửi thông tin Email 3.2.2.5 URL bất thường 3.2.3 Phát giả mạo dựa tính dựa HTML JavaScript 3.2.3.1.Chuyển tiếp trang web 3.2.3.2 Tùy biến trạng thái 3.2.3.3 Vơ hiệu hóa chức chuột phải 3.2.3.4 Sử dụng cửa sổ Pop-up 3.2.4 Phát giả mạo dựa tên miền 3.2.4.1 PageRank 3.2.4.2 Google Index 3.2.4.3 Số lượng liên kết trỏ tới trang 3.3 Thiết kế chương trình Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 17 - Bước 1: Mỗi dòng CSDL Websites Phishing ứng với trang web, ta đọc 11055 trang web CSDL chia chúng thành 10 phần cách ngẫu nhiên - Bước (Training): Đọc số liệu k phần (k = 7, 8, 9) chia bước để huấn luyện theo thuật tốn NạveBayes - Bước (Testing):Thực trình kiểu tra 11055 trang web Kết chương trình đưa tính tốn quy đổi số liệu: DR = TP/(TP + FN) FPR = FP/(TN + FP) Acc = (TP + TN) /(TP + TN + FP + FN) Chương trình thực lặp bước hai ba mười lần, lần tính tốn cho số liệu Sau lấy giá trị trung bình mười lần tính tốn 3.5.Phân tích thuật tốn 3.5.1 Ý tưởng Ý tưởng cách tiếp cận Nạve Bayes sử dụng xác suất có điều kiện thuộc tính nhãn ( phishing normal) để dự đoán xác suất nhãn trang web cần phân loại Điểm quan trọng phương pháp chỗ giả định xuất tất thuộc tính độc lập với Giả định làm cho việc tính tốn NB hiệu nhanh chóng phương pháp khác khơng sử dụng việc kết hợp thuộc tính để đưa phán đốn nhãn Kết dự đốn bị ảnh hưởng kích thước tập liệu, chất lượng không gian đặc trưng… 3.5.2.Cài đặt 3.5.2.1 Huấn luyện Tính P(Ci ) P(xk |Ci ) Đầu vào: Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 18 Các vector đặc trưng trang web tập huấn luyện (Ma trận MxN, với M số vector đặc trưng tập huấn luyện, N số đặc trưng vector) Tập nhãn/lớp cho vector đặc trưng tập huấn luyện Đầu ra: Các giá trị xác suất P(Ci ) P(xk |Ci ) Công thức tính P(Ci ) làm trơn Laplace 𝑃(𝐶𝑖 ) = |𝑤𝑒𝑏𝑠𝑖 | + |𝑡𝑜𝑡𝑎𝑙 𝑤𝑒𝑏𝑠| + 𝑚 Trong đó:  |web si|: số trang web tập huấn luyện thuộc phân lớp i  |total webs|: số trang web tập huấn luyện  m số phân lớp Cài đặt:  Khởi tạo mảng A, B có kích thước m  Duyệt qua trang web tập liệu, đếm số trang web phân lớp lưu vào A  Tính xác suất cho phân lớp theo công thức lưu vào mảng B Công thức tính P(xk |Ci ) làm trơn Laplace: 𝑃(𝑥𝑘 |𝐶𝑖 ) = |𝑤𝑒𝑏𝑠𝑥𝑘𝑖 | + |𝑤𝑒𝑏𝑠𝑖 | + 𝑑𝑘 Trong đó:  |websxki |: Số trang web trong phân lớp i có đặc trưng thứ k mang giá trị xk (hay số trang web lớp i, có xuất hiện/khơng xuất đặc trưng k)  |websi |: Số trang web tập huấn luyện thuộc phân lớp i  dk : Số giá trị có đặc trưng thứ k Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 19 Cài đặt:  Với vector đặc trưng mô tả bên trên, dk mang giá trị 2, tương ứng với xuất khơng xuất Do có giá trị, ta tính nhanh xác suất khơng xuất theo công thức P(x̅) = − P(x)  Khởi tạo mảng chiều C, chiều có kích thước m (số phân lớp), chiều có kích thước N (số đặc trưng), chiều có kích (dk) để lưu giá trị P(xk |Ci )  Duyệt qua văn tập liệu, tiến hành thống kê số cần thiết để tính xác suất P(xk |Ci ) theo cơng thức lưu vào mảng C 3.5.2.2 Phân lớp Đầu vào: Vector đặc trưng trang web cần phân lớp Các giá trị xác suất P(Ci ) P(xk |Ci ) Đầu ra: Nhãn/lớp trang web cần phân loại Cơng thức tính xác suất thuộc phân lớp i biết trước mẫu X n P(Ci |X) = P(Ci ) ∏ P(xk |Ci ) k=1 Dựa vào vector đặc trưng trang web cần phân lớp, áp dụng công thức tính xác suất thuộc phân lớp cho trang web, chọn lớp có xác suất cao 3.5 Giao diện chương trình kết Chức nút lệnh giao diện chương trình: - Nút Random Split: Thực việc đọc 11055 trang web CSDL Websites Phishing chia chúng thành 10 phần cách ngẫu nhiên Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 20 - Nút “Training”: Thực đọc k phần 10 phần (k = 7, 8, 9) trang web để huấn luyện theo thuật tốn NạveBayes - “Nút “Testing”: Thực việc kiểm thử 11055 trang web có CSDL đưa kết luận cho trang web Sau tính tốn hiệu chương trình dựa độ đo DR, FPR Acc - Nút “Check URL”: Thực trình đọc URL trang web nhập từ textbox URL kiểm tra xem trang web vừa nhận có phải trang web phishing hay khơng - Nút “Exit”: Thốt khỏi chương trình Sau kết thử nghiệm hàm, luật,… WEKA chương trình sử dụng thuật tốn NạveBayes sở liệu Websites Phishing Với trình huấn luyện sử dụng 10 tập kết chương trình sau: Trong 4898 trang web hợp pháp chương trình cho kết quả: - Số lượng trang web hợp pháp phân loại TN = 4571 - Số lượng trang web hợp pháp phân loại sai thành trang web lừa đảo FP = 327 Trong 6157 trang web lừa đảo chương trình cho kết quả: - Số lượng trang web lừa đảo phân loại TP = 5747 - Số lượng trang web lừa đảo phân loại sai thành trang web hợp pháp FN = 410 Và kết độ đo (đơn vị %): DR = 93.34% FPR = 6.68% Acc = 93.33% Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 21 Với trình huấn luyện sử dụng 10 tập kết chương trình sau: Trong 4898 trang web hợp pháp chương trình cho kết quả: - Số lượng trang web hợp pháp phân loại TN = 4504 - Số lượng trang web hợp pháp phân loại sai thành trang web lừa đảo FP = 394 Trong 6157 trang web lừa đảo chương trình cho kết quả: - Số lượng trang web lừa đảo phân loại TP = 5630 - Số lượng trang web lừa đảo phân loại sai thành trang web hợp pháp FN = 527 Và kết độ đo (đơn vị %): DR = 91.44% FPR = 8.04% Acc = 91.67% Với kết trên, ta thấy tập liệu huấn luyện đa dạng tỉ lệ phát trang web giả mạo lớn Kết so sánh với số phương pháp phân loại tích hợp WEKA với CSDL WebPhishing phương pháp tenford cross validation sau: Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 22 Phương pháp DR FPR Acc My Result 93.13 6.49 93.33 NaiveBayes Simple 95.05 9.62 92.98 Bayes.WAODE 94.56 7.29 93.74 Function.Logistic 95.34 7.7 93.99 Function.RBFNetwork 91.6 9.42 91.15 Function.Spegasos 95.05 7.72 93.82 Lazy.IB1 97.92 4.51 96.84 misc.HyperPipes 23.79 57.56 Rules.ConjunctiveRule 91.44 14.31 88.89 Rules.Ridor 93.6 8.11 92.84 Tree.BFTree 96.74 5.61 95.69 Tree.RandomForest 98.29 3.886 97.34 Tree.RandomTree 97.26 4.74 96.37 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 23 KẾT LUẬN Luận văn đạt kết sau đây: - Tìm hiểu tổng quan giả mạo web, phương pháp phát website phishing sử dụng - Tìm hiểu thuật tốn Nạve Bayes, cài đặt ứng dụng vào trình huấn luyện phát trang web giả mạo - Xây dựng chương trình mơ q trình huấn luyện phát website phishing - Thử nghiệm với liệu chuẩn WebsitePhishing so sánh kết với số phương pháp học máy khác WEkA Hướng phát triển - Cần nghiên cứu khâu tiền xử lý, xây dựng mẫu huấn luyện tiêu chuẩn phương pháp cải tiến để cải thiện kết - Nâng cao khả phát cách kết hợp nhiều phương pháp lại với - Xây dựng hệ thống phát website phishing ứng dụng vào thực tế Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 24 TÀI LIỆU THAM KHẢO [1] Lê Đắc Nhường, Nguyễn Gia Như, Lê Đăng Ngun, Lê Trọng Vĩnh Song song hóa thuật tốn so khớp mẫu QuickSearch NIDS sử dụng mơ hình chia sẻ nhớ OpenMP Pthreads Tạp chí Đại học Quốc gia Hà Nội, tháng 12/2012 Vol 28(4), Tr 255 – 263 [2] Nguyễn Ngọc Cương, Phạm Ngọc Lãng (2014), Mạng truyền liệu, NXB Thông Tin Truyền Thông [3] Le Dang Nguyen, Dac Nhuong Le, Le Trong Vinh, Detecting phishing web Pages based on DOM-Tree Structure and Graph Matching Algorithm- The Fifth International Symposium on Information and Communication Technologies, SoICT 2014, December 4-5, 2014, Hanoi, Vietnam [4] Yue Zhang, Jason Hong and Lorrie cranor “CANTINA: A Content – Based Approach to Detecting Phishing Web Sites”, In the Proceedings of the 16th International Conference on World Wide We, p639-648, 2007 [5] Likarish, Eunjin Jung, Dunbar D., and Hansen T.E., “B-APT: Bayesian Anti-Phishing Toolbar”, In the Proceeding of 16th International Conference on Communication 2008 (ICC’08), pp 1745-1749, 2008 [6] Vinnarasi Tharania I, R Sangareswari, and M Saleembabu, “Web Phishing Detection In Machine Learning Using Heuristic Image Based Method”, International Journal of Engineering Research and Applications, Vol.2, Issue 5, pp.1589-1593, 2012 [7] Kranti W., Supriya A And N V Puri, “ An Efficient Approach to Detecting Phishing A Web Using K-Means and Naive- Bayes Algoriths”, International Journal of Research in Advent Technology, Vol.2, No.3, pp.106111, 2014 [8] Jangjong Fan, Kehyih Su, “An Efficient Algorith for Matching Multiple Patterns”, IEEE Transactions on Knowledge and Data Engineering, vol 5, no 2, pp 339-351, 1993 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ... dịch điện tử Do vậy, việc nghiên cứu phát trang web giả mạo nhu cầu cấp thiết 1.3.2 Một số kĩ thuật - Sử dụng thư điện tử giả mạo - Sử dụng website giả mạo - Bắt chước URL Số hóa Trung tâm Học liệu... sử dụng ngồi truy nhập vào hệ thống bất hợp pháp Lỗ hổng nguy hiểm, làm phá hủy toàn hệ thống 1.1.3.5 Web giả mạo Web giả mạo giống trang web mà kẻ công tạo từ trang web ban đầu Các trang web giả. ..2 trang Web giả mạo ứng dụng? ?? cho luận văn cao học Bố cục luận văn gồm Chương sau: Chương 1: Tổng quan an ninh mạng toán giả mạo website Chương Các kĩ thuật phát website giả mạo Chương

Ngày đăng: 30/03/2021, 14:00

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan