1. Trang chủ
  2. » Công Nghệ Thông Tin

Phát hiện email URL lừa đảo sử dụng học máy có giám sát

12 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Bài viết Phát hiện email URL lừa đảo sử dụng học máy có giám sát tập trung vào việc phát hiện email URL lừa đảo, là một dạng của các cuộc tấn công lừa đảo bằng cách đề xuất 51 đặc trưng URL để xác định.

PHÁT HIỆN EMAIL URL LỪA ĐẢO SỬ DỤNG HỌC MÁY CÓ GIÁM SÁT DETECT EMAIL URLS PHISHING USING SUPERVISED MACHINE LEARNING Vũ Xuân Hạnh, Trần Tiến Dũng, Đỗ Thị Uyển, Hồng Việt Trung, Ngơ Minh Phương* Ngày tịa soạn nhận báo: 03/11/2021 Ngày nhận kết phản biện đánh giá: 03/05/2022 Ngày báo duyệt đăng: 26/05/2022 Tóm tắt: Cùng với tốc độ phát triển nhanh chóng khoa học kỹ thuật internet, công mạng ngày gia tăng với mức độ nguy hiểm cao khó kiểm sốt Trong báo này, tập trung vào việc phát email URL lừa đảo, dạng công lừa đảo cách đề xuất 51 đặc trưng URL để xác định Chúng sử dụng tập liệu email URL Phishing có độ tin cậy cao dựa đặc trưng trích chọn, nghiên cứu chúng tơi đạt độ xác tổng thể khoảng 94.53% sử dụng kỹ thuật học máy có giám sát Random Forest Từ khóa: Tấn cơng URL Phishing, phát Email URL Phishing, Học máy, Phát công lừa đảo qua thư, An ninh mạng, URL độc hại Abstract: Along with the rapid development of science and technology and the internet, cyber-attacks are increasing with high levels of danger and are difficult to control In this paper, we focus on detecting email URL Phishing, which is a type of phishing attack by suggesting 51 URL features to identify We use a highly reliable Phishing URL email dataset and based on the extracted features, our study achieves an overall accuracy of about 94.5% using supervisor machine learning Random Forest Keywords: Email URL Phishing, Detect Email URL Phishing, Machine Learning, Email URL Phishing attacks, URL Phishing, Cyber Security, Malicious URL I Đặt vấn đề Thuật ngữ “lừa đảo” (Phishing), dùng để hành vi lừa đảo, đánh cắp tài khoản người dùng Internet Phishing kỹ thuật khiến người dùng hiểu lầm URL mà họ truy cập * Trường Đại học Mở Hà Nội hợp pháp Mục đích hình thức lừa đảo thu thập thông tin cá nhân như: thơng tin đăng nhập, mật khẩu, thẻ tín dụng, thẻ ghi nợ tài khoản ngân hàng Ngày nay, công lừa đảo ảnh hưởng nhiều đến tổ chức tài 34 Nghiên cứu trao đổi ● Research-Exchange of opinion cá nhân Kẻ cơng ăn cắp thơng tin qua thư điện tử, quảng cáo, trang web giả mạo,… Đầu tiên, kẻ cơng lựa chọn trang thức có giao dịch có liên quan đến thơng tin cần đánh cắp Sau đó, thực hành vi nhân trang thức xây dựng lại với ý đồ thu thập thông tin người dùng Mặt khác, tạo email chứa liên kết tới trang giả mạo Người dùng truy cập liên kết tới trang giả mạo, thực giao dịch từ thơng tin bị đánh cắp lưu vào sở liệu kẻ công Hình mơ tả quy trình cơng email URL lừa đảo Hình 1: Tấn cơng Email URL lừa đảo Có 316,747 cơng xuất, chi tiết đặc trưng URL tháng 10 năm 2021 theo dõi số đánh giá Kết thí nghiệm APWG [1], số lượng cơng chúng tơi phân tích mục lớn lịch sử, với đó, IV Kết luận trình bày mục V công tăng gấp so với đầu II Cơ sở lý thuyết năm 2020 Trong số email báo Đã có nhiều cơng trình nghiên cứu cáo người dùng doanh nghiệp, 51.8% đề xuất kỹ thuật khác để phát công lừa đảo đánh cắp URL lừa đảo Một số việc thơng tin xác thực Sự gia tăng đáng kể trì danh sách tên miền địa chứng tồn công lừa đảo với mức IP trang web lừa đảo độ thiệt hại gia tăng mà chúng gây phát trước Một hệ thống có tên Phishnet đề xuất [2] nơi trì Trong báo này, đưa danh sách đen URL lừa đảo, giải pháp nhanh hiệu để xác hệ thống kiểm tra xem địa IP, tên định email URL lừa đảo dựa đặc máy chủ thân URL xem có thuộc trưng URL tên miền URL Trong danh sách đen hay khơng Phương pháp phần lại báo cấu trúc trì danh sách trắng đề xuất [3] có sau: mục II, thảo luận số chứa tên miền địa IP tương ứng nghiên cứu liên quan đến phát URL lừa đảo, mục III trình bày mơ hình đề trang web lành tính thay kỹ thuật Nghiên cứu trao đổi ● Research-Exchange of opinion 35 với danh sách đen Phương pháp khai thác kết hợp quy tắc đề xuất nghiên cứu Jeeva Rajsingh [4] để phát email URL lừa đảo lành tính Đối với phương pháp này, 14 đặc trưng khác trích chọn từ URL Thuật tốn TF-IDF sử dụng để tìm từ có tần suất cao URL lừa đảo Khoảng 93.00% URL lừa đảo xác định xác thuật tốn Apriori tập liệu gồm 1,400 URL nhiên số hạn chế: (i) Việc truy cập vào nội dung email để xác định URL lừa đảo dựa danh sách URL lừa đảo URL hợp pháp khơng đáng tin cậy trì nhiên kẻ cơng sử dụng URL khác cho lần cơng; (ii) Trích chọn đặc trưng với trợ giúp bên thứ WHOIS cơng cụ tìm kiếm khác tốn thời gian; (iii) Chưa đề cập đến trích chọn đặc trưng tên miền Kenneth Fon Mbah trình bày luận văn thạc sỹ [5] đưa hệ thống cảnh báo lừa đảo (PHAS) có khả phát cảnh báo tất loại email lừa đảo để giúp người dùng định Nghiên cứu sử dụng tập liệu email dựa đặc trưng trích xuất, đề xuất đạt độ xác khoảng 93.11% sử dụng kỹ thuật máy học như: định J48 kNN Shamal M Firake[6] đề xuất phương pháp để phát ngăn chặn công lừa đảo vào email Nhằm tăng cao hiệu quả, xem xét đặc trưng trích chọn từ email URL lừa đảo tên miền URL để phát triển nghiên cứu Các nghiên cứu hoạt động dựa danh sách tên miền, đặc trưng URL, đặc trưng khác trích chọn từ trang web WHOIS, cơng cụ tìm kiếm, v v Các nghiên cứu thu thành tựu trình bày trên, III Phương pháp nghiên cứu 3.1 Học máy có giám sát Hình mơ tả kỹ thuật học máy có giám sát nhóm thuật tốn dự đoán đầu (outcome) liệu (new input) dựa cặp (input, outcome) biết từ trước Cặp liệu gọi (dữ liệu, nhãn) Đây nhóm phổ biến thuật tốn học máy Thuật tốn học máy có giám sát tiếp tục chia nhỏ thành hai loại là: phân loại hồi quy Học máy có giám sát sử dụng rộng rãi với tốn phân loại nhị phân Hình 2: Mơ hình học máy có giám sát 36 Nghiên cứu trao đổi ● Research-Exchange of opinion Trong kỹ thuật học máy có giám sát có số thuật tốn như: Nạve Bayes, kNN, định J48, SVM, Random Forest…[7] Thuật toán Random Forest xây dựng nhiều định thuật toán sở định, nhiên định khác (có yếu tố random) Sau kết dự đoán tổng hợp từ định Trong thuật toán định, xây dựng định để độ sâu tùy ý phân loại hết liệu tập huấn luyện dẫn đến mơ hình dự đốn tệ tập kiểm thử, mơ hình có độ xác thấp Tuy nhiên với thuật tốn Random Forest lại có yếu tố ngẫu nhiên: (i) Lấy ngẫu nhiên liệu để xây dựng định; (ii) Lấy ngẫu nhiên thuộc tính để xây dựng định Do định thuật tốn khơng dùng tất liệu để huấn luyện, không dùng tất thuộc tính liệu nên có dự đốn khơng tốt Tuy nhiên, kết cuối lại tổng hợp từ nhiều định nên thông tin từ bổ sung cho nhau, dẫn đến mơ hình có độ lệch phương sai thấp, mơ hình có kết dự đốn tốt 3.2 Mơ hình phát Mơ hình phát email URL lừa đảo dựa máy học có giám sát đề xuất chia thành giai đoạn minh họa sau: (a) Giai đoạn huấn luyện: Tệp liệu huấn luyện bao gồm email URL lừa đảo lành tính Các đặc trưng URL trích chọn chia thành loại: 24 đặc trưng URL 27 đặc trưng tên miền Sử dụng thuật toán Random Forest để huấn luyện, đưa phân loại (b) Giai đoạn phát hiện: URL giám sát trích chọn đặc trưng, sử dụng phân loại huấn luyện để xác định email URL lừa đảo Hình 3: Mơ hình phát đề xuất Nghiên cứu trao đổi ● Research-Exchange of opinion 3.3 Trích chọn đặc trưng 3.3.1 Giới thiệu Độ xác hệ thống phát email URL lừa đảo phụ thuộc vào đặc trưng để phân biệt URL lừa đảo lành tính Trong nghiên cứu gần đây, nhiều phân loại đặc trưng lựa chọn đặc trưng URL, đặc trưng mạng, Nghiên cứu tập trung vào đặc trưng trích chọn từ URL, cần xem xét URL mà không cần quan tâm đến đặc trưng mạng, danh sách có trước Các đặc trưng trích chọn từ nội dung web khơng xem xét truy xuất nội dung trang web, gói tin mạng có tải trọng lớn tiêu tốn lượng lớn tài nguyên để xử lý thời gian thực xử lý ngoại tuyến Chúng tơi sử dụng 51 đặc trưng chia làm nhóm để vector hoá URL nhằm tăng hiệu việc phát hiện, đặc trưng chia thành nhóm sau: (i) đặc trưng URL; (ii) đặc trưng tên miền 3.3.2 Đặc trưng URL Độ dài URL đặc trưng [5], kẻ cơng sử dụng URL có độ dài lớn để ẩn phần đáng ngờ liên kết Trong tệp liệu huấn luyện chúng tôi, độ dài trung bình email URL lừa đảo 63.13 ký tự, với URL hợp pháp 45.7 ký tự Trong email URL lừa đảo thường có ký tự ký tự „`‟,‟%‟,‟^‟,‟&‟,‟*‟,‟;‟,… ký tự đáng ngờ, diện chúng xuất nhiều URL lừa đảo Một danh sách từ đáng ngờ theo nghiên cứu [8] với nhận định chúng tôi, việc diện từ email URL lừa đảo nhiều so với URL lành 37 tính, bao gồm từ như: „password‟, „login‟, „confirm‟, „submit‟, „payment‟, „secure‟, „account‟, „index‟, „token‟, „signin‟,… số từ đặc biệt mang tính chất nhạy cảm xuất URL lừa đảo Hiện có nhiều cơng cụ hỗ trợ việc rút ngắn độ dài URL Và với cơng cụ này, kẻ cơng che dấu đặc trưng dễ nhận biết URL người dùng, đường dẫn độc hại Danh sách URL rút gọn bao gồm: ‘bit\.ly’, ‘goo\.gl’, go2l\.ink‟, „x\ co‟, „bitly\.com‟, ‟link\.zip\.net‟ Đối với URL lành tính việc xuất ký tự „.‟ tương đối ít, thường 1-2 Nhưng URL lừa đảo, số lượng 4-5 hay chí 16 Điều có liên quan đến hostname chứa nhiều subdomain, đường dẫn URL lừa đảo dài so với URL lành tính Ngồi việc sử dụng giao thức như: ‘HTTP’, ‘HTTPS’ ‘FTP’ vài giao thức khác Theo báo cáo APWG [1] việc sử dụng giao thức „HTTP‟, „HTTPS‟ có chiều hướng tăng lên URL lừa đảo Sự xuất địa IP, dấu „\‟, cổng chuyển hướng xem xét để trích chọn đặc trưng URL [1][9][10] Theo thống kê chúng tôi, URL lừa đảo thường chứa chuỗi ký tự lớn 30 ký tự (chiếm 90% tổng số 155,996 URL), xem số khác biệt lớn URL lành tính - f1: urlLength(u) – độ dài URL - f2: tachar(u) - phân bố ký tự đặc biệt URL countchar(u) tachar(u)  (1) len(u) Nghiên cứu trao đổi ● Research-Exchange of opinion 38 đó, countchar(u) số ký tự đặc biệt - f3: hasKeywords(u) - trả giá trị tồn từ khóa, ngược lại trả giá trị - f4: hasSpeChar(u) - trả giá trị tồn từ khóa, ngược lại trả giá trị - f5: hasSpeKW(u) - trả giá trị tồn từ nhạy cảm, ngược lại trả giá trị - f6: tinyURL(u) - trả giá trị có URL rút gọn, ngược lại trả giá trị - f7: tahex(u) - phân bố ký tự hexa URL tahex(u)  counthe(u) len(u) (2) đó, counthe(u) số ký tự hexa -f8: tadigit(u) - phân bố chữ số URL tadigit(u)  countdigit(u) len(u) (3) Hình 4: Tỷ lệ phân bố nguyên âm URL Tỷ lệ phân bố nguyên âm URL lừa đảo lành tính thể hình cho thấy có khác biệt, đặc trưng f12, f13 bổ sung nghiên cứu - f12: numvo(u)* - phân bố nguyên âm URL numvo(u)  countvo(u) len(u) (5) đó, countvo(u) số nguyên âm - f13: numco(u)* - phân bố phụ âm URL numco(u)  countco(u) len(u) (6) đó, countvo(u) số phụ âm đó, countdigit(u) số chữ số - f14: numsdm(u) - số lượng subdomain - f9: numdots(u) - số lượng dấu „.‟ xuất URL - f15: radomain(u) - tỉ lệ độ dài domain so với URL - f10: taslash(u) - phân bố dấu „/‟ URL taslash(u)  countslash(u) len(u) radomain(u)  lend (u) len(u) (7) đó, lend(u) độ dài domain (4) đó, countslash(u) số dấu ‘/’ - f11: countcase(u) - số lượng chữ in hoa - f16: rapath(u) - Tỉ lệ độ dài đường dẫn so với URL rapath(u)  lenpath(u) len(u) (8) Nghiên cứu trao đổi ● Research-Exchange of opinion đó, lenpath(u) độ dài domain - f17: haspro(u) - trả giá trị tồn „http‟, „https‟, „www‟trong URL, ngược lại trả giá trị - f18: hasIP(u) - trả giá trị tồn địa IP URL, ngược lại trả giá trị - f19: hasExe(u) - trả giá trị tồn file có phần mở rộng „.exe‟, ngược lại trả giá trị - f20: hasport(u) - trả giá trị tồn cổng URL, ngược lại trả giá trị - f21: backslash(u) - trả giá trị tồn dấu „\‟ URL, ngược lại trả giá trị - f22: redirect(u) - trả giá trị tồn chuyển hướng URL, ngược lại trả giá trị Thống kê 150,000 URL lừa đảo 150,000 URL lành tính Kết thể hình cho thấy: cụm „ref=‟, „cdm=‟ URL lừa đảo xuất nhiều (11433 lần) so với URL lành tính (60 lần) Tương tự, chuỗi ký tự dài (>25 ký tự) URL lừa đảo xuất nhiều gấp lần so với URL lành tính Đây lý bổ sung đặc trưng f23 f24 Hình 5: Thống kê hasRef subMaxStr 39 - f23: hasref(u)* - trả giá trị tồn cụm „ref=‟, „cdm=‟ …trong URL, ngược lại trả giá trị - f24: maxsub30(u)* - trả giá trị chuỗi lớn có độ dài lớn 30 ký tự, ngược lại trả giá trị 3.3.3 Đặc trưng tên miền Kế thừa nghiên cứu trước [9] [10], bi-gram cụm gồm ký tự kề trích từ chuỗi ký tự Ví dụ, với chuỗi “domain” gồm bi-gram: do, om, ma, ai, in Một tên miền chứa ký tự tập 26 ký tự chữ (a-z), ký tự số (0-9), ký tự “.” “-”, tổng số bi-gram S(bi-gram) = 382=1,444 Tương tự, tri-gram cụm gồm ký tự kề trích từ chuỗi ký tự Với ví dụ ta có tri-gram: dom, oma, mai, ain tổng số tri-gram S(tri-gram) = 383=54,872 Từ tập hợp tên miền lành tính trích từ top 100,000 tên miền Alexa [11] rút danh sách gồm K=1,000 cụm n-gram có tần suất xuất cao nhất, ký hiệu DS(n-gram) DS(n-gram) sử dụng cho việc tính tốn đặc trưng bi-gram (f25 - f32) đặc trưng (f33 - f40) trigram Ngồi ra, chúng tơi sử dụng đặc trưng thống kê như: tỷ lệ nguyên âm, tỷ lệ phụ âm, tỷ lệ ký tự „-„,‟.‟ chữ số tên miền Hơn nữa, tên miền lành tính thường sinh dựa nguyên tắc sử dụng từ ngôn ngữ tự nhiên Bảng liệt kê xác suất xuất chữ 100,000 tên miền lành tính để tính EOD cho tên miền 27 đặc trưng ngram thống kê tên miền URL liệt kê Nghiên cứu trao đổi ● Research-Exchange of opinion 40 Bảng 1: Xác suất 38 ký tự 100.000 tên miền C a b c d e f P(C) 9.35 2.27 3.87 3.26 9.69 1.67 C g h i j k l P(C) 2.40 2.56 7.40 0.55 1.90 4.56 C m n o p q r P(C) 3.37 6.12 7.28 2.91 0.21 6.44 - f25-f33: count(d) - số lượng ngram tên miền d.- f26-f34: m(d) -là phân bố tần suất chung n-gram tên miền d m(d )   count (d ) f (i) *index(i) (9) C s t u v w x P(C) 6.48 6.13 3.23 1.37 1.20 0.67 C y x tan(d )  P(C) 1.67 0.68 0.18 0.24 0.23 0.15 0.16 C - count(d ) sum _ ng(d ) P(C) 0.10 0.09 0.09 0.10 0.08 0.00 1.26 (13) - f31-f39: taf(d) - trung bình tần suất n-gram phổ biến tên miền d f (i) taf (d )   i1 sum _ ng(d ) count (d ) f(i) tổng số lần xuất n-gram i DS(n-gram) index(i) thứ hạng n-gram i TS(n-gram) - f27-f35: s(d) - trọng số n-gram s(d )   count (d ) f (i) * vt(i) - f28-f36: ma(d) - trung bình phân bố tần suất chung n-gram tên miền d m(d ) (11) len(d) tổng số n-gram có tên miền d - f29-f37: sa(d) - trung bình trọng số n-gram tên miền d sa(d )  s(d ) sum _ ng(d ) ent(d )   count (d ) vt(i) i1 K *log( vt(i) ) (15) K K số cụm n-gram phổ biến đó, vt(i) thứ hạng củangram i DS(n-gram) sum _ ng(d ) - f32-f40: entropy tên miền d (10) count(d ) ma(d )  (14) (12) - f30-f38: tan(d) - trung bình số lượng n-gram phổ biến tên miền d - f41: tanv(d) - phân bố nguyên âm tên miền d tanv(d )  countnv(d ) len(d ) (16) countnv(d) số nguyên âm, len(d) số ký tự tên miền d - f42: tanco(d) - phân bố phụ âm tên miền d tanco(d )  countco(d ) len(d ) (17) countco(d) số phụ âm tên miền d - f43: tandi(d) - phân bố chữ số tên miền d Nghiên cứu trao đổi ● Research-Exchange of opinion tanco(d )  countdi(d ) len(d ) (18) countdi(d) số chữ số tên miền d - f44: tansc(d) - phân bố ký tự đặc biệt tên miền d tansc(d )  countsc(d ) len(d ) (19) countsc(d) số ký tự đặc biệt - f45: tanhe(d) - phân bố ký tự hexa tên miền d tanhe(d )  counthe(d ) len(d ) (20) counthe(d) số ký tự hexa tên miền d - f46: is_digit(d) - trả giá trị ký tự tên miền d số, ngược lại trả giá trị - f47: len(d) - độ dài tên miền d - f48: ent_char(d) - entropy miền d D(x) phân phối xác suất ký tự x miền d ent _ char(d )   x D(x) log(D(x)) (21) log(len(d )) - f49: EOD(d) - giá trị kỳ vọng tên miền d Tên miền bao gồm k ký tự {x1, x2 , ,xk } n(xi ) tần suất xuất ký tự xi p(xi ) phân phối xác suất ký tự xi tính cách sử dụng top 100,000 tên miền liệt kê Alexa, EOD(d)  EOD(d )  i1 n(xi ) p(xi ) k i1 n(xi ) (22) 41 nên thông thường tên miền không xuất rank Alexa - f50: rank(d)* - xếp hạng domain danh sách Alexa Thống kê top5 TLD sử dụng 156,000 URL lành tính (chiếm xấp xỉ 92%) URL lừa đảo sử dụng TLD đa dạng Do đặc trưng TLD email URL xem xét để sử dụng nghiên cứu - f51: tld(d)* - trả giá trị TLD top5 LTD lành tính, ngược lại trả giá trị 3.3.4 Phương pháp đánh giá - Để đánh giá mơ hình đề xuất, sử dụng sáu độ đo bao gồm: PPV, TPR, FPR, FNR, F1 ACC Các độ đo tính tốn sau: Độ xác (PPV-Positive Predictive Value) tính theo công thức: PPV  TP  FP (23) Tỷ lệ dương tính (TPR), hay độ nhạy, tính theo công thức: TPR  TP TP  FN (24) Tỷ lệ dương tính giả (FPR) hay cịn gọi “nhầm lẫn”, tính theo cơng thức: FP FPR  (25) FP  TN Tỷ lệ âm tính giả (FPR) hay cịn gọi “bỏ sót”, tính theo cơng thức: k Đối với tên miền lừa đảo, kẻ công thường sử dụng kỹ thuật sinh tự động TP FNR  FN FN  TP (26) Độ đo F1 tính theo cơng thức: Nghiên cứu trao đổi ● Research-Exchange of opinion 42 F1  2TP 2TP  FP  FN (27) Độ xác tồn cục, hay độ xác chung ACC, tính theo cơng thức: ACC  TP  TN TP  TN  FP  FN (28) đó, TP số lượng URL lừa đảo phân loại đúng, TN số lượng URL lành tính phân loại đúng, FP số lượng URL lành tính bị phân loại sai thành URL lừa đảo FN số lượng URL lừa đảo bị phân loại sai URL lành tính IV Kết thảo luận 4.1 Tập liệu huấn luyện kiểm thử Để đánh giá độ xác phân loại email URL lừa đảo lành tính sử dụng học máy, sử dụng tập liệu tên miền bóc tách gán nhãn [12], bao gồm tập email URL lừa đảo lành tính Các email URL lành tính gán nhãn email URL lừa đảo gán nhãn Bảng 2: Dữ liệu huấn luyện kiểm thử Tập liệu huấn luyện Email URL kiểm thử Lành tính Phising 100,000 100,000 20,000 35,996 4.2 Lựa chọn thuật toán Với tập liệu huấn luyện, sử dụng số thuật toán học máy kiểm tra chéo 10 lần để xác định hiệu suất mơ hình Dựa vào kết Bảng 3, với ACC F1 94.50% 94.54% kèm theo tỷ lệ âm tính giả dương tính giả 4.73% 6.27% thuật tốn RF cho hiệu tốt Mặt khác, thử nghiệm RF với 40, 45, 50, 55 ACC là: 94.44%, 94.41%, 94.50%, 94.48% Do đó, chúng tơi lựa chọn thuật tốn Random Forest với số 50 để huấn luyện mơ hình kiểm thử Bảng 3: Hiệu suất số kỹ thuật học máy Logistic J48 kNN ACC 94.50% 84.47% 91.81% 81.63% 91.86% F1 94.54% 84.61% 91.80% 81.63% 91.80% Mặt khác, để so sánh làm rõ hiệu mơ hình thêm đặc trưng bổ sung vào 45 đặc trưng kế thừa cho kết bảng Khi thêm đặc trưng mới, độ xác tồn cục tăng 0.98%, tỷ lệ tăng khơng cao tỷ lệ ACC tới ngưỡng khả cải thiện hiệu suất mơ hình thấp Tuy nhiên, tỷ lệ âm tính giả giảm đáng kể từ 6.19% tới 4.73%, tỷ lệ bỏ sót giảm tức hiệu suất mơ hình tốt Bảng 4: So sánh mơ hình 45 51 đặc trưng Đặc trưng 45 51 FNR 6.19% 4.73% FPR ACC 6.69% 93.56% 6.27% 94.50% 4.3 Kết đánh giá Sử dụng mơ hình đề xuất với thuật toán RF sử dụng 50 kiểm thử 02 tệp liệu dataset1 dataset2 cho kết 95.63% 95.51% thể Bảng Bảng 5: Hiệu suất kiểm thử Tệp Số lượng Phát Tỷ lệ Dataset1 20,000 19,127 95.63% Dataset2 35,996 34,383 95.51% Nghiên cứu trao đổi ● Research-Exchange of opinion Bảng 6: So sánh đề xuất Đề xuất Jeeva cộng [5] Kenneth [4] Của Sử dụng Tỷ lệ Apriori 93.00% J48 93.11% RF (50) 94.50% Từ kết huấn luyện mơ hình, so sánh với số nghiên cứu trước thể Bảng cho thấy mơ hình chúng tơi có hiệu suất cao Tuy nhiên, Jeeva cộng sử dụng khai phá luật kết hợp Apriori, Kenneth sử dụng J48 với liệu khác Do đó, việc so sánh chưa tuyệt đối xác V Kết luận Với mục đích hạn chế cơng mạng nói chung cơng URL lừa đảo nói riêng Chúng tơi nghiên cứu chi tiết đặc trưng URL tên miền URL Ngoài đặc trưng kế thừa từ nghiên cứu trước tác giả khác chúng tôi, báo đề xuất thêm số đặc trưng mới, cụ thể đặc trưng: f12, f13, f22, f30, f50 f51 Từ kết nghiên cứu trên, chúng tơi đề xuất mơ hình phát email URL lừa đảo dựa đặc trưng URL tên miền chứa URL Trong nghiên cứu này, xây dựng phương pháp phát email URL lừa đảo nhanh chóng, hiệu khơng phụ thuộc vào đặc trưng mạng hiệu suất thiết bị cụ thể kết trình bày mục 4.3 Trong tương lai, tiếp tục nghiên cứu đặc trưng khác sử dụng tập liệu lớn để giúp phát email URL lừa đảo xác hiệu Tài liệu tham khảo: [1] “Phishing Activity Trends Reports”, https:// apwg.org/trendsreports/ Truy cập 1-2022 43 [2] Pawan P cộng sự, “Predictive Blacklisting to Detect Phishing Attacks”, p:15, Proceedings IEEE INFOCOM, 2010 [3] Jain, A K., & Gupta, B B “A novel approach to protect against phishing attacks at client side using autoupdated white-list” EURASIP Journal on Information Security,2016(1) doi:10.1186/s13635-016-0034-3, 2016 [4] Jeeva, S C., & Rajsingh, E B “Intelligent phishing url detection using association rule mining” Humancentric Computing and Information Sciences ,6(1) [5] doi:10.1186/s13673-016-0064-3, 2016 [6] Kenneth Fon, Arash Habibi Lashkari Ali A Ghorbani “A phishing Email Detection Approach Using Machine Learing Techniques”, Innsbruck, Austria, January 26-27, 2017 [7] Shamal M Firake, Pravin Soni and B.B Meshram, “Tool For Prevention and Detection of Phishing E-mail Attacks”, Computer technology Department, V.J.T.I , Matunga, Mumbai 2011 [8] Tiep, V.H., “Machine Learning bản” 2016-2020 [9] Bahnsen, A C., Bohorquez, E C., Villegas, S., Vargas, J., & Gonzalez, F A “Classifying phishing URLs using recurrent neural networks” 2017 APWG Symposium on Electronic Crime Research (eCrime) doi:10.1109/ecrime.2017.7945048, 2017 [10] Xuan Dau Hoang and Xuan Hanh Vu, “An Improved Model For Detecting DGA Botnets Using Random Forest Algorithmm”, 2021; DOI: 10.1080/19393555.2021.1934198 [11] Hoang X.D and Nguyen Q.C, “Botnet Detection Based On Machine Learning Techniques Using DNS Query Data”, Future Internet, 2018, 10, 43; doi:10.3390/fi10050043 [12] Alexa Alexa Top 1M [cited 2019;Available from: http://s3.amazonaws.com/alexa-static/ [13] Tarun Tiwari, Phishing Site URLs Dataset, https://www.kaggle.com/ taruntiwarihp/phishing-site-urls Địa tác giả: Trường Đại học Mở Hà Nội Email: hanhvx@hou.edu.vn 44 cứu trao đổihọc ● Research-Exchange of opinion Tạp chí KhoaNghiên học - Trường Đại Mở Hà Nội 92 (6/2022) 44-53 ... loại email URL lừa đảo lành tính sử dụng học máy, sử dụng tập liệu tên miền bóc tách gán nhãn [12], bao gồm tập email URL lừa đảo lành tính Các email URL lành tính gán nhãn email URL lừa đảo gán... toán học máy Thuật tốn học máy có giám sát cịn tiếp tục chia nhỏ thành hai loại là: phân loại hồi quy Học máy có giám sát sử dụng rộng rãi với tốn phân loại nhị phân Hình 2: Mơ hình học máy có giám. .. hình phát email URL lừa đảo dựa máy học có giám sát đề xuất chia thành giai đoạn minh họa sau: (a) Giai đoạn huấn luyện: Tệp liệu huấn luyện bao gồm email URL lừa đảo lành tính Các đặc trưng URL

Ngày đăng: 29/08/2022, 15:51

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN