1. Trang chủ
  2. » Luận Văn - Báo Cáo

đồ án cơ sở phát hiện website lừa đảo dựa trên url

44 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Đồ Án Cơ Sở Phát Hiện Website Lừa Đảo Dựa Trên URL
Tác giả Võ Trùng Dương, Mai Văn Hải
Người hướng dẫn Văn Thiên Hoàng
Trường học Trường Đại Học Công Nghệ TP. HCM
Chuyên ngành Công nghệ thông tin
Thể loại Đồ án
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 44
Dung lượng 4,9 MB

Cấu trúc

  • CHƯƠNG 1. TỔNG QUAN (7)
    • 1.1. Lý do chọn đề tài (7)
    • 1.2. Giới thiệu (7)
    • 1.3. Thực trạng các trang web lừa đảo (9)
    • 1.4. Mục tiêu nghiên cứu (11)
    • 1.5. Tổng quan về phân loại các URL (11)
    • 1.6. Quy trình dự án (12)
    • 1.7. Cấu trúc đồ án (12)
  • CHƯƠNG 2. CƠ SỞ LÝ THUYẾT (12)
    • 2.1. Khái niệm (12)
      • 2.1.1. URL là gì? (13)
      • 2.1.2. URL độc hại là gì? (13)
    • 2.2. Random Forest (14)
    • 2.3. Light GBM (Gradient Boosting Machine) (16)
    • 2.4. XGBoost (Extreme Gradient Boosting) (18)
      • 2.2.4. Bảng so sánh các thuật toán (20)
    • 2.3. Trích chọn các đặc trưng (20)
  • CHƯƠNG 3. KẾT QUẢ THỰC NGHIỆM (12)
    • 3.1. Giới thiệu tập dữ liệu sẽ được sử dụng (21)
    • 3.2. Wordcloud của URL (21)
    • 3.3. Cài đặt (24)
      • 3.3.1. Nhập thư viện (25)
      • 3.3.2. Tải tập dữ liệu (25)
      • 3.3.3. Các kỹ Thuật đặc trưng (26)
      • 3.3.4. Phân tích dữ liệu thăm dò (EDA) (32)
      • 3.3.5. Mã hóa nhãn (35)
      • 3.3.6. Phân tách biến đặc trưng và biến mục tiêu (35)
      • 3.3.7. Chia dữ liệu thành tập huấn luyện và tập kiểm tra (36)
      • 3.3.8. Xây dựng mô hình (36)
      • 3.3.9. Đánh giá và so sánh mô hình (37)
      • 3.3.10. Tầm quan trọng của đặc trưng (38)
      • 3.3.11. Dự đoán của mô hình (39)
  • CHƯƠNG 4. KẾT LUẬN VÀ KIẾN NGHỊ (12)
    • 4.1. Áp dụng thực tế (42)
      • 4.1.2. Lợi ích đạt được (42)
      • 4.1.3. Ứng dụng (42)
    • 4.2. Kết luận (43)
  • TÀI LIỆU THAM KHẢO........................................................................................................43 (44)

Nội dung

Việc tiếp tục nghiên cứu và phát triển các phương pháp mới để đối phó với các cuộc tấn công này là điều cần thiết để bảo vệ an toàn thông tin và tài sản của người dùng trên mạng.. Các cu

TỔNG QUAN

Lý do chọn đề tài

Trong thời đại số hóa hiện nay, Internet đã trở thành một phần thiết yếu của cuộc sống, mang lại nhiều tiện ích và cơ hội cho người dùng từ giao dịch tài chính, mua sắm trực tuyến, đến việc trao đổi thông tin Tuy nhiên, cùng với sự phát triển vượt bậc của công nghệ là sự gia tăng không ngừng của các mối đe dọa an ninh mạng, đặc biệt là các cuộc tấn công lừa đảo (phishing) Những cuộc tấn công này ngày càng trở nên phổ biến và tinh vi, gây ra hậu quả nghiêm trọng cho cả cá nhân và tổ chức

Tấn công lừa đảo không chỉ gây thiệt hại về tài chính mà còn làm mất uy tín và niềm tin của người dùng đối với các dịch vụ trực tuyến Đối với các tổ chức, thiệt hại từ các cuộc tấn công này có thể dẫn đến mất mát dữ liệu quan trọng, ảnh hưởng tiêu cực đến danh tiếng và thương hiệu Các phương pháp bảo mật truyền thống như phần mềm diệt virus và tường lửa đã không còn đủ hiệu quả để đối phó với những phương thức tấn công ngày càng phức tạp và tinh vi của tin tặc Do đó, việc phát triển các giải pháp mới, tiên tiến hơn là điều cần thiết.

Với những lý do trên, chúng em cho rằng đề tài “Phát hiện website lừa đảo dựa trên URL” là một lựa chọn đúng đắn và cấp thiết Nghiên cứu này không chỉ giải quyết các vấn đề thực tiễn mà còn đóng góp vào sự phát triển của lĩnh vực an ninh mạng, bảo vệ người dùng và các tổ chức trước các mối đe dọa ngày càng gia tăng từ Internet Việc tiếp tục nghiên cứu và phát triển các phương pháp mới để đối phó với các cuộc tấn công này là điều cần thiết để bảo vệ an toàn thông tin và tài sản của người dùng trên mạng.

Giới thiệu

Tấn công lừa đảo (phishing) là một trong những hình thức tấn công mạng phổ biến và nguy hiểm nhất Tấn công lừa đảo thường nhằm mục đích đánh cắp thông tin nhạy cảm của người dùng như thông tin đăng nhập, thông tin tài chính và dữ liệu cá nhân Các cuộc tấn công này thường được thực hiện thông qua các email giả mạo, tin nhắn, hoặc các trang web lừa đảo

Phương pháp phổ biến nhất là tạo ra các trang web giả mạo có giao diện giống hệt trang web thật của các tổ chức uy tín như ngân hàng, công ty thương mại điện tử, và dịch vụ email Người dùng khi truy cập vào những trang web này sẽ bị lừa nhập thông tin cá nhân và tài chính, từ đó kẻ tấn công có thể thu thập và sử dụng thông tin này cho các hoạt động phạm pháp Đôi khi, những kẻ tấn công thực hiện các cuộc tấn công lừa đảo để phát tán phần mềm độc hại qua mạng Có nhiều loại tấn công lừa đảo khác nhau:

Hình 1 1 Các loại tấn công lừa đảo.

Các cuộc tấn công lừa đảo có nhiều hình thức và thường liên quan đến nhiều kênh liên lạc khác nhau, chẳng hạn như email, tin nhắn tức thời, mã phản hồi nhanh (QR) và phương tiện truyền thông xã hội Những kẻ tấn công thường giả mạo các ngân hàng nổi tiếng, đại lý thẻ tín dụng hoặc các trang web thương mại điện tử nổi tiếng để đe dọa hoặc thuyết phục người dùng đăng nhập vào trang web lừa đảo và cung cấp thông tin đăng nhập

Ví dụ: người dùng có thể nhận được tin nhắn cho biết có vấn đề với tài khoản ngân hàng của họ, người dùng nhấp vào link và được chuyển hướng đến trang web giống hệt với trang web của ngân hàng Khách hàng điền thông tin đăng nhập của họ mà không do dự từ đó rơi vào bẫy của những kẻ tấn công Tội phạm theo dõi dữ liệu này và khai thác nó để truy cập vào tài khoản hợp pháp của người dùng.

Thực trạng các trang web lừa đảo

Internet như một con dao hai lưỡi, mang đến vô số lợi ích cho đời sống con người trong mọi lĩnh vực, từ thông tin, giải trí đến mua sắm, giao dịch Tuy nhiên, bên cạnh những mặt tích cực, nó cũng tiềm ẩn nhiều nguy cơ, đặc biệt là vấn nạn lừa đảo trực tuyến thông qua các trang web giả mạo.

Trên thế giới, theo số liệu báo cáo của tổ chức APWG (Anti Phishing Working Group) [2] Trong quý đầu tiên của năm 2022 APWG OpSec Security báo cáo rằng các cuộc tấn công lừa đảo chống lại lĩnh vực tài chính, bao gồm các ngân hàng, chiếm 23,6% tổng số lừa đảo Các cuộc tấn công chống lại các nhà cung cấp dịch vụ webmail và phần mềm dưới dạng dịch vụ (SAAS) vẫn còn phổ biến, trong khi các cuộc tấn công vào các trang web bán lẻ / thương mại điện tử giảm từ 17,3% xuống còn 14,6% sau mùa mua sắm cuối năm Lừa đảo chống lại các dịch vụ truyền thông xã hội đã tăng lên rõ rệt, từ 8,5% tổng số cuộc tấn công trong quý 4/2021 lên 12,5% trong quý

1/2022 Lừa đảo chống lại các mục tiêu tiền điện tử như sàn giao dịch tiền điện tử và nhà cung cấp ví đã lên từ 6,5 trong quý trước lên 6,6% các cuộc tấn công.

Hình 1 2 Biểu đồ thể hiện số lượng các cuộc tấn công lừa đảo 04/2021-03/2022.

Còn ở Việt Nam theo tổng hợp của NCS [3], năm 2023 đã ghi nhận 13.900 vụ tấn công mạng vào các tổ chức tại Việt Nam, trung bình mỗi tháng xảy ra 1.160 vụ NCS chỉ ra Top 3 điểm yếu bị tấn công nhiều nhất tại Việt Nam năm 2023 Tỷ lệ cao nhất là điểm yếu con người, chiếm 32,6% tổng số vụ việc Theo đó hacker sử dụng email giả mạo (phishing) có file đính kèm mã độc dưới dạng file văn bản hoặc nội dung có đường link đăng nhập giả mạo để chiếm tài khoản, kiểm soát máy tính người dùng từ xa.

Khi tạo ra một trang web lừa đảo, các đối tượng tội phạm nhanh chóng tạo ra hàng nghìn biến thể URL khác nhau trước khi phát tán đến người dùng Do đó, khi truy cập vào các địa chỉ này, người dùng đều bị điều hướng đến cùng một trang web lừa đảo Qua đó, dễ dàng nhận thấy số lượng trang web lừa đảo gia tăng liên tục trong những năm gần đây mà không có dấu hiệu chững lại Điều này gây ra những thiệt hại nặng nề cho nền kinh tế thế giới nói chung và những nguy cơ mất an toàn thông tin nói riêng đối với các tổ chức, doanh nghiệp và đặc biệt là với cá nhân. Để thực hiện thành công hành vi lừa đảo, đối tượng tấn công sẽ tiến hành những cách thức như sau.

Hình 1 3 Cách bước tấn công lừa đảo

Tạo trang web giả mạo: Kẻ tấn công tạo ra một trang web có giao diện và tương tác giống hệt trang web gốc Sử dụng các yếu tố như logo, bố cục và nội dung của trang web thật để đánh lừa người dùng.

Gửi mail cho người dùng: Kẻ tấn công soạn email với nhiều nội dung gây tò mò, kích thích người dùng, ví dụ: Cập nhật thông tin tài khoản ngân hang, Khai báo thông tin cá nhân tham gia trúng thưởng, Gửi hàng loạt email đến người dung khuyến khích họ nhấp vào liên kết dẫn đến trang web giả mạo.

Người dùng truy cập vào URL độc hại: Người dùng không nhận ra URL độc hại trong email và nhấp chuột vào Họ bị chuyển hướng đến trang web giả mạo do kẻ tấn công tạo ra.

Người dùng nhập thông tin nhạy cảm: Trên trang web giả mạo, người dùng bị lừa nhập các thông tin nhạy cảm như: Tên đăng nhập, Mật khẩu, Mã số thẻ tín dụng, Thông tin cá nhân khác

Kẻ tấn công đã có được thông tin người dùng: Sau khi thu thập thông tin nhạy cảm, kẻ tấn công sử dụng chúng cho các mục đích bất hợp pháp như: Bán dữ liệu người dung, Thực hiện giao dịch gian lận, Rửa tiền

Mục tiêu nghiên cứu

Dự án này hướng tới lĩnh vực an ninh mạng và trong đó sẽ phát triển một mô hình phát hiện URL độc hại bằng cách sử dụng học máy, em sẽ tìm hiểu cách có thể phát hiện tự động các URL độc hại có nghĩa là các URL bị xâm phạm bởi tin tặc hoặc được sử dụng cho tội phạm mạng hoặc tấn công mạng.

Trong nghiên cứu này em sẽ tập trung vào việc phát hiện các URL độc hại dưới dạng bài toán phân loại đa lớp Chúng em sẽ phân loại các URL gốc thành các loại khác nhau, bao gồm URL an toàn (lành tính), URL lừa đảo (phishing), URL chứa phần mềm độc hại (malware) hoặc URL bị thay đổi giao diện (defacement).

Tổng quan về phân loại các URL

URL lành tính: Đây là những URL an toàn để truy cập.

URL lừa đảo (Phishing): Bằng cách tạo URL lừa đảo, tin tặc cố gắng đánh cắp thông tin cá nhân hoặc tài chính nhạy cảm như thông tin đăng nhập, số thẻ tín dụng, chi tiết ngân hàng trực tuyến, v.v

URL chứa phần mềm độc hại (Malware): Loại URL này sẽ tiêm phần mềm độc hại vào hệ thống của nạn nhân khi họ truy cập

URL bị thay đổi giao diện (Defacement): URL bị thay đổi giao diện thường được tin tặc tạo ra với mục đích đột nhập vào một máy chủ web và thay thế trang web được lưu trữ bằng trang web của riêng chúng, bằng các kỹ thuật như tiêm mã, kịch bản

Quy trình dự án

Vì các thuật toán học máy chỉ hỗ trợ đầu vào dạng số, chúng em sẽ tạo các đặc trưng từ vựng (lexical features) dạng số từ các URL đầu vào Do đó, đầu vào cho các thuật toán học máy sẽ là các đặc trưng từ vựng dạng số thay vì URL gốc

Trong nghiên cứu này em sẽ sử dụng ba bộ phân loại học máy tổng hợp là Random Forest, Light GBM (Gradient Boosting Machine) và XGBoost (Extreme Gradient Boosting).

Sau đó, em cũng sẽ so sánh hiệu suất của chúng và vẽ biểu đồ tầm quan trọng của các đặc trưng để hiểu đặc trưng nào đóng vai trò quan trọng trong việc dự đoán cácURL độc hại.

Cấu trúc đồ án

CƠ SỞ LÝ THUYẾT

Khái niệm

Trước khi tìm hiểu về URL độc hại, trước tiên chúng ta phải hiểu rằng URL về cơ bản là một công cụ định vị tài nguyên thống nhất, nó là địa chỉ mà chúng ta có thể xác định tài nguyên bên trong đầu vào URL là địa chỉ duy nhất có định dạng có cấu trúc được xác định rõ ràng để truy cập các trang web qua World Wide Web (WWW).

Hình 2 1 Các thành phần của URL.

Nói chung, có ba thành phần cơ bản tạo nên một URL a) Protocol (Giao thức): về cơ bản, nó là một định danh xác định giao thức nào sẽ sử dụng, ví dụ: HTTP, HTTPS, v.v. b) Host name (Tên máy chủ): còn được gọi là resource name (tên tài nguyên)

Nó chứa địa chỉ IP hoặc tên miền nơi đặt tài nguyên thực tế. c) Path (Đường dẫn): Nó chỉ định đường dẫn thực tế nơi đặt tài nguyên

Theo hình 2.1 google.com.vn là tên miền Tên miền cấp cao nhất là một thành phần khác của tên miền cho biết bản chất của trang web, tức là mạng lưới (.net), giáo dục (.edu), tổ chức (.edu), thương mại (.com), cơ quan chính phủ (.gov) v.v.

2.1.2 URL độc hại là gì?

Các URL đã sửa đổi hoặc bị xâm phạm được sử dụng cho các cuộc tấn công mạng được gọi là URL độc hại.

Một URL hoặc trang web độc hại thường chứa các loại trojan, phần mềm độc hại, nội dung không mong muốn khác nhau dưới dạng lừa đảo, tự động tải xuống, thư rác.

Mục tiêu chính của trang web độc hại là gian lận hoặc đánh cắp thông tin cá nhân hoặc tài chính của những người dùng Theo Báo cáo mối đe dọa bảo mật Internet (ISTR) 2019 của Symantec [6], URL độc hại là một kỹ thuật được sử dụng nhiều trong tội phạm mạng.

Random Forest

Random Forest (Rừng ngẫu nhiên) là một thuật toán học máy có giám sát (supervised learning) được sử dụng phổ biến trong các bài toán phân loại và hồi quy Thuật toán này hoạt động bằng cách xây dựng một tập hợp lớn các cây quyết định (decision tree) và sử dụng kết quả dự đoán của tập hợp này để đưa ra dự đoán cuối cùng.

Giải thuật học máy rừng ngẫu nhiên (Random Forests - RF[9]) thực hiện huấn luyện mô hình phân lớp (Hình 2.2) qua các bước chính như sau:

 Chuẩn bị tập dữ liệu ta có m là số lượng phần tử trong tập dữ liệu huấn luyện, n là số lượng biến (thuộc tính) trong mỗi phần tử dữ liệu

 Xây dựng rừng cây: T là cây quyết định trong rừng Mô hình cây quyết định thứ T được xây dựng trên tập mẫu Bootstrap thứ T lấy ngầu nhiên m phần tử có hoàn lại từ tập dữ liệu huấn luyện để tạo thành một tập con T tập con độc lập được tạo ra cho T cây quyết định Mỗi cây quyết định được xây dựng từ đầu trên tập con tương ứng Tại mỗi nút trong cây, chọn ngẫu nhiên n’ biến (n’

Ngày đăng: 03/06/2024, 14:06

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[9] L. Breiman, "Random Forests," in Machine Learning, vol. 45, California, Statistics DepartmentUniversity of CaliforniaBerkeley, 2001, pp. 5-32 Sách, tạp chí
Tiêu đề: Random Forests
[1] 90% lượng website lừa đảo bị chặn trong tháng 8 (dangcongsan.vn) Khác
[2] APWG | APWG 1Q 2022: Phishing Reaches Record High; APWG Observes One Million Attacks Within the Quarter – For the First Time – in the First Quarter of 2022 Khác
[3] Tổng kết An ninh mạng Việt Nam năm 2023 và dự báo 2024 – NCS – Công ty Cổ phần Công nghệ An ninh mạng Quốc gia Việt Nam (ncsgroup.vn) Khác
[4] Bài toán phân lớp và các phương pháp đánh giá | Quy's blog (ndquy.github.io) [5] Malicious URLs dataset (kaggle.com) Khác
[8] Luận văn kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa đảo (123docz.net) Khác
[10] Quan điểm của Ứng dụng thuật toán học máy LightGBM cho bài toán hồi quy ước lượng khả năng chịu tải của giàn thép sử dụng phân tích trực tiếp (vjol.info.vn) Khác

HÌNH ẢNH LIÊN QUAN

Hình 1. 1. Các loại tấn công lừa đảo. - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 1. 1. Các loại tấn công lừa đảo (Trang 8)
Hình 1. 2. Biểu đồ thể hiện số lượng các cuộc tấn công lừa đảo 04/2021-03/2022. - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 1. 2. Biểu đồ thể hiện số lượng các cuộc tấn công lừa đảo 04/2021-03/2022 (Trang 9)
Hình 1. 3. Cách bước tấn công lừa đảo - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 1. 3. Cách bước tấn công lừa đảo (Trang 10)
Hình 2. 1. Các thành phần của URL. - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 2. 1. Các thành phần của URL (Trang 13)
Hình 2. 3. quá trình học của thuật toán GTB - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 2. 3. quá trình học của thuật toán GTB (Trang 17)
Bảng 2. 2. Các đặc trưng được trích chọn sử dụng để xây dựng mô hình - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Bảng 2. 2. Các đặc trưng được trích chọn sử dụng để xây dựng mô hình (Trang 20)
Bảng 2. 1.  Bảng so sánh chung các thuật toán - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Bảng 2. 1. Bảng so sánh chung các thuật toán (Trang 20)
Hình 3. 2. Wordcloud của phishing URL. - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 2. Wordcloud của phishing URL (Trang 22)
Hình 3. 1. Wordcloud của URL an toàn. - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 1. Wordcloud của URL an toàn (Trang 22)
Hình 3. 3. Wordcloud của Malware URL. - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 3. Wordcloud của Malware URL (Trang 23)
Hình 3. 4. Wordcloud của Defacement URL. - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 4. Wordcloud của Defacement URL (Trang 24)
Bảng 3. 1. Thông tin kỹ thuật sử dụng trong chương trình thực nghiệm. - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Bảng 3. 1. Thông tin kỹ thuật sử dụng trong chương trình thực nghiệm (Trang 24)
Hình 3. 5. import các thư viện - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 5. import các thư viện (Trang 25)
Hình 3. 27. Hiện thị kết quả tập dữ liệu - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 27. Hiện thị kết quả tập dữ liệu (Trang 32)
Hình 3. 28. Use_of_IP_Address - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 28. Use_of_IP_Address (Trang 32)
Hình 3. 30. Short_url - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 30. Short_url (Trang 33)
Hình 3. 29. Abnormal_url - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 29. Abnormal_url (Trang 33)
Hình 3. 31. Suspicious_urls - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 31. Suspicious_urls (Trang 34)
Hình 3. 33. Phân tách biến đặc trưng và biến mục tiêu - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 33. Phân tách biến đặc trưng và biến mục tiêu (Trang 36)
Hình 3. 35. Random Forest Classifier - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 35. Random Forest Classifier (Trang 37)
Hình 3. 38. Hiệu suất của Light GBM, XGBoost và Random Forest - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 38. Hiệu suất của Light GBM, XGBoost và Random Forest (Trang 38)
Hình 3. 39.  Biểu đồ tầm quan trọng của đặc trưng - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 39. Biểu đồ tầm quan trọng của đặc trưng (Trang 39)
Hình 3. 40. Hàm main - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 40. Hàm main (Trang 40)
Hình 3. 41. Sử dụng kết quả phân tích URL từ hàm main dể đưa vào mô hình lbg dự - đồ án cơ sở phát hiện website lừa đảo dựa trên url
Hình 3. 41. Sử dụng kết quả phân tích URL từ hàm main dể đưa vào mô hình lbg dự (Trang 41)
w