Việc tiếp tục nghiên cứu và phát triển các phương pháp mới để đối phó với các cuộc tấn công này là điều cần thiết để bảo vệ an toàn thông tin và tài sản của người dùng trên mạng.. Các cu
TỔNG QUAN
Lý do chọn đề tài
Trong thời đại số hóa hiện nay, Internet đã trở thành một phần thiết yếu của cuộc sống, mang lại nhiều tiện ích và cơ hội cho người dùng từ giao dịch tài chính, mua sắm trực tuyến, đến việc trao đổi thông tin Tuy nhiên, cùng với sự phát triển vượt bậc của công nghệ là sự gia tăng không ngừng của các mối đe dọa an ninh mạng, đặc biệt là các cuộc tấn công lừa đảo (phishing) Những cuộc tấn công này ngày càng trở nên phổ biến và tinh vi, gây ra hậu quả nghiêm trọng cho cả cá nhân và tổ chức
Tấn công lừa đảo không chỉ gây thiệt hại về tài chính mà còn làm mất uy tín và niềm tin của người dùng đối với các dịch vụ trực tuyến Đối với các tổ chức, thiệt hại từ các cuộc tấn công này có thể dẫn đến mất mát dữ liệu quan trọng, ảnh hưởng tiêu cực đến danh tiếng và thương hiệu Các phương pháp bảo mật truyền thống như phần mềm diệt virus và tường lửa đã không còn đủ hiệu quả để đối phó với những phương thức tấn công ngày càng phức tạp và tinh vi của tin tặc Do đó, việc phát triển các giải pháp mới, tiên tiến hơn là điều cần thiết.
Với những lý do trên, chúng em cho rằng đề tài “Phát hiện website lừa đảo dựa trên URL” là một lựa chọn đúng đắn và cấp thiết Nghiên cứu này không chỉ giải quyết các vấn đề thực tiễn mà còn đóng góp vào sự phát triển của lĩnh vực an ninh mạng, bảo vệ người dùng và các tổ chức trước các mối đe dọa ngày càng gia tăng từ Internet Việc tiếp tục nghiên cứu và phát triển các phương pháp mới để đối phó với các cuộc tấn công này là điều cần thiết để bảo vệ an toàn thông tin và tài sản của người dùng trên mạng.
Giới thiệu
Tấn công lừa đảo (phishing) là một trong những hình thức tấn công mạng phổ biến và nguy hiểm nhất Tấn công lừa đảo thường nhằm mục đích đánh cắp thông tin nhạy cảm của người dùng như thông tin đăng nhập, thông tin tài chính và dữ liệu cá nhân Các cuộc tấn công này thường được thực hiện thông qua các email giả mạo, tin nhắn, hoặc các trang web lừa đảo
Phương pháp phổ biến nhất là tạo ra các trang web giả mạo có giao diện giống hệt trang web thật của các tổ chức uy tín như ngân hàng, công ty thương mại điện tử, và dịch vụ email Người dùng khi truy cập vào những trang web này sẽ bị lừa nhập thông tin cá nhân và tài chính, từ đó kẻ tấn công có thể thu thập và sử dụng thông tin này cho các hoạt động phạm pháp Đôi khi, những kẻ tấn công thực hiện các cuộc tấn công lừa đảo để phát tán phần mềm độc hại qua mạng Có nhiều loại tấn công lừa đảo khác nhau:
Hình 1 1 Các loại tấn công lừa đảo.
Các cuộc tấn công lừa đảo có nhiều hình thức và thường liên quan đến nhiều kênh liên lạc khác nhau, chẳng hạn như email, tin nhắn tức thời, mã phản hồi nhanh (QR) và phương tiện truyền thông xã hội Những kẻ tấn công thường giả mạo các ngân hàng nổi tiếng, đại lý thẻ tín dụng hoặc các trang web thương mại điện tử nổi tiếng để đe dọa hoặc thuyết phục người dùng đăng nhập vào trang web lừa đảo và cung cấp thông tin đăng nhập
Ví dụ: người dùng có thể nhận được tin nhắn cho biết có vấn đề với tài khoản ngân hàng của họ, người dùng nhấp vào link và được chuyển hướng đến trang web giống hệt với trang web của ngân hàng Khách hàng điền thông tin đăng nhập của họ mà không do dự từ đó rơi vào bẫy của những kẻ tấn công Tội phạm theo dõi dữ liệu này và khai thác nó để truy cập vào tài khoản hợp pháp của người dùng.
Thực trạng các trang web lừa đảo
Internet như một con dao hai lưỡi, mang đến vô số lợi ích cho đời sống con người trong mọi lĩnh vực, từ thông tin, giải trí đến mua sắm, giao dịch Tuy nhiên, bên cạnh những mặt tích cực, nó cũng tiềm ẩn nhiều nguy cơ, đặc biệt là vấn nạn lừa đảo trực tuyến thông qua các trang web giả mạo.
Trên thế giới, theo số liệu báo cáo của tổ chức APWG (Anti Phishing Working Group) [2] Trong quý đầu tiên của năm 2022 APWG OpSec Security báo cáo rằng các cuộc tấn công lừa đảo chống lại lĩnh vực tài chính, bao gồm các ngân hàng, chiếm 23,6% tổng số lừa đảo Các cuộc tấn công chống lại các nhà cung cấp dịch vụ webmail và phần mềm dưới dạng dịch vụ (SAAS) vẫn còn phổ biến, trong khi các cuộc tấn công vào các trang web bán lẻ / thương mại điện tử giảm từ 17,3% xuống còn 14,6% sau mùa mua sắm cuối năm Lừa đảo chống lại các dịch vụ truyền thông xã hội đã tăng lên rõ rệt, từ 8,5% tổng số cuộc tấn công trong quý 4/2021 lên 12,5% trong quý
1/2022 Lừa đảo chống lại các mục tiêu tiền điện tử như sàn giao dịch tiền điện tử và nhà cung cấp ví đã lên từ 6,5 trong quý trước lên 6,6% các cuộc tấn công.
Hình 1 2 Biểu đồ thể hiện số lượng các cuộc tấn công lừa đảo 04/2021-03/2022.
Còn ở Việt Nam theo tổng hợp của NCS [3], năm 2023 đã ghi nhận 13.900 vụ tấn công mạng vào các tổ chức tại Việt Nam, trung bình mỗi tháng xảy ra 1.160 vụ NCS chỉ ra Top 3 điểm yếu bị tấn công nhiều nhất tại Việt Nam năm 2023 Tỷ lệ cao nhất là điểm yếu con người, chiếm 32,6% tổng số vụ việc Theo đó hacker sử dụng email giả mạo (phishing) có file đính kèm mã độc dưới dạng file văn bản hoặc nội dung có đường link đăng nhập giả mạo để chiếm tài khoản, kiểm soát máy tính người dùng từ xa.
Khi tạo ra một trang web lừa đảo, các đối tượng tội phạm nhanh chóng tạo ra hàng nghìn biến thể URL khác nhau trước khi phát tán đến người dùng Do đó, khi truy cập vào các địa chỉ này, người dùng đều bị điều hướng đến cùng một trang web lừa đảo Qua đó, dễ dàng nhận thấy số lượng trang web lừa đảo gia tăng liên tục trong những năm gần đây mà không có dấu hiệu chững lại Điều này gây ra những thiệt hại nặng nề cho nền kinh tế thế giới nói chung và những nguy cơ mất an toàn thông tin nói riêng đối với các tổ chức, doanh nghiệp và đặc biệt là với cá nhân. Để thực hiện thành công hành vi lừa đảo, đối tượng tấn công sẽ tiến hành những cách thức như sau.
Hình 1 3 Cách bước tấn công lừa đảo
Tạo trang web giả mạo: Kẻ tấn công tạo ra một trang web có giao diện và tương tác giống hệt trang web gốc Sử dụng các yếu tố như logo, bố cục và nội dung của trang web thật để đánh lừa người dùng.
Gửi mail cho người dùng: Kẻ tấn công soạn email với nhiều nội dung gây tò mò, kích thích người dùng, ví dụ: Cập nhật thông tin tài khoản ngân hang, Khai báo thông tin cá nhân tham gia trúng thưởng, Gửi hàng loạt email đến người dung khuyến khích họ nhấp vào liên kết dẫn đến trang web giả mạo.
Người dùng truy cập vào URL độc hại: Người dùng không nhận ra URL độc hại trong email và nhấp chuột vào Họ bị chuyển hướng đến trang web giả mạo do kẻ tấn công tạo ra.
Người dùng nhập thông tin nhạy cảm: Trên trang web giả mạo, người dùng bị lừa nhập các thông tin nhạy cảm như: Tên đăng nhập, Mật khẩu, Mã số thẻ tín dụng, Thông tin cá nhân khác
Kẻ tấn công đã có được thông tin người dùng: Sau khi thu thập thông tin nhạy cảm, kẻ tấn công sử dụng chúng cho các mục đích bất hợp pháp như: Bán dữ liệu người dung, Thực hiện giao dịch gian lận, Rửa tiền
Mục tiêu nghiên cứu
Dự án này hướng tới lĩnh vực an ninh mạng và trong đó sẽ phát triển một mô hình phát hiện URL độc hại bằng cách sử dụng học máy, em sẽ tìm hiểu cách có thể phát hiện tự động các URL độc hại có nghĩa là các URL bị xâm phạm bởi tin tặc hoặc được sử dụng cho tội phạm mạng hoặc tấn công mạng.
Trong nghiên cứu này em sẽ tập trung vào việc phát hiện các URL độc hại dưới dạng bài toán phân loại đa lớp Chúng em sẽ phân loại các URL gốc thành các loại khác nhau, bao gồm URL an toàn (lành tính), URL lừa đảo (phishing), URL chứa phần mềm độc hại (malware) hoặc URL bị thay đổi giao diện (defacement).
Tổng quan về phân loại các URL
URL lành tính: Đây là những URL an toàn để truy cập.
URL lừa đảo (Phishing): Bằng cách tạo URL lừa đảo, tin tặc cố gắng đánh cắp thông tin cá nhân hoặc tài chính nhạy cảm như thông tin đăng nhập, số thẻ tín dụng, chi tiết ngân hàng trực tuyến, v.v
URL chứa phần mềm độc hại (Malware): Loại URL này sẽ tiêm phần mềm độc hại vào hệ thống của nạn nhân khi họ truy cập
URL bị thay đổi giao diện (Defacement): URL bị thay đổi giao diện thường được tin tặc tạo ra với mục đích đột nhập vào một máy chủ web và thay thế trang web được lưu trữ bằng trang web của riêng chúng, bằng các kỹ thuật như tiêm mã, kịch bản
Quy trình dự án
Vì các thuật toán học máy chỉ hỗ trợ đầu vào dạng số, chúng em sẽ tạo các đặc trưng từ vựng (lexical features) dạng số từ các URL đầu vào Do đó, đầu vào cho các thuật toán học máy sẽ là các đặc trưng từ vựng dạng số thay vì URL gốc
Trong nghiên cứu này em sẽ sử dụng ba bộ phân loại học máy tổng hợp là Random Forest, Light GBM (Gradient Boosting Machine) và XGBoost (Extreme Gradient Boosting).
Sau đó, em cũng sẽ so sánh hiệu suất của chúng và vẽ biểu đồ tầm quan trọng của các đặc trưng để hiểu đặc trưng nào đóng vai trò quan trọng trong việc dự đoán cácURL độc hại.
Cấu trúc đồ án
CƠ SỞ LÝ THUYẾT
Khái niệm
Trước khi tìm hiểu về URL độc hại, trước tiên chúng ta phải hiểu rằng URL về cơ bản là một công cụ định vị tài nguyên thống nhất, nó là địa chỉ mà chúng ta có thể xác định tài nguyên bên trong đầu vào URL là địa chỉ duy nhất có định dạng có cấu trúc được xác định rõ ràng để truy cập các trang web qua World Wide Web (WWW).
Hình 2 1 Các thành phần của URL.
Nói chung, có ba thành phần cơ bản tạo nên một URL a) Protocol (Giao thức): về cơ bản, nó là một định danh xác định giao thức nào sẽ sử dụng, ví dụ: HTTP, HTTPS, v.v. b) Host name (Tên máy chủ): còn được gọi là resource name (tên tài nguyên)
Nó chứa địa chỉ IP hoặc tên miền nơi đặt tài nguyên thực tế. c) Path (Đường dẫn): Nó chỉ định đường dẫn thực tế nơi đặt tài nguyên
Theo hình 2.1 google.com.vn là tên miền Tên miền cấp cao nhất là một thành phần khác của tên miền cho biết bản chất của trang web, tức là mạng lưới (.net), giáo dục (.edu), tổ chức (.edu), thương mại (.com), cơ quan chính phủ (.gov) v.v.
2.1.2 URL độc hại là gì?
Các URL đã sửa đổi hoặc bị xâm phạm được sử dụng cho các cuộc tấn công mạng được gọi là URL độc hại.
Một URL hoặc trang web độc hại thường chứa các loại trojan, phần mềm độc hại, nội dung không mong muốn khác nhau dưới dạng lừa đảo, tự động tải xuống, thư rác.
Mục tiêu chính của trang web độc hại là gian lận hoặc đánh cắp thông tin cá nhân hoặc tài chính của những người dùng Theo Báo cáo mối đe dọa bảo mật Internet (ISTR) 2019 của Symantec [6], URL độc hại là một kỹ thuật được sử dụng nhiều trong tội phạm mạng.
Random Forest
Random Forest (Rừng ngẫu nhiên) là một thuật toán học máy có giám sát (supervised learning) được sử dụng phổ biến trong các bài toán phân loại và hồi quy Thuật toán này hoạt động bằng cách xây dựng một tập hợp lớn các cây quyết định (decision tree) và sử dụng kết quả dự đoán của tập hợp này để đưa ra dự đoán cuối cùng.
Giải thuật học máy rừng ngẫu nhiên (Random Forests - RF[9]) thực hiện huấn luyện mô hình phân lớp (Hình 2.2) qua các bước chính như sau:
Chuẩn bị tập dữ liệu ta có m là số lượng phần tử trong tập dữ liệu huấn luyện, n là số lượng biến (thuộc tính) trong mỗi phần tử dữ liệu
Xây dựng rừng cây: T là cây quyết định trong rừng Mô hình cây quyết định thứ T được xây dựng trên tập mẫu Bootstrap thứ T lấy ngầu nhiên m phần tử có hoàn lại từ tập dữ liệu huấn luyện để tạo thành một tập con T tập con độc lập được tạo ra cho T cây quyết định Mỗi cây quyết định được xây dựng từ đầu trên tập con tương ứng Tại mỗi nút trong cây, chọn ngẫu nhiên n’ biến (n’