Các phương pháp phát hiện web độc hại

Một phần của tài liệu đồ án phát hiện và ngăn chặn quảng cáo độc hại dựa vào url (Trang 28 - 30)

Có rất nhiều phương pháp truyền thống phát hiện web độc hại như phương pháp danh sách đen (blacklisting) [1] hay phương pháp phân tích nội dung [2][3]. Các phương pháp này đều đã được chứng minh là hiệu quả. Tuy nhiên, sự bùng nổ của Internet khiến cho các phương pháp cũ này ít phát huy tác dụng hơn. Nhiều nghiên cứu đã tìm đến các phương pháp mới, hiệu quả hơn, phù hợp với thực tế hơn, và trong đó có phương pháp phát hiện dựa vào URL. Trong phần này, chúng ta cùng nhìn lại các phương pháp phát hiện web độc hại cũ, và đồng thời cũng đề cập đến một phương pháp được phát triển cực kỳ mạnh mẽ trong những năm trở lại đây, đó chính là phương pháp phát hiện dựa trên URL.

Phương pháp danh sách đen

Phương pháp danh sách đen (blacklisting) là một trong những kỹ thuật phổ biến nhất được triển khai rộng rãi trong công cụ của các trình duyệt web, trong các ứng dụng bộ lọc web, và trong các máy tìm kiếm…Trong phương pháp này, một dịch vụ của bên thứ 3 biên dịch các website tên là “known bad” ( tên này có được từ kết hợp của thông tin phản hồi của người dùng, bọ phân tích web, và phân tích heuristic của nội dung website ) và phân phối danh sách đến các người dùng của nó [1].

Ưu điểm của phương pháp danh sách đen là tối ưu quá trình truy vấn, chỉ cần truy vấn URL nằm trong danh sách.

21

Nhược điểm của phương pháp danh sách đen là danh sách này là một danh sách không đầy đủ, mà nó cần được cập nhật liên tục. Do đó, người dùng có thể nhấp chuột vào URL độc hại trước khi nó xuất hiện trong danh sách đen.

Phương pháp phân tích nội dung

Đối với các phương pháp phân tích nội dung thường mất rất nhiều nỗ lực tính toán mà chưa kể tải băng thông để lấy nội dung trước khi phân tích. Một số hệ thống cũng đánh chặn và phân tích đầy đủ nội dung website trước khi nó được tải về [2].

Ưu điểm của phương pháp phân tích nội dung là có thể phát hiện ra các trang web không muốn truy cập với độ chính xác cao.

Nhược điểm của phương pháp này là nó phải gánh chịu thời gian chạy cao hơn so với phương pháp danh sách đen, do phải tải nội dung về rồi phân tích tốn nhiều thời gian và băng thông hơn phương pháp danh sách đen.

Phương pháp dựa vào URL

Phương pháp phát hiện dựa vào URL [2][3][4] đang ngày càng phát triển trong những năm trở lại đây. Phương pháp này cho phép chỉ cần dựa trên URL lành tính có thể phát hiện ra những URL độc hại. Thông thường các URL được thiết kế bởi các nhà thiết kế trang web, mỗi nhà thiết kế trang web lại có sở thích, cách sử dụng của mình để chọn tên miền, rồi sau đó xây dựng các cấu trúc tập tin dưới tên miền. URL của một số trang web được thiết kế theo cách đặc biệt, nhưng chưa hẳn đã là các Web độc hại. Thường thì các trang web độc hại được tạo ra bởi các quy tắc và thủ tục được xác định trước. Do vậy mà một lượng lớn các URL độc hại đã được tạo ra từ các luật đó trong thời gian ngắn. Dựa vào thủ tục đặt tên khác nhau giữa các URL lành tính và các URL độc hại mà có thể tìm thấy sự khác nhau của 2 nhóm này.

Phương pháp này là một cách tiếp cận khác với những phương pháp đã từng tồn tại. Theo đó, phương pháp này phân tích URL của chính nó để khẳng định nó có chứa nội dung không mong muốn hay không. Đặc biệt, phương pháp này đưa ra dự đoán với URL chỉ dựa trên tính năng từ vựng và máy chủ của URL mà không cần kiểm tra nội dung thực tế của trang web. Một đóng góp quan trọng của phương pháp này là chỉ cần dựa vào nguồn thông tin dồi dào từ tính năng từ vựng và máy chủ của URL có thể xác định được web độc hại. Một hệ thống tốt có thể chiết xuất và phân loại được hàng triệu URL.

22

Ưu điểm của phương pháp phát hiện web độc hại dựa trên URL đó là cải thiện hiệu suất của phương pháp danh sách đen, hệ thống tải nhẹ hơn, chi phí thấp hơn so với hệ thống tải của phương pháp phân tích nội dung.

Đồng thời phương pháp này còn có một số ưu điểm khác:

 Phương pháp này có thể thành công tách biệt URL độc hại từ các URL lành tính

 Phương pháp này không cần có sự hiểu biết trước về cấu trúc các URL, chẳng hạn làm thế nào để phân tích URL dựa vào tên miền, đường…  Phương pháp này có thể làm việc và sử dụng một cách độc lập như một

phép đo. Mặt khác, nó cũng có thể kết hợp với các phương pháp, tính năng hữu ích để đạt được hiệu quả tốt hơn.

 Phương pháp này tính toán rất hiệu quả, có thể đạt được trên dưới một triệu URL trong vòng vài phút.

Chính những ưu điểm đáng kể trên của phương pháp phát hiện web độc hại dựa trên URL, mà khóa luận này quyết định kế thừa phương pháp đã được chứng minh, thử nghiệm, để áp dụng trong khóa luận này.

Một phần của tài liệu đồ án phát hiện và ngăn chặn quảng cáo độc hại dựa vào url (Trang 28 - 30)

Tải bản đầy đủ (PDF)

(49 trang)