Kỹ thuật lọc web Blue Coat 39

Một phần của tài liệu LUẬN VĂN: MÔ HÌNH MAXIMUM ENTROPY pdf (Trang 47 - 48)

Kỹ thuật lọc web Blue Coat là một giải pháp lọc nội dung web thông qua một “proxy”. Nó giúp cho các tổ chức kinh doanh cũng như các nhà cung cấp các dịch vụ

mạng bảo vệ cho những người dùng và hệ thống của họ khỏi những mối đe dọa tới từ

Internet. Những mối đe dọa có thể là các phần mềm gián điệp (spyware), các vụ tấn công lừa đảo...

Blue Coat bao gồm hơn 15 triệu các phạm trù, đại diện cho hàng tỉ các trang web,

được sắp xếp theo các phạm trù hữu ích nhất. Đểđảm bảo độ chính xác, mỗi trang web có thểđược phân thành nhiều phạm trù, nó cũng cho phép khách hàng xác định một số

lượng không hạn chế các phạm trù được cho phép truy cập hay bị chặn để phù hợp với từng yêu cầu cụ thể (ví dụ như chặn các trang web được phân loại là thể thao hoặc vi tính). Đối với những trang web chưa được phân loại vào các phạm trù ở trên, thì việc cho phép hay chặn dựa trên kỹ thuật Dynamic Real-Time Rating (DRTR) là một kỹ

thuật phân loại các trang web khi người dùng cố gắng truy cập.

Độ bao phủ của cơ sở dữ liệu:

Độ bao phủ của cơ sở dữ liệu là khả năng xác định trang web được phân loại vào một phạm trù nhất định. Để đánh giá độ bao phủ của cơ sở dữ liệu chúng ta xét ví dụ

40

phủ của cơ sở dữ liệu. Với cơ sở dữ liệu đó, nó phân loại bao nhiêu trang web vào phạm trù thể thao. Khi đó số lượng những trang web được phân loại đúng càng cao thì độ bao phủ của cơ sở dữ liệu đó càng lớn.

Để có độ bao phủ của cơ sở dữ liệu, bộ lọc web phải có khả năng sau:

¾ Đánh giá tên miền (thay vì url hay địa chỉ ip) khi thích hợp:

Một tên miền cá nhân có thể có hàng ngàn các url. Url mới có thể được thêm vào các phạm trù (trong cơ sở dữ liêu) hàng ngày. Đối với các tên miền đồng nhất, thì việc đánh giá theo tên miền sẽ có nhiều lợi ích hơn so với url hay ip. Bằng cách đánh giá theo tên miền, tất cả những url mới được thêm vào tên miền trên ngay lập tức được kiểm soát.

¾ Tỷ lệ các trang web tập hợp được chủ yếu từ yêu cầu của người sử dụng: Không nhà cung cấp nào có thểđánh giá được tất cả 16 tỷ các trang web và cũng không cần thiết phải làm điều đó. Một tỷ lệ lớn các trang web này có thểđã không còn tồn tại. Blue Coat ưu tiên những trang web mà người dùng truy cập đã được phân loại trong cơ sở dữ liệu. Điều này được được thực hiện bởi kỹ thuật Dynamic Real-Time Rating (DRTR). Sau những lần truy cập và phân tích các trang web. Những thông tin đó sẽ được cập nhập cho cơ sở dữ liệu.

¾ Cập nhập cơ sở dữ liệu:

Nhưđã nói ở trên, để tăng hiệu quả về mặt thời gian thực Blue Coat sẽ tựđộng cập nhập những thông tin đã được phân tích của các trang web sau khi người dùng truy cập. Những dữ liệu cập nhập này được gọi là cơ sở dữ liệu địa phương. Chúng được cập nhập thường xuyên để đảm bảo các trang web đó vẫn còn hoạt động bình thường. Tính năng này giống như việc cập nhập giá cả.

Một phần của tài liệu LUẬN VĂN: MÔ HÌNH MAXIMUM ENTROPY pdf (Trang 47 - 48)

Tải bản đầy đủ (PDF)

(60 trang)