Kỹ thuật lọc web Blue Coat

Một phần của tài liệu Mô hình maximum entropy và ứng dụng (Trang 47 - 49)

Kỹ thuật lọc web Blue Coat là một giải pháp lọc nội dung web thơng qua một “proxy”. Nĩ giúp cho các tổ chức kinh doanh cũng như các nhà cung cấp các dịch vụ mạng bảo vệ cho những người dùng và hệ thống của họ khỏi những mối đe dọa tới từ

Internet. Những mối đe dọa cĩ thể là các phần mềm gián điệp (spyware), các vụ tấn cơng lừa đảo...

Blue Coat bao gồm hơn 15 triệu các phạm trù, đại diện cho hàng tỉ các trang web, được sắp xếp theo các phạm trù hữu ích nhất. Để đảm bảo độ chính xác, mỗi trang web cĩ thể được phân thành nhiều phạm trù, nĩ cũng cho phép khách hàng xác định một số lượng khơng hạn chế các phạm trù được cho phép truy cập hay bị chặn để phù hợp với từng yêu cầu cụ thể (ví dụ như chặn các trang web được phân loại là thể thao hoặc vi tính). Đối với những trang web chưa được phân loại vào các phạm trù ở trên, thì việc cho phép hay chặn dựa trên kỹ thuật Dynamic Real-Time Rating (DRTR) là một kỹ thuật phân loại các trang web khi người dùng cố gắng truy cập.

Độ bao phủ của cơ sở dữ liệu:

Độ bao phủ của cơ sở dữ liệu là khả năng xác định trang web được phân loại vào một phạm trù nhất định. Để đánh giá độ bao phủ của cơ sở dữ liệu chúng ta xét ví dụ sau: Trong số 100 trang web thuộc phạm trù thể thao được sử dụng để đánh giá độ bao phủ của cơ sở dữ liệu. Với cơ sở dữ liệu đĩ, nĩ phân loại bao nhiêu trang web vào phạm trù thể thao. Khi đĩ số lượng những trang web được phân loại đúng càng cao thì độ bao phủ của cơ sở dữ liệu đĩ càng lớn.

Để cĩ độ bao phủ của cơ sở dữ liệu, bộ lọc web phải cĩ khả năng sau:

 Đánh giá tên miền (thay vì url hay địa chỉ ip) khi thích hợp:

Một tên miền cá nhân cĩ thể cĩ hàng ngàn các url. Url mới cĩ thể được thêm vào các phạm trù (trong cơ sở dữ liêu) hàng ngày. Đối với các tên miền đồng nhất, thì việc đánh giá theo tên miền sẽ cĩ nhiều lợi ích hơn so với url hay ip. Bằng cách đánh giá theo tên miền, tất cả những url mới được thêm vào tên miền trên ngay lập tức được kiểm sốt.

 Tỷ lệ các trang web tập hợp được chủ yếu từ yêu cầu của người sử dụng: Khơng nhà cung cấp nào cĩ thể đánh giá được tất cả 16 tỷ các trang web và cũng khơng cần thiết phải làm điều đĩ. Một tỷ lệ lớn các trang web này cĩ thể đã khơng cịn tồn tại. Blue Coat ưu tiên những trang web mà người dùng truy cập đã được phân loại trong cơ sở dữ liệu. Điều này được được thực hiện bởi kỹ thuật Dynamic Real-Time Rating (DRTR). Sau những lần truy

cập và phân tích các trang web. Những thơng tin đĩ sẽ được cập nhập cho cơ sở dữ liệu.

 Cập nhập cơ sở dữ liệu:

Như đã nĩi ở trên, để tăng hiệu quả về mặt thời gian thực Blue Coat sẽ tự động cập nhập những thơng tin đã được phân tích của các trang web sau khi người dùng truy cập. Những dữ liệu cập nhập này được gọi là cơ sở dữ liệu địa phương. Chúng được cập nhập thường xuyên để đảm bảo các trang web đĩ vẫn cịn hoạt động bình thường. Tính năng này giống như việc cập nhập giá cả.

Một phần của tài liệu Mô hình maximum entropy và ứng dụng (Trang 47 - 49)