2.3. Các kỹ thuật lọc nội dung thông tin qua giao dịch web:
2.3.3 Lọc chọn nội dung PICS
2.3.3.1. Khái niệm
PICS (Platform for Internet Content Selection) là một cơ sở hạ tầng trên nền tiêu chuẩn mở để liên kết siêu dữ kiện (thông tin về thông tin) đối với nội dung Internet, cho phép hoặc ngăn cản truy xuất tới các địa chỉ URL, dựa theo các nhãn PICS mô tả chúng.
PICS đƣợc thiết kế để tạo điều kiện thuận lợi cho việc điều khiển lấy ngƣời nhận làm trung tâm trên Internet hơn là lấy ngƣời gửi làm trung tâm. Hơn thế, nó là một cơ chế để xây dựng và đánh giá các phần mềm lọc. Vì vậy kể từ khi ra đời nó đã đảm nhận vai trị của một phần mềm chủ chốt.
Bộ lọc dựa theo PICS kiểm tra nội dung của các trang siêu liên kết HTML trong một trang web đƣợc yêu cầu nào đó, để tìm ra các nhóm PICS và đi định dạng trong phần header của trang HTML. Đối với mỗi nhóm nhãn (xác định bởi địa chỉ URL), bộ lọc sẽ dịch nội dung nhãn sang kết quả hệ thống, bằng việc sử dụng file ánh xạ XML, nó kết hợp nội dung nhãn PICS với một miền kết quả. Kết quả thu đƣợc sau tiến trình này sẽ đƣợc chuyển sang modun kiểm soát (monitor) để chúng tiếp tục đƣợc đƣa vào modun quyết định. Cấu hình mỗi modun cho một loại PICS
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
cần một file đơn ánh XML. Trong hệ thống lọc, PICS là một cách lọc nội dung web có hiệu quả nhƣng vấn đề là khơng phải tất cả các trang web đều đƣợc gán nhãn.
Thƣờng có sự hiểu sai về PICS, nhƣ PICS có trách nhiệm về đánh giá nội dung. Tuy nhiên, PICS không đánh giá nội dung. PICS đơn giản cung cấp những phƣơng tiện kỹ thuật cho siêu dữ kiện (chẳng hạn: các nhãn, xếp hạng, lập danh mục những bản ghi, hay những chữ ký số hóa) sẽ đƣợc trao đổi với các bộ lọc hoặc các phần mềm khám phá tài nguyên.
Dạng lọc PICS gắn với thao tác phân loại dữ liệu một cách tự động. Đây là cách xác định nội dung trang web theo một tiêu chí nhất định, chẳng hạn nhƣ nó có chứa thơng tin xấu, đồi trụy, bạo lực, phản động... hay không. Phƣơng pháp phân loại sẽ dựa trên nhiều mức khác nhau, với độ phức tạp tăng dần từ từ khóa, cấu trúc, đến ngữ nghĩa của dữ liệu. Vì thế cơng việc này địi hỏi phải khảo sát công nghệ mới nhất hiện nay để tìm ra giải pháp thích hợp nhất, đảm bảo cả hai tiêu chí chất lƣợng và thời gian nhằm đảm bảo tính tức thời của thơng tin yêu cầu.
Phần mềm máy tính có thể thực hiện những sự điều khiển truy nhập dựa trên tất cả các nhân tố kể trên. Phần mềm sẽ chọn lọc trực tuyến giữa ngƣời nhận và tài liệu, kiểm tra nhãn để xác định nên chăng cho phép sự truy nhập tới một tài liệu cụ thể nào đó. Nó có thể cho phép những sự truy nhập cho một số ngƣời sử dụng nhƣng cịn những ngƣời khác thì khơng đƣợc phép, hay là cho phép vào những thời điểm nào đó, cịn các thời điểm khác thì khơng.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 2.3. Mơ hình phần mềm chọn lọc ngăn cản truy cập tới một số tài liệu khơng phù hợp cịn các tài liệu khác thì được phép.
2.3.3.2. Các đặc tả cơ bản nhất của PICS
Các đặc tả quan trọng nhất của PICS là:
1, Một cú pháp để mô tả một dịch vụ trị số danh nghĩa, nhờ đó những chƣơng trình máy tính có thể giới thiệu dịch vụ và những nhãn của nó tới những ngƣời sử dụng.
2, Một cú pháp cho nhãn, để những chƣơng trình máy tính có thể xử lý chúng. Một nhãn mô tả một tài liệu đơn lẻ hoặc một nhóm những tài liệu (ví dụ: một site). Một nhãn có thể bao gồm chữ ký số và một giá trị băm đã mã hóa của tài liệu tƣơng ứng.
3, Một danh sách những nhãn nhúng trong định dạng RFC - 822 và định dạng HTML.
4, Một mở rộng của giao thức HTTP, vì vậy những trình khách có thể u cầu rằng những nhãn phải đƣợc truyền với một tài liệu.
5, Một cú pháp truy vấn một cơ sở dữ liệu trực tuyến của các nhãn (gọi là một văn phòng nhãn).
Kết luận: PICS cung cấp một nền tảng ghi nhãn cho Internet. Bất kỳ
phần mềm tƣơng thích PICS nào cũng có thể giải thích những nhãn từ bất kỳ nguồn nào, bởi vì mỗi nguồn cung cấp một sự mơ tả đọc đƣợc bằng máy của những khía cạnh nó ghi nhãn. Tuy nhiên, để xây dựng một lƣợng lớn dữ liệu đƣợc gắn nhãn rất tốn thời gian và tiền bạc, trong khi dữ liệu chƣa gắn nhãn lại có rất nhiều trên internet và khơng tốn nhiều cơng sức để thu thập, vì vậy hiện nay có nhiều nghiên cứu tập trung vào sử dụng cả hai loại dữ liệu này để xây dựng mơ hình phân loại.