2.3. Các kỹ thuật lọc nội dung thông tin qua giao dịch web:
2.3.4. Kỹ thuật lọc và chặn nội dung dựa trên danh sách địa chỉ cấm (Lọc URL)
cấm (Lọc URL)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
URL viết tắt của cụm từ “Uniform Resource Locator” còn gọi là địa chỉ web, là địa chỉ của một tài nguyên mạng. Các URL bắt đầu bởi http://
Ví dụ: http://www.vidu.com/khoaluan/baiviet.htm + URL tuyệt đối: URL tuyệt đối là url bao gồm cả http://
Ví dụ: http://www.vidu.com/khoaluan/baiviet.htm
+ URL tƣơng đối: URL tƣơng đối là url mà khơng có http:// lấy một site làm cơ sở.
Ví dụ lấy http://www.vidu.com làm site cơ sở thì ta có một url tƣơng đối là:
/khoaluan/baiviet.htm
2.3.4.2. Ƣu điểm của phƣơng pháp lọc URL
Những cơ chế lọc URL có ƣu điểm là thời gian lọc rất nhanh. Thật ra, sự lọc URL sử dụng cơng nghệ đơn giản nhƣng có hiệu quả rất cao, điều đó giải thích tại sao tất cả các phần mềm lọc thƣơng mại ngày nay đều sử dụng một vài phƣơng thức lọc URL nào đó.
Cơng nghệ cơ bản đƣợc sử dụng là phân lớp URL thành hai lớp: một lớp danh sách URL đen, và một lớp URL trắng. Và hiển nhiên nếu URL nào rơi vào lớp danh sách đen thì chắc chắn nó sẽ bị cấm truy nhập cho dù dùng phƣơng thức truy nhập nào đi chăng nữa.
Các URL đƣợc chứa trong mã HTML dƣới 2 dạng: liên kết tĩnh (url tĩnh) và liên kết động (url động). Để có thể trích xuất đƣợc các URL trong mã trang HTML ta cần phải xử lý đƣợc 2 loại liên kết này.
2.3.4.3. Xử lý URL tĩnh
Ví dụ: Trong mã của trang a.html có đoạn
<a href=”http://www.vidu.com/b.html”>Chuyển sang trang b</a>
Nhƣ vậy khi ấn vào liên kết “Chuyển sang trang b” thi ta sẽ dịch chuyển sang trang b.html tƣơng ứng với URL tĩnh là
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Việc tìm các url trong mã HTML rất dễ dàng, ta chi cần tìm các thuộc tính href xem giá trị của nó là gì. Ví dụ ở đoạn mã trên ta xác định đƣợc giá trị url là http://www.vidu.com/b.html.
2.3.4.4. Xử lý URL động (do mã JavaScript sinh ra)
Liên kết động, là loại liên kết sinh ra sau khi có sự tƣơng tác giữa hành động của ngƣời dùng và trình duyệt, mà phần quyết định liên kết sinh ra là một đoạn mã (JavaScript). Ví dụ: <area shape="rect" coords="11,105,119,116" href="http://www.viettan.org/Yctha6nhachi nhtri.html" onMouseOver="popUp(’elMenu9’,event)" onMouseOut="popDown(’elMenu9’)">
Việc xác định liên kết động khá phức tạp, nó liên quan đến việc xử lý mã JavaScript.
Nhƣ ở đoạn mã ví dụ trên thuộc tính onMouseOver sẽ thực hiện khi ngƣời dùng để chuột trên vị trí toạ độ đã định trƣớc thì liên kết http://www.viettan.org/Yctha6nhachinhtri.html sẽ đƣợc tải.
Hiện nay trên mạng có một dự án mã nguồn mở xử lý rất hiệu quả các
liên kết động tại http://mozilla.org/js/ hoặc
http://www.bbassett.net/njs/.