Phương pháp biểu diễn trang web

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh (Trang 30 - 32)

4. Phạm vi ứng dụng

2.1.2.3.Phương pháp biểu diễn trang web

Khác với một trang văn bản thông thường, trong nội dung một trang web còn có các chỉ dẫn (liên kết) ngoài tới các trang web khác với ý nghĩa là nội dung đang được nói tại trang web hiện thời cũng là 01 nội dung được quan tâm của trang web được chỉtới. Trong nhiều trường hợp, nội dung tại trang web được chỉ dẫn tới còn là 01 lời giải thích cho nội dung đang được quan tâm. Điều đó có nghĩa là, một chủ đề trong tập chủ đề của các trang web mà nó chỉ dẫn tới. Quan hệ “chủ đề cùng quan tâm”là đối xứng giữa hai trang web tồn tại một liên kết giữa chúng. Chính vì lý do đó, biểu diễn trang web có những điểm mở rộng so với biểu diễn thông thường. Những khía cạnh mở rộng đáng kể nhất của biểu diễn trang web so với biểu diễn văn bản thông thường gồm có việc mở rộng nội dung trang web từ các trang web kề cận nó và khai thác kiến thức trang web vào biểu diễn nó.

Khái niệm “kề cận”của hai trang web được hiểu theo nghĩa tồn tại ít nhất một liên kết giữa chúng. Việc mở rộng nội dung văn bản từ các văn bản kề cận nó xuất phát từ nhận định cho rằng, việc sử dụng các siêu liên kết có nguồn gốc từ sự liên quan vềnội dung giữa chúng.

Có 04 phương án xây dựng biểu diễn một trang web: – Nội bộ trang hiện thời

– Hợp không phân biệt nội dung trang hiện thời và kề cận – Hợp phân biệt nội dung trang hiện thời với trang kề cận – Tổng quát hóa của cách 3 với 4 mức kềcận

Trong 04 phương án trên thì

– Phương án đầu tiên chỉsửdụng nội dung trang web hiện thời

– Phương án hai dùng trộn nội dung trang web hiện thời với các kề cận của nó – Phương án ba biểu diễn trang web gồm hai phần: phần đầu sử dụng nội dung

trang web hiện thời, phần hai dùng nội dung của các trang web kềcận

– Phương án bốn là phương án tổng quát hóa của phương án thứ ba theo hướng số lượng mức được tăng lên từ 2 lên k. Trong biểu diễn loại này, cho

trước 01 mức k và 01 kho dữ liệu trang web. Biểu diễn trang web sẽ bao gồm k thành phần

Khai thác các yếu tố trong trang web được bổ sung từ ngôn ngữ tạo trang web

Khai thác các yếu tố trong trang web được bổ sung từ ngôn ngữ tạo trang web như các thẻ tạo trang web vào việc xác định các giá trị trọng số tương ứng với các từ. Vì lý do các thẻ HTML trong một trang web thường được gán 01 ý nghĩa nhất định. Do đó, việc khai thác các thẻ này sẽlàm cho biểu diễn của văn bản được giàu hơn

Ví dụ, cặp thẻ <title>…</title> được quy định là biểu diễn tiêu đề của nội dung trang web đề cập đến. Cặp thẻ đềmục <h1>…</h1>, <h2>…</h2>,…được qui định đểhiển thị các đềmục trong nội dung trang web

Tiêu đề và các đề mục thường nêu các ý chính, quan trọng của trang web. Do đó, có thể gán cho nội dung (các từ khóa xuất hiện) trong các cặp thẻ này có trọng số cao hơn so với các nội dung khác (các từkhóa ởcác vịtrí khác)

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh (Trang 30 - 32)