Sử dụng độ quan trọng của các thẻ trong HTML

Một phần của tài liệu Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web (Trang 30 - 33)

Theo Wikipedia HTML (tên Tiếng Anh viết tắt của HyperText Markup Language hay “ngơn ngữ đánh dấu siêu văn bản”) là một ngơn ngữ đánh dấu được thiết kế nhằm mục đích hiển thị các thơng tin khác nhau lên trên trình duyệt. Với ngơn ngữ HTML, chúng ta cĩ thể biểu diễn trang web một cách sinh động, tùy thích với nhiều màu sắc, điểm nhấn, cấu trúc khác nhau. HTML bây giờ đã trở thành chuẩn của tổ chức World Wide Wed Consortium (W3C) duy trì, và được mọi trình duyệt phải thiết kế theo. Các file HTML cĩ chứa các thẻ đánh dấu, nghĩa là các chỉ thị cho chương trình về

cách hiển thị hay xử lý văn bản ở dạng thuần túy. Ngơn ngữ HTML cĩ rất nhiều các thẻ khác nhau, chi tiết cĩ thể xem tại W3C.

Ví dụ: Khi một người muốn nhấn mạnh một điều gì đĩ trong bài viết của mình họ thường tơ đậm chữ với thẻ <b> hoặc dùng các thẻ <H1>,<H2>... để cĩ thể phân biệt được với các chữ khác. Hay các thẻ như <title> trong văn bản web cĩ chứa tiêu đề của trang web đĩ.

Nhờ những đặc điểm sẵn cĩ là HTML trong văn bản web, tơi đã đề xuất phương án áp dụng độ quan trọng của các từ trong các thẻ khác nhau trong văn bản HTML để phục vụ cho bài tốn sinh từ khĩa. Trước hết, áp dụng phương pháp này vào bài tốn trích xuất từ khĩa là việc lấy nội dung nội tại của trang web về để xử lý - hay văn bản HTML của chính trang cần trích xuất. Như đã nhắc về các cơng trình liên quan tại chương II , tần số từ (TF) là một trong những phương pháp cĩ thể áp dụng khơng những trong văn bản , mà cịn trong cả web. Phương pháp của tơi đề xuất khơng tính trực tiếp tần số xuất hiện của các từ khĩa trong văn bản web, nhưng cũng gián tiếp tính tần số của chúng nhưng theo độ quan trọng khác nhau của mỗi loại thẻ HTML quan tâm. Một chú ý, ở phương pháp này khơng dùng IDF do chỉ xét trên chính một trang.

Mỗi trang web hiển thị lên trình duyệt được nhờ vào các thẻ HTML. Cho nên, với người soản thảo web, họ sẽ chủ động đặt những từ, câu quan trọng trong các thẻ HTML cĩ độ quan trọng cao. Nhiệm vụ đặt ra là làm sao biết trong HTML thẻ nào là quan trọng, và thẻ nào quan trọng hơn thẻ nào, thẻ nào khơng quan trọng. Trong dự án tạo phần abstract (tĩm tắt) cho văn bản của ứng dụng TextNet , qua nhiều thực nghiệm, nhĩm các nhà nghiên cứu đã đưa ra được trọng số của các thẻ trong HTML dưới Bảng 1 sau: Bảng 1. Bảng trọng số các thẻ HTML trongTextNet TAG HTML WEIGHT A 1 B 2 BLOCKQUOTE -1 CENTER 3 CODE -1 EM 1 H1 10 H2 9 H3 8 H4 7 KBD -1 PRE -1

STRONG 2

SUB -1

SUP -1

TITLE 15

U 1

Và tơi cũng áp dụng trọng số của các thẻ này trong quá trình thực nghiệm. Như thấy trong bảng, thẻ <title> cĩ trọng số cao nhất, một số thẻ dạng <sub> hay <sup> khơng quan trọng mà cịn làm giảm đi ý nghĩa của từ thể hiện trong nĩ. Tuy nhiên, đối với bài tốn sinh từ khĩa khơng những chỉ xét những thẻ đĩ, mà cịn cần xét những thẻ khác nữa và tơi đưa thêm vào một số thẻ khác trong Bảng 2 :

Bảng 2. Bảng các thẻ HTML quan trọng khác TAG HTML WEIGHT P 1 DIV 1 META(name = ‘Keywords’) 17 META(name = ‘descriptions’) 10

Qua quá trình thực nghiệm, các trọng số của các thẻ này được điều chỉnh cho phù hợp sao cho kết quả đầu ra là tốt nhất.

Những thơng tin nằm trong các thẻ khác nhau thì cĩ độ quan trọng khác nhau. Một câu, cụm từ, hay từ cĩ thể nằm đan xen trong nhiều thẻ khác nhau. Vì vậy, trọng số tồn cục của câu, từ này sẽ là tổng số các trọng số mà nĩ thuộc vào các thẻ. Các từ hay câu thuộc vào những thẻ nào thì nĩ sẽ nhận tổng của các trọng số của các thẻ đĩ. Vì vậy, việc tính tần số vẫn tồn tại ngầm trong trọng số tồn cục.

Trong văn bản trên các từ “TIT” sẽ nhận các trọng số của thẻ <title> và thẻ <b>, <p> do chúng đều nằm trong các thẻ này. Và trọng số của “TIT” = trọng số <title> + trọng số <p> + trọng số <b>. Tương tự, trọng số của “T” được tính = trọng số <p> + trọng số<h1> + trọng số<a>.

Gọi :

- T= {tập các thẻ của HTML mà ta quan tâm}

- W = {trọng số các thẻ HTML}

- W(i) = trọng số của thẻ thứ i thuộc T. Trọng số từ “A”=∑

T i

i

W()(với từ “A” xuất hiện trong “thơng tin quan tâm” của thẻ i ) “Thơng tin quan tâm” của thẻ i là những phần văn bản nằm trong phần mở thẻ và đĩng thẻ hay những thuộc tính của thẻ.

Một phần của tài liệu Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web (Trang 30 - 33)

Tải bản đầy đủ (DOC)

(59 trang)
w