Theo Wikipedia [3] HTML (tên Tiếng Anh viết tắt của HyperText Markup Language hay “ngôn ngữ đánh dấu siêu văn bản”) là một ngôn ngữ đánh dấu được thiết kế nhằm mục đích hiển thị các thông tin khác nhau lên trên trình duyệt. Với ngôn ngữ HTML, chúng ta có thể biểu diễn trang web một cách sinh động, tùy thích với nhiều màu sắc, điểm nhấn, cấu trúc khác nhau. HTML bây giờ đã trở thành chuẩn của tổ chức World Wide Wed Consortium (W3C) duy trì, và được mọi trình duyệt phải thiết kế theo. Các file HTML có chứa các thẻ đánh dấu, nghĩa là các chỉ thị cho
21
chương trình về cách hiển thị hay xử lý văn bản ở dạng thuần túy. Ngôn ngữ HTML có rất nhiều các thẻ khác nhau, chi tiết có thể xem tại W3C.
Ví dụ: Khi một người muốn nhấn mạnh một điều gì đó trong bài viết của mình họ thường tô đậm chữ với thẻ <b> hoặc dùng các thẻ <H1>,<H2>... để có thể phân biệt được với các chữ khác. Hay các thẻ như <title> trong văn bản web có chứa tiêu đề của trang web đó.
Nhờ những đặc điểm sẵn có là HTML trong văn bản web, tôi đã đề xuất phương án áp dụng độ quan trọng của các từ trong các thẻ khác nhau trong văn bản HTML để phục vụ cho bài toán sinh từ khóa. Trước hết, áp dụng phương pháp này vào bài toán trích xuất từ khóa là việc lấy nội dung nội tại của trang web về để xử lý - hay văn bản HTML của chính trang cần trích xuất. Như đã nhắc về các công trình liên quan tại chương II [25][13], tần số từ (TF) là một trong những phương pháp có thể áp dụng không những trong văn bản , mà còn trong cả web. Phương pháp của tôi đề xuất không tính trực tiếp tần số xuất hiện của các từ khóa trong văn bản web, nhưng cũng gián tiếp tính tần số của chúng nhưng theo độ quan trọng khác nhau của mỗi loại thẻ HTML quan tâm. Một chú ý, ở phương pháp này không dùng IDF do chỉ xét trên chính một trang.
Mỗi trang web hiển thị lên trình duyệt được nhờ vào các thẻ HTML. Cho nên, với người soản thảo web, họ sẽ chủ động đặt những từ, câu quan trọng trong các thẻ HTML có độ quan trọng cao. Nhiệm vụ đặt ra là làm sao biết trong HTML thẻ nào là quan trọng, và thẻ nào quan trọng hơn thẻ nào, thẻ nào không quan trọng. Trong dự án tạo phần abstract (tóm tắt) cho văn bản của ứng dụng TextNet [7][6], qua nhiều thực nghiệm, nhóm các nhà nghiên cứu đã đưa ra được trọng số của các thẻ trong HTML dưới Bảng 1 sau: Bảng 1. Bảng trọng số các thẻ HTML trongTextNet TAG HTML WEIGHT A 1 B 2 BLOCKQUOTE -1 CENTER 3 CODE -1 EM 1 H1 10 H2 9
22 H3 8 H4 7 KBD -1 PRE -1 SAMP -1 STRONG 2 SUB -1 SUP -1 TITLE 15 U 1
Và tôi cũng áp dụng trọng số của các thẻ này trong quá trình thực nghiệm. Như thấy trong bảng, thẻ <title> có trọng số cao nhất, một số thẻ dạng <sub> hay <sup> không quan trọng mà còn làm giảm đi ý nghĩa của từ thể hiện trong nó. Tuy nhiên, đối với bài toán sinh từ khóa không những chỉ xét những thẻ đó, mà còn cần xét những thẻ khác nữa và tôi đưa thêm vào một số thẻ khác trong Bảng 2 :
Bảng 2. Bảng các thẻ HTML quan trọng khác TAG HTML WEIGHT P 1 DIV 1 META(name = ‘Keywords’) 17 META(name = ‘descriptions’) 10
Qua quá trình thực nghiệm, các trọng số của các thẻ này được điều chỉnh cho phù hợp sao cho kết quả đầu ra là tốt nhất.
Những thông tin nằm trong các thẻ khác nhau thì có độ quan trọng khác nhau. Một câu, cụm từ, hay từ có thể nằm đan xen trong nhiều thẻ khác nhau. Vì vậy, trọng số toàn cục của câu, từ này sẽ là tổng số các trọng số mà nó thuộc vào các thẻ. Các từ hay câu thuộc vào những thẻ nào thì nó sẽ nhận tổng của các trọng số của các thẻ đó. Vì vậy, việc tính tần số vẫn tồn tại ngầm trong trọng số toàn cục.
23
Trong văn bản trên các từ “TIT” sẽ nhận các trọng số của thẻ <title> và thẻ <b>, <p> do chúng đều nằm trong các thẻ này. Và trọng số của “TIT” = trọng số <title> + trọng số <p> + trọng số <b>. Tương tự, trọng số của “T” được tính = trọng số <p> + trọng số<h1> + trọng số<a>.
Gọi :
- T= {tập các thẻ của HTML mà ta quan tâm}
- W = {trọng số các thẻ HTML}
- W(i) = trọng số của thẻ thứ i thuộc T. Trọng số từ “A”=∑
∈T i
i
W()(với từ “A” xuất hiện trong “thông tin quan tâm” của thẻ i ) “Thông tin quan tâm” của thẻ i là những phần văn bản nằm trong phần mở thẻ và đóng thẻ hay những thuộc tính của thẻ.