- Nhiệm vụ :
+ input: tập các trang web cần sinh từ khoá. + output: tập các từ khoá.
Kĩ thuật sử dụng là dùng những thông tin nội tại trong trang web, xét độ quan trọng của các thẻ khác nhau trong tập văn bản HTML để sinh từ khóa. Các từ xuất hiện trong thẻ nào thì nó sẽ có giá trị là trọng số của thẻ đó. Nếu một từ xuất hiện trong các thẻ khác nhau, trọng số của từ đó sẽ là tổng trọng số các thẻ nó thuộc vào.
Đối với các trang Web tiếng Việt thì sử dụng mô đun tách từ, còn các trang tiếng Anh có thể bỏ qua các trang tách từ. Trong giai đoạn tách từ, các từ dừng sẽ được loại bỏ để tránh nhiễu.
31
- Mô hình chi tiết:
Nội dung của
thẻ(<a>) thNộẻi dung c(<b> ) ủa Nthộẻi dung c(<u>) ủa
Sử dụng tách câu, tách từ(Tiếng Việt) Tập các từ(a) Tập các từ (b) Tập các từ(u) Tập các từ (toàn bộ trang) Thống kê từ có trọng số cao Trọng số thẻ Tập trang web HTML parser Nội dung toàn bộtrang Tập từ khóa (thẻ HTML)
32
- Quá trình thực thi:
+ Với đầu vào là tập các trang web cần sinh từ khoá. Ở mỗi thời điểm ta chọn 1 trang để sinh từ khoá.
+ Trang dưới dạng HTML được đưa qua bộ phân tích cú pháp HTML(HTML parser).
+ Đối với từng thẻ xác định (chỉ đề cập đến một số thẻ quan trọng) lấy ra nội
dung của nó. Cùng với đó ta cũng lấy toàn bộ text của trang web (vì trong các tag quan trọng không có p, div...)
+ Nội dung sau khi được trích ra đi qua bộ phân tích để tách câu, tách từ (đối với tiếng Việt).
+ Với mỗi thẻ trong HTML có trọng số khác nhau. Gán trọng số cho mỗi thẻ, nếu từ nào trong thẻ nào thì nhận trọng số của thẻ đó, nếu từ nằm trong nhiều thẻ thì cộng các giá trị lại với nhau.
+ Qua thống kê loại bỏ những trọng số quá yếu đi => tâp các từ khóa (thẻ HTML)