Mơđun sử dụng trọng số thẻ HTML

Một phần của tài liệu Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web (Trang 39 - 41)

- Nhiệm vụ :

+ input: tập các trang web cần sinh từ khố. + output: tập các từ khố.

Kĩ thuật sử dụng là dùng những thơng tin nội tại trong trang web, xét độ quan trọng của các thẻ khác nhau trong tập văn bản HTML để sinh từ khĩa. Các từ xuất hiện trong thẻ nào thì nĩ sẽ cĩ giá trị là trọng số của thẻ đĩ. Nếu một từ xuất hiện trong các thẻ khác nhau, trọng số của từ đĩ sẽ là tổng trọng số các thẻ nĩ thuộc vào.

Đối với các trang Web tiếng Việt thì sử dụng mơ đun tách từ, cịn các trang tiếng Anh cĩ thể bỏ qua các trang tách từ. Trong giai đoạn tách từ, các từ dừng sẽ được loại bỏ để tránh nhiễu.

31

- Mơ hình chi tiết:

Nội dung của thẻ(<a>) Nội dung của thẻ(<b> ) Nội dung của thẻ(<u>) Sử dụng tách câu, tách từ(Tiếng Việt) Tập các từ(a) Tập các từ (b) Tập các từ(u) Tập các từ (tồn bộ trang) Thống kê từ cĩ trọng số cao Trọng số thẻ Tập trang web HTML parser Nội dung tồn bộtrang Tập từ khĩa (thẻ HTML)

32

- Quá trình thực thi:

+ Với đầu vào là tập các trang web cần sinh từ khố. Ở mỗi thời điểm ta chọn 1 trang để sinh từ khố.

+ Trang dưới dạng HTML được đưa qua bộ phân tích cú pháp HTML(HTML parser).

+ Đối với từng thẻ xác định (chỉ đề cập đến một số thẻ quan trọng) lấy ra nội

dung của nĩ. Cùng với đĩ ta cũng lấy tồn bộ text của trang web (vì trong các tag quan trọng khơng cĩ p, div...)

+ Nội dung sau khi được trích ra đi qua bộ phân tích để tách câu, tách từ (đối với tiếng Việt).

+ Với mỗi thẻ trong HTML cĩ trọng số khác nhau. Gán trọng số cho mỗi thẻ, nếu từ nào trong thẻ nào thì nhận trọng số của thẻ đĩ, nếu từ nằm trong nhiều thẻ thì cộng các giá trị lại với nhau.

+ Qua thống kê loại bỏ những trọng số quá yếu đi => tâp các từ khĩa (thẻ HTML)

Một phần của tài liệu Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web (Trang 39 - 41)