Nội dung của phương pháp

Một phần của tài liệu Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web (Trang 34 - 36)

Trong các trang web cĩ các liên kết đến các trang web khác, và cĩ nhiều trang khác cĩ link liên kết đến các trang này. Trong các trang web, liên kết được thể hiện qua thẻ <a>. Trang A cĩ các liên kết đến tập các trang khác và trong một số trường hợp tập các trang này liên quan đến trang A, nhưng nhiều trường hợp tập các trang lại khơng liên quan nhiều đến trang A đĩ. Đặc biệt đối với các trang chủ, trang tổng hợp thì cĩ rất nhiều liên kết tới khơng liên quan. Trong khi đĩ, một phần nội dung của những trang trỏ đến trang A lại liên quan đến trang A.

Những người soạn thảo web khi tạo liên kết đến một trang nào, họ luơn dùng một vài từ đặc trưng đến trang web họ muốn trỏ tới, rồi đặt thẻ <a> liên kết đến trang đĩ. Vì vậy, chính những phần hiển thị (của phần liên kết trỏ tới các trang) trên trình duyệt nĩi lên phần nào suy nghĩ của người khác về trang đang được hướng tới. Trong liên kết web của trang THPT-NTT3 (Hình 7), ta thấy được cách đặt phần hiển thị cho một số trang báo nổi tiếng. Giả dụ ở đây, nếu ta muốn sinh từ khĩa cho trang dân trí4 , dựa vào phần

3http://thpt-nguyentrungtruc-tphcm.edu.vn/ 4http://dantri.com.vn A C B D <a href= ‘B’>

<a href= ‘A’>

<a href= ‘B’>

<a href= ‘D’>

hiển thị là “Đọc báo trực tuyến Dân Trí” ta cĩ thể trích xuất ra các từ khĩa như : đọc báo, trực tuyến, dân trí.... Nếu phân tích nhiều trang khác trỏ đến trang dân trí này thì kết quả sẽ cho cao hơn.

Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khĩa

Trong khĩa luận này, tơi áp dụng các liên kết trỏ đến các trang cần sinh từ khĩa.

Vậy làm sao để cĩ thể tìm được một trang cĩ liên kết đến trang ta muốn sinh từ khĩa?

Những trang cĩ liên kết đi thì dễ dàng tìm thấy khi chỉ phải phân tích nội dung của chính văn bản HTML và nhận dạng các thẻ <a>. Để tìm được các link liên kết đến trang cần sinh từ khĩa, tơi sử dụng cơng cụ máy tìm kiếm như google, yahoo, altavista để tìm ra các link trỏ đến trang web mà ta đang muốn cĩ từ khĩa. Câu truy vấn trong các máy tìm kiếm để tìm ra tập các trang trỏ đến một trang cĩ dạng “link:A”. Với câu truy vấn này các máy tìm kiếm sẽ trả về tập các trang web cĩ liên kết trỏ đến trang “A” này. Hình 8, là tập các trang web trả về từ máy tìm kiếm google cĩ liên kết đến trang

http://vnexpress.net/.

Hình 8. Kết quả trả về của máy tìm kiếm Google cĩ liên kết trỏ tới trang vnexpress

Qua việc xử lý kết quả trả về qua các máy tìm kiếm, chúng ta kết nối, tải các trang liên quan này về rồi phân tích cấu trúc của các trang web này. Dựa vào thẻ <a>(anchor text)

phần hiển thị của thẻ <a> đĩ, xử lý chúng để tìm ra từ khĩa. Do kết quả của các máy tìm kiếm trả về cĩ những trang với tập kết quả rất lớn, nên cĩ thể dùng số lượng các từ khĩa để giới hạn việc tải các trang web về. Việc sử dụng máy tìm kiếm làm cơng cụ trung gian khơng những giúp tìm các trang cĩ liên kết đến trang ta cần sinh từ khĩa, mà cịn giảm đi lượng lớn các trang khơng đúng, thiếu tin cậy nhờ vào thứ hạng của máy tìm kiếm.

Tuy nhiên phương pháp này sẽ cĩ tác dụng đối với các trang cĩ liên kết đến. Đối với các trang khơng nổi tiếng, hay khơng cĩ link đến thì sẽ khơng tìm được các trang liên quan, và khơng cĩ kết quả.

Một phần của tài liệu Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web (Trang 34 - 36)

Tải bản đầy đủ (DOC)

(59 trang)
w