Nội dung của phương pháp

Một phần của tài liệu Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh (Trang 33)

Trong các trang web có các liên kết đến các trang web khác, và có nhiều trang khác có link liên kết đến các trang này. Trong các trang web, liên kết được thể hiện qua thẻ <a>. Trang A có các liên kết đến tập các trang khác và trong một số trường hợp tập các trang này liên quan đến trang A, nhưng nhiều trường hợp tập các trang lại không liên quan nhiều đến trang A đó. Đặc biệt đối với các trang chủ, trang tổng hợp thì có rất nhiều liên kết tới không liên quan. Trong khi đó, một phần nội dung của những trang trỏ đến trang A lại liên quan đến trang A.

Những người soạn thảo web khi tạo liên kết đến một trang nào, họ luôn dùng một vài từ đặc trưng đến trang web họ muốn trỏ tới, rồi đặt thẻ <a> liên kết đến trang đó. Vì vậy, chính những phần hiển thị (của phần liên kết trỏ tới các trang) trên trình duyệt nói lên phần nào suy nghĩ của người khác về trang đang được hướng tới. Trong liên kết web của trang THPT-NTT3 (Hình 7), ta thấy được cách đặt phần hiển thị cho

3http://thpt-nguyentrungtruc-tphcm.edu.vn/ A C B D <a href= ‘B’> <a href= ‘A’>

<a href= ‘B’>

<a href= ‘D’>

25

một số trang báo nổi tiếng. Giả dụ ở đây, nếu ta muốn sinh từ khóa cho trang dân trí4 , dựa vào phần hiển thị là “Đọc báo trực tuyến Dân Trí” ta có thể trích xuất ra các từ khóa như : đọc báo, trực tuyến, dân trí.... Nếu phân tích nhiều trang khác trỏ đến trang dân trí này thì kết quả sẽ cho cao hơn.

Hình 7. Phn hin th ca các liên kết đến các trang cn trích xut t khóa

Trong khóa luận này, tôi áp dụng các liên kết trỏ đến các trang cần sinh từ khóa.

Vậy làm sao để có thể tìm được một trang có liên kết đến trang ta muốn sinh từ khóa?

Những trang có liên kết đi thì dễ dàng tìm thấy khi chỉ phải phân tích nội dung của chính văn bản HTML và nhận dạng các thẻ <a>. Để tìm được các link liên kết đến trang cần sinh từ khóa, tôi sử dụng công cụ máy tìm kiếm như google, yahoo, altavista để tìm ra các link trỏ đến trang web mà ta đang muốn có từ khóa. Câu truy vấn trong các máy tìm kiếm để tìm ra tập các trang trỏ đến một trang có dạng “link:A”. Với câu truy vấn này các máy tìm kiếm sẽ trả về tập các trang web có liên kết trỏ đến trang “A” này. Hình 8, là tập các trang web trả về từ máy tìm kiếm google có liên kết đến trang http://vnexpress.net/.

Hình 8. Kết qu tr v ca máy tìm kiếm Google có liên kết tr ti trang vnexpress

26

Qua việc xử lý kết quả trả về qua các máy tìm kiếm, chúng ta kết nối, tải các trang liên quan này về rồi phân tích cấu trúc của các trang web này. Dựa vào thẻ <a>(anchor text) tìm những liên kết có địa chỉ giống như trang ta muốn sinh từ khóa. Từ đó lọc ra

các phần hiển thị của thẻ <a> đó, xử lý chúng để tìm ra từ khóa. Do kết quả của các máy tìm kiếm trả về có những trang với tập kết quả rất lớn, nên có thể dùng số lượng các từ khóa để giới hạn việc tải các trang web về. Việc sử dụng máy tìm kiếm làm công cụ trung gian không những giúp tìm các trang có liên kết đến trang ta cần sinh từ khóa, mà còn giảm đi lượng lớn các trang không đúng, thiếu tin cậy nhờ vào thứ hạng của máy tìm kiếm.

Tuy nhiên phương pháp này sẽ có tác dụng đối với các trang có liên kết đến. Đối với các trang không nổi tiếng, hay không có link đến thì sẽ không tìm được các trang liên quan, và không có kết quả.

Một phần của tài liệu Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh (Trang 33)