Hướng giải quyết

Một phần của tài liệu BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB (Trang 29)

Như đã đề cập ở chương II, nhiều phương pháp đã được áp dụng trên thực tế và cĩ kết quả tốt như : sử dụng log, độ tương đồng từ. Tuy nhiên, các phương pháp này chỉ hiệu quả với các trang Web tiếng Anh. Các máy tìm kiếm cĩ lợi thế khi họ lưu trữ được những bộ log rất lớn, ghi lại các giao dịch của người dùng trong nhiều năm. Vì vậy, việc tìm kiếm trong log sẽ rất hữu hiệu cho các doanh nghiệp tìm ra các từ khĩa hướng người sử dụng. Cịn các phương pháp áp dụng học máy, thì giá phải trả là họ phải cĩ tập huấn luyện, thời gian chạy khá lâu. Kết quả tốt thì tập dữ liệu huấn luyện phải tốt. Các phương pháp sử dụng tần số đơn thuần thể hiện khơng hiệu quả do chỉ xét tần số mà chưa tính đến độ quan trọng trong văn bản Web. Một thách thức khác đặt ra với tiếng Việt chính là việc tách các cụm từ.

Khơng những chỉ cĩ văn bản thơng thường được hiển thị, web cịn chứa đựng trong nĩ nhiều các đặc trưng khác mà rất quan trọng cho bài tốn sinh từ khĩa. Dưới đây là hai hướng tiếp cận chính của tơi trong khĩa luận đĩ là: sử dụng độ quan trọng của các thẻ trong HTML đồ thị web. Hai hướng này là chủ đạo cĩ thể áp dụng với các loại trang web tiếng Việt và tiếng Anh. Tuy nhiên, phương pháp đồ thị web do phải xử lý nhiều nên phù hợp hơn với các trang chủ, các web portal. Bên cạnh hai phương pháp trên, tơi cịn ứng dụng thêm hai phương pháp đĩ là : query log, và từ điển (bài tốn gán từ khĩa). Do log chỉ giới hạn một số trang và với ngơn ngữ xác đinh, nên nĩ chỉ là thành phần hỗ trợ nhằm nâng cao kết quả cho các trang web trong log. Cịn bài tốn gán từ khĩa là các từ trong từ điển tiếng Việt, thì nĩ chỉ phù hợp cho việc gán từ khĩa cho các văn bản ngắn, các đoạn tĩm tắt bằng tiếng Việt. Sau đây tơi xin trình bày các phương pháp đã đề cập ở trên.

Một phần của tài liệu BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB (Trang 29)