Nhu cầu về phân cụm các kết quả tìm kiếm

Một phần của tài liệu SỬ DỤNG PHƯƠNG PHÁP XẾP HẠNG TRONG BÀI TOÁN PHÂN CỤM TIẾNG VIỆT (Trang 28 - 29)

Tài nguyên trên internet rất phong phú và đa dạng, có thể nói, người sử dụng có thể tìm kiếm thông tin về mọi lĩnh vực trên internet. Các máy tìm kiếm là công cụ tìm kiếm hỗ trợ rất tốt cho người sử dụng. Tuy nhiên, với các máy tìm kiếm khá phổ biến như Google [14], Yahoo [16], MSN [17] thì khi nhận một truy vấn từ người dùng, các máy tìm kiếm này thường trả về một danh sách dài các kết quả tìm kiếm. Các kết quả được xếp hạng theo sự phù hợp với truy vấn của người dùng dựa vào một số yếu tố như các từ khóa trong tài liệu, mức tương tự với truy vấn, dựa theo link liên kêt,… Tuy

nhiên, danh sách kết quả trả về thường rất lớn. Thêm vào đó, đối với các truy vấn “nhập nhằng”, có nhiều chủ đề liên quan thì người dùng rất khó khăn và tốn nhiều thời

gian xem xét các tiêu đề và đoạn tóm lược của tài liệu để tìm ra kết quả mong muốn. Ví dụ với truy vấn “việt nam” trên máy tìm kiếm google. Số kết quả trả về là rất lớn, vào khoảng 78 000 000.

Hình 6: Ví dụ với truy vấn “Việt Nam” trên máy tìm kiếm google[14]

Từ vấn đề được nêu ra ở trên, một giải pháp đưa ra là phân cụm các kết quả trả về của máy tìm kiếm thành các nhóm khác nhau. Người sử dụng dựa vào mô tả của các nhóm để chọn ra chủ đề mà họ cần tìm. Với mỗi chủ đề, các tài liệu có độ quan trọng cao sẽ được đặt ở trên.

Vivisimo là tiêu biểu của phân cụm các kết quả tìm kiếm dựa theo cụm từ quan

trọng. Lấy ví dụ với truy vấn là “Việt Nam” trên máy tìm kiếm Vivisimo thu được 264

kết quả tìm kiếm, chia thành các cụm với mô tả các cụm rất trực quan.

Hình 7: Ví dụ với truy vấn “Việt Nam” trên máy tìm kiếm Vivisimo[15]

29

Một phần của tài liệu SỬ DỤNG PHƯƠNG PHÁP XẾP HẠNG TRONG BÀI TOÁN PHÂN CỤM TIẾNG VIỆT (Trang 28 - 29)

Tải bản đầy đủ (DOC)

(42 trang)
w