Hệ tỡm kiếm Vietseek

Một phần của tài liệu (LUẬN văn THẠC sĩ) hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu trong hệ thống tìm kiếm (Trang 35 - 37)

1.8 Phõn tớch một số hệ tỡm kiếm điển hỡnh

1.8.4 Hệ tỡm kiếm Vietseek

Vietseek là một trong số mỏy tỡm kiếm tiếng Việt đó được xõy dựng và sử dụng hiện nay (như PanVietnam của cụng ty Netnam, VinaSeek của cụng ty Tinh Võn,...). Vietseek được phỏt triển dựa trờn ASPseek (là một phần mềm mó nguồn mở) do Bựi Quang Minh trong khuụn khổ đề tài QG-02-02 và cụng ty TTVNOnline [1].

Về cơ bản, cấu trỳc của Vietseek giống như cấu trỳc của cỏc mỏy tỡm kiếm thụng thường. Tuy nhiờn Vietseek chưa cú chức năng phản hồi lại thụng tin từ bộ truy vấn đến bộ điều khiển tỡm duyệt. Vietseek đó xõy dựng được chỉ mục khoản 3000 site tiếng Việt với khoảng 3 triệu trang Web, và khoảng 2,5 triệu từ khoỏ đó được lưu trữ. Hiện nay, Vietseek đang tiếp tục tiến hành tạo chỉ mục cho khoảng 7 triệu trang Web khỏc.

Cơ sở dữ liệu về cỏc trang Web và chỉ mục được lưu trữ trong mỏy phục vụ cơ sở dữ liệu. Modul tỡm kiếm là một tiến trỡnh chạy ngầm hoạt động theo cơ chế client/server, cú nhiệm vụ lập danh sỏch cỏc URL thoả món yờu cầu của người dựng. Sau đú, tớnh hạng hiển thị cho tất cả cỏc trang rồi nhúm theo site và sắp xếp từ

35

trờn xuống. Modul giao diện (mỏy phục vụ Web) làm nhiệm vụ lấy kết quả trả về từ modul tỡm kiếm, trộn lại rồi hiển thị dưới dạng Web cho người dựng.

Vietseek tớnh hạng hiển thị cho một trang Web dựa vào 4 yếu tố sau: - Vị trớ xuất hiện của từ khoỏ trong văn bản.

- Vị trớ tương đối giữa cỏc từ khoỏ trong trang. - Thuộc tớnh của từ khoỏ.

- Giỏ trị hạng của trang.

Vietseek đó xõy dựng xong chức năng tỡm kiếm văn bản, chức năng tỡm kiếm hỡnh ảnh hiện đang được xõy dựng. Cỏc kết quả tỡm kiếm được trả về rất nhanh và chớnh xỏc do đó thực hiện được việc tớnh hạng trang Web dựa vào cỏc liờn kết ngay từ khi tạo chỉ mục cho cỏc trang và việc xếp hạng hiển thị trang kết quả đó được tớnh toỏn dựa theo bốn tiờu chớ nờu trờn. Vietseek đó chuyển đổi được tất cả cỏc loại mó tiếng Việt khỏc nhau sang mó Unicode, và kết quả trả lại dưới dạng mó Unicode. Tuy nhiờn, cũn một số vấn đề mà Vietseek chưa giải quyết được: Chưa phõn tỏn được cơ sở dữ liệu vào cỏc nỳt lưu trữ khỏc nhau, nờn trong tương lai khi số lượng cỏc trang Web tiếng Việt nhiều hơn sẽ gặp khú khăn trong việc lưu trữ. Do chưa phõn tỏn được cơ sở dữ liệu vào nhiều nỳt nờn Vietseek chưa sử dụng kỹ thuật phõn hoạch chỉ mục. Và chưa xõy dựng được chức năng tự học của mỏy tỡm kiếm từ danh sỏch URL được người dựng sử dụng trong kết quả trả về. Cuối cựng, Vietseek giống như hầu hết cỏc mỏy tỡm kiếm khỏc, Vietseek chưa quan tõm đến việc xếp hạng cỏc trang Web dựa vào tần số xuất hiện cỏc từ khoỏ tỡm kiếm trong trang Web đú.

36

Chương 2 Cấu trỳc Hệ TỡM KIếM

Một phần của tài liệu (LUẬN văn THẠC sĩ) hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu trong hệ thống tìm kiếm (Trang 35 - 37)

Tải bản đầy đủ (PDF)

(81 trang)