II. NHỮNG NGUYÊN TẮC SÁNG TẠO ĐƢỢC ỨNG DỤNG TRONG QUÁ TRÌNH
4. Máy meta search engine (Máy tìm kiếm liên hợp MTKLH)
Phạm Thanh Quốc – CH1211059 22 Số lƣợng máy tìm kiếm có thể cạnh tranh với Google chỉ có thể đếm trên đầu ngón tay. Khi không thể cạnh tranh theo kiểu “trực diện”, meta search engine – tạm dịch là máy tìm kiếm liên hợp – là một giải pháp mà nhiều ngƣời muốn nhắm đến. Một máy tìm kiếm (search engine) thƣờng có 3 thành phần chính:
- Thứ nhất là web crawling, thành phần chuyên thu thập các trang web có trên Internet.
- Thứ hai là indexing, thành phần rút trích các đặc trƣng của các trang web (ví dụ tiêu đề, từ khóa tiêu biểu) và lƣu trữ vào cơ sở dữ liệu để phục vụ cho nhu cầu tìm kiếm sau này.
- Thứ ba là searching, thành phần tìm các trang web phù hợp/liên quan đến nhu cầu của ngƣời dùng (thông qua việc gõ vào các từ khóa trong ô tìm kiếm).
Có thể thấy, thành phần đầu tiên là một trong c ác thành phần quan trọng nhất của một máy tìm kiếm. Bởi vì, nếu một trang không đƣợc thu thập thì nó sẽ không bao giờ đƣợc liệt kê trong kết quả tìm kiếm. Ngoài ra, ngay cả khi một trang đƣợc thu thập, nó cần phải đƣợc thu thập nhanh nhất, ngay khi mới đƣợc cập nhật.
Ví dụ, giả sử bạn muốn tìm các tin tức cập nhật và các bài bình luận Euro mới nhất thông qua máy tìm kiếm XYZ, thì công cụ thu thập tin của máy tìm kiếm XYZ phải có khả năng cập nhật ngay các thông tin vừa xuất hiện trên Internet.
Một vấn đề khác đó là phƣơng pháp lƣu trữ bởi vì lƣu trữ thông tin của cả trăm tỉ trang web (Google mới thông báo họ đã xử lí đến 1.000 tỉ trang web vào tháng 7/2008) sao cho an toàn và đáp ứng nhanh nhất cho nhu cầu tìm kiếm là việc không đơn giản. Một trong những lí do mà Google thống trị thị trƣờng tìm kiếm hiện nay là khả năng thu thập trang web cực nhanh, đồng thời có hệ thống lƣu trữ phân tán cực lớn (450.000 server theo số liệu không chính thức năm 2000).
Phạm Thanh Quốc – CH1211059 23 Chính vì lí do này mà trên thế giới, số lƣợng các máy tìm kiếm có thể cạnh trạnh với Google chỉ có thể đếm trên đầu ngón tay gồm Yahoo, Microsoft, Ask.
Hình minh họa meta search engine dùng Yahoo Boss
Giao diện của máy tùy chỉnh Google
Google vừa cung cấp một công cụ với tên gọi Google CSE, cho phép ngƣời dùng tự tay xây dựng một máy tìm kiếm cho chính mình dựa trên công nghệ tìm kiếm của Google. Nói một cách đơn giản, với mỗi câu truy vấn, bạn sẽ nhận đƣợc kết quả trả về từ Google để xử lí. Với những gì Google CSE cung cấp, bạn có thể xây dựng cho mình một meta search engine chỉ trong vài phút. Bạn có thể giới hạn lại những site nào bạn quan tâm trong meta search engine của bạn (Google CSE cho phép bạn chỉ định tối đa 5.000 sites).
Nhƣ vậy MTKLH (máy tìm kiếm liên hợp) dùng các nguyên tắc sau :
a. Nguyên tắc li nh động :
MTKLH sẽ chuyển nó đến các máy tìm kiếm khác (tạm gọi là máy tìm kiếm nguồn) nhƣ Google, Yahoo và sau đó xử lí kết quả trả về từ các máy tìm kiếm này trƣớc khi đƣa ra kết quả cho ngƣời dùng.
Phạm Thanh Quốc – CH1211059 24
b.Nguyên tắc đảo ngƣợc
Với việc chia việc tìm kiếm đƣa đến các mấy tìm kiếm nguồn đã đảo ngƣờc suy nghĩ trƣớc kia khi cố gắng cải thiện thuật toán tìm kiếm nhằm tăng tốc độ xử lý. Nhờ đảo ngƣợc lại hƣớng suy nghĩ mà lời giải đã đƣợc đƣa ra.
c. Nguyên tắc thực hiện sơ bộ
MTKLH là tiền đề để phát triển các công cụ tìm kiếm hiệu quả trong tƣơng lai .
d.Nguyên tắc “chứa trong”
Một MTKLH chứa trong nó nhiều máy tìm kiếm nguồn nhƣ Google, Yahoo … đặt điểm này là cho việc tìm kiếm hiệu quả hơn .
e. Nguyên tắc kết hợp
- Kết hợp nhiều máy tìm kiếm nguồn nhƣ Google , Yahoo thành một máy tìm kiếm duy nhất, tiết kiệm đƣợc thời gian của ngƣời dùng trong việc lựa chọn công cụ tìm kiếm.
Phạm Thanh Quốc – CH1211059 25