CHƯƠNG 1 CÁC PHƯƠNG PHÁP TÌM KIẾM THU THẬP THÔNG TIN TRÊN INTERNET
1.10 Máy tìm kiếm Cuil
Một máy tìm kiếm thường có 3 thành phần chính:
Thứ nhất là thành phần chuyên thu thập các trang web tồn tại trên Internet (crawling);
Thứ hai là thành phần đánh chỉ mục (indexing) : Thành phần này rút trích các đặc trưng của các các trang web (ví dụ tiêu đề, từ khóa tiêu biểu) và lưu trữ vào cơ sở dữ liệu để phục vụ cho nhu cầu tìm kiếm sau này;
Thứ ba là thành phần tìm các trang web phù hợp/liên quan/thỏa mãn (relevant) nhu cầu của người dùng (searching), thông qua quá trình tương tác với giao diện của máy tìm kiếm, ví dụ như gõ vào các từ khóa trong ô tìm kiếm. Để có thể biết máy tìm kiếm nào tốt hơn máy tìm kiếm nào, về phía người dùng, chỉ có một tiêu chí duy nhất, đó là máy tìm kiếm nào cho kết quả phù hợp (relevant) với nhu cầu của họ một cách đầy đủ nhất (comprehensive), nhanh nhất (fastest) sẽ là máy tìm kiếm tốt nhất. Chúng ta hãy cùng so sánh các thành phần này của Cuil với Google.
a.Kích thước chỉ mục
Cuil cho rằng hệ thống chỉ mục hiện nay của họ là lớn nhất trên thế giới, với 120 tỉ trang web được đánh chỉ mục. Thực ra con số trang web của Cuil thu thập lớn hơn nhiều, đến 186 tỉ trang, nhưng nhiều trang đã bị loại bớt do trùng lắp và spam.
b. Mức độ phù hợp với nhu cầu tìm kiếm của người dùng
Thuật toán xếp hạng của Cuil không dựa vào tính đại chúng như thuật toán PageRank của Google, mà thay vào đó là dựa vào phân tích nội dung (content analysis) để hiểu ngữ nghĩa của từng trang. Tuy nhiên, theo như phân tích của chuyên gia Danny Sullivan [2,3], hiện nay, Cuil vẫn sử dụng ý tưởng về tính đại chúng của thuật toán PageRank cho thuật toán xếp hạng trang web của họ. Một ví dụ là khi người dùng gõ vào từ khóa “Harry Potter”, người ta có thể tự hỏi tại sao trang web về bộ phim “Harry Potter and the Order of the Phoenix” lại được Cuil xếp ngay trong kết quả trả về của trang đầu tiên trong khi có hàng vạn trang khác liên quan tới Harry Potter lại xếp phía sau. Câu trả lời chỉ có thể là dùng cách phân tích về tính đại chúng của các trang mà thôi. Do đó, một trang khi được liên kết đến nhiều như trang web về bộ phim mới nhất về Harry Potter, sẽ được đánh giá cao hơn các trang khác.
Mặc dù nhiều máy tìm kiếm mới như Cuil đều cho rằng họ thực hiện phân tích ngữ nghĩa trên các trang để giúp tìm ra các trang web phù hợp với người dùng tốt hơn so với Google, tuy nhiên thực tế cho thấy rằng, từ nói đến làm vẫn còn khoảng cách khá xa
c. Giao diện giao tiếp với người dùng
Có lẽ điểm khác nổi bật giữa Cuil và Google là giao diện 3 cột (có thể tùy chỉnh thành 2 cột).
Với cách bố trí này, người dùng được hỗ trợ thêm trong việc tinh chỉnh lại kết quả tìm kiếm, ví dụ tìm sách về Harry Potter, hay trò chơi liên quan đến Harry Potter. Những hỗ trợ này thực ra không mới vì trước đó các đối thủ khác như Vivisimo, KartOO và Yahoo cũng đã có.
Hình 1 : Giao diện người dùng của máy tìm kiếm Cuil
d. Cơ sở hạ tầng
Cơ sở hạ tầng (hệ thống máy chủ cho trung tâm dữ liệu) là một trong những yếu tố quan trọng của các máy tìm kiếm. Hai tiêu chí hàng đầu là tính hiệu quả (trả về kết quả nhanh nhất) và tính toàn vẹn và nhất quán của dữ liệu phân tán. Google đã có nhiều năm kinh nghiệm và có số lượng máy chủ khổng lồ đặt khắp nơi trên thế giới để đảm bảo cho việc trả kết quả về rất nhanh dù người dùng ở bất cứ đâu. Trong khi đó, Cuil chỉ mới hỗ trợ cho thị trường Mỹ, các thị trường khác như châu Âu và châu Á sẽ được hỗ trợ trong thời gian tới. Ngoài ra, ngay trong ngày đầu khai trương, Cuil đã cho thấy sự quá tải khi số lượng người dùng tăng đột biến, vượt qua ước tính của họ.