Danh mục các ký hiệu và từ viết tắtSEO: Search Engine Optimization Tối ưu hóa công cụ tìm kiếm SERP: Search Engine Results Page Trang kết quả tìm kiếm URL: Uniform Resource Locator Liên
Trang 1ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Họ và tên tác giá báo cáo chuyên đề
NGUYỄN VĂN TIẾN
CHUYÊN ĐỀ: PHÂN TÍCH, SO SÁNH, ĐÁNH GIÁ CÁC HỆ THỐNG TÌM KIẾM THÔNG TIN
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01
GVHD: GS TSKH Hoàng Kiếm
Thành phố Hồ Chí Minh - Năm 2014
Trang 2Mục Lục
Mục Lục 2
Danh mục các ký hiệu và từ viết tắt 4
Danh mục các bảng 5
Danh mục các hình, đồ thị 6
Chương 1 Giới thiệu 7
1.1 Đặt vấn đề 7
1.2 Mục tiêu 7
1.3 Phương pháp tiếp cận 7
Chương 2 Truy tìm thông tin 9
Chương 3 Các dịnh vụ tìm kiếm trên web 10
3.1 Search Engines 11
3.2 Web Directories 16
3.3 Meta-Search Engines 17
Chương 4 Phân tích, so sánh các hệ thống tìm kiếm thông tin 19
4.1 Các hệ thống tìm kiếm thông tin phổ biến 19
4.1.1 Google 21
4.1.2 Yahoo! 22
4.1.3 Bing 22
4.2 So sánh Google, Yahoo và Bing 22
4.2.1 Kích thước cơ sở dữ liệu 23
4.2.2 Khả năng cập nhật dữ liệu 24
4.2.3 Khả năng tìm kiếm 25
4.2.4 Công nghệ 28
4.3 Thách thức của công cụ tìm kiếm 31
4.4 Sáp nhập Kết quả tìm kiếm cho hiệu suất tốt nhất? 32
Trang 34.4.1 Chồng chéo giữa các công cụ tìm kiếm 33
4.4.2 Công cụ tìm kiếm lý tưởng 35
Chương 5 Kết luận 37
Tài liệu tham khảo 39
Trang 4Danh mục các ký hiệu và từ viết tắt
SEO: Search Engine Optimization Tối ưu hóa công cụ tìm kiếm
SERP: Search Engine Results Page Trang kết quả tìm kiếm
URL: Uniform Resource Locator Liên kết xác định tài nguyên trên InternetMSN: MicroSoft Network Search Engine Công cụ tìm kiếm của MicrosoftCNTT: Công nghệ thông tin
IR: Information Retrieval Truy tìm thông tin
Trang 5Danh mục các bảng
Bảng 1 Thống kê số lượt tìm kiếm của các hệ thống tìm kiếm phổ biến trên thớigiới năm 2008 - 2009 20Bảng 2 So sánh các công cụ tìm kiếm 31Bảng 3 So sánh chồng chéo kết quả ở trang đầu tiên của các công cụ tìm kiếm[Nguồn: Dogpile – 2007] 34
Trang 6Danh mục các hình, đồ thị
Hình 1 Các thành phần của hệ thống tìm kiếm trên web [Nguồn: Manning,
Raghavan, & Schütze, 2009, trang 434] 12
Hình 2 Cấu trúc dữ liệu chỉ mục ngược [Nguồn: Sherman & Price] 13
Hình 3 Giao diện cơ bản của Google Search 14
Hình 4 Yahoo! Directory Search 17
Hình 5 Siêu công cụ tìm kiếm Dogpile 18
Hình 6 Thị phần của công cụ tìm kiếm - tháng 8 năm 2010 20
Hình 7 Kết quả khảo sát công cụ tìm kiếm tốt nhất [nguồn: Web Deverlopers, 2010] 21 Hình 8 Minh họa 1 special feature của Google 26
Hình 9 Minh họa tính năng Yahoo! Shortcuts 27
Hình 10 Minh họa tính năng Instant Answers của Bing 27
Trang 7Chương 1 Giới thiệu
1.1 Đặt vấn đề
Với sự bùng nổ thông tin trên mạng Internet thì công cụ tìm kiếm thông tin trênmạng Internet ngày càng có tầm quan trọng cao Các công cụ/hệ thống tìm kiếm thôngtin cung cấp cho mọi người cơ hội để tìm thông tin một cách dễ dàng và nhanh chóng
và đã trở thành một phần của cuộc sống hàng ngày của người sử dụng mạng Internet.Trong bài báo cáo này, các câu hỏi sau đây sẽ được tiếp tục được làm sáng tỏ:Tại sao công cụ tìm kiếm lại thành công? Sự khác biệt chính của các công cụ tìmkiếm thành công nhất hiện nay là gì? Siêu công cụ tìm kiếm là gì và cách thức hoạtđộng của nó ra sao? Siêu công cụ tìm kiếm có thể tối ưu hóa các truy vấn tìm kiếmhay không? Và cuối cùng, là những yêu cầu cần phải có của một hệ thống tìm kiếm lýtưởng?
1.2 Mục tiêu
Một trong những mục tiêu của bài báo cáo này là cung cấp cho một cái nhìn tổngquan về truy tìm thông tin và chỉ ra sự khác nhau trong cách làm việc của các công cụtìm kiếm Thông qua phân tích công cụ tìm kiếm web để so sánh các công cụ tìmkiếm thông dụng trên Internet hiện nay Ngoài ra, một mục tiêu khác là giới thiệu và
mô tả chức năng của siêu công cụ tìm kiếm Mục tiêu chính là để kiểm tra giả thuyếtrằng sử dụng nhiều công cụ tìm kiếm có thể tốt hơn sử dụng một công cụ tìm kiếmđơn khi đã tối ưu hóa các truy vấn hay không
Bài báo cáo tập trung tìm hiểu về các chức năng của công cụ tìm kiếm Tuy nhiên,các khía cạnh kinh doanh cũng được trình bày sơ qua
1.3 Phương pháp tiếp cận
Bài báo cáo này được chia làm hai phần khác nhau
Phần đầu tiên, trình bày lý thuyết mô tả truy vấn thông tin nói chung cũng như mô
tả những đặc điểm và chức năng của công cụ tìm kiếm Trong đó sẽ giải thích lý dotại sao công cụ tìm kiếm thành công
Trong phần thứ hai, phân tích kết quả của ba công cụ tìm kiếm phổ biến nhất hiệnnay là Google, Yahoo và Bing từ đó trình bày những điểm mạnh và điểm yếu chính
Trang 8của từng công cụ tìm kiếm Trong phần hai, chúng ta cũng tiến hành so sánh các công
cụ tìm kiếm hiện nay với siêu công cụ tìm kiếm để tìm ra công cụ tìm kiếm hữu íchnhất
Trang 9Chương 2 Truy tìm thông tin
Có rất nhiều phương pháp cho việc tìm kiếm thông tin, nhưng một trong nhữngcách hàng đầu là thông qua công cụ tìm kiếm Hiên nay, tất cả mọi người sử dụngcông cụ tìm kiếm, chủ yếu cho nghiên cứu, học tập, kinh doanh, mua sắm hoặc giảitrí Công cụ tìm kiếm có thể xem là trình điều khiển lưu lượng truy cập trên web lớnnhất trên Internet, nó có ảnh hưởng lớn và liên tục được phát triển
Để biết được công cụ tìm kiếm hoạt động như thế nào,chúng ta cần có kiến thứctổng quan về kỹ thuật truy tìm thông tin mà các công cụ tìm kiếm sử dụng
Theo Langville & Meyer [2006] thì Truy tìm thông tin (IR) là “quá trình tìm kiếmtrong một bộ sưu tập tài liệu dựa trên một đặc điểm của thông tin cần tìm”
Khác biệt giữa truy tìm thông tin truyền thống và tìm kiếm thông tin trên web là:truy vấn thông tin truyền thống hoặc cổ điển là tìm kiếm trong kho dữ liệu nhỏ hơn,kho dữ liệu được kiểm soát và không liên kết Những bộ sưu tập tài liệu được lưu trữdưới hình thức vật lý
Ví dụ của truy tìm thông tin truyền thống là tìm kiếm thông tin trong cuốn sáchcủa một thư viện công cộng
Tuy nhiên, ngày nay, hầu hết các tài liệu được lưu trữ trên máy vi tính có thể đượctruy tìm dễ dàng với sự hỗ trợ của các kỹ thuật trên máy tính, các kỹ thuật truy tìmthông tin trên máy tính còn được gọi là mô hình truy tìm thông tin hoặc các phươngpháp truy tìm thông tin
Truy tìm thông tin trên web thì khác hơn so với tìm kiếm truyền thống,Vì khi đóchúng ta thực hiện tìm kiếm trong kho dữ liệu trên Internet gồm nhiều tài liệu có liênquan và được liên kết với nhau và kho dữ liệu trên Internet thì rất lớn và khó kiểmsoát Hiện nay có các dịch vụ tìm kiếm nổi tiếng trên Internet như Google hayYahoo.Trong các chương tiếp theo sẽ trình bày chi tiết về truy tìm thông tin web, vàcác dịch vụ tìm kiếm thông tin trên web
Trang 10Chương 3 Các dịnh vụ tìm kiếm trên web
Tìm kiếm thông tin trên web thường được ưa thích hơn các nguồn thông tin khác.Một cuộc khảo sát trên Internet được Pew Internet thực hiện, cho thấy rằng 92%người sử dụng Internet truy cập các trang web đọc các thông tin hàng ngày [Manning,Raghavan, Schütze, 2009]
Có một vài yếu tố giải thích tại sao các trang web tìm kiếm thì thành công Mộttrong những lý do là tính thuận tiện của dịch vụ web Ngày nay, công cụ tìm kiếmweb cho phép thông tin được dễ dàng truy cập, bất cứ nơi nào và bất cứ lúc nào, và nóluôn có sẵn để bất cứ ai có Internet là có thể truy cập Thử tưởng tượng không có dịch
vụ tìm kiếm web, thì web có thực sự có nhiều ý nghĩa cho mọi người làm việc trựctuyến hay không? Tất cả mọi người có thể sẽ đồng ý rằng các sản phẩm và dịch vụ từcác công cụ tìm kiếm làm cho việc sử dụng các trang web dễ dàng hơn nhiều, tiếtkiệm thời gian,và hiệu quả hơn
Vì hầu hết người dùng khám phá các trang web thông qua các dịch vụ tìm kiếm
Để tiếp cận đối tượng mong muốn, quản trị web cố gắng tạo ra các trang web tốt, hiệuquả, và nổi tiếng Nhờ vào sự giúp đỡ của công cụ tìm kiếm, nhiều người sẽ có thể tìmthấy trang web của họ hoặc ít nhất cũng thấy rằng website thực sự tồn tại
Người quản trị web có thể cải tiến trang web với mục đích kinh doanh trong chiếnlược kinh doanh trực tuyến Người quản trị web nỗ lực tối ưu hóa công cụ tìm kiếm(SEO) hoặc tăng khả năng tìm thông tin cho các công cụ tìm kiếm trên website của
họ Nói cách khác, một trang web được xây dựng "thân thiện" với công cụ tìm kiếm,thì lưu lượng truy cập của trang web đó có khả năng tăng lên đáng kể
Một nghiên cứu tiến hành bởi một tổ chức nghiên cứu và được khởi sướng bởiThurow [2003], chỉ ra rằng, khả năng người dùng mua một sản phẩm hoặc dịch vụsau khi tìm thấy trên web thông qua một công cụ tìm kiếm, cao hơn gấp năm lần làthông qua một banner quảng cáo trên các website Thurow cũng chỉ ra rằng có thể tối
đa hóa khả năng được tìm kiếm của một trang web với chi phí hợp lý và nếu thực hiệnđúng chiến dịch tiếp thị thông qua công cụ tìm kiếm có thể đem lại một lợi nhuận tolớn, dài hạn cho doanh nghiệp (DN)
Trang 11Với lợi ích của công cụ tìm kiếm đem lại, chúng ta cần hiểu rõ cách thức công cụtìm kiếm làm việc cũng như nền tảng kỹ thuật cơ bản của các dịch vụ tìm kiếm.
Về cơ bản, có hai phương pháp khác nhau cho công cụ tìm kiếm đó là dựa vàoThư mục web (Web Directory) và các công cụ tìm kiếm (Search Engines) sẽ đượctrình bày dưới đây
từ trong textbox tìm kiếm
(2) Tương ứng với truy vấn đó, công cụ tìm kiếm tìm trong tất cả các trang mà nógiữ trong cơ sở dữ liệu của nó
(3) Công cụ tìm kiếm tìm ra các trang web có liên quan với nội dung tìm kiếm(4) Kết quả được liệt kê trên trang kết quả tìm kiếm (Search Engine Results Page -SERP) với một trật tự, bắt đầu với kết quả có độ chính xác/liên quan cao nhất với yêucầu tìm kiếm
Toàn bộ quá trình tìm kiếm thường chỉ kéo dài một phần nhỏ của một giây, nhưngnhững gì diễn ra trong bộ máy tìm kiếm thì phức tạp hơn rất nhiều
Công cụ tìm kiếm web bao gồm ba thành phần cơ bản: Web thu thập thông tin(web crawler), chỉ mục (indexer), và xử lý truy vấn (query processor)
Các thành phần, nhiệm vụ của công cụ tìm kiếm web, được minh họa trong Hình
1 dưới đây
Trang 12Hình 1.Các thành phần của hệ thống tìm kiếm trên web [Nguồn: Manning,
Raghavan, & Schütze, 2009, trang 434]
Tiến trình tự động thu thập dữ liệu web được thực hiện với các "con nhện" web(web spiders) Chúng được hình dung như là các con nhện nhỏ và cũng có thể đượcgọi là crawler, robots, software agents, web agents, wanderers, walkers, hoặcknowbots Loại hình dịch vụ tìm kiếm này được gọi là công cụ tìm kiếm dựa trênspider hoặc crawler
Các "con nhện" web liên tục thu thập dữ liệu các trang web bằng thu thập nộidung của trang web và xây dựng danh sách các từ và cụm từ được tìm thấy để lưu lạinhư là một chỉ mục văn bản đầy đủ trong một cơ sở dữ liệu của các công cụ tìm kiếm.Chúng tìm các trang web bằng hai cách: Thứ 1: thông qua các URL (do người quản trịwebsite đăng ký với công cụ tìm kiếm) Thứ 2: thông qua các liên kết siêu văn bảnnhúng trong hầu hết các trang web
Với cách thứ hai, những con nhện web bắt đầu bằng cách thu thập dữ liệu cáctrang web và lần theo các liên kết trên các trang đó để thu thập dữ liệu của tất cả cáctrang web liên quan đến website đó Tiến trình này được lặp lại cho đến khi đã lập chỉmục một phần nhất định của các trang web và lưu trữ trên các máy tính của hệ thốngtìm kiếm trước khi thực hiện nhiệm vụ tiếp theo
Trang 13Đánh chỉ mục là phần thứ hai của công cụ tìm kiếm Nó là quá trình lấy dữ liệuthô và phân loại, loại bỏ thông tin trùng lặp, và thường tổ chức tất cả vào một cấu trúc
có thể truy cập được
Chỉ mục văn bản đầy đủ (full-text indexes) của các trang web đã thu thập được tổchức trong một cơ sở dữ liệu, thường lưu trữ sử dụng cấu trúc dữ liệu đánh chỉ mụcngược Cấu trúc này lý tưởng cho các truy vấn dựa trên từ khóa, nên những tài liệu sửdụng các từ khóa có thể nhanh chóng được tìm ra
Hình 2 cho thấy một cấu trúc dữ liệu chỉ mục ngược được sắp xếp theo thứ tựbảng chữ cái.Trong ví dụ này, có bốn cụm từ và các từ đó được gán các cặp số Sốđầu tiên là định danh cho mỗi cụm từ (Doc #), trong trường hợp này là các số từ 1 đến
4 Số thứ hai đại diện cho vị trí của từ trong cụm từ mà nó xuất hiện Thông thườngcác từ thông dụng như "and", "is", "the" hoặc "you" được loại bỏ bởi một số công cụtìm kiếm Bời vì chứng là những từ rất bình thường và ít có ý nghĩa tìm kiếm vàchúng sẽ làm giảm hiệu suất tìm kiếm
Hình 2.Cấu trúc dữ liệu chỉ mục ngược [Nguồn: Sherman & Price]
Yếu tố kỹ thuật và kinh tế gây trở ngại cho việc đánh chỉ mục toàn bộ các trangweb có trên Internet Không chỉ hạn chế về kỹ thuật, mà còn hạn chế chi phí khôngcho phép công cụ tìm kiếm có thể thu thập dữ liệu toàn bộ các trang web hiện tại.Phần thứ ba là phần cuối cùng được gọi là xử lý truy vấn, nó cung cấp giao diệncho người dùng của công cụ tìm kiếm, kiểm tra tính phù hợp của các tài liệu trong cơ
sở dữ liệu với nội dung người dùng tìm kiếm, và hiển thị kết quả ra trang kết quả tìmkiếm
Trang 14Giao diện người dùng cơ bản của công cụ tìm kiếm là hộp (textbox) tìm kiếm nơi
mà các truy vấn có thể được nhập vào Các hình thức tìm kiếm cơ bản và nâng caothường cũng được cung cấp bởi các công cụ tìm kiếm
Hình 3.Giao diện cơ bản của Google Search
Để tìm các tài liệu có liên quan đã được lập chỉ mục cho một truy vấn cụ thể, công
cụ tìm kiếm sử dụng các kỹ thuật đặc biệt Sự khác biệt chính các công cụ tìm kiếm là
ở cách xác định tính liên quan của dữ liệu cần tìm với dữ liệu đã được đánh chỉ mục.Mỗi công cụ tìm kiếm sử dụng một thuật toán xếp hạng các kết quả với tiêu chuẩnđánh giá khác nhau và tạo ra danh sách kết quả theo một theo thứ tự khác nhau Thuậttoán xếp hạng chủ yếu là phương trình toán học và rất quan trọng để tối ưu hóa công
cụ tìm kiếm
Công cụ tìm kiếm xếp hạng kết quả bằng cách sử dụng các yếu tố phụ thuộc vàotruy vấn (còn được gọi là tiêu chuẩn trên trang - on-the-page criteria), và các yếu tốđộc lập với truy vấn ( còn được gọi là tiêu chuẩn ngoài trang - off-the-page criteria).Xếp hạng kết quả dựa trên các yếu tố phụ thuộc vào truy vấn là phương pháp xếphạng để đo lường một trang phù hợp với một truy vấn cụ thể như thế nào Tương tựnhư các biện pháp trong truy tìm thông tin truyền thống, chẳng hạn như dựa vào tần
số các từ cần tìm kiếm suất hiện trong các tài liệu, hoặc ngôn ngữ của các tài liệu vàcủa câu truy vấn hoặc khoảng cách địa lý
Trang 15Xếp hạng kết quả dựa trên các yếu tố độc lập với truy vấn thì ngược lại với truyvấn phụ thuộc Các yếu tố truy vấn độc lập cố gắng để xác định chất lượng của mộttài liệu, mà không quan tâm đến nội dung của câu truy vấn cụ thể Chúng thườngđược dựa trên phân tích liên kết Ví dụ như PageRank là một yếu tố truy vấn độc lậpphổ biến nhất Đây là phương pháp xếp hạng dựa trên tính phổ biến của liên kết vàđược giải thích chi tiết trong chương 4 khi phân tích công cụ tìm kiếm Google.
Nhiều nhà thiết kế web cố gắng sử dụng "mánh khóe" để tăng vị trí xếp hạng choweb của họ trong kết quả của công cụ tìm kiếm Một mánh khóe có thể được sử dụnggửi nội dung rác (spam) để cải thiện thứ hạng, Do đó, để ngăn chặn điều này, cácthuật toán của công cụ tìm kiếm được đánh giá cao về tính bảo mật và khả năng cậpnhật thay đổi hàng ngày
Kết quả tìm kiếm trong trang kết quả có thể được phân thành hai loại: kết quả tìmkiếm cơ bản (kết quả tìm kiếm "tự nhiên") bao gồm các trang web được tìm thấy quacác "con nhện" web, và kết quả "có trả tiền" (dựa trên danh sách nhà tài trợ) nhưquảng cáo dựa trên từ khóa mà các quản trị web trả tiền, do đó,trang web sẽ được đặt
ở trên hoặc bên phải của kết quả chính Kết quả có trả tiền luôn luôn được xác định rõràng với các từ khóa mã họ đã mua quảng cáo
Với khả năng quảng cáo trên trang kết quả tìm kiếm và khả năng tối ưu hóa để cáccon nhện web dễ dàng truy cập như vậy chủ sở hữu trang web có hai cách để tiếp cậnngười sử dụng
Mô hình trả tiền để được thêm vào (pay-for-inclusion model) đảm bảo rằng cáctrang web được cung cấp sẽ luôn luôn được đánh chỉ mục tìm kiếm và các thông tinmới sẽ được phản ánh rất nhanh chóng Tuy nhiên, nó không đảm bảo rằng họ sẽ xuấthiện ở các vị trí hàng đầu trong trang kết quả tìm kiếm
Mô hình trả tiền cho vị trí (pay-for-placement), đảm bảo kết quả của trang webđược hiển thị tại vị trí đã trả tiền cho các từ khoá xác định Hiện nay, Công cụ tìmkiếm còn hỗ trợ cung cấp kiểu "trả tiền theo số lần nhấp chuột" (pay-per-click), nghĩa
là người quảng cáo phải trả tiền quảng cáo dựa trên số lượng người dùng click chuộtvào 1 liên kết đến trang web của mình thông qua kết quả các công cụ tìm kiếm
Thực tế là người dùng thường có xu hướng truy cập vào các kết quả cơ bản (tựnhiên) hơn vào các quảng cáo, như vậy không phải trả tiền cho một vị trí tốt trên trang
Trang 16kết quả tìm kiếm có thể đem lại hiệu quả thực sự Và chúng ta cũng thấy rằng không
ai có thể mua vị trí trên cùng của kết quả cơ bản (tự nhiên) Cách duy nhất để kiếmđược một vị trí trong kết quả tìm kiếm hàng đầu là nhờ kỹ thuật tối ưu hóa công cụtìm kiếm (SEO)
Không giống như các công cụ tìm kiếm, sử dụng đại lý phần mềm tự trị(autonomous software agents), các thư mục tổ chức các trang web thành các loại cụthể với sự giúp đỡ của các biên tập viên là con người, vì vậy được gọi là công cụ tìmkiếm dựa trên con người (human-based search engine) Cách dữ liệu được sắp xếp là
sự khác biệt lớn nhất của một chỉ mục và một thư mục web
Các biên tập viên đánh giá và lựa chọn trang web bằng cách tìm kiếm hoặc duyệt
từ trang web ngày sang trang web khác để quyết định các trang web có đủ giá trị đểđược thêm vào thư mục của họ hay không Một danh sách các chủ đề theo từng phânloại sẽ được tạo ra cùng với các liên kết tới các trang web đã được phân loại trong mộtcấu trúc phân cấp để người dùng dễ dàng trong việc truy vấn thông tin
Thư mục web chỉ gồm các liên kết được sắp xếp theo chủ đề và có chú thích Vìcác liên kết được chọn bằng tay, do đó các thư mục thường nhỏ và bị hạn chế Vì vậy,kết quả tìm kiếm thường được kết hợp với các kết quả tìm kiếm của các đối tác tìmkiếm khác, được gọi là kết quả "fall-through" hay "fall-over" Kết quả được hiển thịkhác nhau trong danh sách thư mục chung (kết quả cơ bản - tự nhiên) Ngược lại, một
số công cụ tìm kiếm cũng lấy thông tin từ thư mục để tăng khả năng cung cấp kết quảtìm kiếm có độ chính xác cao cho người dùng
Trang 17Tương tự như công cụ tìm kiếm, thư mục hỗ trợ thanh toán cho việc quảng cáo,vàcũng như xếp hạng các trang web Danh sách thư mục đứng đầu được dựa trên các thểloại thư mục, tiêu đề và mô tả của trang web Biên tập viên đánh giá các trang webdựa nội dung trang web bao gồm chất lượng bài viết và cách thức trình bày Khi đápứng tất cả các điều kiện xác định trên thì trang web sẽ được thêm vào thư mục.
Hình 4.Yahoo! Directory Search
3.3 Meta-Search Engines
Meta-Search Engines, còn được gọi là đa công cụ tìm kiếm, hay Siêu công cụ tìmkiếm, metasearchers, hoặc metacrawlers, là những công cụ tìm kiếm đặc biệt chúngđưa ra kết quả bằng cách truy cập nhiều công cụ tìm kiếm và thư mục web Bằng cáchnày, chúng cho phép người dùng nhanh chóng nhận được kết quả kết hợp của nhiềucông cụ tìm kiếm khác nhau và hiển thị trên một trang duy nhất Vì vậy, người sửdụng web không cần phải gõ nhiều lần truy vấn và cũng không phải truy cập vào tất
cả các công cụ tìm kiếm Siêu công cụ tìm kiếm sẽ thực hiện công việc này và nó cóthể gợi ý người dùng lựa chọn thêm các công cụ tìm kiếm mà trước đó người dùngkhông quan tâm
Bằng cách thực hiện một truy vấn tìm kiếm, Siêu công cụ tìm kiếm gửi thông tincần tìm đến nhiều công cụ tìm kiếm cùng một lúc Multi-Search engine không thuthập dữ liệu hoặc duy trì cơ sở dữ liệu riêng của nó như một công cụ tìm kiếm đơn,
Trang 18thay vào đó nó chỉ lọc lại các kết quả mà nó nhận được từ các công cụ tìm kiếm khác.Dựa trên một thuật toán cụ thể, dùng để loại bỏ trùng lặp và xếp hạng kết quả từ cácnguồn tìm kiếm vào một danh sách Danh sách kết quả sẽ được hiển thị trên trang kếtquả tìm kiếm (SERP).
Ngoài ra còn có một số siêu công cụ tìm kiếm không sử dụng thuật toán, chúngchỉ trình bày các thông tin kết quả của các nguồn tìm kiếm Meta-Search Engine chỉkhác nhau ở chổ chọn nguồn tìm kiếm nào, số lượng các nguồn tìm kiếm là bao nhiêu
và cách thức trình bày kết quả
Hình 5.Siêu công cụ tìm kiếm Dogpile
Trang 19Chương 4 Phân tích, so sánh các hệ thống tìm kiếm thông tin
4.1 Các hệ thống tìm kiếm thông tin phổ biến
Khi mọi người tìm kiếm thông tin, họ thường có ít nhất một công cụ tìm kiếm ưathích mà họ thường xuyên sử dụng để đáp ứng nhu cầu tìm kiếm của họ TheoAbout.com, hầu hết các hệ thống tìm kiếm thông tin cần có ba tính năng chính, cụ thể
là kết quả phải thích hợp, gọn gàng, giao diện dễ đọc và có các tùy chọn hữu ích đểthắt chặt hoặc mở rộng kết quả tìm kiếm Do đó, công cụ tìm kiếm phổ biến sẽ có cáctính năng nói trên Ngoài ra các công cụ tìm kiếm phổ biến có dữ liệu được duy trì tốt
và thường xuyên được cập nhật
Các nhà thiết kế web thường quan tâm đến các công cụ tìm kiếm, bởi vì họ muốntrang web của họ được dễ dàng tìm thấy thông qua các công cụ tìm kiếm để tănglượng truy cập vào website của họ Vì vậy, họ thường có chiến lược SEO cho ứngdụng web của họ
Một cuộc khảo sát công cụ tìm kiếm được ưa thích nhất trên toàn toàn cầu đượctiến hành bởi ComScore, một công ty đi đầu trong việc đo lường trong thế giới kỹthuật số, chứng minh rằng Google là công cụ tìm kiếm được sử dụng nhiều nhất trênthế giới: Trong năm 2009, Google thống trị 66,8% các tìm kiếm trên toàn thế giới với87.809 triệu lượt tìm kiếm, theo sau là Yahoo! với 9.444 triệu lượt tìm kiếm, công cụtìm kiếm Trung Quốc Baidu với 8534 triệu lượt tìm kiếm, và Bing xếp thứ tư với4.094 triệu lượt tìm kiếm [comScore, 2010]
Bảng 1 dưới đây cho thấy tổng số tìm kiếm trên toàn thế giới từ năm 2008 và
2009 của những người ở độ tuổi 15 trở lên Dựa vào bảng này ta có thể thấy, trangweb tìm kiếm của Microsoft đã tăng 70% lượt tìm kiếm trong năm 2009 so với năm
2008 Tiến bộ nhất là công cụ tìm kiếm Yandex của Nga với 91% Tuy nhiên, hiện tại
nó không được biết đến trên toàn thế giới
Trang 20Bảng 1 Thống kê số lượt tìm kiếm của các hệ thống tìm kiếm phổ biến
trên thới giới năm 2008 - 2009
Theo nghiên cứu Hitslink của Net Applications cho thấy bảng xếp hạng thị phầncủa các công cụ tìm kiếm trong hai năm qua tính tới tháng 8 năm 2010 Google đứngđầu với 84,73% thị phần, và cao hơn so với Yahoo! (6,35%), Baidu (3,31%) và Bing(3,30%), trong khi các công cụ khác chỉ chiếm tổng cộng 1,32% Baidu mới đây đãtăng nhanh hơn Bing, cụ thể là từ Tháng 7-Tháng 8 năm 2010 đã tăng thêm 1% [NetApplications, 2010] Hình dưới đây minh họa tổng thị phần của công cụ tìm kiếmtrong tháng 8 năm 2010
Hình 6.Thị phần của công cụ tìm kiếm - tháng 8 năm 2010