CHUYÊN ĐỀ PHÂN TÍCH, SO SÁNH, ĐÁNH GIÁ CÁC HỆ THỐNG TÌM KIẾM THÔNG TIN

Danh mục các ký hiệu và từ viết tắtSEO: Search Engine Optimization Tối ưu hóa công cụ tìm kiếm SERP: Search Engine Results Page Trang kết quả tìm kiếm URL: Uniform Resource Locator Liên

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN



Họ và tên tác giá báo cáo chuyên đề

NGUYỄN VĂN TIẾN

CHUYÊN ĐỀ: PHÂN TÍCH, SO SÁNH, ĐÁNH GIÁ CÁC HỆ THỐNG TÌM KIẾM THÔNG TIN

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 60 48 01

GVHD: GS TSKH Hoàng Kiếm

Thành phố Hồ Chí Minh - Năm 2014

Trang 2

Mục Lục

Mục Lục 2

Danh mục các ký hiệu và từ viết tắt 4

Danh mục các bảng 5

Danh mục các hình, đồ thị 6

Chương 1 Giới thiệu 7

1.1 Đặt vấn đề 7

1.2 Mục tiêu 7

1.3 Phương pháp tiếp cận 7

Chương 2 Truy tìm thông tin 9

Chương 3 Các dịnh vụ tìm kiếm trên web 10

3.1 Search Engines 11

3.2 Web Directories 16

3.3 Meta-Search Engines 17

Chương 4 Phân tích, so sánh các hệ thống tìm kiếm thông tin 19

4.1 Các hệ thống tìm kiếm thông tin phổ biến 19

4.1.1 Google 21

4.1.2 Yahoo! 22

4.1.3 Bing 22

4.2 So sánh Google, Yahoo và Bing 22

4.2.1 Kích thước cơ sở dữ liệu 23

4.2.2 Khả năng cập nhật dữ liệu 24

4.2.3 Khả năng tìm kiếm 25

4.2.4 Công nghệ 28

4.3 Thách thức của công cụ tìm kiếm 31

4.4 Sáp nhập Kết quả tìm kiếm cho hiệu suất tốt nhất? 32

Trang 3

4.4.1 Chồng chéo giữa các công cụ tìm kiếm 33

4.4.2 Công cụ tìm kiếm lý tưởng 35

Chương 5 Kết luận 37

Tài liệu tham khảo 39

Trang 4

Danh mục các ký hiệu và từ viết tắt

SEO: Search Engine Optimization Tối ưu hóa công cụ tìm kiếm

SERP: Search Engine Results Page Trang kết quả tìm kiếm

URL: Uniform Resource Locator Liên kết xác định tài nguyên trên InternetMSN: MicroSoft Network Search Engine Công cụ tìm kiếm của MicrosoftCNTT: Công nghệ thông tin

IR: Information Retrieval Truy tìm thông tin

Trang 5

Danh mục các bảng

Bảng 1 Thống kê số lượt tìm kiếm của các hệ thống tìm kiếm phổ biến trên thớigiới năm 2008 - 2009 20Bảng 2 So sánh các công cụ tìm kiếm 31Bảng 3 So sánh chồng chéo kết quả ở trang đầu tiên của các công cụ tìm kiếm[Nguồn: Dogpile – 2007] 34

Trang 6

Danh mục các hình, đồ thị

Hình 1 Các thành phần của hệ thống tìm kiếm trên web [Nguồn: Manning,

Raghavan, & Schütze, 2009, trang 434] 12

Hình 2 Cấu trúc dữ liệu chỉ mục ngược [Nguồn: Sherman & Price] 13

Hình 3 Giao diện cơ bản của Google Search 14

Hình 4 Yahoo! Directory Search 17

Hình 5 Siêu công cụ tìm kiếm Dogpile 18

Hình 6 Thị phần của công cụ tìm kiếm - tháng 8 năm 2010 20

Hình 7 Kết quả khảo sát công cụ tìm kiếm tốt nhất [nguồn: Web Deverlopers, 2010] 21 Hình 8 Minh họa 1 special feature của Google 26

Hình 9 Minh họa tính năng Yahoo! Shortcuts 27

Hình 10 Minh họa tính năng Instant Answers của Bing 27

Trang 7

Chương 1 Giới thiệu

1.1 Đặt vấn đề

Với sự bùng nổ thông tin trên mạng Internet thì công cụ tìm kiếm thông tin trênmạng Internet ngày càng có tầm quan trọng cao Các công cụ/hệ thống tìm kiếm thôngtin cung cấp cho mọi người cơ hội để tìm thông tin một cách dễ dàng và nhanh chóng

và đã trở thành một phần của cuộc sống hàng ngày của người sử dụng mạng Internet.Trong bài báo cáo này, các câu hỏi sau đây sẽ được tiếp tục được làm sáng tỏ:Tại sao công cụ tìm kiếm lại thành công? Sự khác biệt chính của các công cụ tìmkiếm thành công nhất hiện nay là gì? Siêu công cụ tìm kiếm là gì và cách thức hoạtđộng của nó ra sao? Siêu công cụ tìm kiếm có thể tối ưu hóa các truy vấn tìm kiếmhay không? Và cuối cùng, là những yêu cầu cần phải có của một hệ thống tìm kiếm lýtưởng?

1.2 Mục tiêu

Một trong những mục tiêu của bài báo cáo này là cung cấp cho một cái nhìn tổngquan về truy tìm thông tin và chỉ ra sự khác nhau trong cách làm việc của các công cụtìm kiếm Thông qua phân tích công cụ tìm kiếm web để so sánh các công cụ tìmkiếm thông dụng trên Internet hiện nay Ngoài ra, một mục tiêu khác là giới thiệu và

mô tả chức năng của siêu công cụ tìm kiếm Mục tiêu chính là để kiểm tra giả thuyếtrằng sử dụng nhiều công cụ tìm kiếm có thể tốt hơn sử dụng một công cụ tìm kiếmđơn khi đã tối ưu hóa các truy vấn hay không

Bài báo cáo tập trung tìm hiểu về các chức năng của công cụ tìm kiếm Tuy nhiên,các khía cạnh kinh doanh cũng được trình bày sơ qua

1.3 Phương pháp tiếp cận

Bài báo cáo này được chia làm hai phần khác nhau

Phần đầu tiên, trình bày lý thuyết mô tả truy vấn thông tin nói chung cũng như mô

tả những đặc điểm và chức năng của công cụ tìm kiếm Trong đó sẽ giải thích lý dotại sao công cụ tìm kiếm thành công

Trong phần thứ hai, phân tích kết quả của ba công cụ tìm kiếm phổ biến nhất hiệnnay là Google, Yahoo và Bing từ đó trình bày những điểm mạnh và điểm yếu chính

Trang 8

của từng công cụ tìm kiếm Trong phần hai, chúng ta cũng tiến hành so sánh các công

cụ tìm kiếm hiện nay với siêu công cụ tìm kiếm để tìm ra công cụ tìm kiếm hữu íchnhất

Trang 9

Chương 2 Truy tìm thông tin

Có rất nhiều phương pháp cho việc tìm kiếm thông tin, nhưng một trong nhữngcách hàng đầu là thông qua công cụ tìm kiếm Hiên nay, tất cả mọi người sử dụngcông cụ tìm kiếm, chủ yếu cho nghiên cứu, học tập, kinh doanh, mua sắm hoặc giảitrí Công cụ tìm kiếm có thể xem là trình điều khiển lưu lượng truy cập trên web lớnnhất trên Internet, nó có ảnh hưởng lớn và liên tục được phát triển

Để biết được công cụ tìm kiếm hoạt động như thế nào,chúng ta cần có kiến thứctổng quan về kỹ thuật truy tìm thông tin mà các công cụ tìm kiếm sử dụng

Theo Langville & Meyer [2006] thì Truy tìm thông tin (IR) là “quá trình tìm kiếmtrong một bộ sưu tập tài liệu dựa trên một đặc điểm của thông tin cần tìm”

Khác biệt giữa truy tìm thông tin truyền thống và tìm kiếm thông tin trên web là:truy vấn thông tin truyền thống hoặc cổ điển là tìm kiếm trong kho dữ liệu nhỏ hơn,kho dữ liệu được kiểm soát và không liên kết Những bộ sưu tập tài liệu được lưu trữdưới hình thức vật lý

Ví dụ của truy tìm thông tin truyền thống là tìm kiếm thông tin trong cuốn sáchcủa một thư viện công cộng

Tuy nhiên, ngày nay, hầu hết các tài liệu được lưu trữ trên máy vi tính có thể đượctruy tìm dễ dàng với sự hỗ trợ của các kỹ thuật trên máy tính, các kỹ thuật truy tìmthông tin trên máy tính còn được gọi là mô hình truy tìm thông tin hoặc các phươngpháp truy tìm thông tin

Truy tìm thông tin trên web thì khác hơn so với tìm kiếm truyền thống,Vì khi đóchúng ta thực hiện tìm kiếm trong kho dữ liệu trên Internet gồm nhiều tài liệu có liênquan và được liên kết với nhau và kho dữ liệu trên Internet thì rất lớn và khó kiểmsoát Hiện nay có các dịch vụ tìm kiếm nổi tiếng trên Internet như Google hayYahoo.Trong các chương tiếp theo sẽ trình bày chi tiết về truy tìm thông tin web, vàcác dịch vụ tìm kiếm thông tin trên web

Trang 10

Chương 3 Các dịnh vụ tìm kiếm trên web

Tìm kiếm thông tin trên web thường được ưa thích hơn các nguồn thông tin khác.Một cuộc khảo sát trên Internet được Pew Internet thực hiện, cho thấy rằng 92%người sử dụng Internet truy cập các trang web đọc các thông tin hàng ngày [Manning,Raghavan, Schütze, 2009]

Có một vài yếu tố giải thích tại sao các trang web tìm kiếm thì thành công Mộttrong những lý do là tính thuận tiện của dịch vụ web Ngày nay, công cụ tìm kiếmweb cho phép thông tin được dễ dàng truy cập, bất cứ nơi nào và bất cứ lúc nào, và nóluôn có sẵn để bất cứ ai có Internet là có thể truy cập Thử tưởng tượng không có dịch

vụ tìm kiếm web, thì web có thực sự có nhiều ý nghĩa cho mọi người làm việc trựctuyến hay không? Tất cả mọi người có thể sẽ đồng ý rằng các sản phẩm và dịch vụ từcác công cụ tìm kiếm làm cho việc sử dụng các trang web dễ dàng hơn nhiều, tiếtkiệm thời gian,và hiệu quả hơn

Vì hầu hết người dùng khám phá các trang web thông qua các dịch vụ tìm kiếm

Để tiếp cận đối tượng mong muốn, quản trị web cố gắng tạo ra các trang web tốt, hiệuquả, và nổi tiếng Nhờ vào sự giúp đỡ của công cụ tìm kiếm, nhiều người sẽ có thể tìmthấy trang web của họ hoặc ít nhất cũng thấy rằng website thực sự tồn tại

Người quản trị web có thể cải tiến trang web với mục đích kinh doanh trong chiếnlược kinh doanh trực tuyến Người quản trị web nỗ lực tối ưu hóa công cụ tìm kiếm(SEO) hoặc tăng khả năng tìm thông tin cho các công cụ tìm kiếm trên website của

họ Nói cách khác, một trang web được xây dựng "thân thiện" với công cụ tìm kiếm,thì lưu lượng truy cập của trang web đó có khả năng tăng lên đáng kể

Một nghiên cứu tiến hành bởi một tổ chức nghiên cứu và được khởi sướng bởiThurow [2003], chỉ ra rằng, khả năng người dùng mua một sản phẩm hoặc dịch vụsau khi tìm thấy trên web thông qua một công cụ tìm kiếm, cao hơn gấp năm lần làthông qua một banner quảng cáo trên các website Thurow cũng chỉ ra rằng có thể tối

đa hóa khả năng được tìm kiếm của một trang web với chi phí hợp lý và nếu thực hiệnđúng chiến dịch tiếp thị thông qua công cụ tìm kiếm có thể đem lại một lợi nhuận tolớn, dài hạn cho doanh nghiệp (DN)

Trang 11

Với lợi ích của công cụ tìm kiếm đem lại, chúng ta cần hiểu rõ cách thức công cụtìm kiếm làm việc cũng như nền tảng kỹ thuật cơ bản của các dịch vụ tìm kiếm.

Về cơ bản, có hai phương pháp khác nhau cho công cụ tìm kiếm đó là dựa vàoThư mục web (Web Directory) và các công cụ tìm kiếm (Search Engines) sẽ đượctrình bày dưới đây

từ trong textbox tìm kiếm

(2) Tương ứng với truy vấn đó, công cụ tìm kiếm tìm trong tất cả các trang mà nógiữ trong cơ sở dữ liệu của nó

(3) Công cụ tìm kiếm tìm ra các trang web có liên quan với nội dung tìm kiếm(4) Kết quả được liệt kê trên trang kết quả tìm kiếm (Search Engine Results Page -SERP) với một trật tự, bắt đầu với kết quả có độ chính xác/liên quan cao nhất với yêucầu tìm kiếm

Toàn bộ quá trình tìm kiếm thường chỉ kéo dài một phần nhỏ của một giây, nhưngnhững gì diễn ra trong bộ máy tìm kiếm thì phức tạp hơn rất nhiều

Công cụ tìm kiếm web bao gồm ba thành phần cơ bản: Web thu thập thông tin(web crawler), chỉ mục (indexer), và xử lý truy vấn (query processor)

Các thành phần, nhiệm vụ của công cụ tìm kiếm web, được minh họa trong Hình

1 dưới đây

Trang 12

Hình 1.Các thành phần của hệ thống tìm kiếm trên web [Nguồn: Manning,

Raghavan, & Schütze, 2009, trang 434]

Tiến trình tự động thu thập dữ liệu web được thực hiện với các "con nhện" web(web spiders) Chúng được hình dung như là các con nhện nhỏ và cũng có thể đượcgọi là crawler, robots, software agents, web agents, wanderers, walkers, hoặcknowbots Loại hình dịch vụ tìm kiếm này được gọi là công cụ tìm kiếm dựa trênspider hoặc crawler

Các "con nhện" web liên tục thu thập dữ liệu các trang web bằng thu thập nộidung của trang web và xây dựng danh sách các từ và cụm từ được tìm thấy để lưu lạinhư là một chỉ mục văn bản đầy đủ trong một cơ sở dữ liệu của các công cụ tìm kiếm.Chúng tìm các trang web bằng hai cách: Thứ 1: thông qua các URL (do người quản trịwebsite đăng ký với công cụ tìm kiếm) Thứ 2: thông qua các liên kết siêu văn bảnnhúng trong hầu hết các trang web

Với cách thứ hai, những con nhện web bắt đầu bằng cách thu thập dữ liệu cáctrang web và lần theo các liên kết trên các trang đó để thu thập dữ liệu của tất cả cáctrang web liên quan đến website đó Tiến trình này được lặp lại cho đến khi đã lập chỉmục một phần nhất định của các trang web và lưu trữ trên các máy tính của hệ thốngtìm kiếm trước khi thực hiện nhiệm vụ tiếp theo

Trang 13

Đánh chỉ mục là phần thứ hai của công cụ tìm kiếm Nó là quá trình lấy dữ liệuthô và phân loại, loại bỏ thông tin trùng lặp, và thường tổ chức tất cả vào một cấu trúc

có thể truy cập được

Chỉ mục văn bản đầy đủ (full-text indexes) của các trang web đã thu thập được tổchức trong một cơ sở dữ liệu, thường lưu trữ sử dụng cấu trúc dữ liệu đánh chỉ mụcngược Cấu trúc này lý tưởng cho các truy vấn dựa trên từ khóa, nên những tài liệu sửdụng các từ khóa có thể nhanh chóng được tìm ra

Hình 2 cho thấy một cấu trúc dữ liệu chỉ mục ngược được sắp xếp theo thứ tựbảng chữ cái.Trong ví dụ này, có bốn cụm từ và các từ đó được gán các cặp số Sốđầu tiên là định danh cho mỗi cụm từ (Doc #), trong trường hợp này là các số từ 1 đến

4 Số thứ hai đại diện cho vị trí của từ trong cụm từ mà nó xuất hiện Thông thườngcác từ thông dụng như "and", "is", "the" hoặc "you" được loại bỏ bởi một số công cụtìm kiếm Bời vì chứng là những từ rất bình thường và ít có ý nghĩa tìm kiếm vàchúng sẽ làm giảm hiệu suất tìm kiếm

Hình 2.Cấu trúc dữ liệu chỉ mục ngược [Nguồn: Sherman & Price]

Yếu tố kỹ thuật và kinh tế gây trở ngại cho việc đánh chỉ mục toàn bộ các trangweb có trên Internet Không chỉ hạn chế về kỹ thuật, mà còn hạn chế chi phí khôngcho phép công cụ tìm kiếm có thể thu thập dữ liệu toàn bộ các trang web hiện tại.Phần thứ ba là phần cuối cùng được gọi là xử lý truy vấn, nó cung cấp giao diệncho người dùng của công cụ tìm kiếm, kiểm tra tính phù hợp của các tài liệu trong cơ

sở dữ liệu với nội dung người dùng tìm kiếm, và hiển thị kết quả ra trang kết quả tìmkiếm

Trang 14

Giao diện người dùng cơ bản của công cụ tìm kiếm là hộp (textbox) tìm kiếm nơi

mà các truy vấn có thể được nhập vào Các hình thức tìm kiếm cơ bản và nâng caothường cũng được cung cấp bởi các công cụ tìm kiếm

Hình 3.Giao diện cơ bản của Google Search

Để tìm các tài liệu có liên quan đã được lập chỉ mục cho một truy vấn cụ thể, công

cụ tìm kiếm sử dụng các kỹ thuật đặc biệt Sự khác biệt chính các công cụ tìm kiếm là

ở cách xác định tính liên quan của dữ liệu cần tìm với dữ liệu đã được đánh chỉ mục.Mỗi công cụ tìm kiếm sử dụng một thuật toán xếp hạng các kết quả với tiêu chuẩnđánh giá khác nhau và tạo ra danh sách kết quả theo một theo thứ tự khác nhau Thuậttoán xếp hạng chủ yếu là phương trình toán học và rất quan trọng để tối ưu hóa công

cụ tìm kiếm

Công cụ tìm kiếm xếp hạng kết quả bằng cách sử dụng các yếu tố phụ thuộc vàotruy vấn (còn được gọi là tiêu chuẩn trên trang - on-the-page criteria), và các yếu tốđộc lập với truy vấn ( còn được gọi là tiêu chuẩn ngoài trang - off-the-page criteria).Xếp hạng kết quả dựa trên các yếu tố phụ thuộc vào truy vấn là phương pháp xếphạng để đo lường một trang phù hợp với một truy vấn cụ thể như thế nào Tương tựnhư các biện pháp trong truy tìm thông tin truyền thống, chẳng hạn như dựa vào tần

số các từ cần tìm kiếm suất hiện trong các tài liệu, hoặc ngôn ngữ của các tài liệu vàcủa câu truy vấn hoặc khoảng cách địa lý

Trang 15

Xếp hạng kết quả dựa trên các yếu tố độc lập với truy vấn thì ngược lại với truyvấn phụ thuộc Các yếu tố truy vấn độc lập cố gắng để xác định chất lượng của mộttài liệu, mà không quan tâm đến nội dung của câu truy vấn cụ thể Chúng thườngđược dựa trên phân tích liên kết Ví dụ như PageRank là một yếu tố truy vấn độc lậpphổ biến nhất Đây là phương pháp xếp hạng dựa trên tính phổ biến của liên kết vàđược giải thích chi tiết trong chương 4 khi phân tích công cụ tìm kiếm Google.

Nhiều nhà thiết kế web cố gắng sử dụng "mánh khóe" để tăng vị trí xếp hạng choweb của họ trong kết quả của công cụ tìm kiếm Một mánh khóe có thể được sử dụnggửi nội dung rác (spam) để cải thiện thứ hạng, Do đó, để ngăn chặn điều này, cácthuật toán của công cụ tìm kiếm được đánh giá cao về tính bảo mật và khả năng cậpnhật thay đổi hàng ngày

Kết quả tìm kiếm trong trang kết quả có thể được phân thành hai loại: kết quả tìmkiếm cơ bản (kết quả tìm kiếm "tự nhiên") bao gồm các trang web được tìm thấy quacác "con nhện" web, và kết quả "có trả tiền" (dựa trên danh sách nhà tài trợ) nhưquảng cáo dựa trên từ khóa mà các quản trị web trả tiền, do đó,trang web sẽ được đặt

ở trên hoặc bên phải của kết quả chính Kết quả có trả tiền luôn luôn được xác định rõràng với các từ khóa mã họ đã mua quảng cáo

Với khả năng quảng cáo trên trang kết quả tìm kiếm và khả năng tối ưu hóa để cáccon nhện web dễ dàng truy cập như vậy chủ sở hữu trang web có hai cách để tiếp cậnngười sử dụng

Mô hình trả tiền để được thêm vào (pay-for-inclusion model) đảm bảo rằng cáctrang web được cung cấp sẽ luôn luôn được đánh chỉ mục tìm kiếm và các thông tinmới sẽ được phản ánh rất nhanh chóng Tuy nhiên, nó không đảm bảo rằng họ sẽ xuấthiện ở các vị trí hàng đầu trong trang kết quả tìm kiếm

Mô hình trả tiền cho vị trí (pay-for-placement), đảm bảo kết quả của trang webđược hiển thị tại vị trí đã trả tiền cho các từ khoá xác định Hiện nay, Công cụ tìmkiếm còn hỗ trợ cung cấp kiểu "trả tiền theo số lần nhấp chuột" (pay-per-click), nghĩa

là người quảng cáo phải trả tiền quảng cáo dựa trên số lượng người dùng click chuộtvào 1 liên kết đến trang web của mình thông qua kết quả các công cụ tìm kiếm

Thực tế là người dùng thường có xu hướng truy cập vào các kết quả cơ bản (tựnhiên) hơn vào các quảng cáo, như vậy không phải trả tiền cho một vị trí tốt trên trang

Trang 16

kết quả tìm kiếm có thể đem lại hiệu quả thực sự Và chúng ta cũng thấy rằng không

ai có thể mua vị trí trên cùng của kết quả cơ bản (tự nhiên) Cách duy nhất để kiếmđược một vị trí trong kết quả tìm kiếm hàng đầu là nhờ kỹ thuật tối ưu hóa công cụtìm kiếm (SEO)

Không giống như các công cụ tìm kiếm, sử dụng đại lý phần mềm tự trị(autonomous software agents), các thư mục tổ chức các trang web thành các loại cụthể với sự giúp đỡ của các biên tập viên là con người, vì vậy được gọi là công cụ tìmkiếm dựa trên con người (human-based search engine) Cách dữ liệu được sắp xếp là

sự khác biệt lớn nhất của một chỉ mục và một thư mục web

Các biên tập viên đánh giá và lựa chọn trang web bằng cách tìm kiếm hoặc duyệt

từ trang web ngày sang trang web khác để quyết định các trang web có đủ giá trị đểđược thêm vào thư mục của họ hay không Một danh sách các chủ đề theo từng phânloại sẽ được tạo ra cùng với các liên kết tới các trang web đã được phân loại trong mộtcấu trúc phân cấp để người dùng dễ dàng trong việc truy vấn thông tin

Thư mục web chỉ gồm các liên kết được sắp xếp theo chủ đề và có chú thích Vìcác liên kết được chọn bằng tay, do đó các thư mục thường nhỏ và bị hạn chế Vì vậy,kết quả tìm kiếm thường được kết hợp với các kết quả tìm kiếm của các đối tác tìmkiếm khác, được gọi là kết quả "fall-through" hay "fall-over" Kết quả được hiển thịkhác nhau trong danh sách thư mục chung (kết quả cơ bản - tự nhiên) Ngược lại, một

số công cụ tìm kiếm cũng lấy thông tin từ thư mục để tăng khả năng cung cấp kết quảtìm kiếm có độ chính xác cao cho người dùng

Trang 17

Tương tự như công cụ tìm kiếm, thư mục hỗ trợ thanh toán cho việc quảng cáo,vàcũng như xếp hạng các trang web Danh sách thư mục đứng đầu được dựa trên các thểloại thư mục, tiêu đề và mô tả của trang web Biên tập viên đánh giá các trang webdựa nội dung trang web bao gồm chất lượng bài viết và cách thức trình bày Khi đápứng tất cả các điều kiện xác định trên thì trang web sẽ được thêm vào thư mục.

Hình 4.Yahoo! Directory Search

3.3 Meta-Search Engines

Meta-Search Engines, còn được gọi là đa công cụ tìm kiếm, hay Siêu công cụ tìmkiếm, metasearchers, hoặc metacrawlers, là những công cụ tìm kiếm đặc biệt chúngđưa ra kết quả bằng cách truy cập nhiều công cụ tìm kiếm và thư mục web Bằng cáchnày, chúng cho phép người dùng nhanh chóng nhận được kết quả kết hợp của nhiềucông cụ tìm kiếm khác nhau và hiển thị trên một trang duy nhất Vì vậy, người sửdụng web không cần phải gõ nhiều lần truy vấn và cũng không phải truy cập vào tất

cả các công cụ tìm kiếm Siêu công cụ tìm kiếm sẽ thực hiện công việc này và nó cóthể gợi ý người dùng lựa chọn thêm các công cụ tìm kiếm mà trước đó người dùngkhông quan tâm

Bằng cách thực hiện một truy vấn tìm kiếm, Siêu công cụ tìm kiếm gửi thông tincần tìm đến nhiều công cụ tìm kiếm cùng một lúc Multi-Search engine không thuthập dữ liệu hoặc duy trì cơ sở dữ liệu riêng của nó như một công cụ tìm kiếm đơn,

Trang 18

thay vào đó nó chỉ lọc lại các kết quả mà nó nhận được từ các công cụ tìm kiếm khác.Dựa trên một thuật toán cụ thể, dùng để loại bỏ trùng lặp và xếp hạng kết quả từ cácnguồn tìm kiếm vào một danh sách Danh sách kết quả sẽ được hiển thị trên trang kếtquả tìm kiếm (SERP).

Ngoài ra còn có một số siêu công cụ tìm kiếm không sử dụng thuật toán, chúngchỉ trình bày các thông tin kết quả của các nguồn tìm kiếm Meta-Search Engine chỉkhác nhau ở chổ chọn nguồn tìm kiếm nào, số lượng các nguồn tìm kiếm là bao nhiêu

và cách thức trình bày kết quả

Hình 5.Siêu công cụ tìm kiếm Dogpile

Trang 19

Chương 4 Phân tích, so sánh các hệ thống tìm kiếm thông tin

4.1 Các hệ thống tìm kiếm thông tin phổ biến

Khi mọi người tìm kiếm thông tin, họ thường có ít nhất một công cụ tìm kiếm ưathích mà họ thường xuyên sử dụng để đáp ứng nhu cầu tìm kiếm của họ TheoAbout.com, hầu hết các hệ thống tìm kiếm thông tin cần có ba tính năng chính, cụ thể

là kết quả phải thích hợp, gọn gàng, giao diện dễ đọc và có các tùy chọn hữu ích đểthắt chặt hoặc mở rộng kết quả tìm kiếm Do đó, công cụ tìm kiếm phổ biến sẽ có cáctính năng nói trên Ngoài ra các công cụ tìm kiếm phổ biến có dữ liệu được duy trì tốt

và thường xuyên được cập nhật

Các nhà thiết kế web thường quan tâm đến các công cụ tìm kiếm, bởi vì họ muốntrang web của họ được dễ dàng tìm thấy thông qua các công cụ tìm kiếm để tănglượng truy cập vào website của họ Vì vậy, họ thường có chiến lược SEO cho ứngdụng web của họ

Một cuộc khảo sát công cụ tìm kiếm được ưa thích nhất trên toàn toàn cầu đượctiến hành bởi ComScore, một công ty đi đầu trong việc đo lường trong thế giới kỹthuật số, chứng minh rằng Google là công cụ tìm kiếm được sử dụng nhiều nhất trênthế giới: Trong năm 2009, Google thống trị 66,8% các tìm kiếm trên toàn thế giới với87.809 triệu lượt tìm kiếm, theo sau là Yahoo! với 9.444 triệu lượt tìm kiếm, công cụtìm kiếm Trung Quốc Baidu với 8534 triệu lượt tìm kiếm, và Bing xếp thứ tư với4.094 triệu lượt tìm kiếm [comScore, 2010]

Bảng 1 dưới đây cho thấy tổng số tìm kiếm trên toàn thế giới từ năm 2008 và

2009 của những người ở độ tuổi 15 trở lên Dựa vào bảng này ta có thể thấy, trangweb tìm kiếm của Microsoft đã tăng 70% lượt tìm kiếm trong năm 2009 so với năm

2008 Tiến bộ nhất là công cụ tìm kiếm Yandex của Nga với 91% Tuy nhiên, hiện tại

nó không được biết đến trên toàn thế giới

Trang 20

Bảng 1 Thống kê số lượt tìm kiếm của các hệ thống tìm kiếm phổ biến

trên thới giới năm 2008 - 2009

Theo nghiên cứu Hitslink của Net Applications cho thấy bảng xếp hạng thị phầncủa các công cụ tìm kiếm trong hai năm qua tính tới tháng 8 năm 2010 Google đứngđầu với 84,73% thị phần, và cao hơn so với Yahoo! (6,35%), Baidu (3,31%) và Bing(3,30%), trong khi các công cụ khác chỉ chiếm tổng cộng 1,32% Baidu mới đây đãtăng nhanh hơn Bing, cụ thể là từ Tháng 7-Tháng 8 năm 2010 đã tăng thêm 1% [NetApplications, 2010] Hình dưới đây minh họa tổng thị phần của công cụ tìm kiếmtrong tháng 8 năm 2010

Hình 6.Thị phần của công cụ tìm kiếm - tháng 8 năm 2010

Định dạng
Số trang	40
Dung lượng	0,93 MB

Tài liệu tham khảo	Loại	Chi tiết
[2] Bing Webmaster Center, (2010). Bing Webmaster Center FAQs. http://download.microsoft.com/download/4/5/4/454C13D4-D94D-4B54-8E46-FE403DF7632B/WMC_FAQ.pdf	Link
[3] Brutlag, (2009). Speed Matters for Google Web Search. Retrieved September 17, 2010, http://code.google.com/speed/files/delayexp.pdf	Link
[5] comScore, (2010). comScore Reports Global Search Market Growth of 46 Percent in 2009.http://www.comscore.com/Press_Events/Press_Releases/2010/1/Global_Search_Market_Grows_46_Percent_in_2009	Link
[6] DeJarnette, (2009) Search Engine Optimization for Bing. Bing Community: http://www.bing.com/community/blogs/webmaster/archive/2009/09/03/search-engine-optimization-for-bing.aspx	Link
[8] Dogpile, (2007) Different Engines, Different Results: Web Searchers Not Always Finding What They're Looking for Online. Retrieved September 12, 2010, http://www.infospaceinc.com/onlineprod/Overlap-DifferentEnginesDifferentResults.pdf	Link
[9] Gil, (2010) The 10 Best Search Engines of 2010. http://netforbeginners.about.com/od/navigatingthenet/tp/top_10_search_engines_for_beginners.htm	Link
[10] Google Inc., (2010). Corporate Information. http://www.google.com/corporate/tech	Link
[11] GoogleGuide. (2007). How Google Works. http://www.googleguide.com/google_works.html	Link
[15] Microsoft. (2007). Do What I Mean, Not What I Say. Bing Community: http://www.bing.com/community/blogs/search/archive/2007/10/24/do-what-i-mean-not-what-i-say-part-1-of-2.aspx	Link
[17] Net Applications. (2010). Search Engine Market Share.Netmarketshare: http://marketshare.hitslink.com/search-engine-market-share.aspx?qprid=5&qpct=2#	Link
[19] Yahoo! Help. (2010). Yahoo! Search Help Topics: Search Indexing and Ranking. Retrieved September 20, 2010, from Yahoo! Help:http://help.yahoo.com/l/us/yahoo/search/indexing/;_ylt=AilwLgBe0n4UR9OOCiowOsWutHhG	Link
[1] Baeza-Yates & Ribeiro-Neto, (1999), B:Modern Information Retrieval. Essex, England: ACM press	Khác
[4] Clay, B., & Esparza, S (2009). Search Engine Optimization All-In- One For Dummies. Indiana: Wiley Publishing, Inc	Khác
[12] Langville, A. N., & Meyer, C. D. (2006). Google's Page Rank and Beyond. Princeton: Princeton University Press	Khác
[14] Lewandowski, D., Whalig, H., & Meyer-Bautor, G. (2005). The Freshness of Web search engines' databases	Khác
[16] Mohamed, K. A.-E.-F. (2004). Merging Multiple Search Results Approach For Meta-Search Engines. University of Pittsburgh	Khác
[18] Thurow (2003): Search Engine Visibility. USA: New Riders Publishing	Khác
[20] Sherman, C., & Price, G.: The Invisible Web. Medford, NJ: Information Today	Khác