Vấn đề đặt ra ở đây là mỗi cơ sở dữ liệu của một máy tìm kiếm cing chỉ là một phần nhỏ của toàn bộ mạng thông tin Internet vat mdi may tim kiếm có những truy vẫn đặc biệt khác nhau đồi h
Trang 1TRUONG DAI HQC THUONG MAIL
THUONG MAI UNIVERSITY
Chủ biên: TS Nguyễn Trần Hưng
Trang 2LỜI NÓI ĐÀU
Sự phát triển mạnh mẽ của các công nghệ mới, tiên tiến trong cách
mạng công nghiệp 4.0 giúp tạo ra các sản phẩm và dịch vụ mới, tăng
hiệu quả sản xuất, thúc đây sáng tạo và phát triển của nên công nghiệp
trong dài hạn; giảm chỉ phí vận chuyển và liên lạc; hoạt động của các hệ thống cung cấp trở nên hiệu quả hơn và chỉ phí cho các hoạt động
thương mại được giảm thiểu Trong cách mạng công nghiệp 4.0, tăng trướng kinh tế của các quốc gia chủ yếu dựa vào công nghệ, đôi mới và
sảng tao thay thé cho tang trưởng đựa vào khai thác tài nguyên, sử dụng
vốn và lao động chất lượng thấp Đây chính là động lực không giới hạn
cho sự phát triển mạnh mẽ của cách mạng công nghiệp 4.0 trên toàn thể giới trong thời gian tới
Trong cách mạng công nghiệp 4.0, vẫn đề
kiếm dữ liệu thông tìn đang trở thành trọng tâm quan trọng hàng dau
đồng vai trò nền tảng phát triển các công nghệ cất lõi nh: Tri tuệ nhâm tạo (Al), Iwternet gƒ things (loT), Dữ liệu lớn (Big Data) Một trong những kỹ thuật tìm kiếm thông tin quan trọng nhất đó chính là tìm kiếm thông tin trên Internet phục vụ cho các mục đích khác nhau, chẳng hạm
về kỹ thuật khai thác, tìm
nhưc học tập, nghiên cứu và đặc biệt là phục vụ cho hoạt động kinh
doanh Tuy nhiên, bmernet là nguồn dữ liệu không lò được cập nhật liên
tuc và là tập hợp của nhiều trang web khác nhau được lưu trữ trên nhi máy chủ khác nhau trên khắp thể giới, vì vậy thiết bị máy tính của người
dùng không thể tìm kiếm hoặc hoặc kết nối trực tiếp tới tắt cả máy chủ
cùng một lúc Để đạt được các mục đích tim kiém, khai thác từ nguồn die
lệu vô tận như Internet, công cụ lớn nhất đầu tiên có thé thay được
chính là các máy tìn kiểm, đó thực sự là các công cụ mạnh mẽ và hiệu quả, có thể xem như những chiếc chìa khóa để người đùng có thể tìm thấp và tập hợp những thông tin hữu ích
Trang 3
Vấn đề đặt ra ở đây là mỗi cơ sở dữ liệu của một máy tìm kiếm cing
chỉ là một phần nhỏ của toàn bộ mạng thông tin Internet vat mdi may tim kiếm có những truy vẫn đặc biệt khác nhau đồi hỏi người đừng cân phải
có kỹ năng cân thiết để sử dụng nhiều loại máy tìm kiếm và có thể tìm thấy chính xác các kết quả mình cần với thời gian ngắn nhất
Nhằm tăng cường kiến thức và kỹ năng tìm kiếm thông tim trên
Internet, sách “Hướng dẫn tìm kiếm thông tin trên mạng Internet” được biên soạn giúp người học hình thành những kỹ năng cơ bản và chuyên
sâu về sử dụng các máy tìm kiếm thông tin trên mạng Internet phục vụ
các mục đích khác nhau, chẳng hạn: tìm kiểm các thông tin cụ thé theo
yêu câu bắt kỳ; khai thác thông tin thị trường; tìm hiểu nhu cầu của một khu vực thị trường cụ thể; tìm kiếm các đối tác, nhà cung cấp, người dùng hàng kinh doanh một cách chính xác, hiệu quả với sự tiết kiệm tối
đa chỉ phí Ngoài việc trang bị cho người học những kiến thức và kỹ năng chuyên biệt về sử dụng các máy tìm kiếm khác nhau, sách cũng
đồng thời tạo nền tảng cho người đọc trong việc tiếp cận các kỹ năng
chuyên sâu của marketing điện từ như Search Engine Optimizatiom (SEO) và marketing mạng xã hội
Sách được cầu trúc thành 7 chương như sau
Chương 1: Tổng quát vẻ tìm kiếm thông tin trên Internet
Chương 2: Máy tìm kiếm Google
Chương 3: Máy tìm kiếm Facebook Graph Search và Facebook Trends
Chương 4: Máy tìm kiếm Yahoo
Chương Š: Máy tìm kiếm Bing
Chương 6: Máy tim kiém AOL
Chương 7: Máy tùn kiếm DMOZ, Gigablast và kỹ thuật tăng tốc trình duyệt
Trong đó, TS Nguyên Tran Hung biên soạn chương I, 2, 4, 5; Thạc
sĩ Nguyễn Minh Đức biên soạn chương 3; Thạc sĩ Vũ Thị Thúy Hằng biên soạn chương 6; Thạc sỹ Lê Duy Hải biên soạn chương 7 Trong quá trình biên soạn sách, nhóm tác giả đã nhận được sự hỗ trợ tích cực từ
các giảng viên trong Khoa Hệ thống thông tìn Kinh tế và Thương mại
điện từ - Trường Đại học Thương Mại
Trang 4
Chúng tôi xin gửi lời cảm ơn chân thành tới sự hỗ trợ, động viên, tham gia góp ý, tạo mọi điều kiện tốt nhất để sách được hoàn thiện của
Ban Giám hiệu, Phòng Quản lý Khoa học, của Hội đồng Khoa Hệ thông
thông tìn Kinh tế và Thương mại điện tử - Trường Đại học Thương Mại
Trang 5
1.1 Khái niệm và đặc điểm của tìm kiếm thông tin trên Internet
1.1.1 Khái niệm tìm kiếm thông tin trén Internet
Khái niệm về tìm kiếm thông tin có rất nhiều cách diễn đạt khác nhau nhưng về bản chất đó là quá trình tự động trích xuất thông tin có giá
trị (Thông tin dự đoán - Predictive Information) ân chứa trong khôi lượng
dữ liệu khổng lồ trong thực tế Tìm kiểm thông tin phân tích các m
quan hệ và các mẫu trong các dữ liệu được lưu trừ dựa trên các truy vấn của người ding
Hình 1.1: Mô hình tìm kiếm thông tin trên mạng Internet
Tìm kiếm thông tin trén mang Internet được hiểu là quá trình phân tích trong khối lượng dữ liệu được lưu trữ của các máy tìm kiểm và tự
òng lựa chọn, trích xuất thông tin có giá trị phù hợp với yêu cầu tìm kiếm dựa trên các truy vấn của người dùng
Trang 61.1.2 Đặc điểm của tìm kiếm thông tìn trên Internet
Tìm kiếm thông tin trên Internet có thể là công việc khá dễ dàng
hoặc rất khó khăn đối với người dùng Khi truy cập và tìm kiếm thông tin
trên Internet, cần chú ý một số đặc điểm sau đây của hoạt động tìm kiếm thông tin trên mạng Internet để có thể tìm kiếm hiệu qu:
+ Nội dung trên Internet luôn được cập nhật và bổ sung, không có
ập được trên Internet
+ Tài liệu trên Internet không được xử lý bằng một hệ thống hợp
chuẩn nào Nếu như danh mục tài liệu trong các thư viện được xử lý bao
gồm những từ khóa chuẩn có kiểm soát thì nguồn tin trên Internet hoàn
toàn không sử dụng bất cứ công cụ nào tương tự như vậy Do đó, khi
thực hiện tìm kiếm, người dùng cần phải biết phán đoán những từ ngữ, thuật ngữ khác nhau sẽ được sử dụng trong các trang web cần tìm kiếm + Khi tiến hành tìm kiết
thông tin, dữ liệu trên Intemet, người dùng
không thể thực hiện tìm kiếm một cách trực tiếp Thông tỉn trên Intemet là
tổng hợp thông tin của rất nhiều trang web được lưu trữ trên nhiều máy chủ
khác nhau trên khắp thể giới Thiết bị máy tỉnh của người dùng không thé
c nhiều máy tìm kiểm gián tiếp đang có hiện nay Các máy tìm Mông sẽ
cho phép người dùng tìm kiếm trong cơ sở dữ liệu của nó và mỗi cơ sở dữ liệu của một máy tìm kiếm cũng chỉ là một phần nhỏ của toàn bộ mạng, thông tin toàn cầu Máy tìm kiếm cung cắp cho người dùng các đường link
kết nối tới các trang web Người dùng nhấp chuột vào các đường kết nói này
về các văn bản, hình ảnh, âm thanh, và các thông tin khác theo yêu
cầu tìm kiếm từ các máy chủ khác nhau trên khắp thế giới
1.2 Những vấn đề thường gặp phải trong tìm kiếm, tập hợp, phân
loại và xử lý thông tin trên Internet
1.2.1 Tìm kiếm thông tin
Khi thực hiện tìm kiếm thông tin trên Internet, vẫn đề mà người dùng thường gặp phải bao gồm:
+ Xem Internet như là một thự viện
Trang 7“Thư viện là nơi thông tin không chỉ được lưu giữ mà còn được xử lý
và tô chức, từ đó cho phép việc tìm kiếm được thực hiện dễ dàng Việc
xử lý thông tin được thực hiện theo những tiêu chuẩn quốc tế và có những qui định nghiêm ngặt Thư viện có cán bộ được đào tạo và có kinh
nghiệm nhiều năm trong việc hỗ trợ mọi người tìm kiếm thông tin Mặc
dù Internet là kho thông tin vô tận nhưng các thông tỉn trên môi trường này không được tập hợp và xử lý theo một hệ thống hợp chuẩn nào Ngoài ra, thông tin trên Internet cũng không được kiểm soát về chất lượng, tính chính xác của nguồn thông tin như các hệ thống phân loại của thu vi
+ Xem Internet như nguôn thông tin duy nhất
Internet chỉ là một trong nhiều nguồn cung cấp thông tin Thư viện, đồng nghiệp, các hội nghề nghiệp, các cơ quan chính phủ và các nguồn thông tin khác đều đóng vai trò quan trọng trong quá trình tìm kiếm,
khai thác các thông tin có giá trị theo yêu cầu phục vụ kinh doanh hoặc nghiên cứu
+ Tìn tưởng quá vào chất lượng nguồn thông tỉn trén Internet
Bat cứ ai truy cập vào Internet cũng có thể đưa lên mạng những thông tin mà họ muốn Không có sự đảm bảo nào cho những thông tin
mà người dùng tìm được trên Internet về tính chính xác và sự cập nhật
Có những nguồn thông tin khác đáng tin cậy hơn Internet Các cán bộ thư viện đã được đào tạo một cách chuyên nghiệp có thể đánh giá được độ tin cây của thông tin tìm được Các bài báo trong những tạp chí được các
nhà chuyên môn biên tập nội dung sẽ có chất lượng tốt hơn và những nhà xuất bản danh tiếng cũng là một chứng thực cho những tải liệu hữu ích và đáng tin cậy Tất nhiên không phải bất cứ bài báo hay ấn phẩm nảo trong
thư viện cũng hoàn toàn đáng tin cậy, song người dùng có thể tin tưởng,
rằng người ta ít nhất cũng đã kiểm tra nguồn tin trước khi cung cấp để sử
dụng Điều này thường không xảy ra đối với tài liệu trên Internet Chính
vì vậy, khi tìm kiếm thông tin dữ liệu trên Internet, người dùng cần đặt ra một loạt những câu hỏi mang tính phê phán với bắt kỳ thông tin nào thu
thập được và điều này rất quan trọng khi sử dụng thông tin từ Internet
Trang 8Trên Internet các thông tin có thể được xuất hiện thường xuyên và biến mắt mà không được báo trước Một nhà cung cấp địch vụ có thể thay đổi địa chỉ web, một cá nhân hoặc một nhóm tài trợ có thể không
còn thời gian và/hoặc tiền bạc để duy trì một website Đây là một trong
tất nhiều lý do khiến thông tin đã đăng tải có thể bị biến mắt Người dùng cần nhớ rằng không nên phụ thuộc vào một nguồn thông tin duy nhất bởi
vì không phải lúc nào thông tin đó cũng sẵn có
+ Tìm kiếm thông tin trên Internet la đơn giảm
Internet là một không gian thông tin rất rộng lớn, có phạm vi toàn cầu và vì vậy tìm kiếm những đoạn thông tin nhỏ đôi khi là điều không thể thực hiện được hoặc người dùng cần phải chọn lọc trong rất
nhiều thông tỉn rác Cũng có những máy tìm kiếm có thể hỗ trợ người dùng nhưng quá trình nghiên cứu và tìm kiếm mặc di cho kết quả
nhanh nhưng việc tập hợp và phân loại thông tin đôi khi cũng đòi hỏi
sự kiên nhẫn Tìm kiếm trên Internet thường đòi hỏi sự kiên nhẫn nều người dùng không biết sử dụng đúng cách tìm kiếm thông tin với các
máy tìm kiếm
+ Thông tin trên Internet được cung cấp miễn phí
Phần lớn các thông tin tìm thấy trên Internet đều được cung
phí nhưng không phải là tất cả Những thông tin hữu ích thường không,
được cung cấp miễn phí Phần lớn thông tin trên Internet thường không được các nhà nghiên cứu nghiêm túc cho là thông tin hữu ích Rất nhiều
tổ chức sử dụng Internet như là một công cụ quảng cáo hoặc quan hệ công chúng Có một số cơ sở dữ liệu và tài liệu có giá trị được cung cấp
miễn phí trên Internet, tuy nhiên rất nhiều trang web được thiết kế đề bán sản phẩm hoặc cung cấp dịch vụ dựa trên việc đăng ký phải trả tiền, ví
dụ : Forester.com; ABI Research; emarketer.com
1.2.2 Tập hợp thông tìm
Những thông tin nào người dùng có thể tìm thấy trên Internet?
Không thê liệt kê tất cả các loại nguồn tin có trên Internet, đặc biệt khi Intemet thay đổi rất thường xuyên và nhanh chóng Tuy nhiên, nhìn chung Internet hữu ích nhất khi tìm kiếm những thông tin được tập hợp
trong các nhóm sau đây (chú ý phần lớn những thông tin này là bằng tiếng Anh):
10
Trang 9+ Văn hóa đại chúng, ví dụ: phim, nhạc, truyền hình, thể thao
bền vững (IISD) hup:/iisd1iisd.ca «_ Báo cáo hoạt động;
nghiên cứu chuyên môn
http://www vinacafe.com.vn và thông tin về công ty Công ty Ford Việt Nam «_ Thông cáo và báo cáo
Trang 10Thông tin nhập học
Thông tin về các khóa
học Danh mục thư viện; hướng dẫn nghiên cứu
Dữ liệu thống kê: luật
pháp; thông cáo báo chi
Báo cáo, chính sách Thông tin liên hệ
Các chuyên gia, những người hăng
hái họat động trong một lĩnh vực nào
đó, những người nổi tiếng, những
người không nồi tiếng hoặc bất cứ ai Quan điêm cá nhân,
Trang 111.2.3 Phân loại và xứ lý dữ liệu
Mặc dù có thể truy cập và sử dụng nhiều loại máy tìm kiếm đề tìm kiếm
thông tin, dữ liệu trên Internet, người dùng có thể sẽ gặp phải những vấn đẻ
về phân loại và xử lý dữ liệu thu thập được Để hạn chế tối đa điều này,
ngoài việc hiểu sâu hơn về tính năng của từng công cụ và phải luyện tập sử dụng nhiều lần, vấn đề quan trọng là cần nắm bắt cách thức các máy tìm kiểm phân loại và xử lý dữ liệu để có phương pháp tìm kiếm phù hợp Muốn
vậy, người dùng cần phải biết mình đang thực hiện tìm kiếm với công cụ nào Về cơ bản có một số loại máy tìm kiếm sau đây và mỗi loại có cách phân loại và xử lý dữ liệu khác nhau để trả về kết quả cho người dùng
a Máy tìm kiếm có cơ sở dữ liệu
Cae may tìm kiếm làm việc theo nguyên tắc tìm kiếm trong cơ sở dữ liệu được tự động xây dựng bởi một robot mà không phải do con người xây dựng Máy tìm kiếm sẽ so sánh các từ khóa mà người dùng nhập vào
cửa số tìm kiếm với các từ hoặc cụm từ được đăng tải trong nội dung của các trang web mà máy tìm kiếm lưu trữ
Lượng thông tin mà các máy tìm kiếm có thể bao quát thường dao động từ một số nhỏ và trong một phạm vi hẹp về nội dung cho đến chứa đựng hơn 90% nội dung các trang web có thể xử lý được
Kết quả tìm kiếm của người dùng có phù hợp hay không là phụ thuộc
vào khả năng sử dụng nhuần nhuyễn các tính năng và cú pháp của máy tìm kiếm và diện bao quát của máy tìm kiểm mà người dùng sử dụng
+ Điểm mạnh: Khi tìm kiếm một tải liệu cụ thể (tên tải liệu, tên
người, tô chức đã biết), tìm kiếm các chủ đề khó phân loại
+ Điểm yếu: Không cho phép có một cái nhìn tổng quát về một chủ đẻ
cụ thể (trong đó có thể có những chủ để nhỏ mà người dùng chưa biết)
Trang 12Google và Bing là hai máy tìm kiếm có cơ sở dữ liệu lớn nhất, tuy
nhiên cần lưu ý là không có một máy tìm kiếm nào có thể tìm được toàn
bộ thông tin về một chủ đề
b, Máy tìm kiếm liên thông (meta-search engines)
Không thực sự là một máy tìm kiếm có cơ sở dữ liệu được xây dựng
từ các trang web trên Internet, các máy tìm kiếm liên thông sử dụng cơ sở
dữ liệu có sẵn của các máy tìm kiếm khác Khi người dùng nhập vào một
truy vấn, máy tìm kiếm liên thông gửi truy vấn này có thể vào một hoặc
một số máy tìm kiếm khác để nhận về kết quả và thường tập hợp được khoảng 10% kết quả tìm được ở mỗi máy tìm kiếm mà chúng liên kết
+ Điểm mạnh: Thường tìm kiếm hiệu quả nếu người dùng chỉ sử dụng một từ hoặc một cụm từ
+ Điểm yẫu: Người dùng không thể sử dụng các chức năng tìm kiếm
nâng cao của từng máy tìm kiếm Người dùng cũng không thê tiền hành
một phép tìm toàn diện và phức tạp
Một số máy tìm kiếm liên thông tiêu biểu:
Surfwax Dogpile Metacrawler
htpysvww.surfivax.com’ — hitps/www.dogpile.com —_httpd/www.metacrawler.com Startpage Metager Yippy
hdp/Avwvw.siarpagecom —hutp/ww20.metager.com/ _hiip:/Avwwyippy.com
cc Cong thông tin/ Danh mục theo chủ để
ubject directory) Cổng thông tin là các website cung cấp các nội dung thông tin và dịch vụ tiện ích cho người dùng trực tuyến, thường có máy tìm kiếm của
riêng mình và được tổ chức theo thứ bậc Các công thông tin do con người tập hợp thông tin, biên soạn và sắp xếp theo một hệ thống phân
loại Đôi khi các cổng thông tin là do các chuyên gia trong một lĩnh vực tập hợp Điều này có nghĩa là thông tin ở đây đã được thẩm định và đánh giá về sự phù hợp và chất lượng
Trong công thông tin, người dùng có thể xem theo chủ đề và có thể
tìm kiếm Ví dụ về một số công thông tin:
+ ELDIS (Electronic development and information system = Hệ
thống thông tin và Phát trién dién ni) btp://www.eldis.org/
14
Trang 13Công thông tin phát triển ELDIS cung cấp một điểm truy cập trung tâm tới các thông tin về phát triển, các hướng dẫn theo từng chủ đề phát
triển, thông tin phát triển về từng quốc gia tin tức, thông tin tuyển dụng,
và các tư liệu khác
+ Thư viện do trên mang hitp://www.vlib.org!
Thư viện áo trên mạng được tự mô tả như là “danh mục lâu đời nhất trên web, do Tim Berners-Lee - người kiến tạo nên mạng web - xây
dựng Thư viện ảo được quản lý bởi một nhóm các tỉnh nguyện viên là chuyên gia vẻ nhiều lĩnh vực Thư viện ảo này được coi là một trong những công thông tỉn có chất lượng về một số lĩnh vực, tuy nhiên nó, không phải là cơ sở dữ liệu lớn nhất Thư viện ảo này được sắp xÉp theo
trật tự chữ cái, theo chủ đề và cũng có máy tìm kiếm riêng,
+ Cổng thông tin vẻ xe hoi http://www.cars.com
Cung cấp thông tin về thị trường ô tô kỹ thuật số hàng đầu tạo ra các kết nối có ý nghĩa giữa người mua và người bán Ra mắt vào năm 1998
và có trụ sở tại Chicago, công ty trao quyền cho người tiêu dùng với nguồn lực và thông tin để đưa ra quyết định mua hàng xung quanh The 4Ps ciia Automotive Marketing "M; Sản phẩm, Giá cả, Địa điểm và Người, bằng cách kết nối các đối tác quảng cáo với người mua xe trong thị trường và cung cắp dữ liệu -thông minh thông mình để tăng lượt hàng
tồn kho và giành thị phần Là nhà tiên phong trong lĩnh vực phân phối ô
tô trực tuyến, công ty đã phát triển thành một trong những nên tảng ô tô
kỹ thuật số lớn nhất, kết nối hàng ngàn đại lý địa phương trên toàn quốc với hàng triệu người tiêu dùng
+ AOL hitp://www.aol.com
Danh mục tìm kiếm theo chủ đề được liệt kê cho phép người dùng
lựa chọn để tìm kiếm thuộc nhiều lĩnh vực khác nhau từ: Xu hướng, tin tức, giải trí, công nghệ, thê thao, phong cách sống, tài chính
1.3 Khái quát về máy tìm kiếm trên Internet
1.3.1 Khải niệm và nhiệm vụ của các máy tìm kiếm
Internet và World Wide Web có đến hàng trăm triệu website có sẵn mang các thông tin về nhiều chủ để khác nhau Tuy nhiên hầu hết chúng đều được đặt tiêu đề theo ý thích của tác giá và được lưu trữ trên máy chủ
15
Trang 14với các tên khó hiểu Khi người tìm kiếm cần biết về một chủ đẻ nào thì
sẽ phải đọc các trang nào? Phần lớn mọi người khi băn khoăn về vấn đẻ này và họ sẽ sử dụng một máy tìm kiếm trên Internet (Internet search
engine) Nhu vay may tim kiếm là gì
“Máy tim kiém (Search engine) trén Internet là các website đặc biệt,
được thiết kế để giúp mọi người tìm kiểm thông tìn được lưu trên các site khác nhau Có nhiều cách khác nhau để thực hiện các tìm kiếm này,
nhưng tất cả chúng đều thực hiện ba nhiệm vụ cơ bản
+ Tìm kiểm Internet hoặc chọn các mâu thông tỉn trên Intemet dựa trên các từ hoặc cụm từ quan trọng
+ Giữ một chỉ mục cho các từ tìm thấy cùng với địa chỉ tìm thấy chúng
L Cho phép người ding tim kiém các từ hoặc cụm từ được tìm kiếm trong chỉ mục đó
'Các máy tìm kiếm trên Internet trước kia đều giữ chỉ mục của hàng trăm ngàn trang web và tài liệu, chúng thường nhận có thể một hoặc hai
nghìn yêu cầu tìm kiếm mỗi ngày Ngày nay, cỗ máy tìm kiếm hàng đầu
đánh chỉ mục hàng trăm triệu trang web và đáp trả đến hàng chục triệu
yêu cầu mỗi ngày
1.3.2 Các bộ phận cầu thành và nguyên tắc hoạt động của mdy tim kiém Ngày nay, hầu hết người dùng Internet chưa hiểu nhiều về cách tìm
kiếm của họ trên Web hay hoạt động của các máy tìm kiếm ra sao, chính
vì vậy mà công việc tìm kiếm không đạt được hiệu quả như mong muốn Máy tìm kiếm được cấu thành bởi ba bộ phận cơ bản, cả ba bộ phận này có sự độc lập tương đối với nhau về mặt hoạt động, nhưng lại có sự
gắn kết với nhau, phụ thuộc lẫn nhau về mặt dữ liệu
nó di chuyển và từ “worm” làm người ta liên tưởng đến virus Về bản
chất robot chỉ là một chương trình duyệt và thu thập thông tin từ các site
16
Trang 15theo đúng giao thức web Những trình duyệt thông thường không được xem là robot do thiếu tính chủ động, chúng chỉ duyệt web khi có sự tác động của con người
Vay cach spider thực hiện công việc của nó trên Web như thế nào?
Điểm khởi đầu là danh sách các máy chủ và trang web phô biến Spider
sẽ bắt đầu với một site phổ biến nào đó, đánh chỉ mục các từ trên trang của nó và theo các liên kết tìm thấy bên trong site này Theo he
thống Spider sẽ nhanh chóng thực hiện công việc của nó và trải rộng ra toàn bộ các phần được sử dụng rộng rãi nhất của web Spider lấy nội dung của trang web và tạo các từ khóa tìm kiếm để cho phép người dùng
trực tuyến có thẻ tìm các trang mong muốn
h
+ Bộ phận thứ hai — Index hay còn được gọi là bộ lập chỉ mục
Khi Spider đã hoàn tất nhiệm vụ tìm thông tỉn trên các trang web,
(lưu ý rằng đây là nhiệm vụ không bao giờ hoàn tắt vì luôn có sự thay đổi của các trang nên điều đó có nghĩa là Spider sẽ luôn thực hiện nhiệm vụ của nó), cỗ máy tìm kiếm phải lưu các thông tin này theo một cách nào
đó để có lợi nhất Có hai thành phần chính liên quan tới việc tạo dữ liệu
đã thu thập được để có thê truy cập với người dùng:
~ Thông tin được lưu với dữ liệu
- Phương pháp, cách thức đánh chỉ mục thông tin
“Tóm lại, hệ thống lập chỉ mục hay còn gọi là hệ thống phân tích và xứ
lý dữ liệu sẽ thực hiện việc phân tích, trích chọn những thông tin cần thiết
(thường là các từ đơn, từ ghép, cụm từ quan trọng) từ những dữ liệu mà robot thu thập được và tô chức thành cơ sở dữ liệu riêng đẻ có thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả Hệ thống chỉ mục là danh sách các từ khoá, chỉ rõ các từ khoá nào xuất hiện ở trang nào, địa chỉ nao
+ Bộ phận thứ ba —Bộ tìm kiểm thông tin
Bộ tìm kiếm thông tin tương tác với người dùng thông qua giao diện
web, có nhiệm vụ tiếp nhận & trả về những tài liệu thoả mãn yêu cầu của người dùng Nói cách khác, tìm kiếm từ khóa là tìm kiếm các trang mà những từ khóa trong câu truy vấn (query) xuất hiện nhiều nhất, ngoại trừ
stopword (các từ quá thông dụng như mạo từ a, an, the, ) Trang web nào mà chứa đựng cảng nhiều từ khóa trong truy vấn của người dùng thì
17
Trang 16trang đó càng được bộ tìm kiểm thông tin lựa chọn để trả về cho người
dùng Và một trang chứa tắt cả các từ khóa trong câu truy vấn của người
dùng thì tốt hơn một trang không chứa hoặc chỉ chứa một số từ khóa
trong câu truy vấn đó Ngày nay, hầu hết các bộ tìm kiếm thông tin của các máy tìm kiếm đều hỗ trợ chức năng tìm cơ bản và nâng cao, tìm từ
đơn, từ ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm như trên đề mục, tiêu đề, đoạn văn bản giới thiệu về trang web
Ngoài chiến lược tìm chính xác theo từ khoá, hiện nay các bộ tìm kiếm thông tin của các máy tìm kiếm còn cố gắng hiểu ý nghĩa thực sự của câu hỏi thông qua những câu chữ do người dùng cung cấp Điều này
được thê hiện qua chức năng sửa lỗi chính tả, tìm cả những hình thức biến đổi khác nhau của một từ Ví dụ: máy tìm kiếm sẽ tìm những từ như
speaker, speaking, spoke khi người dùng nhập vào từ speak
Nguyên tắc hoạt động của các máy tìm kiếm:
tìm kiếm để tạo cơ sở dữ liệu chỉ mục phục vụ cho nhu cầu tìm kiếm
18
Trang 17thông tin Bởi vì thông tin trên mạng luôn thay đôi nên robot phải liên tục cập nhật lại các site cũ Mật độ cập nhật phụ thuộc vào từng hệ thống của máy tìm kiếm Khi bộ tìm kiếm thông tin nhận câu truy vấn từ ngưc
dùng thông qua giao diện web của máy tìm kiếm, nó sẽ tiến hành phân tích, tìm trong cơ sở dữ liệu chỉ mục của máy tìm kiếm và trả về những
tài liệu thoả mãn yêu cầu
1.3.3 Phân loại các máy tìm kiếm và cách sử dụng tương ứng với từng loại máy tìm kiếm
Đối với tìm kiếm thông tin trén Internet, người dùng phải biết sử dụng các máy tìm kiếm chung Có hai loại máy tìm kiếm chung thông dụng và phổ biến nhất hiện nay đó là máy tìm kiếm toàn bộ văn bản và
máy tìm kiếm theo chỉ mục chủ đề
a Các máy tìm kiếm toàn bộ văn bản
Những máy tìm kiếm toàn bộ văn bản là những máy tìm kiếm cố gắng chỉ rõ toàn bộ nội dung của một trang Web Công việc đó bao gồm
tiêu để, URL và nội dung trang (Các máy tìm kiếm thông thường không thường xuyên làm công việc này bởi vì trong thực tế có rất nhiều các
máy tìm kiếm giới hạn số lượng kết quả tìm kiếm của một trang mà nó sẽ chỉ ra Với Google chăng hạn, sẽ chỉ chỉ ra 101000 kết quả của một trang
mà không quan trọng là trang đó lớn bao nhiêu.)
b Máy tìm kiếm theo chỉ mục chủ dé (searchable subject indexes)
Những máy tìm kiếm theo chỉ mục chủ đề được không làm công việc
chỉ rõ toàn bộ nội dung của một site Thay vào đó là tên và URL của một
site và thông thường là một sự mô tả ngắn gọn nào đó, được bao gồm
(chứa đựng) trong một tập hợp của các chủ đẻ khác nhau Những may tìm kiểm theo chỉ mục chủ đề có thể thực hiện tìm kiếm rất tốt, chẳng hạn như: Yahoo, ODP
Trong thực tế, một máy tìm kiếm thường là tập hợp của cả hai loại, chang hạn như Google là một máy tìm kiếm toàn bộ văn bản có một thành phần tìm kiếm theo chỉ mục chủ đề được gọi là Thư mục Google
'Yahoo là một máy tìm kiếm theo chỉ mục chủ đề có tùy chọn đẻ tìm kiếm như một máy tìm kiếm toàn bộ văn bản Nhưng chủ yếu, Google được biết đến như là một máy tìm kiếm toàn bộ văn bản và Yahoo được biết
như một chỉ số phụ thuộc tìm kiếm được
19
Trang 18
e Cách tìm kiếm tương ng với từng loại máy tìm kiếm
Những máy tìm kiếm toàn bộ văn bản được xem là tốt khi mà đáp
ứng được yêu cầu của người dùng về tìm kiếm những kiểu thông tin phân biệt rõ rằng Chẳng hạn, những lời trích dẫn, lời bài hát (lyrics), những, địa chỉ, những người không nỗi tiếng, những nơi ít được biết đến hay
những câu hỏi phức tạp Những máy tìm kiếm theo chỉ mục chủ dé
không chứa đựng đủ thông tin về những trang Web đẻ trả lời những loại
câu hỏi này
Mặt khác, những hạn chế của máy tìm kiếm theo chỉ mục chủ đẻ làm cho chúng trở nên rất hữu ích cho việc thực hiện sự tìm kiếm các thông tin có tính phổ biến Đôi khi việc tìm kiếm bằng một máy tìm kiếm theo
chỉ mục chủ để giúp người dùng tìm thấy tài liệu đầy đủ sau đó người dùng sử dụng một máy tìm kiếm toàn bộ văn bản đề tìm thấy các thông
tin đặc biệt, đặc thù hơn Hai kiểu máy tìm kiếm làm việc hài hòa cùng nhau, cung cấp cho người dùng biết cách thức sử dụng kiểu máy nào khi
tìm kiếm một thông tin cần thiết
Về cơ bản, để sử dụng bắt kỳ một máy tìm kiếm nào, người dùng phải tiền hành theo hai bước sau đây:
Bước 1: Mở cửa số giao diện web của các máy tìm kiếm Ngưi
dùng sử dụng trình duyệt để truy cập vào địa chỉ web của máy tìm kiếm
mà mình muốn sử dụng Ví dụ: Truy cập vào máy tìm kiếm yippy.com
Trang 19Bước 2: Gõ từ khóa hoặc truy vấn liên quan đến nội dung thông tin
mà người dùng muốn tìm kiếm vào hộp Search của máy tìm kiếm Ví dụ:
tìm kiếm thông tin về quản trị quan hệ khách hàng
Hình 1.4: Hướng dẫn tìm kiếm - Bước 2 Lưu ý: Quá trình nhập truy vấn vào hộp Search của máy tìm kiếm, người dùng có thể thêm các toán tử, từ bỏ nghĩa hay câu lệnh, cú pháp phù hợp để giúp máy tìm kiếm hiểu rõ về yêu cầu của người dùng và trả
về các kết quả theo mong muốn
Bước 3: Nhận về các kết quả phù hợp Người dùng tìm kiếm các kết quả phù hợp với mong muốn tìm kiếm của mình trong đanh sách mà máy
tìm kiếm trả về
Hình 1.5: Hướng dẫn tìm kiếm - Bước 3
21
Trang 20
1.3.4 Sự tìm kiếm mặc định của các máy tùn kiếm
Bắt chấp thực tế là hai loại máy tìm kiếm đang tìm kiếm những thứ
rất khác nhau, cả hai loại máy tìm kiếm đều có một thứ chung: sự tìm kiếm của chúng được mặc định
Khi người dùng nhập vào một câu hỏi với các từ phức hợp vào trong một máy tìm kiếm và không nhập vào bắt kỳ từ bổ nghĩa tìm kiếm nà
máy tìm kiếm phải quyết định làm sao để xử lý câu hỏi của các người
dùng Nói chung, máy tìm kiếm có thể làm một trong số hai thứ Nó có thể quyết định tìm kiếm để tắt cả những từ tìm kiếm mà người dùng yêu cầu phải được bao gồm trong bắt kỳ kết quả nào- trong trường hợp này
nó đang mặc định là AND Hoặc nó có thẻ quyết định tìm kiếm đẻ bắt kỳ
từ tìm kiếm nào của người đùng phải xuất hiện trong những kết quả tìm kiếm Trong trường hợp này nó đang được mặc định là OR
Điều đầu tiên quan trọng nhất cân phải biết khi sử dụng một máy tìm kiếm đề tìm kiếm thông tin trên Internet đó là người dùng đang sử dụng
máy tìm kiếm toàn bộ văn bản hay một máy tìm kiếm theo chỉ mục chủ
đề Vấn đề quan trọng thứ hai cần phải biết là máy tìm kiếm đó được mặc
định AND hay OR Nếu nó được mặc định là AND, người dùng cần phải
ngẫm nghĩ hơn về những từ trong câu hỏi của các người dùng, bởi vì mọi
từ trong câu hỏi người dùng chọn phải xuất hiện (tồn tại) trong một trang
'Web trước khi người dùng nhận được những kết quả tìm kiếm Nếu nó được mặc định là OR, người dùng cần phải chắc chắn để sử dụng thêm các toán tử hay từ bổ nghĩa ở phía trước những thuật ngữ được bao gồm
trong sự tìm kiếm của người dùng
mà mỗi từ khóa tách biệt khỏi cụm từ đều có nghĩa độc lập Nếu người dùng không nhận được những kết quả (hay đúng hơn là chỉ có vài kết
quả) thì người dùng đang tìm kiếm với một máy tìm kiếm được mặc định
là AND Nếu người dùng nhận được nhiều kết quả thì người dùng đang
ếm với một máy tìm kiếm được mặc định là OR
Chang han, muốn biết máy tìm kiếm bắt kỳ được mặc định tìm kiếm
là AND hay OR, người dùng có thể chọn các cụm từ bao gồm nhiều từ
2
Trang 21
khóa như “Thư viện quốc gia Việt Nam” hoặc “Thương mại điện từ Việt Nam” để nhập vào ô tìm kiếm của máy tìm kiếm Trong cụm từ “Thư viện quốc gia Việt Nam”, mỗi từ khóa "thư viện”, "quốc gia”, “Việt
Nam” tách ra đều có nghĩa độc lập; với các từ khóa “thương mai”, “đi
i”, *Việt Nam” trong cụm từ “Thương mại điện tử Việt Nam” cũng đi
lập Sau đó, người dùng chỉ cần quan sát kết quả tìm kiếm
mà máy tìm kiếm trả về để đưa ra nhận định máy tìm kiếm đó được mặc
định là AND hay OR Cụ thể:
+ Nếu với mỗi kết quả mà máy tìm kiếm trả về đều bao gồm đầy đủ các từ khóa trong cụm từ phức hợp, nghĩa là xuất hiện đầy đủ cả "thư
” và "quốc gia” và "Việt Nam” hoặc "thương mại” và "điện tử” và iệt Nam” thì máy tìm kiếm đó được mặc định 1a AND
+ Nếu với mỗi kết quả mà máy tìm kiếm trả về chỉ bao gồm một
hoặc một số từ khóa trong cụm từ phức hợp, nghĩa là xuất hiện hoặc “thư viện", "quốc gia" hoặc "quốc gia", "Việt Nam” thì máy tìm kiếm đó được mặc định là OR
1.4 Những toán tử cơ bản và những từ bỗ nghĩa của các máy tìm kiếm
Lam thé nio dé người dùng có thể biểu thị các yêu cầu như phải bao gồm cái gì đó hay loại trừ cái gì đó từ sự tìm kiếm của mình với các máy tìm kiếm? Cách thông dụng nhất là sử dụng những toán tử và những từ
bổ nghĩa để giúp máy tìm kiếm biết chính xác người dùng muốn những,
từ tìm kiếm sẽ được xử lý như thế nào hay nói cách khác là kết quả tìm
kiểm sẽ được hiển thị như thể nào
1.4.1 Những toán tử cơ bản
Phần này giới thiệu các ký hiệu toán học được sử dụng khi diỄn đạt
lệnh tìm kiếm Hầu hết các máy tìm kiếm đều sử dụng hai toán tử cơ bản
là + và - để giúp người dùng diễn đạt yêu cầu tìm kiếm
Trang 22+coffee +price +pickers +wages
Máy tìm kiếm sẽ cho kết quả bao gồm tất cả các từ: price, coffee,
pickers wages,
Dùng dấu trừ - đặt trước một từ khóa bắt ky có nghĩa là người dùng muốn máy tìm kiếm hiểu rằng từ khóa đó nhất định không được xuất hiện trong danh sách kết quả mà máy tìm kiếm trả về Ví dụ: nếu người dùng chỉ muốn tìm thông tin về cà phê mà không có từ tách (cup) hoặc
bông (cotton) Tại hộp search của máy tìm kiếm, người dùng nhập vào
như sau: +coff#e -cup ~coffon Máy tìm kiếm sẽ cho ra các kết quả bao gồm coffee nhưng không có cup va cotton
Ngoài ra, với việc sử dụng hai toán tử + và ~ khi phối hợp với nhau
có thể giúp người dùng tìm kiếm những thông tin về tổng thể một vấn đề
nao đó mà loại bỏ đi một phần của tổng thể đó Ví dụ: người dùng muốn tìm hiểu tất cả các thông tin về E-commerce nhưng không muốn tìm hiểu
những vấn đề thuộc khía cạnh bảo mật của E-commerce Tại hộp search của máy tìm kiếm, người dùng nhập vào như sau
+ E-commerce - Security
May tìm kiếm sẽ cho các kết quả bao gồm những khía cạnh và vấn
đề liên quan đến E-commerce nhưng không có liên quan dén Security
1.4.2 Những từ bỗ nghĩa của các máy tùm kiếm
Ngoài các toán tử cơ bản là + và ~, các máy tìm kiếm còn cho phép người dùng sử dụng các từ bỗ nghĩa Trong đó, có một số từ bỗ nghĩa có
thể sử dụng chung với các máy tìm kiếm đề diễn đạt ý định tìm kiếm của
người dùng, giúp máy tìm kiếm đưa ra những kết quả chính xác theo nhu
cầu, Các từ bô nghĩa có thể dùng chung với các máy tìm kiếm bao gồm:
+ Dấu **: Sử dụng dấu nháy kép khi người dùng muốn tìm kiếm
chính xác một cụm từ hoặc một đoạn trích dẫn Ví dụ: người dùng muốn tìm kiếm chính xác Báo cáo thương mại điện tử Việt Nam Tại hộp Search của máy tìm kiếm bắt kỳ, người dùng nhập vào nội dung: “Báo
cáo thương mại điện tử Việt Nam” Máy tìm kiếm sẽ trả về tất cả các kết quả mà kết quả nào cũng xuất hiện đầy đủ và tuần tự cụm từ Báo cáo
thương mại điện tử Việt Nam
24
Trang 23+ Từ bê nghĩa AND: Sir dung AND nếu người dùng muốn tìm kiếm
đồng thời nhiều từ khóa hoặc thuật ngữ cùng một lúc Ví dụ: người dùng, muốn tìm kiếm đồng thời từ khóa lao động và trẻ em Tại hộp Search
của máy tìm kiếm bất kỳ, người dùng nhập vào nội dung: “lao động” AND “tré em” Máy tìm kiếm sẽ trả cả các kết quả xuất hiện đồng
thời lao động
à trẻ em,
+ Từ bố nghĩa OR: Sir dung OR nếu người dùng muốn tìm kiếm
hoặc là cái này hoặc là cái kia, hoặc vấn đề này hoặc vấn đẺ kia, tìm các từ đồng nghĩa hay cách viết khác nhau của một từ Ví dụ: người ding
muốn tìm kiếm hoặc organization hoặc organisation: vietnam hoặc viet nam; quy chế hoặc qui chế Tại hộp Search của máy tìm kiếm bất kỳ,
người dùng nhập vào nội dung:
organization OR organisation
vietnam OR “viet nam”
quy ché OR quy ché
+ Từ bỏ nghĩa NOT: Sử dụng NOT nếu người dùng muốn máy tìm
n loại bỏ những thông tin mình không cần trong danh sách kết quả tìm kiếm trả về Ví dụ: người dùng muốn tìm kiếm thông tin về vàng với
ý nghĩa kim loại quý chứ không phải màu sắc vàng Tại hộp Search của máy tìm kiếm bắt kỳ, người dùng nhập vào nội dung: vàng NOT màu
Máy tìm kiếm sẽ trả về danh sách kết quả tìm kiếm liên quan tới kim loại
vàng chứ không phải màu vàng
Ngoài ra, đối với từng máy tìm kiếm cụ thể sẽ có những cú pháp đặc
biệt vượt ra khỏi các toán tử cơ bản hay các từ bô nghĩa Những cú pháp đặc biệt cho phép người dùng thực hiện sự tìm kiếm đặc biệt bên trong, một trang Web hay có nội dung liên quan đến một trang Web, người
dùng cũng có thể giới hạn những sự tìm kiếm của mình tới một trang
Web vé tiêu để, đường dẫn hay trong nội dung văn bản Những cú pháp
đặc biệt cho các loại máy tìm kiếm thông dụng nhất sẽ được tìm hiểu ở các chương tiếp theo
25
Trang 243 Trong các máy tìm kiếm sau đây, đâu là máy tìm kiếm toàn bộ văn
ban, đâu là chỉ số phụ thuộc tìm kiếm? (Yandex, Bing, Teoma, AOL,
Google, Yahoo, wikipedia, startpage, boardreader, wolframalpha)
4 Hãy sử dụng toán tử tìm kiếm sao cho kết quả tìm kiếm phải xuất
hiện cụm từ sau đây theo đúng thứ tự: *Thị trường chứng khoán”,
*Thương mại điện tử”
5 Hãy tìm kiếm những từ khóa sau đây: "tin nhanh” hoặc "tin mới
ổ phiếu”; "vàng” hoặc "bất động sản”: "ô tô
Trang 25CHƯƠNG 2
MAY TIM KIEM GOOGLE
2.1 Khái quát về máy tìm kiếm Google
3.1.1 Sự hình thành và tìm kiếm mặc định của máy tìm kiếm Google
Máy tìm kiếm Google tại địa chỉ http://4vww.google.com được xem
là máy tìm kiếm tốt nhất và liên tiếp 4 lần chiến thắng trong các cuộc
bình chọn do tạp chí Search Engine Watch lưa chọn Bằng cách sử dụng máy tìm kiếm google, người dùng có thể tìm kiểm hình ảnh, các bàn luận đang có trên Usenet, và newsgroups (tạm dịch - các nhóm tỉn tức) Google cũng cung cấp chức năng kiểm tra lỗi chính tả, tra cứu các từ
điển, tìm giá chứng khoán, bản đồ đi đường, số điện tho:
Google đầu tiên là một dự án xuất phát từ Đại học Stanford cuả các sinh
viên Lany Page và Sergey Brin sáng lập vào khoảng năm 1996 - 1997, dự án lúc đó có tên gọi là BackRRub, Năm 1998, dự án này được đổi thành Google
và được tung ra thị trường trở thành một công ty tư nhân độc lập tên Google cho đến ngày nay Tại thời điểm này, hpz/Avww.Google.com là máy tìm
kiếm toàn bộ văn bản thông dụng nhất hiện nay trên thể giới Nó xử lý hàng triệu trên hàng triệu các yêu cầu tìm kiếm hằng ngày và những chỉ s
bốn tỉ trang Web Nó cũng chỉ rõ những kiểu hồ sơ khác, nhur PDF (Adobe Acrobat), DOC (Microsoft Word), va PPT (PowerPoint)
Google được mặc định tìm kiếm AND, nghĩa là khi người ding tim kiếm một cụm từ mà không sử dụng bắt kỳ toán tử bay từ bổ nghĩa nào, máy tìm kiếm Google sẽ trả về các kết quả mà mỗi kết quả đều chứa đựng đầy đủ các từ khóa trong cụm từ đó Ví dụ, người dùng nhập vào
hộp Search của máy tìm kiếm Google nội dung: điểm chuẩn đại học
2018 Máy tìm kiếm Google sẽ trả về một danh sách kết quả mả kết quả
nào cũng chứa đựng đầy đủ các từ khóa như “điểm chuẩn”, Ỷ
Trang 26
Hinh 2.1: Tim kiếm Google với nội dung “điểm chuẩn đại học 2018”
Kết quả thứ nhất, từ khóa “điểm chuẩn” và “2018” xuất hiện ngay
trong tiêu đề; từ khóa “đại học” và “điểm chuải hiện trong nội dung trang web; từ khóa “điểm chuẩn” còn xuất hiện trong đường dẫn url của trang web Đối với các kết quả thứ hai và thứ n cũng tương tự như
vậy Do đó, có thê thấy các từ khóa trong cụm từ điểm chuẩn đại học
2018 xuất hiện đầy đủ trong mỗi kết quả mà máy tìm kiếm Google trả về
Vì vậy, Google được mặc định tìm kiếm là AND
2.1.2 Các toán tử và từ bỗ nghĩa cơ bản của Google
Các toán tử được sử dụng với máy tìm kiếm Google bao gồi
+ Toán tử “+”: Dùng đấu + đặt trước một từ khóa trong truy vấn của
người dùng khi nhập vào hộp Search của máy tìm kiếm Google có nghĩa
là người dùng muốn máy tìm kiếm Google hiểu rằng trong danh sách k:
quả tìm kiếm đều phải bao gồm từ khóa đó trong mỗi kết quả tìm kiếm
+ Hai toán từ “+” và * — ” có thê kết hợp được với nhau Ví dụ:
người dùng muốn tìm kiếm tắt cả các thông tin về thương mại điện tử
nhưng muốn loại trừ các thông tin liên quan đến vấn đề bảo mật Tại hộp
28
Trang 27Search của máy tìm kiểm Google, người dùng gõ: thương mại
bảo mật Kết quả được hiển thị như sau:
ìm kiếm Google với toan tir “—”
Ngoài hai toán tử (+) và (-) may tìm kiếm Google còn có các từ bổ
nghĩa khác giúp người dùng biều đạt ý định tìm kiếm với máy tìm kiếm
Cụ thể
+ Dấu gạch đọc (|): Dấu gạch dọc được sử dụng để thay thể cho từ OR-hoặc khi người dùng muốn tìm kiếm hoặc cái này hoặc cái kia; hoặc
vấn để này hoặc vấn đề kia Do máy tìm kiếm Google được mặc định tìm
kiếm là AND nên nếu muốn máy tìm kiếm hiều người dùng cần tìm kiếm hoặc thông tin này hoặc thông tin kia thì cần phải biểu dat bing OR va Google thay thé OR bang dau gach dọc ( |)
Ví dụ: người dùng muốn tìm kiếm hoặc cà phê hoặc trà xanh, tại hộp Search của máy tìm kiếm người dùng gõ như sau: cà phê | trà xanh
Kết quả tìm kiếm được hiền thị như sau:
29
Trang 28màu sắc
30
Trang 29Hình 2.4: Tìm kiếm Google với từ bỗ nghĩa NOT
+ Dấu nháy kép * ” : Được sử dụng khi người dùng muốn tìm kiếm chính xác một cụm từ, một đoạn văn bản hoặc một câu trích dẫn Ví dụ: người dùng muốn tìm kiếm chính xác cụm từ Báo cáo thương mại điện
tử Việt Nam 2017, tại hộp Search của máy tìm kiếm Google, người dùng nhập vào như sau: “Báo cáo thương mại điện tử Việt Nam 2017” Kết
quả tìm kiếm sẽ được hiển thị:
Trang 30
it cả các kết quả hiền thị đều cho thấy cụm từ Báo cáo thương mại
điện tử Việt Nam 2017 được xuất hiện (có thể ở trong tiêu 48, trong đường dẫn hoặc trong chính nội dung văn bản) và mỗi từ khóa trong cụm
từ đều xuất hiện một cách tuần tự
2.2 Những cú pháp đặc biệt của Google
Ngọi toán tử và từ bổ nghĩa cơ bản, máy tìm kiếm Google còn
bao gồm một tập hợp các cú pháp tìm kiếm đặc biệt, cho phép người dùng khi kết hợp có thể tìm thấy các thông tin theo yêu cầu mà không phải lọc kết quả
32
Trang 312.2.1 Cú pháp site
Đây là cú pháp khá đặc biệt và thường được sử dụng để hạn chế sự tìm kiếm tới một miền đặc biệt hoặc một min cấp cao Cú pháp site được sử dụng đễ giúp người dùng thể hiện yêu cầu tìm kiếm thông tin
hoặc chủ đề nào đó mà mong muốn các kết quả trả về của máy tìm kiếm
Google chỉ hiện thị các thông tin hoặc chủ để này trong một site cụ thể
hoặc một miền cấp cao được xác định trước VD: người dùng muốn tìm
kiếm thông tin về điểm chuẩn đại học 2018 chỉ trong tat cả các webpage của site vietnamnet.vn Tại hộp Search của máy tìm kiếm Google, người
dùng nhập vào truy vấn như sau: “điểm chuẩn đại học 2018”
Hình 2.7: Kết quả tìm kiếm Google với cú pháp site
Kết quả tìm kiếm được trả về cho thấy bắt kỳ kết quả nào cũng đều bao gồm thông tin về “điểm chuẩn đại học 2018” và đều nằm trong site
vietnamnet.vn
Ngoài ra, đối với tìm kiếm trong một miễn đặc thù với cú pháp site
cũng tương tự như vậy Miễn đặc thù là miền đại diện cho một lĩnh vực hoặc một tô chức, cơ quan nào đó Chẳng hạn: miễn đặc thù bao gồm các site thuộc lĩnh vực giáo dục là edu; miền đặc thù bao gồm các site thuộc
các tổ chức là org; miễn đặc thù bao gồm các site thuộc các cơ quan
chính phủ là gov Ví dụ vẫn là tìm kiểm thông tin về điểm chuẩn đại
33
Trang 32học 2018 nhưng người dùng lúc này muốn tìm kiếm trong tắt cả các site
thuộc lĩnh vực giáo dục Tại hộp Search của máy tìm kiếm Google, người
dùng nhập vào truy vấn như sau: “điểm chuẩn đại học 2018”
site:edu.vn Kết quả tìm kiếm sẽ được hiền thị như sau:
Hình 2.8: Kết quả tìm kiếm Google cú pháp site với miền đặc thù
Kết quả tìm kiếm cho thấy mỗi kết quả đều hiển thị thông tin về
điểm chuẩn đại học 2018 và đều nằm trong tất cả các site thuộc lĩnh vực giáo dục của Việt Nam
2.2.2 Cú pháp intitle và tùy chọn tìm kiếm bồ sung allintitle
Ca phap intitle và tùy chọn tìm kiếm bô sung allintitle được sử dụng
để tìm kiếm những thông tin, chủ dé nim trong tiêu đề của các trang
Web Hay nói cách khác khi sử dụng các cú pháp này, người dùng muốn
biểu thị cho các máy tìm kiếm yêu cầu của mình chỉ tìm kiếm những từ
khóa nằm trong tiêu đề của trang Web mà thôi Điều này có nghĩa là cứ trang web nảo được lưu trữ trong cơ sở dữ liệu của máy tìm kiếm Google
mà trong tiêu đề có chứa đựng từ khóa người dùng truy vấn sẽ được
Google lựa chọn đề trả về trong danh sách kết quả tìm kiếm VD: Tìm kiếm từ “Hạ tầng khóa công khai PKI” bang ci phap intitle Tai hop
Search của máy tìm kiếm Google, người dùng nhập vào truy vấn như sau: intitle:“hạ tằng khóa công khai PKI” Kết qua tìm kiếm được hiển thị như sau:
Trang 33Kết quả tìm kiếm cho thấy tiêu đề của mỗi kết quả đều bao gồm cụm
từ Hạ tầng khóa công khai PKI
Trong thực tế sử dụng, cú pháp intite và tùy chọn tìm kiểm bỏ sung
ttitle có thê kết hợp rất tốt với cú pháp site trong tìm kiếm các bài
viết về một chủ đề được xác định trước trong một site cụ thẻ hoặc một
miền đặc thù Ví dụ: Khi người dùng muốn tìm các bài viết về Youtube marketing trong tắt cả các trang web của các tổ chức Tại hộp
Search của máy tìm kiếm Google, người dùng nhập vào truy vấn như
sau: allintitle:“youtube marketing” site:org Kết quả tìm kiếm được
hiển thị như sau:
Trang 34Khác với tập hợp cú pháp intitle và allintitle chuyên dùng để tìm kiếm trong tiêu đề của các trang web, cú pháp inurl và tùy chọn tìm kiếm
bổ sung allinurl được sử dụng để tìm kiếm các từ khỏa xác định trước về
một lĩnh vực hoặc chủ đề cụ thẻ mà những từ khóa này nằm trong đường
dẫn URL của các trang Web Hay nói cách khác là hai tập hợp cú pháp này chỉ tìm kiếm những từ khóa mà người dùng truy vấn nằm trong URL của các trang Web mà thôi Ví dụ: Tìm kiếm từ firewall nằm trong đường dẫn của các trang web Tại hộp Search của máy tìm kiếm Google,
người dùng nhập vào truy vấn sau đây: inurl:firewall Kết quả tìm kiếm
được hiển thị như sau:
Kết quả tìm kiếm cho thấy, trong tất cả các đường dẫn url màu xanh
lá cây được hiển thị thì kết quả nào cũng chứa đựng tir firewall
Giống với tập hợp cú pháp intitle va allintitle, tập hợp cú pháp inurl
và allinurl có thể phối hợp tốt với cú pháp site Người dùng có thể tìm
kiếm từ khóa bất kỳ nằm trong đường dẫn url của tất cả các trang web
thuộc một site cụ thể được xác định trước hoặc một miễn đặc thủ Ví dụ: Tìm kiếm từ thị trường chứng khoán nằm trong đường dẫn url của các
trang web thuộc site vnexpress.net Tại hộp Search của máy tìm kiếm
Google, người dùng nhập vào truy vấn sau đây
inurl:*thi truong chung khoan” site:vnexpress.net
36
Trang 35Từ khóa thị trường chứng khoán trong truy vấn ở trên được viết
không dấu vì đường dẫn url của các trang web thường là tiếng Anh hoặc tiếng Việt không có dấu Nếu viết có dấu có thể sẽ không tìm thấy bắt kỳ
trong các trang web của vnexpress.net
2.2.4, Cú pháp intext
Không giống với cú pháp intitle tìm kiếm trong tiêu đề và inurl tìm
kiếm trong đường dẫn của các trang web, cú pháp intext được sử dụng
dé tìm thấy những thông tin trong truy vấn của người dùng chi trong
văn bản của các trang web Hay nói cách khác là cú pháp intext chỉ tìm
kiếm từ khóa truy vấn của người dùng trong nội dung văn bản mà bỏ qua các tiêu để, hoặc địa chỉ web cũng như các link Ví dụ: Tìm kiếm
thị trường bất động sản nằm trong nội dung văn bản của các trang web Tại hộp Search của máy tìm kiếm Google, người dùng nhập vào
truy vấn sau đây: intext:“thị trường bất động sản” Kết quả tìm kiếm
được hiển thị như sau
37
Trang 36Hình 2.13: Kết quả tìm kiếm Google với cú pháp intext
Kết quả tìm kiếm cho thấy các kết quả đều xuất hiện từ khóa thị trường bất động sản nằm trong nội dung van ban (phan chit mau den
được in đậm) của các trang web,
'Cú pháp intext cũng phối hợp tốt với cú pháp site và các cú pháp khác Ví dụ: Tìm kiếm nhà chung cư đẹp trong tắt cả các trang web của
site batdongsan.com.vn Tại hộp Search của máy tìm kiếm Google,
người dùng nhập vào các truy vấn sau đây:
intext:“nhà chung cư đẹp” site:batdongsan.com.vn
Kết quả tìm kiếm được hiền thị như sau:
Hình 2.14: Kết quả tìm kiếm Google với cú pháp intext
một site cụ thế 38
Trang 37
'Kết quả tìm kiếm cho thấy các kết quả được trả về đều chứa đựng từ
khóa nhà chung cư đẹp trong nội dung văn bản và đều là các trang web
thuộc site batdongsan.com.vn
thường bị thay thế bởi inurl Ví dụ: Tìm kiếm các thông tin về
facebook marketing nằm trong liên kết mấu neo của các trang web
Tại hộp Search của máy tìm kiếm Google, người dùng nhập vào nội
dung sau đây:
Trang 38một phẩn của đường dẫn đó, nếu có kết hợp hai cú pháp nảy có thể dẫn
tới kết quả sai hoặc không như mong muốn Ví dụ về cú pháp inanchor khi phối hợp với cú pháp inurl cho ra kết quả không đúng như hình 2.16
Trong danh sách các kết quả tìm kiếm được trả về, loại trừ kết quả đầu tiên là quảng cáo vì có chữ “Ad” ngay quả thứ hai và thứ ba đều không thỏa mãn yêu cầu tìm kiếm trong truy vấn của người dùng bởi vì
chỉ chứa đựng mỗi business trong đường dẫn mầu xanh lá cây mà không, thấy xuất hiện facebook marketing trong liên kết mắu neo của đường, dẫn đó
G,Sgle =aex«===eras.en
Facto Buses Ste | St a 14 Day Fee Tl Now| haptom
How Ue Fatok eBusiness Matting LFaetnk Buess
Hinh 2.16: Két qua tim kiém Google phéi hgp ca phap inanchor
với inurl 2.2.6 Cú pháp link
'Cú pháp link cho phép tìm kiểm tất cả những trang Web có liên kết tới một địa chỉ web mà người dùng xác định trước Hay nói cách khác là cú
pháp này sẽ liệt kê tất cả các trang Web có đặt link liên kết tới một site cụ
liên kết tới Website của Đại học Thương Mại Tại hộp Search của máy tìm kiểm Google, người
dùng nhập vào truy vấn sau đây: link:hftps:/Avww.tmu.edu.vn Kết quả
tìm kiếm được hiển thị như sau:
thể mà người dùng yêu cầu truy vấn, VD: Tìm tất cả
40
Trang 39
ú pháp Cache (còn gọi là cú pháp bộ nhớ đệm) cho phép cung cấp
một bức tranh về một trang web trông như thế nào từ lần cuối cùng
Google chỉ số hóa trang web này Hay nói cách khác là cú pháp này cho phép người dùng tìm lại các thông tin trên các site không còn tồn tại đã được lưu vào trong bộ nhớ đệm của Google Ví dụ: Tìm kiếm giao diện
được Google cập nhật lần gần nhất của website Chodientu.vn Tại Search của máy tìm kiếm Google, người dùng nhập vào truy vấn sau đây: cache:chodientu.vn Kết quả tìm kiếm được hiển thị như sau:
Trang 40Tại thời điểm nhập truy vấn là ngày 22 tháng 9 năm 2018 lúc 22h 3 phút nhưng kết quả hiển thị cho thấy ngay dòng đầu tiên, Google đã chỉ rõ: "Đây là bộ nhớ đệm về site: hps/4ww.chodientu.vn của Google Đây là ảnh chụp nhanh của trang web vào ngày 13 tháng 9 năm 2018 vào
lúc 18h 15 phút 17 giây Trang hiện tại có thể đã thay đôi.” Điều này có
nghĩa là lần cuối robot của Google cập nhật chodientu.vn là vào ngày 13 tháng 9 năm 2018 và giao diện hiện tại của chodientu.vn có thể đã thay đổi không còn giống như vậy nữa (cũng có thể không còn tổn tại)
2.2.8 Cú pháp related
'Cú pháp related cho phép tìm thấy những website có nội dung tương
tự hoặc liên quan tới một địa chi site cụ thể được xác định trước Hay nói
cách khác là cú pháp related liệt kê tất cả các site có nội dung tương tự hoặc liên quan tới nội dung của website mà người dùng yêu cầu truy
Cú pháp này rất mạnh trong việc tìm kiếm các đối thủ cạnh tranh, các
nhà cung cấp đối với cùng một loại sản phâm hoặc dịch vụ
VD: Tìm kiếm các site có nội dung tương tự hoặc liên quan tới site vietnamnet.vn Tại hộp Search của máy tìm kiếm Google, người dùng
nhập vào truy vấn sau đây: related:vietnamnet.vn Kết quả tìm kiếm được hiển thị như hình 2.19, Kết quả tìm kiếm cho thấy tắt cả các website
Hình 2.19: Kết quả tìm kiém Google véi ct phap related
42