1. Trang chủ
  2. » Giáo án - Bài giảng

HƯỚNG DẪN THỰC HÀNH TÌM KIẾM THÔNG TIN TRÊN MẠNG INTERNET TRƯỜNG ĐẠI HỌC THƯƠNG MẠI

230 101 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 230
Dung lượng 21,07 MB

Nội dung

Vấn đề đặt ra ở đây là mỗi cơ sở dữ liệu của một máy tìm kiếm cing chỉ là một phần nhỏ của toàn bộ mạng thông tin Internet vat mdi may tim kiếm có những truy vẫn đặc biệt khác nhau đồi h

Trang 1

TRUONG DAI HQC THUONG MAIL

THUONG MAI UNIVERSITY

Chủ biên: TS Nguyễn Trần Hưng

Trang 2

LỜI NÓI ĐÀU

Sự phát triển mạnh mẽ của các công nghệ mới, tiên tiến trong cách

mạng công nghiệp 4.0 giúp tạo ra các sản phẩm và dịch vụ mới, tăng

hiệu quả sản xuất, thúc đây sáng tạo và phát triển của nên công nghiệp

trong dài hạn; giảm chỉ phí vận chuyển và liên lạc; hoạt động của các hệ thống cung cấp trở nên hiệu quả hơn và chỉ phí cho các hoạt động

thương mại được giảm thiểu Trong cách mạng công nghiệp 4.0, tăng trướng kinh tế của các quốc gia chủ yếu dựa vào công nghệ, đôi mới và

sảng tao thay thé cho tang trưởng đựa vào khai thác tài nguyên, sử dụng

vốn và lao động chất lượng thấp Đây chính là động lực không giới hạn

cho sự phát triển mạnh mẽ của cách mạng công nghiệp 4.0 trên toàn thể giới trong thời gian tới

Trong cách mạng công nghiệp 4.0, vẫn đề

kiếm dữ liệu thông tìn đang trở thành trọng tâm quan trọng hàng dau

đồng vai trò nền tảng phát triển các công nghệ cất lõi nh: Tri tuệ nhâm tạo (Al), Iwternet gƒ things (loT), Dữ liệu lớn (Big Data) Một trong những kỹ thuật tìm kiếm thông tin quan trọng nhất đó chính là tìm kiếm thông tin trên Internet phục vụ cho các mục đích khác nhau, chẳng hạm

về kỹ thuật khai thác, tìm

nhưc học tập, nghiên cứu và đặc biệt là phục vụ cho hoạt động kinh

doanh Tuy nhiên, bmernet là nguồn dữ liệu không lò được cập nhật liên

tuc và là tập hợp của nhiều trang web khác nhau được lưu trữ trên nhi máy chủ khác nhau trên khắp thể giới, vì vậy thiết bị máy tính của người

dùng không thể tìm kiếm hoặc hoặc kết nối trực tiếp tới tắt cả máy chủ

cùng một lúc Để đạt được các mục đích tim kiém, khai thác từ nguồn die

lệu vô tận như Internet, công cụ lớn nhất đầu tiên có thé thay được

chính là các máy tìn kiểm, đó thực sự là các công cụ mạnh mẽ và hiệu quả, có thể xem như những chiếc chìa khóa để người đùng có thể tìm thấp và tập hợp những thông tin hữu ích

Trang 3

Vấn đề đặt ra ở đây là mỗi cơ sở dữ liệu của một máy tìm kiếm cing

chỉ là một phần nhỏ của toàn bộ mạng thông tin Internet vat mdi may tim kiếm có những truy vẫn đặc biệt khác nhau đồi hỏi người đừng cân phải

có kỹ năng cân thiết để sử dụng nhiều loại máy tìm kiếm và có thể tìm thấy chính xác các kết quả mình cần với thời gian ngắn nhất

Nhằm tăng cường kiến thức và kỹ năng tìm kiếm thông tim trên

Internet, sách “Hướng dẫn tìm kiếm thông tin trên mạng Internet” được biên soạn giúp người học hình thành những kỹ năng cơ bản và chuyên

sâu về sử dụng các máy tìm kiếm thông tin trên mạng Internet phục vụ

các mục đích khác nhau, chẳng hạn: tìm kiểm các thông tin cụ thé theo

yêu câu bắt kỳ; khai thác thông tin thị trường; tìm hiểu nhu cầu của một khu vực thị trường cụ thể; tìm kiếm các đối tác, nhà cung cấp, người dùng hàng kinh doanh một cách chính xác, hiệu quả với sự tiết kiệm tối

đa chỉ phí Ngoài việc trang bị cho người học những kiến thức và kỹ năng chuyên biệt về sử dụng các máy tìm kiếm khác nhau, sách cũng

đồng thời tạo nền tảng cho người đọc trong việc tiếp cận các kỹ năng

chuyên sâu của marketing điện từ như Search Engine Optimizatiom (SEO) và marketing mạng xã hội

Sách được cầu trúc thành 7 chương như sau

Chương 1: Tổng quát vẻ tìm kiếm thông tin trên Internet

Chương 2: Máy tìm kiếm Google

Chương 3: Máy tìm kiếm Facebook Graph Search và Facebook Trends

Chương 4: Máy tìm kiếm Yahoo

Chương Š: Máy tìm kiếm Bing

Chương 6: Máy tim kiém AOL

Chương 7: Máy tùn kiếm DMOZ, Gigablast và kỹ thuật tăng tốc trình duyệt

Trong đó, TS Nguyên Tran Hung biên soạn chương I, 2, 4, 5; Thạc

sĩ Nguyễn Minh Đức biên soạn chương 3; Thạc sĩ Vũ Thị Thúy Hằng biên soạn chương 6; Thạc sỹ Lê Duy Hải biên soạn chương 7 Trong quá trình biên soạn sách, nhóm tác giả đã nhận được sự hỗ trợ tích cực từ

các giảng viên trong Khoa Hệ thống thông tìn Kinh tế và Thương mại

điện từ - Trường Đại học Thương Mại

Trang 4

Chúng tôi xin gửi lời cảm ơn chân thành tới sự hỗ trợ, động viên, tham gia góp ý, tạo mọi điều kiện tốt nhất để sách được hoàn thiện của

Ban Giám hiệu, Phòng Quản lý Khoa học, của Hội đồng Khoa Hệ thông

thông tìn Kinh tế và Thương mại điện tử - Trường Đại học Thương Mại

Trang 5

1.1 Khái niệm và đặc điểm của tìm kiếm thông tin trên Internet

1.1.1 Khái niệm tìm kiếm thông tin trén Internet

Khái niệm về tìm kiếm thông tin có rất nhiều cách diễn đạt khác nhau nhưng về bản chất đó là quá trình tự động trích xuất thông tin có giá

trị (Thông tin dự đoán - Predictive Information) ân chứa trong khôi lượng

dữ liệu khổng lồ trong thực tế Tìm kiểm thông tin phân tích các m

quan hệ và các mẫu trong các dữ liệu được lưu trừ dựa trên các truy vấn của người ding

Hình 1.1: Mô hình tìm kiếm thông tin trên mạng Internet

Tìm kiếm thông tin trén mang Internet được hiểu là quá trình phân tích trong khối lượng dữ liệu được lưu trữ của các máy tìm kiểm và tự

òng lựa chọn, trích xuất thông tin có giá trị phù hợp với yêu cầu tìm kiếm dựa trên các truy vấn của người dùng

Trang 6

1.1.2 Đặc điểm của tìm kiếm thông tìn trên Internet

Tìm kiếm thông tin trên Internet có thể là công việc khá dễ dàng

hoặc rất khó khăn đối với người dùng Khi truy cập và tìm kiếm thông tin

trên Internet, cần chú ý một số đặc điểm sau đây của hoạt động tìm kiếm thông tin trên mạng Internet để có thể tìm kiếm hiệu qu:

+ Nội dung trên Internet luôn được cập nhật và bổ sung, không có

ập được trên Internet

+ Tài liệu trên Internet không được xử lý bằng một hệ thống hợp

chuẩn nào Nếu như danh mục tài liệu trong các thư viện được xử lý bao

gồm những từ khóa chuẩn có kiểm soát thì nguồn tin trên Internet hoàn

toàn không sử dụng bất cứ công cụ nào tương tự như vậy Do đó, khi

thực hiện tìm kiếm, người dùng cần phải biết phán đoán những từ ngữ, thuật ngữ khác nhau sẽ được sử dụng trong các trang web cần tìm kiếm + Khi tiến hành tìm kiết

thông tin, dữ liệu trên Intemet, người dùng

không thể thực hiện tìm kiếm một cách trực tiếp Thông tỉn trên Intemet là

tổng hợp thông tin của rất nhiều trang web được lưu trữ trên nhiều máy chủ

khác nhau trên khắp thể giới Thiết bị máy tỉnh của người dùng không thé

c nhiều máy tìm kiểm gián tiếp đang có hiện nay Các máy tìm Mông sẽ

cho phép người dùng tìm kiếm trong cơ sở dữ liệu của nó và mỗi cơ sở dữ liệu của một máy tìm kiếm cũng chỉ là một phần nhỏ của toàn bộ mạng, thông tin toàn cầu Máy tìm kiếm cung cắp cho người dùng các đường link

kết nối tới các trang web Người dùng nhấp chuột vào các đường kết nói này

về các văn bản, hình ảnh, âm thanh, và các thông tin khác theo yêu

cầu tìm kiếm từ các máy chủ khác nhau trên khắp thế giới

1.2 Những vấn đề thường gặp phải trong tìm kiếm, tập hợp, phân

loại và xử lý thông tin trên Internet

1.2.1 Tìm kiếm thông tin

Khi thực hiện tìm kiếm thông tin trên Internet, vẫn đề mà người dùng thường gặp phải bao gồm:

+ Xem Internet như là một thự viện

Trang 7

“Thư viện là nơi thông tin không chỉ được lưu giữ mà còn được xử lý

và tô chức, từ đó cho phép việc tìm kiếm được thực hiện dễ dàng Việc

xử lý thông tin được thực hiện theo những tiêu chuẩn quốc tế và có những qui định nghiêm ngặt Thư viện có cán bộ được đào tạo và có kinh

nghiệm nhiều năm trong việc hỗ trợ mọi người tìm kiếm thông tin Mặc

dù Internet là kho thông tin vô tận nhưng các thông tỉn trên môi trường này không được tập hợp và xử lý theo một hệ thống hợp chuẩn nào Ngoài ra, thông tin trên Internet cũng không được kiểm soát về chất lượng, tính chính xác của nguồn thông tin như các hệ thống phân loại của thu vi

+ Xem Internet như nguôn thông tin duy nhất

Internet chỉ là một trong nhiều nguồn cung cấp thông tin Thư viện, đồng nghiệp, các hội nghề nghiệp, các cơ quan chính phủ và các nguồn thông tin khác đều đóng vai trò quan trọng trong quá trình tìm kiếm,

khai thác các thông tin có giá trị theo yêu cầu phục vụ kinh doanh hoặc nghiên cứu

+ Tìn tưởng quá vào chất lượng nguồn thông tỉn trén Internet

Bat cứ ai truy cập vào Internet cũng có thể đưa lên mạng những thông tin mà họ muốn Không có sự đảm bảo nào cho những thông tin

mà người dùng tìm được trên Internet về tính chính xác và sự cập nhật

Có những nguồn thông tin khác đáng tin cậy hơn Internet Các cán bộ thư viện đã được đào tạo một cách chuyên nghiệp có thể đánh giá được độ tin cây của thông tin tìm được Các bài báo trong những tạp chí được các

nhà chuyên môn biên tập nội dung sẽ có chất lượng tốt hơn và những nhà xuất bản danh tiếng cũng là một chứng thực cho những tải liệu hữu ích và đáng tin cậy Tất nhiên không phải bất cứ bài báo hay ấn phẩm nảo trong

thư viện cũng hoàn toàn đáng tin cậy, song người dùng có thể tin tưởng,

rằng người ta ít nhất cũng đã kiểm tra nguồn tin trước khi cung cấp để sử

dụng Điều này thường không xảy ra đối với tài liệu trên Internet Chính

vì vậy, khi tìm kiếm thông tin dữ liệu trên Internet, người dùng cần đặt ra một loạt những câu hỏi mang tính phê phán với bắt kỳ thông tin nào thu

thập được và điều này rất quan trọng khi sử dụng thông tin từ Internet

Trang 8

Trên Internet các thông tin có thể được xuất hiện thường xuyên và biến mắt mà không được báo trước Một nhà cung cấp địch vụ có thể thay đổi địa chỉ web, một cá nhân hoặc một nhóm tài trợ có thể không

còn thời gian và/hoặc tiền bạc để duy trì một website Đây là một trong

tất nhiều lý do khiến thông tin đã đăng tải có thể bị biến mắt Người dùng cần nhớ rằng không nên phụ thuộc vào một nguồn thông tin duy nhất bởi

vì không phải lúc nào thông tin đó cũng sẵn có

+ Tìm kiếm thông tin trên Internet la đơn giảm

Internet là một không gian thông tin rất rộng lớn, có phạm vi toàn cầu và vì vậy tìm kiếm những đoạn thông tin nhỏ đôi khi là điều không thể thực hiện được hoặc người dùng cần phải chọn lọc trong rất

nhiều thông tỉn rác Cũng có những máy tìm kiếm có thể hỗ trợ người dùng nhưng quá trình nghiên cứu và tìm kiếm mặc di cho kết quả

nhanh nhưng việc tập hợp và phân loại thông tin đôi khi cũng đòi hỏi

sự kiên nhẫn Tìm kiếm trên Internet thường đòi hỏi sự kiên nhẫn nều người dùng không biết sử dụng đúng cách tìm kiếm thông tin với các

máy tìm kiếm

+ Thông tin trên Internet được cung cấp miễn phí

Phần lớn các thông tin tìm thấy trên Internet đều được cung

phí nhưng không phải là tất cả Những thông tin hữu ích thường không,

được cung cấp miễn phí Phần lớn thông tin trên Internet thường không được các nhà nghiên cứu nghiêm túc cho là thông tin hữu ích Rất nhiều

tổ chức sử dụng Internet như là một công cụ quảng cáo hoặc quan hệ công chúng Có một số cơ sở dữ liệu và tài liệu có giá trị được cung cấp

miễn phí trên Internet, tuy nhiên rất nhiều trang web được thiết kế đề bán sản phẩm hoặc cung cấp dịch vụ dựa trên việc đăng ký phải trả tiền, ví

dụ : Forester.com; ABI Research; emarketer.com

1.2.2 Tập hợp thông tìm

Những thông tin nào người dùng có thể tìm thấy trên Internet?

Không thê liệt kê tất cả các loại nguồn tin có trên Internet, đặc biệt khi Intemet thay đổi rất thường xuyên và nhanh chóng Tuy nhiên, nhìn chung Internet hữu ích nhất khi tìm kiếm những thông tin được tập hợp

trong các nhóm sau đây (chú ý phần lớn những thông tin này là bằng tiếng Anh):

10

Trang 9

+ Văn hóa đại chúng, ví dụ: phim, nhạc, truyền hình, thể thao

bền vững (IISD) hup:/iisd1iisd.ca «_ Báo cáo hoạt động;

nghiên cứu chuyên môn

http://www vinacafe.com.vn và thông tin về công ty Công ty Ford Việt Nam «_ Thông cáo và báo cáo

Trang 10

Thông tin nhập học

Thông tin về các khóa

học Danh mục thư viện; hướng dẫn nghiên cứu

Dữ liệu thống kê: luật

pháp; thông cáo báo chi

Báo cáo, chính sách Thông tin liên hệ

Các chuyên gia, những người hăng

hái họat động trong một lĩnh vực nào

đó, những người nổi tiếng, những

người không nồi tiếng hoặc bất cứ ai Quan điêm cá nhân,

Trang 11

1.2.3 Phân loại và xứ lý dữ liệu

Mặc dù có thể truy cập và sử dụng nhiều loại máy tìm kiếm đề tìm kiếm

thông tin, dữ liệu trên Internet, người dùng có thể sẽ gặp phải những vấn đẻ

về phân loại và xử lý dữ liệu thu thập được Để hạn chế tối đa điều này,

ngoài việc hiểu sâu hơn về tính năng của từng công cụ và phải luyện tập sử dụng nhiều lần, vấn đề quan trọng là cần nắm bắt cách thức các máy tìm kiểm phân loại và xử lý dữ liệu để có phương pháp tìm kiếm phù hợp Muốn

vậy, người dùng cần phải biết mình đang thực hiện tìm kiếm với công cụ nào Về cơ bản có một số loại máy tìm kiếm sau đây và mỗi loại có cách phân loại và xử lý dữ liệu khác nhau để trả về kết quả cho người dùng

a Máy tìm kiếm có cơ sở dữ liệu

Cae may tìm kiếm làm việc theo nguyên tắc tìm kiếm trong cơ sở dữ liệu được tự động xây dựng bởi một robot mà không phải do con người xây dựng Máy tìm kiếm sẽ so sánh các từ khóa mà người dùng nhập vào

cửa số tìm kiếm với các từ hoặc cụm từ được đăng tải trong nội dung của các trang web mà máy tìm kiếm lưu trữ

Lượng thông tin mà các máy tìm kiếm có thể bao quát thường dao động từ một số nhỏ và trong một phạm vi hẹp về nội dung cho đến chứa đựng hơn 90% nội dung các trang web có thể xử lý được

Kết quả tìm kiếm của người dùng có phù hợp hay không là phụ thuộc

vào khả năng sử dụng nhuần nhuyễn các tính năng và cú pháp của máy tìm kiếm và diện bao quát của máy tìm kiểm mà người dùng sử dụng

+ Điểm mạnh: Khi tìm kiếm một tải liệu cụ thể (tên tải liệu, tên

người, tô chức đã biết), tìm kiếm các chủ đề khó phân loại

+ Điểm yếu: Không cho phép có một cái nhìn tổng quát về một chủ đẻ

cụ thể (trong đó có thể có những chủ để nhỏ mà người dùng chưa biết)

Trang 12

Google và Bing là hai máy tìm kiếm có cơ sở dữ liệu lớn nhất, tuy

nhiên cần lưu ý là không có một máy tìm kiếm nào có thể tìm được toàn

bộ thông tin về một chủ đề

b, Máy tìm kiếm liên thông (meta-search engines)

Không thực sự là một máy tìm kiếm có cơ sở dữ liệu được xây dựng

từ các trang web trên Internet, các máy tìm kiếm liên thông sử dụng cơ sở

dữ liệu có sẵn của các máy tìm kiếm khác Khi người dùng nhập vào một

truy vấn, máy tìm kiếm liên thông gửi truy vấn này có thể vào một hoặc

một số máy tìm kiếm khác để nhận về kết quả và thường tập hợp được khoảng 10% kết quả tìm được ở mỗi máy tìm kiếm mà chúng liên kết

+ Điểm mạnh: Thường tìm kiếm hiệu quả nếu người dùng chỉ sử dụng một từ hoặc một cụm từ

+ Điểm yẫu: Người dùng không thể sử dụng các chức năng tìm kiếm

nâng cao của từng máy tìm kiếm Người dùng cũng không thê tiền hành

một phép tìm toàn diện và phức tạp

Một số máy tìm kiếm liên thông tiêu biểu:

Surfwax Dogpile Metacrawler

htpysvww.surfivax.com’ — hitps/www.dogpile.com —_httpd/www.metacrawler.com Startpage Metager Yippy

hdp/Avwvw.siarpagecom —hutp/ww20.metager.com/ _hiip:/Avwwyippy.com

cc Cong thông tin/ Danh mục theo chủ để

ubject directory) Cổng thông tin là các website cung cấp các nội dung thông tin và dịch vụ tiện ích cho người dùng trực tuyến, thường có máy tìm kiếm của

riêng mình và được tổ chức theo thứ bậc Các công thông tin do con người tập hợp thông tin, biên soạn và sắp xếp theo một hệ thống phân

loại Đôi khi các cổng thông tin là do các chuyên gia trong một lĩnh vực tập hợp Điều này có nghĩa là thông tin ở đây đã được thẩm định và đánh giá về sự phù hợp và chất lượng

Trong công thông tin, người dùng có thể xem theo chủ đề và có thể

tìm kiếm Ví dụ về một số công thông tin:

+ ELDIS (Electronic development and information system = Hệ

thống thông tin và Phát trién dién ni) btp://www.eldis.org/

14

Trang 13

Công thông tin phát triển ELDIS cung cấp một điểm truy cập trung tâm tới các thông tin về phát triển, các hướng dẫn theo từng chủ đề phát

triển, thông tin phát triển về từng quốc gia tin tức, thông tin tuyển dụng,

và các tư liệu khác

+ Thư viện do trên mang hitp://www.vlib.org!

Thư viện áo trên mạng được tự mô tả như là “danh mục lâu đời nhất trên web, do Tim Berners-Lee - người kiến tạo nên mạng web - xây

dựng Thư viện ảo được quản lý bởi một nhóm các tỉnh nguyện viên là chuyên gia vẻ nhiều lĩnh vực Thư viện ảo này được coi là một trong những công thông tỉn có chất lượng về một số lĩnh vực, tuy nhiên nó, không phải là cơ sở dữ liệu lớn nhất Thư viện ảo này được sắp xÉp theo

trật tự chữ cái, theo chủ đề và cũng có máy tìm kiếm riêng,

+ Cổng thông tin vẻ xe hoi http://www.cars.com

Cung cấp thông tin về thị trường ô tô kỹ thuật số hàng đầu tạo ra các kết nối có ý nghĩa giữa người mua và người bán Ra mắt vào năm 1998

và có trụ sở tại Chicago, công ty trao quyền cho người tiêu dùng với nguồn lực và thông tin để đưa ra quyết định mua hàng xung quanh The 4Ps ciia Automotive Marketing "M; Sản phẩm, Giá cả, Địa điểm và Người, bằng cách kết nối các đối tác quảng cáo với người mua xe trong thị trường và cung cắp dữ liệu -thông minh thông mình để tăng lượt hàng

tồn kho và giành thị phần Là nhà tiên phong trong lĩnh vực phân phối ô

tô trực tuyến, công ty đã phát triển thành một trong những nên tảng ô tô

kỹ thuật số lớn nhất, kết nối hàng ngàn đại lý địa phương trên toàn quốc với hàng triệu người tiêu dùng

+ AOL hitp://www.aol.com

Danh mục tìm kiếm theo chủ đề được liệt kê cho phép người dùng

lựa chọn để tìm kiếm thuộc nhiều lĩnh vực khác nhau từ: Xu hướng, tin tức, giải trí, công nghệ, thê thao, phong cách sống, tài chính

1.3 Khái quát về máy tìm kiếm trên Internet

1.3.1 Khải niệm và nhiệm vụ của các máy tìm kiếm

Internet và World Wide Web có đến hàng trăm triệu website có sẵn mang các thông tin về nhiều chủ để khác nhau Tuy nhiên hầu hết chúng đều được đặt tiêu đề theo ý thích của tác giá và được lưu trữ trên máy chủ

15

Trang 14

với các tên khó hiểu Khi người tìm kiếm cần biết về một chủ đẻ nào thì

sẽ phải đọc các trang nào? Phần lớn mọi người khi băn khoăn về vấn đẻ này và họ sẽ sử dụng một máy tìm kiếm trên Internet (Internet search

engine) Nhu vay may tim kiếm là gì

“Máy tim kiém (Search engine) trén Internet là các website đặc biệt,

được thiết kế để giúp mọi người tìm kiểm thông tìn được lưu trên các site khác nhau Có nhiều cách khác nhau để thực hiện các tìm kiếm này,

nhưng tất cả chúng đều thực hiện ba nhiệm vụ cơ bản

+ Tìm kiểm Internet hoặc chọn các mâu thông tỉn trên Intemet dựa trên các từ hoặc cụm từ quan trọng

+ Giữ một chỉ mục cho các từ tìm thấy cùng với địa chỉ tìm thấy chúng

L Cho phép người ding tim kiém các từ hoặc cụm từ được tìm kiếm trong chỉ mục đó

'Các máy tìm kiếm trên Internet trước kia đều giữ chỉ mục của hàng trăm ngàn trang web và tài liệu, chúng thường nhận có thể một hoặc hai

nghìn yêu cầu tìm kiếm mỗi ngày Ngày nay, cỗ máy tìm kiếm hàng đầu

đánh chỉ mục hàng trăm triệu trang web và đáp trả đến hàng chục triệu

yêu cầu mỗi ngày

1.3.2 Các bộ phận cầu thành và nguyên tắc hoạt động của mdy tim kiém Ngày nay, hầu hết người dùng Internet chưa hiểu nhiều về cách tìm

kiếm của họ trên Web hay hoạt động của các máy tìm kiếm ra sao, chính

vì vậy mà công việc tìm kiếm không đạt được hiệu quả như mong muốn Máy tìm kiếm được cấu thành bởi ba bộ phận cơ bản, cả ba bộ phận này có sự độc lập tương đối với nhau về mặt hoạt động, nhưng lại có sự

gắn kết với nhau, phụ thuộc lẫn nhau về mặt dữ liệu

nó di chuyển và từ “worm” làm người ta liên tưởng đến virus Về bản

chất robot chỉ là một chương trình duyệt và thu thập thông tin từ các site

16

Trang 15

theo đúng giao thức web Những trình duyệt thông thường không được xem là robot do thiếu tính chủ động, chúng chỉ duyệt web khi có sự tác động của con người

Vay cach spider thực hiện công việc của nó trên Web như thế nào?

Điểm khởi đầu là danh sách các máy chủ và trang web phô biến Spider

sẽ bắt đầu với một site phổ biến nào đó, đánh chỉ mục các từ trên trang của nó và theo các liên kết tìm thấy bên trong site này Theo he

thống Spider sẽ nhanh chóng thực hiện công việc của nó và trải rộng ra toàn bộ các phần được sử dụng rộng rãi nhất của web Spider lấy nội dung của trang web và tạo các từ khóa tìm kiếm để cho phép người dùng

trực tuyến có thẻ tìm các trang mong muốn

h

+ Bộ phận thứ hai — Index hay còn được gọi là bộ lập chỉ mục

Khi Spider đã hoàn tất nhiệm vụ tìm thông tỉn trên các trang web,

(lưu ý rằng đây là nhiệm vụ không bao giờ hoàn tắt vì luôn có sự thay đổi của các trang nên điều đó có nghĩa là Spider sẽ luôn thực hiện nhiệm vụ của nó), cỗ máy tìm kiếm phải lưu các thông tin này theo một cách nào

đó để có lợi nhất Có hai thành phần chính liên quan tới việc tạo dữ liệu

đã thu thập được để có thê truy cập với người dùng:

~ Thông tin được lưu với dữ liệu

- Phương pháp, cách thức đánh chỉ mục thông tin

“Tóm lại, hệ thống lập chỉ mục hay còn gọi là hệ thống phân tích và xứ

lý dữ liệu sẽ thực hiện việc phân tích, trích chọn những thông tin cần thiết

(thường là các từ đơn, từ ghép, cụm từ quan trọng) từ những dữ liệu mà robot thu thập được và tô chức thành cơ sở dữ liệu riêng đẻ có thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả Hệ thống chỉ mục là danh sách các từ khoá, chỉ rõ các từ khoá nào xuất hiện ở trang nào, địa chỉ nao

+ Bộ phận thứ ba —Bộ tìm kiểm thông tin

Bộ tìm kiếm thông tin tương tác với người dùng thông qua giao diện

web, có nhiệm vụ tiếp nhận & trả về những tài liệu thoả mãn yêu cầu của người dùng Nói cách khác, tìm kiếm từ khóa là tìm kiếm các trang mà những từ khóa trong câu truy vấn (query) xuất hiện nhiều nhất, ngoại trừ

stopword (các từ quá thông dụng như mạo từ a, an, the, ) Trang web nào mà chứa đựng cảng nhiều từ khóa trong truy vấn của người dùng thì

17

Trang 16

trang đó càng được bộ tìm kiểm thông tin lựa chọn để trả về cho người

dùng Và một trang chứa tắt cả các từ khóa trong câu truy vấn của người

dùng thì tốt hơn một trang không chứa hoặc chỉ chứa một số từ khóa

trong câu truy vấn đó Ngày nay, hầu hết các bộ tìm kiếm thông tin của các máy tìm kiếm đều hỗ trợ chức năng tìm cơ bản và nâng cao, tìm từ

đơn, từ ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm như trên đề mục, tiêu đề, đoạn văn bản giới thiệu về trang web

Ngoài chiến lược tìm chính xác theo từ khoá, hiện nay các bộ tìm kiếm thông tin của các máy tìm kiếm còn cố gắng hiểu ý nghĩa thực sự của câu hỏi thông qua những câu chữ do người dùng cung cấp Điều này

được thê hiện qua chức năng sửa lỗi chính tả, tìm cả những hình thức biến đổi khác nhau của một từ Ví dụ: máy tìm kiếm sẽ tìm những từ như

speaker, speaking, spoke khi người dùng nhập vào từ speak

Nguyên tắc hoạt động của các máy tìm kiếm:

tìm kiếm để tạo cơ sở dữ liệu chỉ mục phục vụ cho nhu cầu tìm kiếm

18

Trang 17

thông tin Bởi vì thông tin trên mạng luôn thay đôi nên robot phải liên tục cập nhật lại các site cũ Mật độ cập nhật phụ thuộc vào từng hệ thống của máy tìm kiếm Khi bộ tìm kiếm thông tin nhận câu truy vấn từ ngưc

dùng thông qua giao diện web của máy tìm kiếm, nó sẽ tiến hành phân tích, tìm trong cơ sở dữ liệu chỉ mục của máy tìm kiếm và trả về những

tài liệu thoả mãn yêu cầu

1.3.3 Phân loại các máy tìm kiếm và cách sử dụng tương ứng với từng loại máy tìm kiếm

Đối với tìm kiếm thông tin trén Internet, người dùng phải biết sử dụng các máy tìm kiếm chung Có hai loại máy tìm kiếm chung thông dụng và phổ biến nhất hiện nay đó là máy tìm kiếm toàn bộ văn bản và

máy tìm kiếm theo chỉ mục chủ đề

a Các máy tìm kiếm toàn bộ văn bản

Những máy tìm kiếm toàn bộ văn bản là những máy tìm kiếm cố gắng chỉ rõ toàn bộ nội dung của một trang Web Công việc đó bao gồm

tiêu để, URL và nội dung trang (Các máy tìm kiếm thông thường không thường xuyên làm công việc này bởi vì trong thực tế có rất nhiều các

máy tìm kiếm giới hạn số lượng kết quả tìm kiếm của một trang mà nó sẽ chỉ ra Với Google chăng hạn, sẽ chỉ chỉ ra 101000 kết quả của một trang

mà không quan trọng là trang đó lớn bao nhiêu.)

b Máy tìm kiếm theo chỉ mục chủ dé (searchable subject indexes)

Những máy tìm kiếm theo chỉ mục chủ đề được không làm công việc

chỉ rõ toàn bộ nội dung của một site Thay vào đó là tên và URL của một

site và thông thường là một sự mô tả ngắn gọn nào đó, được bao gồm

(chứa đựng) trong một tập hợp của các chủ đẻ khác nhau Những may tìm kiểm theo chỉ mục chủ đề có thể thực hiện tìm kiếm rất tốt, chẳng hạn như: Yahoo, ODP

Trong thực tế, một máy tìm kiếm thường là tập hợp của cả hai loại, chang hạn như Google là một máy tìm kiếm toàn bộ văn bản có một thành phần tìm kiếm theo chỉ mục chủ đề được gọi là Thư mục Google

'Yahoo là một máy tìm kiếm theo chỉ mục chủ đề có tùy chọn đẻ tìm kiếm như một máy tìm kiếm toàn bộ văn bản Nhưng chủ yếu, Google được biết đến như là một máy tìm kiếm toàn bộ văn bản và Yahoo được biết

như một chỉ số phụ thuộc tìm kiếm được

19

Trang 18

e Cách tìm kiếm tương ng với từng loại máy tìm kiếm

Những máy tìm kiếm toàn bộ văn bản được xem là tốt khi mà đáp

ứng được yêu cầu của người dùng về tìm kiếm những kiểu thông tin phân biệt rõ rằng Chẳng hạn, những lời trích dẫn, lời bài hát (lyrics), những, địa chỉ, những người không nỗi tiếng, những nơi ít được biết đến hay

những câu hỏi phức tạp Những máy tìm kiếm theo chỉ mục chủ dé

không chứa đựng đủ thông tin về những trang Web đẻ trả lời những loại

câu hỏi này

Mặt khác, những hạn chế của máy tìm kiếm theo chỉ mục chủ đẻ làm cho chúng trở nên rất hữu ích cho việc thực hiện sự tìm kiếm các thông tin có tính phổ biến Đôi khi việc tìm kiếm bằng một máy tìm kiếm theo

chỉ mục chủ để giúp người dùng tìm thấy tài liệu đầy đủ sau đó người dùng sử dụng một máy tìm kiếm toàn bộ văn bản đề tìm thấy các thông

tin đặc biệt, đặc thù hơn Hai kiểu máy tìm kiếm làm việc hài hòa cùng nhau, cung cấp cho người dùng biết cách thức sử dụng kiểu máy nào khi

tìm kiếm một thông tin cần thiết

Về cơ bản, để sử dụng bắt kỳ một máy tìm kiếm nào, người dùng phải tiền hành theo hai bước sau đây:

Bước 1: Mở cửa số giao diện web của các máy tìm kiếm Ngưi

dùng sử dụng trình duyệt để truy cập vào địa chỉ web của máy tìm kiếm

mà mình muốn sử dụng Ví dụ: Truy cập vào máy tìm kiếm yippy.com

Trang 19

Bước 2: Gõ từ khóa hoặc truy vấn liên quan đến nội dung thông tin

mà người dùng muốn tìm kiếm vào hộp Search của máy tìm kiếm Ví dụ:

tìm kiếm thông tin về quản trị quan hệ khách hàng

Hình 1.4: Hướng dẫn tìm kiếm - Bước 2 Lưu ý: Quá trình nhập truy vấn vào hộp Search của máy tìm kiếm, người dùng có thể thêm các toán tử, từ bỏ nghĩa hay câu lệnh, cú pháp phù hợp để giúp máy tìm kiếm hiểu rõ về yêu cầu của người dùng và trả

về các kết quả theo mong muốn

Bước 3: Nhận về các kết quả phù hợp Người dùng tìm kiếm các kết quả phù hợp với mong muốn tìm kiếm của mình trong đanh sách mà máy

tìm kiếm trả về

Hình 1.5: Hướng dẫn tìm kiếm - Bước 3

21

Trang 20

1.3.4 Sự tìm kiếm mặc định của các máy tùn kiếm

Bắt chấp thực tế là hai loại máy tìm kiếm đang tìm kiếm những thứ

rất khác nhau, cả hai loại máy tìm kiếm đều có một thứ chung: sự tìm kiếm của chúng được mặc định

Khi người dùng nhập vào một câu hỏi với các từ phức hợp vào trong một máy tìm kiếm và không nhập vào bắt kỳ từ bổ nghĩa tìm kiếm nà

máy tìm kiếm phải quyết định làm sao để xử lý câu hỏi của các người

dùng Nói chung, máy tìm kiếm có thể làm một trong số hai thứ Nó có thể quyết định tìm kiếm để tắt cả những từ tìm kiếm mà người dùng yêu cầu phải được bao gồm trong bắt kỳ kết quả nào- trong trường hợp này

nó đang mặc định là AND Hoặc nó có thẻ quyết định tìm kiếm đẻ bắt kỳ

từ tìm kiếm nào của người đùng phải xuất hiện trong những kết quả tìm kiếm Trong trường hợp này nó đang được mặc định là OR

Điều đầu tiên quan trọng nhất cân phải biết khi sử dụng một máy tìm kiếm đề tìm kiếm thông tin trên Internet đó là người dùng đang sử dụng

máy tìm kiếm toàn bộ văn bản hay một máy tìm kiếm theo chỉ mục chủ

đề Vấn đề quan trọng thứ hai cần phải biết là máy tìm kiếm đó được mặc

định AND hay OR Nếu nó được mặc định là AND, người dùng cần phải

ngẫm nghĩ hơn về những từ trong câu hỏi của các người dùng, bởi vì mọi

từ trong câu hỏi người dùng chọn phải xuất hiện (tồn tại) trong một trang

'Web trước khi người dùng nhận được những kết quả tìm kiếm Nếu nó được mặc định là OR, người dùng cần phải chắc chắn để sử dụng thêm các toán tử hay từ bổ nghĩa ở phía trước những thuật ngữ được bao gồm

trong sự tìm kiếm của người dùng

mà mỗi từ khóa tách biệt khỏi cụm từ đều có nghĩa độc lập Nếu người dùng không nhận được những kết quả (hay đúng hơn là chỉ có vài kết

quả) thì người dùng đang tìm kiếm với một máy tìm kiếm được mặc định

là AND Nếu người dùng nhận được nhiều kết quả thì người dùng đang

ếm với một máy tìm kiếm được mặc định là OR

Chang han, muốn biết máy tìm kiếm bắt kỳ được mặc định tìm kiếm

là AND hay OR, người dùng có thể chọn các cụm từ bao gồm nhiều từ

2

Trang 21

khóa như “Thư viện quốc gia Việt Nam” hoặc “Thương mại điện từ Việt Nam” để nhập vào ô tìm kiếm của máy tìm kiếm Trong cụm từ “Thư viện quốc gia Việt Nam”, mỗi từ khóa "thư viện”, "quốc gia”, “Việt

Nam” tách ra đều có nghĩa độc lập; với các từ khóa “thương mai”, “đi

i”, *Việt Nam” trong cụm từ “Thương mại điện tử Việt Nam” cũng đi

lập Sau đó, người dùng chỉ cần quan sát kết quả tìm kiếm

mà máy tìm kiếm trả về để đưa ra nhận định máy tìm kiếm đó được mặc

định là AND hay OR Cụ thể:

+ Nếu với mỗi kết quả mà máy tìm kiếm trả về đều bao gồm đầy đủ các từ khóa trong cụm từ phức hợp, nghĩa là xuất hiện đầy đủ cả "thư

” và "quốc gia” và "Việt Nam” hoặc "thương mại” và "điện tử” và iệt Nam” thì máy tìm kiếm đó được mặc định 1a AND

+ Nếu với mỗi kết quả mà máy tìm kiếm trả về chỉ bao gồm một

hoặc một số từ khóa trong cụm từ phức hợp, nghĩa là xuất hiện hoặc “thư viện", "quốc gia" hoặc "quốc gia", "Việt Nam” thì máy tìm kiếm đó được mặc định là OR

1.4 Những toán tử cơ bản và những từ bỗ nghĩa của các máy tìm kiếm

Lam thé nio dé người dùng có thể biểu thị các yêu cầu như phải bao gồm cái gì đó hay loại trừ cái gì đó từ sự tìm kiếm của mình với các máy tìm kiếm? Cách thông dụng nhất là sử dụng những toán tử và những từ

bổ nghĩa để giúp máy tìm kiếm biết chính xác người dùng muốn những,

từ tìm kiếm sẽ được xử lý như thế nào hay nói cách khác là kết quả tìm

kiểm sẽ được hiển thị như thể nào

1.4.1 Những toán tử cơ bản

Phần này giới thiệu các ký hiệu toán học được sử dụng khi diỄn đạt

lệnh tìm kiếm Hầu hết các máy tìm kiếm đều sử dụng hai toán tử cơ bản

là + và - để giúp người dùng diễn đạt yêu cầu tìm kiếm

Trang 22

+coffee +price +pickers +wages

Máy tìm kiếm sẽ cho kết quả bao gồm tất cả các từ: price, coffee,

pickers wages,

Dùng dấu trừ - đặt trước một từ khóa bắt ky có nghĩa là người dùng muốn máy tìm kiếm hiểu rằng từ khóa đó nhất định không được xuất hiện trong danh sách kết quả mà máy tìm kiếm trả về Ví dụ: nếu người dùng chỉ muốn tìm thông tin về cà phê mà không có từ tách (cup) hoặc

bông (cotton) Tại hộp search của máy tìm kiếm, người dùng nhập vào

như sau: +coff#e -cup ~coffon Máy tìm kiếm sẽ cho ra các kết quả bao gồm coffee nhưng không có cup va cotton

Ngoài ra, với việc sử dụng hai toán tử + và ~ khi phối hợp với nhau

có thể giúp người dùng tìm kiếm những thông tin về tổng thể một vấn đề

nao đó mà loại bỏ đi một phần của tổng thể đó Ví dụ: người dùng muốn tìm hiểu tất cả các thông tin về E-commerce nhưng không muốn tìm hiểu

những vấn đề thuộc khía cạnh bảo mật của E-commerce Tại hộp search của máy tìm kiếm, người dùng nhập vào như sau

+ E-commerce - Security

May tìm kiếm sẽ cho các kết quả bao gồm những khía cạnh và vấn

đề liên quan đến E-commerce nhưng không có liên quan dén Security

1.4.2 Những từ bỗ nghĩa của các máy tùm kiếm

Ngoài các toán tử cơ bản là + và ~, các máy tìm kiếm còn cho phép người dùng sử dụng các từ bỗ nghĩa Trong đó, có một số từ bỗ nghĩa có

thể sử dụng chung với các máy tìm kiếm đề diễn đạt ý định tìm kiếm của

người dùng, giúp máy tìm kiếm đưa ra những kết quả chính xác theo nhu

cầu, Các từ bô nghĩa có thể dùng chung với các máy tìm kiếm bao gồm:

+ Dấu **: Sử dụng dấu nháy kép khi người dùng muốn tìm kiếm

chính xác một cụm từ hoặc một đoạn trích dẫn Ví dụ: người dùng muốn tìm kiếm chính xác Báo cáo thương mại điện tử Việt Nam Tại hộp Search của máy tìm kiếm bắt kỳ, người dùng nhập vào nội dung: “Báo

cáo thương mại điện tử Việt Nam” Máy tìm kiếm sẽ trả về tất cả các kết quả mà kết quả nào cũng xuất hiện đầy đủ và tuần tự cụm từ Báo cáo

thương mại điện tử Việt Nam

24

Trang 23

+ Từ bê nghĩa AND: Sir dung AND nếu người dùng muốn tìm kiếm

đồng thời nhiều từ khóa hoặc thuật ngữ cùng một lúc Ví dụ: người dùng, muốn tìm kiếm đồng thời từ khóa lao động và trẻ em Tại hộp Search

của máy tìm kiếm bất kỳ, người dùng nhập vào nội dung: “lao động” AND “tré em” Máy tìm kiếm sẽ trả cả các kết quả xuất hiện đồng

thời lao động

à trẻ em,

+ Từ bố nghĩa OR: Sir dung OR nếu người dùng muốn tìm kiếm

hoặc là cái này hoặc là cái kia, hoặc vấn đề này hoặc vấn đẺ kia, tìm các từ đồng nghĩa hay cách viết khác nhau của một từ Ví dụ: người ding

muốn tìm kiếm hoặc organization hoặc organisation: vietnam hoặc viet nam; quy chế hoặc qui chế Tại hộp Search của máy tìm kiếm bất kỳ,

người dùng nhập vào nội dung:

organization OR organisation

vietnam OR “viet nam”

quy ché OR quy ché

+ Từ bỏ nghĩa NOT: Sử dụng NOT nếu người dùng muốn máy tìm

n loại bỏ những thông tin mình không cần trong danh sách kết quả tìm kiếm trả về Ví dụ: người dùng muốn tìm kiếm thông tin về vàng với

ý nghĩa kim loại quý chứ không phải màu sắc vàng Tại hộp Search của máy tìm kiếm bắt kỳ, người dùng nhập vào nội dung: vàng NOT màu

Máy tìm kiếm sẽ trả về danh sách kết quả tìm kiếm liên quan tới kim loại

vàng chứ không phải màu vàng

Ngoài ra, đối với từng máy tìm kiếm cụ thể sẽ có những cú pháp đặc

biệt vượt ra khỏi các toán tử cơ bản hay các từ bô nghĩa Những cú pháp đặc biệt cho phép người dùng thực hiện sự tìm kiếm đặc biệt bên trong, một trang Web hay có nội dung liên quan đến một trang Web, người

dùng cũng có thể giới hạn những sự tìm kiếm của mình tới một trang

Web vé tiêu để, đường dẫn hay trong nội dung văn bản Những cú pháp

đặc biệt cho các loại máy tìm kiếm thông dụng nhất sẽ được tìm hiểu ở các chương tiếp theo

25

Trang 24

3 Trong các máy tìm kiếm sau đây, đâu là máy tìm kiếm toàn bộ văn

ban, đâu là chỉ số phụ thuộc tìm kiếm? (Yandex, Bing, Teoma, AOL,

Google, Yahoo, wikipedia, startpage, boardreader, wolframalpha)

4 Hãy sử dụng toán tử tìm kiếm sao cho kết quả tìm kiếm phải xuất

hiện cụm từ sau đây theo đúng thứ tự: *Thị trường chứng khoán”,

*Thương mại điện tử”

5 Hãy tìm kiếm những từ khóa sau đây: "tin nhanh” hoặc "tin mới

ổ phiếu”; "vàng” hoặc "bất động sản”: "ô tô

Trang 25

CHƯƠNG 2

MAY TIM KIEM GOOGLE

2.1 Khái quát về máy tìm kiếm Google

3.1.1 Sự hình thành và tìm kiếm mặc định của máy tìm kiếm Google

Máy tìm kiếm Google tại địa chỉ http://4vww.google.com được xem

là máy tìm kiếm tốt nhất và liên tiếp 4 lần chiến thắng trong các cuộc

bình chọn do tạp chí Search Engine Watch lưa chọn Bằng cách sử dụng máy tìm kiếm google, người dùng có thể tìm kiểm hình ảnh, các bàn luận đang có trên Usenet, và newsgroups (tạm dịch - các nhóm tỉn tức) Google cũng cung cấp chức năng kiểm tra lỗi chính tả, tra cứu các từ

điển, tìm giá chứng khoán, bản đồ đi đường, số điện tho:

Google đầu tiên là một dự án xuất phát từ Đại học Stanford cuả các sinh

viên Lany Page và Sergey Brin sáng lập vào khoảng năm 1996 - 1997, dự án lúc đó có tên gọi là BackRRub, Năm 1998, dự án này được đổi thành Google

và được tung ra thị trường trở thành một công ty tư nhân độc lập tên Google cho đến ngày nay Tại thời điểm này, hpz/Avww.Google.com là máy tìm

kiếm toàn bộ văn bản thông dụng nhất hiện nay trên thể giới Nó xử lý hàng triệu trên hàng triệu các yêu cầu tìm kiếm hằng ngày và những chỉ s

bốn tỉ trang Web Nó cũng chỉ rõ những kiểu hồ sơ khác, nhur PDF (Adobe Acrobat), DOC (Microsoft Word), va PPT (PowerPoint)

Google được mặc định tìm kiếm AND, nghĩa là khi người ding tim kiếm một cụm từ mà không sử dụng bắt kỳ toán tử bay từ bổ nghĩa nào, máy tìm kiếm Google sẽ trả về các kết quả mà mỗi kết quả đều chứa đựng đầy đủ các từ khóa trong cụm từ đó Ví dụ, người dùng nhập vào

hộp Search của máy tìm kiếm Google nội dung: điểm chuẩn đại học

2018 Máy tìm kiếm Google sẽ trả về một danh sách kết quả mả kết quả

nào cũng chứa đựng đầy đủ các từ khóa như “điểm chuẩn”, Ỷ

Trang 26

Hinh 2.1: Tim kiếm Google với nội dung “điểm chuẩn đại học 2018”

Kết quả thứ nhất, từ khóa “điểm chuẩn” và “2018” xuất hiện ngay

trong tiêu đề; từ khóa “đại học” và “điểm chuải hiện trong nội dung trang web; từ khóa “điểm chuẩn” còn xuất hiện trong đường dẫn url của trang web Đối với các kết quả thứ hai và thứ n cũng tương tự như

vậy Do đó, có thê thấy các từ khóa trong cụm từ điểm chuẩn đại học

2018 xuất hiện đầy đủ trong mỗi kết quả mà máy tìm kiếm Google trả về

Vì vậy, Google được mặc định tìm kiếm là AND

2.1.2 Các toán tử và từ bỗ nghĩa cơ bản của Google

Các toán tử được sử dụng với máy tìm kiếm Google bao gồi

+ Toán tử “+”: Dùng đấu + đặt trước một từ khóa trong truy vấn của

người dùng khi nhập vào hộp Search của máy tìm kiếm Google có nghĩa

là người dùng muốn máy tìm kiếm Google hiểu rằng trong danh sách k:

quả tìm kiếm đều phải bao gồm từ khóa đó trong mỗi kết quả tìm kiếm

+ Hai toán từ “+” và * — ” có thê kết hợp được với nhau Ví dụ:

người dùng muốn tìm kiếm tắt cả các thông tin về thương mại điện tử

nhưng muốn loại trừ các thông tin liên quan đến vấn đề bảo mật Tại hộp

28

Trang 27

Search của máy tìm kiểm Google, người dùng gõ: thương mại

bảo mật Kết quả được hiển thị như sau:

ìm kiếm Google với toan tir “—”

Ngoài hai toán tử (+) và (-) may tìm kiếm Google còn có các từ bổ

nghĩa khác giúp người dùng biều đạt ý định tìm kiếm với máy tìm kiếm

Cụ thể

+ Dấu gạch đọc (|): Dấu gạch dọc được sử dụng để thay thể cho từ OR-hoặc khi người dùng muốn tìm kiếm hoặc cái này hoặc cái kia; hoặc

vấn để này hoặc vấn đề kia Do máy tìm kiếm Google được mặc định tìm

kiếm là AND nên nếu muốn máy tìm kiếm hiều người dùng cần tìm kiếm hoặc thông tin này hoặc thông tin kia thì cần phải biểu dat bing OR va Google thay thé OR bang dau gach dọc ( |)

Ví dụ: người dùng muốn tìm kiếm hoặc cà phê hoặc trà xanh, tại hộp Search của máy tìm kiếm người dùng gõ như sau: cà phê | trà xanh

Kết quả tìm kiếm được hiền thị như sau:

29

Trang 28

màu sắc

30

Trang 29

Hình 2.4: Tìm kiếm Google với từ bỗ nghĩa NOT

+ Dấu nháy kép * ” : Được sử dụng khi người dùng muốn tìm kiếm chính xác một cụm từ, một đoạn văn bản hoặc một câu trích dẫn Ví dụ: người dùng muốn tìm kiếm chính xác cụm từ Báo cáo thương mại điện

tử Việt Nam 2017, tại hộp Search của máy tìm kiếm Google, người dùng nhập vào như sau: “Báo cáo thương mại điện tử Việt Nam 2017” Kết

quả tìm kiếm sẽ được hiển thị:

Trang 30

it cả các kết quả hiền thị đều cho thấy cụm từ Báo cáo thương mại

điện tử Việt Nam 2017 được xuất hiện (có thể ở trong tiêu 48, trong đường dẫn hoặc trong chính nội dung văn bản) và mỗi từ khóa trong cụm

từ đều xuất hiện một cách tuần tự

2.2 Những cú pháp đặc biệt của Google

Ngọi toán tử và từ bổ nghĩa cơ bản, máy tìm kiếm Google còn

bao gồm một tập hợp các cú pháp tìm kiếm đặc biệt, cho phép người dùng khi kết hợp có thể tìm thấy các thông tin theo yêu cầu mà không phải lọc kết quả

32

Trang 31

2.2.1 Cú pháp site

Đây là cú pháp khá đặc biệt và thường được sử dụng để hạn chế sự tìm kiếm tới một miền đặc biệt hoặc một min cấp cao Cú pháp site được sử dụng đễ giúp người dùng thể hiện yêu cầu tìm kiếm thông tin

hoặc chủ đề nào đó mà mong muốn các kết quả trả về của máy tìm kiếm

Google chỉ hiện thị các thông tin hoặc chủ để này trong một site cụ thể

hoặc một miền cấp cao được xác định trước VD: người dùng muốn tìm

kiếm thông tin về điểm chuẩn đại học 2018 chỉ trong tat cả các webpage của site vietnamnet.vn Tại hộp Search của máy tìm kiếm Google, người

dùng nhập vào truy vấn như sau: “điểm chuẩn đại học 2018”

Hình 2.7: Kết quả tìm kiếm Google với cú pháp site

Kết quả tìm kiếm được trả về cho thấy bắt kỳ kết quả nào cũng đều bao gồm thông tin về “điểm chuẩn đại học 2018” và đều nằm trong site

vietnamnet.vn

Ngoài ra, đối với tìm kiếm trong một miễn đặc thù với cú pháp site

cũng tương tự như vậy Miễn đặc thù là miền đại diện cho một lĩnh vực hoặc một tô chức, cơ quan nào đó Chẳng hạn: miễn đặc thù bao gồm các site thuộc lĩnh vực giáo dục là edu; miền đặc thù bao gồm các site thuộc

các tổ chức là org; miễn đặc thù bao gồm các site thuộc các cơ quan

chính phủ là gov Ví dụ vẫn là tìm kiểm thông tin về điểm chuẩn đại

33

Trang 32

học 2018 nhưng người dùng lúc này muốn tìm kiếm trong tắt cả các site

thuộc lĩnh vực giáo dục Tại hộp Search của máy tìm kiếm Google, người

dùng nhập vào truy vấn như sau: “điểm chuẩn đại học 2018”

site:edu.vn Kết quả tìm kiếm sẽ được hiền thị như sau:

Hình 2.8: Kết quả tìm kiếm Google cú pháp site với miền đặc thù

Kết quả tìm kiếm cho thấy mỗi kết quả đều hiển thị thông tin về

điểm chuẩn đại học 2018 và đều nằm trong tất cả các site thuộc lĩnh vực giáo dục của Việt Nam

2.2.2 Cú pháp intitle và tùy chọn tìm kiếm bồ sung allintitle

Ca phap intitle và tùy chọn tìm kiếm bô sung allintitle được sử dụng

để tìm kiếm những thông tin, chủ dé nim trong tiêu đề của các trang

Web Hay nói cách khác khi sử dụng các cú pháp này, người dùng muốn

biểu thị cho các máy tìm kiếm yêu cầu của mình chỉ tìm kiếm những từ

khóa nằm trong tiêu đề của trang Web mà thôi Điều này có nghĩa là cứ trang web nảo được lưu trữ trong cơ sở dữ liệu của máy tìm kiếm Google

mà trong tiêu đề có chứa đựng từ khóa người dùng truy vấn sẽ được

Google lựa chọn đề trả về trong danh sách kết quả tìm kiếm VD: Tìm kiếm từ “Hạ tầng khóa công khai PKI” bang ci phap intitle Tai hop

Search của máy tìm kiếm Google, người dùng nhập vào truy vấn như sau: intitle:“hạ tằng khóa công khai PKI” Kết qua tìm kiếm được hiển thị như sau:

Trang 33

Kết quả tìm kiếm cho thấy tiêu đề của mỗi kết quả đều bao gồm cụm

từ Hạ tầng khóa công khai PKI

Trong thực tế sử dụng, cú pháp intite và tùy chọn tìm kiểm bỏ sung

ttitle có thê kết hợp rất tốt với cú pháp site trong tìm kiếm các bài

viết về một chủ đề được xác định trước trong một site cụ thẻ hoặc một

miền đặc thù Ví dụ: Khi người dùng muốn tìm các bài viết về Youtube marketing trong tắt cả các trang web của các tổ chức Tại hộp

Search của máy tìm kiếm Google, người dùng nhập vào truy vấn như

sau: allintitle:“youtube marketing” site:org Kết quả tìm kiếm được

hiển thị như sau:

Trang 34

Khác với tập hợp cú pháp intitle và allintitle chuyên dùng để tìm kiếm trong tiêu đề của các trang web, cú pháp inurl và tùy chọn tìm kiếm

bổ sung allinurl được sử dụng để tìm kiếm các từ khỏa xác định trước về

một lĩnh vực hoặc chủ đề cụ thẻ mà những từ khóa này nằm trong đường

dẫn URL của các trang Web Hay nói cách khác là hai tập hợp cú pháp này chỉ tìm kiếm những từ khóa mà người dùng truy vấn nằm trong URL của các trang Web mà thôi Ví dụ: Tìm kiếm từ firewall nằm trong đường dẫn của các trang web Tại hộp Search của máy tìm kiếm Google,

người dùng nhập vào truy vấn sau đây: inurl:firewall Kết quả tìm kiếm

được hiển thị như sau:

Kết quả tìm kiếm cho thấy, trong tất cả các đường dẫn url màu xanh

lá cây được hiển thị thì kết quả nào cũng chứa đựng tir firewall

Giống với tập hợp cú pháp intitle va allintitle, tập hợp cú pháp inurl

và allinurl có thể phối hợp tốt với cú pháp site Người dùng có thể tìm

kiếm từ khóa bất kỳ nằm trong đường dẫn url của tất cả các trang web

thuộc một site cụ thể được xác định trước hoặc một miễn đặc thủ Ví dụ: Tìm kiếm từ thị trường chứng khoán nằm trong đường dẫn url của các

trang web thuộc site vnexpress.net Tại hộp Search của máy tìm kiếm

Google, người dùng nhập vào truy vấn sau đây

inurl:*thi truong chung khoan” site:vnexpress.net

36

Trang 35

Từ khóa thị trường chứng khoán trong truy vấn ở trên được viết

không dấu vì đường dẫn url của các trang web thường là tiếng Anh hoặc tiếng Việt không có dấu Nếu viết có dấu có thể sẽ không tìm thấy bắt kỳ

trong các trang web của vnexpress.net

2.2.4, Cú pháp intext

Không giống với cú pháp intitle tìm kiếm trong tiêu đề và inurl tìm

kiếm trong đường dẫn của các trang web, cú pháp intext được sử dụng

dé tìm thấy những thông tin trong truy vấn của người dùng chi trong

văn bản của các trang web Hay nói cách khác là cú pháp intext chỉ tìm

kiếm từ khóa truy vấn của người dùng trong nội dung văn bản mà bỏ qua các tiêu để, hoặc địa chỉ web cũng như các link Ví dụ: Tìm kiếm

thị trường bất động sản nằm trong nội dung văn bản của các trang web Tại hộp Search của máy tìm kiếm Google, người dùng nhập vào

truy vấn sau đây: intext:“thị trường bất động sản” Kết quả tìm kiếm

được hiển thị như sau

37

Trang 36

Hình 2.13: Kết quả tìm kiếm Google với cú pháp intext

Kết quả tìm kiếm cho thấy các kết quả đều xuất hiện từ khóa thị trường bất động sản nằm trong nội dung van ban (phan chit mau den

được in đậm) của các trang web,

'Cú pháp intext cũng phối hợp tốt với cú pháp site và các cú pháp khác Ví dụ: Tìm kiếm nhà chung cư đẹp trong tắt cả các trang web của

site batdongsan.com.vn Tại hộp Search của máy tìm kiếm Google,

người dùng nhập vào các truy vấn sau đây:

intext:“nhà chung cư đẹp” site:batdongsan.com.vn

Kết quả tìm kiếm được hiền thị như sau:

Hình 2.14: Kết quả tìm kiếm Google với cú pháp intext

một site cụ thế 38

Trang 37

'Kết quả tìm kiếm cho thấy các kết quả được trả về đều chứa đựng từ

khóa nhà chung cư đẹp trong nội dung văn bản và đều là các trang web

thuộc site batdongsan.com.vn

thường bị thay thế bởi inurl Ví dụ: Tìm kiếm các thông tin về

facebook marketing nằm trong liên kết mấu neo của các trang web

Tại hộp Search của máy tìm kiếm Google, người dùng nhập vào nội

dung sau đây:

Trang 38

một phẩn của đường dẫn đó, nếu có kết hợp hai cú pháp nảy có thể dẫn

tới kết quả sai hoặc không như mong muốn Ví dụ về cú pháp inanchor khi phối hợp với cú pháp inurl cho ra kết quả không đúng như hình 2.16

Trong danh sách các kết quả tìm kiếm được trả về, loại trừ kết quả đầu tiên là quảng cáo vì có chữ “Ad” ngay quả thứ hai và thứ ba đều không thỏa mãn yêu cầu tìm kiếm trong truy vấn của người dùng bởi vì

chỉ chứa đựng mỗi business trong đường dẫn mầu xanh lá cây mà không, thấy xuất hiện facebook marketing trong liên kết mắu neo của đường, dẫn đó

G,Sgle =aex«===eras.en

Facto Buses Ste | St a 14 Day Fee Tl Now| haptom

How Ue Fatok eBusiness Matting LFaetnk Buess

Hinh 2.16: Két qua tim kiém Google phéi hgp ca phap inanchor

với inurl 2.2.6 Cú pháp link

'Cú pháp link cho phép tìm kiểm tất cả những trang Web có liên kết tới một địa chỉ web mà người dùng xác định trước Hay nói cách khác là cú

pháp này sẽ liệt kê tất cả các trang Web có đặt link liên kết tới một site cụ

liên kết tới Website của Đại học Thương Mại Tại hộp Search của máy tìm kiểm Google, người

dùng nhập vào truy vấn sau đây: link:hftps:/Avww.tmu.edu.vn Kết quả

tìm kiếm được hiển thị như sau:

thể mà người dùng yêu cầu truy vấn, VD: Tìm tất cả

40

Trang 39

ú pháp Cache (còn gọi là cú pháp bộ nhớ đệm) cho phép cung cấp

một bức tranh về một trang web trông như thế nào từ lần cuối cùng

Google chỉ số hóa trang web này Hay nói cách khác là cú pháp này cho phép người dùng tìm lại các thông tin trên các site không còn tồn tại đã được lưu vào trong bộ nhớ đệm của Google Ví dụ: Tìm kiếm giao diện

được Google cập nhật lần gần nhất của website Chodientu.vn Tại Search của máy tìm kiếm Google, người dùng nhập vào truy vấn sau đây: cache:chodientu.vn Kết quả tìm kiếm được hiển thị như sau:

Trang 40

Tại thời điểm nhập truy vấn là ngày 22 tháng 9 năm 2018 lúc 22h 3 phút nhưng kết quả hiển thị cho thấy ngay dòng đầu tiên, Google đã chỉ rõ: "Đây là bộ nhớ đệm về site: hps/4ww.chodientu.vn của Google Đây là ảnh chụp nhanh của trang web vào ngày 13 tháng 9 năm 2018 vào

lúc 18h 15 phút 17 giây Trang hiện tại có thể đã thay đôi.” Điều này có

nghĩa là lần cuối robot của Google cập nhật chodientu.vn là vào ngày 13 tháng 9 năm 2018 và giao diện hiện tại của chodientu.vn có thể đã thay đổi không còn giống như vậy nữa (cũng có thể không còn tổn tại)

2.2.8 Cú pháp related

'Cú pháp related cho phép tìm thấy những website có nội dung tương

tự hoặc liên quan tới một địa chi site cụ thể được xác định trước Hay nói

cách khác là cú pháp related liệt kê tất cả các site có nội dung tương tự hoặc liên quan tới nội dung của website mà người dùng yêu cầu truy

Cú pháp này rất mạnh trong việc tìm kiếm các đối thủ cạnh tranh, các

nhà cung cấp đối với cùng một loại sản phâm hoặc dịch vụ

VD: Tìm kiếm các site có nội dung tương tự hoặc liên quan tới site vietnamnet.vn Tại hộp Search của máy tìm kiếm Google, người dùng

nhập vào truy vấn sau đây: related:vietnamnet.vn Kết quả tìm kiếm được hiển thị như hình 2.19, Kết quả tìm kiếm cho thấy tắt cả các website

Hình 2.19: Kết quả tìm kiém Google véi ct phap related

42

Ngày đăng: 31/10/2022, 03:31

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN