Khám phá giao diện

Một phần của tài liệu Giáo trình Internet (Nghề: Công nghệ thông tin - Sơ cấp) - Trường CĐ nghề Kỹ thuật Công nghệ (Trang 39)

Bài 3 : TÌM KIẾM THƠNG TIN TRÊN INTERNET

3. Tìm kiếm thông tin với Google

3.1 Khám phá giao diện

Sau khi gõ vào địa chỉ www.google.com.vn giao diện trang chủ của google

search sẽ hiện ra trên trình duyệt web như sau :

3.2 Các nhóm tìm kiếm

 Google. Google là máy tìm kiếm phổ biến nhất hiện nay. ...

 Bing. Bing là một search engine được sở hữu và vận hành bởi Microsoft . ...  Yahoo. Yahoo Search trực thuộc sở hữu của tập đoàn Yahoo!. ...

 Baidu. ...  Yandex. ...  Duckduckgo. ...  Ask.com. ...  aol.com.

3.3 Tìm kiếm cơ bản: Sử dụng các toán tử luận lý, ký tự đặc biệt, cú pháp URL

có 2 cách để phân loại chúng là phân loại theo phương thức hoạt động và phân loại theo chức năng.

Có 4 phương pháp hoạt động chính của các cơng cụ tìm kiếm khác nhau cụ thể dưới đây

Phương pháp 1: Directionary: Thư mục, danh sách

Còn gọi là máy truy tìm theo phân lớp (hierarchical Search Engine) – máy truy tìm này phân lớp sẵn các đối tượng vào các thư mục và người dùng sẽ lựa theo kiểu rẽ nhánh từ từ cho đến khi tìm ra các trang Web mà mình muốn.

Kiểu này dễ cho người truy cập nhưng có điểm yếu là nó khơng thể bao gồm hết mọi chủ đề mà họ muốn kiếm ra. Hơn nữa, sự phân loại đôi khi không được đầy đủ và chính xác. Điển hình của loại này là Yahoo.com.

39

Ví dụ: nếu người dùng đang tìm kiếm một trang web về cờ vua, họ có thể đi theo một con đường như: giải trí -> trị chơi -> trị chơi trên bàn cờ -> cờ vua.

Yahoo là một trong những máy tìm kiếm sử dụng phương pháp hoạt động này

Phương pháp 2: Crawl: Thu thập thông tin (Google)

Cơ sở dữ liệu của các máy tìm kiếm được cập nhật hoá bởi các phần mềm đặc biệt thường gọi là “robot”, “spider” hay “Webcrawler”. Các phần mềm này sẽ tự động dị tìm và lập chỉ mục những website trên internet. Sau đó sẽ lưu lại trong hệ thống lưu trữ. Nó cũng sẽ cập nhật những trang có sẵn trong cơ sở dữ liệu để kiếm ra các liên kết (link) từ các trang và trở lại bổ sung dữ liệu cho chính nó sau khi phân tích.

Phần mềm này cũng sẽ báo cáo về các liên kết đã bị đào thải. Khi người dùng thực hiện hành động truy vấn trên ơ search box, máy tìm kiếm sẽ truy vấn cơ sở dữ liệu và đưa ra kết quả tốt nhất sau khi phân hạng sẽ được xếp ở thứ tự đầu tiên. Trang thông dụng nhất dùng nguyên tắc này là Google.com

Phương pháp 3: Sử dụng cơ sở dữ liệu đặc biệt

Đặc điểm của loại này là dữ liệu kiếm ra không thực sự có từ địa chỉ trang Web cụ thể qua các máy truy tìm; dữ liệu này tồn tại trong các cơ sở dữ liệu của một máy tính hay mạng ở đâu đó trên Internet mà các trang Web được phép sử dụng.

Phương pháp 4: Meta: lấy dữ liệu từ hàng loạt công cụ tìm kiếm khác

Ngày nay, người ta có thể lợi dụng các máy truy tìm sẵn có để thiết kế thành một loại máy truy tìm mới gọi là máy truy tìm ảo. Nguyên tắc của loại máy truy tìm này khá đơn giản. Nó khơng có cơ sở dữ liệu. Khi hoạt động thì nó sẽ gửi từ khóa đến các máy truy tìm khác một cách đồng loạt và nhận về tất cả các kết quả tìm được. Nhiệm vụ tiếp theo chỉ là phân tích và phân hạng lại các tài liệu tìm được cho thân chủ. Ưu điểm của loại máy truy tìm này là lợi dụng cơ sở dữ liệu của các máy truy tìm khác để tìm ra nhiều kết quả hơn và nhanh hơn. Nhưng vì loại này chỉ tồn tại nếu có các máy truy tìm nguyên thuỷ nên gọi là meta- (tiền tố meta có nghĩa là “siêu hình” hay “ảo”). Điển hình loại này là MetaCrawler.

Phân loại theo chức năng của các máy tìm kiếm

Cơng cụ tìm kiếm được tạo ra để đáp ứng nhu cầu cần thiết của người dùng. Vì vậy ứng với mỗi chức năng tìm kiếm khác nhau mà ta có thể phân loại Search Engine như sau:

 Tìm kiếm địa chỉ trang Web  Tìm kiếm địa chỉ thư điện tử

 Tìm kiếm kiếm thơng tin riêng về một người  Tìm kiếm thơng tin về một tổ chức

 Tìm kiếm việc làm  Tìm kiếm bản đồ…

3.4 Tìm kiếm nâng cao

40

Nếu bạn thường dùng hai hay ba địa điểm tìm kiếm nào đó, hãy tập dùng thành thạo các quy tắc tìm kiếm nâng cao của chúng, bạn sẽ đạt được kết quả tốt hơn. Ngồi những thủ thuật tìm kiếm thơng thường, Google cịn cung cấp cho người sử dụng một tính năng tìm kiếm nâng cao rất hữu dụng mà không phải ai trong chúng ta cũng biết. Với tính năng này, bạn có thể dễ dàng tìm kiếm theo cụm từ hoặc theo từng từ riêng biệt. Bạn cũng có thể tìm kiếm dưới dạng các file văn bản với các định dạng thông dụng... với rất nhiều ngôn ngữ khác nhau.

Tính năng

tìm kiếm này của Google được chia ra làm ba phần cụ thể: Phần đầu tiên sẽ giúp bạn tìm trang web thông qua những từ khóa liên quan đến nội dung của trang web:

- Để tìm kiếm theo một cụm từ, bạn điền nội dung tìm kiếm vào mục "all these words" hoặc tìm từng từ cụ thể bắt cách điền nội dung của từng từ vào các mục của phần "one or more of these words".

- Để kết quả khơng chứa những từ khóa khơng cần thiết, bạn điền những từ khóa khơng mong muốn tìm được vào mục "any of these unwanted words" . Sau khi đã điền những thơng tin cần thiết cho sự tìm kiếm, bạn click vào nút Advanced Search để bắt đầu quá trình tìm kiếm.

- Để kết quả tìm kiếm được tốt và chính xác hơn, bạn xác nhận thêm các thông tin cần thiết ở mục "Need more tools?" bên dưới.

- Tại phần này, bạn có thể xác lập số kết quả sẽ hiện trên một trang để Google hiển thị kết quả tìm kiếm tại mục result per page. Điều này sẽ giúp bạn dễ dàng theo dõi các kết quả tìm kiếm mà khơng cần phải chuyển qua lại giữa các trang kết quả.

- Bạn cũng có thể tìm kiếm kết quả dưới nhiều ngơn ngữ khác nhau. Thông thường Google sẽ dựa vào IP của lượt tìm kiếm để đưa ra kết quả cần thiết. Chẳng hạn những người sử dụng internet Việt Nam sẽ nhận được kết quả tìm kiếm bằng tiếng Việt trước rồi mới đến kết quả tiếng Anh sau. Tuy nhiên, bạn có thể thiết lập để nhận được kết quả bằng ngôn ngữ mong muốn tại mục Language. Sau khi lựa chọn ngơn ngữ thích hợp, những kết quả liên quan đến từ khóa tìm kiếm được viết dưới ngơn ngữ bạn đã chọn sẽ được ưu tiên xếp đầu trong danh sách kết quả.

- Nếu bạn muốn tìm kiếm những kết quả dưới dạng các file văn bản hoặc các file nguồn, bạn có thể sử dụng tính năng File type. Chẳng hạn bạn muốn tìm

41

một file văn bản word chứa các thơng tin cần thiết để có thể dễ dàng download về máy và sử dụng thì bạn sẽ chọn Microsoft Word (.doc) tại mục này.

Tuy nhiên nếu như với những sự giúp đỡ như trên vẫn chưa đủ để giúp bạn có được một kết quả mong muốn thì bạn có thể nhờ đến sự trợ giúp của tính năng tiếp theo bằng cách click vào dấu + ở mục Date, usage rights, numeric range, and

more. Sau khi click vào dấu + tại đây, một số các sự lựa chọn mới sẽ xuất hiện để

bạn có thể lựa chọn sao cho kết quả tìm kiếm là tối ưu nhất. Tuy nhiên trong số các mục lựa chọn mới này, bạn chỉ cần quan tâm đến 3 nội dung:

- Usage right: Điều này là cần thiết khi bạn tìm kiếm những nội dung có bản quyền hoặc miễn phí... chẳng hạn như phần mềm, ebook, mp3...

- Region: Là quốc gia chứa những kết quả tìm kiếm của bạn. Chẳng hạn bạn tìm cửa hàng để mua một vật dụng tại Việt Nam thì bạn sẽ chọn Region là Việt Nam. - Và nội dung cuối cùng cần quan tâm đó là lựa chọn Safe Search. Với lựa chọn này, những trang web lừa đảo, chứa những đoạn mã độc hay những trang web với nội dung khiêu dâm, bạo lực... sẽ bị lọc ra khỏi kết quả tìm kiếm. Điều này sẽ giúp bạn yên tâm hơn cho kết quả tìm kiếm của mình.

2. Xác định thông tin cần tìm

Khi muốn tìm thơng tin về một sản phẩm nào đó, hãy cung cấp câu hỏi giúp cho site tìm kiếm biết thơng tin mà bạn muốn tìm. Vi dụ: Muốn tìm kiếm thơng tin về máy ảnh số thì bạn hãy nhập "digital camera reviews" (điểm qua các loại máy ảnh số) thay vì chỉ có "digital cameras". Những từ như "compare" (so sánh) và "buy" (mua) cũng có ích.

3. Đặt câu hỏi trong dấu ngoặc kép

Đặt nhóm từ truy vấn trong dấu ngoặc kép ("") thường cho kết quả tuyệt vời.

Sử dụng một số tốn tử logic trong chuỗi tìm kiếm để có thể nhanh chóng tìm ra loại tài liệu mình cần. Ví dụ:

( + ) dùng để liên kết các từ khóa trong chuỗi tìm kiếm. (...) để gom các từ khóa cùng loại.

"..." chỉ cho Google biết là từ khóa trong dấu nháy kép phải có trong văn bản.

4. Dùng câu hành động

Thường thì bạn có thể định vị nhanh chóng thơng tin cần tìm bằng cách đưa vào câu truy vấn dạng tác vụ. Hãy thử dùng câu truy vấn có dạng như "sell digital cameras" (bán máy ảnh số) khi đó bạn sẽ nhận được các thơng tin của nhà sản xuất, cùng với sự chào mời của các công ty phân phối sản phẩm máy ảnh số.

5. Sử dụng toán tử logic

Bạn có thể dùng các toán tử logic như AND, OR... trong câu truy vấn. Hãy tham khảo các thủ thuật với toán tử logic ở địa chỉ

6. Xác định thời gian

Nếu bạn muốn có các liên kết liên quan đến một thời điểm cụ thể, hãy đưa thêm ngày hoặc năm vào trong cặp dấu nháy kép. Ví dụ: "Olympics and 2008".

7. Dùng nhóm từ liên quan

Nếu bạn tìm kiếm tài liệu chuyên biệt, hãy lưu ý tới các nhóm từ đặc biệt được dùng trong lĩnh vực đó. Chẳng hạn để tìm kiếm học bổng du học, bạn có thể tìm kết hợp "Scholarship" với "Fullbright".

8. Suy nghĩ kỹ trước khi bấm chuột

Để tránh lãng phí thời gian với những site không phù hợp, hãy duyệt qua phần giới thiệu của các liên kết trong danh sách kết quả tìm kiếm, xem xét theo ngữ

42

cảnh câu truy vấn của bạn, địa chỉ URL, đặc trưng của công ty sở hữa site, và ngày tháng (nếu có thể)

9. Hỏi chuyên gia

Bạn có thể tiết kiệm được thời gian bằng cách nhờ chuyên gia. Ví dụ như có vấn đề liên quan đến rượu? Hãy đến thẳng web site chuyên về lĩnh vực này là Wine

Spectator (http://www.winespectator.com) thay vì tìm kiếm trên Google hay Yahoo.

10. Biết dừng đúng lúc

Biết khi nào nên kết thúc việc tìm kiếm trên web là rất quan trọng. Tuỳ

thuộc vào câu hỏi của bạn, đôi khi việc nhấc điện thoại (để hỏi) lại nhanh hơn nhiều.

Kỹ năng tìm kiếm là một kỹ năng thú vị. Trong đó, bạn phải thực sự làm chủ từ ngữ và biết chọn được từ khóa thật chuẩn, thật đắt. Do vậy, ngồi những kỹ năng đã được dạy ở rất nhiều sách, chúng tôi nghĩ việc học ngoại ngữ và học tiếng

mẹ đẻ của mình cũng là một điều cần phát triển nếu muốn cải thiện kỹ năng tìm kiếm.

3.4.1.Cú pháp từ khóa mở rộng [ intext: ]

Cú pháp “intext:” tìm kiếm các từ trong một website riêng biệt. Nó phớt lờ các liên kết hoặc URL và tiêu đề của trang.

Ví dụ: “intext:exploits” (khơng có ngoặc kép) sẽ cho kết quả là những liên kết đến những trang web có từ khóa tìm kiếm là “exploits” trong các trang của nó.

[ related: ]

Cú pháp “related:” sẽ liệt kê các trang Web “tương tự” với trang Web chỉ định. Ví dụ : “related:www.thietkewebchuanseo.com”sẽ liệt kê các trang web tương tự với trang chủ Securityfocus. Nhớ rằng khơng có khoảng trống giữa “related:” và URL của trang Web.

[ intitle: ]

Cú pháp “intitle:” giúp Google giới hạn kết quả tìm kiếm về những trang có chứa từ đó trong tiêu đề. Ví dụ, “intitle: login password” (khơng có ngoặc kép) sẽ cho kết quả là những link đến những trang có từ “login” trong tiêu đề, và từ “password” nằm ở đâu đó trong trang.

Tương tự, nếu ta muốn truy vấn nhiều hơn một từ trong tiêu đề của trang thì ta có thể dùng “allintitle:” thay cho “intitle” để có kết quả là những trang có chứa tất cả những từ đó trong tiêu đề. Ví dụ như dùng

“intitle: login intitle: password” cũng giống như truy vấn “allintitle: login password”.

[ filetype: ]

Cú pháp “filetype:” giới hạn Google chỉ tìm kiếm những files trên internet có phần mở rộng riêng biệt (Ví dụ: doc, pdf hay ppt v.v…). Ví dụ : “filetype:doc site:gov confidential” (khơng có ngoặc kép) sẽ tìm kiếm những file có phẩn mở rộng là “.doc” trong tất cả những tên miền của chính phủ có phần mở rộng là “.gov” và chứa từ “confidential”(bí mật) trong trang hoặc trong file “.doc”. Ví dụ . Kết quả sẽ bao gồm những liên kết đến tất cả các file văn bản bí trên các site của chính phủ.

[ inurl: ]

Cú pháp “inurl:” giới hạn kết quả tìm kiếm về những địa chỉ URL có chứa từ khóa tìm kiếm. Ví dụ: “inurl: passwd” (khơng có ngoặc kép) sẽ cho kết quả là những link đến những trang có từ “passwd” trong URL.

Tương tự, nếu ta muốn truy vấn nhiều hơn một từ trong URL thì ta có thể dùng “allinurl:” thay cho “inurl” để được kết quả là những URL chứa tất cả những từ khóa tìm kiếm.Ví dụ: “allinurl: etc/passwd“ sẽ tìm kiếm những URL có chứa “etc” và “passwd”. Ký hiệu gạch chéo (“/”) giữa các từ sẽ bị Google bỏ qua.

43

[ site: ]

Cú pháp “site:” giới hạn Google chỉ truy vấn những từ khóa xác định trong một site hoặc tên miền riêng biệt. Ví dụ: “exploits site:hackingspirits.com” (khơng có ngoặc kép) sẽ tìm kiếm từ khóa “exploits” trong những trang hiện có trong tất cả các link của tên miền “hackingspirits.com”. Khơng có khoảng trống nào giữa “site:” và “tên miền”.

[ link: ]

Cú pháp “link:” sẽ liệt kê những trang web mà có các liên kết đến đến những trang web chỉ định. Ví dụ :

chuỗi “link:www.thietkewebchuanseo.com”sẽ liệt kê những trang web có liên kết trỏ đến trang chủ SecurityFocus.

Chú ý khơng có khoảng trống giữa “link:” và URL của trang Web.

[ cache: ]

Truy vấn “cache:” sẽ cho kết quả là phiên bản của trang Web mà mà Google đã lưu lại. Ví dụ:

“cache:www.thietkewebchuanseo.com”sẽ cho ra trang đã lưu lại bởi Google’s. Nhớ rằng khơng có khoảng trống giữa “cache:” và URL của trang web.

Nếu bạn bao gồm những từ khác trong truy vấn, Google sẽ điểm sáng những từ này trong văn bản đã được lưu lại.

Ví dụ: “cache:www.thietkewebchuanseo.com” sẽ cho ra văn bản đã được lưu lại có từ “seo” được điểm sáng.

[ phonebook: ]

“phonebook” tìm kiếm thơng tin về các địa chỉ đường phố ở Mỹ và số điện thoại. Ví dụ:

“phonebook:Lisa+CA” sẽ liệt kê tất cả các tên người có từ “Lisa” trong tên và ở “California (CA)”. Cú pháp này có thể được sử dụng như là một công cụ tuyệt vời của tin tặc trong trường hợp ai đó muốn tìm kiếm thơng tin cá nhân cho cơng việc xã hội. Truy vấn các site hoặc server dễ bị tấn công sử dụng các cú pháp nâng cao của Google Những cú pháp truy vấn nâng cao thảo luận ở trên thực sự có thể giúp người ta chính xác hóa các tìm kiếm và có được những gì họ thực sự tìm kiếm.

Bây giờ Google trở thành một máy tìm kiếm thơng minh, những người dùng có ác ý khơng hề bận tâm khai thác khả năng của nó để đào bới những thơng tin bí mật từ internet mà chỉ có sự truy cập giới hạn. Bây giờ tơi sẽ thảo luận những kỹ thuật này một cách chi tiết làm thế nào để những người dùng ác tâm đào bới thông tin trên internet sử dụng Google như một công cụ.

Sử dụng cú pháp “Index of ” để tìm kiếm các site cho phép duyệt chỉ mục

Một webserver(máy chủ web) cho phép duyệt chỉ mục nghĩa là bất kỳ ai có thể duyệt các thư mục của webserver như các thư mục nội bộ thông thường. Ở đây tôi sẽ thảo luận làm thế nào để sử dụng cú pháp “index of” để có một danh sách các liên kết đến

Một phần của tài liệu Giáo trình Internet (Nghề: Công nghệ thông tin - Sơ cấp) - Trường CĐ nghề Kỹ thuật Công nghệ (Trang 39)

Tải bản đầy đủ (PDF)

(68 trang)