3. Tìm kiếm thông tin với Google
3.2 Các nhóm tìm kiếm
• Google. Google là máytìm kiếm phổ biến nhất hiện nay. ...
• Bing. Bing là một search engine được sở hữu và vận hành bởi Microsoft . ... • Yahoo. Yahoo Search trực thuộc sở hữu của tập đoàn Yahoo!. ...
• Baidu. ... • Yandex. ... • Duckduckgo. ... • Ask.com. ... • aol.com. 3.3 Tìm kiếm cơ bản: Sử dụng các toán tử luận lý, ký tự đặc biệt, cú pháp URL
có 2 cách để phân loại chúng là phân loại theo phương thức hoạt động và phân loại theo chức năng.
Có 4 phương pháp hoạt động chính của các công cụ tìm kiếm khác nhau cụ thể dưới đây
Phương pháp 1: Directionary: Thư mục, danh sách
Còn gọi là máy truy tìm theo phân lớp (hierarchical Search Engine) – máy truy tìm này phân lớp sẵn các đối tượng vào các thư mục và người dùng sẽ lựa theo kiểu rẽ nhánh
từ từ cho đến khi tìm ra các trang Web mà mình muốn.
Kiểu này dễ cho người truy cập nhưng có điểm yếu là nó không thể bao gồm hết mọi chủ đề mà họ muốn kiếm ra. Hơn nữa, sự phân loại đôi khi không được đầy đủ và chính xác. Điển hình của loại này là Yahoo.com.
Ví dụ: nếu người dùng đang tìm kiếm một trang web về cờ vua, họ có thể đi theo một con đường như: giải trí -> trò chơi -> trò chơi trên bàn cờ -> cờ vua.
Yahoo là một trong những máy tìm kiếm sử dụng phương pháp hoạt động này
Phương pháp 2: Crawl: Thu thập thông tin (Google)
Cơ sở dữ liệu của các máy tìm kiếm được cập nhật hoá bởi các phần mềm đặc biệt thường gọi là “robot”, “spider” hay “Webcrawler”. Các phần mềm này sẽ tự động dò tìm và lập chỉ mục những website trên internet. Sau đó sẽ lưu lại trong hệ thống lưu trữ. Nó cũng sẽ cập nhật những trang có sẵn trong cơ sở dữ liệu để kiếm ra các liên kết (link) từ các trang và trở lại bổ sung dữ liệu cho chính nó sau khi phân tích.
Phần mềm này cũng sẽ báo cáo về các liên kết đã bị đào thải. Khi người dùng thực hiện hành động truy vấn trên ô search box, máy tìm kiếm sẽ truy vấn cơ sở dữ liệu và
đưa ra kết quả tốt nhất sau khi phân hạng sẽ được xếp ở thứ tự đầu tiên. Trang thông
dụng nhất dùng nguyên tắc này là Google.com
Phương pháp 3: Sử dụng cơ sở dữ liệu đặc biệt
Đặc điểm của loại này là dữ liệu kiếm ra không thực sự có từ địa chỉ trang Web cụ thể
qua các máy truy tìm; dữ liệu này tồn tại trong các cơ sở dữ liệu của một máy tính hay
mạng ở đâu đó trên Internet mà các trang Web được phép sử dụng.
Phương pháp 4: Meta: lấy dữ liệu từ hàng loạt công cụ tìm kiếm khác
Ngày nay, người ta có thể lợi dụng các máy truy tìm sẵn có để thiết kế thành một loại máy truy tìm mới gọi là máy truy tìm ảo. Nguyên tắc của loại máy truy tìm này khá
đơn giản. Nó không có cơ sở dữ liệu. Khi hoạt động thì nó sẽ gửi từ khóa đến các máy truy tìm khác một cách đồng loạt và nhận về tất cả các kết quả tìm được. Nhiệm vụ
tiếp theo chỉ là phân tích và phân hạng lại các tài liệu tìm được cho thân chủ. Ưu điểm
của loại máy truy tìm này là lợi dụng cơ sở dữ liệu của các máy truy tìm khác để tìm ra nhiều kết quả hơn và nhanh hơn. Nhưng vì loại này chỉ tồn tại nếu có các máy truy tìm nguyên thuỷ nên gọi là meta- (tiền tố meta có nghĩa là “siêu hình” hay “ảo”). Điển hình loại này là MetaCrawler.
Phân loại theo chức năng của các máy tìm kiếm
Công cụ tìm kiếm được tạo ra để đáp ứng nhu cầu cần thiết của người dùng. Vì vậy
ứng với mỗi chức năng tìm kiếm khác nhau mà ta có thể phân loại Search Engine như sau: • Tìm kiếm địa chỉ trang Web
• Tìm kiếm địa chỉ thư điện tử
• Tìm kiếm kiếm thông tin riêng về một người • Tìm kiếm thông tin về một tổ chức
• Tìm kiếm việc làm • Tìm kiếm bản đồ…
3.4 Tìm kiếm nâng cao
Nếu bạn thường dùng hai hay ba địa điểm tìm kiếm nào đó, hãy tập dùng thành thạo các quy tắc tìm kiếm nâng cao của chúng, bạn sẽ đạt được kết quả tốt hơn.
Ngoài những thủ thuật tìm kiếm thông thường, Google còn cung cấp cho người sử dụng một tính năng tìm kiếm nâng cao rất hữu dụng mà không phải ai trong chúng ta cũng biết. Với tính năng này, bạn có thể dễ dàng tìm kiếm theo cụm
từ hoặc theo từng từ riêng biệt. Bạn cũng có thể tìm kiếm dưới dạng các file văn
bản với các định dạng thông dụng... với rất nhiều ngôn ngữ khác nhau.
Tính năng tìm kiếm này của Google được chia ra làm ba phần cụ thể: Phần đầu tiên sẽ giúp bạn tìm trang web thông qua những
từ khóa liên quan
đến nội dung của trang web:
- Để tìm kiếm theo một
cụm từ, bạn điền
nội dung tìm kiếm vào mục"all these words"hoặc tìm từng từ cụ thể bắt cách điền
nội dung của từng từ vào các mục của phần"one or more of these words".
- Để kết quả không chứa những từ khóa không cần thiết, bạn điền những từ
khóa không mong muốn tìm được vào mục "any of these unwanted words" . Sau khi đã điền những thông tin cần thiết cho sự tìm kiếm, bạn click vào nút Advanced Search để bắt đầu quá trình tìm kiếm.
- Để kết quả tìm kiếm được tốt và chính xác hơn, bạn xác nhận thêm các thông tin cần thiết ở mục"Need more tools?" bên dưới.
- Tại phần này, bạn có thể xác lập số kết quả sẽ hiện trên một trang để
Google hiển thị kết quả tìm kiếm tại mụcresult per page.Điều này sẽ giúp bạn dễ
dàng theo dõi các kết quả tìm kiếm mà không cần phải chuyển qua lại giữa các trang kết quả.
- Bạn cũng có thể tìm kiếm kết quả dưới nhiều ngôn ngữ khác nhau. Thông thường Google sẽ dựa vào IP của lượt tìm kiếm để đưa ra kết quả cần thiết. Chẳng
hạn những người sử dụng internet Việt Nam sẽ nhận được kết quả tìm kiếm bằng tiếng Việt trước rồi mới đến kết quả tiếng Anh sau. Tuy nhiên, bạn có thể thiết lập
để nhận được kết quả bằng ngôn ngữ mong muốn tại mục Language.Sau khi lựa chọn ngôn ngữ thích hợp, những kết quả liên quan đến từ khóa tìm kiếm được viết
dưới ngôn ngữ bạn đã chọn sẽ được ưu tiên xếp đầu trong danh sách kết quả.
- Nếu bạn muốn tìm kiếm những kết quả dưới dạng các file văn bản hoặc các file nguồn, bạn có thể sử dụng tính năngFile type. Chẳng hạn bạn muốn tìm
một file văn bản word chứa các thông tin cần thiết để có thể dễ dàng download về
máy và sử dụng thì bạn sẽ chọnMicrosoft Word (.doc) tại mục này.
Tuy nhiên nếu như với những sự giúp đỡ như trên vẫn chưa đủ để giúp bạn có được một kết quả mong muốn thì bạn có thể nhờ đến sự trợ giúp của tính năng tiếp theo bằng cách click vào dấu + ở mụcDate, usage rights, numeric range, and more. Sau khi click vào dấu + tại đây, một số các sự lựa chọn mới sẽ xuất hiện để bạn có thể lựa chọn sao cho kết quả tìm kiếm là tối ưu nhất. Tuy nhiên trong số các
mục lựa chọn mới này, bạn chỉ cần quan tâm đến 3 nội dung:
- Usage right: Điều này là cần thiết khi bạn tìm kiếm những nội dung có
bản quyền hoặc miễn phí... chẳng hạn như phần mềm, ebook, mp3...
-Region: Là quốc gia chứa những kết quả tìm kiếm của bạn. Chẳng hạn bạn tìm cửa hàng để mua một vật dụng tại Việt Nam thì bạn sẽ chọn Region là Việt Nam. - Và nội dung cuối cùng cần quan tâm đó là lựa chọnSafe Search. Với lựa chọn này, những trang web lừa đảo, chứa những đoạn mã độc hay những trang web
với nội dung khiêu dâm, bạo lực... sẽ bị lọc ra khỏi kết quả tìm kiếm. Điều này sẽ
giúp bạn yên tâm hơn cho kết quả tìm kiếm của mình.
2. Xác định thông tin cần tìm
Khi muốn tìm thông tin về một sản phẩm nào đó, hãy cung cấp câu hỏi giúp cho site tìm kiếm biết thông tin mà bạn muốn tìm. Vi dụ: Muốn tìm kiếm thông tin
về máy ảnh số thì bạn hãy nhập "digital camerareviews" (điểm qua các loại máy
ảnh số) thay vì chỉ có "digital cameras". Những từ như "compare" (so sánh) và "buy" (mua) cũng có ích.
3. Đặt câu hỏi trong dấu ngoặc kép
Đặt nhóm từ truy vấn trong dấu ngoặc kép ("") thường cho kết quả tuyệt vời.
Sử dụng một số toán tử logic trong chuỗi tìm kiếm để có thể nhanh chóng tìm ra loại tài liệu mình cần. Ví dụ:
( + ) dùng để liên kết các từ khóa trong chuỗi tìm kiếm. (...) để gom các từ khóa cùng loại.
"..." chỉ cho Google biết là từ khóa trong dấu nháy kép phải có trong văn bản.
4. Dùng câu hành động
Thường thì bạn có thể định vị nhanh chóng thông tin cần tìm bằng cách đưa vào câu truy vấn dạng tác vụ. Hãy thử dùng câu truy vấn có dạng như "sell digital cameras" (bán máy ảnh số) khi đó bạn sẽ nhận được các thông tin của nhà sản xuất, cùng với sự chào mời của các công ty phân phối sản phẩm máy ảnh số.
5. Sử dụng toán tử logic
Bạn có thể dùng các toán tử logic như AND, OR... trong câu truy vấn. Hãy tham khảo các thủ thuật với toán tử logic ở địa chỉ
Nếu bạn muốn có các liên kết liên quan đến một thời điểm cụ thể, hãy đưa thêm ngày hoặc năm vào trong cặp dấu nháy kép. Ví dụ: "Olympics and 2008".
7. Dùng nhóm từ liên quan
Nếu bạn tìm kiếm tài liệu chuyên biệt, hãy lưu ý tới các nhóm từ đặc biệt được dùng trong lĩnh vực đó. Chẳng hạn để tìm kiếm học bổng du học, bạn có thể tìm kết hợp "Scholarship" với "Fullbright".
8. Suy nghĩ kỹ trước khi bấm chuột
Để tránh lãng phí thời gian với những site không phù hợp, hãy duyệt qua phần giới thiệu của các liên kết trong danh sách kết quả tìm kiếm, xem xét theo ngữ cảnh câu truy vấn của bạn, địa chỉ URL, đặc trưng của công ty sở hữa site, và ngày tháng (nếu có thể)
9. Hỏi chuyên gia
Bạn có thể tiết kiệm được thời gian bằng cách nhờ chuyên gia. Ví dụ như có vấn đề liên quan đến rượu? Hãy đến thẳng web site chuyên về lĩnh vực này là Wine Spectator (http://www.winespectator.com) thay vì tìm kiếm trên Google hay Yahoo.
10. Biết dừng đúng lúc
Biết khi nào nên kết thúc việc tìm kiếm trên web là rất quan trọng. Tuỳ thuộc vào câu hỏi của bạn, đôi khi việc nhấc điện thoại (để hỏi) lại nhanh hơn nhiều.
Kỹ năng tìm kiếm là một kỹ năng thú vị. Trong đó, bạn phải thực sự làm chủ từ ngữ và biết chọn được từ khóa thật chuẩn, thật đắt. Do vậy, ngoài những kỹ năng đã được dạy ở rất nhiều sách, chúng tôi nghĩ việc học ngoại ngữ và học tiếng
mẹ đẻ của mình cũng là một điều cần phát triển nếu muốn cải thiện kỹ năng tìm kiếm.
3.4.1.Cú pháp từ khóa mở rộng [ intext: ]
Cú pháp “intext:” tìm kiếm các từ trong một website riêng biệt. Nó phớt lờ các liên kết hoặc URL và tiêu đề của trang.
Ví dụ: “intext:exploits” (không có ngoặc kép) sẽ cho kết quả là những liên kết đến những trang web có từ khóa tìm kiếm là “exploits” trong các trang của nó.
[ related: ]
Cú pháp “related:” sẽ liệt kê các trang Web “tương tự” với trang Web chỉ định. Ví dụ : “related:www.thietkewebchuanseo.com”sẽ liệt kê các trang web tương tự với trang chủ
Securityfocus. Nhớ rằng không có khoảng trống giữa “related:” và URL của trang Web.
[ intitle: ]
Cú pháp “intitle:” giúp Google giới hạn kết quả tìm kiếm về những trang có chứa từ đó trong tiêu đề. Ví dụ, “intitle: login password” (không có ngoặc kép) sẽ cho kết quả là những link đến những trang có từ “login” trong tiêu đề, và từ “password” nằm ở đâu
Tương tự, nếu ta muốn truy vấn nhiều hơn một từ trong tiêu đề của trang thì ta có thể
dùng “allintitle:” thay cho “intitle” để có kết quả là những trang có chứa tất cả những
từ đó trong tiêu đề. Ví dụ như dùng
“intitle: login intitle: password” cũng giống như truy vấn “allintitle: login password”.
[ filetype: ]
Cú pháp “filetype:” giới hạn Google chỉ tìm kiếm những files trên internet có phần mở rộng riêng biệt (Ví dụ: doc, pdf hay ppt v.v…). Ví dụ : “filetype:doc site:gov confidential” (không có ngoặc kép) sẽ tìm kiếm những file có phẩn mở rộng là “.doc” trong tất cả những tên miền của chính phủ có phần mở rộng là “.gov” và chứa từ
“confidential”(bí mật) trong trang hoặc trong file “.doc”. Ví dụ . Kết quả sẽ bao gồm những liên kết đến tất cả các file văn bản bí trên các site của chính phủ.
[ inurl: ]
Cú pháp “inurl:” giới hạn kết quả tìm kiếm về những địa chỉ URL có chứa từ khóa tìm kiếm. Ví dụ: “inurl: passwd” (không có ngoặc kép) sẽ cho kết quả là những link đến những trang có từ “passwd” trong URL.
Tương tự, nếu ta muốn truy vấn nhiều hơn một từ trong URL thì ta có thể dùng “allinurl:” thay cho “inurl” để được kết quả là những URL chứa tất cả những từ khóa tìm kiếm.Ví dụ: “allinurl: etc/passwd“ sẽ tìm kiếm những URL có chứa “etc” và “passwd”. Ký hiệu gạch chéo (“/”) giữa các từ sẽ bị Google bỏ qua.
[ site: ]
Cú pháp “site:” giới hạn Google chỉ truy vấn những từ khóa xác định trong một site hoặc tên miền riêng biệt. Ví dụ: “exploits site:hackingspirits.com” (không có ngoặc kép) sẽ tìm kiếm từ khóa “exploits” trong những trang hiện có trong tất cả các link của tên miền “hackingspirits.com”. Không có khoảng trống nào giữa “site:” và “tên miền”.
[ link: ]
Cú pháp “link:” sẽ liệt kê những trang web mà có các liên kết đến đến những trang web chỉ định. Ví dụ :
chuỗi “link:www.thietkewebchuanseo.com”sẽ liệt kê những trang web có liên kết trỏ đến trang chủ SecurityFocus.
Chú ý không có khoảng trống giữa “link:” và URL của trang Web.
[ cache: ]
Truy vấn “cache:” sẽ cho kết quả là phiên bản của trang Web mà mà Google đã lưu lại. Ví dụ:
“cache:www.thietkewebchuanseo.com”sẽ cho ra trang đã lưu lại bởi Google’s. Nhớ rằng không có khoảng trống giữa “cache:” và URL của trang web.
Nếu bạn bao gồm những từ khác trong truy vấn, Google sẽ điểm sáng những từ này trong văn bản đã được lưu lại.
Ví dụ: “cache:www.thietkewebchuanseo.com” sẽ cho ra văn bản đã được lưu lại có từ
[ phonebook: ]
“phonebook” tìm kiếm thông tin về các địa chỉ đường phố ở Mỹ và số điện thoại. Ví
dụ:
“phonebook:Lisa+CA” sẽ liệt kê tất cả các tên người có từ “Lisa” trong tên và ở
“California (CA)”. Cú pháp này có thể được sử dụng như là một công cụ tuyệt vời của tin tặc trong trường hợp ai đó muốn tìm kiếm thông tin cá nhân cho công việc xã hội. Truy vấn các site hoặc server dễ bị tấn công sử dụng các cú pháp nâng cao của Google Những cú pháp truy vấn nâng cao thảo luận ở trên thực sự có thể giúp người ta chính xác hóa các tìm kiếm và có được những gì họ thực sự tìm kiếm.
Bây giờ Google trở thành một máy tìm kiếm thông minh, những người dùng có ác ý không hề bận tâm khai thác khả năng của nó để đào bới những thông tin bí mật từ
internet mà chỉ có sự truy cập giới hạn. Bây giờ tôi sẽ thảo luận những kỹ thuật này
một cách chi tiết làm thế nào để những người dùng ác tâm đào bới thông tin trên internet sử dụng Google như một công cụ.
Sử dụng cú pháp “Index of ” để tìm kiếm các site cho phép duyệt chỉ mục
Một webserver(máy chủ web) cho phép duyệt chỉ mục nghĩa là bất kỳ ai có thể duyệt các thư mục của webserver như các thư mục nội bộ thông thường. Ở đây tôi sẽ thảo luận làm thế nào để sử dụng cú pháp “index of” để có một danh sách các liên kết đến webserver cho phép duyệt thư mục.
Cách này trở thành một nguồn dễ dàng cho việc thu thập thông tin của tin tặc. Tưởng