Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,11 MB
Nội dung
Trường Đại học Sư Phạm TP Hồ Chí Minh Khoa Toán-Tin Kỹ thuật tìm kiếm thông tin với Google Hồ Chí Minh - 2005 Trường Đại học Sư Phạm TP Hồ Chí Minh Khoa Toán-Tin Môn Kỹ thuật lập trình Đề tài: Kỹ thuật tìm kiếm thông tin với Google Người hướng dẫn: Ths Lê Đức Long Sinh viên thực hiện: 1: Nguyễn Văn Thông 2: Đặng Hữu Phước 3: Nguyễn Trần Kim Ngân Lớp: Tin Hóc Môn Hồ Chí Minh - 2005 Mở đầu Ngày nay, với phát triển vượt bậc công nghệ thông tin, nhu cầu tìm hiểu học hỏi khám phá tri thức lớn, việc sử dụng Internet cách hiệu quan trọng Internet coi kho rác nhân loại, người ta quăng lên thứ người ta thích, nhiên biết cách, ta tìm từ kiến thức bổ ích thông qua nguồn cung cấp tin cậy Thông qua đề tài này, muốn cung cấp cho bạn vừa bước chân vào ngưỡng cửa tin học, kiến thức kỹ cần thiết để tìm kiếm thông tin Internet cách hiệu phục vụ cho việc học tập nghiên cứu Vào cuối bài, trình lại tất tài liệu tham khảo mà dùng để viết lên báo cáo Các tài liệu hữu ích bạn có trình độ Anh ngữ đề nghị đọc thêm chúng để hiểu thêm khía cạnh, nội dung mà dịp đề cập đến I Khái niệm Search Engine-Cỗ máy tìm kiếm Search engine công cụ phần mềm nhằm tìm trang mạng dựa vào thông tin mà có Thông tin search engine thực chất loại sở liệu (database) cực lớn Công cụ tìm tài liệu dựa từ khoá (keyword) trả danh mục trang có chứa từ khoá Có ba loại search engine: spider, meta-search engine hierarchical search engine I.1 Spider Cơ sở liệu search engine cập nhật hoá chương trình đặc biệt thường gọi “robot”, “spider” hay “webcrawler” Các chương trình tự động dò tìm phân tích từ trang có sẵn sở liệu để kiếm nối kết (link) từ trang trở lại bổ sung liệu cho search engine sau phân tích Các chương trình báo cáo liên kết bị đào thải Từ khoá mà bạn gõ vào search engine kiếm bảng mục (index) Kết xếp thứ tự Trang tiếng dùng nguyên tắc www.google.com I.2 Meta-search engine Ngày nay, người ta lợi dụng search engine sẵn có để thiết kế thành loại search engine gọi meta-search engine dịch theo tiếng Việt có nghĩa máy truy tìm ảo Nguyên tắc loại search engine đơn giản, sở liệu, yêu cầu tìm thông tin, gởi từ khoá mà cung cấp đến search engine khác cách đồng loạt Các kết search engine tìm hộ phân tích, xếp lại sau cho xem Ưu điểm loại máy tìm kiếm lợi dụng sở liệu spider để tìm nhiều kết Ví dụ điển hình loại search engine cỗ máy truy tìm metacrawler địa http://www.metacrawler.com I.3 Hierarchical search engine Máy truy tìm theo phân lớp, hierarchical search engine, cỗ máy phân lớp sẵn đối tượng vào thư mục người dùng rẽ nhánh từ từ tìm trang web mà muốn Điều tiện cho người truy cập điểm yếu loại search engine bao gồm hết chủ đề mà người dùng muốn kiếm Hơn nữa, phân loại không đầy đủ xác Điển hình loại máy truy tìm Yahoo, http://www.yahoo.com I.4 Các loại search engine phổ biến Google – www.google.com: Được xem search engine kiểu spider tốt Với google, bạn tìm hình ảnh, bàn luận có usenet nhóm tin tức newgroups Nó cung cấp thêm chức kiểm lỗi tả, tra cứu từ điển, tìm giá chứng khoáng, đồ đường… Yahoo – www.yahoo.com: Ra đời năm 1994, lúc đầu Yahoo thiết kế theo phương pháp thư mục biết đến hierarchical search engine Tháng 11 năm 2002, để tăng thêm sức cạnh tranh Yahoo thêm vào chức spider lấy từ Google Đến năm 2004 Yahoo tìm kĩ thuật tìm kiếm độc lập, dựa kết nối kĩ thuật cỗ máy tìm kiếm Altavista, AllTheWeb Inktomi Đây xem trang số cho người thích mua sắm cách phân loại theo đối tượng tạo dễ dàng cho người tiêu dùng tìm đến sản phẩm cần thiết cách nhanh chóng Askjeeves – www.ask.com: Khởi từ năm 1998 đến 1999 trở thành search engine có "ngôn ngữ tự nhiên": Nó cho phép bạn đặt câu hỏi (dĩ nhiên tiếng Anh thứ tiếng mà hổ trợ) trả lời bạn tất dường Thật ra, đằng sau "kĩ thuật cao" trăm chuyên viên có nhiệm vụ khảo sát ghi nhận tìm kiếm từ tìm dường trang cho tìm kiếm Ask Jeeves hỗ trợ thêm vào chức gọi "smart search" tạm dịch “tìm kiếm thông minh”, chức cung cấp thêm phân loại tối thiểu loại đối tượng mà bạn muốn tìm (hình ảnh, phim, nhạc, ) cách chọn biểu tượng cho kết xác II Google II.1 Giới thiệu Google 1995, chung mục đích “làm để tìm thông tin Internet nhanh xác nhất”, Larry Page sinh viên trường đại học Michigan Sergey Bin sinh viên trường đại học Standford, nghiên cứu viết nên luận văn “Công cụ tìm kiếm quy mô lớn web sử dụng ngôn ngữ siêu văn bản” hai người đứng tên vào năm 1997 khai sinh Google, trang web tìm kiếm tiếng Sử dụng số thuật toán phức tạp, Page Brin tìm cách tạo mục xếp hạng trang web theo trật tự số lượt truy cập cung cấp kết theo trật tự Tự tin khả thành công ý tưởng, hai người bỏ học để thành lập công ty Cái tên Google đặt cho dịch vụ từ chơi chữ dựa vào từ “googol”, có nghĩa số gồm số vào 100 số đứng đằng sau Tên Google phản ánh ý muốn xếp tổ chức khả tìm kiếm thông tin từ hàng tỉ, tỉ trang web tồn 1998, họ Andy Bechtolsheim, sáng lập viên Hãng Sun Microsystems, ký ngân phiếu 100.000 USD cho Công ty Google Công ty thành lập vào ngày 7-9-1998 thời gian ngắn Google trở thành trang web tìm kiếm thông tin ưa chuộng Hằng ngày có khoảng 200 triệu lượt người dùng Google để tìm thông tin; Google xếp làm mục cho tỉ trang web - số khổng lồ Hiện Google có khoảng 10.000 máy chủ, 1.000 nhân viên, có 60 người có tiến sĩ Larry Sergey chưa hoàn thành luận án Google có tham vọng thâm nhập thị trường nước giới nên đưa hàng chục trang Google với hàng chục thứ tiếng khác nhau, có tiếng Việt Ngoài lý hiệu quả, thành công Google nhờ vào quan niệm rạch ròi hai chàng sinh viên sáng lập: xem phục vụ người sử dụng mục tiêu quan trọng Google trang web tìm kiếm có hình thức đơn giản nhất, nhanh không lồng quảng cáo vào kết tìm kiếm Cho đến Google trở thành động từ tiếng Anh, nhiều người hình dung sống thiếu công cụ tìm kiếm II.2 Cách sử dụng Google Để sử dụng Google, máy tính bạn cần có trình duyệt web Internet Explorer, Netscape, NetCaptor… kết nối Internet Tại Address gõ www.google.com.vn (chi nhánh Google đặt Việt Nam) II.3 Các phép toán đơn giản thông dụng Google II.3.1 Phép toán cộng ‘+’ Khi bạn muốn tìm trang có mặt tất chữ mà bạn muốn không theo thứ tự viết nối chữ với dấu ‘+’ , chữ phải có khoảng trắng Ví dụ muốn tìm trang nói cách thức viết Linux scrips bạn điền vào ô tìm từ khoá Linux +script +tutor Làm có trang có đủ chữ nêu tìm Bằng cách bạn lọc bớt số lượng lớn trang không cần tìm II.3.2 Phép toán trừ ‘–’ Nhiều lúc bạn muốn tìm trang chứa thông tin cần muốn loại bỏ số thông tin không cần thiết không muốn có dùng dấu ‘–’ VD: “Corel Draw” -10 :tìm kiếm thông tin liên quan đến Corel không tìm thông tin Corel 10 “Windows Vista" -site:thanhnien.com.vn :Tìm trang web nói hệ điều hành Windows Vista trừ trang web báo Thanh Niên II.3.3 Dùng dấu ngoặc kép " " để tìm cụm từ nguyên văn Nhiều bạn muốn tìm viết nguyên văn cuả câu nói, tên cuả người hay cụm từ để tất vào ngoặc kép Phương pháp tiện lợi cho việc tìm kiếm trang đặc biệt Thí dụ đánh nguyên văn câu thơ "Quả cau nho nhỏ miếng trầu ôi" vào Google để tìm xem viết câu II.4.2 Phép AND Phép toán AND nhằm yêu cầu search engine truy tìm trang có diện cuả tất thành tố Ví dụ: "nam" AND "nữ" truy tìm trang có chữ “nam” chữ "nữ" Mặc định google có chứa toán tử “AND”, nghĩa bạn không thay đổi từ khóa Google tìm kiếm đánh đấu tất trang chứa từ khóa sau trả trang kết Ví dụ : Nhập chuỗi Pascal ebook, trang kết trả tất trang chứa đồng thời chữ “Pascal” “ebook” II.4.3 Phép NEAR Dùng để truy tìm trang WEB có thành tố từ khoá nằm gần Phép toán có lợi để tìm trang có cụm từ, khái niệm, định nghĩa hay lời phát biểu mà bạn không nhớ hết nguyên văn Ví dụ: Tìm lại nguyên văn câu thơ tác giả từ khoá: "Nước đi" NEAR "thề non" II.4.4 Chẻ nhánh phép ( ) Dùng ngoặc đơn cho phép ta tìm nhiều kết hợp phức tạp Ví dụ: khởi động (CD OR CD-ROM) (cách tạo) III Tìm kiếm nâng cao III.1 Intitle: Tìm kiếm dựa theo tiêu đề trang web Ví dụ: bạn muốn kiếm sách java, bạn gõ vào google dòng intitle:“Java ebook”, kết đưa trang web có tiêu đề Java ebook Lưu ý: Tiêu đề phản ánh nội dung trang web Vì search với tiêu đề hiệu nhiều so với cách tìm với từ khoá đơn giản Theo mặc định google đánh giá nội dung trang web, tìm theo tựa đề, thông tin không cô đọng so với tìm theo từ khoá bình thường Truy cập cấp thư mục Bạn muốn truy cập vào directory web để tải thay vài tập tin mà tá tập tin Nếu muốn truy cập thư mục chứa nhạc nhập vào chuỗi sau intitle:”index of” music, muốn truy cập thư mục chứa ebook nhập intitle:”index of” ebook, danh sách (list) liên kết (link) ra, công việc lại bạn tìm xem có thứ cần hay không Đây cách hay người ta thường đặt file thư mục dấu chúng file index.html (hay trang đó), cách tìm lấy tất file chứa thư mục III.2 Inurl Hạn chế kết tìm kiếm urls Ví dụ: Bạn nhập dòng inurl:java world kết trả www.javaworld.com Đây từ khoá bạn nên dùng bạn nhớ “mang máng” địa trang web muốn tìm lại III.3 Inanchor Tìm kiếm dựa vào phần văn chứa liên kết Ví dụ: bạn nhập vào inanchor : O'Reilly and Associates kết tham chiếu đến [...]... bạn muốn… Điều này làm cho sự tìm kiếm sẽ dễ hơn và ít bị nhiễu dẫn đến loạn thông tin của cùng một trang VI Những kỹ năng cần thiết trong việc tìm kiếm thông tin VI.1 Sử dụng đúng chỗ các máy truy tìm Tuy Google là một cỗ máy truy tìm nổi tiếng, nhưng nó cũng có điểm yếu, điểm mạnh của nó Tuỳ theo mục đích, nội dung của thông tin tìm kiếm mà bạn nên lựa chọn trang truy tìm cho thích hợp như Yahoo chẳng... tiêu đề Java ebook Lưu ý: Tiêu đề luôn phản ánh nội dung của trang web Vì vậy search với tiêu đề sẽ hiệu quả hơn rất nhiều so với cách tìm với từ khoá đơn giản Theo mặc định google sẽ đánh giá nội dung trang web, do đó nếu tìm theo tựa đề, thông tin sẽ không cô đọng hơn so với tìm theo từ khoá bình thường Truy cập cấp thư mục Bạn muốn truy cập vào các directory trên web để tải thay vì một vài tập tin. .. để kiếm ra chữ khác đặc biệt, sát với thông tin mình tìm và không chứa nhiều ý nghĩa khác, hay là tìm kiếm từ khoá theo chuyên môn của ngành đó như Tin học, điện tử nếu có Lưu ý: Khi bạn gõ từ khoá tiếng Anh, trạng từ hay liên từ mà không đứng trong dấu ngoặc kép “ ” thường bị Google và các cỗ máy tìm kiếm khác bỏ qua không xét, chúng ta muốn Google kiếm thì cần để chúng trong dấu ngoặc kép “ ” Tài. .. chẳng hạn chứ không nhất thiết cứ là anh Google VI.2 Lựa chọn từ khoá Thông thường chúng ta cứ nghĩ nếu muốn tìm thông tin gì thì cứ việc kết nối Internet, mở trình duyệt (browser) vào trang tìm kiếm và gõ vào từ khoá liên quan đến thông tin mình tìm và cứ việc ngồi rung đùi chờ kết quả trả về Thực tế không đơn giản như vậy, như đã nói ở trên với việc thông tin bùng nổ hiện nay, kết quả cho từ khoá... khá thông dụng được dùng làm ebook) Google hỗ trợ truy tìm tập tin với nhiều định dạng như PDF, Word (.doc), Excel (.xls), PownPoint (.ppt), Rich Text Format (.rtf), PostScript (.ps), text (.txt), HTML (.html / htm), Corel WordPerfect (.wpd)… Google cung cấp tính năng cho người dùng xem thông tin trên trang kết quả tìm kiếm bất chấp máy người dùng không có cài đặt ứng dụng riêng để xem các file này, thông. .. trường tìm kiếm (thường gặp khi số trang trả về theo từ khóa của bạn là quá lớn) Thực ra, nếu chúng ta biết cách chọn từ khoá để gõ thì sẽ không cần đến chức năng này Ví dụ nếu chúng ta tìm kiếm thông tin về sao hoả mà dùng từ khoá mars thì số lượng trang tìm được sẽ rất lớn Vì vậy, để tránh trường hợp như vậy, chúng ta có thể gõ thêm một vài từ khoá liên quan để Google thu nhỏ phạm vi tìm kiếm IV.2... của Google Đây là một tính năng rất hay của Google, mặc dù trang web bạn muốn xem đã xoá sổ không còn hiện hữu trên Internet nữa nhưng Google vẫn lưu lại rất nhiều thông tin của nó trong cơ sở dữ liệu, và trong thời gian các thông tin này còn chưa bị xoá khỏi Google thì ta vẫn có thể đọc được nó Vd: cache:www.tuoitre.com.vn Để giảm dung lượng của nội dung các trang web trong cache, Google chỉ chứa thông. .. nhớ hết được nguyên văn Ví dụ: Tìm lại nguyên văn câu thơ và tác giả bằng bộ từ khoá: "Nước đi" NEAR "thề non" II.4.4 Chẻ nhánh bằng phép ( ) Dùng ngoặc đơn cho phép ta tìm nhiều kết hợp phức tạp Ví dụ: khởi động (CD OR CD-ROM) (cách tạo) III Tìm kiếm nâng cao III.1 Intitle: Tìm kiếm dựa theo tiêu đề của trang web Ví dụ: nếu bạn muốn kiếm một ít sách về java, bạn gõ vào google dòng intitle:“Java ebook”,... thị định dạng tập tin trên trang kết quả Theo Google, điều này giúp người dùng tránh hiểm hoạ có virus tiềm ẩn có thể có trong các tập tin này Lưu ý: Dưới "con mắt" cuả các máy truy tìm thì các tệp có đuôi htm khác với các tệp có đuôi html Dó đó, nếu muốn tìm một cách chắc chắc tất cả các tệp dạng HTML thì nên tìm làm hai lần một riêng cho htm và một cho html III.4 Cache Xem thông tin của trang web... sẽ tham chiếu đến ... TP Hồ Chí Minh Khoa Toán -Tin Môn Kỹ thuật lập trình Đề tài: Kỹ thuật tìm kiếm thông tin với Google Người hướng dẫn: Ths Lê Đức Long Sinh viên thực hiện: 1: Nguyễn Văn Thông 2: Đặng Hữu Phước 3:... cách, ta tìm từ kiến thức bổ ích thông qua nguồn cung cấp tin cậy Thông qua đề tài này, muốn cung cấp cho bạn vừa bước chân vào ngưỡng cửa tin học, kiến thức kỹ cần thiết để tìm kiếm thông tin Internet... bạn muốn… Điều làm cho tìm kiếm dễ bị nhiễu dẫn đến loạn thông tin trang VI Những kỹ cần thiết việc tìm kiếm thông tin VI.1 Sử dụng chỗ máy truy tìm Tuy Google cỗ máy truy tìm tiếng, có điểm yếu,