Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
359,5 KB
Nội dung
MộtsốkỹthuậtMộtsốkỹthuậttìmkiếmtìmkiếm & & xử lýthôngtinxửlýthôngtin trong quátrìnhnghiêncứutrongquátrìnhnghiêncứu TR N HOÀI NAMẦ E-mail: namdhtm@yahoo.com E-mail: namdhtm@yahoo.com Web: http://namdhtm.co.nr Web: http://namdhtm.co.nr • Tìmkiếm và thu thập thôngtinTìmkiếm và thu thập thôngtin • Kỹthuật thao tác với dữ liệu Kỹthuật thao tác với dữ liệu Các mối quan hệ Các nguồn thôngtin truyền thống (Thư viện, báo chí, tài liệu tham khảo…) Mạng Internet Mạng Internet Thôngtin đến từ đâu ? Các công cụ tìmkiếmthông thường Các công cụ tìmkiếmthông thường Yahoo! Lycos MSN Excite AltaVista AOL/Netscape InfoSpace/MetaCrawler Google Vinaseek Netnam … Làm th nào đ tìm đ c các thôngtin c n thi t ?ế ể ượ ầ ế Làm th nào đ tìm đ c các thôngtin c n thi t ?ế ể ượ ầ ế Website nước ngoài Website trong nước Các kỹthuậttìmkiếm Các kỹthuậttìmkiếm Tìmkiếmthông dụng nhất Tìmkiếmthông dụng nhất : : Thí dụ: Thí dụ: www.google.com www.google.com Các kỹthuậttìmkiếm nâng cao Các kỹthuậttìmkiếm nâng cao Sử dụng dấu ngoặc kép “…” để tìm chính xác Sử dụng dấu ngoặc kép “…” để tìm chính xác Sử dụng dấu (+) hoặc (–) Sử dụng dấu (+) hoặc (–) - Sử dụng dấu (+) trước các từ trong cụm từ tìmkiếm đã trở nên quáthông dụng mà Google có xu hướng bỏ qua. Thí dụ: Godfather+I thay cho Godfather I - Sử dụng dấu (-) khi muốn loại đi một từ nào đó trong mục tìm kiếm. Thí dụ: love-apple cho các kết quả liên quan đến tình yêu thay vì liên quan đến cà chua. (Nhớ loại bỏ các khoảng trống trước và sau dấu +,-) Các kỹthuậttìmkiếm với Các kỹthuậttìmkiếm với Tìmkiếm theo phân loại Tìmkiếm theo phân loại : : Kích chuột vào phím Thư mục trên trang chủ của Google để mở thư mục của Google. Sau đó chọn phân loại cần quan tâm. Tìmkiếm các website liên quan Tìmkiếm các website liên quan: Dùng câu lệnh related trước URL của một website, để tìm các website có nội dung tương tự website này, thí dụ related related:ebusiness.mit.edu → nx website liên quan kinh doanh điện tử. Tìm các website có liên kết tới website mình quan tâm Tìm các website có liên kết tới website mình quan tâm: Dùng câu lệnh link trước một website, thí dụ link link:ecommerce.mit.edu/forum/ -> các website có liên kết trỏ tới Website ecommerce.mit.edu/forum/. Tìm theo một chủ đề nhất định Tìm theo một chủ đề nhất định: Dùng lệnh allinurl allinurl:e-commerce để nhận được danh sách website có cụm từ “e-commerce” trên địa chỉ URL Các kỹthuật với Các kỹthuật với Tìmkiếm trên một website cụ thể Tìmkiếm trên một website cụ thể: Gõ e-commerce site:www.stanford.edu để tìm các thôngtin về TMĐT trên webpage của Trường Đại học Tổng hợp Stanford. Khôi phục các webpage chết Khôi phục các webpage chết : : Đối với các trang web chết (thông báo lỗi 404 – không tìm thấy trang web). Bấm Cached tại phía cuối của mỗi phần mô tả một địa chỉ Google để khôi phục những nội dung đã từng tồn tại. Tìmkiếm Ảnh hoặc tìmkiếm các Nhóm tin tức Tìmkiếm Ảnh hoặc tìmkiếm các Nhóm tin tức (nhóm thảo luận Usenet): Bấm phím Hình ảnh hoặc phím Nhóm tin trên trang chủ Google. Thôngtin đưa ra càng nhiều, kết quả càng chính xác Thôngtin đưa ra càng nhiều, kết quả càng chính xác: Thí dụ: “e-commerce management” “syllabus” “university program” Cá nhân hoá Google Cá nhân hoá Google: www.google.com/preferences → đặt các lựa chọn cho riêng mình. Tìmkiếm dưới tầng sâu của Web (Deep Web) Tìmkiếm dưới tầng sâu của Web (Deep Web) Những vấn đề trongtìmkiếmthôngtin Những vấn đề trongtìmkiếmthông tin: • Theo Công ty nghiêncứu thị trường trực tuyến NPD (www.npd.com) 85% số người tìmkiếmthôngtin trực tuyến là thôngqua các công cụ tìm kiếm; Tuy nhiên, 85% trongsố người được hỏi tỏ thái độ thất vọng, cho rằng họ không nhận được chính xác những gì mình cần. • Hiện có hai nguyên tắc tìmkiếmthông tin: 1. Công cụ tìmkiếm xuất phát từ trang thôngtin có chứa từ khoá theo yêu cầu của người truy cập, từ đó lần tới các trang thôngtin theo các siêu liên kết có chứa từ khoá. Qui trình này lặp đi lặp lại tương tự sóng nước làn trên mặt hồ từ một tâm điểm duy nhất → Cách này chỉ tìm được các thôngtin có trên “bề mặt của Web”. Trên bề mặt Web hiện có khoảng 2,5 tỷ văn bản và tăng với tốc độ 7,5 triệu văn bản/ngày (Nguồn: www.Inktomi.com; www.cyveillance.com). → Tuy nhiên, kết quả thu được không sát với yêu cầu tìmkiếm do "sóng tìm kiếm" lan ra quá xa các cụm từ khoá ban đầu. 2. Google đưa ra kỹthuậttìmkiếm theo “tính phổ biến của thông tin”. Các trang được nhiều người vào hơn cả, có nội dung phù hợp từ khoá tìmkiếm sẽ được ưu tiên liệt kê trong danh sách tìmkiếm → Tuy nhiên, thường bỏ qua các văn bản có ít đường liên kết tới. • Tìmthôngtin chính xác, đầy đủ ở những kho thôngtin công cộng đã khó, tìmthôngtin ở những “thư mục cá nhân” của những người không muốn phổ biến tài nguyên của mình trên mạng càng khó hơn. → Giải quyết vấn đề này như thế nào? Tìmkiếm dưới tầng sâu của Web (Deep Web) Tìmkiếm dưới tầng sâu của Web (Deep Web) Sự ra đời của Deep Web Sự ra đời của Deep Web: • Năm 1994, TS. Jill Ellsworth (Mỹ) là người đầu tiên đưa ra khái niệm “Web vô hình” (Invisible Web) để chỉ những nội dung thôngtin không thể bị phát hiện thôngqua các công cụ tìmkiếmthông thường. Một thời gian sau Invisible Web được đổi thành Deep Web Thôngtin của Deep Web gồm những gì Thôngtin của Deep Web gồm những gì: 12 hình thức 1. Các cơ sở dữ liệu phân loại theo chủ đề (54%) 2. Website nội bộ: Cơ sở dữ liệu dưới dạng “tìm kiếm được” (13%) 3. Kho lưu trữ văn bản (11%) 4. Thôngtin lưu trữ trongquátrình kinh doanh trực tuyến của các công ty (5%) 5. Tài liệu mật (5%) 6. Cổng dịch vụ: CSDL, nơi lưu trữ danh mục hàng hoá (3%) 7. Thư viện: CSDL ở thư viện của các trường đại học trên TG (2%) 8. Trang trắng, Trang vàng: thông điệp của các cá nhân, tập thể (2%) 9. Website thống kê, tính toán, phiên dịch (2%) 10. Các kiểu biểu mẫu, đơn từ… (1%) 11. CSDL chứa thông điệp và chat trực tuyến (1%) 12. Thôngtintìmkiếmqua các công cụ tìmkiếmthông thường (1%) Mộtsốthống kê về Deep Web [...]... cụ tìmkiếm dành cho các học giả”: tập hợp các tạp chí, ấn phẩm điện tử, các công trình khoa học, các đề tài nghiên của… Lycos Directory: http://dir.lycos.com/Reference/Searchable_Databases/ Directory Librarians' Index to the Internet: http://lii.org Internet Giới thiệu công cụ tìmkiếm mới • Tìmkiếm tài liệu trên máy tính • Tìmkiếmthôngtin trên Internet • Tìmkiếm và thu thập thôngtin • Kỹ thuật. .. Tìmkiếm dưới tầng sâu của Web (Deep Web) Deep Web chứa các thôngtin gì: gì • Thôngtin về các hoạt động khoa học nhân văn (13,5%) • Nội dung tin tức và truyền thông (12,2%) • Mạng, máy tính (6,9%) • Nghệ thuật (6,6%) • Kinh doanh (5,9%) • Y tế, sức khoẻ (5,5%) • Thôngtin cá nhân – doanh nghiệp (4,9%) • Giáo dục (4,3%) • Thôngtin tuyển dụng (4,1%) • Thông tin chính phủ (3,9%)... website lớn nhất trong Deep Web Tìmkiếm dưới tầng sâu của Web (Deep Web) Công cụ tìmkiếmtrong Deep Web: Web • LexiBot là mộttrong những công cụ hoàn hảo nhất: http://www.lexibot.com Các công cụ tìmkiếm khác: khác • • • CompletePlanet.com: http://www.completeplanet.com/ ProFusion http://www.profusion.com/ WebData.com: http://www.webdata.com WebData.com cổng dữ liệu, chuyên tìm kiếm, sắp xếp,... khác Tìmkiếm dưới tầng sâu của Web (Deep Web) Các đặc tính của Deep Web: (Nguồn: BrightPLanet, Inktomi) Web • Kích cỡ một văn bản thuộc Deep Web có dung lượng TB: 13,7-19,7 KB, nhỏ hơn 27% so với dung lượng một tài liệu trên bề mặt • Chất lượng thông tin phong phú gấp hàng triệu lần • Càng ở sâu, hàm lượng thôngtin càng lớn - Một website ở bề mặt chứa một vài hoặc vài chục hồ sơ dữ liệu - Một website... 4.950 hồ sơ - Một website ở lớp sâu nhất trung bình chứa 5,43 triệu hồ sơ • Số siêu liên kết của 1 trang web ở lớp sâu nhiều gấp đôi siêu liên kết của 1 trang web trên bề mặt (6.2000 : 3.700) Nhưng ở bề mặt lại lớn hơn lớp giữa (83 : 66) • Tốc độ phát triển về số lượng của website Deep web nhanh hơn nhiều so với các website trên mặt Web • Tuy nhiên, vì Deep Web quá rộng lớn nên tìmkiếmthôngtin ở Deep... thôngtin trên Internet • Tìmkiếm và thu thập thôngtin • Kỹthuật thao tác với dữ liệu Thôngtin thường ở những dạng nào ? Tài liệu viết tay Số hoá (văn bản, tài liệu trên máy tính) Văn bản in ấn (trên giấy) Xửlý văn bản in ấn trên giấy Mục đích chung: Chuyển các văn bản trên giấy thành văn bản trên máy tính (số hoá) Cách thức: Đánh máy trực tiếp: Ưu điểm: Phương pháp truyền thống, đơn giản... thống, đơn giản điểm Nhược điểm: Mất thời gian, công sức và sai lỗi chính tả điểm “Time is Gold, Money is Silver” → Nên áp dụng kỹthuật để tiết kiệm thời gian ? Sử dụng phương pháp quét và nhận dạng văn bản: Ưu điểm: Nhanh, không tốn nhiều công, có thể phối hợp các kỹthuật điểm khác để tăng độ chính xác của tài liệu đích Nhược điểm: Phải đầu tư thiết bị, phụ thuộc vào thiết bị và phải nắm điểm... cài đặt máy quét) Nếu là tiếng Anh, có thể dịch Anh – Việt bằng phần mềm phiên dịch Anh – Việt → chuyển sang bước 5 Thao tác với tài liệu tiếng Việt Đặt tên và lưu văn bản Word Kết thúc 3 4 5 6 Mộtsố lưu ý: Tài liệu Scan phải rõ ràng, giấy trắng, mực đen Giữ sạch, không gạch xoá Tốt nhất là Font chữ không chân VnDoc cũng có thể “học” nhận dạng các lỗi VnDoc có nhiều tiện ích khác để hỗ . Một số kỹ thuật Một số kỹ thuật tìm kiếm tìm kiếm & & xử lý thông tin xử lý thông tin trong quá trình nghiên cứu trong quá trình nghiên cứu. kiếm mới • Tìm kiếm tài liệu trên máy tính • Tìm kiếm thông tin trên Internet • Tìm kiếm và thu thập thông tin Tìm kiếm và thu thập thông tin • Kỹ thuật thao