1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu và cách tìm kiếm thông tin trên Web Máy tìm kiếm

47 770 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 47
Dung lượng 1,97 MB

Nội dung

Nhóm 4 Nhóm 4 Nguyễn Kim Phụng Nguyễn Kim Phụng Trần Thị Kim Oanh Trần Thị Kim Oanh Phạm Thị Duyên Phạm Thị Duyên Trần Trung Đoàn Trần Trung Đoàn Hứa Lê Khánh Uyên Hứa Lê Khánh Uyên 1 1 ĐỀ TÀI 10 ĐỀ TÀI 10 Khai phá dữ liệu & Khai phá dữ liệu & Cách tìm kiếm thông tin trên Web Cách tìm kiếm thông tin trên Web Máy tìm kiếm Máy tìm kiếm I.Khai phá dữ liệu và khai phá dữ I.Khai phá dữ liệu và khai phá dữ liệu Web liệu Web II. Cách tìm kiếm thông tin trên II. Cách tìm kiếm thông tin trên Web Web III. Máy tìm kiếm III. Máy tìm kiếm NỘI DUNG NỘI DUNG Khai phá dữ liệu & Khai phá dữ liệu & Khai phá dữ liệu Web Khai phá dữ liệu Web 1. Khai phá dữ liệu 1. Khai phá dữ liệu 1.1 Định nghĩa về khai phá dữ liệu 1.1 Định nghĩa về khai phá dữ liệu Khai phá dữ liệu là một tập hợp các kỹ thuật Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. 1.2 Các kiểu khai phá dữ liệu 1.2 Các kiểu khai phá dữ liệu  KHAI PHÁ DỮLIỆU VĂN BẢN (TEXTMINING) KHAI PHÁ DỮLIỆU VĂN BẢN (TEXTMINING)  KHAI PHÁ DỮLIỆU WEB (WEBMINING) KHAI PHÁ DỮLIỆU WEB (WEBMINING) 1. Khai phá dữ liệu 1. Khai phá dữ liệu 2.1 Tổng quan về khai phá dữ liệu Web 2.1 Tổng quan về khai phá dữ liệu Web  Sự phát triển nhanh chóng của mạng Internet và Intranet Sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). văn bản (dữ liệu Web).  Lý do cho sự phát triển này là chi phí thấp để duy trì Lý do cho sự phát triển này là chi phí thấp để duy trì một trang Web trên Internet. một trang Web trên Internet.  Internet như là cuốn từ điển Bách khoa toàn thư với nội Internet như là cuốn từ điển Bách khoa toàn thư với nội dung và hình thức đa dạng. dung và hình thức đa dạng. 2. Khai phá dữ liệu Web 2. Khai phá dữ liệu Web 2. Khai phá dữ liệu web 2. Khai phá dữ liệu web 2.1 Tổng quan về khai phá dữ liệu Web 2.1 Tổng quan về khai phá dữ liệu Web Khai phá dữ liệu trên Internet (khai phá web ) Khai phá dữ liệu trên Internet (khai phá web ) + + Khai phá được nội dung các trang văn bản,cũng như Khai phá được nội dung các trang văn bản,cũng như mối quan hệ giữa chúng. mối quan hệ giữa chúng. + + Khai phá Web là sự giao thoa giữa khai phá dữ liệu và Khai phá Web là sự giao thoa giữa khai phá dữ liệu và Word-Wide-Web đang phát triển mạnh mẽ, gồm : Word-Wide-Web đang phát triển mạnh mẽ, gồm : - Trí tuệ nhân tạo. - Trí tuệ nhân tạo. - Truy xuất thông tin. - Truy xuất thông tin. - v.v.v - v.v.v 2. Khai phá dữ liệu web 2. Khai phá dữ liệu web 2.1. Tổng quan về khai phá dữ liệu Web 2.1. Tổng quan về khai phá dữ liệu Web Khai phá web như việc trích ra các thành Khai phá web như việc trích ra các thành phần được quan tâm hay được đánh giá là có ích phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan tới World-Wide hoặc các hoạt động liên quan tới World-Wide Web Web 2. Khai phá dữ liệu web 2. Khai phá dữ liệu web 2.1 Tổng quan về khai phá dữ liệu Web 2.1 Tổng quan về khai phá dữ liệu Web Khai phá web chia thành 3 lĩnh vực chính: khai Khai phá web chia thành 3 lĩnh vực chính: khai phá nội dung web (web content mining), khai phá cấu phá nội dung web (web content mining), khai phá cấu trúc web (web structure mining) và khai phá việc sử trúc web (web structure mining) và khai phá việc sử dụng web (web usage mining). dụng web (web usage mining). 2. Khai phá dữ liệu web 2. Khai phá dữ liệu web 2.2 Các bài toán được đặt ra trong khai phá Web 2.2 Các bài toán được đặt ra trong khai phá Web - Tìm kiếm các thông tin cần thiết: được gỉai quyết Tìm kiếm các thông tin cần thiết: được gỉai quyết bởi máy tìm kiếm. bởi máy tìm kiếm. - Tạo ra các tri thức mới từ các thông tin có sẵn - Tạo ra các tri thức mới từ các thông tin có sẵn trên Web: Cần lấy ra được thông tin cần thiết từ dữ trên Web: Cần lấy ra được thông tin cần thiết từ dữ lieeujWeb. lieeujWeb. - Cá nhân hóa các thông tin: Cung cấp thông tin - Cá nhân hóa các thông tin: Cung cấp thông tin cho nhà cung cấp thông tin trên Web đạt được mục cho nhà cung cấp thông tin trên Web đạt được mục đích của mình đích của mình - Tìm hiểu về những người tiêu thụ sản phẩm cũng - Tìm hiểu về những người tiêu thụ sản phẩm cũng như về cá nhân người dùng. như về cá nhân người dùng. [...]...2 Khai phá dữ liệu web 2.3 Các lĩnh vực của khai phá dữ liệu Web a Khai phá nội dung Web (Web content mining): - Là quá trình xử lý để lấy ra các ri thức từ nội dung trang văn bản hoặc mô tả của chúng Có 2 chiến lược khai phá: + Khai phá trực tiếp nội dung trang + Tìm kiếm nâng cao: Tìm kiếm trong kết qua: máy tìm kiếm 2 Khai phá dữ liệu web 2.3 Các lĩnh vực của khai phá dữ liệu Web b Khai phá cấu... lớn và đa dạng - Chỉ một phần rất nhỏ của thông tin trên Web là thực sự hữu ích CÁCH TÌM KIẾM THÔNG TIN TRÊN INTERNET I Cách tìm kiếm thông tin 1 Các thông tin phổ biến trên mạng - Tin tức, sự kiện - Thông tin kinh tế - Thông tin của chính phủ - Thông tin học thuật - Văn hóa đại chúng - Hướng dẫn kỹ năng - Giải trí 17 I Cách tìm kiếm thông tin 2 Đặc điểm của thông tin trên Internet - Được bổ sung và. .. khai phá dữ liệu Web b Khai phá cấu trúc web (web structure mining) -Nhờ vào kết nối giữa các cấu trúc Web -Là quá trình xử lý nhằm rút ra các tri thức từ cách tổ chức và liên kết giữa các trag Web 2 Khai phá dữ liệu web 2.3 Các lĩnh vực của khai phá dữ liệu Web c Khai phá sử dụng web (web usage mining) -Khai phá hồ sơ Web để lấy ra các thông tin trong hồ sơ Web + Phân tích để biết xu hướng truy cập:... và cập nhật liên tục - Tài liệu không được xử lý bằng bất kỳ một hệ thống tiêu chuẩn nào - Thông tin được tìm kiếm bằng nhiều công cụ khác nhau 18 I Cách tìm kiếm thông tin 3 Có thể tìm được mọi thông tin trên Internet? - Có phải mọi thông tin đều miễn phí? - Các thông tin khó tìm thấy trên Internet? + Các tài liệu cũ, quý hiếm + Chất lượng nội dung 19 I Cách tìm kiếm thông tin 4 Các bước chuẩn bị trước... quát 21 I Cách tìm kiếm thông tin 5 Sử dụng công cụ, chức năng tìm kiếm (search engine) Một số trang web có Search Engines nổi tiếng: - Google - Ask.com - Yahoo! Search - Bing 22 I Cách tìm kiếm thông tin Sử dụng công cụ, chức năng tìm kiếm (search engine) Một số trang web có Search Engines nổi tiếng: 5 - monava.vn xalo.vn zing.vn bamboo.vn … 23 Tìm kiếm thông tin với… 24 25 Tìm kiếm thông tin với Google... khoá được gõ vào ô tìm kiếm đều xuất hiện ở mỗi trang thông tin “lịch bay” + “vietnam airlines” Sử dụng dấu - khi muốn loại bỏ bớt những trang thông tin có chứa từ khoá nằm sau dấu – scholarships + nursing -“uk colleges” 29 30 Tìm kiếm thông tin với Google 4 Tìm kiếm với OR Sử dụng OR khi tìm kiếm những trang web bao gồm từ này hoặc từ kia "học bổng" +"hoa kỳ" OR "anh quốc" 31 Tìm kiếm thông tin với Google... người dùng 2 Khai phá dữ liệu web 2.4 Thuận lợi - Không chỉ có một trang mà có thể có các liên kết tới các trang khác - Cho biết xu thế người dùng để đưa ra được các thông tin hữu ích nhất 2 Khai phá dữ liệu web 2.5 Khó khăn - Web dường như quá lớn để tổ chức thành kho dữ liệu phục vụ Dataming - Độ phức tạp của trang Web lớn hơn rất nhiều so với những tài liệu văn bản truyền thống khác - Web phục vụ... Internet tìm kiếm -Thu hẹp chủ đề, chọn những từ quan trọng, những mục quan trọng -Nhờ sự giúp đỡ của bạn bè -Liệt kê những trang web nổi tiếng, có các đánh giá, chọn lọc… -Ghi vào sổ tay các địa chỉ trang web chuyên về chủ điểm đang cần 20 I Cách tìm kiếm thông tin 5 - - Sử dụng công cụ, chức năng tìm kiếm (search engine) Dễ sử dụng Mỗi search engine chỉ tìm một số lượng nhất định các trang web, không... khi muốn tìm cả những trang thông tin có chứa các từ liên quan hoặc từ đồng nghĩa với từ khóa ~“bệnh tiểu đường” 6 Dấu “…” Sử dụng dấu ba chấm “ ” giữa hai con số để tìm kiếm giá trị trong một phạm vi 32 … và một số thủ thuật khác với Google 33 Tìm kiếm theo tệp tin Tìm tài liệu ở các dạng file: file pdf, ppt, doc, xls Cú pháp vệ sinh nguồn nước filetype:ppt 34 Định nghĩa từ và cụm từ Cú pháp define:cancer... nghĩa rõ ràng, mang tính đặc thù cao với thông tin cần tìm - Tránh dùng từ đa nghĩa, bỏ các từ không có nghĩa - Sử dụng từ đồng nghĩa, từ có liên quan khi cần thiết 26 27 Tìm kiếm thông tin với Google 2 Dấu ngoặc kép “ ” Sử dụng dấu ngoặc kép khi muốn những từ trong một cụm từ xuất hiện liền nhau trong một trang thông tin “to be or not to be” 28 Tìm kiếm thông tin với Google 3 Dấu “ + ” & dấu “ - ” - . 10 Khai phá dữ liệu & Khai phá dữ liệu & Cách tìm kiếm thông tin trên Web Cách tìm kiếm thông tin trên Web Máy tìm kiếm Máy tìm kiếm I .Khai phá dữ liệu và khai phá dữ I .Khai phá. phá dữ liệu và khai phá dữ liệu Web liệu Web II. Cách tìm kiếm thông tin trên II. Cách tìm kiếm thông tin trên Web Web III. Máy tìm kiếm III. Máy tìm kiếm NỘI DUNG NỘI DUNG Khai phá dữ liệu. & Khai phá dữ liệu & Khai phá dữ liệu Web Khai phá dữ liệu Web 1. Khai phá dữ liệu 1. Khai phá dữ liệu 1.1 Định nghĩa về khai phá dữ liệu 1.1 Định nghĩa về khai phá dữ liệu Khai phá dữ

Ngày đăng: 06/04/2015, 20:49

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w