Quá trình khai phá dữ liệu

32 903 7
Quá trình khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

PHÂN TÍCH QUÁ TRÌNH KHAI PHÁ DỮ LIỆU Đ Ề TÀI CHÀO MỪNG THẦY CÔ VÀ CÁC BẠN ĐÃ ĐẾN VỚI ĐỀ TÀI CỦA NHÓM 2 DATA MINING: KHAI PHÁ DỮ LIỆU NỘI DUNG CỦA ĐỀ TÀI GỒM 4 PHẦN PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU DATA MINING: KHAI PHÁ DỮ LIỆU PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG DATA MINING: KHAI PHAÙ DÖÕ LIEÄU PHAÀN 1: KHAÙI NIEÄM CHUNG VEÀ KHAI PHAÙ DÖÕ LIEÄU DATA MINING: KHAI PHÁ DỮ LIỆU PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU Trong phần 1 này chúng ta cần nắm rõ các vấn đề sau:  Động cơ của việc khai phá dữ liệu?  Khai phá dữ liệu là gì?  Khai phá dữ liệu có lợi ích gì?  Quá trình phát triển của khai phá dữ liệu DATA MINING: KHAI PHÁ DỮ LIỆU 1.Động cơ của việc khai phá dữ liệu Trong một vài thập kỉ nay,khả năng tạo sinh và lưu trữ dữ liệu của con người đã tăng lên cực kì nhanh. Lượng dữ liệu khổng lồ phải lưu trữ đã dẫn đến một đòi hỏi cấp bách cho những kó thuật mới,những công cụ tự động mới giúp con người một cách thông minh trong việc chuyển đổi một lượng lớn dữ liệu thành thông tin hữu ích và tri thức => Khai phá dữ liệu ra đời. PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU DATA MINING: KHAI PHÁ DỮ LIỆU PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU 2 Khai phá dữ liệu là gì? => Khai phá dữ liệu là * Trích rút những thông tin h u ích,ch a bi t,ti m n trong kh i ữ ư ế ề ẩ ố d li u l n. ữ ệ ớ * Phân tích d li u bán t đ ng.ữ ệ ự ộ * Gi i thích d li u trên các t p d li u l n.ả ữ ệ ậ ữ ệ ớ DATA MINING: KHAI PHÁ DỮ LIỆU Như chúng ta đã biết,khai phá dữ liệu là việc trích rút tri thức một cách tự động và hiệu quả từ một khối DL lớn. Có một số nhà nghiên cứu còn gọi “Khai phá dữ liệu là phát hiện tri thức”. đây ta có thể coi khai phá dữ liệu là cốt lõi của quá trình phát hiên tri thức. Và như vậy, ta có mô hình của quá trình phát hiện tri thức như sau: PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU DATA MINING: KHAI PHÁ DỮ LIỆU Cơ sở dữ liệu Làm sạch dữ liệu Kho dữ liệu Dữ liệu thích hợp Khai phá dữ liệu Đánh giá mẫu T ri thức Lự a chọn Tích hợp dữ liệu Hình 2: QUÁ TRÌNH PHÁT HIỆN TRI THỨC PHẦN 1: KHÁI NIỆM CHUNGVỀ KHAI PHÁ DỮ LIỆU DATA MINING: KHAI PHÁ DỮ LIỆU Trong dó: Làm sạch dữ liệu(Data cleaning): Là loại bỏ nhiễu và dữ liệu không nhất quán. Tích hợp dữ liệu(Data intergation):Dữ liệu của nhiều nguồn có thể được tổ hợp lại. Lựa chọn dữ liệu(Data selection): Những dữ liệu thích hợp với nhiệm vụ phân tích được trích rút từ CSDL. Chuyển đổi dữ liệu(Data transformation): Dữ liệu được chuyển đổi hay được hợp nhất về dạng thích hợp cho việc khai phá. Khai phá dữ liệu(Data mining): Đây là một tiến trình cốt yếu trong đó các phương pháp thông minh được áp dụng nhằm trích ra các mẫu dữ liệu. Đánh giá mẫu(Pattem evaluation): Dựa trên một số độ đo nào đó xác đònh lợi ích thực sự,độ quan trọng của các mẫu biểu diễn tri thức. Biểu diễn tri thức(Knowledge presentation): giai đoạn này,các kó thuật biểu diễn và hiển thòỉti thức được sử dụng để đưa tri thức đã lấy ra được cho người dùng. PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU DATA MINING: KHAI PHÁ DỮ LIỆU Việc khai phá dữ liệu có thể được tiến hành trên một lượng lớn dữ liệu có trong các CSDL,các kho dữ liệu hoặc trong các loại lưu trữ thông tin khác. Giao diện đồ hoạ cho người dùng Đánh giá mẫu Máy khai phá dữ liệu Máy chủ cơ sở dữ liệu hay kho DL Làm sạch và tích hợp dữ liệu Cơ sở dữ liệu Kho dữ liệu Cơ sở tri thức K IẾN T RÚC C ỦA M ỘT H Ệ K HAI P HÁ Đ IỂN H ÌNH H ình 1: PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU [...]... khai phá dữ liệể tập trung vào việc duyệt tìm các mẫu được quan tâm • Giao diện đồ hoạ cho người dùng: Bộ phận này cho phép người dùng giao tiếp với hệ thống khai phá dữ liệu DATA MINING: KHAI PHÁ DỮ LIỆU PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ 3.Lợi ích của khai phá dữ liệu? Cung cấp hỗ trợ ra quyết đònh Dự báo Khái quát dữ liệu DATA MINING: KHAI PHÁ DỮ LIỆU PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ... những đặc trưng chính của các đối tượng trong một nhóm DATA MINING: KHAI PHÁ DỮ LIỆU PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ DATA MINING: KHAI PHÁ DỮ LIỆU PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ Với hai đích chính của khai phá dữ liệuDự đốn (Prediction) và Mơ tả (Description), người ta thường sử dụng các phương pháp sau cho khai phá dữ liệu: -Phân loại (Classification): Kh¸m ph¸ (cđa) mét ®o¸n tr­íc häc... MINING: KHAI PHÁ DỮ LIỆU PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ Những CSDL khai phá •Quan hệ •Giao tác •Huớng đối tượng •Huớng đối tượng, quan hệ •Active •Khơng gian •Thời gian cần •Text, XML •Multi-media •Heterogeneous •Legacy •Inductive •WWW •etc DATA MINING: KHAI PHÁ DỮ LIỆU PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ Tiến trình khai phá dữ liệu( 1) Nghiên cứu lĩnh vực Nghiên cứu lĩnh vực Tạo tập dữ liệu đầu... 1990: Khai má D÷ liƯu, sù l­u kho D÷ liƯu, nh÷ng c¬ së d÷ liƯu ®a ph­¬ng tiƯn, vµ nh÷ng c¬ së d÷ liƯu M¹ng Nh÷ng n¨m 2000: Qu¶n lý vµ khai má d÷ liƯu dßng khai má D÷ liƯu víi mét sù ®a d¹ng (cđa) nh÷ng øng dơng DATA MINING: KHAI PHÁ DỮ LIỆU PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ DATA MINING: KHAI PHÁ DỮ LIỆU PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ Tổng quát chung nhiệm vụ của một hệ khai phá dữ liệu có... phá dữ liệu( 1) Nghiên cứu lĩnh vực Nghiên cứu lĩnh vực Tạo tập dữ liệu đầu vào Tạo tập dữ liệu đầu vào Tiền xử lý/ làm sạch, mã hóa Tiền xử lý/ làm sạch, mã hóa Rút gọn chiều Rút gọn //chiều Chọn tác vụ Khai thác dữ liệu Chọn tác vụ Khai thác dữ liệu LIỆU PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ Tiến trình khai phá dữ liệu( 2) Chọn các thuật giải KTDL Chọn các thuật giải KTDL KTDL: Tìm kiếm tri thức KTDL:... phương phát để tổng kết và biểu thò đặc trưng dữ liệu một cách hiệu quả Chẳng hạn thao tác rool-up của hệ phân tích trựctuyến(OLAP) dữ liệu dạng khốicó thể được dùng để thực hiện tổng kết theo một chiều cụthể dưới sự điều khiển của người dùng Dữ liệu trả về của quá trình đặc trưng hoá có thể được biểu diễn những khuôn dạng khác nhau DATA MINING: KHAI PHÁ DỮ LIỆU PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ 2... tả là biểu thò các đặc điểm chung của dữ liệu trongCSDL Dự đoán nhằm thực hiện suy luận trên dữ liệu hiện có để đưa ra dự đoán DATA MINING: KHAI PHÁ DỮ LIỆU PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ Các chức năng này được thể hiện qua 1.Đặc trưng hóa và phân biệt: Đặc trưng hoálà việc tổng kết toàn bộ các đặc điểm hay các tính chất chung của một lớp dữ liệu đích Dữ liệu đó tương ứng với một lớp do ngườidùng...LIỆU PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ Trong đó: • Máy chủ CSDL hay kho dữ liệu: Máy chủ này có trách nhiệm lấy được Những dữ liệu thích hợp dựa trên yêu cầu khai phá của người dùng • Cơ sở tri thức: Là miền tri thức được dùng để tìm kiếm hay dánh giá độ quan trọng của các hình mẫu kết quả • Máy khai phá dữ liệu: Là tập các modun để thực hiện công việc... tượng dữ liệu không tuân theo mô hình dữ liệu. những đối tượng như vậy gọi là phần tử ngoài cuộc Hầu hết các phương pháp khai phá dữ liệu đêu coi phần tử ngoài cuộc là nhiễu và loại bỏ chúng Tuy nhiên trong một số ứng dụng nào đó như phát hiện nhiễu chẳng hạn,các sựviệc hiếm khi xảy ra lại được quan tâm hơn những gì thường xuyên gặp phải ngoài Sự phân tích dữ liệu ngoài cuộc xem như là sự khai phá các... cuộc DATA MINING: KHAI PHÁ DỮ LIỆU PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ Có một số phương pháp để phát hiện phần tử ngoài cuộc: Dùng các test mang tính thống kê trên cơ sở một giả thiết về phân phối dữ liệu hay một mô hình xác suất cho dữ liệu Dùng các độ đo khoảng cách,theo đó các đối tượng có một khoảng cách đáng kểđến cụm bất kì khác được xem là phần tử ngoài cuộc Dùng các phương pháp dựa trên độ . việc khai phá dữ liệu?  Khai phá dữ liệu là gì?  Khai phá dữ liệu có lợi ích gì?  Quá trình phát triển của khai phá dữ liệu DATA MINING: KHAI PHÁ DỮ LIỆU. ích của khai phá dữ liệu? PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU DATA MINING: KHAI PHÁ DỮ LIỆU 4. Quá trình phát triển của cơ sở dữ liệú dữ liệu dẫn

Ngày đăng: 06/07/2013, 01:26

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan