1. Trang chủ
  2. » Giáo án - Bài giảng

Quá trình khai phá dữ liệu

32 903 7
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 565,5 KB

Nội dung

NỘI DUNG CỦA ĐỀ TÀI GỒM 4 PHẦNPHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂ

Trang 1

PHÂN TÍCH QUÁ TRÌNH KHAI PHÁ DỮ LIỆU

Đ

Ề TÀI

Trang 2

NỘI DUNG CỦA ĐỀ TÀI GỒM 4 PHẦN

PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU

PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU

PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU

PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG

Trang 4

PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU

Trong phần 1 này chúng ta cần nắm rõ các vấn đề sau:

 Động cơ của việc khai phá dữ liệu?

 Khai phá dữ liệu là gì?

 Khai phá dữ liệu có lợi ích gì?

 Quá trình phát triển của khai phá dữ liệu

Trang 5

1.Động cơ của việc khai phá dữ liệu

Trong một vài thập kỉ nay,khả năng tạo sinh và lưu trữ dữ liệu của con người đã tăng lên cực kì nhanh Lượng dữ liệu khổng lồ phải lưu trữ đã dẫn đến một đòi hỏi cấp bách cho những kĩ thuật mới,những công cụ tự động mới giúp con người một cách thông minh trong việc chuyển đổi một lượng lớn dữ liệu thành thông tin hữu ích và tri thức => Khai phá dữ liệu ra đời.

Trang 6

PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU

2 Khai phá dữ liệu là gì?

=> Khai phá dữ liệu là

* Trích rút những thông tin h u ích,ch a bi t,ti m n trong kh i ữu ích,chưa biết,tiềm ẩn trong khối ưa biết,tiềm ẩn trong khối ết,tiềm ẩn trong khối ềm ẩn trong khối ẩn trong khối ối

d li u l n ữu ích,chưa biết,tiềm ẩn trong khối ệu lớn ớn

* Phân tích d li u bán t đ ng ữu ích,chưa biết,tiềm ẩn trong khối ệu lớn ự động ộng.

* Gi i thích d li u trên các t p d li u l n ải thích dữ liệu trên các tập dữ liệu lớn ữu ích,chưa biết,tiềm ẩn trong khối ệu lớn ập dữ liệu lớn ữu ích,chưa biết,tiềm ẩn trong khối ệu lớn ớn

Trang 7

Như chúng ta đã biết,khai phá dữ liệu là việc trích rút tri thức một

cách tự động và hiệu quả từ một khối DL lớn

Có một số nhà nghiên cứu còn gọi “Khai phá dữ liệu là phát hiện

Trang 8

Cơ sở dữ liệu

Làm sạch

dữ liệu

Kho dữ liệu

Dữ liệu thích hợp

Khai phá dữ liệu

Đánh giá mẫu

Hình 2: QUÁ TRÌNH PHÁT HIỆN TRI PHẦN 1: KHÁI NIỆM CHUNGVỀ KHAI PHÁ DỮ LIỆU

Trang 9

Làm sạch dữ liệu(Data cleaning): Là loại bỏ nhiễu và dữ liệu không nhất quán.

thể được tổ hợp lại

nhiệm vụ phân tích được trích rút từ CSDL

đổi hay được hợp nhất về dạng thích hợp cho việc khai phá

trong đó các phương pháp thông minh được áp dụng nhằm trích ra các mẫu dữ liệu

xác định lợi ích thực sự,độ quan trọng của các mẫu biểu diễn tri thức

kĩ thuật biểu diễn và hiển thịỉti thức được sử dụng để đưa tri thức đã lấy ra được cho người dùng

Trang 10

Việc khai phá dữ liệu có thể được tiến hành trên một lượng lớn dữ

Máy khai phá dữ liệu

Máy chủ cơ sở dữ liệu hay kho DLLàm sạch và tích hợp

dữ liệu

Cơ sở dữ liệu dữ liệuKho

Cơ sở tri thức

K IẾN

T RÚC

C ỦA

M ỘT

H Ệ

K HAI

P HÁ

Đ IỂN

H ÌNH

H

ình 1:

PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU

Trang 11

Trong đó:

Những dữ liệu thích hợp dựa trên yêu cầu khai phá của người dùng

• Cơ sở tri thức: Là miền tri thức được dùng để tìm kiếm hay dánh giá độ quantrọng của các hình mẫu kết quả

• Máy khai phá dữ liệu: Là tập các modun để thực hiện công việc

trung vào việc duyệt tìm các mẫu được quan tâm

với hệ thống khai phá dữ liệu

Trang 12

 Cung cấp hỗ trợ ra quyết định

 Dự báo

 Khái quát dữ liệu

3.Lợi ích của khai phá dữ liệu?

PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU

Trang 13

4 Quá trình phát triển của cơ sở dữ liệú dữ liệu dẫn đến sự phát triển của Khai phá dữ liệu.

Nh÷ng n¨m 1960: TËp hỵp D÷ liƯu, sù t¹o thµnh c¬ së d÷ liƯu, IMS vµ m¹ng DBMS

Nh÷ng n¨m 1970: M« h×nh d÷ liƯu cã quan hƯ, sù thi hµnh DBMS cã quan hƯ

Nh÷ng n¨m 1980: RDBMS, tr¶ tr íc cho d÷ liƯu nh÷ng m« h×nh ( Më réng - cã quan hƯ, OO, suy diƠn….) )

DBMS h íng øng dơng ( Kh«ng gian, khoa häc, kü nghƯ….) ….) )

Nh÷ng n¨m 1990: Khai má D÷ liƯu, sù l u kho D÷ liƯu, nh÷ng c¬ së d÷ liƯu ®a ph ¬ng tiƯn, vµ nh÷ng c¬ së d÷ liƯu M¹ng

Nh÷ng n¨m 2000: Qu¶n lý vµ khai má d÷ liƯu dßng khai má D÷ liƯu víi mét sù ®a d¹ng (cđa) nh÷ng øng dơng

Trang 14

PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU

Trang 15

Tổng quát chung nhiệm vụ của một hệ khai phá dữ liệu có thể được phân chia thành 2 loại: Mô tả và Dự đoán.

 Mô tả là biểu thị các đặc điểm chung của dữ liệu trongCSDL.

 Dự đoán nhằm thực hiện suy luận trên dữ liệu hiện có để đưa ra dự đoán.

Trang 16

Các chức năng này được thể

hiện qua

1.Đặc trưng hóa và phân biệt:

Đặc trưng hoálà việc tổng kết toàn bộ các đặc điểm hay các tính chất

chung của một lớp dữ liệu đích Dữ liệu đó tương ứng với một lớp do

ngườidùng đặc tả bằng một câu truy vấn CSDL

Có một số phương phát để tổng kết và biểu thị đặc trưng dữ liệu một cách

hiệu quả Chẳng hạn thao tác rool-up của hệ phân tích trựctuyến(OLAP) dữ liệu dạng khốicó thể được dùng để thực hiện tổng kết theo một chiều cụthể dưới sự điều khiển của người dùng

Dữ liệu trả về của quá trình đặc trưng hoá có thể được biểu diễn những

khuôn dạng khác nhau

PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU

Trang 17

2 Phân tích sự kết hợp

Là khám phá ra các luật kết hợp trong một tập lớn dữ liệu Các luật kết hợp thể hiện mối quan hệ giữa các giá trị thuộc tính mà ta nhận thấy đựơc từ tần suất xuất hiện cùng với nhau.

Các luật kết hợp được khám phá từ một tập lớn các bản ghi giao dịch trong kinh doanh và những luật có ý nghĩa có thể giúp cho các nhà doanh nghiệp ra quyết định.

Trang 18

PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU

3 Phân lớp và dự

đoán

Phân lớp là quá trình tìm một tập các mô hình(hoặc các chức năng) mô tả và phân biệt các lớp dữ liệu Các mô hình này sẽ được sử dụng cho mục đích dự đoán về lớp của một số đối tượng

Việc xây dụng mô hình dựa trên sự phân tích một tập các dữ liệu huấn luyện.một mô hình như vậy có thể được biểu diễn trongnhiều dạng: luật phân lớp(ÌF-THEN),cây quyết định,công thức toán hay mạng nơron……

Sự dự đoán cũng bao gồm việc xác định khuynh hướng phân loại dựa trên những dữ liệu hiện có

Để phân lớp và dự đoán,có thể cần thực hiện trước một sự phân tích thích hợp Sự phân tích đó nhằm xác định những thuộc tính không tham gia vào quá trình phân lớp và dự đoán,chúng sẽ bị loại trừ sau bước này

Trang 19

trong quá trình huấn luyện dữ liệu.

Phân cụm có thể được sử dụng để đưa ra những nhãn lớp

Sự phân cụm có mục đích nhóm các đối tượng lại theo nguyên tắc: Các

đối tượng trong cùng một nhóm giống nhau ở mức cao nhất và các đối

tượng khác nhóm có mức giống nhau ít nhất

Trang 20

PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU

5 Phân tích phần tử ngoài

cuộc

Một cơ sở dữ liệu có thể chứa các đối tượng dữ liệu không tuân theo mô

hình dữ liệu.những đối tượng như vậy gọi là phần tử ngoài cuộc

Hầu hết các phương pháp khai phá dữ liệu đêu coi phần tử ngoài cuộc là

nhiễu và loại bỏ chúng Tuy nhiên trong một số ứng dụng nào đó như

phát hiện nhiễu chẳng hạn,các sựviệc hiếm khi xảy ra lại được quan tâm

hơn những gì thường xuyên gặp phải

Sự phân tích dữ liệu ngoài cuộc xem như là sự khai phá các phần tử ngoài

cuộc

Trang 21

Có một số phương pháp để phát hiện phần tử ngoài cuộc:

Dùng các test mang tính thống kê trên cơ sở một giả thiết về phân phối dữ liệu hay một mô hình xác suất cho dữ liệu

Dùng các độ đo khoảng cách,theo đó các đối tượng có một khoảng cách đáng kểđến cụm bất kì khác được xem là phần tử ngoài cuộc

Dùng các phương pháp dựa trên độ lệch để kiểm tra sự khác nhau trong những

đặc trưng chính của các đối tượng trong một nhóm

Trang 22

PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU

Trang 23

Với hai đớch chớnh của khai phỏ dữ liệu là Dự đoỏn (Prediction) và Mụ tả

(Description), người ta thường sử dụng cỏc phương phỏp sau cho khai phỏ dữ

liệu:

-Phõn loại (Classification): Khám phá (của) một đoán tr ớc học hàm mà

Phân loại một tiết mục dữ liệu vào trong một trong số vài lớp đặt sẵn

- Hồi qui (Regression): Khám phá (của) một sự dự đoán học hàm, mà vẽ bản đồ một tiết mục dữ liệu tới một biến dự đoán giá trị thực tế

- Phõn nhúm (Clustering):Một nhiệm vụ miêu tả chung mà trong (cái) đó

Một tìm kiếm để xác định Một tập hợp hữu hạn (của) những phạm trù hoặc những bó mô tả dữ liệu

- Tổng hợp (Summarization): Một nhiệm vụ miêu tả bổ sung mà kéo theo những ph ơng pháp để tìm thấy một sự mô tả gọn cho một tập hợp ( Hoặc Tập con) (Của) dữ liệu

Trang 24

-Mụ hỡnh ràng buộc (Dependency modeling): Kết quả tìm kiếm (mà) một địa ph ơng mô hình mà mô tả những Phần phụ thuộc quan trọng giữa những biến hoặc giữa những giá trị (của) một đặc tính trong một tập hợp dữ liệu hoặc trong một tập hợp bộ phận của một dữ liệu

- Dũ tỡm biến đổi và độ lệch (Change and Deviation Dectection):Việc khám phá (cái) quan trọng nhất thay đổi trong tập hợp dữ liệu

PHAÀN 3: CAÙC PHệễNG PHAÙP KHAI PHAÙ Dệế LIEÄU

Trang 25

-•Quan hệ

•Giao tác

•Huớng đối tượng

•Huớng đối tượng, quan hệ

Trang 26

Tiến trình khai phá dữ liệu (1)

Nghiên cứu lĩnh vực Nghiên cứu lĩnh vực Nghi ên cứu lĩnh vực

R R út gọn / chiều út gọn / chiều

T T ạo tập dữ liệu đầu vào ạo tập dữ liệu đầu vào

Ti Ti ền xử lý/ làm sạch, mã hĩa ền xử lý/ làm sạch, mã hĩa

Ch Ch ọn tác vụ Khai thác dữ liệu ọn tác vụ Khai thác dữ liệu

PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ

LIỆU

Trang 27

Chọn các thuật giải KTDL Chọn các thuật giải KTDL Ch ọn các thuật giải KTDL

Biểu diễn tri thức Biểu diễn tri thức Bi ểu diễn tri thức

KTDL: T KTDL: T ìm ìm kiếm tri thức kiếm tri thức Đánh giá mẫu tìm được Đánh giá mẫu tìm được

S S ử dụng các tri thức vừa khám phá ử dụng các tri thức vừa khám phá

Tiến trình khai phá dữ liệu (2)

Trang 28

PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG

Trang 29

Phân tích và quản lý thị trường

Quản lý và phân tích rủi ro

Quản lý và phân tích các sai hỏng

Khai thác Web

Khai thác văn bản (text mining)

Etc

Trang 30

-Các cơ sở dữ liệu lớn

- Số chiều lớn

- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp

- Dữ liệu bị thiếu hoặc nhiễu

- Quan hệ giữa các trường phức tạp

- Giao tiếp với người sử dụng và kết hợp với các tri thức đã có

Trang 31

và sự biểu diễn kiến thức

Khai phaự thể đ ợc thực hiện trong một sự đa dạng (của) những kho chứa thông tin

Những tính hoạt động khai phaự Dữ liệu : Sự đặc tr ng, sự phân biệt, hiệp hội, sự phân loại, sự xếp nhóm, sự phân tích ngoài và khuynh h ớng…v.v v.v

Trang 32

ĐỀ TÀI CỦA NHÓM 2 ĐẾN ĐÂY XIN KẾT THÚC !

MỘT LẦN NỮA THAY MẶT NHÓM TÔI XIN CHÂN THÀNH

CẢM ƠN THẦY CÔ VÀ CÁC BẠN ĐÃ NHIỆT TÌNH ỦNG HỘ

XIN CHÂN THÀNH CẢM ƠN !

Ngày đăng: 06/07/2013, 01:26

HÌNH ẢNH LIÊN QUAN

Hình 2:  QUÁ TRÌNH PHÁT HIỆN TRI  THỨC - Quá trình khai phá dữ liệu
Hình 2 QUÁ TRÌNH PHÁT HIỆN TRI THỨC (Trang 8)
Hình dữ liệu.những đối tượng như vậy gọi là phần tử ngoài cuộc. - Quá trình khai phá dữ liệu
Hình d ữ liệu.những đối tượng như vậy gọi là phần tử ngoài cuộc (Trang 20)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w