NỘI DUNG CỦA ĐỀ TÀI GỒM 4 PHẦNPHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂ
Trang 1PHÂN TÍCH QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
Đ
Ề TÀI
Trang 2NỘI DUNG CỦA ĐỀ TÀI GỒM 4 PHẦN
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG
Trang 4PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
Trong phần 1 này chúng ta cần nắm rõ các vấn đề sau:
Động cơ của việc khai phá dữ liệu?
Khai phá dữ liệu là gì?
Khai phá dữ liệu có lợi ích gì?
Quá trình phát triển của khai phá dữ liệu
Trang 51.Động cơ của việc khai phá dữ liệu
Trong một vài thập kỉ nay,khả năng tạo sinh và lưu trữ dữ liệu của con người đã tăng lên cực kì nhanh Lượng dữ liệu khổng lồ phải lưu trữ đã dẫn đến một đòi hỏi cấp bách cho những kĩ thuật mới,những công cụ tự động mới giúp con người một cách thông minh trong việc chuyển đổi một lượng lớn dữ liệu thành thông tin hữu ích và tri thức => Khai phá dữ liệu ra đời.
Trang 6PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
2 Khai phá dữ liệu là gì?
=> Khai phá dữ liệu là
* Trích rút những thông tin h u ích,ch a bi t,ti m n trong kh i ữu ích,chưa biết,tiềm ẩn trong khối ưa biết,tiềm ẩn trong khối ết,tiềm ẩn trong khối ềm ẩn trong khối ẩn trong khối ối
d li u l n ữu ích,chưa biết,tiềm ẩn trong khối ệu lớn ớn
* Phân tích d li u bán t đ ng ữu ích,chưa biết,tiềm ẩn trong khối ệu lớn ự động ộng.
* Gi i thích d li u trên các t p d li u l n ải thích dữ liệu trên các tập dữ liệu lớn ữu ích,chưa biết,tiềm ẩn trong khối ệu lớn ập dữ liệu lớn ữu ích,chưa biết,tiềm ẩn trong khối ệu lớn ớn
Trang 7Như chúng ta đã biết,khai phá dữ liệu là việc trích rút tri thức một
cách tự động và hiệu quả từ một khối DL lớn
Có một số nhà nghiên cứu còn gọi “Khai phá dữ liệu là phát hiện
Trang 8Cơ sở dữ liệu
Làm sạch
dữ liệu
Kho dữ liệu
Dữ liệu thích hợp
Khai phá dữ liệu
Đánh giá mẫu
Hình 2: QUÁ TRÌNH PHÁT HIỆN TRI PHẦN 1: KHÁI NIỆM CHUNGVỀ KHAI PHÁ DỮ LIỆU
Trang 9Làm sạch dữ liệu(Data cleaning): Là loại bỏ nhiễu và dữ liệu không nhất quán.
thể được tổ hợp lại
nhiệm vụ phân tích được trích rút từ CSDL
đổi hay được hợp nhất về dạng thích hợp cho việc khai phá
trong đó các phương pháp thông minh được áp dụng nhằm trích ra các mẫu dữ liệu
xác định lợi ích thực sự,độ quan trọng của các mẫu biểu diễn tri thức
kĩ thuật biểu diễn và hiển thịỉti thức được sử dụng để đưa tri thức đã lấy ra được cho người dùng
Trang 10Việc khai phá dữ liệu có thể được tiến hành trên một lượng lớn dữ
Máy khai phá dữ liệu
Máy chủ cơ sở dữ liệu hay kho DLLàm sạch và tích hợp
dữ liệu
Cơ sở dữ liệu dữ liệuKho
Cơ sở tri thức
K IẾN
T RÚC
C ỦA
M ỘT
H Ệ
K HAI
P HÁ
Đ IỂN
H ÌNH
H
ình 1:
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
Trang 11Trong đó:
Những dữ liệu thích hợp dựa trên yêu cầu khai phá của người dùng
• Cơ sở tri thức: Là miền tri thức được dùng để tìm kiếm hay dánh giá độ quantrọng của các hình mẫu kết quả
• Máy khai phá dữ liệu: Là tập các modun để thực hiện công việc
trung vào việc duyệt tìm các mẫu được quan tâm
với hệ thống khai phá dữ liệu
Trang 12 Cung cấp hỗ trợ ra quyết định
Dự báo
Khái quát dữ liệu
3.Lợi ích của khai phá dữ liệu?
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
Trang 134 Quá trình phát triển của cơ sở dữ liệú dữ liệu dẫn đến sự phát triển của Khai phá dữ liệu.
Nh÷ng n¨m 1960: TËp hỵp D÷ liƯu, sù t¹o thµnh c¬ së d÷ liƯu, IMS vµ m¹ng DBMS
Nh÷ng n¨m 1970: M« h×nh d÷ liƯu cã quan hƯ, sù thi hµnh DBMS cã quan hƯ
Nh÷ng n¨m 1980: RDBMS, tr¶ tr íc cho d÷ liƯu nh÷ng m« h×nh ( Më réng - cã quan hƯ, OO, suy diƠn….) )
DBMS h íng øng dơng ( Kh«ng gian, khoa häc, kü nghƯ….) ….) )
Nh÷ng n¨m 1990: Khai má D÷ liƯu, sù l u kho D÷ liƯu, nh÷ng c¬ së d÷ liƯu ®a ph ¬ng tiƯn, vµ nh÷ng c¬ së d÷ liƯu M¹ng
Nh÷ng n¨m 2000: Qu¶n lý vµ khai má d÷ liƯu dßng khai má D÷ liƯu víi mét sù ®a d¹ng (cđa) nh÷ng øng dơng
Trang 14PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
Trang 15Tổng quát chung nhiệm vụ của một hệ khai phá dữ liệu có thể được phân chia thành 2 loại: Mô tả và Dự đoán.
Mô tả là biểu thị các đặc điểm chung của dữ liệu trongCSDL.
Dự đoán nhằm thực hiện suy luận trên dữ liệu hiện có để đưa ra dự đoán.
Trang 16Các chức năng này được thể
hiện qua
1.Đặc trưng hóa và phân biệt:
Đặc trưng hoálà việc tổng kết toàn bộ các đặc điểm hay các tính chất
chung của một lớp dữ liệu đích Dữ liệu đó tương ứng với một lớp do
ngườidùng đặc tả bằng một câu truy vấn CSDL
Có một số phương phát để tổng kết và biểu thị đặc trưng dữ liệu một cách
hiệu quả Chẳng hạn thao tác rool-up của hệ phân tích trựctuyến(OLAP) dữ liệu dạng khốicó thể được dùng để thực hiện tổng kết theo một chiều cụthể dưới sự điều khiển của người dùng
Dữ liệu trả về của quá trình đặc trưng hoá có thể được biểu diễn những
khuôn dạng khác nhau
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
Trang 172 Phân tích sự kết hợp
Là khám phá ra các luật kết hợp trong một tập lớn dữ liệu Các luật kết hợp thể hiện mối quan hệ giữa các giá trị thuộc tính mà ta nhận thấy đựơc từ tần suất xuất hiện cùng với nhau.
Các luật kết hợp được khám phá từ một tập lớn các bản ghi giao dịch trong kinh doanh và những luật có ý nghĩa có thể giúp cho các nhà doanh nghiệp ra quyết định.
Trang 18PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
3 Phân lớp và dự
đoán
Phân lớp là quá trình tìm một tập các mô hình(hoặc các chức năng) mô tả và phân biệt các lớp dữ liệu Các mô hình này sẽ được sử dụng cho mục đích dự đoán về lớp của một số đối tượng
Việc xây dụng mô hình dựa trên sự phân tích một tập các dữ liệu huấn luyện.một mô hình như vậy có thể được biểu diễn trongnhiều dạng: luật phân lớp(ÌF-THEN),cây quyết định,công thức toán hay mạng nơron……
Sự dự đoán cũng bao gồm việc xác định khuynh hướng phân loại dựa trên những dữ liệu hiện có
Để phân lớp và dự đoán,có thể cần thực hiện trước một sự phân tích thích hợp Sự phân tích đó nhằm xác định những thuộc tính không tham gia vào quá trình phân lớp và dự đoán,chúng sẽ bị loại trừ sau bước này
Trang 19trong quá trình huấn luyện dữ liệu.
Phân cụm có thể được sử dụng để đưa ra những nhãn lớp
Sự phân cụm có mục đích nhóm các đối tượng lại theo nguyên tắc: Các
đối tượng trong cùng một nhóm giống nhau ở mức cao nhất và các đối
tượng khác nhóm có mức giống nhau ít nhất
Trang 20PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
5 Phân tích phần tử ngoài
cuộc
Một cơ sở dữ liệu có thể chứa các đối tượng dữ liệu không tuân theo mô
hình dữ liệu.những đối tượng như vậy gọi là phần tử ngoài cuộc
Hầu hết các phương pháp khai phá dữ liệu đêu coi phần tử ngoài cuộc là
nhiễu và loại bỏ chúng Tuy nhiên trong một số ứng dụng nào đó như
phát hiện nhiễu chẳng hạn,các sựviệc hiếm khi xảy ra lại được quan tâm
hơn những gì thường xuyên gặp phải
Sự phân tích dữ liệu ngoài cuộc xem như là sự khai phá các phần tử ngoài
cuộc
Trang 21Có một số phương pháp để phát hiện phần tử ngoài cuộc:
Dùng các test mang tính thống kê trên cơ sở một giả thiết về phân phối dữ liệu hay một mô hình xác suất cho dữ liệu
Dùng các độ đo khoảng cách,theo đó các đối tượng có một khoảng cách đáng kểđến cụm bất kì khác được xem là phần tử ngoài cuộc
Dùng các phương pháp dựa trên độ lệch để kiểm tra sự khác nhau trong những
đặc trưng chính của các đối tượng trong một nhóm
Trang 22PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
Trang 23Với hai đớch chớnh của khai phỏ dữ liệu là Dự đoỏn (Prediction) và Mụ tả
(Description), người ta thường sử dụng cỏc phương phỏp sau cho khai phỏ dữ
liệu:
-Phõn loại (Classification): Khám phá (của) một đoán tr ớc học hàm mà
Phân loại một tiết mục dữ liệu vào trong một trong số vài lớp đặt sẵn
- Hồi qui (Regression): Khám phá (của) một sự dự đoán học hàm, mà vẽ bản đồ một tiết mục dữ liệu tới một biến dự đoán giá trị thực tế
- Phõn nhúm (Clustering):Một nhiệm vụ miêu tả chung mà trong (cái) đó
Một tìm kiếm để xác định Một tập hợp hữu hạn (của) những phạm trù hoặc những bó mô tả dữ liệu
- Tổng hợp (Summarization): Một nhiệm vụ miêu tả bổ sung mà kéo theo những ph ơng pháp để tìm thấy một sự mô tả gọn cho một tập hợp ( Hoặc Tập con) (Của) dữ liệu
Trang 24-Mụ hỡnh ràng buộc (Dependency modeling): Kết quả tìm kiếm (mà) một địa ph ơng mô hình mà mô tả những Phần phụ thuộc quan trọng giữa những biến hoặc giữa những giá trị (của) một đặc tính trong một tập hợp dữ liệu hoặc trong một tập hợp bộ phận của một dữ liệu
- Dũ tỡm biến đổi và độ lệch (Change and Deviation Dectection):Việc khám phá (cái) quan trọng nhất thay đổi trong tập hợp dữ liệu
PHAÀN 3: CAÙC PHệễNG PHAÙP KHAI PHAÙ Dệế LIEÄU
Trang 25-•Quan hệ
•Giao tác
•Huớng đối tượng
•Huớng đối tượng, quan hệ
Trang 26Tiến trình khai phá dữ liệu (1)
Nghiên cứu lĩnh vực Nghiên cứu lĩnh vực Nghi ên cứu lĩnh vực
R R út gọn / chiều út gọn / chiều
T T ạo tập dữ liệu đầu vào ạo tập dữ liệu đầu vào
Ti Ti ền xử lý/ làm sạch, mã hĩa ền xử lý/ làm sạch, mã hĩa
Ch Ch ọn tác vụ Khai thác dữ liệu ọn tác vụ Khai thác dữ liệu
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ
LIỆU
Trang 27Chọn các thuật giải KTDL Chọn các thuật giải KTDL Ch ọn các thuật giải KTDL
Biểu diễn tri thức Biểu diễn tri thức Bi ểu diễn tri thức
KTDL: T KTDL: T ìm ìm kiếm tri thức kiếm tri thức Đánh giá mẫu tìm được Đánh giá mẫu tìm được
S S ử dụng các tri thức vừa khám phá ử dụng các tri thức vừa khám phá
Tiến trình khai phá dữ liệu (2)
Trang 28PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG
Trang 29Phân tích và quản lý thị trường
Quản lý và phân tích rủi ro
Quản lý và phân tích các sai hỏng
Khai thác Web
Khai thác văn bản (text mining)
Etc
Trang 30-Các cơ sở dữ liệu lớn
- Số chiều lớn
- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp
- Dữ liệu bị thiếu hoặc nhiễu
- Quan hệ giữa các trường phức tạp
- Giao tiếp với người sử dụng và kết hợp với các tri thức đã có
Trang 31và sự biểu diễn kiến thức
Khai phaự thể đ ợc thực hiện trong một sự đa dạng (của) những kho chứa thông tin
Những tính hoạt động khai phaự Dữ liệu : Sự đặc tr ng, sự phân biệt, hiệp hội, sự phân loại, sự xếp nhóm, sự phân tích ngoài và khuynh h ớng…v.v v.v
Trang 32ĐỀ TÀI CỦA NHÓM 2 ĐẾN ĐÂY XIN KẾT THÚC !
MỘT LẦN NỮA THAY MẶT NHÓM TÔI XIN CHÂN THÀNH
CẢM ƠN THẦY CÔ VÀ CÁC BẠN ĐÃ NHIỆT TÌNH ỦNG HỘ
XIN CHÂN THÀNH CẢM ƠN !