“Khai thác dữ liệu là quá trình không tầm thường của việc xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996) Một vài ví dụ minh họa ứng dụng KTDL FBI – theo dõi tội phạm Các công ty điện thoại Siêu thị, trung tâm mua sắm (Walmart, Costco) Các công ty bảo hiểm Ngân hàng, tài chính, chứng khoán ….
1 KHAI THÁC DỮ LIỆU & ỨNG DỤNG (DATA MINING) GV : ThS. NGUYỄN HOÀNG TÚ ANH 2 NỘI DUNG Giới thiệu về môn học Giới thiệu về khai thá c dữ liệu (DM) Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com 2 3 GIỚI THIỆU MÔN HỌC Tai sao chọn môn học này ? Thế mạnh và nền tảng kiến thức : TTNT, hệ QTCSDL, thống kê, kinh tế,… Sự quan tâm đến kiến thức, vấn đề mới. Mục tiêu môn học : Cung cấp các khái niệm và kỹ thuật cơ bản củ a khai thác dữ liệu (DM) Chuyển dữ liệu về dạng phù hợp Tìm tri thức từ dữ liệu Biểu diễn, đánh giá tri thức Ứng dụng của DM Các kỹ năng giải quyết vấn đề 4 Thông tin liên lạc Giảng viên lý thuyết : Th.s. Nguyễn Hoàng Tú Anh nhtanh@fit.hcmuns.edu.vn Tel : 8354266 – 508 hoặc 803 Website môn học : http://courses.cs.hcmuns.edu.vn/2006/ vào mục Hệ Hoàn chỉnh Đại Học /Khai thác DL & UD – 05HCA Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com 3 5 CHƯƠNG TRÌNH 30 tiết lý thuyết Tổng quan Chuẩn bị dữ liệu Tập phổ biến và luật kết hợp Chuỗi tuần tự Bài toán phân lớp Bài toán gom nhóm Các nghiên cứu xa hơn 6 HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ Thi lý thuyết : 7 điểm Thi viết, đựơc sử dụng tài liệu, KHÔNG sử dụng laptop, mang theo máy tính : thời gian 120’ Bài tập giữa kỳ 1.5 điểm Bài tập làm cá nhân Nộp 1 lần trong học kỳ trên website môn học theo thông báo của GV Bài tập theo nhóm : 1.5 điểm Bài tập làm theo nhóm trên lớp. Từ 8 - 12 SV/nhóm Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com 4 7 HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ Bài tập giữa kỳ 1.5 điểm Bài tập làm cá nhân Nộp 1 lần trong học kỳ trên website môn học theo thông báo của GV ( soft + hard copy) Lưu ý: khi nộp bài cần tuân theo đầy đủ quy định được thông báo trên website môn học (về cách tổ chức file bài làm, đặt tên file…), không nộp qua email, không chấp nhận nộp trễ. Các mức đánh giá: A – Xuất sắc 100% số điểm B - Đạt yêu cầu ~70% số điểm C - Không đạt yêu cầu ~30% số điểm F - Không nộp, hoặc giống bài của SV khác 0% số điểm 8 HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ Bài tập làm theo nhóm 1.5 điểm Bài tập làm theo nhóm trên lớp. Từ 8 -12 SV/nhóm. Đanh giá sự tham gia lớp học và sự chuẩn bị bài Sau khi thảo luận, các nhóm sẽ trình bày ý kiến, kết quả trước lớp hoặc sẽ trình bày trên giấy và nộp cho GV ngay tại lớp. Để có thể đạt kết quả tốt, các nhóm cần xem trước bài giảng để chuẩn bị. Các mức đánh giá: A – Xuất sắc 100% số điểm B - Đạt yêu cầu ~70% số điểm C - Không đạt yêu cầu ~30% số điểm F - Không làm hoặc giống bài của nhóm khác 0% số điểm Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com 5 9 Câu hỏi và đề nghị ? Rất mong nhận được các ý kiến phản hồi từ các em. Cô cần điều chỉnh nội dung cho phù hợp với nhu cầu của các em. Có thể gửi ý kiến cho Cô bất cứ lúc nào . Chia sẻ câu hỏi, thắc mắc với cả lớp – có thể có những bạn khác cũng quan tâm. Bỏ vào càng nhiều công sức, các em sẽ đạt được kết quả càng cao Điểm của các em tỷ lệ thuận với các nỗ lực đã bỏ ra. 10 TÀI LIỆU THAM KHẢO J.Han, M.Kamber, “Data mining : Concepts & Technique” (ppt) – http://www.cs.sfu.ca/~han/dmbook hoặc ebook tại địa chỉ http://www.selab.hcmuns.edu.vn/Elib/ P.Tan, M. Steinbach, V. Kumar, “Introduction to data Mining”, 2006, - http://www- users.cs.umn.edu/~kumar/dmbook/index.php Phần mềm WEKA - http://www.cs.waikato.ac.nz/ml/weka/ Trang web đầu ngành về KTDL - Kdnuggets : www.kdnuggets.com Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com 6 11 NỘI DUNG Giới thiệu về môn học Giới thiệu về khai thác dữ liệu (DM) 12 THẾ NÀO LÀ KHAI THÁC DL Là quá trình lặp, không phải plug - and – play “Khai thác dữ liệu là quá trình không tầm thường của việc xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996) Một vài ví dụ minh họa ứng dụng KTDL FBI – theo dõi tội phạm Các công ty điện thoại Siêu thị, trung tâm mua sắm (Walmart, Costco) Các công ty bảo hiểm Ngân hàng, tài chính, chứng khoán …. Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com 7 13 THẾ NÀO LÀ KHAI THÁC DL Tại sao cần Khai thác dữ liệu (KTDL)? Những đối tượng nào sử dụng KTDL ? Sử dụng KTDL ở đâu và khi nào? Sử dụng KTDL như thế nào ? Tại sao cần nghiên cứu KTDL? Lịch sử phát triển KTDL ? …. Xem bài 1 : Tổng quan. Lưu ý : Hạn chót đăng ký nhóm : 16/5/2007 14 Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com 1 KHAI THÁC DỮ LIỆU & ỨNG DỤNG (DATA MINING) GV : ThS. NGUYỄN HOÀNG TÚ ANH 2 BÀI 1 TỔNG QUAN 3 NỘI DUNG 1. Tại sao cần khai thác dữ liệu ? 2. Khai thác dữ liệu (KTDL) là gì ? 3. Qui trình KDD 4. Các nhiệm vụ chính của KTDL 5. Các kỹ thuật KTDL 6. Các vấn đề của KTDL 4 SỰ CẦN THIẾT CỦA KTDL – Khía cạnh thương mại Khối lượng lớn dữ liệu được thu thập và lưu trữ o Web data, e-commerce o Hóa đơn mua hàng tại siêu thị / trung tâm mua sắm o Giao dịch ngân hàng / thẻ tin dụng Máy tính mạnh hơn , rẻ hơn Áp lực cạnh tranh rất mạnh o Cung cấp các dịch vụ đa dạng, chất lượng tốt ( CRM – Customer Relationship Management) Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com 2 5 SỰ CẦN THIẾT CỦA KTDL – Khía cạnh Khoa học Dữ liệu được thu thập và lưu trữ với tốc độ cao(GB/h) o Thiết bị remote sensor trên vệ tinh o Kính thiên văn quan sát bầu trời o Microarray tạo dữ liệu biểu diễn gien o Thử nghiệm khoa học tạo hàng TB Các kỹ thuật truyền thống khơng đủ khả năng làm việc với dữ liệu thơ KTDL có thể giúp các nhà khoa học o Phân loại và phân đoạn dữ liệu o Xây dựng giả thuyết 6 SỰ CẦN THIẾT CỦA KTDL DL chứa rất nhiều thơng tin giá trị, có lợi cho qui trình ra quyết định Khơng thể phân tích DL = tay • Con người cần hàng tuần lễ để khám phá ra thơng tin có ích • Phần lớn dữ liệu chưa bao giờ được phân tích cả • “Hố sâu giữa khả năng sinh ra DL và khả năng sử dụng DL” – Usama Fayyad 10 6 -10 12 bytes: Không bao giờ có thể nhìn thấy một cách đầy đủ tập dữ liệu hoặc đưa vào bộ nhớ của máy tính 7 SỰ CẦN THIẾT CỦA KTDL 0 500,000 1,000,000 1,500,000 2,000,000 2,500,000 3,000,000 3,500,000 4,000,000 1995 1996 1997 1998 1999 Hố sâu dữ liệu Số DL thu thập (TB) từ năm 1995 Số DL được phân tích 8 SỰ RA ĐỜI CỦA KTDL Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com 3 9 SỰ DỤNG KTDL KHI NÀO? Dữ liệu q nhiều Dữ liệu lớn (chiều và kích thước) Dữ liệu ảnh ( kích thước) Dữ liệu gene (số chiều) Có ít tri thức về dữ liệu 10 LĨNH VỰC ỨNG DỤNG KTDL Thông tin thương mại -Phân tích thò trường và mua bán -Phân tích đầu tư -Chấp thuận cho vay -Phát hiện gian lận … Thông tin sản xuất - Điều khiển và lên kế hoạch - Quản trò mạng - Phân tích các kết qủa thực nghiệm … Thông tin khoa học - Thiên văn học - Cơ sở dữ liệu sinh học - Khoa học đòa chất: bộ dò tìm động đất … Thông tin cá nhân 11 NỘI DUNG 1. Tại sao cần khai thác dữ liệu ? 2. Khai thác dữ liệu là gì ? 3. Qui trình KDD 4. Các nhiệm vụ chính của KTDL 5. Các kỹ thuật KTDL 6. Các vấn đề của KTDL 12 THẾ NÀO LÀ KTDL “Khai thác dữ liệu là q trình khơng tầm thường của việc xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996) Quá trình không tầm thường Đa xử lý Hợp lệ Chứng minh tính đúng Của mẫu / Mô hình Mới lạ Không biết trước Có ích Có thể sử dụng được Có thể hiểu được Bởi con người và máy Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com [...]... CÁC NHI M V CHÍNH C A DM Phát hiện ra mơ tả của một vài lớp ã ược xác ịnh và phân loại dữ liệu vào một trong các lớp ó Tìm ra một tập xác ịnh Các nhóm hay các cụm ể mơ tả dữ liệu Gom cụm ụ Phân lớp ớ ? Phát hiện ra một mơ hình mà mơ tả phụ thuộc quan trọng nhất giữa các biến Ánh xạ từ một mẫu dữ liệu thành một biến dự ốn trước có giá trị thực Mơ hình hóa phụ thuộc ụ ộ Hồi qui ồ Phát hiện ra những thay... Split Unregistered Version - http://www.simpopdf.com QUI TRÌNH KDD Dữ liệu được tổ chức theo chức năng Tạo ra/chọn lọc CSDL đích KI N TRÚC H TH NG DM TI U BI U Data warehousing Graphical user interface 1 Chọn llựa kỹ thuật điển hình và dữ liệu mẫu Thay thế những giá trò thiếu Chuẩn hoá giá trò Biến đổi giá trò Pattern evaluation Khử nhiễu Dữ liệu 2 Data mining engine Tạo các thuộc Tính dẫn xuất Tìm... - http://www.simpopdf.com Phát hi n s L c hư ng/ B t bình thư ng N I DUNG Xác nh s l ch hư ng rõ r t so v i hành vi thơng thư ng ng d ng : Phát hi n gian l n th tín d ng 1 T i sao c n khai thác d li u ? 2 Khai thác d li u là gì ? 3 Qui trình KDD 4 Các nhi m v chính c a KTDL 5 Các k thu t KTDL Phát hi n xâm nh p m ng trái phép 6 Các v n c a KTDL 41 M TS KTDL – K T H P PHƯƠNG PHÁP Database Technology... quan và tương tác Tính hi u qu Phát tri n thu t tốn DM nhanh Thi hành có phương pháp : khai thác song song, phân tán, tăng cư ng Tích h p vào h th ng s n ph m : DBMS, DW 46 C A KTDL ng d ng Các tập dữ liệu cực lớn ậ ữ ệ ự ớ Và có số chiều lớn ố ề ớ (Tính hiệu qủa, tính co ệ ủ dãn) DL b nhi u, thi u DL ph c t p, khơng ng nh t B o tồn tính riêng tư Lý thuy t Xử lý các kiểu dữ liệu ử ể ữ ệ khác nhau với mức... giữa các biến Ánh xạ từ một mẫu dữ liệu thành một biến dự ốn trước có giá trị thực Mơ hình hóa phụ thuộc ụ ộ Hồi qui ồ Phát hiện ra những thay ổi quan trọng nhất trong dữ liệu Phát hiện ra một mơ tả tóm tắt cho một tập con dữ liệu Phát hiện sự thay ệ ự ổi/lạc hướng ạ ớ VÍ D Tóm tắt ắ PHÂN L P Cơng ty Verizon Wireless : Cơng ty cung c p thi t b , d ch v khơng dây l n nh t M S lư ng khách hàng : 30.3... Lựa chọn phương pháp DM Trích xuất Tri thức Kiểm tra tri thức Phát sinh ra câu hỏi và báo cáo Các phương pháp cải tiến 5 kiểu kết hợp và lập dãy Tính chế Tri thức Database or data warehouse server Data cleaning & data integration Databases 17 N I DUNG Knowledge-base Filtering Data Warehouse 18 CÁC NHI M V CHÍNH C A DM 1 T i sao c n khai thác d li u ? 2 Khai thác d li u là gì ? 3 Qui trình KDD 4 Các... tài li u gi ng nhau thu ư c t search engine d a trên n i dung (VD: r ng nhi t i Amazon , Amazon.com) 13 N I DUNG 14 QUI TRÌNH KHÁM PHÁ TRI TH C KTDL : M t bư c quan tr ng trong qui trình KDD (knowledge discovery in DB) 1 T i sao c n khai thác d li u ? 2 Khai thác d li u là gì ? 3 Qui trình KDD Data Warehouse Data Mining 2 Selection Data Cleaning 5 Các k thu t KTDL c a KTDL 4 3 Task-relevant Data 4 Các... T i ưu hóa câu truy v n DM Các nguồn dữ liệu ồ ữ ệ khác nhau (Các CSDL Phân tán và thuần nhất, dữ liệu ầ ấ ữ ệ khơng ồng bộ, có ộ nhiễu và bị mất ễ ị ấ mát,v.v….) 48 12 Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com TĨM T T T I SAO C N NGHIÊN C U KTDL Th o lu n và t ưa ra câu tr l i Khám phá m u có ích, chưa bi t t kh i lư ng l n DL Qui trình KDD Thu th p và ti n x lý DL ->... 9, 15, 24, 31, 35, 35, 37, 42, 42, 42, 48, 48, 50 S GI : 4 - Dùng phương pháp phân chia theo r ng và theo sâu - - 21 - Tính giá tr c a gi theo phương pháp làm trơn theo trung tuy n : - Nhóm : Tính giá tr c a gi theo phương pháp làm trơn theo biên gi : - Nhóm : 22 So sánh k t qu hai phương pháp phân chia PHƯƠNG PHÁP H I QUI PHƯƠNG PHÁP GOM NHĨM Y1 y=x+1 Y1’ X1 23 x 24 6 Simpo PDF Merge and Split Unregistered... LI U NHI U Các phương pháp cơ b n kh nhi u : Phương pháp chia gi (Binning) : o o S p x p và chia DL vào các gi có cùng sâu (equaldepth) Kh nhi u b ng giá tr TB, trung tuy n, biên gi ,… Gom nhóm ( Clustering) : o Phát hi n và lo i b các khác bi t Phương pháp h i qui ( Regression) : o ưa DL vào hàm h i qui K t h p s ki m tra gi a máy tính và con ngư i (Computer/human inspection) o Phát hi n giá tr nghi . http://www.simpopdf.com 6 11 NỘI DUNG Giới thiệu về môn học Giới thiệu về khai thác dữ liệu (DM) 12 THẾ NÀO LÀ KHAI THÁC DL Là quá trình lặp, không phải plug - and – play Khai thác dữ liệu là. http://www.simpopdf.com 1 KHAI THÁC DỮ LIỆU & ỨNG DỤNG (DATA MINING) GV : ThS. NGUYỄN HOÀNG TÚ ANH 2 BÀI 1 TỔNG QUAN 3 NỘI DUNG 1. Tại sao cần khai thác dữ liệu ? 2. Khai thác dữ liệu (KTDL). nhân 11 NỘI DUNG 1. Tại sao cần khai thác dữ liệu ? 2. Khai thác dữ liệu là gì ? 3. Qui trình KDD 4. Các nhiệm vụ chính của KTDL 5. Các kỹ thuật KTDL 6. Các vấn đề của KTDL 12 THẾ NÀO LÀ KTDL “Khai