Giới thiệu về khai thác dữ liệu DM
KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : ThS. NGUYỄN HOÀNG TÚ ANH2NỘI DUNG Giới thiệu về môn học Giới thiệu về khai thác dữ liệu (DM) 3GIỚI THIỆU MÔN HỌC Tai sao chọn môn học này ? Thế mạnh và nền tảng kiến thức : TTNT, hệ QTCSDL, thống kê, kinh tế,… Sự quan tâm đến kiến thức, vấn đề mới. Mục tiêu môn học : Cung cấp các khái niệm và kỹ thuật cơ bản của khai thác dữ liệu (DM) Chuyển dữ liệu về dạng phù hợp Tìm tri thức từ dữ liệu Biểu diễn, đánh giá tri thức Ứng dụng của DM Các kỹ năng giải quyết vấn đề và một số kỹ năng mềm4Thông tin liên lạc Giảng viên lý thuyết : Th.s. Nguyễn Hoàng Tú Anhnhtanh@fit.hcmuns.edu.vnTel : 8354266 – 508 hoặc 803 Website môn học : http://courses.cs.hcmuns.edu.vn/ 5CHƯƠNG TRÌNH30 tiết lý thuyết Tổng quan Chuẩn bị dữ liệu Tập phổ biến và luật kết hợp Bài toán phân lớp Bài toán gom nhóm Các nghiên cứu xa hơn6Hình thức họcLý thuyết: Bài giảng : nghiên cứu trước slide Tự tìm hiểu, tổng hợp kiến thức . Bài tập nhóm : thảo luận, chuẩn bị bài tập 7HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ Hệ thống thang điểm : Bài thi lý thuyết : 7 điểm Bài tập theo nhóm : 1.5 điểm Bài kiểm tra giữa kỳ : 1.5 điểm8HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ Thi lý thuyết : 7 điểm Thi viết, đựơc sử dụng tài liệu, KHÔNG sử dụng laptop, mang theo máy tính : thời gian 120’ Bài kiểm tra giữa kỳ 1.5 điểm Bài kiểm tra làm cá nhân Thời gian : 30’, được sử dụng tài liệu. Dự kiến vào tuần thứ 5. Bài tập theo nhóm : 1.5 điểm Bài tập làm theo nhóm trên lớp và qua Moodle. Tối đa 7 SV/nhóm. Hạn chót đăng ký nhóm qua Moodle: 29/7/2008 9HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ Bài tập làm theo nhóm 1.5 điểm Bài tập làm theo nhóm trên lớp và qua Moodle hằng tuần. Tối đa 7 SV/nhóm. Đánh giá sự tham gia lớp học và sự chuẩn bị bài Sau khi thảo luận, các nhóm sẽ trình bày ý kiến, kết quả trước lớp hoặc sẽ trình bày trên giấy, nộp cho GV ngay tại lớp hoặc gửi bài qua Moodle. Để có thể đạt kết quả tốt, các nhóm cần xem trước bài giảng để chuẩn bị. Các mức đánh giá: A – Xuất sắc 100% số điểm B - Đạt yêu cầu ~70% số điểm C - Không đạt yêu cầu ~30% số điểm F - Không làm hoặc giống bài của nhóm khác 0% số điểm10Câu hỏi và đề nghị ? Rất mong nhận được các ý kiến phản hồi từ các em. Cô cần điều chỉnh nội dung cho phù hợp với nhu cầu của các em. Có thể gửi ý kiến cho Cô bất cứ lúc nào . Chia sẻ câu hỏi, thắc mắc với cả lớp – có thể cónhững bạn khác cũng quan tâm. Bỏ vào càng nhiều công sức, các em sẽ đạt được kết quả càng cao Điểm của các em tỷ lệ thuận với các nỗ lực đã bỏ ra. 11TÀI LIỆU THAM KHẢO J.Han, M.Kamber, “Data mining : Concepts & Technique”(ppt) – http://www.cs.sfu.ca/~han/dmbook hoặc ebook P.Tan, M. Steinbach, V. Kumar, “Introduction to data Mining”, 2006, - http://www-users.cs.umn.edu/~kumar/dmbook/index.php Phần mềm WEKA - http://www.cs.waikato.ac.nz/ml/weka/ Trang web đầu ngành về KTDL - Kdnuggets : www.kdnuggets.com12NỘI DUNG Giới thiệu về môn học Giới thiệu về khai thác dữ liệu (DM) 13VÍ DỤ : Tập Dữ liệu age income student credit_rating buys_computer<=30 high no fair no<=30 high no excellent no31…40 high no fair yes>40 medium no fair yes>40 low yes fair yes>40 low yes excellent no31…40 low yes excellent yes<=30 medium no fair no<=30 low yes fair yes>40 medium yes fair yes<=30 medium yes excellent yes31…40 medium no excellent yes31…40 high yes fair yes>40 medium no excellent no14THẾ NÀO LÀ KHAI THÁC DL Là quá trình lặp, không phải plug - and – play “Khai thác dữ liệu là quá trình không tầm thườngcủa việc xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996) Một vài ví dụ minh họa ứng dụng KTDL FBI – theo dõi tội phạm Các công ty điện thoại : tăng khách hàng Siêu thị, trung tâm mua sắm (Walmart, Costco) : tăng doanh thu Các công ty bảo hiểm : mức phí bảo hiểm Ngân hàng, tài chính, chứng khoán : dự đoán rủi ro.…. 15THẾ NÀO LÀ KHAI THÁC DL Tại sao cần Khai thác dữ liệu (KTDL)? Những đối tượng nào sử dụng KTDL ? Sử dụng KTDL ở đâu và khi nào? Sử dụng KTDL như thế nào ? Tại sao cần nghiên cứu KTDL? Lịch sử phát triển KTDL ?….Xem bài 1 : Tổng quan.16CÁC CÔNG VIỆC CẦN LÀM1. Đăng nhập vào Moodle Để đăng ký tham gia vào lớp, thảo luận và lấy tài liệu Hạn chót : 30/7/2008 Sau 30/7/08, Website môn học sẽ đặt pass.2. Đăng ký nhóm Hạn chót đăng ký nhóm qua Moodle : 29/7/2008 Chuẩn bị sẵn BẢNG TÊN NHÓM và mang theo khi đến lớp. 17CÁC CÔNG VIỆC CẦN LÀM3. Chuẩn bị bài 1 : Tổng quan Xem nội dung bài tập nhóm số 1 Thảo luận và xây dựng một ví dụ ứng dụng của khai thác dữ liệu : nên chọn lựa một lĩnh vực nhỏ, một sản phẩm cụ thể. Cách thực hiện : Đọc slide, xem các ví dụ Tham khảo trên Internet các ví dụ về KTDL 18 . KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : ThS. NGUYỄN HOÀNG TÚ ANH2NỘI DUNG Giới thiệu về môn học Giới thiệu về khai thác dữ liệu (DM) 3GIỚI. thuật cơ bản của khai thác dữ liệu (DM) Chuyển dữ liệu về dạng phù hợp Tìm tri thức từ dữ liệu Biểu diễn, đánh giá tri thức Ứng dụng của DM Các kỹ năng