1. Trang chủ
  2. » Giáo Dục - Đào Tạo

DATA MINING AND APPLICATION: TỔNG QUAN pdf

13 427 6

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

1 KHAI THÁC DỮ LIỆU & ỨNG DỤNG (DATA MINING) GV : ThS. NGUYỄN HOÀNG TÚ ANH 2 NỘI DUNG  Giới thiệu về môn học  Giới thiệu về khai thác dữ liệu (DM) 2 3 GIỚI THIỆU MÔN HỌC  Tai sao chọn môn học này ?  Thế mạnh và nền tảng kiến thức :  TTNT, hệ QTCSDL, thống kê, kinh tế,…  Sự quan tâm đến kiến thức, vấn đề mới.  Mục tiêu môn học :  Cung cấp các khái niệm và kỹ thuật cơ bản của khai thác dữ liệu (DM)  Chuyển dữ liệu về dạng phù hợp  Tìm tri thức từ dữ liệu  Biểu diễn, đánh giá tri thức  Ứng dụng của DM  Các kỹ năng giải quyết vấn đề 4 Thông tin liên lạc  Giảng viên lý thuyết :  Th.s. Nguyễn Hoàng Tú Anh nhtanh@fit.hcmus.edu.vn Tel : 38354266 – 803  Website môn học :  http://courses.cs.hcmus.edu.vn/ 3 5 CHƯƠNG TRÌNH 45 tiết lý thuyết và 30 tiết thực hành  Tổng quan  Chuẩn bị dữ liệu  Tập phổ biến và luật kết hợp  Bài toán phân lớp  Bài toán gom nhóm  Các nghiên cứu xa hơn 6 Hình thức học Lý thuyết:  Bài giảng : GV cung cấp slide theo tiến độ.  Bài tập theo nhóm và bài tập cá nhân.  Tìm hiểu, nghiên cứu tài liệu để báo cáo xemina Thực hành :  Hình thức 2  Sử dụng PM Weka  Cài đặt một số thuật toán 4 7 HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ  Hệ thống thang điểm:  Bài thi lý thuyết: 4.5 điểm  Bài tập theo nhóm và cá nhân: 1.5 điểm  Báo cáo xemina: 1.5 điểm  Bài tập thực hành hằng tuần: 2.5 điểm  Điểm cộng cho phần TH: tối đa 1 điểm 8 HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ  Thi lý thuyết: 4.5 điểm  Thi viết, đựơc sử dụng tài liệu, KHÔNG sử dụng laptop, mang theo máy tính : thời gian 120’  Bài tập theo nhóm và cá nhân: 1.5 điểm  Bài tập làm theo nhóm và cá nhân trên lớp và qua Moodle.  Tối đa 4 SV/nhóm.  Hạn chót đăng ký nh óm qua Moodle: 15/09/2009  Báo cáo xemina: 1.5 điểm  Thực hiện theo nhóm đã đăng ký bài tập nhóm (4SV/nhóm).  Các nhóm sẽ đăng ký nội dung xemina theo thông báo trên website môn học. (trong tuần từ 21/9 -26/9) 5 9 HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ  Bài tập (theo nhóm và cá nhân): 1.5 điểm  Bài tập làm theo nhóm hoặc cá nhân trên lớp và qua Moodle hằng tuần.  Đánh giá sự tham gia lớp học và sự chuẩn bị bài trong suốt quá trình học tập.  Điểm bài tập sẽ đánh giá trên tất cả các bài tập hằng tuần trên lớp và qua Moodle.  Đối với cá c bài tập làm theo nhóm, trưởng nhóm cần thống kê tỷ lệ đóng góp của từng thành viên trong nhóm. 10 HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ  Bài tập (theo nhóm và cá nhân): 1.5 điểm  Đánh giá sự tham gia lớp học và sự chuẩn bị bài trong suốt quá trình học tập.  30% - bài tập cá nhân trong giờ học và 70% là bài tập theo nhóm.  Để có thể đạt kết quả tốt, các SV cần xem trước bài giảng để chuẩn bị.  Các mức đánh giá:  A – Xuất sắc 100% số điểm  B - Đạt yêu cầu ~70% số điểm  C - Không đạt yêu cầu ~30% số điểm  F - Không làm hoặc giống bài của SV khác 0% số điểm 6 11 HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ  Báo cáo xemina: 1.5 điểm  Các nhóm sẽ đăng ký nội dung xemina theo thông báo trên website môn học. (trong tuần từ 21/9 -26/9)  Thứ tự báo cáo phụ thuộc vào nội dung các nhóm đăng ký. Bắt đầu xemina từ tuần thứ 10.  Trước buổi báo cáo, các nhóm phải gửi nội dung trình bày (file.ppt) cho GV góp ý và post lên website để các nhóm khác tham khảo. 12 HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ  Báo cáo xemina: 1.5 điểm  Các nhóm sẽ đăng ký nội dung xemina theo thông báo trên website môn học. (trong tuần từ 21/9 -26/9)  Điểm báo cáo xemina sẽ đánh giá trên nội dung trình bày, trả lời câu hỏi tại buổi xemina, trên cả nội dung của báo cáo chi tiết và sự tham dự các buổi xemina.  Trong tuần thứ 16, các nhóm sẽ post nội dung bản báo cáo viết chi tiết (file .doc theo mẫu) lên website môn học.  Trong bài thi viết lý thuyết cuối kỳ sẽ có 1 câu hỏi liên quan đến các nội dung xemina. 7 13 HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ  Bài tập thực hành hằng tuần: 2.5 điểm  Bài tập làm theo nhóm. Một nhóm : 2 SV  Số lượng : 4 bài . Thời gian : 2 tuần/bài  Hạn chót đăng ký nhóm TH qua Moodle: 15/09/2009  Nội dung bài tập TH :  Sử dụng phần mềm Weka để giải quyết một số bài toán trong nội dung lý thuyết : xử lý DL, khai thác luật kết hợp, phân lớp và gom nhóm .  Có yêu cầu cài đặt một số thuật toán  Thời gian nộp qua website môn học theo thông báo của GV HDTH. 14 Câu hỏi và đề nghị ?  Chia sẻ câu hỏi, thắc mắc với cả lớp – có thể có những bạn khác cũng quan tâm.  Bỏ vào càng nhiều công sức, các em sẽ đạt được kết quả càng cao  Điểm của các em tỷ lệ thuận với các nỗ lực đã bỏ ra. 8 15 TÀI LIỆU THAM KHẢO  J.Han, M.Kamber, “Data mining : Concepts & Technique” (ppt) – http://www.cs.sfu.ca/~han/dmbook  P.Tan, M. Steinbach, V. Kumar, “Introduction to data Mining”, 2006, - http://www- users.cs.umn.edu/~kumar/dmbook/index.php  Phần mềm WEKA - http://www.cs.waikato.ac.nz/ml/weka/  Trang web đầu ngành về KTDL - Kdnuggets : www.kdnuggets.com 16 NỘI DUNG  Giới thiệu về môn học  Giới thiệu về khai thác dữ liệu (DM) 9 17 VÍ DỤ : Tập Dữ liệu age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no 31…40 high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no 31…40 low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes 31…40 medium no excellent yes 31…40 high yes fair yes >40 medium no excellent no 18 THẾ NÀO LÀ KHAI THÁC DL  Là quá trình lặp, không phải plug - and – play  “Khai thác dữ liệu là quá trình không tầm thường của việc xác định cá c mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu được tối đa trong CSDL” – - Fayyad, Piatetsky-Shapiro & Smyth, 1996 10 Marketing  Phân khúc thị trường : Ai mua sản phẩm của công ty?  Mục tiêu hướng k hách hàng (customer targeting): Làm thế nào để tăng số mail trả lời? Nên quảng cáo cái gì trên web site ?  Những mặt hàng nào thường được khách hàng mua cùng với nhau? Ví dụ ứng dụng Quản lý rủi ro -Risk Management  Khách hàng nào có thể sẽ chuyển sang nhà cung cấp dịch vụ khác?  Khách hàng nào có mức độ rủi ro tín dụng tốt?  Giao dịch thẻ tín dụng nào bị lỗi hoặc gian lận ? Ví dụ ứng dụng [...]... Tại sao cần Khai thác dữ liệu (KTDL)? Những đối tượng nào sử dụng KTDL ? Sử dụng KTDL ở đâu và khi nào? Sử dụng KTDL như thế nào ? Tại sao cần nghiên cứu KTDL? Lịch sử phát triển KTDL ? … Xem bài 1 : Tổng quan 22 11 CÁC CÔNG VIỆC CẦN LÀM 1 Đăng nhập vào Moodle    2   Để đăng ký tham gia vào lớp, thảo luận và lấy tài liệu Hạn chót : 16/9/2009 Sau ngày 16/9/09, Website môn học sẽ khoá lại Đăng ký... (4Sv/nhóm) và cho bài tập Thực hành (2Sv/nhóm) qua Moodle : 15/09/2009 Chuẩn bị sẵn BẢNG TÊN NHÓM và mang theo khi đến lớp và tất cả các buổi học tiếp theo 23 CÁC CÔNG VIỆC CẦN LÀM 3 Chuẩn bị bài 1 : Tổng quan  Xem nội dung bài tập nhóm số 1  Thảo luận và xây dựng một ví dụ của khai thác dữ liệu: nên chọn lựa một lĩnh vực nhỏ, một sản phẩm cụ thể  Cách thực hiện :  Đọc slide, xem các ví dụ  Tham . cũng quan tâm.  Bỏ vào càng nhiều công sức, các em sẽ đạt được kết quả càng cao  Điểm của các em tỷ lệ thuận với các nỗ lực đã bỏ ra. 8 15 TÀI LIỆU THAM KHẢO  J.Han, M.Kamber, Data mining. :  http://courses.cs.hcmus.edu.vn/ 3 5 CHƯƠNG TRÌNH 45 tiết lý thuyết và 30 tiết thực hành  Tổng quan  Chuẩn bị dữ liệu  Tập phổ biến và luật kết hợp  Bài toán phân lớp  Bài toán gom nhóm . 1 KHAI THÁC DỮ LIỆU & ỨNG DỤNG (DATA MINING) GV : ThS. NGUYỄN HOÀNG TÚ ANH 2 NỘI DUNG  Giới thiệu về môn học  Giới thiệu về khai

Ngày đăng: 25/07/2014, 15:21

TỪ KHÓA LIÊN QUAN