21.1. Tên học phần: Khai phá dữ liệu (Data Mining) 21.2. Mã số: ITDM 521 21.2. Mã số: ITDM 521
21.3. Số tín chỉ: 2 tín chỉ 21.4. Người phụ trách: 21.4. Người phụ trách:
21.5. Khoa/Viện
21.6. Mục tiêu học phần:
Kiến thức: Cung cấp cho học viên những nội dung chính về lĩnh vực khai phá dữ liệu và các
ứng dụng. Những vấn đề về mơ tả (description), tổng hợp và tĩm tắt khái niệm, luật kết hợp (association rules), phân lớp và dự đốn (classification & prediction), phân cụm (clustering) và khai phá chuỗi (sequential/temporal patterns). Những vấn đề này được ứng dụng rộng rãi trong các lĩnh vực: kính doanh, y học, tài chính hay thị trường chứng khốn, .v.v
Kỹ năng: Biết cách phân tích, thiết kế và xây dựng các giải pháp khai phá dữ liệu dựa trên
các nguồn dữ liệu đã được số hĩa.
Thái độ: Cĩ thái độ, nhận thức đúng đắng về nội dung và các hoạt động nghiên cứu liên quan đến mơn học
21.7. Mơ tả học phần:
Khai phá dữ liệu được định nghĩa như là một quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu. Thuật ngữ Datamining ám chỉ việc tìm kiếm một tập hợp nhỏ cĩ giá trị từ một số lượng lớn các dữ liệu thơ. Cĩ nhiều thuật ngữ hiện được dùng cũng cĩ nghĩa tương tự với từ Datamining như Knowledge Mining (khai phá tri thức), Knowledge extraction(chắt lọc tri thức), Data/patern analysis (phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), datadredging(nạo vét dữ liệu),..Mơn học giới thiệu các khái niệm về khai phá dữ liệu, các kiểu dữ liệu trong khai phá dữ liệu, các chức năng khai phá dữ liệu, cũng như phân loại các hệ thống khai phá dữ liệu.
Chương Nội dung
Phân phối thời lượng LT (giờ) TL (giờ) BTL (giờ) TiL (giờ) TH (giờ) TN (giờ)
1 Giới thiệu chung về Khai phá
dữ liệu 2 - 2 Tiền xử lí dữ liệu 3 - 3 Khai phá luật kết hợp 4 - 4 Phân cụm 3 - 5 Phân lớp 3 - Tổng cộng 15 45
21.8. Nội dung chi tiết
71
1.1 Khái niệm phát hiện tri thức trong CSDL và KPDL 1.2 Hệ thống KPDL và hệ thống CSDL
1.3 Một số bài tốn và ứng dụng cơ bản 1.4 Sự phát triển của KPDL
Tài liệu tham khảo của chương:
[1]. Hà Quang Thụy, Bài giảng mơn học Khai phá dữ liệu, ĐHCN, ĐHQG Hà nội, 2010. [2]. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques (second edition), Morgan Kaufmann Publisher, 2006.
[3]. Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining,
Lectures, University of Minnesota, 2006.
Chương 2. Tiền xử lí dữ liệu (LT 03)
2.1 Vai trị của tiền xử lý dữ liệu 2.2 Làm sạch dữ liệu
2.3 Tích hợp và chuyển dạng dữ liệu 2.4 Rút gọn dữ liệu
2.5 Rời rạc và sinh kiến trúc khái niệm
Tài liệu tham khảo của chương:
[1]. Hà Quang Thụy, Bài giảng mơn học Khai phá dữ liệu, ĐHCN, ĐHQG Hà nội, 2010. [2]. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques (second edition), Morgan Kaufmann Publisher, 2006.
[3]. Robert Nisbet, John Elder, and Gary Miner, Handbook of Statistical Analysis and
Data Mining, Elsevier, 2009.
Chương 3. Khai phá luật kết hợp (LT 04)
3.1 Khai phá luật kết hợp (Association rule)
3.2 Các thuật tốn khai phá vơ hướng luật kết hợp (giá trị lơgic đơn chiều) trong CSDL giao dịch
3.3 Khai phá kiểu đa dạng luật kết hợp/tương quan 3.4 Khai phá kết hợp dựa theo ràng buộc
3.5 Khai phá mẫu dãy
3.6 Ứng dụng/mở rộng khai phá mẫu phổ biến
Tài liệu tham khảo của chương:
[1]. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques (second edition), Morgan Kaufmann Publisher, 2006.
[2]. Robert Nisbet, John Elder, and Gary Miner, Handbook of Statistical Analysis and
Data Mining, Elsevier, 2009. Chương 4. Phân cụm (LT 03)
4.1 Giới thiệu
4.2 Một số thuật tốn điển hình 4.3 Phương pháp đánh giá
Tài liệu tham khảo của chương:
[1]. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques (second edition), Morgan Kaufmann Publisher, 2006.
[2]. Robert Nisbet, John Elder, and Gary Miner, Handbook of Statistical Analysis and
Data Mining, Elsevier, 2009. Chương 5. Phân lớp (LT 03)
5.1 Phát biểu bài tốn
5.2 Một số thuật tốn phân lớp 5.3 Các phương pháp đánh giá
72
Tài liệu tham khảo của chương:
[1]. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques (second edition), Morgan Kaufmann Publisher, 2006.
[2]. Robert Nisbet, John Elder, and Gary Miner, Handbook of Statistical Analysis and
Data Mining, Elsevier, 2009.
Nội dung thảo luận: Theo chuyên đề của từng chương.
Nội dung bài tập lớn: Phân tích, thiết kế và cài đặt các thuật tốn điển hình trong khai phá
dữ liệu.
21.9. Tài liệu học tập và tham khảo: Tài liệu học tập Tài liệu học tập
[1]. Hà Quang Thụy, Bài giảng mơn học Khai phá dữ liệu, ĐHCN, ĐHQG Hà nội, 2010. [2]. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques (second edition), Morgan Kaufmann Publisher, 2006.
Tài liệu tham khảo
[3]. Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining,
Lectures, University of Minnesota, 2006.
[4]. Robert Nisbet, John Elder, and Gary Miner, Handbook of Statistical Analysis and
Data Mining, Elsevier, 2009.
21.10. Thang điểm: 10/10
TT Nội dung đánh giá Trọng số (%) Ghi chú
1 Điểm Kiểm tra/TL/TH/TN 20
2 Điểm /BTL/TiL 30
3 Điểm thi kết thúc học phần 50
Tổng cộng 100
21.11. Ngày phê duyệt: Cấp phê duyệt: Cấp phê duyệt:
73