Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
724,5 KB
Nội dung
NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K57 PGS TS HÀ QUANG THỤY HÀ NỘI 09-2015 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Giới thiệu chung môn học Tên môn học: Nhập môn khai phá liệu Số tín chỉ: Tài liệu dạy - học: Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013) Giáo trình khai phá liệu (Các chương: 1-6, 10) Bài giảng: http://uet.vnu.edu.vn/~thuyhq/courses.html Tài liệu tham khảo: J Han, M Kamber, and Jian Pei (2011) Data Mining: Concepts and Techniques (3rd edition) Morgan Kaufmann Reza Zafarani, Mohammad Ali Abbasi, Huan Liu (2014) Social Media Mining: An Introduction Cambridge University Press Shamanth Kumar, Fred Morstatter, Huan Liu (2014) Twitter Data Analytics Springer Robert Nisbet, John Elder, and Gary Miner (2009) Handbook of Statistical Analysis and Data Mining, Elsevier, 2009 [WK09] Xindong Wu and Vipin Kumar (Eds), The Top Ten Algorithms in Data Mining, Chapman & Hall/CRC, 2009 Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Hà Quang Thụy, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu Web, NXBGD, 2009 Vị trí môn học CTĐT ĐH HTTT Vị trí môn học CTĐT ĐH HTTT Nội dung mục tiêu môn học Cung cấp kiến thức khai phá liệu phát tri thức: khái niệm, kiến trúc hệ thống đặc trưng; toán điển hình phân lớp, phân cụm, luật kết hợp; thuật toán Bayes, định, mạng neural Chuẩn đầu môn học: Trang tiếp Môn học NUS-SoC CS5228 Knowledge Discovery and Data Mining 13/08/13 Modular Credits: Workload: 3-0-0-3-4 Prerequisite(s): CS1231, CS3243, (CS2102 or CS2102S) and (ST1232 or ST2131 or ST2334) Preclusion(s): Nil Cross-listing(s): Nil This course introduces fundamental principles behind data mining and efficient techniques for mining large databases It provides an overview of the algorithmic aspect of data mining: its efficiency (high-dimensional database indexing, OLAP, data reduction, compression techniques) and effectiveness (machine learning involving greedy search, branch and bound, stochastic search, parameter optimisation) Efficient techniques covered include association rules mining (Apriori algorithm, correlation search, constrained association rule discovery), classifier induction (decision trees, RainForest, SLIQ; Support vector machine; Naive Bayesian; classification based on association/visualisation), cluster analysis (kmeans, k-mediods, DBSCAN, OPTICS, DENCLUE, STING, CLUSEQ, ROCK etc), and outliers/deviants detection (LOF, Distance-based outlier etc.) Chuẩn đầu môn học • • • • • • Hiểu toán khai phá liệu gì, ý nghĩa, ứng dụng Nắm bước xử lý trình khai phá liệu Hiểu toán trình tiền xử lý liệu, phương pháp xử lý tương ứng với toán Hiểu toán phân lớp, ý nghĩa, ứng dụng Hiểu, sử dụng công cụ ứng dụng phương pháp phân lớp phổ biến vào toán thực tế: Naive Bayes, Neural network, SVM, MEM, Hiểu toán phân cụm, ý nghĩa, ứng dụng Hiểu, sử dụng công cụ ứng dụng số thuật toán thông dụng vào toán thực tế như: k-mean, HAC, DIANA, … Hiểu được toán khai phá luật kết hợp, ý nghĩa, ứng dụng Hiểu sử dụng, ứng dụng vào toán thực tế Một số môn học liên quan Kho liệu: Khái niệm kho liệu, đặc trưng kho liệu (đối sánh với đặc trưng hệ sở liệu), tổ chức lưu trữ liệu theo tiếp cận chiều, kiến trúc kho liệu phương pháp luận thiết kế kho liệu, phân tích liệu trực tuyến (OLAP) Sử dụng phần mềm công cụ để thiết kế kho liệu phân tích liệu Các chủ đề đại HTTT (KPDL) Dưới hướng dẫn nhà khoa học, sinh viên làm việc theo nhóm tiến hành tìm hiểu, nghiên cứu chủ đề mang tính thời ngành Hệ thống thông tin có định hướng theo Khai phá liệu Tích hợp hệ thống Năm học 2013-2014: Khai phá quan điểm Khai phá liệu hướng lĩnh vực Khai phá liệu mang tính ứng dụng theo lĩnh vực tài chính, y học, sinh học v.v miền liệu văn (text, web, social media ), trọng tới tri thức miền ứng dụng, mô hình liệu đặc thù cho lĩnh vực phương pháp khai phá liệu phù hợp với lĩnh vực Tổ chức dạy - học Hình thức dạy-học: - Giáo viên trình bày: 9-10 buổi - Sinh viên trình bày tiểu luận: 5-6 buổi Robert Nisbet, John Elder, and Gary Miner (2009) Handbook of Statistical Analysis and Data Mining, Elsevier, 2009 Hình thức đánh giá khung điểm - Đánh giá thường xuyên: điểm + Tiểu luận làm tập theo tiểu luận: 2.5 + Chuyên cần đóng góp xây dựng bài: 1.5 (nếu vượt 1.5 chuyển sang điểm tiểu luận song tổng ≤ 4.0) + Mỗi ý kiến đóng góp: 0.1, lớp trưởng: 0.2-0.3 + Một số điểm cộng, trừ khác - Thi cuối kỳ: điểm (luận trắc nghiệm) Thời gian dự kiến: 15 tuần (09/9/2015- 23/12/2015) Nội dung làm việc nhóm tiểu luận Nhóm tiểu luận - Mỗi nhóm có khoảng sinh viên, có nhóm trưởng - Chịu trách nhiệm nội dung tài liệu Nội dung công việc - Đọc nắm bắt nội dung - Làm (nộp) thuyết trình nội dung phân công - Trình bày thuyết trình trả lời câu hỏi - Khuyến khích tìm tài liệu tham khảo mở rộng nội dung Trình bày thuyết trình - Mọi sinh viên nhóm trình bày phần nội dung - Thời gian: 15 phút cho trình bày + 10 phút cho trả lời - Mọi sinh viên khác đặt câu hỏi: Đặt câu hỏi tính điểm chuyên cần Giới thiệu sơ ngành CNTT Sự phát triển khung chương trình đào tạo CNTT ACM/IEEE/AIS http://www.acm.org/education/education/curricula-recommendations 10 Giới thiệu sơ ngành CNTT Phân biệt khung chương trình đào tạo CNTT ACM/IEEE/AIS Từ trái → phải: từ sáng tạo nguyên lý lý thuyết → cấu hình triển khai ứng dụng Từ thấp ↑ cao: Phần cứng kiến trúc máy tính → Hạ tầng hệ thống → Phương pháp công nghệ phần mềm → Công nghệ ứng dụng → Vấn đề tổ chức hệ 11 thống thông tin Vị trí môn học CTĐT ĐH HTTT 12 Tư liệu Thư viện 13 Tư liệu Thư viện 14