CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ KHOA CÔNG NGHỆ THÔNG TIN Độc lập – Tự – Hạnh phúc ĐỀCƯƠNG CHI TIẾT HỌC PHẦN: KHAIPHÁDỮLIỆU Thông tin giảng viên học phần STT Họ tên Chức danh, Địa học vị liên hệ Điện thoại/Email Ghi Hà Quang Thụy PGS.TS BM HTTT thuyhq@vnu.edu.vn Trưởng học phần Nguyễn Trí Thành PGS.TS BM HTTT ntthanh@vnu.edu.vn Giảng viên Phan Xuân Hiếu TS BM HTTT hieupx@vnu.edu.vn Giảng viên Thông tin chung học phần - Tên học phần: Khaipháliệu (Data Mining) - Mã số học phần: INT 6123 - Số tiń chi:̉ - Giờ tín hoạt động (LT/ThH/TH): 30/0/15 - Học phần tiên quyết: - Các yêu cầu học phần (nếu có): - Bộ mơn, Khoa phụ trách học phần: Bộ môn Hệ thống thông tin, Khoa CNTTT Mục tiêu học phần Cung cấp cho sinh viên kiến thức kỹ sau: Về kiến thức: Hiểu phân biệt khái niệm liệu, thông tin, tri thức Hiểu vai trò tri thức tổ chức kinh tế Nắm bắt nội dung bước trình phát tri thức từ liệu Phân biệt phương pháp khaipháliệu (KPDL) với phương pháp xử lý liệu truyền thống Hiểu vai trò đặc biệt chuyên gia miền ứng dụng, người sử dụng trình KPDL Hiểu lý phương pháp KPDL giải thích phương pháp khơng thích hợp tiếp cận truyền thống Biết xu phát triển đại KPDL; Hiểu vận dụng (i) phương pháp hiểu liệu; (ii) toán phương pháp tiền xử lý liệu; (iii) thuật toán khaiphá luật kết hợp điển hình; (iv) thuật tốn phân cụm điển hình; (v) thuật tốn phân lớp điển hình; (vi) lỗi điển hình thực dự án KPDL phương hướng khắc phục; (vii) vài nguồn tài nguyên điển hình KPDL Về kỹ năng: + Phát biểu toán KPDL thực tiễn thiết kế mơ hình giải toán, + Khai thác tài nguyên KPDL để giải tốn KPDL cụ thể có quy mơ nhỏ + Ứng dụng kiến thức học để cài đặt/ứng dụng giải thuật phù hợp với tốn thực tế tìm hiểu Chuẩn đầu 4.1 Chuẩn đầu học phần thể chuẩ n đầ u chương trình Về kiến thức: - Xu hướng CNTT Quản lý HTTT tính lãnh đạo Quản lý liệu thơng tin Phân tích thiết kế hệ thống - Quản lý dự án HTTT Về kỹ năng: Kỹ tìm kiếm, cập nhật, tổng hợp, khai thác thơng tin Kỹ thiết kế hội để cải tiến tổ chức dựa CNTT (Hình thành ý tưởng) Kỹ Thiết kế thi hành giải pháp HTTT (Thiết kế thi hành) Kỹ Quản lý hoạt động CNTT diễn (Vận hành) Kỹ lập luận tư giải vấn đề ỹ nghiên cứu khám phá tri thức Kỹ tư theo hệ thống Hiểu bối cảnh xã hội ngoại cảnh Hiểu bối cảnh tổ chức Năng lực vận dụng kiến thức kỹ vào thực tiễn Năng lực sáng tạo, phát triển dẫn dắt thay đổi Các kỹ cá nhân: Tư sáng tạo; Kỹ phê phán, phản biện; Cập nhật giới công nghệ; Quản lý tài nguyên thời gian cá nhân; Kỹ học suốt đời Tích hợp tri thức - Làm việc theo nhóm: Tạo lập nhóm; Hoạt động nhóm; Phát triển tiến hóa nhóm; Lập nhóm đa ngành nhóm kỹ thuật - Kỹ giao tiếp: Đặt câu hỏi, lắng nghe hội thoại chủ đề HTTT - Kỹ giao tiếp sử dụng ngoại ngữ: Nắm vững thuật ngữ tiếng Anh KPDL biết phiên tiếng Việt phổ biến; dịch tài liệu tiếng Anh KPDL - Các kỹ mềm khác: Đương đầu với thách thức, rủi ro; Thích nghi đa văn hóa 4.2 Chuẩn đầu chi tiết cho nội dung học phần - Sau hoàn thành học phần, sinh viên Về kiến thức: - - Nắm khái niệm khaipháliệu – xu CNTT, vai trò ứng dụng khaipháliệu tương lai KPDL bước phát triển công nghệ CSDL; công nghệ tri thức kinh tế; xu hướng KPDL Quản lý HTTT tính lãnh đạo: Kinh tế tri thức, Cơng nghệ Tri thức hỗ trợ định Quản lý liệu thông tin: Hiểu liệu, chuẩn bị liệu, trình diễn liệu mẫu KPDL Các bước xử lý khaipháliệu Các loại tốn điển hình khaipháliệu - Các giải thuật giải toán khaipháliệu Phân tích thiết kế hệ thống: Thiết kế cài đặt, triển khai giải pháp KPDL - Quản lý dự án HTTT: Dự án KPDL Về kỹ Ứng dụng kiến thức học cộng với kỹ mềm liệt kê để xây dựng, triển khaidự án khaipháliệu miền liệu cụ thể theo nhóm 3-4 học viên: - Phân tích để hiểu tốn, sở hiểu liệuđề bước tiền xử lý phù hợp như: tích hợp liệu, làm liệu, chuyển đổi liệu - Xác định toán khaiphá phù hợp như: phân cụm, phân lớp, hay luật kết hợp, - Xác định giải thuật phù hợp để xử lý toán - Đánh giá kết thu đề xuất giải pháp ứng dụng - Viết báo cáo trình bày Tóm tắ t nơ ̣i dung học phần Giới thiệu học phần; Giới thiệu khaiphá liệu; Công nghệ tri thức phát tri thức từ liệu; Hiểu liệu tiền xử lý liệu; Khaiphá luật kết hợp; Phân cụm liệu; Phân lớp liệu; Tài nguyên cho khaiphá liệu; Xu khaipháliệu Nô ̣i dung chi tiế t học phần Chương Giới thiệu khaipháliệu 1.1 Giới thiệu học phần 1.2 Nhu cầu phát tri thức từ liệu 1.3 Quá trình phát tri thức Cơ sở liệu (KDD) 1.4 Khaipháliệu xử lý CSDL truyền thống 1.5 Kiểu liệu KPDL 1.6 Một số lĩnh vực ứng dụng KPDL điển hình 1.7 Các tốn KPDL điển hình 1.8 Tính liên ngành KPDL Chương Chuẩn bị liệu 2.1 Giới thiệu 2.2 Hiểu liệu 2.3 Tiền xử lý liệu 2.4 Làm liệu 2.5 Tích hợp liệu 2.6 Chuyển đổi liệu 2.7 Thu gọn liệu Chương Phân cụm liệu 3.1 Giới thiệu 3.2 Một số độ đo dùng phân cụm 3.3 Thuật toán phân cụm phẳng 3.4 3.5 3.6 3.7 3.8 Thuật toán phân cụm phân cấp Thuật toán phân cụm dựa mật độ Thuật tốn phân cụm dựa mơ hình Đánh giá thuật toán phân cụm Một số thuật toán phân cụm nâng cao Chương Phân lớp liệu 4.1 Giới thiệu 4.2 Thuật toán phân lớp định 4.3 Đánh giá thuật toán phân lớp 4.4 Thuật toán phân lớp Naive Bayes 4.5 Thuật toán phân lớp máy vector hỗ trợ 4.6 Thuật toán phân lớp k-NN 4.7 Một số ứng dụng thuật toán phân lớp 4.8 Phân lớp bán giám sát Chương Phát luật kết hợp 5.1 Giới thiệu luật kết hợp 5.2 Phương pháp khaiphá tập mục phổ biến 5.3 Thuật toán FP-Growth 5.4 Một số ứng dụng luật kết hợp 5.5 Một số thuật toán song song 5.6 Khaiphá mẫu kết hợp nâng cao Chương Một số hướng khaipháliệu nâng cao (học viên chọn chủ đềđể tự nghiên cứu) 6.1 Khaipháliệu dòng 6.2 Khaipháliệu time-serie 6.3 Khaiphá mạng xã hội 6.4 Khaiphá đồ thị, 6.5 Khaipháliệu bảo vệ tính riêng tư 6.6 Khaipháliệu web Học liệu 7.1 Học liệu bắt buộc [1] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013) Giáo trình khaipháliệu (Các chương: 1-6, 10) NXB ĐHQGHN [2] J Han, M Kamber, and Jian Pei (2011) Data Mining: Concepts and Techniques (3rd edition) Morgan Kaufmann 7.2 Học liệu tham khảo Robert Nisbet, John Elder, and Gary Miner (2009) Handbook of Statistical Analysis and Data Mining, Elsevier [4] Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Hà Quang Thụy, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khaipháliệu Web, NXBGD Hình thức tổ chức dạy học [3] 8.1 Phân bổ lịch trình giảng dạy học kỳ (15 tuần) Lý thuyết Từ tuần … đến tuần… 1-15 Thực hành 5-15 Tự học bắt buộc 1-15 Hình thức dạy Số tiết/tuần Địa điểm Giảng đường Tự thực hành nhà theo dẫn giảng viên (khơng tính học phần) Tự làm tiểu luận, dự án nhà, phòng thí nghiệm 8.2 Lịch trình dạy cụ thể Tuần 1-2 3-4 Nội dung giảng dạy lý thuyết/thực hành Chương Giới thiệu học phần; Giới thiệu KPDL: Nhu cầu phát tri thức từ liệu; Quá trình phát tri thức CSDL Chương Chuẩn bị liệu: Hiểu liệu; Tiền xử lý liệu; Làm liệu; Chuẩn bị liệu (tiếp): Tích hợp liệu; Chuyển đổi liệu; Thu gọn liệu; Nội dung sinh viên tự học Đọc chương học liệu bắt buộc [1,2] Đọc chương HLBB [1] chương HLBB [2] 5-6 Chương Phân cụm: Giới thiệu; Một số Đọc chương HLBB [1] độ đo dùng phân cụm; Thuật chương 10 HLBB [2] toán phân cụm phẳng; Thuật toán phân cụm phân cấp; Thuật toán phân cụm dựa mật độ; Thuật toán phân cụm dựa mơ hình; Đánh giá phân cụm 7-8 Chương Phân lớp: Giới thiệu; Thuật Đọc chương HLBB [1] toán phân lớp định; Đánh giá chương 8, HLBB [2] thuật toán phân lớp; Thuật toán phân lớp Naive Bayes; Thuật toán phân lớp máy vector hỗ trợ; Thuật toán phân lớp k-NN; Một số ứng dụng thuật toán phân lớp; Phân lớp bán giám sát 9-10 Chương Phát luật kết hợp: Giới Đọc chương HLBB [1] thiệu luật kết hợp, Phương pháp khai chương 6,7 HLBB [2] phá tập mục phổ biến; Thuật toán FPGrowth; Một số ứng dụng luật kết hợp; Một số thuật toán song song; Khaiphá mẫu kết hợp nâng cao Học viên làm tiểu luận dự án 11-13 14-15 Học viên trình bày dự án Tự đọc tài liệu liên quan đến chủ đề chọn Tự lập trình ứng dụng giải thuật khaiphá vào tốn thực tế chọn 9 Chính sách học phần yêu cầu khác giảng viên - Khuyến khích sinh viên tham gia xây dựng học theo nhiều hình thức (i) trả lời câu hỏi lớp, (ii) đặt câu hởi, nêu vấn đề liên quan nội dung học, (iii) hình thức khác tăng cường chất lượng học tập chung lớp (chuyên cần học, tạo môi trường học tập…) 10 Phương pháp, hình thức kiểm tra, đánh giá kết học tập học phần 10.1 Mục đích trọng số kiểm tra, đánh giá Hình thức Tiểu luận Phương pháp Đánh giá báo cáo Mục đích Trọng số Đánh giá khả tự nghiên 25% cứu Đánh giá tinh thần, thái độ làm việc (bao gồm làm việc nhóm); Đánh giá lực phát vấn đề, phân tích 15% lựa chọn giải pháp sinh viên Số lượng buổi tham dự lớp, thái độ học lớp làm tiểu luận nhà; Số lượng (i) trả lời Chuyên cần câu hỏi giáo viên, (ii) câu hỏi tốt mà sinh viên đặt nội dung giảng chất lượng giải tập/tiểu luận Chấm dự án Đánh giá khả ứng dụng Thi kết thúc kiến thức vào toán học phần thực tế Tổng 60% 100% 10.2 Tiêu chí đánh giá - Tiêu chí đánh giá cụ thể với đầu điểm học phần: Chuyên cần tham gia xây dựng học: Số lượng buổi tham dự lớp, thái độ học lớp Số lượng chất lượng câu hỏi, câu trả lời sinh viên buổi học lớp; Tiểu luận: chất lượng tiểu luận Kết thúc môn: ứng dụng giải thuật khaipháliệu học vào toán thực tế nhỏ - Cụ thể việc đánh giá kiến thức, kỹ sinh viên theo mức đáp ứng chuẩn đầu ra, mức khá, mức giỏi, mức trung bình: Giỏi: Mọi yêu cầu kiến thức, kỹ phẩm chất học phần (mục Chuẩn đầu học phần) đảm bảo; Khá: Mọi yêu cầu kiến thức kỹ bậc 1, học phần đảm bảo yêu cầu bậc đảm bảo bậc 2; Trung bình: Mọi yêu cầu kiến thức, kỹ phẩm chất học phần đảm bảo bậc nửa yêu cầu bậc 2,3 đảm bảo bậc 10.3 Lịch thi kiểm tra Hình thức thi kiểm tra Thời gian Nộp Tiểu luận Tuần 13 Trình bày dự án Tuần 14-15 Hà Nội, ngày ….tháng … năm 2016 Duyệt Ban Giám hiệu KT Chủ nhiêm ̣ Khoa P Chủ nhiệm Khoa Chủ nhiêm ̣ Bô ̣ mơn Trương Ninh Thuận Nguyễn Ngọc Hóa ... số hướng khai phá liệu nâng cao (học viên chọn chủ đề để tự nghiên cứu) 6.1 Khai phá liệu dòng 6.2 Khai phá liệu time-serie 6.3 Khai phá mạng xã hội 6.4 Khai phá đồ thị, 6.5 Khai phá liệu bảo... liệu tiền xử lý liệu; Khai phá luật kết hợp; Phân cụm liệu; Phân lớp liệu; Tài nguyên cho khai phá liệu; Xu khai phá liệu Nô ̣i dung chi tiế t học phần Chương Giới thiệu khai phá liệu 1.1 Giới... định Quản lý liệu thông tin: Hiểu liệu, chuẩn bị liệu, trình diễn liệu mẫu KPDL Các bước xử lý khai phá liệu Các loại tốn điển hình khai phá liệu - Các giải thuật giải toán khai phá liệu Phân tích