Học Máy Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang nguyennhat@hust edu vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020 2021 1 Nội du[.]
Nhập môn Học máy Khai phá liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông Năm học 2020-2021 Nội dung môn học: ◼ Giới thiệu • Học máy • Khai phá liệu • Các framework công cụ phần mềm ◼ Tiền xử lý liệu ◼ Đánh giá hiệu hệ thống ◼ Hồi quy ◼ Phân cụm ◼ Phân lớp ◼ Phát luật kết hợp Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Học máy vs Khai phá liệu ◼ Học máy (Machine learning) vs Khai phá liệu (Data mining) ◼ Giống nhau: ❑ ❑ ◼ Cần sử dụng liệu; thường (rất) nhiều liệu Phát tri thức từ liệu (knowledge discovery from data) Khác nhau: Học máy Khai phá liệu Trọng tâm: Tập trung vào việc học (learning) hệ thống máy tính Tập trung vào việc hiểu (understanding) liệu Mục đích sử dụng: Nhằm dự đốn kết tương lai Nhằm phân tích liệu có (q khứ) Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Giới thiệu Học máy ◼ ◼ Học máy (Machine Learning – ML) lĩnh vực nghiên cứu Trí tuệ nhân tạo (Artificial Intelligence – AI) Các định nghĩa học máy → Một trình nhờ hệ thống cải thiện hiệu suất (hiệu hoạt động) [Simon, 1983] → Một q trình mà chương trình máy tính cải thiện hiệu suất cơng việc thơng qua kinh nghiệm [Mitchell, 1997] → Việc lập trình máy tính để tối ưu hóa tiêu chí hiệu suất dựa liệu ví dụ kinh nghiệm khứ [Alpaydin, 2020] ◼ Biểu diễn toán học máy [Mitchell, 1997] Học máy = Cải thiện hiệu cơng việc thơng qua kinh nghiệm • Một cơng việc (nhiệm vụ) T • Đối với tiêu chí đánh giá hiệu P • Thơng qua (sử dụng) kinh nghiệm E Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Ví dụ tốn học máy (1) Lọc thư rác (Email spam filtering) • T: Dự đốn (để lọc) thư điện tử thư rác (spam email) • P: % of thư điện tử gửi đến phân loại xác • E: Một tập thư điện tử (emails) mẫu, thư điện tử biểu diễn tập thuộc tính (vd: tập từ khóa) nhãn lớp (thư thường/thư rác) tương ứng Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Thư rác? Thư thường Thư rác Ví dụ tốn học máy (2) Phân loại trang Web (Web page categorization/ classification) ◼ T: Phân loại trang Web theo chủ đề định trước ◼ P: Tỷ lệ (%) trang Web phân loại xác ◼ E: Một tập trang Web, trang Web gắn với chủ đề Chủ đề? Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Ví dụ tốn học máy (3) Nhận dạng chữ viết tay (Handwritten characters recognition) ◼ ◼ ◼ T: Nhận dạng phân loại từ ảnh chữ viết tay Từ nào? P: Tỷ lệ (%) từ nhận dạng phân loại E: Một tập ảnh chữ viết tay, ảnh gắn với định danh từ we Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining in the right way Ví dụ tốn học máy (4) Dự đốn rủi ro cho vay tài (Loan risk estimation) al al al al al al al al al al al al al al al al al al al al • T: Xác định mức độ rủi ro (vd: cao/thấp) hồ sơ xin vay tài • P: Tỷ lệ % hồ sơ xin vay có mức độ rủi ro cao (khơng trả lại tiền vay) xác định xác • E: Một tập hồ sơ xin vay; hồ sơ biểu diễn tập thuộc tính mức độ rủi ro (cao/thấp) kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr kjasgsdfogsdjgfopjkhdr gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal gfopjkhal kj kj kj kj kj kj kj kj kj kj kj kj kj kj kj kj kj kj kj kj Rủi ro? Cao Từ chối Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Thấp Chấp nhận Các ứng dụng thành công học máy (1) ◼ Tương tác người máy ❑ Giọng nói, Cử chỉ, Hiểu ngôn ngữ, … Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các ứng dụng thành công học máy (2) ◼ Giải trí ❑ Âm nhạc, Phim ảnh, Trị chơi, Tin tức, Mạng xã hội, … Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 10 ... … Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 17 Các vấn đề Học máy (1) ◼ Giải thuật học máy (Learning algorithm) • Những giải thuật học máy học (xấp xỉ)... giải thuật học máy học (xấp xỉ) hàm mục tiêu • • • • • Phương pháp học hồi quy (Regression-based) Phương pháp học quy nạp luật (Rule induction) Phương pháp học định (ID3 C4.5) Phương pháp học lan... mining 13 Các ứng dụng thành công học máy (6) ◼ Quảng cáo Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 14 Quá trình học máy Tập học (Training set) Huấn luyện