1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Học máy: Bài 1 - Nguyễn Hoàng Long

78 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 78
Dung lượng 2,08 MB

Nội dung

Bài giảng Học máy - Bài 1: Giới thiệu học máy cung cấp cho người học các kiến thức cơ bản về học máy, các ứng dụng của học máy, ngôn ngữ lập trình, mô hình học máy, dự đoán và suy diễn,... Mời các bạn cùng tham khảo nội dung chi tiết.

CSE 445: Học máy (Machine Learning) Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website mơn học: https://sites.google.com/a/wru.vn/cse445fall2016 Bài giảng có sử dụng hình vẽ sách “An Introduction to Statistical Learning with Applications in R” với cho phép tác giả, có sử dụng slides khóa học CME250 ĐH Stanford IOM530 ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 Giới thiệu Học máy • Học máy (machine learning) gì? – Bao gồm trình đúc rút tri thức từ quan sát, trải nghiệm thực tiễn việc xây dựng mơ hình từ liệu – Các phương pháp học nhận dạng tự động mẫu phức tạp (complex patterns) từ liệu CSE 445: Học máy | Học kỳ 1, 2016-2017 Các ứng dụng Học máy • “Lĩnh vực nghiên cứu giúp máy tính có khả tự học khơng lập trình trước” ([A] field of study that gives computers the ability to learn without being explicitly programmed.) − Arthur Samuel (1959) CSE 445: Học máy | Học kỳ 1, 2016-2017 Các ứng dụng Học máy • AlphaGo thắng nhà vơ địch giới cờ vây CSE 445: Học máy | Học kỳ 1, 2016-2017 Các ứng dụng Học máy • Học máy sử dụng đâu? CSE 445: Học máy | Học kỳ 1, 2016-2017 Các ứng dụng Học máy • Trong hệ thống tự động định - vd: Lọc thư rác CSE 445: Học máy | Học kỳ 1, 2016-2017 Các ứng dụng Học máy • Trong hệ thống tự động định – vd: Phát gian lận “How Credit Card Companies Spot Fraud Before You Do” U.S News (July 10, 2013) CSE 445: Học máy | Học kỳ 1, 2016-2017 Các ứng dụng Học máy • Cho hệ thống tự động có lập trình phức tạp – vd: Xe không người lái Stanford Autonomous Driving Team http://driving.stanford.edu/ CSE 445: Học máy | Học kỳ 1, 2016-2017 Các ứng dụng Học máy Video: Autonomous Driving CSE 445: Học máy | Học kỳ 1, 2016-2017 Các ứng dụng Học máy • Cho hệ thống tự động có lập trình phức tạp – vd: Nhận dạng chữ viết tay LeNet Convolutional Neural Net CSE 445: Học máy | Học kỳ 1, 2016-2017 10 Bộ phân lớp K-láng giềng gần • Bộ phân lớp: Chia khơng gian thuộc tính thành nhiều vùng – Mỗi vùng gắn với nhãn lớp (class label) – Ranh giới định chia tách vùng định • Các phương pháp phân lớp xây dựng mơ hình có dạng: CSE 445: Học máy | Học kỳ 1, 2016-2017 64 Bộ phân lớp K-láng giềng gần • Bộ phân lớp KNN – Việc dự đoán lớp cho mẫu X lớp phổ biến K láng giềng gần (trong tập học) – Mơ hình phân lớp: CSE 445: Học máy | Học kỳ 1, 2016-2017 65 Bộ phân lớp K-láng giềng gần Figure 2.14, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 66 Bộ phân lớp K-láng giềng gần Lớp c1 Lớp c2 Ví dụ cần phân lớp z Xét láng giềng gần → Gán z vào lớp c2 Xét láng giềng gần → Gán z vào lớp c1 Xét láng giềng gần → Gán z vào lớp c1 Nguồn hình vẽ: Học máy, Nguyễn Nhật Quang Ví dụ tốn phân lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 67 Giải thuật phân lớp k-NN ■ Giai đoạn huấn luyện (học) •Đơn giản lưu lại mẫu tập huấn luyện ■ Giai đoạn phân lớp: Để phân lớp cho mẫu (mới) z • Với mẫu, tính khoảng cách x z • Xác định tập NB(z)– láng giềng gần z → Gồm k mẫu tập huấn luyện gần với z tính theo hàm khoảng cách d • Phân z vào lớp chiếm số đông (the majority class) số lớp mẫu NB(z) CSE 445: Học máy | Học kỳ 1, 2016-2017 68 Lựa chọn K (bộ phân lớp KNN) • K nhỏ – Ranh giới định linh hoạt hơn, nhiên dễ bị overfit • K lớn – Ranh giới định linh hoạt bị overfit • Overfitting: Cho kết tốt tập học tập thử nghiệm CSE 445: Học máy | Học kỳ 1, 2016-2017 69 Lựa chọn K (bộ phân lớp KNN) Figure 2.16, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 70 Lựa chọn K (bộ phân lớp KNN) Figure 2.17, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 71 Lựa chọn K (bộ phân lớp KNN) Figure 2.15, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 72 K-Nearest Neighbor classifier (KNN) • Ưu điểm: – Dễ cài đặt – Ít tham số mơ hình (K, distance metric) – Linh hoạt, lớp khơng phải tách tuyến tính • Nhược điểm: – Thời gian tính tốn lâu – Khá nhạy với liệu không cân – Nhạy với liệu đầu vào không liên quan với CSE 445: Học máy | Học kỳ 1, 2016-2017 73 Các dạng giải thuật học máy Yes Unsupervised What you want to predict? Do you want to group the data? Quantity Classification Logistic Regression No Supervised Category SVM Do you have labeled data? KNN Yes Regression CART Linear Regression Cluster Analysis No Dimensionality Reduction LASSO K means CSE 445: Học máy | Học kỳ 1, 2016-2017 ICA PCA 74 Giải thuật Học máy “Tốt nhất” • Tin tồi: Khơng có giải thuật tốt – Khơng có giải thuật học máy thực tốt cho tốn • Tin tốt: Tất giải thuật học máy tốt – Mỗi giải thuật học máy thực tốt cho số tốn • Định lý “No free lunch” – Wolpert (1996): giải thuật thực ta lấy trung bình kết chúng thực tất toán CSE 445: Học máy | Học kỳ 1, 2016-2017 75 Trade-offs (đánh đổi) Học máy • • • • • Bias vs variance Độ xác vs Khả diễn giải Độ xác vs Khả mở rộng giải thuật Phạm vi kiến thức vs Hướng liệu Nhiều liệu vs Giải thuật tốt CSE 445: Học máy | Học kỳ 1, 2016-2017 76 Chuẩn bị liệu • Các giải thuật học máy cần phải có liệu! • Tiền xử lý liệu để chuyển đổi liệu trước áp dụng vào giải thuật học máy – Lấy mẫu: chọn tập quan sát/mẫu – Trích chọn thuộc tính: Chọn biến đầu vào – Chuẩn hóa liệu (Normalization) (standardization, scaling, binarization) – Xử lý liệu thiếu phần tử ngoại lai (missing data and outliers) • Ngồi ra, cịn phụ thuộc vào giải thuật học máy – Cây định xử lý liệu thiếu/phần tử ngoại lai – PCA yêu cầu liệu chuẩn hóa CSE 445: Học máy | Học kỳ 1, 2016-2017 77 Các câu hỏi? CSE 445: Học máy | Học kỳ 1, 2016-2017 78 ... (recommender systems), etc CSE 445: Học máy | Học kỳ 1, 2 016 -2 017 14 CSE 445: Học máy | Học kỳ 1, 2 016 -2 017 15 Thông tin môn học CSE 445: Học máy | Học kỳ 1, 2 016 -2 017 16 Môn Học máy • Trang web: – https://sites.google.com/a/wru.vn/cse445fall2 016 ... https://piazza.com/tlu.edu.vn/fall2 016 /cse445/home CSE 445: Học máy | Học kỳ 1, 2 016 -2 017 26 CSE 445: Học máy | Học kỳ 1, 2 016 -2 017 27 Mơ hình Học máy (Machine learning Model) CSE 445: Học máy | Học kỳ 1, 2 016 -2 017 28 Mục... 26/09/2 016 - 02 /10 /2 016 – Thứ tiết 3,4 308 B5 – Thứ tiết 5,6 308 B5 – Thứ tiết 3,4 307 B5, – 03 /10 /2 016 - 09 /10 /2 016 – Thứ tiết 3,4 308 B5 – 10 /10 /2 016 - 16 /10 /2 016 – Thứ tiết 3,4 308 B5 – 17 /10 /2 016

Ngày đăng: 11/05/2021, 01:44