1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÀI GIẢNG GIỚI THIỆU MÁY HỌC NÂNG CAO

41 40 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 41
Dung lượng 1,42 MB

Nội dung

Trịnh Tấn Đạt Khoa CNTT – Đại Học Sài Gòn Email: trinhtandat@sgu.edu.vn Website: https://sites.google.com/site/ttdat88/ Nội dung  Giới thiệu môn học  Các nội dung  Tài liệu tham khảo  Hình thức đánh giá  Danh sách đề tài  Các vấn đề máy học  Trao đổi thảo luận Giới Thiệu Môn Học  Máy học nâng cao (Advanced Machine Learning)  tín  Mơn bắt buộc  Mục tiêu:  Nâng cao kiến thức máy học, cách thức hoạt động khả ứng dụng thuật toán  Cung cấp tảng tốt suy luận thống kê cấu trúc toán học cần thiết để phục vụ cho công việc nghiên cứu khoa học  Kỹ thực hành, thiết kế mô thực nghiệm Các Nội Dung  Giới thiệu Machine Learning vấn đề liên quan  Linear Regression/ Logistic Regression  Naïve Bayes Classifier  Neural Network  Giới thiêu Deep Learning  Clustering  Giảm số chiều lựa chọn đặc trưng  Support vector machine (SVM)  Ensemble Model Tài liệu tham khảo  Slide giảng viên cung cấp  Tom Mitchell, Marchine Learning, McGraw Hill, Second Edition  C M Bishop, Pattern Recognition and Machine Learning, Springer, 2006  Sebastian Raschka, Python Machine Learning, Packt Publishing Ltd., 2015  Các nguồn khác internet  Google  Kaggle  … Hình thức đánh giá  Chuyên cần: 10%  Điểm trình (báo cáo đề tài): 30%  Soạn slide giảng  Thuyết trình giảng trước lớp (30 phút đến 60 phút)  Chương trình demo mơ phương pháp/thuật tốn trình bày  Thi cuối kỳ (đề mở - tự luận): 60%  Điểm thưởng (+): phát biểu, giải tập, đặt câu hỏi cho nhóm thuyết trình, Danh sách chủ đề báo cáo  Học viên đăng ký số đề tài sau đây: K-Nearest Neighbors Decision Tree Density-based algorithms - Thuật toán DBSCAN Spectral clustering Convolutional Neural Network Recurrent Neural Network: Long Short Term Memory (LSTM) Gradient Boosting algorithms-XGBoost Factor Analysis Regularization Algorithms 10 Probabilistic Graphical Models: Bayesian Networks 11 Probabilistic Graphical Models: Markov Random Fields Các Vấn Đề Trong Máy Học  Máy học gì?  From wikipedia - Máy học lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu để giải vấn đề cụ thể  Tom Mitchell, giáo sư tiếng Đại học Carnegie Mellon University CMU định nghĩa cụ thể chuẩn mực sau: "" (máy học) Một chương trình máy tính (CT) xem học cách thực thi lớp nhiệm vụ (NV) thông qua trải nghiệm (KN), thang đo lực (NL) dùng NL ta đo thấy lực thực thi chương trình có tiến sau trải qua KN Các Vấn Đề Trong Máy Học  Các ứng dụng : Object Detection Các Vấn Đề Trong Máy Học  Các ứng dụng: Biometric recognition – face, fingerprint, iris, gait, … 10 Các Vấn Đề Trong Máy Học  Giải thuật học máy (Learning algorithm)  Những giải thuật học máy học (xấp xỉ) hàm mục tiêu cần học?  Với điều kiện nào, giải thuật học máy chọn hội tụ (tiệm cận) hàm mục tiêu cần học?  Đối với lĩnh vực toán cụ thể, giải thuật học máy thực tốt nhất? 27 Các Vấn Đề Trong Máy Học  Training data  Bao nhiêu mẫu dùng để huấn luyện đủ?  Kích thước, độ biến động tập huấn luyện ảnh hưởng độ xác hàm mục tiêu học được?  Các mẫu lỗi (noise, outlier) và/hoặc mẫu thiếu giá trị thuộc tính (missingvalue) ảnh hưởng độ xác? 28 Các Vấn Đề Trong Máy Học  Quá trình học (Learning process)  Chiến lược tối ưu lựa chọn?  Các tham số lựa chọn có ảnh hưởng đến q trình học?  Học dừng q trình học? 29 Các Vấn Đề Trong Máy Học  Khả năng/giới hạn học (Learning capability)  Hàm mục tiêu mà hệ thống cần học? Biểu diễn hàm mục tiêu: Khả biểu diễn (vd: hàm tuyến tính / hàm phi tuyến) vs Độ phưc tạp giải thuật trình học  Khả khái quát hóa (generalize) hệ thống từ mẫu học? Để tránh vấn đề “over-fitting” (đạt độ xác cao tập huấn luyện, đạt độ xác thấp tập thử nghiệm)  Khả hệ thống tự động thay đổi (thích nghi) biểu diễn (cấu trúc) bên nó? 30 Các Vấn Đề Trong Máy Học  Vấn đề Over-fitting Under-fitting  Over-fitting tượng mơ hình hoạt động tốt tập huấn luyện (cả liệu nhiễu, liệu bất thường tập huấn luyện chọn học để đưa quy luật mơ hình) đạt kết tập test Thường xảy mơ hình phi tham số phi tuyến, mơ hình có linh hoạt cao xây dựng hàm mục tiêu  Ví dụ, tốn định thuật toán học máy phi tham số Đây thuật toán thường xảy tượng Overfitting Ta tránh tượng phương pháp cắt tỉa (pruning)  Vấn đề over-fitting thường nguyên nhân:  Lỗi (nhiễu) tập huấn luyện (do trình thu thập/xây dựng tập liệu)  Số lượng mẫu học nhỏ, không đại diện cho toàn tập (phân bố) ví dụ tốn học  31 Các Vấn Đề Trong Máy Học  Vấn đề Over-fitting Under-fitting  Under-fitting tượng mơ hình khơng đạt độ xác cao tập huấn luyện tổng quát tập liệu Có thể hiểu mơ hình khơng học  Hiện tượng Underfitting thường xảy tốn Khi Underfitting xảy ra, ta khắc phục cách thay đổi thuật toán bổ sung thêm liệu đầu vào 32 Các Vấn Đề Trong Máy Học  Chuẩn bị liệu  Tiền xử lý liệu (data preprocessing) để chuẩn hóa liệu trước áp dụng vào giải thuật học máy – Lấy mẫu: chọn tập quan sát/mẫu – Trích chọn thuộc tính: Chọn biến đầu vào – Chuẩn hóa liệu (Normalization) (standardization, scaling, binarization) – Xử lý liệu thiếu phần tử ngoại lai (missing data and outliers)  Ngồi ra, cịn phụ thuộc vào giải thuật học máy – Decision Tree, Xgboost xử lý liệu thiếu/phần tử ngoại lai – PCA, SVM, Neural Nets yêu cầu liệu chuẩn hóa 33 Các Vấn Đề Trong Máy Học  Các software frameworks nguồn tham khảo:  Python: numpy, scikit-learn  Tìm source code tham khảo: github, …  Các thư viện cho deep learning 34 Các Vấn Đề Trong Máy Học: Math Essentials  Machine learning is part of both statistics and computer science  Probability  Statistical inference  Linear Algebra  Hugely useful for compact representation of linear transformations on data transformations on data  Dimensionality reduction techniques  Optimization theory  Gradient descent  Maximum likelihood 35 Why worry about the math?  There are lots of easy-to-use machine learning packages out there (i.e module scikit-learn) class sklearn.svm.LinearSVC(penalty=’l2’, loss=’squared_hinge’, dual=True, tol=0.0001, C=1.0, multi_class=’ovr’, fit_intercept=True, intercept_scaling=1, class_weight=None, verbose=0, random_state=None, max_iter=1000)  Understand the inner workings of the individual algorithms 36 Why worry about the math?  These intuitions will allow you to:  Choose the right algorithm(s) for the problem  Make good choices on parameter settings  Recognize over- or underfitting  Troubleshoot poor / ambiguous results … 37 Probability  Random variables  Conditional probability  Expectation, Variance, Covariance  Bayes’ rule  38 Linear Algebra  Operations on or between vectors and matrices  Linear dependence and independence  Solution of linear systems of equations  Eigenvalue , eigenvector, SVD (singular value decomposition)  Dimensionality reduction 39 Optimization Theory  Lagrange multiplier  Gradient descent  Maximum likelihood … Most of the machine learning problems are, in the end, optimization problems 40 Optimization Theory 41 ...Nội dung  Giới thiệu môn học  Các nội dung  Tài liệu tham khảo  Hình thức đánh giá  Danh sách đề tài  Các vấn đề máy học  Trao đổi thảo luận Giới Thiệu Môn Học  Máy học nâng cao (Advanced... luyện 26 Các Vấn Đề Trong Máy Học  Giải thuật học máy (Learning algorithm)  Những giải thuật học máy học (xấp xỉ) hàm mục tiêu cần học?  Với điều kiện nào, giải thuật học máy chọn hội tụ (tiệm... Sentiment Analysis 15 Các Vấn Đề Trong Máy Học  Các ứng dụng : Credit scoring 16 Các Vấn Đề Trong Máy Học  Tại cần máy học ?  Một vài lý cần tới máy học để giải quyết:  hard to code up a

Ngày đăng: 16/05/2021, 17:55

TỪ KHÓA LIÊN QUAN

w