1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Máy học nâng cao: Giới thiệu - Trịnh Tấn Đạt

41 110 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Bài giảng Máy học nâng cao: Giới thiệu đã giới thiệu chung về môn học, các nội dung, tài liệu tham khảo, hình thức đánh giá, danh sách các đề tài, các vấn đề trong máy học, trao đổi và thảo luận. Mời các bạn cùng tham khảo nội dung chi tiết.

Trịnh Tấn Đạt Khoa CNTT – Đại Học Sài Gòn Email: trinhtandat@sgu.edu.vn Website: https://sites.google.com/site/ttdat88/ Nội dung  Giới thiệu môn học  Các nội dung  Tài liệu tham khảo  Hình thức đánh giá  Danh sách đề tài  Các vấn đề máy học  Trao đổi thảo luận Giới Thiệu Môn Học  Máy học nâng cao (Advanced Machine Learning)  tín  Mơn bắt buộc  Mục tiêu:  Nâng cao kiến thức máy học, cách thức hoạt động khả ứng dụng thuật toán  Cung cấp tảng tốt suy luận thống kê cấu trúc toán học cần thiết để phục vụ cho công việc nghiên cứu khoa học  Kỹ thực hành, thiết kế thí nghiệm sử dụng ngơn ngữ Python Các Nội Dung            Giới thiệu Machine Learning vấn đề liên quan Machine Learning với Python Linear Regression/ Logistic Regression Naïve Bayes Classifier Neural Network Giới thiêu Deep Learning Clustering Giảm số chiều lựa chọn đặc trưng Support vector machine (SVM) Decision Tree Ensemble Model Tài liệu tham khảo  Slide giảng viên cung cấp  Tom Mitchell, Marchine Learning, McGraw Hill, Second Edition  C M Bishop, Pattern Recognition and Machine Learning, Springer, 2006  Sebastian Raschka, Python Machine Learning, Packt Publishing Ltd., 2015  Các nguồn khác internet  Google  Kaggle  … Hình thức đánh giá  Chuyên cần: 10%  Điểm tập: 30 %  Đánh giá cuối kỳ: Đồ án môn học 60% ❖ u cầu đồ án: tìm hiểu tốn ứng dụng liên quan đến máy học  Đọc papers, cơng trình nghiên cứu cơng bố  Lý thuyết: đọc hiểu, viết báo cáo  Cài đặt: code, data thực nghiệm, kết đánh giá  Trình bày (powerpoint): ❑ ❑ ❑ ❑ Sơ lược ý lý thuyết Ý tưởng giải quyết(thuật tốn, thuật giải) toán Kết Đánh giá kết quả: ưu – nhược điểm (lý do) ❑ Đề xuất ý tưởng cải tiến (nếu có – điểm cộng thêm) Danh sách đề tài tham khảo  ❖ o o o o o o o o o o o o Học viên có thề tự đề xuất tốn cần giải sau thảo luận với giảng viên để thống Danh sách đề tài (sẽ update thêm) Probabilistic Graphical Models: Bayesian Networks ứng dụng Gradient boosting, Xgboost ứng dụng Object detection: R-CNN, Fast R-CNN, Faster-RCNN ứng dụng Object detection: YOLO, Single Shot Detection ứng dụng Image Recognition using Deep Learning (VGG, InceptionNet, ResNet, DenseNet, …) Face Recognition using Deep Learning (FaceNet, VGGface, …) Speech/Speaker Recognition using Deep Learning Audio Event Recognition using Deep Learning LSTM ứng dụng Image Segmentation using Deep Learning (U-net, Mask-RCNN,…) Text Detector using Deep Learning (Connectionist Text Proposal Network, EAST, … ) OCR using Deep Learning o Generative Adversarial Network (GAN) ứng dụng o … Các Vấn Đề Trong Máy Học ❖ Máy học gì?  From wikipedia - Máy học lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu để giải vấn đề cụ thể  Tom Mitchell, giáo sư tiếng Đại học Carnegie Mellon University CMU định nghĩa cụ thể chuẩn mực sau: "" (máy học) Một chương trình máy tính (CT) xem học cách thực thi lớp nhiệm vụ (NV) thông qua trải nghiệm (KN), thang đo lực (NL) dùng NL ta đo thấy lực thực thi chương trình có tiến sau trải qua KN Các Vấn Đề Trong Máy Học  Các ứng dụng : Object Detection Các Vấn Đề Trong Máy Học  Các ứng dụng: Biometric recognition – face, fingerprint, iris, gait, … 10 Các Vấn Đề Trong Máy Học ❖ Giải thuật học máy (Learning algorithm)  Những giải thuật học máy học (xấp xỉ) hàm mục tiêu cần học?  Với điều kiện nào, giải thuật học máy chọn hội tụ (tiệm cận) hàm mục tiêu cần học?  Đối với lĩnh vực toán cụ thể, giải thuật học máy thực tốt nhất? 27 Các Vấn Đề Trong Máy Học ❖ Training data  Bao nhiêu mẫu dùng để huấn luyện đủ?  Kích thước, độ biến động tập huấn luyện ảnh hưởng độ xác hàm mục tiêu học được?  Các mẫu lỗi (noise, outlier) và/hoặc mẫu thiếu giá trị thuộc tính (missingvalue) ảnh hưởng độ xác? 28 Các Vấn Đề Trong Máy Học ❖ Quá trình học (Learning process)  Chiến lược tối ưu lựa chọn?  Các tham số lựa chọn có ảnh hưởng đến q trình học?  Học dừng q trình học? 29 Các Vấn Đề Trong Máy Học ❖ Khả năng/giới hạn học (Learning capability)  Hàm mục tiêu mà hệ thống cần học? Biểu diễn hàm mục tiêu: Khả biểu diễn (vd: hàm tuyến tính / hàm phi tuyến) vs Độ phưc tạp giải thuật trình học  Khả khái quát hóa (generalize) hệ thống từ mẫu học? Để tránh vấn đề “over-fitting” (đạt độ xác cao tập huấn luyện, đạt độ xác thấp tập thử nghiệm)  Khả hệ thống tự động thay đổi (thích nghi) biểu diễn (cấu trúc) bên nó? 30 Các Vấn Đề Trong Máy Học ❖ Vấn đề Over-fitting Under-fitting ❑ Over-fitting tượng mơ hình hoạt động tốt tập huấn luyện (cả liệu nhiễu, liệu bất thường tập huấn luyện chọn học để đưa quy luật mơ hình) đạt kết tập test Thường xảy mơ hình phi tham số phi tuyến, mơ hình có linh hoạt cao xây dựng hàm mục tiêu ▪ Ví dụ, tốn định thuật toán học máy phi tham số Đây thuật toán thường xảy tượng Overfitting Ta tránh tượng phương pháp cắt tỉa (pruning)  Vấn đề over-fitting thường nguyên nhân:  Lỗi (nhiễu) tập huấn luyện (do trình thu thập/xây dựng tập liệu)  Số lượng mẫu học nhỏ, không đại diện cho tồn tập (phân bố) ví dụ toán học ▪ 31 Các Vấn Đề Trong Máy Học ❖ Vấn đề Over-fitting Under-fitting ❑ Under-fitting tượng mơ hình khơng đạt độ xác cao tập huấn luyện tổng quát tập liệu Có thể hiểu mơ hình khơng học ▪ Hiện tượng Underfitting thường xảy tốn Khi Underfitting xảy ra, ta khắc phục cách thay đổi thuật toán bổ sung thêm liệu đầu vào 32 Các Vấn Đề Trong Máy Học ❖ Chuẩn bị liệu  Tiền xử lý liệu (data preprocessing) để chuẩn hóa liệu trước áp dụng vào giải thuật học máy – Lấy mẫu: chọn tập quan sát/mẫu – Trích chọn thuộc tính: Chọn biến đầu vào – Chuẩn hóa liệu (Normalization) (standardization, scaling, binarization) – Xử lý liệu thiếu phần tử ngoại lai (missing data and outliers)  Ngồi ra, phụ thuộc vào giải thuật học máy – Decision Tree, Xgboost xử lý liệu thiếu/phần tử ngoại lai – PCA, SVM, Neural Nets yêu cầu liệu chuẩn hóa 33 Các Vấn Đề Trong Máy Học  Các software frameworks nguồn tham khảo:  Python: numpy, scikit-learn  Tìm source code tham khảo: github, …  Các thư viện cho deep learning 34 Các Vấn Đề Trong Máy Học: Math Essentials  Machine learning is part of both statistics and computer science  Probability  Statistical inference  Linear Algebra  Hugely useful for compact representation of linear transformations on data transformations on data  Dimensionality reduction techniques  Optimization theory  Gradient descent  Maximum likelihood 35 Why worry about the math?  There are lots of easy-to-use machine learning packages out there (i.e module scikit-learn) class sklearn.svm.LinearSVC(penalty=’l2’, loss=’squared_hinge’, dual=True, tol=0.0001, C=1.0, multi_class=’ovr’, fit_intercept=True, intercept_scaling=1, class_weight=None, verbose=0, random_state=None, max_iter=1000)  Understand the inner workings of the individual algorithms 36 Why worry about the math?  These intuitions will allow you to:  Choose the right algorithm(s) for the problem  Make good choices on parameter settings  Recognize over- or underfitting  Troubleshoot poor / ambiguous results … 37 Probability  Random variables  Conditional probability  Expectation, Variance, Covariance  Bayes’ rule  38 Linear Algebra  Operations on or between vectors and matrices  Linear dependence and independence  Solution of linear systems of equations  Eigenvalue , eigenvector, SVD (singular value decomposition)  Dimensionality reduction 39 Optimization Theory  Lagrange multiplier  Gradient descent  Maximum likelihood … Most of the machine learning problems are, in the end, optimization problems 40 Optimization Theory 41 ...Nội dung  Giới thiệu môn học  Các nội dung  Tài liệu tham khảo  Hình thức đánh giá  Danh sách đề tài  Các vấn đề máy học  Trao đổi thảo luận Giới Thiệu Môn Học  Máy học nâng cao (Advanced... luyện 26 Các Vấn Đề Trong Máy Học ❖ Giải thuật học máy (Learning algorithm)  Những giải thuật học máy học (xấp xỉ) hàm mục tiêu cần học?  Với điều kiện nào, giải thuật học máy chọn hội tụ (tiệm... results) 17 Các Vấn Đề Trong Máy Học  Processing: - Input - Model - Output 18 Các Vấn Đề Trong Máy Học  Phân loại thuật toán: (phương pháp học)  Supervised learning (học có giám sát) : regression,

Ngày đăng: 15/05/2020, 22:41

Xem thêm:

TỪ KHÓA LIÊN QUAN