1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Máy học nâng cao: Logistic regression - Trịnh Tấn Đạt

27 44 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,87 MB

Nội dung

Bài giảng Máy học nâng cao: Logistic regression cung cấp cho người học các kiến thức: Khái niệm hồi qui logistic (Logistic Regression), mô hình hóa, sigmoid function, logistic regression và bài toán phân loại 2 lớp,... Mời các bạn cùng tham khảo.

Trịnh Tấn Đạt Khoa CNTT – Đại Học Sài Gòn Email: trinhtandat@sgu.edu.vn Website: https://sites.google.com/site/ttdat88/ Nội dung  Khái niệm hồi qui logistic (Logistic Regression)  Mơ hình hóa  Sigmoid function  Logistic Regression toán phân loại lớp  Logistic Regression dùng SGD  Mở rộng  Bài Tập Logistic Regression  Phương pháp hồi quy logistic mơ hình hồi quy nhằm dự đốn output rời rạc (discrete target variable) y ứng với vector input x  Việc tương đương với chuyện phân loại x vào nhóm y tương ứng  Thường dùng binary classification Có thể mở rộng cho multiclass (softmax regression) Logistic Regression  Ví dụ: Ngân hàng có chương trình cho vay ưu đãi cho đối tượng mua chung cư Số lượng hồ sơ gửi 1000-2000 hồ sơ ngày  Input: mức lương thời gian công tác  Output: cho vay từ chối thời kỳ khó khăn nên việc cho vay bị thắt lại, hồ sơ chắn 80% vay cần tìm xác xuất nên cho hồ sơ vay Logistic Regression  Modeling: Linear Regression: Output logistic regression thường viết chung dạng: Trong θ gọi logistic function Tổng quát θ(.) gọi activation function (hàm kích hoạt) Logistic Regression  Ví dụ: Một số activation function phổ biến Logistic Regression  Sigmoid function  Ví dụ: cần tìm xác xuất hồ sơ nên cho vay Hay giá trị hàm cần khoảng [0,1] Rõ ràng giá trị phương trình đường thẳng trước ngồi khoảng [0,1] nên cần hàm ln có giá trị khoảng [0,1] Logistic Regression  Sigmoid function  bị chặn khoảng (0,1)  có đạo hàm điểm (có thể áp dụng gradient descent) Logistic Regression ❑ Modeling:  Xem xét toán binary classification (phân loại lớp, 1)  Giả sử xác suất để điểm liệu x rơi vào  class  class  Dựa vào liệu training (đã biết output y input x), ta viết sau hiểu xác suất xảy kiện đầu yi=1 biết tham số mơ hình w liệu đầu vào xi Logistic Regression ❑ Modeling:  Goal: tìm hệ số w cho f(wTxi) gần với tốt với điểm liệu thuộc class gần với tốt với điểm thuộc class  Ví dụ : Nếu f(wTxi)   xi  class Nếu f(wTxi) <  xi  class Logistic Regression ❑ Modeling:  Quan sát:  N >> : tích NN số nhỏ dẫn tới sai số tính tốn (numerial error) tích số q nhỏ  Dùng logarit likelihood function tránh việc số nhỏ Logistic Regression ❑ Modeling:  Loss function (hàm chi phí, hàm mát) định nghĩa zi hàm số w,  Dấu “ - ” để chuyển toán maximum likelihood estimation dạng miniminze loss function Logistic Regression  Ví dụ yi =1 J = - log(zi) loss function trường hợp yi = loss function trường hợp yi = Logistic Regression  Optimize loss function: sử dụng phương pháp Stochastic Gradient Descent (SGD)  Xem xét : Loss function với điểm liệu (xi,yi) Đạo hàm theo w: (dựa vào chain rule) Logistic Regression  Dựa vào sigmoid function Khi đó: zi = 1+ e − wT xi zi = zi (1 − zi ) w Logistic Regression  Công thức cập nhật (theo thuật toán Stochastic Gradient Descent (SGD) cho logistic regression Trong đó: zi = 1+ e − wT xi Logistic Regression dùng SGD  Khởi tạo ngẫu nhiên giá trị w0:  Tính loss function  Lặp (cho đến loss hội tụ số lượng vòng lặp vượt ngưỡng) { Đối với sample training data Cập nhật } Logistic Regression ❑ Tính chất:  Logistic Regression sử dụng nhiều toán Classification  Việc xác định class y cho điểm liệu x xác định việc so sánh hai biểu thức xác suất  Nếu biết xi w , cơng thức xác suất tính dựa vào sigmoid function P( yi = | w; xi ) = f ( w xi ) = T 1+ e − wT xi Logistic Regression ❑ Tính chất:  Boundary tạo Logistic Regression có dạng tuyến tính boundary hai class đường có phương trình wTx ( cịn gọi hyperplane) Mở Rộng  Multi-class classification Mở Rộng  One-vs-all (one-vs rest) Tìm hiểu thêm  Softmax Regression (Multi-class classification) Bài Tập 1) Dựa đoán trúng tuyển đại học dựa vào điểm thi Cài đặt chương trình demo python mơ thuật tốn Logistic Regression (dùng thư viện scikitlearn) Data:  marks of two exams for 100 applicants  means the applicant was admitted to the university  means the applicant didn't get an admission Bài Tập 2) Phân lại hoa dùng thuật toán Logistic Regression https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html  Phân loại hoa ... niệm hồi qui logistic (Logistic Regression)  Mơ hình hóa  Sigmoid function  Logistic Regression toán phân loại lớp  Logistic Regression dùng SGD  Mở rộng  Bài Tập Logistic Regression ... One-vs-all (one-vs rest) Tìm hiểu thêm  Softmax Regression (Multi-class classification) Bài Tập 1) Dựa đoán trúng tuyển đại học dựa vào điểm thi Cài đặt chương trình demo python mơ thuật tốn Logistic. .. vay Logistic Regression  Modeling: Linear Regression: Output logistic regression thường viết chung dạng: Trong θ gọi logistic function Tổng quát θ(.) gọi activation function (hàm kích hoạt) Logistic

Ngày đăng: 26/10/2020, 14:32

TỪ KHÓA LIÊN QUAN