1. Trang chủ
  2. » Giáo án - Bài giảng

Bài giảng Hồi quy đa thức trong máy học

31 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 509,96 KB

Nội dung

Bài giảng Hồi quy đa thức trong máy học cung cấp cho người học những kiến thức như: Trực quan hóa dữ liệu; Polynomial Linear Regression; Tiền xử lý dữ liệu; Huấn luyện mô hình; Trực quan hóa kết quả;...Mời các bạn cùng tham khảo!

POLYNOMIAL REGRESSION TS Nguyễn Tấn Trần Minh Khang ThS Võ Duy Nguyên Cao học Nguyễn Hồn Mỹ Tình nguyện viên Lê Ngọc Huy Tình nguyện viên Cao Bá Kiệt TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn DATASET TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Dataset ─ Tên liệu: Position Salaries ─ Nguồn: https://www.superdatascience.com/pages/machinelearning ─ Tập liệu gồm 10 điểm liệu, điểm liệu gồm thuộc tính, gồm: + Vị trí công việc (Position): mô tả tên công việc + Cấp bậc (Level): số nguyên khoảng – 10, tương ứng với vị trí cao hay thấp công ty + Mức lương (Salary): số thực dương TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Dataset Position Level Salary Position Level Salary Business Analyst 45,000 Region Manager 150,000 Junior Consultant 50,000 Partner 200,000 Senior Consultant 60,000 Senior Partner 300,000 Manager 80,000 C-level 500,000 Country Manager 110,000 CEO 10 1,000,000 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Dataset ─ Bài toán: Dự đoán mức lương người biết cấp độ (vị trí) cơng việc người ─ Ta sử dụng đồng thời thuật toán Linear Regression thuật toán Polynomial Linear Regression cho tập liệu để so sánh hiệu suất hai mơ hình TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn TRỰC QUAN HÓA DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Trực quan hóa liệu TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Trực quan hóa liệu ─ Đọc liệu từ file csv phân tách giá trị đầu vào – ký hiệu X, giá trị đầu – ký hiệu Y import pandas as pd import numpy as np dataset = pd.read_csv("Position_Salaries.csv") X = dataset.iloc[:, 1:‐1].values Y = dataset.iloc[:, ‐1].values TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Trực quan hóa liệu ─ Ta vẽ điểm (level, salary) lên mặt phẳng tọa độ để xem xét tương quan cấp độ công việc mức lương import matplotlib.pyplot as plt plt.scatter(X, Y, color = "red") plt.title("Position Level vs Salary") plt.xlabel("Position Level") 10.plt.ylabel("Salary (dollars/year)") 11.plt.show() TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Trực quan hóa liệu ─ Tập liệu khơng tuyến tính (khơng có dạng đường thẳng) ─ Do đó, thuật tốn hồi quy tuyến tính – Linear Regression không hoạt động tốt tập liệu TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 10 Huấn luyện mơ hình ─ Trước tiên, ta huấn luyện tập liệu với mơ hình Linear Regression cách sử dụng lớp LinearRegression module sklearn.linear_model 15.from sklearn.linear_model import LinearRegression 16.lin_reg = LinearRegression() 17.lin_reg.fit(X, Y) TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 17 Huấn luyện mơ hình ─ Ta tiếp tục huấn luyện tập liệu với Polynomial Linear Regression cách đưa liệu biến đổi phép Polynomial Transform vào huấn luyện mơ hình Linear Regression 18.poly_lin_reg = LinearRegression() 19.poly_lin_reg.fit(X_poly, Y) TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 18 TRỰC QUAN HĨA KẾT QUẢ TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 19 Trực quan hóa kết TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 20 Trực quan hóa kết ─ Trực quan hóa kết sử dụng mơ hình Linear Regression 24.Y_pred = lin_reg.predict(X) 25.plt.scatter(X, Y, color = "red") 26.plt.plot(X, Y_pred, color = "blue") 27.plt.title("Position Level vs Salary") 28.plt.xlabel("Position Level") 29.plt.ylabel("Salary (dollars/year)") 30.plt.show() TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 21 Trực quan hóa kết ─ Như dự đốn, mơ hình Linear Regression hoạt động không tốt tập liệu TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 22 Trực quan hóa kết ─ Trực quan hóa kết sử dụng mơ hình Polynomial Linear Regression 31.Y_poly_pred = poly_lin_reg.predict(X_poly) 32.plt.scatter(X, Y, color = "red") 33.plt.plot(X, Y_poly_pred, color = "blue") 34.plt.title("Position Level vs Salary") 35.plt.xlabel("Position Level") 36.plt.ylabel("Salary (dollars/year)") 37.plt.show() TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 23 Trực quan hóa kết ─ Ta thấy mơ hình Polynomial Linear Regression phù hợp với tập liệu Linear Regression thông thường TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 24 Trực quan hóa kết ─ Vẽ lại đồ thị mà mơ hình Polynomial Linear Regression dự đoán 38.X_dummy = np.arange(0, 11, 0.1).reshape(‐1, 1) 39.X_dummy_poly = poly_transform.transform(X_dummy) 40.Y_dummy_poly_pred = poly_lin_reg.predict(X_dummy_poly) 41.plt.scatter(X, Y, color = "red") 42.plt.plot(X_dummy, Y_dummy_poly_pred, color = "blue") 43.plt.title("Position Level vs Salary") 44.plt.xlabel("Position Level") 45.plt.ylabel("Salary (dollars/year)") 46.plt.show() TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 25 Trực quan hóa kết TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 26 Trực quan hóa kết ─ Xây dựng hàm so sánh kết điểm liệu 47.def 48 49 50 51 52 compare(i_example): x = X[i_example : i_example + 1] x_poly = poly_transform.transform(x) y = Y[i_example] y_pred = poly_lin_reg.predict(x_poly) print(x, y, y_pred) TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 27 Trực quan hóa kết ─ Gọi hàm so sánh kết tất điểm liệu tập training 53.for i in range(len(X)): 54 compare(i) TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 28 Trực quan hóa kết Position Level Salary Predicted Salary Business Analyst 45,000 53,356 Junior Consultant 50,000 31,759 Senior Consultant 60,000 94,632 Manager 80,000 121,724 Country Manager 110,000 143,275 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 29 Trực quan hóa kết Position Level Salary Predicted Salary Region Manager 150,000 184,003 Partner 200,000 184,003 Senior Partner 300,000 289,994 C-level 500,000 528,694 CEO 10 1,000,000 988,916 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 30 Chúc bạn học tốt Thân chào tạm biệt bạn ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN TP.HCM TỒN DIỆN – SÁNG TẠO – PHỤNG SỰ TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 31 ... Regression (hay Polynomial Linear Regression) mơ hình hồi quy đa thức ─ Mơ hình Polynomial Regression đơn biến có dạng sau:

Ngày đăng: 08/08/2021, 15:25