Bài giảng Hồi quy tuyến tính đa biến cung cấp cho người học những kiến thức như: Tiền xử lý dữ liệu; Huấn luyện dữ liệu; Kiểm tra kết quả mô hình;...Mời các bạn cùng tham khảo!
MULTIPLE LINEAR REGRESSION HỒI QUI TUYẾN TÍNH ĐA BIẾN TS Nguyễn Tấn Trần Minh Khang ThS Võ Duy Ngun Cao học Nguyễn Hồn Mỹ Tình nguyện viên Lê Ngọc Huy Tình nguyện viên Cao Bá Kiệt TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn DATASET TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Dataset ─ Tên tập liệu: 50 Startups ─ Nguồn: https://www.superdatascience.com/pages/machinelearning TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Dataset ─ Tập liệu gồm 50 điểm liệu, điểm liệu gồm thuộc tính: + R&D Spend: Số tiền chi trả cho nghiên cứu phát triển + Administrator: Số tiền chi trả cho quản trị điều hành + Marketing Spend: Số tiền chi trả cho quảng cáo + State: Là chuỗi ký tự, đại diện cho bang mà công ty khởi nghiệp + Profit: Là số thực dương, đại diện cho lợi nhuận thu startup TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Dataset ─ Bài toán đặt cho kiện về: + Số tiền chi trả cho nghiên cứu phát triển + Số tiền chi trả cho quản trị điều hành + Số tiền dành cho quảng cáo + Vị trí (bang - state) startup Ta cần dự đoán lợi nhuận (profit) mà startup thu TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Dataset STT R&D Administator Spend 165,349.2 136,897.8 162,597.7 151,377.59 153,441.51 101,145.55 144,372.41 118,671.85 142,107.34 91,391.77 131,876.9 99,814.71 Marketing Spend 471,784.1 443,898.53 407,934.54 383,199.62 366,168.42 362,861.36 State Profit New York California Florida New York Florida New York 192,261.83 191,792.06 191,050.39 182,901.99 166,187.94 156,991.12 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn MULTIPLE LINEAR REGRESSION TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Multiple Linear Regression ─ Mơ hình hồi quy tuyến tính đa biến Multiple Linear Regression: 𝑦 𝑤 𝑤 𝑥 𝑤 𝑥 ⋯ 𝑤 𝑥 ─ Trong đó: + 𝑦 biến phụ thuộc (dependent variable), toán chúng ta, giá trị lợi nhuận (profit) + 𝑥 , 𝑥 , … 𝑥 biến độc lập (indenpendent variable), tốn chúng ta, chi phí nghiên cứu phát triển, chi phí quản trị, chi phí quảng cáo thơng tin tiểu bang startup + 𝑤 , 𝑤 , … , 𝑤 tham số mơ hình TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn TIỀN XỬ LÝ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Tiền xử lý liệu ─ Ban đầu, đọc toàn liệu phân chia giá trị đầu vào – ký hiệu X, đầu – ký hiệu Y import pandas as pd dataset = pd.read_csv("50_Startups.csv") X = dataset.iloc[:, 0:4].values Y = dataset.iloc[:, ‐1].values TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 10 Tiền xử lý liệu ─ Chuyển giá trị thuộc tính “State” (đang dạng số nguyên) thành dạng one-hot vector ─ Lớp OneHotEncoder module sklearn.preprocessing xây dựng sẵn cho việc chuyển liệu dạng số nguyên sang dạng one-hot vector from sklearn.preprocessing import OneHotEncoder 10.ohe = OneHotEncoder(categorical_features= [3]) 11.X = ohe.fit_transform(X).toarray() TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 15 Tiền xử lý liệu State State State New York 0 California 1 Florida 0 California 1 New York 0 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 16 Tiền xử lý liệu ─ Phân chia tập liệu thành hai tập con, tập liệu training, tập lại liệu test ─ Tỉ lệ phân chia 80% liệu cho tập training ─ Hàm train_test_split xây dựng sẵn module sklearn.model_selection để phân chia tập liệu 12.from sklearn.model_selection import train_test_split 13.X_train, X_test, Y_train, Y_test = train_test_split(X, Y, train_size = 0.8, random_state = 0) TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 17 HUẤN LUYỆN DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 18 Huấn luyện liệu ─ Để huấn luyện mơ hình, ta sử dụng lớp LinearRegression module sklearn.linear_model 14.from sklearn.linear_model import LinearRegression 15.lin_reg = LinearRegression() 16.lin_reg.fit(X_train, Y_train) TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 19 KIỂM TRA KẾT QUẢ MƠ HÌNH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 20 Kiểm tra kết mơ hình ─ Ở tập liệu này, ta khó để trực quan hóa kết mơ hình + Tập liệu có chiều + Có bốn chiều liệu dạng số + Một chiều liệu dạng liệt kê ─Nên ta cần cách đánh giá TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 21 Kiểm tra kết mơ hình ─ Khái niệm hệ số đánh giá 𝑅 : + 𝑅 hệ số để đánh giá chất lượng mơ hình hồi quy ∑ 𝑦 𝑦 𝑅 ∑ 𝑦 𝑦 + Trong đó: • 𝑦 giá trị outcome thực điểm liệu • 𝑦 giá trị outcome mơ hình dự đốn điểm liệu giá trị outcome trung bình tập liệu huấn •𝑦 luyện TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 22 Kiểm tra kết mơ hình ─ Giá trị hệ số 𝑅 nằm đoạn ∞, : 0: Mô hình tệ mơ hình sở + Nếu 𝑅 + Nếu 𝑅 0: Mơ hình giống mơ hình sở (vẫn tệ) 1: Mơ hình xác tuyệt đối + Nếu 𝑅 ─ 𝑅 lớn độ xác mơ hình cao 0.8 ─ Một mơ hình xem tốt 𝑅 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 23 Kiểm tra kết mơ hình ─ Ta sử dụng phương thức score lớp LinearRegression để đánh giá mơ hình hệ số đánh giá 𝑅 17.lin_reg.score(X_train, Y_train) >>> 0.9501847627493607 18.lin_reg.score(X_test, Y_test) >>> 0.9347068473282303 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 24 Kiểm tra kết mơ hình ─ Xây dựng hàm: + Dự đoán kết điểm liệu + In hình so sánh với đầu thực 19.def 20 21 22 23 24 25 compare(i_example): x = X_test[i_example : i_example + 1] y = Y_test[i_example] y_pred = lin_reg.predict(x)[0] label = ohe.inverse_transform(x[:, 0:3]).astype(int) state = le.inverse_transform(label) print(x[:, 3:6], state, y, y_pred) TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 25 Kiểm tra kết mơ hình ─ Gọi thực hàm compare cho tất điểm liệu tập test 26.for i in range(len(X_test)): 27 compare(i) TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 26 Kiểm tra kết mơ hình STT R&D Spending 28,754 27,892 23,640 15,505 22,177 Admini strator 118,546 84,710 96,189 127,382 154,806 Marketing Spending 172,795 164,470 148,001 35,534 28,334 State Profit New York California Florida New York Florida 78,239 77,798 71,498 69,758 65,200 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Predicted Profit 79,786 78,474 76,185 61,898 68,900 27 Kiểm tra kết mơ hình STT 10 R&D Spending 1,000 1,315 542 Admini strator 124,153 115,816 135,426 51,743 116,983 Marketing Spending 1,903 297,114 0 45,173 State Profit New York California Florida New York California 64,926 49,490 42,559 35,673 14,681 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn Predicted Profit 49,996 60,628 52,036 52,906 54,195 28 Chúc bạn học tốt Thân chào tạm biệt bạn ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN TP.HCM TỒN DIỆN – SÁNG TẠO – PHỤNG SỰ TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 29 ... hình hồi quy tuyến tính đa biến Multiple Linear Regression: