Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 49 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
49
Dung lượng
7,17 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN BÁO CÁO CUỐI KỲ PHÂN TÍCH DỮ LIỆU KINH DOANH Giảng Viên: PGS.TS Nguyễn Đình Thuân Hướng Dẫn: Nguyễn Thị Viết Huơng Nguyễn Minh Nhựt Mã lớp: IS403.N22.HTCL Nhóm thực hiện: Nhóm Dương Nhật Minh 20520242 Hồ Thị Hằng 20521285 Nguyễn Hịang Ngọc Hạnh 20521287 Hồ Chí Minh, tháng 2023 NHẬN XÉT CỦA GIÁO VIÊN ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… Ni dung Giải thích lấy ví dụ 1.1 Giải thích 1.1.2 Ví dụ 1.2 Hồi quy phi tuyến đa biến .7 1.2.1 Giải thích 1.2.2 Ví dụ 1.3 Hồi quy tuyến tính đa biến 1.1.1 Hồi quy Logistic .8 1.3.1 Giải thích 1.3.2 Ví dụ 10 Thực hành 13 2.1 Dùng MS Excel, ngôn ngữ R ngôn ngữ Python thực phép tính hồi quy tuyến tính đa biến với tập tin liệu Colleges and Universities .13 2.1.1 Phát biểu toán 14 2.1.2 Sử dụng MS Excel 14 2.1.3 Sử dụng ngôn ngữ R 18 2.1.4 Sử dụng ngôn ngữ Python .23 2.1.5 Kết luận 24 2.2 Dùng MS Excel, ngôn ngữ R ngôn ngữ Python thực phép tính Hồi quy phi tuyến đa biến với liệu thực tế tùy chọn về/của Việt Nam .25 2.2.1 Giới thiệu tập liệu .25 2.2.2 Phát biểu toán 27 2.2.3 Sử dụng MS Excel 28 2.2.4 Sử dụng ngôn ngữ R .30 2.2.5 Sử dụng Python .34 2.3 Dùng MS Excel, ngôn ngữ R ngôn ngữ Python thực phép tính hồi quy logistic với liệu tùy chọn Việt Nam 37 2.3.1 Giới thiệu tập liệu 37 2.3.2 Phát biểu toán 37 2.3.3 Sử dụng MS Excel 38 2.3.4 Sử dụng ngôn ngữ R .44 2.3.5 Sử dụng ngôn ngữ Python 45 2.3.6 Kết luận 47 BẢNG PHÂN CÔNG CÔNG VIỆC .47 TÀI LIỆU THAM KHẢO .48 Giải thích lấy ví dụ 1.1 Hồi quy tuyến tính đa biến 1.1.1 Giải thích Hồi quy tuyến tính đa biến kỹ thuật phân tích liệu, dùng để dự đốn giá trị biến dựa giá trị hai nhiều biến khác Biến muốn dự đoán gọi biến phụ thuộc Các biến sử dụng để dự đoán giá trị biến phụ thuộc gọi biến độc lập Mơ hình hồi qui tuyến tính đa biến phương trình mơ tả mối quan hệ biến phụ thuộc y với biến độc lập x1 , x2 , xp sai số ngẫu nhiên e Phương trình hồi qui tuyến tính đa biến phương trình mơ tả mối quan hệ biến phụ thuộc y với biến độc lập x1 , x2 , xp Trong đó, + Y biến phụ thuộc + X1, X2, Xn biến độc lập + β0 số hồi quy + β1, β2,… βn hệ số hồi quy + e sai số ngẫu nhiên Ta sử dụng hồi quy tuyến tính đa biến để: + Lập mơ hình mối quan hệ biến phức tạp, như: - Lượng mưa, nhiệt độ tần suất sử dụng phân bón ăn - Thu nhập, số thành viên chi tiêu gia đình + Tính giá trị biến phụ thuộc giá trị cụ thể biến độc lập, như: - Giá nhà có số phịng, diện tích độ tuổi ngơi nhà định 1.1.2 Ví dụ Khảo sát mức chi tiêu tháng 20 hộ gia đình vùng dựa tổng thu nhập số thành viên gia đình Sử dụng phân tích hồi quy để xác định xem chi tiêu có mối quan hệ với thu nhập số thành viên Mức chi tiêu, thu nhập số thành viên 20 hộ gia đình trình bày sau: Thực hồi quy công cụ Data Analysis: Kết hồi qui Excel: Dựa vào kết phân tích, ta có phương trình hồi quy: Chi tiêu = 1.658 + 0.28 * [Thu nhập] + 3.963 * [Thành viên] 1.2 Hồi quy phi tuyến đa biến 1.2.1 Giải thích Hồi quy phi tuyến đa biến (Multivariate Nonlinear Regression) phương pháp phân tích hồi quy để dự đốn biến mục tiêu (biến phụ thuộc) dựa nhiều biến độc lập Nhưng với mối quan hệ phi tuyến chúng, mối quan hệ biến phụ thuộc biến độc lập hàm phi tuyến tính Các bước để thực hồi quy phi tuyến tính đa biến là: B1: Thu thập liệu cho biến độc lập biến phụ thuộc B2: Kiểm tra giả thiết phân phối tương quan biến B3: Xác định hàm mục tiêu (hàm phi tuyến) dựa mối quan hệ biến độc lập biến phụ thuộc B4: Ước tính tham số hàm mục tiêu phương pháp tối ưu hóa B5: Đánh giá mơ hình kiểm tra tính xác 1.2.2 Ví dụ Giả sử: xây dựng mơ hình để dự đốn giá trị nhà dựa nhiều yếu tố, bao gồm diện tích, số lượng phòng ngủ độ tuổi nhà Ta sử dụng mơ hình hồi quy phi tuyến đa biến để mơ hình hóa mối quan hệ yếu tố giá trị nhà Để thực việc này, ta sử dụng công thức sau: Giá trị nhà = β0 + β1Diện tích + β2Số phịng ngủ + β3*Độ tuổi + ε Trong đó: + β0, β1, β2 β3 tham số mơ hình + ε sai số ngẫu nhiên Cơng thức cho phép ta tính toán giá trị nhà dựa yếu tố diện tích, số lượng phịng ngủ độ tuổi nhà 1.3 Hồi quy Logistic 1.3.1 Giải thích Mơ hình hồi quy logistic dùng để mô tả mối liên quan biến phân loại (thường có giá trị nên biến nhị phân) biến tiên lượng (có thể biến phân loại hay biến liên tục), từ phân loại phân tích dự đốn Ngồi ra, mơ hình cịn giúp kiểm sốt biến nhiều phát triển mơ hình tiên lượng Một số khái niệm liên quan: - p (probability): xác suất biến cố xảy thời gian |z|) số e Từ kết ta thu phương trình hồi quy: 2.3.5 Sử dụng ngơn ngữ Python Bước 1: Nhập thư viện Scikit-learn Bước 2: Import liệu Bước 3: Tạo mảng X gồm age, housing, loan Y biến term_deposit Bước 4: Sử dụng hàm LogisticRegression() fit X, Y 46 Bước 5: Đưa kết quả: Từ kết ta thu phương trình hồi quy: 2.3.6 Kết luận Cả kiểm nghiệm thu phương trình hồi quy: = Odds ratio age = 0.9967 Một người có khả đăng ký gửi tiền với người tuổi Odds ratio housing = 0.5 Một người có khoản vay mua nhà có khả đăng ký tiền gửi thấp 50% so với người khơng có khoản vay mua nhà Odds ratio loan = 0.59 Một người có khoản nợ cá nhân có khả đăng ký tiền gửi thấp 41% so với người khơng có khoản nợ cá nhân Vậy có thuộc tính “housing” “loan” yếu tố dẫn đến đăng ký tiền gửi 47 BẢNG PHÂN CÔNG CÔNG VIỆC Bài Thành viên Dương Nhật Minh Hồ Thị Hằng Nguyễn Hoàng Ngọc Hạnh Bài 1.1 Bài 1.2 Bài 1.3 Bài 2.1 Bài 2.2 Bài 2.3 Write report TÀI LIỆU THAM KHẢO [1] PGS.TS Nguyễn Đình Thuân, Slide giảng “ Phân tích liệu kinh doanh “, TP.Hồ Chí Minh 9-2017 [2] Nguyễn Minh Nhựt, Slide giảng “Lab03 Phân tích hồi quy“ Khoa Hệ thống Thông tin - Trường Đại học Công nghệ Thông tin (ĐHQG - TPHCM), Mar 2022 [3] PHÂN TÍCH HỒI QUY TUYẾN TÍNH TRONG SPSS – UPDATE 2023 https://luanvanviet.com/phan-tich-hoi-quy-tuyen-tinh [4] Nguyễn Văn Tuấn, Bài giảng 43: Mơ hình hồi qui logistic, (2014) Accessed: Apr 26, 2022 [Online Video] Available: https://www.youtube.com/watch?v=0yILsvQZ0Uw [5] ỨNG DỤNG EXCEL TRONG HỒI QUY TƯƠNG QUAN VÀ DỰ BÁO KINH TẾ https://bom.so/NGhOZf [6] Dataset of Logistic Regression https://www.kaggle.com/datasets/tomculihiddleston/bank-customer-data-in-vietnam [7] Nguyễn Văn Tuấn, Bài giảng 44: Diễn giải kết phân tích hồi quy logistic, (2014) Accessed: Apr 26, 2022 [Online Video] Available: https://www.youtube.com/watch?v=FcxY-Cheb6Y&ab_channel=Nguy%E1%BB%85nV %C4%83nTu%E1%BA%A5n 48 49