Tiểu luận Môn Phân tích dữ liệu kinh doanh

18 58 0
Tiểu luận Môn Phân tích dữ liệu kinh doanh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tiểu luận Môn Phân tích dữ liệu kinh doanh Contents 1. CÁC PHƯƠNG PHÁP ĐỂ ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA CÁC PHƯƠNG TRÌNH HỒI QUI TÌM ĐƯỢC 3 2. CÁCH GIẢI QUYẾT BÀI TOÁN HỒI QUY PHI TUYẾN 4 2.1 Tại sao dùng bài toán hồi quy phi tuyến 4 2.2 Cách giải quyết bài toán hồi quy phi tuyến 4 Các phương trình hồi quy phi tuyến thường được sử dụng 4 3. TÌM HIỂU VỀ CÁCH GIẢI BÀI TOÁN HỒI QUI LOGISTIC 9 3.1. Khái niệm về hồi quy Logistic 9

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN TIỂU LUẬN - Giảng viên hướng dẫn: TS NGUYỄN ĐÌNH THN Nhóm sinh viên thực hiện: 17520433 – PHẠM HUỲNH MỸ HẠNH 17520499 - NGUYỄN THỊ CẨM HOÀI 17520596 – HỒ THỊ NGỌC HUYỀN 17520692- TRƯƠNG THỊ MỸ LINH 17520831 – TRÀ THẢO NGUYÊN Mơn học: Phân tích liệu kinh doanh Lớp: IS403.K21 TP Hồ Chí Minh, tháng năm 2020 Tiểu luận GVHD: TS Nguyễn Đình Thuân Contents CÁC PHƯƠNG PHÁP ĐỂ ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA CÁC PHƯƠNG TRÌNH HỒI QUI TÌM ĐƯỢC CÁCH GIẢI QUYẾT BÀI TOÁN HỒI QUY PHI TUYẾN .4 2.1 Tại dùng toán hồi quy phi tuyến .4 2.2 Cách giải toán hồi quy phi tuyến Các phương trình hồi quy phi tuyến thường sử dụng TÌM HIỂU VỀ CÁCH GIẢI BÀI TOÁN HỒI QUI LOGISTIC .9 3.1 Khái niệm hồi quy Logistic .9 Tiểu luận GVHD: TS Nguyễn Đình Thuân CÁC PHƯƠNG PHÁP ĐỂ ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA CÁC PHƯƠNG TRÌNH HỒI QUI TÌM ĐƯỢC 1.1 Phương trình hồi qui: - Phương trình hồi qui mơ hình thống kê cho biết mối quan hệ biến định biến phụ thuộc - Phương trình hồi qui sử dụng số liệu thống kê để tìm mối quan hệ nào, có, tồn liệu - Dạng đơn giản mơ hình hồi qui chứa biến phụ thuộc (còn gọi "biến đầu ra," "biến nội sinh," "biến thuyết minh", hay "biến-Y") biến độc lập đơn (còn gọi "hệ số," "biến ngoại sinh", "biến thuyết minh", hay "biếnX") - Ví dụ thường dùng phụ thuộc huyết áp Y theo tuổi tác X người, hay phụ thuộc trọng lượng Y thú theo phần thức ăn ngày X Sự phụ thuộc gọi hồi qui Y lên X 1.2 Các phương pháp đánh giá độ xác phương trình hồi quy: - Các tiêu chí để kiểm định độ xác phương trình hồi qui bao gồm:  MAE: (Trung bình sai biệt tuyệt đối) phương pháp đo lường khác biệt hai biến liên tục  MAPE (Phần tram sai số tuyệt đối trung bình) - Tiêu chí MAPE đo lường sai biệt theo tỉ lệ % , dùng cho trường hợp mà biến kết có đơn vị thấp cao  MSE: (trung bình bình phương sai số) trung bình bình phương sai số, tức khác biệt giá trị mơ hình dự đốn gía trị thực  RMSE: Căn bậc trung bình bình phương sai số: cho biết mức độ phân tán giá trị dự đoán từ giá trị thực tế Tiểu luận - - - - GVHD: TS Nguyễn Đình Thuân Với n tổng số quan sát Các tiêu chí MAE MSE RMSE có đặc tính, cơng thường cho kết đánh giá Tuy nhiên, chuyên gia khuyến cáo giá trị sai số εt nên chọn tiêu chí MSE để đánh giá Ngược lại, giá trị sai số εt q khác biệt nên chọn tiêu chí MAE để đánh giá Tiêu chí RMSE bậc tiêu chí MSE nên hai tiêu chí chất một; điều khác biệt giá trị tiêu chí RMSE bé Tiêu chí MAPE giúp đánh giá sai số cách tương đối Giả sử sai số trung bình đơn vị so với giá trị liệu 100 nhỏ (1%) Ngược lại, sai số trung bình đơn vị so với giá trị liệu 10 xem lớn (10%) Vậy nên đánh giá sai số dự báo với số liệu khác nên sử dụng tiêu chí MAPE Ngược lại, với số liệu áp dụng nhiều phương pháp dự báo khác khơng nên áp dụng tiêu chí MAPE tính phức tạp tính tốn Tiểu luận GVHD: TS Nguyễn Đình Thuân CÁCH GIẢI QUYẾT BÀI TOÁN HỒI QUY PHI TUYẾN 2.1 Tại dùng toán hồi quy phi tuyến Khi mối quan hệ biến số độc lập phụ thuộc khơng phải tuyến tính (phi tuyến), phương pháp hồi quy tuyến tính khơng ứng dụng Tuy nhiên, mối quan hệ có dạng cong (phi tuyến) chuyển thành quan hệ tuyến tính cách đổi biến, đổi hàm, sử dụng logarit tự nhiên biến số, qua làm cho chúng tuân theo phương pháp phân tích hồi quy tuyến tính 2.2 Cách giải toán hồi quy phi tuyến Các phương trình hồi quy phi tuyến thường sử dụng 2.2.1 Phương trình parabol bậc  Cơng thức:  Phương trình parabol bậc thường áp dụng trường hợp trị số tiêu nguyên nhân tăng lên trị số tiêu kết tăng (hoặc giảm), việc Tiểu luận GVHD: TS Nguyễn Đình Thuân tăng (hoặc giảm) đạt đến trị số cực đại (hoặc cực tiểu) sau lại giảm (hoặc tăng)  Trong a,b,c hệ số phương trình ∑y = na + b∑x + c∑x2 (1) ∑xy = a∑x + b∑x2 + c∑x3 (2) ∑x2y = a∑x2 + b∑x3 + c∑x4 (3)  Bằng phương pháp bình phương nhỏ ta xây dựng hệ phương trình chuẩn tắc phù hợp để xác định hệ số phương trình a,b, c  Ví dụ: Viết phương hồi quy phi tuyến tính dạng mơ hình parabol Với kết thực nghiệm đại lượng nghiên cứu y x có mối quan hệ: Bảng tính thiết lập sau: n ∑ xi 10 15 20 25 75 yi 1,8 2,2 2,5 2,77 2,8 12,07 xi2 25 100 225 400 625 1375 xi3 125 10000 3375 8000 15625 28125 xi4 625 10000 50625 160000 390625 611875 xiyi 22 37,5 55,4 56 193,9 xi2yi 45 220 562,5 1108 1400 3685,5 Với n=5, ta có hệ phương trình ẩn 5a+75b+1375c=12,07 75a+1375b+28125c=193,9 1375a+28125b+611875c=3685,5 Tiểu luận GVHD: TS Nguyễn Đình Thuân Giải hệ phương trình ta thu được: a=1,258 b=0,1174 c=-0,0022 Vậy phương trình hồi quy có dạng: 2.2.2 Phương trình hyperbol  Cơng thức :  Phương trình hypebol áp dụng trường hợp trị số tiêu nguyên nhân tăng trị số trị số tiêu thức kết giảm với tốc độ không  Trong a,b hệ số phương trình  Bằng phương pháp bình phương nhỏ ta xây dựng hệ phương trình chuẩn tắc phù hợp để xác định hệ số phương trình a,b 2.2.3 Phương trình hàm số mũ  Phương trình hàm số mũ áp dụng trường hợp với tăng lên tiêu nguyên nhân trị số tiêu kết thay đổi theo cấp số nhân, nghĩa có tốc độ tăng xấp xỉ  Việc xác định hệ số phương trình hồi quy khó khăn phải giải hệ phương trình phi tuyến Việc tính tốn trở nên đơn giản tiến hành thay biến số hạ bậc đa thức  Công thức :  Biến đổi sơ  Có thể đưa hồi quy tuyến tính cách biến đổi hàm trứơc đổi biến  Đầu tiên lấy log vế: Tiểu luận GVHD: TS Nguyễn Đình Thuân log Y = loga + X*logb  Đặt biến: Z = log Y, a0 = loga, a1 = logb  Phương trình sau biến đổi: Z = a0 + a1X 2.2.4 Phương trình dạng đa thức bậc cao     Công thức : Y = b0 + b1X1 + … + bmXm Biến đổi sơ Có thể đưa hồi quy tuyến tính cách biến đổi hàm trứơc đổi biến Đặt biến: X1 = X1, … , Xm = Xm  Phương trình sau biến đổi: Y = b0 + b1X1 + … + bmXm 2.2.5 Dạng tương tác biến vào:     Công thức: Y = b0 + b1X1+ b2X2+ b3X1X2 Biến đổi sơ Có thể đưa hồi quy tuyến tính cách biến đổi hàm trứơc đổi biến Đặt biến: X3 = X1X2  Phương trình sau biến đổi: Y = b0 + b1X1 + b2X2 + b3X3 2.2.6 Phương trình hàm ngược      Công thức: Y = 1/(b0 + b1X1+ b2X2) Biến đổi sơ Có thể đưa hồi quy tuyến tính cách biến đổi hàm trứơc đổi biến Đổi hàm Z=1/Y Phương trình sau biến đổi Z = (b0 + b1X1+ b2X2) Tiểu luận GVHD: TS Nguyễn Đình Thuân 2.2.7 Phương trình hàm lũy thừa  Công thức:     Biến đổi sơ Đầu tiên lấy log vế: logY=logb+a*logX Đặt biến: Z = logY, b0=logb, x1=logX Thì có mơ hình hồi quy tuyến tính: Z = b0+ax1 Tiểu luận GVHD: TS Nguyễn Đình Thn TÌM HIỂU VỀ CÁCH GIẢI BÀI TOÁN HỒI QUI LOGISTIC 3.1 Khái niệm hồi quy Logistic Hồi quy logistic (Logistic regression) mơ hình phổ biến nghiên cứu dùng để ước lượng xác suất kiện xảy Đặc trưng hồi quy logistic biến phụ thuộc có giá trị 3.2 Mục tiêu việc dùng tốn hồi qui Logistic Tìm mơ hình phù hợp tối ưu để mơ tả mối quan hệ biến mục tiêu y tập hợp biến độc lập x (biến dự đoán giả thích) qua đưa kết dự báo hay phân loại tương lai 3.3 Tại dùng toán hồi quy Logistic Trên thực tế, có nhiều tượng tự nhiên, kinh tế, xã hội,… mà cần dự đoán khả xảy nó: chiến dịch quảng cáo có chấp nhận hay khơng, người vay có trả nợ hay khơng, cơng ty có phá sản hay khơng, khách hàng có mua sản phẩm khơng,… Những biến nghiên cứu có có biểu mã hóa thành giá trị - gọi biến nhị phân Trong đó: Biến nhị phân (binary variable): biến có giá trị, biểu không trùng đơn vị, đơn vị khơng có giá trị này, phải chứa giá trị cịn lại biến thay phiên Ví dụ có không, sống chết, rời dịch vụ hay tiếp tục sử dụng dịch vụ Biến nhị phân có dạng: Symmetric (đối xứng) Asymmetric (không đối xứng) 3.4 Cách giải tốn 3.4.1 Lấy ví dụ cụ thể cho tốn hồi quy Logistic: Ví dụ ứng dụng logistic regression vào email marketing Một công ty bán lẻ sản phẩm cơng nghệ, điện tử có cửa hàng nằm tỉnh thành khác nhau, công ty tháng trước triển khai chương trình ưu đãi dành cho khách hàng thân thiết Công ty thiết kế email quảng cáo để gửi đến khách hàng tình A, bao gồm khách hàng có thẻ thành viên khách hàng khơng có thẻ thành viên Cơng ty muốn phân tích xem số tiền mà khách hàng bỏ năm vừa qua đăng ký thẻ thành viên có tác động đến đến việc khách hàng tham gia chương trình ưu đãi Chương trình ưu đãi cụ thể nhận phiếu giảm giá 25%, tổng giá trị hàng mua triệu đồng Lấy mẫu 100 khách hàng có 40 khách hàng tham gia cách click vào link đăng ký email, 60 khách cịn lại khơng Cơng tu muốn dự báo hay phân loại nhóm khách hàng cửa hàng tỉnh B có khả đăng kí chương trình ưu đãi hay khơng dựa vào kết q phân tích để định tháng tới có làm chương trình tương tự hay khơng? 10 Tiểu luận GVHD: TS Nguyễn Đình Thn 3.4.2 Bài toán đặt Link: https://drive.google.com/file/d/17BnYLhcUHbF6iYgd12AhVQ5Kfi2zEPvY/view Chúng ta xây dựng phương trình hồi quy Logistic sử dụng liệu lịch sử để phân tích khả khách hàng có khả đăng ký chương trình ưu đãi hay không?  Biến mục tiêu đăng ký chương trình ưu đãi, đó: + y=1: đăng ký chương trình ưu đãi + y=0: khơng đăng ký chương trình ưu đãi  Biến độc lập là: + x1: số tiền khách hàng bỏ năm vừa + x2: thơng tin đăng ký thẻ thành viên, có giá trị: o x2=1: có đăng ký thẻ thành viên o x2=0: không đăng ký thẻ thành viên 3.4.3 Tiến hành giải toán: Ước lượng tham số: Phương pháp hợp lý cực đại Phương trình hồi quy Logistic:  P(y =1) = hβ = 1/(1+e^(- β) ) Với β=β0 + β1x1 + … + βkxk  P(y=0) = 1- P(y=1) Log hàm hợp lí: Tìm vectơ β[β0, β1,…, βn] cho Log(L(β)) đạt cực đại Ví dụ gồm 100 dòng liệu: Chúng ta chia tập liệu phía thành phần: 80 dịng để training 20 dòng liệu để test Bước1: Tính β=β0 + β1x1 + β2x2 Giả sử β0 =1, β1 = 1, β2 = 11 Tiểu luận GVHD: TS Nguyễn Đình Thn Bước 2: Tính hβ =1/(1+e^-β) Bước 3: Tính Log(L(β ))= (y*log(hβ)+(1-y)*log(1-hβ) 12 Tiểu luận GVHD: TS Nguyễn Đình Thuân Bước 4: Chúng ta dùng hàm Solver Excel để tìm β0, β1, β2 cho tổng cột y*log(hβ)+(1-y)*log(1-hβ) lớn Ta dùng hàm Solver Excel để tối ưu hóa kết sum vừa tìm 13 Tiểu luận GVHD: TS Nguyễn Đình Thuân Ta tìm β0 = -1.66775, β1 = 0.143447, β2 =0.932207 14 Tiểu luận GVHD: TS Nguyễn Đình Thuân  Phương trình hồi quy logistic là: P(y =1) = 1/(1+e^(- β) ) Với β= -1.66775 + 0.143447x1 + 0.932207x2 Giả sử khách hàng số 81 có số tiền chi 8.3 có đăng ký thành viên khách hàng có khả đăng ký chương trình ưu đãi khơng?  P(y =1) = 1/(1+e^(- (-1.66775 + 0.143447 * 8.3 + 0.932207))) = 0.61  P(y=0) = – 0.61 = 0.39 Ta có 0.61 > 0.39 nên ta dự đốn khách hàng đăng ký chương trình khuyến Ta đối chiếu kết thấy trùng khớp Ta dùng hồi quy logistic để kiểm thử 20 dòng liệu cịn lại Sau kiểm thử ta có ma trận nhầm lẫn Lớp dương Lớp dương Lớp âm  Độ xác = 6/8 = 0.75  Độ phủ = 6/9 = 0.67  F1-score = 2* (0.75*0.67)/(0.75+0.67) =0.71 Lớp âm Ta thấy f1-score cao nên ta dùng hồi quy logistic để dự đốn khách hàng có đăng ký chương trình khuyến khơng 15 Tiểu luận GVHD: TS Nguyễn Đình Thuân 16 Tiểu luận GVHD: TS Nguyễn Đình Thuân BẢNG PHÂN CƠNG CƠNG VIỆC Thành Viên Nguyễn Thị Cẩm Hồi - 17520499 Phạm Huỳnh Mỹ Hạnh - 17520443 Trà Thảo Nguyên - 17520831 Trương Thị Mỹ Linh – 17520692 Hồ Thị Ngọc Huyền - 17520596 Công việc Làm câu tiểu luận Làm câu tiểu luận Làm câu tiểu luận Làm câu tiểu luận Làm câu tiểu luận 17 Tiểu luận GVHD: TS Nguyễn Đình Thuân TÀI LIỆU THAM KHẢO [1] https://www.statisticshowto.com/probability-and-statistics/regression-analysis/find-a-linearregression-equation/ [2] https://magoosh.com/statistics/what-is-the-regression-equation/ [3] https://www.youtube.com/watch?v=1raNIu9ZVM&feature=youtu.be&fbclid=IwAR0HcjQNLHxp3XyJitf3NHV3ehCFIWoirmotdzlK 4M8RGrX1kgCggTXZlsQ [4] http://www.bomonnoiydhue.edu.vn/upload/file/lstk15_logistic.pdf? fbclid=IwAR1Imijzq7u1qwEHyLB9jx4l4iXUax8VoYGMXIwWuY2sUN3wJPy6pBh4uW8 [5] https://rpubs.com/lengockhanhi/445130 18 ... Huyền - 17520596 Công việc Làm câu tiểu luận Làm câu tiểu luận Làm câu tiểu luận Làm câu tiểu luận Làm câu tiểu luận 17 Tiểu luận GVHD: TS Nguyễn Đình Thuân TÀI LIỆU THAM KHẢO [1] https://www.statisticshowto.com/probability-and-statistics/regression-analysis/find-a-linearregression-equation/... Ví dụ gồm 100 dịng liệu: Chúng ta chia tập liệu phía thành phần: 80 dòng để training 20 dòng liệu để test Bước1: Tính β=β0 + β1x1 + β2x2 Giả sử β0 =1, β1 = 1, β2 = 11 Tiểu luận GVHD: TS Nguyễn... đốn khách hàng có đăng ký chương trình khuyến khơng 15 Tiểu luận GVHD: TS Nguyễn Đình Thuân 16 Tiểu luận GVHD: TS Nguyễn Đình Thuân BẢNG PHÂN CÔNG CÔNG VIỆC Thành Viên Nguyễn Thị Cẩm Hoài - 17520499

Ngày đăng: 05/06/2021, 16:17

Mục lục

  • 1. CÁC PHƯƠNG PHÁP ĐỂ ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA CÁC PHƯƠNG TRÌNH HỒI QUI TÌM ĐƯỢC

    • 1.1. Phương trình hồi qui:

    • 1.2. Các phương pháp đánh giá độ chính xác của phương trình hồi quy:

    • 2. CÁCH GIẢI QUYẾT BÀI TOÁN HỒI QUY PHI TUYẾN

      • 2.1 Tại sao dùng bài toán hồi quy phi tuyến

      • 2.2 Cách giải quyết bài toán hồi quy phi tuyến

        • 2.2.1 Phương trình parabol bậc 2

        • 3. TÌM HIỂU VỀ CÁCH GIẢI BÀI TOÁN HỒI QUI LOGISTIC

          • 3.1. Khái niệm về hồi quy Logistic

            • 3.2. Mục tiêu của việc dùng bài toán hồi qui Logistic

            • 3.3. Tại sao dùng bài toán hồi quy Logistic

            • 3.4. Cách giải quyết bài toán

Tài liệu cùng người dùng

Tài liệu liên quan