Khai phá dữ liệu đường xu hướng và phân tích hồi quy

58 3 0
Khai phá dữ liệu đường xu hướng và phân tích hồi quy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG & TIN HỌC ——————– * ——————— TIỂU LUẬN CUỐI KÌ MƠN KHAI PHÁ DỮ LIỆU ĐƯỜNG XU HƯỚNG VÀ PHÂN TÍCH HỒI QUY Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Lớp: Hệ thống thơng tin quản lý-K61 MỤC LỤC DANH MỤC HÌNH ẢNH LỜI MỞ ĐẦU NỘI DUNG Mơ hình hóa mối quan hệ xu hướng liệu .6 Hồi quy tuyến tính đơn biến 11 2.1 Tìm đường hồi quy phù hợp nhất: 13 2.2 Hồi quy bình phương cực tiểu .15 2.3 Hồi quy đơn biến với Excel 18 2.4 Hồi quy phân tích phương sai .21 2.5 Kiểm định giả thuyết cho hệ số hồi quy 22 2.6 Khoảng tin cậy cho hệ số hồi quy 23 Phân tích phần dư giả định hồi quy 24 Kiểm định giả thuyết .25 4.Hồi quy bội 28 Phân tích thực tế: Sử dụng mơ hồi quy tuyến tính mơ rủi ro để dự đốn hiệu suất ARAMARK 33 Xây dựng mơ hình hồi quy tốt 35 6.1 Sự tương quan Đa cộng tuyến 38 6.2 Các vấn đề thực tế Mơ hình Đường xu hướng Hồi quy 40 Hồi quy với biến độc lập phân loại .41 Các biến phân loại có nhiều hai cấp độ 45 Mơ hình hồi quy phi tuyến 48 Kỹ thuật nâng cao cho mơ hình hồi quy XLMiner .50 THUẬT NGỮ 55 DANH MỤC HÌNH ẢNH Hình 1: Excel Format Trendline .8 Hình 2: Dữ liệu bán hàng đường hồi quy .9 Hình 3: Biểu đồ giá dầu thơ 10 Hình 4: Phù hợp đa thức giá dầu thơ 11 Hình 5: Ví dụ mối quan hệ biến 12 Hình 6: Một phần giá trị thị trường nhà 13 Hình 7: Biểu đồ phân tán giá trị thị trường so với quy mơ nhà .13 Hình 8: Hai đường hồi quy khả thi 14 Hình 9: Đường hồi quy tuyến tính đơn phù hợp .15 Hình 10: Đo lường sai số mơ hình hồi quy 17 Hình 11: Hộp thoại cơng cụ hồi quy Excel .19 Hình 12: Phân tích hồi quy bản, Output cho ví dụ giá trị thị trường nhà 19 Hình 13: Residual Output .24 Hình 14: Biểu đồ phần dư .24 Hình 15: Biểu đồ phần dư chuẩn 27 Hình 16: Một phần tệp Excel Các trường đại học cao đẳng .29 Hình 17: Kết hồi quy bội cho liệu đại học cao đẳng .32 Hình 18: Phần dư cho biến Top 10% HS .32 Hình 19: Cấu trúc mơ rủi ro tương tác 34 Hình 20: Dữ liệu ngân hàng 36 Hình 21: Kết phân tích hồi quy Dữ liệu ngân hàng 36 Hình 22: Sau loại bỏ Giá trị nhà 37 Hình 23: Ma trận tương quan cho liệu Các trường đại học cao đẳng 39 Hình 24: Ma trận tương quan cho liệu Ngân hàng .39 Hình 25: Kết hồi quy 40 Hình 26: Dữ liệu lương nhân viên 43 Hình 27: Mơ hình hồi quy ban đầu cho lương nhân viên 43 Hình 28: Dữ liệu Lương nhân viên .44 Hình 29: Kết hồi quy với thời hạn tương tác 44 Hình 30: Mơ hình hồi quy cuối cho Dữ liệu lương 45 Hình 31: Dữ liệu Hoàn thành bề mặt 47 Hình 32: Ma trận liệu Hoàn thành bề mặt với biến giả .48 Hình 33: Kết hồi quy cho liệu bề mặt 48 Hình 34: Dữ liệu bán đồ uống 50 Hình 35: Đường hồi quy cho liệu bán đồ uống 50 Hình 36: Đường hồi quy Curvilinear cho liệu bán đồ uống .50 Hình 37: Dải băng XLMiner 52 Hình 38: Hộp thoại hồi quy tuyến tính XLMiner, Bước 53 Hình 39: Hộp thoại hồi quy tuyến tính XLMiner, Bước 53 Hình 40: Hộp thoại Best Subsets XLMiner 53 Hình 41: XLMiner Output Navigator .54 Hình 42: XLMiner Regression Output 54 Hình 43: XLMiner Best Subsets Results 54 LỜI MỞ ĐẦU Ngày nay, nhiều ứng dụng phân tích kinh doanh liên quan đến mối quan hệ nhiều biến độc lập số biến phụ thuộc Ví dụ dự đốn mức doanh số dựa giá hay công ty dự đốn doanh số dựa GDP Hoa Kỳ (tổng sản phẩm quốc nội) lãi suất trái phiếu kho bạc 10 năm để nắm bắt ảnh hưởng chu kỳ doanh nghiệp, nhà phân tích thị trường dự đốn ý định mua ô tô dựa khảo sát đo lường thái độ người tiêu dùng thương hiệu, truyền miệng tiêu cực mức thu nhập Đường xu hướng phân tích hồi quy cơng cụ để xây dựng mơ dự đoán kết tương lai Mục tiêu đạt hiểu biết cách sử dụng giải thích đường xu hướng mơ hình hồi quy, thống kê, vấn đề liên quan đến diễn giải kết phân tích hồi quy thực tế, vấn đề việc sử dụng đường xu hướng hồi quy làm công cụ để thực đánh giá định NỘI DUNG - Giải thích mục đích phân tích hồi quy cung cấp ví dụ kinh doanh - Sử dụng biểu đồ Scatter để nhận dạng mối quan hệ hai biến - Nêu hàm tính tốn phổ biến sử dụng dự đốn mơ hình - Sử dụng cơng cụ Excel Trenlines để fit mơ hình liệu - Giải thích cách phương pháp bình phương cực tiểu tìm đường hồi quy tốt cho mơ hình - Sử dụng hàm Excel tìm hệ số hồi quy - Sử dụng công cụ Excel Regression cho hồi quy đơn hồi quy bội - Giải thích biến thống kê hồi quy kết công cụ Excel Regression - Rút kết luận - Giải thích khoảng tin cậy cho hệ số hồi quy - Tính tốn độ lệch chuẩn - Liệt kê giả định phân tích hồi quy mô tả phương pháp để xác minh chúng - Giải thích khác kết mơ hình hồi quy đơn hồi quy bội - Áp dụng để xây dựng mơ hình hồi quy có kết tốt - Giải thích tầm quan trọng tính đa hình mơ hình hồi quy - Xây dựng mơ hình hồi quy cho liệu phân loại cách sử dụng biến giả - Kiểm tra tương quan mơ hình hồi quy với biến phân loại - Xác định mơ hình hồi quy đường cong mơ hình tuyến tính Mơ hình hóa mối quan hệ xu hướng liệu Hiểu tốn học thuộc tính mơ tả mối quan hệ chức khác vô quan trọng việc xây dựng mô hình phân tích dự đốn Chúng ta thường bắt đầu tạo biểu đồ liệu để hiểu chọn loại chức phù hợp để kết hợp thành mơ hình phân tích Đối với liệu cắt ngang, ta sử dụng biểu đồ phân tán; liệu chuỗi thời gian, ta sử dụng biểu đồ đường Các loại hàm toán học phổ biến sử dụng mơ hình phân tích dự báo bao gồm: - Hàm tuyến tính: y = a + bx Hàm tuyến tính hiển thị tăng giảm phạm vi x Đây loại hàm đơn giản sử dụng mơ hình dự báo Rất dễ hiểu phạm vi giá trị nhỏ, hành vi gần tốt - Hàm số logarit: y = ln(x) Hàm logarit sử dụng tốc độ thay đổi biến tăng giảm nhanh chóng sau giảm cấp, chẳng hạn với lợi nhuận giảm dần theo quy mô Ví dụ, hàm logarit thường sử dụng mơ hình tiếp thị phần trăm tăng liên tục quảng cáo dẫn đến tăng liên tục, tuyệt đối doanh số bán hàng - Hàm đa thức: y ¿ a x + bx + c (hàm bậc hai), y = a x + bx + dx + e (hàm thứ ba khối thứ ba), v.v Một đa thức bậc hai parabol tự nhiên có đồi thung lũng; đa thức bậc ba có hai đồi thung lũng Mơ hình doanh thu kết hợp độ co giãn giá thường hàm đa thức - Hàm công suất: y = a x b Các hàm công suất xác định tượng tăng mức tỷ lệ cụ thể Nghiên cứu đường cong thể thời gian cải thiện việc thực nhiệm vụ thường mơ hình hóa với hàm cơng suất có a>0 b< - Hàm số mũ: y = a b x Hàm số mũ có thuộc tính y tăng giảm với tốc độ tăng liên tục Ví dụ: cảm nhận độ sáng bóng đèn phát triển với tốc độ giảm dần công suất tăng Trong trường hợp này, a số dương b nằm khoảng từ đến Hàm số mũ thường định nghĩa y = a e x, b = e, sở logarit tự nhiên (khoảng 2.71828) Công cụ Excel Trendline cung cấp phương pháp thuận tiện để xác định mức phù hợp mối quan hệ chức lựa chọn thay cho tập hợp liệu Đầu tiên, click vào biểu đồ mà bạn muốn thêm đường xu hướng; điều hiển thị menu Chart Tools Chọn biểu đồ Chart Tools Design tab, sau bấm Add Chart Element từ nhóm Chart Layouts Từ menu Trendline, bạn chọn tùy chọn (Linear phổ biến nhất) More Trendline Options Nếu bạn chọn MoreTrendline Options, bạn nhận Format Trendline bảng tính (xem Hình 1) Một cách đơn giản để làm tất điều đúng, click vào chuỗi liệu biểu đồ chọn Add trendline từ menu bật lên Chọn nút cho loại mối quan hệ chức bạn muốn fit liệu Kiểm tra hộp cho Display Equation on chart Display R-squared value on chart Bạn sau đóng ngăn Format Trendline Excel hiển thị kết biểu đồ bạn chọn; bạn di chuyển phương trình giá trị R-squared để dễ đọc kéo chúng đến vị trí khác Để xóa đường xu hướng, nhấp chuột phải vào chọn Delete R2 (R-squared) thước đo mức độ phù hợp liệu Giá trị R2 nằm khoảng từ đến Giá trị R2 lớn phù hợp Ta thảo luận thêm điều phân tích hồi quy Đường xu hướng sử dụng để mơ hình hóa mối quan hệ biến hiểu biến phụ thuộc hoạt động biến độc lập thay đổi Hình 1: Excel Format Trendline Ví dụ 1: Mơ hình hóa hàm cầu giá Một nghiên cứu thị trường thu thập liệu khối lượng bán hàng cho mức giá khác sản phẩm cụ thể Dữ liệu sơ đồ phân tán hiển thị Hình (Tệp Excel Dữ liệu bán hàng) Mối quan hệ giá doanh số rõ ràng tuyến tính, tuyến tính đường xu hướng phù hợp với liệu Mơ hình kết là: Doanh số = 20,512 - 9,516 × Giá Mơ hình sử dụng làm hàm cầu khác tiếp thị phân tích tài Đường xu hướng sử dụng rộng rãi xu hướng mơ hình hóa theo thời gian, biến x mối quan hệ chức đại diện cho thời gian Ví dụ, nhà phân tích cho hãng hàng khơng cần dự đốn giá nhiên liệu đâu nhà phân tích đầu tư muốn để dự đoán giá cổ phiếu số kinh tế quan trọng Ví dụ 2: Dự đốn giá dầu thơ Hình cho thấy biểu đồ liệu lịch sử giá dầu thô vào thứ Sáu tháng từ tháng năm 2006 đến tháng năm 2008 (dữ liệu nằm tệp Excel Giá dầu thô) Sử dụng công cụ Trendline, cố gắng khớp chức khác cho liệu (ở x đại diện cho số tháng tháng năm 2006) Kết sau: Hàm mũ: y = 50,49 e 0,021 x Logarit: y = 13,02ln( x ) + 39,60 R2 = 0,664 R2 = 0,382 Đa thức (bậc hai): y = 0,130 x - 2,399 x + 68,01 Đa thức (bậc ba): y = 0,005 x - 0,111 x + 0,648 x + 59,497 Công suất: y = 45,96 x 0,0169 R2= 0,387 Mô hình phù hợp đa thức bậc ba, thể hình Hình 2: Dữ liệu bán hàng đường hồi quy R2 = 0,90 R2 = 0,928 ... quan đến phân tích hồi quy 2.3 Hồi quy đơn biến với Excel Các công cụ phần mềm phân tích hồi quy có sẵn Excel cung cấp nhiều thơng tin thuộc tính thống kê phân tích hồi quy Cơng cụ hồi quy Excel... cách sử dụng giải thích đường xu hướng mơ hình hồi quy, thống kê, vấn đề liên quan đến diễn giải kết phân tích hồi quy thực tế, vấn đề việc sử dụng đường xu hướng hồi quy làm công cụ để thực... Hình 33: Kết hồi quy cho liệu bề mặt 48 Hình 34: Dữ liệu bán đồ uống 50 Hình 35: Đường hồi quy cho liệu bán đồ uống 50 Hình 36: Đường hồi quy Curvilinear cho liệu bán đồ

Ngày đăng: 26/02/2023, 15:20

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan