Tìm hiểu về phân tích dữ liệu. Áp dụng dự báo số lượng hành khách vận chuyển phân theo ngành vận tải
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA : CÔNG NGHỆ THÔNG TIN BÀI TẬP LỚN MÔN : PHÂN TÍCH THỐNG KÊ SỐ LIỆU Đề tài : Tìm hiểu về phân tích dữ liệu Áp dụng dự báo số lượng hành khách vận chuyển phân theo ngành vận tải Giáo viên hướng dẫn : Th.s Nguyễn Phương Nga Sinh viên thực hiện : Nhóm – KHMT2 – K4 Hà nội, Ngày 08 Tháng 12 Năm 2012 MỤC LỤC A.LÝ THUYẾT 3 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu I Hồi quy tuyến tính 3 1 Khái niệm về hồi quy 3 2 Phương pháp hồi quy đơn 4 3 Mối Liên hệ giữ mô hình hồi quy đơn biến va hồi quy bội 6 4 Mô hình hồi quy tuyến tính 3 biến 7 5.Mô hình hồi quy k biến 14 II Hồi quy chuỗi thời gian 19 1 Khái niệm về dãy số thời gian .19 2 Giới thiệu phân tích chuỗi thời gian 21 3 Mô hình phân tích chuỗi thời gian 22 B.PHÂN TÍCH DỮ LIỆU THỰC TẾ 29 I Giới thiệu bài toán .29 1 Giới thiệu 29 2 Các yêu cầu đặt ra 31 II Giải quyết vấn đề đặt ra 31 1 Áp dụng hồi quy bội phân tích dữ liệu Tổng khối lượng hành khách vận chuyển phân theo ngành vận tải từ năm 1995 - năm 2010 .31 Tài Liệu Tham Khảo .50 LỜI MỞ ĐẦU Một nghiên cứu tốt, một báo cáo khoa học có căn cứ được người đọc chấp nhận về mặt học thuật đòi hỏi phải có phương pháp tốt, áp dụng các công cụ kỹ thuật để cung cấp các thông tin xác thực Đặc biệt trong các vấn đề kinh tế - xã hội và khi nghiên cứu số lớn chúng ta cần phải quan tâm đến các công cụ kỹ thuật như thống kê.Thống kê học là một lĩnh vực khá rộng, do vậy trong phạm vi của môn học này trang bị cho người học những Thực hiện : Nhóm – KHMT2 – K4 Trang : 2 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu kiến thức cơ bản trong việc phân tích số liệu thống kê nhằm mục đích có thể khai thác hiệu quả các thông tin thu thập được, để phục vụ cho công tác nghiên cứu khoa học của các khoa học về kinh tế - xã hội Phân tích thống kê số liệu không những giúp bạn khai thác hiệu quả các thông tin thu nhập được mà còn giúp bạn có thể dự báo các kết quả trong tương lai Đề tài “Tìm hiểu về phân tích dữ liệu Áp dụng dự báo số lượng hành khách vận chuyển phân theo ngành vận tải” nhằm đưa ra các kết quả phân tích giúp cho ngành vận tải nắm bắt được các chuyển biến trong lượng khách sử dụng các loại hình vận chuyển của ngành vận tải cũng như chất lượng phục vụ, lượng lưu động hàng năm để có sự thay đổi trong các loại hình vận tải Em xin trân trọng gửi lời cảm ơn sâu sắc tới ThS Nguyễn Phương Nga, người đã tận tình giúp đỡ chúng em trong suốt quá trình học tập và thực hiện bài tập lớn Thạc sĩ không chỉ trực tiếp hướng dẫn, cung cấp cho em những kiến thức, tài liệu hữu ích mà còn dành cho em sự quan tâm sâu sắc Hà Nội, tháng 12 năm 2012 Sinh viên Nguyễn Thị Hiền Nguyễn Thị Thu Trang A.LÝ THUYẾT I Hồi quy tuyến tính 1 Khái niệm về hồi quy Hồi quy - nói theo cách đơn giản, là đi ngược lại về quá khứ để nghiên cứu những dữ liệu đã diễn ra theo thời gian hoặc diễn ra tại cùng một thời điểm nhằm tìm đến một quy luật về mối quan hệ giữa chúng Mối quan hệ đó được biểu diễn thành một phương trình (hay mô hình) gọi là phương trình hồi quy mà dựa vào đó, có thể giải thích bằng các kết quả lượng hoá về bản chất, hỗ trợ củng cố các lý thuyết và dự báo tương lai Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là biến phụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm mục đích ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trị của biến độc lập Thực hiện : Nhóm – KHMT2 – K4 Trang : 3 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu Trong phân tích hoạt động kinh doanh cũng như trong nhiều lĩnh vực khác, hồi quy là công cụ phân tích đầy sức mạnh không thể thay thế, là phương pháp thống kê toán dùng để ước lượng, dự báo những sự kiện xảy ra trong tương lai dựa vào quy luật quá khứ Một số tên gọi khác của biến phụ thuộc và biến độc lập như sau: Biến phụ thuộc: biến được giải thích, biến được dự báo, biến được hồi quy, biến phản ứng, biến nội sinh Biến độc lập: biến giải thích, biến dự báo, biến hồi quy, biến tác nhân hay biến kiểm soát, biến ngoại sinh Ví dụ về phân tích hồi quy trong thực tế : (1) Ngân hàng XYZ muốn tăng lượng tiền huy động Ngân hàng này muốn biết mối quan hệ giữa lượng tiền gửi và lãi suất tiên gửi, cụ thể hơn họ muốn biết khi tăng lãi suất thêm 0,1% thì lượng tiền gửi sẽ tăng trung bình là bao nhiêu (2) Một nhà nghiên cứu nông nghiệp muốn biết năng suất tôm sú nuôi trong hệ thống thâm canh phụ thuộc thế nào vào diện tích ao nuôi, mật độ thả tôm giống, chi phí hoá chất xử lý môi trường, trình độ nhân công Từ phân tích hồi quy này ông ta đề ra các chỉ tiêu kỹ thuật phù hợp cho loại hình này 2 Phương pháp hồi quy đơn Còn gọi là hồi quy đơn biến, dùng xét mối quan hệ tuyến tính giữa 1 biến kết quả và 1 biến giải thích hay là biến nguyên nhân (nếu giữa chúng có mối quan hệ nhân quả) Trong phương trình hồi quy tuyến tính, một biến gọi là: biến phụ thuộc; một biến kia là tác nhân gây ra sự biến đổi, gọi là biến độc lập Phương trình hồi quy đơn biến (đường thẳng) có dạng tổng quát: Y = β1 + β 2 X + ε (3.1) Trong đó: Y: biến số phụ thuộc (dependent variable); X: biến số độc lập (independent variable); Thực hiện : Nhóm – KHMT2 – K4 Trang : 4 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu 1 : tung độ gốc hay nút chặn (intercept); 2 : độ dốc hay hệ số gốc (slope) : hằng số Y trong phương trình trên được hiểu là Y ước lượng, người ta thường viết dưới ^ hình thức có nón Y Ví dụ: Phương trình tổng chi phí của doanh nghiệp có dạng: Y = a + bX Trong đó: Y: Tổng chi phí phát sinh trong kỳ; X: Khối lượng sản phẩm tiêu thụ; a: Tổng chi phí bất biến; b: chi phí khả biến đơn vị sản phẩm bX: Tổng chi phí khả biến Y bX a 0 Thực hiện : Nhóm – KHMT2 – K4 Trang : 5 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu X Đồ thị 1.1 Ứng xử của các loại chi phí Nhận xét Với phương trình trên, tổng chi phí Y chịu ảnh hưởng trực tiếp của khối lượng hoạt động X theo quan hệ tỷ lệ thuận Khi X tăng dẫn đến Y tăng; khi X giảm dẫn đến Y giảm Khi X = 0 thì Y = a: Các chi phí như tiền thuê nhà, chi phí khấu hao, tiền lương thời gian và các khoản chi phí hành chính khác là những chi phí bất biến, không chịu ảnh hưởng từ thay đổi của khối lượng hoạt động Đường biểu diễn a song song với trục hoành Trị số a là hệ số cố định, thể hiện “chi phí tối thiểu” trong kỳ của doanh nghiệp (nút chặn trên đồ thị) Trị số b quyết định độ dốc (tức độ nghiêng của đường biểu diễn chi phí trên đồ thị) Đường tổng chi phí Y = a + bX và đường chi phí khả biến bX song song với nhau vì giữa chúng có cùng chung một độ dốc b (slope) Xuất phát điểm của đường tổng chi phí bắt đầu từ nút chặn a (intercept = a) trên trục tung; trong khi đó, đường chi phí khả biến lại bắt đầu từ gốc trục toạ độ vì có nút chặn bằng 0 (intercept = 0) Hay nói một cách khác, theo nội dung kinh tế, khi khối lượng hoạt động bằng 0 (X=0) thì chi phí khả biến cũng sẽ bằng 0 (bX=0) 3 Mối Liên hệ giữ mô hình hồi quy đơn biến va hồi quy bội Báng so sánh về dạng hàm của mô hình hồi quy đa biến so với trường hợp đơn biến Hồi quy đơn biến Ví Dụ CONS = β 1 + β 2 INC + ε Hồi quy đa biến INV = β1 + β 2T + β 3G + β 4 INT + ε Dạng mô Hình Y = β1 + β 2 X + ε Y = β1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + ε Với mỗi quan sát Yn = β1 + β 2 X n + ε n Yn = β1 + β 2 X n 2 + β 3 X n 3 + β 4 X n 4 + ε n Thực hiện : Nhóm – KHMT2 – K4 Trang : 6 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu Như vậy hồi quy đa biến là sự mở rộng tự nhiên của trường hợp đơn biến, khi số biến giải thích lớn hơn 2, kể cả hằng số 4 Mô hình hồi quy tuyến tính 3 biến 4.1 Hàm hồi quy tổng thể (PRF) Yi = β1 + β 2 X 2i + β 3 X 3i + U i Trong đó: • Y là biến phụ thuộc • X2,X3 là các biến độc lập • X2i, X3i là giá trị thực tế của X2, X3 • Ui là các sai số ngẫu nhiên 4.2.Các giả thiết của mô hình Giá trị trung bình của đại lượng ngẫu nhiêu Ui bằng 0 Phương sai của Ui không thay đổi Không có sự tương quan giữa các Ui Không có sự tương quan (cộng tuyến) giữa X2 và X3 Không có sự tương quan giữa các Ui và X2,X3 4.3.Ước lượng các tham số Chúng ta sử dụng phương pháp bình phương nhỏ nhất OLS PRF : Yi = β1 + β 2 X 2i + β 3 X 3i + U i Hàm hồi quy mẫu tương ứng sẽ là : ˆ ˆ ˆ SRF : Yi = β1 + β 2 X 2i + β 3 X 3i + ei Hay ˆ ˆ ˆ ˆ Yi = β1 + β 2 X 2i + β 3 X 3i ˆ ˆ ˆ ˆ ei = Yi − Yi = Yi − β1 − β 2 X 2i − β 3 X 3i Thực hiện : Nhóm – KHMT2 – K4 Trang : 7 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu Theo nguyên lý của phương pháp OLS thì các tham số ˆ ˆ ˆ β1 , β 2 , β 3 được chọn sao cho : ∑ e = ∑ (Y − βˆ 2 i i 1 ˆ ˆ − β 2 X 2 i − β 3 X 3i ) 2 → min Như vậy , công thức tính của các tham số như sau : ( ∑ y x )( ∑ x ) − ( ∑ x x )( ∑ y x ) ( ∑ x )( ∑ x ) − ( ∑ x x ) ˆ β2 = 2 3i i 2i 2 2i 2 i 3i 2 3i i 3i 2 2 i 3i ( ∑ y x )( ∑ x ) − ( ∑ x x )( ∑ y x ) ( ∑ x )( ∑ x ) − ( ∑ x x ) ˆ β3 = 2 2i i 3i 2 2i 2 i 3i 2 3i i 2i 2 2 i 3i ˆ ˆ ˆ β1 = Y − β 2 X 2 − β 3 X 3 Trong đó: yi = Yi − Y x3i = X 3i − X 3 x2 i = X 2 i − X 2 Người ta chứng minh được : ∑ x = ∑ X − n( X ) ∑ x = ∑ X − n( X ) ∑ y = ∑ Y − n(Y ) ∑ x x = ∑ X X − nX ∑ y x = ∑ Y X − nYX ∑ y x = ∑ Y X − nYX 2 2 2i 2 2i 2 2 3i 2 3i 3 2 i 2 2 2 i 2 i 3i 2i 3i 2 i 2i i 2i 2 i 3i i 3i X3 3 Thực hiện : Nhóm – KHMT2 – K4 Trang : 8 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu Ví dụ minh họa Bảng dưới đây cho các số liệu về doanh số bán (Y), chi phí chào hàng (X 2) và chi phí quảng cáo (X3) của một công ty Hãy ước lượng hàm hồi quy tuyến tính của doanh số bán theo chi phí chào hàng và chi phí quảng cáo Doanh số bán Yi Chi phí chào hàng X2 1270 100 180 1490 106 248 1060 60 190 1626 160 240 1020 70 150 1800 170 260 1610 140 250 1280 120 160 1390 116 170 1440 120 230 1590 140 220 1380 150 150 (trđ) Giải Chi phí quảng cáo X3 Từ số liệu trên ta tính được các tổng như sau : ∑ Y = 16956 ∑ X = 188192 ∑ X = 1452 ∑ X X = 303608 ∑ X = 2448 ∑ X = 518504 Y = 1413 ∑ Y = 24549576 X = 121 ∑ Y X = 3542360 X = 204 ∑ Y X = 2128740 2 2i i 2i 3i 2i 3i 2 3i 2 i i 3i 2 i 2i 3 Thực hiện : Nhóm – KHMT2 – K4 Trang : 9 Khoa : Công nghệ thông tin ∑y ∑x ∑x ∑yx ∑yx ∑x x 2 i 2 2i 2 3i i 2i i 3i 2 i 3i Môn : Phân tích thống kê số liệu = ∑ Yi 2 − n(Y ) = 590748 2 2 = ∑ X 2i − n( X 2 ) = 12500 2 = ∑ X 32i − n( X 3 ) = 19112 2 = ∑ Yi X 2i − nY X 2 = 77064 = ∑ Yi X 3i − nY X 3 = 83336 = ∑ X 2i X 3i − nX 2 X 3 = 7400 ˆ 77064 × 19112 − 83336 × 7400 = 4,64951 β2 = 2 12500 ×19112 − ( 7400 ) ˆ = 83336 ×12500 − 77064 × 7400 = 2,560152 β3 2 12500 ×19112 − ( 7400) Vậy ˆ β1 = 1413 − 4,64951×121 − 2,560152 × 204 = 328,1383 ˆ Yi = 328,1383 + 4,64951X 2i + 2,560152 X 3i 4.4.Hệ số xác định của mô hình Đối với mô hình hồi quy bội , người ta tính R2 có hiệu chỉnh như sau : R 2 = 1 − (1 − R 2 ) k là số tham số trong mô hình R2 có các đặc điểm sau : Khi k>1 thì R2 n −1 n−k R 2 ≤ R2 ≤ 1 có thể âm, và khi nó âm, coi như bằng 0 Ví dụ : Tính hệ số xác định của mô hình hồi quy theo số liệu của ví dụ trước TSS = ∑ (Yi − Y ) 2 = ∑ Yi 2 − nY 2 Thực hiện : Nhóm – KHMT2 – K4 ⇒ TSS = 590748 Trang : 10 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu R-bình phương (điều chỉnh cho d.f.) = 100,0% Tiêu chuẩn Lỗi của Est = 0,0000203005 Có nghĩa là tuyệt đối lỗi = 0 Thống kê Durbin-Watson = Tụt hậu 1 tự tương còn lại = các StatAdvisor Đầu ra cho thấy các kết quả của việc lắp đặt một nhiều mô hình hồi quy tuyến tính để mô tả mối quan hệ giữa TongSo và 4 biến độc lập phương trình của mô hình được trang bị: TongSo = 9.54792E-13 + 1,0 * D.Sat + 1,0 * D.Bo + 1.0 * D.Song + 1,0 * D.HangKhong Vì giá trị P-trong bảng ANOVA là nhỏ hơn 0,05, có một mối quan hệ có ý nghĩa thống kê giữa các biến ở mức độ tin cậy 95,0% Thống kê R-Squared chỉ ra rằng mô hình như được trang bị giải thích 100,0% của những biến đổi trong TongSo R-bình phương điều chỉnh số liệu thống kê, đó là phù hợp hơn để so sánh các mô hình với số lượng khác nhau của các biến độc lập, là 100,0% Các lỗi tiêu chuẩn của ước tính cho thấy độ lệch chuẩn của các số dư là 0,0000203005 giá trị này có thể được sử dụng để xây dựng giới hạn dự báo cho các quan sát mới bằng cách chọn tùy chọn Báo cáo từ menu văn bản các lỗi tuyệt đối trung bình (MAE) của 0,0 là giá trị trung bình của các số dư Durbin-Watson (DW) Thống kê kiểm tra số dư để xác định xem có bất kỳ tương quan đáng kể dựa trên thứ tự mà chúng xuất hiện trong tập tin dữ liệu của bạn Thực hiện : Nhóm – KHMT2 – K4 Trang : 36 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu Trong việc xác định xem mô hình có thể được đơn giản hóa, nhận thấy rằng P giá trị cao nhất trên các biến độc lập là 0,0000, thuộc D_Sat Vì giá trị P-nhỏ hơn 0,05, thuật ngữ đó có ý nghĩa thống kê ở mức độ tin cậy 95,0% Do đó, bạn có thể không muốn để loại bỏ bất kỳ biến từ mô hình Từ kết quả trên ta có hàm hồi quy mẫu là : TongSo = 9.54792E-13 + 1,0 * D.Sat + 1,0 * D.Bo + 1.0 * D.Song + 1,0 * D.HangKhong Plot of TongSo 2400 2000 observed 1600 1200 800 400 0 0 400 Thực hiện : Nhóm – KHMT2 – K4 800 1200 predicted 1600 2000 2400 Trang : 37 Khoa : Công nghệ thông tin Thực hiện : Nhóm – KHMT2 – K4 Môn : Phân tích thống kê số liệu Trang : 38 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu a Tìm sự liên quan giữa: đường sắt, đường bộ với đường thủy, đường sắt với hàng không để thấy được sự ảnh hưởng của các ngành với nhau - Vì có 2 biến phụ thuộc nên ta sử dụng hồi quy bội - Sử dụng hồi quy bội để xét sự ảnh hưởng của giá trị đường sắt và đường bộ đến giá trị đường thủy Để có thể tìm ra hướng điều chỉnh giá trị các ngành để bổ trợ cho nhau và phát triển đồng đều các ngành Thực hiện : Nhóm – KHMT2 – K4 Trang : 39 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu Residual Plot 2.5 Studentized residual 1.5 0.5 -0.5 -1.5 -2.5 110 120 130 140 predicted DuongSong 150 160 Plot of DuongSong 160 150 observed 140 130 120 110 110 120 130 140 150 160 predicted Thực hiện : Nhóm – KHMT2 – K4 Trang : 40 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu b.Kiểm định thống kê - Đường sắt Scatterplot 8.5 9.5 10.5 11.5 12.5 13.5 12.5 13.5 DuongSat Box-and-Whisker Plot 8.5 9.5 10.5 11.5 DuongSat Thực hiện : Nhóm – KHMT2 – K4 Trang : 41 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu c.Đánh giá sự thay đổi giá trị vận tải theo các năm từ 1995 đến 2010 Thực hiện : Nhóm – KHMT2 – K4 Trang : 42 Khoa : Công nghệ thông tin Môn : Phân tích thống kê số liệu Chạy Chart (Cá nhân) - TongSo Dữ liệu biến: TongSo 16 giá trị từ 564,4 2194,3 Trung vị = 977,25 Thử nghiệm quan sát dự kiến dài nhất P (> =) P (