I. Thống kê mô tả Thống kê mô tả (descriptive statistic): là quá trình thu thập, biểu diễn, tổng hợp và xử lý dữ liệu thành thông tin. 1. Biến và dữ liệu Biến (varible): là một đặc trưng thay đổi từ người hay vật, hiện tượng này sang người hay vật, hiện tượng khác. Biến gồm hai loại: biến định tính và biến định lượng. Dữ liệu (data): các giá trị của một biến. Tập hợp tất cả những quan trắc (observation) cho một biến cụ thể được gọi là một tập dữ liệu (dataset) 2. Các đặc trưng của tổng thể và mẫu Trung bình (mean): là đại lượng thường được sử dụng nhất để đo giá trị trung tâm dữ liệu. Phương sai (variance): là trung bình phương sai độ lệch các giá trị so với trung bình. Phương sai phản ánh độ phân tán hay sự biến thiên của dữ liệu. Độ lệch chuẩn (standard deviation): là căn bậc hai dương của phương sai. Độ lệch chuẩn dùng để đo sự biến thiên, biểu diễn sự biến thiên xung quanh trung bình và có cùng đơn vị với dữ liệu gốc. Sai số chuẩn (standard error): là giá trị đại diện cho độ lệch chuẩn của giá trị trung bình trong tập dữ liệu. Nó là thước đo biến đọng cho các biến ngẫu nhiên hay đo lường độ phân tán. Độ phân tán càng nhỏ, dữ liệu càng chính xác. Trung vị (median): Giả sử X có N quan sát, xếp các quan sát này theo thứ tự tăng dần. Trung vị là giá trị nằm chính giữa dãy số này và chia nó thành hai phần bằng nhau.
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ ĐỀ TÀI LỚP: DT03 NHÓM: 12 HK223 GVHD: NGUYỄN KIỀU DUNG SINH VIÊN THỰC HIỆN STT MSSV HỌ TÊN 2112448 Nguyễn Chánh Tín 1913810 Nguyễn Anh Khoa 2113984 Nguyễn Văn Luân 2014943 Nguyễn Anh Tuấn 2011920 Nguyễn Quốc Quân 1912917 Phạm Ngọc Duy ĐIỂM BTL TP HỒ CHÍ MINH, NĂM HỌC 2022 -2023 GHI CHÚ MỤC LỤC PHẦN LÝ THUYẾT I Thống kê mô tả Biến liệu Các đặc trưng tổng thể mẫu II Hồi quy tuyến tính bội III a Mơ hình hồi quy bội b Kiểm định tham số hồi quy tổng thể c Phân tích phương sai hồi quy Phân tích phương sai a Anova nhân tố b So sánh trung bình nhóm (so sánh bội) PHẦN HOẠT ĐỘNG I HOẠT ĐỘNG Đề bài: Xử lí u cầu tốn 10 2.1 Nhập "làm sạch" liệu (xét liệu ngoại lai), thực thống kê mô tả 10 2.2 Chia liệu 12 2.3 Chọn mơ hình tốt giải thích cho biến phụ thuộc "mpg" 13 2.4 Dự báo 17 II HOẠT ĐỘNG 22 Đề 22 Xử lí liệu 22 2.1 Đọc liệu 22 2.2 Làm liệu 22 2.3 Làm rõ liệu 23 2.4 Xây dựng mơ hình hồi quy tuyến tính 26 2.5 Dự báo 28 TÀI LIỆU THAM KHẢO 30 PHẦN LÝ THUYẾT I Thống kê mô tả Thống kê mô tả (descriptive statistic): trình thu thập, biểu diễn, tổng hợp xử lý liệu thành thông tin Biến liệu Biến (varible): đặc trưng thay đổi từ người hay vật, tượng sang người hay vật, tượng khác Biến gồm hai loại: biến định tính biến định lượng Dữ liệu (data): giá trị biến Tập hợp tất quan trắc (observation) cho biến cụ thể gọi tập liệu (dataset) Các đặc trưng tổng thể mẫu Trung bình (mean): đại lượng thường sử dụng để đo giá trị trung tâm liệu Phương sai (variance): trung bình phương sai độ lệch giá trị so với trung bình Phương sai phản ánh độ phân tán hay biến thiên liệu Độ lệch chuẩn (standard deviation): bậc hai dương phương sai Độ lệch chuẩn dùng để đo biến thiên, biểu diễn biến thiên xung quanh trung bình có đơn vị với liệu gốc Sai số chuẩn (standard error): giá trị đại diện cho độ lệch chuẩn giá trị trung bình tập liệu Nó thước đo biến đọng cho biến ngẫu nhiên hay đo lường độ phân tán Độ phân tán nhỏ, liệu xác Trung vị (median): Giả sử X có N quan sát, xếp quan sát theo thứ tự tăng dần Trung vị giá trị nằm dãy số chia thành hai phần II Hồi quy tuyến tính bội a Mơ hình hồi quy bội Giả sử Y phụ thuộc k biến độc lập 𝑋1 …𝑋𝑘 , ta có mơ hình hồi qui tuyến tính bội dạng tuyến tính sau: 𝑌 = 𝛼 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 + 𝑈 Trong đó: Y: Biến số phụ thuộc (dependent/ repponse variable) X: Biến số độc lập (independent/ predictor variable) β: Hệ số hồi quy riêng, thể mức độ biến thiên Y biến Xi thay đổi đơn vị α: Hệ số chặn U: Sai số ngẫu nhiên b Kiểm định tham số hồi quy tổng thể Tương tự kiểm định hồi quy đơn giản Trường hợp 𝛽𝑖 = Xi Y khơng có mối quan hệ nào, trường hợp 𝛽𝑖 > (𝛽𝑖 < 0) Xi Y có mối quan hệ thuận (nghịch) Ở mức ý nghĩa 𝛼, giả thuyết 𝐻0 kiểm định trường hợp sau: Giả thuyết { 𝐻0 ∶ 𝛽𝑖 ≤ 𝐻0 ∶ 𝛽𝑖 > Giá trị kiểm định Bác bỏ 𝑯𝟎 𝑡 > 𝑡𝑛−𝑘−1,𝛼 { 𝐻0 ∶ 𝛽𝑖 ≥ 𝐻0 ∶ 𝛽𝑖 < 𝑏𝑖 𝑡= 𝑆𝑏𝑖 𝑡 < −𝑡𝑛−𝑘−1,𝛼 { 𝐻0 ∶ 𝛽𝑖 = 𝐻0 ∶ 𝛽𝑖 ≠ 𝑡 > 𝑡𝑛−𝑘−1,𝛼 𝑡 < −𝑡𝑛−𝑘−1,𝛼 c Phân tích phương sai hồi quy Hệ số xác định: 𝑅2 = 𝑆𝑆𝑅 𝑆𝑆𝐸 =𝐼= 𝑆𝑆𝑇 𝑆𝑆𝑇 Hệ số 𝑅2 nói lên tính chặt chẽ biến phụ thuộc Y biến độc lập 𝑋𝑖 , tức thể phần trăm biến thiên Y giải thích biến thiên tất biến 𝑋𝑖 Đối với người nghiên cứu họ mong muốn hệ số 𝑅2 lớn tốt, nhiên 𝑅2 hàm không giảm theo số lượng biến đưa vào Điều dẫn đến trị chơi số 𝑅2 cách đưa vào mơ hình nhiều biến để có hệ số 𝑅2 lớn Để khắc phục nhược điểm này, người ta đưa hệ số xác định điều chỉnh đánh giá mức độ phụ thuộc Y vào biến X xác Hệ số xác định hiệu chỉnh: 𝑅2 = 𝑆𝑆𝑅/(𝑛 − 𝑘 − 1) 𝑛−1 =1−( ) (1 − 𝑅 ) 𝑆𝑆𝑇/(𝑛 − 1) 𝑛−𝑘−1 ̅̅̅2̅ nhau, thơng thường hai hệ số Xét mặt ý nghĩa 𝑅2 𝑅 chênh lệch không nhiều Trong số trường hợp số lượng biến X tương đối lớn n, ta nên dùng hệ số xác định có điều chỉnh để đo lường mức độ thích hợp mơ hình hồi qui bội Phân tích ANOVA hồi qui bội Đặt giả thuyết H0 : 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑘 H1 : Không phải tất 𝛽𝑖 = Bảng ANOVA phân tích hồi quy tuyến tính bội Biến thiên Tổng độ lệch bình phương Bậc tự Phương sai Giá trị kiểm Hồi qui Sai số Tổng cộng SSR SSE SST k n - ( k + 1) n-1 MSR = SSR/k MSE = SSE/(n-k-1) F = MSR/MSE Qui tắc bác bỏ giả thuyết H0 :𝐹 > 𝐹𝑘,𝑛−𝑘−1,𝛼 , 𝐹𝑘,𝑛−𝑘−1,𝛼 có phân phối F Trong trường hợp ta có hệ số xác định 𝑅2 giá trị kiểm định tính cơng thức sau: 𝑛 − 𝑘 − 𝑅2 𝐹= 𝑘 − 𝑅2 III Phân tích phương sai a Anova nhân tố Phân tích phương sai, hay viết tắt ANOVA, q trình thống kê phân tích biến định lượng chẳng hạn: - Thí nghiệm nghiên cứu ảnh hưởng năm loại xăng khác lên hiệu sử dụng xe - Thí nghiệm nghiên cứu ảnh hưởng bốn loại đường khác (glucose, sucrose, fructose, hỗn hợp chúng) lên dộ tăng trưởng vi khuẩn Anova thực mở rộng phương pháp kiểm định t cho mẫu độc lập so sánh trung bình nhóm gồm quan sát độc lập Không phương pháp kiểm định t, Anova so sánh nhiều hai nhóm Lưu ý Anova khơng so sánh phương sai, mà phân tích phương sai để so sánh kì vọng Ta kí hiệu I số nhóm (nghiệm thức) mà ta cần so sánh, 𝜇1 , , 𝜇𝐼 kỳ vọng quần thể 1, ,I (tức trung bình tất quan sát có nghiệm thức 1, ,I sử dụng) Ta muốn kiểm định cá giả thiết sau: Giả thuyết vô hiệu H0 : Trung bình nhóm (𝜇1 = 𝜇2 = ⋯ = 𝜇𝐼 ) Giả thuyết thay H1 : Có khác biệt trung bình nhóm (có hai giá trị 𝜇1 𝜇𝑘 khác nhau.) Ta giả sử mẫu có kích thước J Kí hiệu 𝑋𝑖𝑗 𝑥𝑖𝑗 biến ngẫu nhiên giá trị quan sát thứ j từ quần thể thứ i Nhóm Nhóm … Nhóm I 𝑋11 𝑋21 … 𝑋𝐼1 𝑋12 𝑋22 … 𝑋𝐼2 … … … … 𝑋1𝐽 𝑋2𝐽 … 𝑋𝐼𝐽 Bước 1: Tính số trung bình Gọi ̅̅̅ 𝑋1 , … , 𝑋̅𝐼 trung bình mẫu quần thể: 𝑋̅𝑖 = ∑𝐽𝑗=1 𝑋𝑖𝑗 𝐽 Trung bình tất IJ quan sát, hay trung bình tồn thể, là: 𝑋̅ = ∑𝐼𝑖=1 ∑𝐽𝑗=1 𝑋𝑖𝑗 𝐽 Bước 2: Tính tổng bình phương • Tổng bình phương nghiệm thức 𝐽 𝐼 𝐼 ̅ )2 𝑆𝑆𝑇𝑟 = ∑ ∑(𝑋̅𝑖 − 𝑋 𝑖=1 𝑗=1 = 𝐽 ∑(𝑋̅𝑖 − 𝑋̅ )2 𝑖=1 • Tổng bình phương sai số 𝐼 𝐽 𝐼 𝑆𝑆𝐸 = ∑ ∑(𝑋𝑖𝑗 − 𝑋̅ ) = (𝐽 − 1) ∑ 𝑆𝑖 𝑖=1 𝑗=1 𝑖=1 • Tổng bình phương tồn thể 𝐼 𝐽 𝑆𝑆𝑇𝑟 = ∑ ∑(𝑋𝑖𝑗 − 𝑋̅ ) 𝑖=1 𝑗=1 Và ta có: SST = SSTr + SSE Bước 3: Tính phương sai Trung bình bình phương nghiệm thức: 𝑀𝑆𝑇𝑟 = 𝑆𝑆𝑇𝑟/(𝐼 − 1) Trung bình bình phương sai số: 𝑀𝑆𝐸 = 𝑆𝑆𝐸/[𝐼(𝐽 − 1)] Bước 4: Kiểm định giả thuyết Xét đại lượng thống kê: Nếu H0 𝐹~𝐹𝐼−1,𝐼(𝐽−1) Quyết định bác bỏ H0 F > Fα = F(α, I – 1, I(J – 1)) Bảng 2: Bảng tổng quát ANOVA nhân tố Tác nhân Bậc tự Tổng bình phương Nghiệm thức (giữa mẫu) I–1 SSTr Trung bình bình phương 𝑆𝑆𝑇𝑟 𝑀𝑆𝑇𝑟 = 𝐼−1 F 𝑀𝑆𝑇𝑟 MSE 𝑆𝑆𝐸 Sai số 𝑀𝑆𝑇𝑟 = I(J – 1) SSE (trong mẫu) I(J – 1) Toàn thể IJ - SST b So sánh trung bình nhóm (so sánh bội) Sau phân tích phương sai, giả sử ta có: F > Fα = F(α, I – 1, I(J – 1)), ta kết luận “yếu tố khảo sát có ảnh hưởng đến đại lượng khảo sát” Thực điều cho ta biết có hai nhóm mà số trung bình chúng khác có ý nghĩa mặt thống kê khơng phải tất số trung bình nhóm khác đơi Vì bước thường so sánh tất tất cặp nhóm để xem xét khác biệt số trung bình 𝜇1 Có số phương pháp để so sánh khác biệt Ở xem xét phương pháp “Sai biệt nhỏ có ý nghĩa” (Least Significant Difference – LSD) Fisher đề xuất Trong phương pháp này, ta so sánh trị số tuyệt đói hiệu số trung bình mẫu hai nhóm với giá trị LSD xác định cơng thức sau: 𝐿𝐷𝑆 = 𝑇𝛼 (𝐼(𝐽−1)) √ 2𝑀𝑆𝐸 𝐽 Nếu: |𝑋̅𝑖 − ̅̅̅ 𝑋𝑘 | > 𝐿𝑆𝐷: khác biệt 𝑋̅𝑖 ̅̅̅ 𝑋𝑘 có ý nghĩa mặt thống kê, nghĩa 𝜇𝑖 ≠ 𝜇𝑘 |𝑋̅𝑖 − ̅̅̅ 𝑋𝑘 | ≤ 𝐿𝑆𝐷: khác biệt 𝑋̅𝑖 ̅̅̅ 𝑋𝑘 khơng có ý nghĩa mặt thống kê, nghĩa 𝜇𝑖 = 𝜇𝑘 Ta sử dụng khoảng tin cậy cho hiệu hai trung bình mẫu để đưa kết luận khác biệt trung bình tổng thể sau: Khoảng tin cậy với độ tin cậy − 𝛼 hiệu 𝑋̅𝑖 − ̅̅̅ 𝑋𝑘 là: (𝑋̅𝑖 − ̅̅̅ 𝑋𝑘 − 𝐿𝑆𝐷, 𝑋̅𝑖 − ̅̅̅ 𝑋𝑘 + 𝐿𝑆𝐷) Nếu ∉ (𝑋̅𝑖 − ̅̅̅ 𝑋𝑘 − 𝐿𝑆𝐷, 𝑋̅𝑖 − ̅̅̅ 𝑋𝑘 + 𝐿𝑆𝐷) khác biệt 𝜇𝑖 𝜇𝑘 có ý nghĩa mặt thống kê, nghĩa 𝜇𝑖 ≠ 𝜇𝑘 Nếu ∈ (𝑋̅𝑖 − ̅̅̅ 𝑋𝑘 − 𝐿𝑆𝐷, 𝑋̅𝑖 − ̅̅̅ 𝑋𝑘 + 𝐿𝑆𝐷) khác biệt 𝜇𝑖 𝜇𝑘 khơng có ý nghĩa mặt thống kê, nghĩa 𝜇𝑖 = 𝜇𝑘 PHẦN HOẠT ĐỘNG I HOẠT ĐỘNG 1 Đề bài: Dữ liệu cho file "auto-mpg.csv" liệu tiêu thụ nhiên liệu xe thành phố Dữ liệu lấy từ UCI Machine Learning Repository (https://archive.ics.uci.edu/ml/datasets/Auto+MPG) Bộ liệu gồm 398 quan trắc biến sau: • "mpg": (continuous) mức tiêu thụ nhiên liệu tính theo dặm galon (miles/gallon) • "cylinders": (multi-valued discrete) số xy lanh • "displacement" : (continuous) kích thước động • "horsepower" : (continuous) công suất động • "weight" : (continuous) khối lượng • "acceleration" : (continuous) gia tốc xe • "model year": (multi-valued discrete) năm sản xuất model (2 số cuối) • "origin": (multi-valued discrete) nơi sản xuất: - North American, - Europe, - Asia • "car name": (multi-valued discrete) tên xe Nhập "làm sạch" liệu (lưu ý, biến "horsepower" có quan trắc thiếu liệu; xét xem có liệu ngoại lai không?), thực thống kê mô tả (Chú ý cột file "auto-mpg.csv" phân tách dấu ";", đọc file liệu dùng lệnh "read.csv" cần thêm sep = ";") Chia liệu làm phần: mẫu huấn luyện (training dataset) gồm 200 quan trắc đặt tên "auto_mpg1" mẫu kiểm tra (validation dataset) gồm quan trắc lại liệu ban đầu "làm sạch", đặt tên "auto_mpg2" Chọn mơ hình tốt giải thích cho biến phụ thuộc "mpg" thông qua việc chọn lựa biến độc lập phụ hợp biến độc lập lại từ mẫu huấn luyện " "auto_mpg1" Cần trình bày bước phương pháp chọn, tiêu chuẩn chọn mơ hình, lý chọn phương pháp Kiểm tra giả định (giả thiết) mơ hình Nêu ý nghĩa mơ hình chọn Dự báo (Prediction): Sử dụng mẫu kiểm tra (validation dataset) "auto_mpg2" dựa vào mơ hình tốt chọn đưa số liệu dự báo cho biến phụ thuộc "mpg" Gọi kết dự báo biến "predict_mpg" So sánh kết dự báo "predict_mpg" với giá trị thực tế "mpg" Rút nhận xét? Xử lí yêu cầu toán 2.1 Nhập "làm sạch" liệu (xét liệu ngoại lai), thực thống kê mô tả a Nhập “làm sạch” liệu Sử dụng lệnh read.csv để nhập liệu từ file, đặt tên “oto” Sau kiểm tra liệu, thấy xuất vị trí chứa liệu khuyết biến “horsepower ” 10 c Kiểm định giả thiết mơ hình hồi quy ý nghĩa mơ hình chọn Tất phân tích dựa giả định quan trọng sau: X biến số cố định (hay không biến ngẫu nhiên) ℇi phân phối theo luật phân phối chuẩn ℇi có phương sai cố định ℇi có giá trị trung bình 16 Các giá trị liên tục ℇi khơng có liên hệ tương quan Nếu giả định đáp ứng vấn đề mà ta ước tính phương trình tuyến tính sau cho biến phụ thuộc y hợp lý Giả định đáng tin cậy biến độc lập x mà quan tâm cố định, không thay đổi Dữ liệu thu thập từ thực nghiệm đo lường Đồ thị Residuals vs Fitted: Biểu đồ vẽ phần dư ℇi giá trị tiên đoán y^ Nếu phần dư tập trung xung quanh đường y = 0, điều cho thấy giả định số (ℇi có giá trị trung bình 0) hợp lý Đồ thị Normal Q-Q: Biểu đồ sử dụng để kiểm tra giả định phân phối chuẩn sai số Các điểm thặng dư nằm đường thẳng, điều cho thấy giả định số (phân phối chuẩn) đáp ứng Đồ thị Scale-Location: Biểu đồ vẽ bậc hai sai số chuẩn hóa theo giá trị dự báo Đường màu đỏ biểu đồ gần đường thẳng ngang điểm thặng dư phân tán xung quanh nó, điều cho thấy giả định số (phương sai sai số không đổi) hợp lý Đồ thị Residuals vs Leverage: Biểu đồ giúp xác định điểm có ảnh hưởng cao liệu Nếu có điểm vượt qua đường thẳng khoảng cách Cook's distance, nghĩa điểm có ảnh hưởng cao Tuy nhiên, có đường thẳng khoảng cách Cook góc biểu đồ mà khơng có điểm vượt qua nó, tức khơng có điểm có ảnh hưởng cao Trong trường hợp này, quan trắc thứ 165, 71, 111 xác định có ảnh hưởng cao liệu Tổng quan, qua việc phân tích phần dư, kết luận mơ hình hồi quy biến phụ thuộc "mpg" biến độc lập chọn phù hợp có ý nghĩa 2.4 Dự báo a Mơ hình tiên đốn Cũng giống mơ hình hồi quy tuyến tính đơn biến, mơ hình hồi quy đa biến diễn đạt qua phương trình chủ yếu sau: yi= α+β1x1+β2x2+….+βnxn+ℇi Nếu ta tìm tham số α, βi, ℇi phương trình ta hồn tồn xác định y, thực tế khơng thể tìm mà ta dựa liệu để đưa ước tính tham số α, βi phương sai ℇi Hàm “lm” R cho ta biết giá trị ước tính tham số α, βi phương sai ℇi : 17 Phân tích kết quả: Phần 1: Mơ tả phần dư mơ hình Ta biết trung bình phần dư phải 0, số trung vị -0,2028 không xa Các giá trị tứ phân vị cung cân đối xung quanh giá trị trung vị Phần 2: Kiểm định t giá trị ước tính α,β Giá trị ước tính tham số α 45.9374 Giá trị ước tính tham số β -3,7069 Giá trị kiểm định t với p < 2e^-16 nên ta hồn tồn có đủ sở để bác bỏ giả định tham số β = 0, chứng tỏ điều biến mpg cylinders mối liên hệ có ý nghĩa thống kê Phần 3: Sai số chuẩn phần dư S^2 =5.343 Phần 4: Hệ số điều chỉnh xác định bội R^2 R^2 =0.524, hệ số cao mối liên hệ biến chặt chẽ Trong mơ hình trên, nhóm làm việc biến mpg cylinders, với “cylinders” yếu tố, để chặt chẽ mặt tìm giá trị ước lượng cho tham số y, ta làm việc biến mpg với nhiều biến độc lập hơn, từ đưa nhận xét Theo dõi kết phân tích giống mơ hình yếu tố trên: 18 Mơ hình biến độc lập: “cylinders”, “displacement” Mơ hình biến độc lập “cylinders”, “displacement”, “horsepower” Mơ hình biến độc lập “cylinders”, “displacement”, “horsepower”, “weight” 19 Mơ hình biến độc lập “cylinders”, “displacement”, “horsepower”, “weight”, “acceleration” Mơ hình biến độc lập “cylinders”, “displacement”, “horsepower”, “weight”, “acceleration”, “model.year” Mơ hình biến độc lập “cylinders”, “displacement”, “horsepower”, “weight”, “acceleration”, “model.year”, “origin” 20 Sau q trình theo dõi phân tích yếu tố tham số kết R, nhóm nhận thấy đưa biến độc lập phù hợp với biến “mpg” vào mơ hình hồi quy tuyến tính bội có tăng cao hệ số điều chỉnh kiểm định, chứng tỏ biến đằng sau thêm vào có mối liên hệ chặt chẽ với biến phụ thuộc Bên cạnh có biến độc lập có mối liên hệ lẫn b Số liệu dự báo cho biến phụ thuộc “mpg” Dùng hàm “fitted” cho biến “predict_mpg” cho ta kết giá trị dự báo “mpg” Bảng kết dự báo biến “mpg”: Bảng giá trị thực biến “mpg” Ta dùng hàm “resid” để tính tốn phần dư sau dự đoán So sánh giá trị ước tính “mpg” giá trị thực ta thấy có khác biệt khơng q chênh lệch 21 II HOẠT ĐỘNG Đề Tập tin “gia_xe.csv” chứa thông tin việc định giá 205 ô tô hãng xe thị trường nước Mỹ Bên cạnh giá xe, liệu bao gồm thuộc tính mơ tả chất lượng xe Dữ liệu gốc cung cấp tại: https://www.kaggle.com/hellbuoy/carprice-prediction Các biến liệu: • fueltype: Loại nhiên liệu xe • carlength: Chiều dài xe • carwidth: Chiều rộng xe • carheight: Chiều cao xe • curbweight: Trọng lượng xe • enginetype: Loại động • enginesize: Kích cỡ động • horsepower: Mã lực xe • price: Giá bán xe Xử lí liệu 2.1 Đọc liệu Dùng lệnh read.csv để nhập liệu từ file, đặt tên “HD2” 2.2 Làm liệu Tạo liệu với biến mà ta quan tâm, đặt tên “car” 22 Tiếp đến, ta kiểm tra liệu khuyết “car” Nhận thấy khơng có liệu khuyết nên ta bỏ qua bước làm 2.3 Làm rõ liệu a Các biến liên tục liệu là: price, carlength, carwidth, carheight, curbweight, enginesize, horsepower Ta chuyển biến liên tục sang dạng log Giải thích lí chuyển đổi biến sang dạng log(x): • • • Cải thiện phù hợp mơ hình: giả định ta xây dựng mơ hình hồi quy sai số hồi quy (phần dư) phải có phân phối chuẩn, trường hợp sai số hồi quy (phần dư) khơng có phân phối chuẩn việc lấy log của biến giúp thay đổi tỉ lệ làm cho biến có phân phối chuẩn Ngồi ra, trường hợp phần dư (phương sai thay đổi) biến độc lập gây ra, ta chuyển đổi biến sang dạng log Diễn giải: lý giúp ta diễn giải mối quan hệ biến thuận tiện Nếu ta lấy log biến phụ thuộc Y biến độc lập X, hệ số hồi quy β hệ số co giãn diễn giải sau: X tăng 1% dẫn đến tăng việc ta kỳ vọng Y tăng lên β% (về mặt trung bình Y), Ước lượng mơ hình phi tuyến: việc lấy log cho phép ta ước lượng mơ hình hồi quy tuyến tính b Tiến hành tính giá trị thống kê mô tả 23 c Dùng hàm table để lập bảng thống kê số lượng cho fueltype, enginetype d Dùng hàm hist để vẽ đồ thị phân phối biến price e Dùng hàm boxplot để vẽ phân phối biến price theo phân loại biến fueltype, enginetype: 24 f Dùng hàm pairs để vẽ biểu đồ thể phân phối biến price theo biến carlength, carwidth, carheight, curbweight, enginesize, horsepower Nhận xét: Từ đồ thị phân tán, ta nhận xét biến carlength, carwidth, curbweight, enginesize, horsepower có mối quan hệ tuyến tính với biến price (nói rõ quan hệ đồng biến) biến carheight khơng có mối quan hệ với biến price 25 2.4 Xây dựng mô hình hồi quy tuyến tính Để nghiên cứu có nhân tố tác động đến giá xe thị trường nước Mỹ a Ta xây dựng mơ hình hồi quy bội bao gồm: Biến phụ thuộc: price Biến dự báo (biến độc lập): carlength, carwidth, carheight, curbweight, enginesize, horsepower, fueltype, enginetype Trong fueltype, enginetype biến phân loại Sử dụng lệnh lm để xây dựng mơ hình hồi quy tuyến tính bội Dựa vào kết mơ hình hồi quy tuyến tính trên, ta đặt giả thiết Giả thiết H : Các hệ số hồi quy ứng với biến khơng có ý nghĩa thống kê ̅ : Các hệ số hồi quy ứng với biến có ý nghĩa thống kê Giả thiết H Vì Pr ứng với biến enginetypedohcv, enginetypel, enginetypeohc, enginetypeohcf, enginetypeohcv, carlength lớn mức ý nghĩa α=0,05 nên ta chấp nhận giả thuyết H Do hệ số ứng với biến khơng có ý nghĩa thống kê, ta loại bỏ biến khỏi mơ hình Các hệ số ứng với biến cịn lại có Pr bé mức ý nghĩa α=0,05, nên ta ̅ , tức hệ số hồi quy ứng với biến có ý nghĩa thống kê Do bác bỏ H, chấp nhận H đó, ta khơng cần loại bỏ biến khỏi mơ hình 26 b Xét mơ hình tuyến tính bao gồm biến price biến phụ thuộc • Mơ hình chứa tất biến lại biến độc lập • Mơ hình loại bỏ biến enginetype từ mơ hình Ta xây dựng mơ hình Sử dụng lệnh anova để so sánh mơ hình Ta có: Giả thiết H: Hai mơ hình 1, hiệu ̅ : Hai mơ hình 1, hiệu khác Giả thiết H Vì xác suất quan sát Pr = 0.01198 < mức ý nghĩa α=0,05 nên bác bỏ giả thiết H, ̅ Vậy hai mơ hình 1, hiệu khác Vì biến enginetype chấp nhận giả thiết 𝐻 có enginetyperotor có ảnh hưởng tới mơ hình (do hệ số ứng với enginetyperotor có ý nghĩa thống kê), bỏ biến enginetype gây ảnh hưởng tới mơ hình, khiến mơ hình trở nên tệ Do mơ hình hiệu mơ hình c Vẽ đồ thị sai số hồi quy sai số dự báo 27 Nhận xét: Đường màu đỏ cong, chưa phải đường thẳng, nói chưa thỏa mãn giả định tuyến tính price biến độc lập Các sai số hồi quy phân tán quanh đường thẳng Y = 0, cho thấy phương sai sai số số Có vài điểm ngoại lai sai số hồi quy Đây ngun nhân ảnh hưởng đến mơ hình hồi quy chưa thực tốt 2.5 Dự báo Từ mô hình 2, ta dùng lệnh predict để dự báo price thuộc tính sau: X1: carwidth = mean (carwidth), carheight = mean (carheight), carlength = mean (carlength), curbweight = mean (curbweight), enginesize = mean (enginesize), horsepower = mean (horsepower), fueltype = “gas”, enginetype = “dohc” X2: carwidth = max (carwidth), carheight = max (carheight), carlength = max (carlength), curbweight = max (curbweight), enginesize = max (enginesize), horsepower = max (horsepower), fueltype = “gas”, enginetype = “dohc” Ta xây dựng thuộc tính X1 dự báo biến price, đặt tên “PRX1” Ta xây dựng thuộc tính X2 dự báo biến price, đặt tên “PRX2” 28 Tiếp đến, tạo bảng so sánh dự báo thuộc tính X1, X2 Nhận xét: Với khoảng tin cậy 95%, ta thấy chiều dài khoảng tin cậy (range) X1 < X2 nên ta kết luận với tập liệu từ X1, ta thu giá trị dư báo xác so với X2 29 TÀI LIỆU THAM KHẢO [1] Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất - Thống kê & Phân tích số liệu, 2019 [2] Nguyễn Văn Tuấn (chủ biên), Phân tích liệu với R, Nhà Xuất tổng hợp Thành phố Hồ Chí Minh 30