Điều này có nghĩa là mỗi khi tăng giảm tỉ lệ da màu 1 đơn vị thì trung bình giá củasoda sẽ tăng giảm khoảng 0,065 đơn vị.+ Tuy nhiên, do có sự hiện diện của một biến khác income trong mô
Trang 1BÀI TẬP NHÓM 7
Câu 1: Phân tích thống kê mô tả các biến có trong dữ liệu DISCRIM
Câu 2: Xét mô hình: psoda = 0 + 1prpblck + 2income + u (1) a) Ước lượng mô hình hồi quy (1) và báo cáo kết quả hồi quy
- Mô hình (1): psoda = 0,956 + 0,115prpblck + 1,6.10-6income + u
Trang 2b) Ý nghĩa thống kê và ý nghĩa kinh tế của các tham số trong mô hình (1)
- Ý nghĩa kinh tế:
+ Hệ số ^β0=0,956 cho biết: Trong điều kiện các yếu tố khác không đổi, khi không có tỉ lệ da màu và thu nhập, giá soda trung bình là khoảng 0,95632 đơn vị
+ Hệ số ^β1=0,115 cho biết: Trong điều kiện các yếu tố khác không đổi, khi tăng (giảm) tỉ lệ
da màu 1 đơn vị thì trung bình giá của soda sẽ tăng (giảm) khoảng 0,115 đơn vị
+ Hệ số ^β2=1,6 10−6cho biết: Trong điều kiện các yếu tố khác không đổi, khi tăng (giảm) thu nhập 1 đơn vị thì trung bình giá của soda sẽ tăng (giảm) khoảng 1,6.10-6 đơn vị
- Ý nghĩa thống kê:
Hệ số ^β0:
+ Mức ý nghĩa 1%
Đặt giả thuyết: H0: 0 = 0
H1: 0 ≠ 0
p-value = 0,0000 < 0,01 => Bác bỏ H0 => Hệ số ^β0 có ý nghĩa thống kê ở mức ý nghĩa 1%
+ Mức ý nghĩa 5%
Đặt giả thuyết: H0: 0 = 0
H1: 0 ≠ 0
p-value = 0,0000 < 0,05 => Bác bỏ H0 => Hệ số ^β0 có ý nghĩa thống kê ở mức ý nghĩa 5%
+ Mức ý nghĩa 10%
Đặt giả thuyết: H0: 0 = 0
H1: 0 ≠ 0
p-value = 0,0000 < 0,1 => Bác bỏ H0 => Hệ số ^β0 có ý nghĩa thống kê ở mức ý nghĩa 10%
Kết luận: Hệ số ^β0 có ý nghĩa thống kê
Trang 3
Hệ số ^β1:
+ Mức ý nghĩa 1%
Đặt giả thuyết: H0: 1 = 0
H1: 1 ≠ 0
p-value = 0,0000 < 0,01 => Bác bỏ H0 => Hệ số ^β1 có ý nghĩa thống kê ở mức ý nghĩa 1%
+ Mức ý nghĩa 5%
Đặt giả thuyết: H0: 1 = 0
H1: 1 ≠ 0
p-value = 0,0000 < 0,05 => Bác bỏ H0 => Hệ số ^β1 có ý nghĩa thống kê ở mức ý nghĩa 5%
+ Mức ý nghĩa 10%
Đặt giả thuyết: H0: 1 = 0
H1: 1 ≠ 0
p-value = 0,0000 < 0,1 => Bác bỏ H0 => Hệ số ^β1 có ý nghĩa thống kê ở mức ý nghĩa 10%
Kết luận: Hệ số ^β1 có ý nghĩa thống kê
Hệ số ^β2:
+ Mức ý nghĩa 1%
Đặt giả thuyết: H0: 2 = 0
H1: 2 ≠ 0
p-value = 0,0000 < 0,01 => Bác bỏ H0 => Hệ số ^β2 có ý nghĩa thống kê ở mức ý nghĩa 1%
+ Mức ý nghĩa 5%
Đặt giả thuyết: H0: 2 = 0
H1: 2 ≠ 0
p-value = 0,0000 < 0,05 => Bác bỏ H0 => Hệ số ^β2 có ý nghĩa thống kê ở mức ý nghĩa 5%
+ Mức ý nghĩa 10%
Đặt giả thuyết: H0: 2 = 0
H1: 2 ≠ 0
p-value = 0,0000 < 0,1 => Bác bỏ H0 => Hệ số ^β2 có ý nghĩa thống kê ở mức ý nghĩa 10%
Kết luận: Hệ số ^β2 có ý nghĩa thống kê.
Trang 4c) Xây dựng khoảng tin cậy 99%, 95% và 90% của các tham số độ dốc
Kết luận:
CI90% (β1) = [0,0722; 0,158]
CI90% (β2) = [1,01.10−6; 2,2.10−6]
CI95% (β1) = [0,064; 0,166]
CI95% (β2) = [8,91.10−7; 2,31.10−6]
CI99% (β1) = [0,048; 0,182]
CI99% (β2) = [6,66.10−7; 2,54.10−6]
d) Đánh giá sự phù hợp của mô hình Kiểm định giả thiết về phân phối chuẩn và phương sai sai số không đổi của phần dư
- Ý nghĩa R2 (R2 = 0,0642 = 6,42%): Các biến độc lập (prpblck và income) phản ánh được 6,42% biến động của biến phụ thuộc (psoda) trong mô hình hồi quy
- Kiểm định và đưa ra kết luận về sự phù hợp của mô hình hồi quy:
+ Mức ý nghĩa 1%
Đặt giả thuyết: H0: R2 = 0 (Mô hình không phù hợp)
H1: R2 ≠ 0 (Mô hình phù hợp)
Ta có: p-value = 0,000002 < 0,01
=> Bác bỏ giả thuyết H0, nghĩa là R2 ≠ 0 một cách có ý nghĩa thống kê ở mức ý nghĩa 1%
+ Mức ý nghĩa 5%
Đặt giả thuyết: H0: R2 = 0 (Mô hình không phù hợp)
H1: R2 ≠ 0 (Mô hình phù hợp)
Ta có: p-value = 0,000002 < 0,05
=> Bác bỏ giả thuyết H0, nghĩa là R2 ≠ 0 một cách có ý nghĩa thống kê ở mức ý nghĩa 5%
Trang 5+ Mức ý nghĩa 10%
Đặt giả thuyết: H0: R2 = 0 (Mô hình không phù hợp)
H1: R2 ≠ 0 (Mô hình phù hợp)
Ta có: p-value = 0,000002 < 0,1
=> Bác bỏ giả thuyết H0, nghĩa là R2 ≠ 0 một cách có ý nghĩa thống kê ở mức ý nghĩa 10%
Kết luận: Mô hình hồi quy là phù hợp.
- Kiểm định giả thuyết về phân phối chuẩn của phần dư:
+ Mức ý nghĩa 1%
Ta có: p-value = 0,0000 < 0,01
=> Bác bỏ H0 ở mức ý nghĩa 1%
+ Mức ý nghĩa 5%
Ta có: p-value = 0,0000 < 0,05
=> Bác bỏ H0 ở mức ý nghĩa 5%
Trang 6+ Mức ý nghĩa 10%
Ta có: p-value = 0,0000 < 0,1
=> Bác bỏ H0 ở mức ý nghĩa 10%
Kết luận: Phần dư không có phân phối chuẩn.
- Kiểm định giả thuyết phương sai sai số không đổi:
+ Mức ý nghĩa 1%
Đặt giả thuyết: H0: Phương sai sai số không đổi
H1: Phương sai sai số thay đổi
Ta có: Fstat = 0,148 với p-value = 0,863
p-value > 0,01
=> Không đủ cơ sở để bác bỏ H0 ở mức ý nghĩa 1%
Trang 7+ Mức ý nghĩa 5%
Đặt giả thuyết: H0: Phương sai sai số không đổi
H1: Phương sai sai số thay đổi
Ta có: Fstat = 0,148 với p-value = 0,863
p-value > 0,05
=> Không đủ cơ sở để bác bỏ H0 ở mức ý nghĩa 5%
+ Mức ý nghĩa 10%
Đặt giả thuyết: H0: Phương sai sai số không đổi
H1: Phương sai sai số thay đổi
Ta có: Fstat = 0,148 với p-value = 0,863
p-value > 0,1
=> Không đủ cơ sở để bác bỏ H0 ở mức ý nghĩa 10%
Kết luận: Phương sai sai số không đổi.
Câu 3: Loại biến income ra khỏi mô hình (1) và ước lượng mô hình hồi quy đơn psoda theo prpblck? So sánh tác động của prpblck đến psoda ở mô hình hồi quy đơn với mô hình (1)?
- Mô hình hồi quy đơn psoda theo prpblck: psoda = 1,037 + 0,065prpblck + u
Trang 8- So sánh tác động:
Mô hình hồi quy đơn: Tác động của prpblck đến psoda được mô tả bởi hệ số hồi quy
là 0,065 Điều này có nghĩa là mỗi khi tăng (giảm) tỉ lệ da màu 1 đơn vị thì trung bình giá của soda sẽ tăng (giảm) khoảng 0,065 đơn vị
Mô hình (1):
+ Trong mô hình này, biến prpblck như một biến độc lập, nhưng bên cạnh đó còn một biến khác (income) cũng được giả định ảnh hưởng đến psoda
+ Tác động của prpblck đến psoda được mô tả bởi hệ số hồi quy là 0,115 Điều này có nghĩa là mỗi khi tăng (giảm) tỉ lệ da màu 1 đơn vị thì trung bình giá của soda sẽ tăng (giảm) khoảng 0,115 đơn vị
+ Tuy nhiên, do có sự hiện diện của một biến khác (income) trong mô hình, tác động của prpblck đến psoda có thể bị biến đổi do sự tương tác giữa các biến
+ Đồng thời, Tác động của prpblck đến psoda được mô tả bởi hệ số hồi quy là 1,6.10-6 Điều này có nghĩa là mối quan hệ giữa income và psoda cũng được tính đến trong mô hình (1)
Kết luận: Như vậy, trong mô hình hồi quy đơn, tác động của prpblck đến psoda được mô
tả một cách độc lập; trong khi mô hình (1), tác động này có thể bị ảnh hưởng bởi sự hiện diện của một biến khác (income) vì sự tương tác giữa các biến.
Câu 4: Xét mô hình log(psoda) = 0 + 1prpblck + 2log(income) + u (2)
Phân tích các nội dung như Câu 2
a) Ước lượng mô hình (2) và báo cáo kết quả hồi quy
- Mô hình (2): log(psoda) = -0,794 + 0,122prpblck + 0,077log(income) + u
Trang 9b) Ý nghĩa thống kê và ý nghĩa kinh tế của các tham số trong mô hình (2)
- Ý nghĩa kinh tế:
+ Hệ số ^β0=−0,794 cho biết: Trong điều kiện các yếu tố khác không đổi, khi không có tỉ lệ
da màu và thu nhập, giá soda trung bình là khoảng e−0,794 = 0,452 đơn vị
+ Hệ số ^β1=0,122 cho biết: Trong điều kiện các yếu tố khác không đổi, khi tăng (giảm) tỉ lệ
da màu 1 đơn vị thì trung bình giá của soda sẽ tăng (giảm) khoảng 12,2%
+ Hệ số ^β2=0,077 cho biết: Trong điều kiện các yếu tố khác không đổi, khi tăng (giảm) thu nhập 1% thì trung bình giá của soda sẽ tăng (giảm) khoảng 0,077%
- Ý nghĩa thống kê:
Hệ số ^β0:
+ Mức ý nghĩa 1%
Đặt giả thuyết: H0: 0 = 0
H1: 0 ≠ 0
p-value = 0,0000 < 0,01 => Bác bỏ H0 => Hệ số ^β0 có ý nghĩa thống kê ở mức ý nghĩa 1%
+ Mức ý nghĩa 5%
Đặt giả thuyết: H0: 0 = 0
H1: 0 ≠ 0
p-value = 0,0000 < 0,05 => Bác bỏ H0 => Hệ số ^β0 có ý nghĩa thống kê ở mức ý nghĩa 5%
+ Mức ý nghĩa 10%
Đặt giả thuyết: H0: 0 = 0
H1: 0 ≠ 0
p-value = 0,0000 < 0,1 => Bác bỏ H0 => Hệ số ^β0 có ý nghĩa thống kê ở mức ý nghĩa 10%
Kết luận: Hệ số ^β0 có ý nghĩa thống kê.
Hệ số ^β1:
+ Mức ý nghĩa 1%
Đặt giả thuyết: H0: 1 = 0
H1: 1 ≠ 0
p-value = 0,0000 < 0,01 => Bác bỏ H0 => Hệ số ^β1 có ý nghĩa thống kê ở mức ý nghĩa 1%
Trang 10+ Mức ý nghĩa 5%
Đặt giả thuyết: H0: 1 = 0
H1: 1 ≠ 0
p-value = 0,0000 < 0,05 => Bác bỏ H0 => Hệ số ^β1 có ý nghĩa thống kê ở mức ý nghĩa 5%
+ Mức ý nghĩa 10%
Đặt giả thuyết: H0: 1 = 0
H1: 1 ≠ 0
p-value = 0,0000 < 0,1 => Bác bỏ H0 => Hệ số ^β1 có ý nghĩa thống kê ở mức ý nghĩa 10%
Kết luận: Hệ số ^β1 có ý nghĩa thống kê.
Hệ số ^β2:
+ Mức ý nghĩa 1%
Đặt giả thuyết: H0: 2 = 0
H1: 2 ≠ 0
p-value = 0,0000 < 0,01 => Bác bỏ H0 => Hệ số ^β2 có ý nghĩa thống kê ở mức ý nghĩa 1%
+ Mức ý nghĩa 5%
Đặt giả thuyết: H0: 2 = 0
H1: 2 ≠ 0
p-value = 0,0000 < 0,05 => Bác bỏ H0 => Hệ số ^β2 có ý nghĩa thống kê ở mức ý nghĩa 5%
+ Mức ý nghĩa 10%
Đặt giả thuyết: H0: 2 = 0
H1: 2 ≠ 0
p-value = 0,0000 < 0,1 => Bác bỏ H0 => Hệ số ^β2 có ý nghĩa thống kê ở mức ý nghĩa 10%
Kết luận: Hệ số ^β2 có ý nghĩa thống kê
Trang 11c) Xây dựng khoảng tin cậy 99%, 95% và 90% của các tham số độ dốc
Kết luận:
CI90% (β1) = [0,079; 0,164]
CI90% (β2) = [0,049; 0,104]
CI95% (β1) = [0,071; 0,172]
CI95% (β2) = [0,044; 0,109]
CI99% (β1) = [0,055; 0,188]
CI99% (β2) = [0,034; 0,119]
d) Đánh giá sự phù hợp của mô hình Kiểm định giả thiết về phân phối chuẩn và phương sai sai số không đổi của phần dư
- Ý nghĩa R2 (R2 = 0,068 = 6,8%): Các biến độc lập (prpblck, log(income)) phản ánh được 6,8% biến động của biến phụ thuộc (psoda) trong mô hình hồi quy
- Kiểm định và đưa ra kết luận về sự phù hợp của mô hình hồi quy:
+ Mức ý nghĩa 1%
Đặt giả thuyết: H0: R2 = 0 (Mô hình không phù hợp)
H1: R2 ≠ 0 (Mô hình phù hợp)
Ta có: p-value = 0,000001 < 0,01
=> Bác bỏ giả thuyết H0, nghĩa là R2 ≠ 0 một cách có ý nghĩa thống kê ở mức ý nghĩa 1%
+ Mức ý nghĩa 5%
Đặt giả thuyết: H0: R2 = 0 (Mô hình không phù hợp)
H1: R2 ≠ 0 (Mô hình phù hợp)
Ta có: p-value = 0,000001 < 0,05
=> Bác bỏ giả thuyết H0, nghĩa là R2 ≠ 0 một cách có ý nghĩa thống kê ở mức ý nghĩa 5%
Trang 12+ Mức ý nghĩa 10%
Đặt giả thuyết: H0: R2 = 0 (Mô hình không phù hợp)
H1: R2 ≠ 0 (Mô hình phù hợp)
Ta có: p-value = 0,000001 < 0,1
=> Bác bỏ giả thuyết H0, nghĩa là R2 ≠ 0 một cách có ý nghĩa thống kê ở mức ý nghĩa 10%
Kết luận: Mô hình hồi quy là phù hợp.
- Kiểm định giả thuyết về phân phối chuẩn của phần dư:
+ Mức ý nghĩa 1%
H1: Phần dư có phân phối không chuẩn
Ta có: p-value = 0,0000 < 0,01
=> Bác bỏ H0 ở mức ý nghĩa 1%
+ Mức ý nghĩa 5%
H1: Phần dư có phân phối không chuẩn
Ta có: p-value = 0,0000 < 0,05
Trang 13=> Bác bỏ H0 ở mức ý nghĩa 5%.
+ Mức ý nghĩa 10%
H1: Phần dư có phân phối không chuẩn
Ta có: p-value = 0,0000 < 0,1
=> Bác bỏ H0 ở mức ý nghĩa 10%
Vậy phần dư không có phân phối chuẩn.
- Kiểm định giả thuyết phương sai sai số không đổi của phần dư:
Trang 14+ Mức ý nghĩa 1%
Đặt giả thuyết: H0: Phương sai sai số không đổi
H1: Phương sai sai số thay đổi
Ta có: Fstat = 0,083 với p-value = 0,921
p-value > 0,01
=> Không đủ cơ sở để bác bỏ H0 ở mức ý nghĩa 1%
+ Mức ý nghĩa 5%
Đặt giả thuyết: H0: Phương sai sai số không đổi
H1: Phương sai sai số thay đổi
Ta có: Fstat = 0,083 với p-value = 0,921
p-value > 0,05
=> Không đủ cơ sở để bác bỏ H0 ở mức ý nghĩa 5%
+ Mức ý nghĩa 10%
Đặt giả thuyết: H0: Phương sai sai số không đổi
H1: Phương sai sai số thay đổi
Ta có: Fstat = 0,083 với p-value = 0,921
p-value > 0,1
=> Không đủ cơ sở để bác bỏ H0 ở mức ý nghĩa 10%
Kết luận: Phương sai sai số không đổi.
Nếu prpblck tăng 0,2 đơn vị thì psoda thay đổi như thế nào?
Nếu prpblck tăng 0,2 đơn vị thì psoda tăng khoảng (0,2.12,2%) = 2,44%
Trang 15Câu 5: Thêm biến prppov vào mô hình (2) và gọi là mô hình (3) Ước lượng mô hình (3) Nhận xét về hệ số ước lượng của prpblck
- Xét mô hình: log(psoda) = 0 + 1prpblck + 2log(income) + 1prppov + u (3)
- Mô hình (3): log(psoda) = -1,463 + 0,073prpblck + 0,137log(income) + 0,38prppov + u
- Nhận xét về hệ số ước lượng của prpblck:
Hệ số ^β1=0,073 cho biết: Trong điều kiện các yếu tố khác không đổi, khi tăng (giảm) tỉ lệ da màu 1 đơn vị thì trung bình giá của soda sẽ tăng (giảm) khoảng 7,3%
Câu 6: Phân tích sự tương quan giữa prppov và log(income)? Ý nghĩa thực tế của sự tương quan này? Từ đó nhận xét về vấn đề đa cộng tuyến trong mô hình (3)? Ý nghĩa thực tế cảu
mô hình (3) đối với ý tưởng của nhà nghiên cứu ở đề bài?
Đặt X là biến đại diện cho log(income)
Trang 16- Hệ số tương quan giữa prpblck và log(income) là -0,838 Hệ số này cho biết mối quan hệ
nghịch biến giữa hai biến
- Ý nghĩa thực tế của sự tương quan này:
+ Khi tỷ lệ nghèo (prppov) tăng, thu nhập trung bình của hộ gia đình (log(income)) có xu hướng giảm
+ Điều này có thể được giải thích bởi:
Người nghèo có xu hướng tiêu dùng ít hơn, dẫn đến nhu cầu thấp hơn cho các sản phẩm và dịch vụ, từ đó làm giảm thu nhập trung bình
Người nghèo có thể có ít cơ hội giáo dục và đào tạo hơn, dẫn đến năng lực lao động thấp hơn và thu nhập thấp hơn
- Nhận xét về vấn đề đa cộng tuyến trong mô hình (3):
+ Giá trị hệ số tương quan giữa hai biến prppov và log(income) là 0,838 (> 0,8) là khá cao, do đó mô hình (3) có dấu hiệu đa cộng tuyến
+ Thực hiện hồi quy phụ:
Trang 17=> Từ kết quả của bảng trên, ta thấy R2 = 0,703 là cũng khá cao, do đó mô hình (3) xảy ra hiện tượng đa cộng tuyến cao
+ Tính thừa số tăng phương sai VIF:
VIF = 1/(1 – 0,703) = 3,367
Kết luận: Từ 3 dấu hiệu nhận biết trên, ta có thể xác định mô hình (1) xảy ra hiện tượng đa cộng tuyến là khá cao.
- Ý nghĩa thực tế của mô hình (3) đối với ý tưởng của nhà nghiên cứu ở đề bài là:
+ Mô hình (3): log(psoda) = -1,463 + 0,073prpblck + 0,137log(income) + 0,38prppov + u cho phép nhà nghiên cứu kiểm tra mối quan hệ giữa:
Giá của soda (psoda)
Tỉ lệ da màu (prpblck)
Thu nhập trung bình của hộ gia đình (log(income))
Tỉ lệ nghèo (prppov) + Ý nghĩa thực tế của mô hình (3) có thể được giải thích như sau: Biến độc lập prpblck (tỷ lệ da màu) có hệ số hồi quy dương và có ý nghĩa thống kê, điều này có thể cho thấy rằng giá của psoda có xu hướng tăng khi tỷ lệ người da màu tăng lên Điều này có thể được diễn giải rằng những khu vực có đông người da màu hơn thì có thể có nhu cầu tiêu thụ soda cao hơn hoặc các nhà hàng thức ăn nhanh trong khu vực đó có thể định giá sản phẩm cao hơn
=> Vì vậy mô hình (3) phù hợp với ý tưởng của nhà nghiên cứu.