Tương ứngvới mỗi thang Điểm thì mỗi loại rượu nhận được đánh Giá tương ứng là Classic, Outstanding, Verygood, Good, Mediocreanh Not recommended.Sau khi biết được đánh Giá xếp hạng của cá
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN KINH TẾ VÀ QUẢN LÝ
~~~~~~*~~~~~~
BÀI TIỂU LUẬN HỌC PHẦN: THỐNG KÊ ỨNG DỤNG ĐỀ TÀI: RATING WINES FROM THE
PIEDMONT REGION OF ITALY
Giảng viên hướng dẫn: TS Hà Thị Thư Trang
Nhóm sinh viên thực hiện: Nhóm 7
Nguyễn Huy Cao 20213197
Nguyễn Thùy Dương 20213204
Đỗ Văn Lộc 20213217
Đỗ Đức Long 20213215
Hà Mạnh Quyền 20213221
Nguyễn Văn Thạo 20213223
HÀ NỘI – 7/2023
Trang 2Mục Lục
Chương 1: ĐẶT VẤN ĐỀ VÀ ĐỀ XUẤT MÔ HÌNH 3
1.1 Đặt vấn đề 3
1.2 Đề xuất mô hình 3
Chương 2: KẾT QUẢ PHÂN TÍCH 4
2.1.Phân tích thống kê mô tả 4
2.1.1Thống kê mô tả về giá cả của các loại rượu 5
2.1.2Thống kê mô tả về điểm của các loại rượu và đánh giá 5
2.2.Biểu đồ phân tán 7
2.3 Kiểm định giả thuyết nghiên cứu 7
2.4.Phân tích hồi quy tuyến tính 8
2.5Phân tích hồi quy tuyến tính bậc 2 12
2.6Lựa chọn mô hình hồi quy 14
Chương 3: Kết luận 15
LỜI MỞ ĐẦU 17
Trang 3Chương 1: ĐẶT VẤN ĐỀ VÀ ĐỀ XUẤT MÔ HÌNH 1.1 Đặt vấn đề
Tạp chí Wine Spectator có những bài viết và đánh Giá về mọi khía cạnh của ngành công nghiệp
rượu vang Họ cũng có những bảng xếp hạng rượu vang từ khắp nơi trên thế giới Vào năm 2011, họ đã xem xét và cho Điểm 475 loại rượu vang từ cùng Piedmont của Ý bằng thang Điểm 100 Tương ứng với mỗi thang Điểm thì mỗi loại rượu nhận được đánh Giá tương ứng là Classic, Outstanding, Very good, Good, Mediocreanh Not recommended
Sau khi biết được đánh Giá xếp hạng của các loại vang, một câu hỏi quan trọng được hầu hết người tiêu dùng đặt ra là liệu trả nhiều tiền hơn cho một chai rượu vang có dẫn đến rượu vang ngon hơn hay không? Chất lượng rượu vang liệu có phụ thuộc vào giá cả của nó?
Để điều tra câu hỏi, thắc mắc đó Wine Spectator đã sử dụng một mẫu ngẫu nhiên gồm 100 chai rượu vang trong số 475 chai đến từ vùng Piedmont của Ý Họ sử dụng phương pháp lấy mẫu ngẫu nhiên để lựa chọn
1.2 Đề xuất mô hình
Trên thực tế, ta có thể thấy thường những đồ vật càng đắt tiền thì chất lượng càng cao, tính năng càng nhiều Ngoài ra, đồ ăn nào càng đắt thì thể hiện rằng chất lượng đồ
ăn đó càng tốt, độ quý hiếm cao và được đánh Giá cao về chất lượng
Qua đó, ta có thể thấy Giá của rượu vang có thể ảnh hưởng đến Chất lượng của rượu vang và Điểm đánh giá về rượu vang
Qua những nhận định trên, giả thuyết nhóm đặt ra được phát biểu như sau:
Giả thuyết H: Giá cả của rượu vang càng cao thì Điểm đánh giá loại rượu đó
càng cao và loại rượu vang đó càng ngon
Hình 1.1 Mô hình đề xuất
H (+)
Đánh Giá Giá cả
Trang 4Chương 2: KẾT QUẢ PHÂN TÍCH 2.1 Phân tích thống kê mô tả
Bảng 2.1 Phân tích thống kê mô tả của 3 biến Giá, Điểm
Trang 52.1.1 Thống kê mô tả về giá cả của các loại rượu
Từ số liệu trên ta thấy được, Giá cả trung bình của 100 chai rượu là 63.11 đô Giá chai rượu thấp nhất
là 10 đô còn cao nhất là 440 đô/chai rượu Giá của những loại rượu này chủ yếu nằm trong khoảng từ
10 đô đến 50 đô/chai, chiếm 60% trong tổng 100 chai rượu Tiếp theo là những chai rượu có Giá từ trên
50 đô đến 100 đô, chiếm 24% Khoảng Giá cao từ 200 đô đến 450 đô chiếm tỷ trọng ít, khoảng dưới 10% số chai rượu
P – value < 0.05 suy ra giá của các loại rượu không tuân theo phân phối chuẩn
2.1.2 Thống kê mô tả về điểm của các loại rượu và đánh giá
Bảng 2.2 Thống kê mô tả Điểm và đánh giá của các loại rượu
Trang 6Từ bảng 2.1, ta thấy Điểm đánh giá các loại rượu chạy từ 78 đến 98 Điểm với Điểm trung bình là 89.53 Điểm Điểm đánh giá trên 78 Điểm tức là không có loại rượu nào bị xếp hạng “Not Recommended” Điều này cho thấy 100 loại rượu được khảo sát
có chất lượng khá tốt
Từ bảng 2.2, các loại rượu được xếp hạng ở mức “Very good”,“Good”,
“Mediocre” về mức Giá trung bình không có quá nhiều sự khác biệt Mặc dù loại rượu được xếp hạng “Good” cao hơn nhưng lại có mức Giá trung bình thấp hơn rượu được xếp hạng “Mediocre” Còn Giá của các loại rượu được xếp hạng “Outstanding” và
“Classic” có mức Giá chênh lệch rất nhiều so với các loại rượu khác Các loại rượu này thì loại nào được xếp hạng tốt nhất là những loại có mức Giá trung bình rất cao, như loại Classic có mức Giá trung bình trên 269 đô/chai Như vậy ta thấy Giá rượu càng cao được xếp hạng càng cao, tức là chất lượng rượu càng tốt
Ngoài ra, ta còn thấy được rằng số lượng rượu được xếp hạng là “Very good” là lớn nhất, chiếm 45% Số lượng chai được xếp hạng “Classic” lại chỉ chiếm 7% Điều này là do những loại rượu được xếp hạng là “Very good’ và “Outstanding” có chất lượng tốt vừa phải nên việc sản xuất đảm bảo được đầy đủ yêu cầu, còn những loại
Trang 7rượu chất lượng cao hơn thì cần quy trình phức tạp hơn, điều kiện nghiêm ngặt hơn, tốn nhiều
Trang 8công sức hơn nên số lượng ít Đồng thời, các cửa hàng sẽ bán nhiều loại rượu “Very
good” hoặc “Outstanding” hơn bởi Giá cả của nó phải chăng hơn
2.2 Biểu đồ phân tán
Hình 2.2 Đồ thị phân tán thể hiện quan hệ tuyến tính giữa Giá và Điểm đánh Giá của rượu vang
Hệ số tương quan tuyến tính: R2 = 0.406
Qua biểu đồ ta thấy được giữa Giá cả và Điểm số có quan hệ tương quan tuyến tính với nhau Có
hệ số tương quan R2 = 0.406 điều này khẳng định Giá cả và Điểm số có quan hệ tương quan tỉ lệ thuận Tức là khi Giá cả của loại rượu đó càng cao thì Điểm số của loại rượu đó càng cao
Tuy nhiên, hệ số tương quan R2<0.5 nên cho thấy mức độ tương quan giữa Giá cả và Điểm số đánh Giá rượu còn yếu
2.3 Kiểm định giả thuyết nghiên cứu
Để tiến hành kiểm định giả thuyết trong mô hình đưa ra là đúng, nhóm tiến hành phân tích hệ số tương quan Pearson Correlation đối với biến Giá bán với biến đầu ra là Điểm số của từng chai rượu Kết quả cho thấy giả thuyết H có mức ý nghĩa thống kê là 0.637 Điểm (Mức ý nghĩa thống kê <0.05) Như vậy, mối tương quan giữa Giá cả và Điểm số có ý nghĩa thống kê ở mức độ tin cậy 99%
Kết quả này đúng với giả thuyết mà nhóm tổng hợp lại từ tình huống nên nhóm khảng định giả thuyết
H là đúng Qua đây ta lại càng khẳng định Giá cả ảnh hưởng thuận chiều đến Điểm số (Bảng 2.3.)
Trang 9Bảng 2.3 Kiểm định giả thuyết bằng hệ số Pearson
2.4 Phân tích hồi quy tuyến tính
Để phân tích tác động của việc trả nhiều tiền hơn cho một chai rượu vang có dẫn đến một loại rượu vang ngon hơn hay không, nhóm chúng em đã chọn sử dụng phân tích hồi quy tuyến tính để đưa ra những ước lượng và kết luận về biến phụ thuộc của mô hình
Nhóm em đưa ra 3 mô hình trong đó có 2 mô hình về hàm hồi quy đơn biến và một mô hình hồi quy đa biến Đầu tiên chúng ta cùng đến với hàm hồi quy đơn biến đầu tiên
- Các biến được sử dụng để đưa vào mô hình là:
- Biến phụ thuộc (Y): Score/Điểm
- Biến độc lập (Xi): Price/Giá
Mô hình hồi quy tổng thể mô tả mối quan hệ biến phụ thuộc Y và biến độc lập có dạng:
Score = b + b Price0 1
Điểm = b + b Giá 0 1
Sử dụng phần mềm SPSS để ước lượng mô hình hồi quy tuyến tính đơn, ta có kết quả về sự phụ thuôc của biến Score với các biến € khác như sau:
Trang 10Bảng 2.4 Phân tích hồi quy tuyến tính giữa biến đầu vào Giá cả đến biến đầu ra Điểm số đánh Giá rượu vang
Trang 11Model Summary
Mode
R Square
Adjusted R Square
Std Error of the Estimate
Durbin-Watson
a Predictors: (Constant), Price
b Dependent Variable: Score
Từ bảng ta có: b0 = 87.763
b1 = 0.028
Vậy PTHQ là: Điểm = 87.763 + 0.028*Giá
Hệ số xác định bội R Square = 0.406 => Kết quả này cho biết 40.6% biến thiên trong số Điểm đánh Giá
có thể được giải thích bởi mối liên hệ tuyến tính giữa Điểm số và Giá cả của từng loại rượu
Hệ số xác định hiệu chỉnh R2(adj) = 0.4 => Cho biết 40% biến thiên trong số Điểm đánh Giá có thể được giải thích bởi mô hình hồi quy mà ta đã xây dựng
Sai số chuẩn của ước lượng Sy/x=2.65911 SSR=473.963
SSE=692.947 SST=1166.91
Price Residual Plot
10
5
0
-5 0
-10
-15
Price
Trang 12Đặt giả thuyết:H0: 1 = 0�
H1: 1 ≠ 0�
Với mức ý nghĩa 5% ta thấy: P-value < � = 0,05
=> Bác bỏ giả thiết H0
Kết luận: Vậy biến Price có tác động đến biến Score Mô hình hồi quy với biến độc lập là Giá cả có thể giải thích một cách có ý nghĩa cho biến thiên trong số Điểm đánh giá rượu
Nhìn vào đồ thị ta thấy không có sự khác biệt lớn nào trong sự biến thiên của phần dư tại các giá trị khác nhau của biến giá nên ta kết luận rằng mô hình hồi quy phù hợp, và
phương sai bằng nhau
Tiếp theo là hàm hồi quy đơn biến thứ 2
Các biến được sử dụng để đưa vào mô hình là:
- Biến phụ thuộc (Y): Score/Điểm
- Biến độc lập (Xi): Ln(Price)/Logarit tự nhiên của Giá
Mô hình hồi quy tổng thể mô tả mối quan hệ biến phụ thuộc Y và biến độc lập có dạng:
Score = b0 + b1* Ln(Price) Điểm = b0 + b1* Ln(Giá)
Trang 135
0
-5 0
0
Từ bảng ta có b0 = 77.731
b1 = 3.156
Vậy PTHQ là: Điểm = 77.731+ 3.156* Ln(Giá)
- Hệ số xác định bội R Square = 0.576 => Kết quả này cho biết 57.6% biến thiên trong số Điểm đánh Giá có thể được giải thích bởi mối liên hệ tuyến tính giữa Điểm số và Giá cả của từng loại rượu
- Hệ số xác định hiệu chỉnh R2(adj) = 0.572 => Cho biết 57.2% biến thiên trong số Điểm đánh Giá có thể được giải thích bởi mô hình hồi quy
mà ta đã xây dựng
- Sai số chuẩn của ước lượng Sy/x=2.247
SSR=671.958 SSE=494.952 SST=1166.91 Đặt giả thuyết: H0: �1 = 0
LnPrice -1
-15
1
LnPrice Residual Plot
Trang 140 50000 100000 150000 200000
H1: 1 ≠ 0�
Với mức ý nghĩa 5% ta thấy: P-value < � = 0,05
=> Bác bỏ giả thiết H0
Kết luận: Vậy biến Price có tác động đến biến Score Mô hình hồi quy với biến độc lập là logarit tự nhiên của Giá cả có thể giải thích một cách có ý nghĩa cho biến thiên trong số Điểm đánh giá rượu Nhìn vào đồ thị ta thấy không có sự khác biệt lớn nào trong sự biến thiên của phần dư tại các giá trị khác nhau của biến giá nên ta kết luận rằng mô hình hồi quy phù hợp và phương sai bằng nhau
Tiếp theo chúng ta sẽ đến với hàm hồi quy đa biến
2.5Phân tích hồi quy tuyến tính bậc 2
Nhóm đã lập một biến Price Square với công thức là Price*Price Sau đó
nhóm phân tích hồi quy đa bội cho 2 biến đầu vào là Giá và Price Square
với 1 biến đầu ra là Điểm số đánh Giá rượu vang
Mô hình hồi quy tổng thể mô tả mối quan hệ biến phụ thuộc Y và biến độc
lập có dạng:
Score = b + b Price + b Price Square0 1 2
Bảng 2.5 Phân tích hồi quy tuyến tính đa bội giữa biến
đầu vào Giá cả và Price
Square đến biến đầu ra Điểm số đánh Giá rượu vang
10
5
0
-5
-10
-15
Price SquareResidual Plot
Trang 15Vậy PTHQ là: Score = 86.166 + 0.07131*Price – 0.00011*Price Square
- Hệ số xác định bội R Square = 0.523
Kết quả này cho biết 52.3% biến thiên trong số Điểm đánh Giá có thể được giải thích bởi mối liên hệ bậc 2 giữa Điểm số và Giá cả của từng loại rượu
- Hệ số xác định hiệu chỉnh R2(adj) = 0.513
Trang 16Cho biết 51.3% biến thiên trong số Điểm đánh Giá có thể được giải thích bởi mô hình hồi quy mà ta đã xây dựng
- Giá trị Sig của kiểm định F là 0.000 < 0.05 nên mô hình hồi quy bội được xây dựng phù hợp với tổng thể
- Do số quan sát lớn với VIF= 9.298 < 10 nên ta kết luận rằng không
có hiện tượng đa cộng tuyến giữa các biến
- Durbin – Watson 1 < 1.84 <2.5 => Không có hiện tượng tự tương quan phần dư
- Sai số chuẩn của ước lượng Sy/x=2.39466 SSR=610.672 SSE=556.238 SST=1166.91
Đặt giả thuyết: H0: 2 = 0�
H1: 2 ≠ 0 Chọn α=0.05, n=100, k=2�
Trang 17D1 = k = 2;
D2 = n – k – 1 = 100 – 2 – 1 = 97
Tra bảng F(D1,D2,α) = F(2;97;0.05) = 53.246 > Fα => bác bỏ H0
Trong đồ thị trên, Mean = 1.89E-15 = 5.74 * 10-15 = 0.00000 gần bằng 0, độ lệch chuẩn là 0.990 gần bằng 1 Như vậy có thể nói, phân phối phần dư xấp xỉ chuẩn, giả định phân phối chuẩn của phần dư không bị vi phạm Nhìn vào đồ thị ta thấy không có sự khác biệt lớn nào trong sự biến thiên của phần dư tại các giá trị khác nhau của biến giá nên ta kết luận rằng mô hình hồi quy phù hợp và phương sai bằng nhau
qua cả 3 mô hình Ta có thể kết luận rằng mô
hình đa biến có ý nghĩa hơn mô hình đơn đơn về giá nhưng
kém ý nghĩa hơn mô hình đơn biến đối với hàm logarit tự nhiên
đối với giá trong việc mô tả mối liên hệ giữa Giá cả và Điểm số
đánh Giá
2.6Lựa chọn mô hình hồi quy
Square /Adjus ted square
Score = 86.166 + 0.07131*Price – 0.00011*Price Square 0,513
Qua phân tích, nhận xét, đánh giá nhóm em lựa chọn mô hình hồi quy đơn biến
Score = 77.731+ 3.156* Ln(Price)
vì R Square của mô hình này cao nhất và hệ số Durbin – Watson= 1.746 của
mô hình này bằng khá tốt đồng thời Giả định phương sai không đổi không bị vi
phạm => mô hình hồi quy khá tốt
Giải thích hệ số hồi quy ước tính:
b1 = 3.156
Gía có mối quan hệ đồng biến với Score Khi Price tăng 1% thì Score sẽ tăng 0.03156 điểm
Trang 18Chương 3: Kết luận
Với dữ liệu từ Giá và Điểm của 100 loại rượu từ vùng Piedmont của Ý, nhóm đã tiến hành phân tích và đưa ra một số kết luận về ảnh hưởng của Giá cả đến Điểm đánh Giá của cácloại rượu như sau:
Đa phần các loại rượu đều có Giá từ 10 đô đến 200 đô/chai Những loại rượu có Giá trên
200 đô/chai chiếm tỷ trọng nhỏ trong 100 loại rượu được chọn ngẫu nhiên
Các loại rượu có Điểm đánh Giá từ 78 Điểm đến 98 Điểm Không có loại rượu nào bị điếm đánh Giá dưới 75 Điểm để nhận đánh Giá Not Recommended
Về mối liên hệ giữa biến độc lập Giá cả với biến phụ thuộc Điểm số, kết quả kiểm địnhhệ
số tương quan Pearson cho thấy biến Giá cả có tác động tương quan lên biến phụ thuộc Khiphân tích hổi quy tuyến tính và hồi quy hàm bậc 2 ta thu được kết quả:
Biến Giá cả có tác động tích cực lên biến phụ thuộc Điểm số
Để mô tả mối liên hệ giữa Giá cả và Điểm số thì sử dụng mô hình logarit tự nhiên đối với giá cả có ý nghĩa hơn mô hình đơn biến và mô hình đa biến
Trang 19DANH MỤC HÌNH ẢNH
Hình 1.1 Mô hình đề xuất
Hình 2.1 Thống kê mô tả về Giá cả của loại rượu
Hình 2.2 Đồ thị phân tán thể hiện quan hệ tuyến tính giữa Giá và Điểm đánh Giá của rượu vang
Trang 20LỜI MỞ ĐẦU
Sau khi được giao hoàn thành Bài tập lớn môn Thống kê ứng dụng, nhóm chúng em đã nghiên cứu kỹ lượng câu hỏi, dữ liệu bài cho và tiến hành phân tích dữ liệu ấy Chúng em
sử dụng phần mềm SPSS và Excel để thực hiện phân tích dữ liệu bài cho
Sau khi phân tích chúng em nhận thấy rằng: Giá cả có tác động tích cực đến Điểm số đánh giá của rượu vang Điều này được lý giải bởi thường những chai rượu vang tốt sẽ có mức giá cao Khi đó là rượu vang tốt thì điểm đánh giá về nó cũng cao hơn so với những chai rượu vang khác
Để mô tả tác động, mối tương quan của Điểm số và Giá cả thì sử dụng mô hình Logarit tự nhiên đối với giá sẽ có ý nghĩa hơn sử dụng mô hình bậc nhất và mô hình bậc hai