Cho bảng số liệu lượng tiêu thụ sản phẩm của doanh nghiệp được ghi theo mùatrong nhiều năm Hãy thực hiện xử lý dữ liệu thích hợp, phân tích ảnh hưởng của mùa tới lượng tiêuthụ của sản ph
Trang 1HỌC VIỆN TÀI CHÍNH
VIỆN ĐÀO TẠO QUỐC TẾ
Institute of International Finance Education
DUAL DEGREE PROGRAMME- DDP
BÀI TẬP PHÂN TÍCH DỮ LIỆU
Course name: RESEARCH METHOD
(Phương pháp nghiên cứu)
Academic Year (Semester): 2023-2024 (Semester 1)
Student Full Name: Hồ Tự Hồng
Student ID: DDP0603123
Class Code: RM1.0601
Page of 1 37
Trang 2Mentor: PGS.TS Lê Đình Hải
BÀI LÀM
Bài 1 Cho bảng số liệu
Obs thunhap tieudung Obs thunhap tieudung
a.Hãy sử dụng các thủ tục cần thiết trong SPSS để lập bảng thống kê mô tả, hãy mô tả
về thông tin biến dựa trên các đặc trưng thống kê thu được
Page of 2 37
Trang 34 Cột thứ 4 là Maximum, là giá trị lớn nhất Giá trị lớn nhất của biến Thu nhập là 1.80
có ý nghĩa: trong 44 người được khảo sát thì 1.80 là mức thu nhập cao nhất; giá trịlớn nhất của biến Tiêu dùng là 0.95 có ý nghĩa: trong 44 người được khảo sát thì0.95 là mức tiêu dùng cao nhất
5 Cột thứ 5 là Mean, giá trị trung bình Giá trị trung bình của biến Thu nhập là 0.7898
có ý nghĩa: mức thu nhập trung bình của 44 người tham gia khảo sát là 0.7898; Giátrị trung bình của biến Tiêu dùng là 0.4539 có ý nghĩa: mức tiêu dùng trung bình của
44 người tham gia khảo sát là 0.4539
6 Cột tiếp theo là Std.Deviation, độ lệch chuẩn Độ lệch chuẩn biến Thu nhập là0.41414 lớn hơn so với độ lệch chuẩn biến Tiêu thụ là 0.20308 Theo 44 ngườitham gia khảo sát thì mức thu nhập giữa họ có sự khác nhau nhiều hơn mức tiêudùng
Page of 3 37
Descriptive Statistics
Std Deviation Statistic Statistic Statistic Statistic Std Error Statistic
Valid N (listwise) 44
Trang 4b Vẽ biểu đồ Histogram của thu nhập trên đó có vẽ đường cong chuẩn, hãy nhận xét phân bố của biến thu nhập
Biểu đồ trên thể hiện sự phân bố của biến Thu nhập với cỡ mẫu là 44
Nhìn vào đây ta thấy biểu đồ phân bố theo hình dạng phân phối chuẩn Có một đườngcong giống hình chuông trên hình là đường phân phối chuẩn, ta thấy biểu đồ tần sốhistogram tương ứng với đường cong hình chuông đó Bên cạnh đó, giá trị trung bìnhmean là 0.79 và độ lệch chuẩn bằng 0.414; biểu đồ phân bố lệch trái
Với dạng biểu đồ này ta thấy rằng dữ liệu đã bị giới hạn một phía Ta có thể khắcphục bằng cách đưa những dữ liệu bị giới hạn hay bị loại bỏ bởi tiêu chuẩn nào đó vào
và tìm hiểu, rà soát lại lịch sử lấy dữ liệu
Page of 4 37
Trang 5c Hãy sử dụng các thủ tục cần thiết phân tích mối quan hệ giữa thu nhập và tiêu dùng
** Correlation is significant at the 0.01 level (2-tailed)
Từ bảng Correlations ta thấy giá trị Sig.(2-tailed)= 0,000< α = 0,05 nên 2 biến thunhập và tiêu dùng có tương quan rất chặt chẽ với nhau
Hệ số tương quan bội giữa thu nhập và tiêu dùng là r = 0.975 (0,9 < r= 0,975 < 1)
2 biến thu nhập và tiêu dùng có mối tương quan đồng biến với nhau, khi thu nhậptăng thì tiêu dùng cũng tăng và ngược lại
Vậy 2 biến thu nhập và tiêu dùng có tương quan rất chặt chẽ và đồng biến với nhau
Bài 2 Cho bảng số liệu doanh thu trong ngày của 2 cửa hàng của công ty như sau:
Page of 5 37
Cửa hàng 1 4.5 4.75 4.85 3.85 3.9 4.35 4.7 4.25 5.3 3.9 5.4 5.3 4.5 3.95 4.35Cửa hàng 2 3.4 4.25 4.5 4.9 4.6 4.45 3.95 3 4.7 3.7 5.05 3.3 3.43 4.15 5.2
Trang 6Hãy dùng các thủ tục cần thiết trong SPSS để phân tích và so sánh doanh thu của hai cửa hàng nói trên Cửa hàng nào cho doanh thu cao hơn (giả thiết rằng doanh thu trong ngày có phân bố gần phân bố chuẩn)
Kiểm định phương sai 2 mẫu :
H0: Var 1 (Cửa hàng 1) = Var 2 (Cửa hàng 2)
H1: Var 1 (Cửa hàng 1) ≠ Var 2 (Cửa hàng 2)
Var 1 phương sai về doanh thu của cửa hàng 1
Var 2 phương sai về doanh thu của cửa hàng 2
Kiểm định giá trị bình quân của 2 mẫu độc lập:
Trang 7Independent Samples Test
t-test for Equality of Means
Page of 7 37
Trang 8Sig (2-tailed) Mean Difference Std Error
Difference
Independent Samples Test
t-test for Equality of Means 95% Confidence Interval of the DifferenceIndependent Samples Test
Levene's Test for Equality of Variances
t-test for Equality of Means
Trang 9Nhìn vào bảng Independent Samples Test ta thấy:
Cột Sig = 0,216 > α =0,05 nên ta có cơ sở chấp nhận H0
Var 1 = Var 2
Phương sai 2 mẫu bằng nhau
Khi đó:
So sánh giá trị ở cột Sig.(2-tailed) dòng 1 với α = 0,05
Cột Sig.(2-tailed) dòng 1 = 0,126 > α = 0,05 nên ta có cơ sở chấp nhận H0
µ1 = µ2
Doanh thu bình quân của 2 cửa hàng không có sự khác biệt đáng kể với mức độ tin cậy 95%
Bài 3 Cho bảng số liệu lượng tiêu thụ sản phẩm của doanh nghiệp được ghi theo mùa
trong nhiều năm
Xuân 5.2 4.9 6.3 4.7 4.5 5.2 4.8 6.1 4.8 5 4.9 6.3 5.5 6.1 4.9 4.7 5.7 4.7 6.3 6.5
Hạ 6.2 5.3 6.2 6.4 5.7 5.2 4.8 4.7 4.9 5.6 6.7 4.8 6.5 5.1 5.4 6.2 4.5 5.2 6.3 6.2 Thu 4.3 4.5 4.5 5 4.6 5.1 5 5.2 5.3 5.5 5.5 5.3 5.7 5.5 5.6 5.7 6 6.1 6.1 6.3 Đông 4.3 4.7 4.5 5.1 3.9 4.1 5.2 6.1 3.7 4.8 4.3 5.7 3.2 5.3 4.5 6.1 3.2 5.1 4.7 4.9
Hãy thực hiện xử lý dữ liệu thích hợp, phân tích ảnh hưởng của mùa tới lượng tiêu thụ của sản phẩm
Descriptives
Tiêu Thụ
N Mean Deviation Std. Error Std.
95% Confidence Interval for Mean Minimum MaximumLower
Bound UpperBound
Page of 9 37
Trang 10Test of Homogeneity of Variances
Levene
Trang 11Kiểm định giả thuyết:
H0: M1 (Mùa Xuân) = M2 (Mùa Hạ) = M3 (Mùa Thu)= M4 (Mùa Đông)
H1: Có ít nhất một M khác biệt nhiều so với các M còn lại (Tức là có ít nhất 1 mùa códoanh thu khác biệt đáng kể với các mùa còn lại)
So sánh giá trị cột sig của bảng ANOVA với α = 0,05
Vì sig. ở bảng ANOVA = 0,001 < α = 0,05 nên ta có cơ sở bác bỏ H0, chấp nhận H1.
Vậy với mức độ tin cậy 95% luôn khẳng định rằng có ít nhất 1 mùa khác biệt đáng kể với 3 mùa cònlại
Dựa vào bảng Multiple Comparisons, giá trị cột Mean Difference (I-J) các dòng có dấu
* thì giá trị ở cột Sig tương ứng < α = 0,05 và có sự khác biệt đáng kể.
Vậy với mức độ tin cậy 95% ta luôn khẳng định rằng Mùa đông có lượng tiêu thụ thấp hơnmột cách đáng kể so với 3 mùa còn lại
Page 11 of 37
Trang 12Bài 4: Tìm hiểu về nhu cầu sử dụng điện thoại, ông Bình đã sử dụng bộ dữ liệu củaSingapore giai đoạn 1960-1981 với 2 biến sau:
TEL: Số lượng máy điện thoại trên 1000 người
GDP: Tổng sản phẩm quốc nội theo đầu người, tại mức giá cơ cấu tính theo đô la Singapore năm
Trang 13b Hãy tính các trị thống kê tổng hợp cho biến GDP và TEL ( trung bình, phương sai, độ lệch chuẩn, Max, Min )
Descriptive Statistics
Statistic Statistic Statistic Statistic Std Error Statistic Statistic
Trang 14Trong đó:
- Mean: Giá trị trung bình
** Correlation is significant at the 0.01 level (2-tailed)
Bảng Correlations cho ta thấy giá trị Sig (2-tailed) = 0,000 < α = 0,05 nên 2 biến GDP
và TEL có tương quan rất chặt chẽ với nhau
Hệ số tương quan bội giữa GDP và TEL là r = 0.973 gần bằng 1, nên 2 GDP và TEL
có mối tương quan đồng biến với nhau, khi GDP tăng thì TEL cũng tăng và ngược lại Vậy 2 biến GDP và TEL có tương quan rất chặt chẽ và đồng biến với nhau
d Xây dựng mô hình hồi quy giữa TEL và GDP.
Page of 14 37
Trang 15a Predictors:
(Constant), GDP
b Dependent Variable: TEL
Ta có phương trình mô hình hồi quy mẫu: TEL= GDP +
Kiểm tra sự phù hợp và tin cậy của mô hình:
Dựa vào bảng Model Summary b ta thấy mô hình tương đối phù hợp và đáng tin cậy
vì R = 0.943 có nghĩa là trong các nhân tố ảnh hưởng đến sự thay đổi của TEL thì GDP2
đã giải thích được 94,3% sự thay đổi của TEL còn lại 5,7% chịu tác động ảnh hưởng cácnhân tố khác chưa có điều kiện đưa vào mô hình
Adjusted R Square
Std Error of the Estimate
Change Statistics
R Square Change
F Change
1 ,973 a ,946 ,943 21,061 ,946 350,667
Trang 16Model
Unstandardized Coefficients
Standardized Coefficients
a Dependent Variable: TEL
Kiểm tra sự tồn tại của hệ số hồi quy:
H0: B1 = 0
H1: B1 ≠ 0
H0: B2 = 0
H1: B2 ≠ 0
Phương trình của mô hình hồi quy: TEL = -66.106 + 0.065 GDP .
Với mức độ tin cậy 95% hệ số hồi quy của biến GDP luôn luôn khác 0 vì Sig = 0,000 < α =0,05 và GDP ảnh hưởng đáng kể đến TEL
Vậy trong trường hợp các yếu tố khác không đổi, khi GDP tăng lên 1 triệu đô thì TEL tăng 0.065 đơn vị
Ta có được thống kê số dư là:
Trang 17Bài 5: Sinh viên tự đề xuất một yêu cầu nghiên cứu trong thực tế và ứng dụng công cụ
SPSS để tính toán, xây dựng mô hình, giải thích ý nghĩa và đề xuất giải pháp nếu có
Bài 6: Cho số liệu về sản xuất lúa ở tệp "RiceProduction", các biến tương ứng là:
1- Biến phụ thuộc:
- Output: sản lượng lúa (kg) của hộ gia đình 2- Biến giải thích/Các yếu ảnh hưởng: Hailoại:
Các đầu vào:
- Land: diện tích đất trồng lúa (ha)
- Fertilizer: đầu tư cho phân bón
- Labour: đầu tư về lao động (ngày công)
- Machine: đầu tư cho MMTB (giờ máy)
Các điều kiện sản xuất và đặc trưng của hộ gia đình
- Plot: số mảnh ruộng của hộ gia đình
- LandClass: Cấp đất (cấp đất càng cao đất càng xấu)
- Crop: hệ số mùa vụ (số vụ lúa bình quân/năm)
- Age: tuổi của chủ hộ
Page of 17 37
Trang 18- Hhsize: số người trong hộ gia đình
- Vùng miền: Các quan sát từ 1-192 là các hộ gia đình ở miền Bắc (mã hóa Miền Bắc =1),các quan sát từ số 193 trở đi là các hộ gia đình miền Nam (mã hóa Miền Nam=0)
Yêu cầu:
1 Nhập dữ liệu từ file Excel vào phần mềm SPSS và ghi vào fileTen_RiceProduction_STT.sav
2 Bỏ đi 10 quan sát ngẫu nhiên (STT và 9 quan sát khác)
3 Xây dựng hàm hồi quy nghiên cứu các nhân tố ảnh hưởng đến sản lượng lúa của hộ giađình, ước lượng hàm hồi quy, phân tích ảnh hưởng của các nhân tố, gợi mở hoặc đề xuấtchính sách
Bảng số liệu bài 6
Các số đã bỏ trước khi chạy: 53, 82, 83, 84, 85, 86, 87, 88, 89, 90
Mô hình hồi quy tuyến tính đa biến: Có 10 biến độc lập
-Phương trình hồi quy tuyến tính:
Output=
(1)
- Kiểm tra số ngoại lai :
Page of 18 37
Trang 19Khi kiểm tra yếu tố sản lượng lúa, ta loại bỏ các số dị biệt có số thứ tự: 202, 190, 226, 214
- Kiểm tra phân phối chuẩn các biến định lượng:
Page of 19 37
Trang 20Các biến đều chưa tiệm cận với phân phối chuẩn
Sử dụng phương pháp chuyển đổi biến Ln
Trang 21
Page of 21 37
Trang 22Phương trình: LnOutput =
(2)
- Phân tích tương quan giữa các biến độc lập với biến phụ thuộc:
Correlations LnLan
d LnFertiliser
LnLabo
ur LnMachi ne LnPlot
Cấp đất Tuổi của hộ
chủ Số khẩu của hộ Vùng miền
Page of 22 37
Trang 23Correlation 1 .946
-.121 * 382 **
-.031 552
369
-.169 ** 1 Sig (2-tailed) 000 000 000 000 000 000 001
** Correlation is significant at the 0.01 level (2-tailed)
Page of 23 37
Trang 24Dựa vào bảng trên, ta loại các biến LnPlot, tuổi chủ hộ và số khẩu có |r| < 0,3 do cótương quan yếu với sản lượng lúa
Phương trình:
LnOutput =
(3)
- Kiểm tra các khuyết tật mô hình:
+ Hiện tượng đa cộng tuyến:
Coefficients a
Model
Unstandardized Coefficients
Standardized Coefficients
a Dependent Variable: LnOutput
Dựa vào bảng Coefficients, có giá trị ở cột VIF của LnLand, LnFertiliser,LnMachine >= 10 nên có hiện tượng đa cộng tuyến
Để khắc phục điều này, ta có bỏ biến LnLand, chạy lại mô hình
Coefficients a
Model
Unstandardized Coefficients
Standardized Coefficients
Trang 25LnLabour 301 043 177 6.990 000 171 5.837 LnMachine 365 035 344 10.548 000 103 9.682 Cấp đất -.054 010 -.067 -5.668 000 776 1.289 Vùng miền -.409 029 -.235 -14.235 000 403 2.480
a Dependent Variable: LnOutput
VIF của tất cả các biến đều <10 nên mô hình không có hiện tượng đa cộng tuyến
+ Hiện tượng tương quan phần dư:
Model Summary b
Model R R Square
Adjusted Square
R Std Error of the Estimate Durbin-Watson
1
.980 a
.960 960 17514 1.462
a Predictors: (Constant), Vùng miền, LnLabour, Cấp đất, LnFertiliser, LnMachine
b Dependent Variable: LnOutput
Ta thấy Durbin-Watson = 1,462 thỏa mãn điều kiện lớn hơn 1 và nhỏ hơn 3 nên môhình không có hiện tượng tự tương quan phần dư
+ Phần dư có tiệm cận với phân phối chuẩn hay không:
Page of 25 37
Trang 26Căn cứ vào đồ thị Histogram có dạng giống hình chuông
Phân bố của phần dư tiệm cận phân phối chuẩn
- Kiểm tra sự tồn tại của mô hình:
a Dependent Variable: LnOutput
b Predictors: (Constant), Vùng miền, LnLabour, Cấp đất, LnFertiliser, LnMachine
H0: B1 = B2 = B3 = B4 = B5 = 0
H1: Có ít nhất một B khác biệt đáng kể với các B còn lại
Page of 26 37
Trang 27So sánh giá trị cột sig của bảng ANOVA với α = 0,05
Vì Sig = 0,000 < α = 0,05 nên ta có cơ sở bác bỏ H0, chấp nhận H1
Vậy với mức độ tin cậy 95% mô hình luôn tồn tại
- Kiểm định sự phù hợp và tin cậy của mô hình:
Model Summary b
Model R R Square
Adjusted Square
R Std Error of the Estimate Durbin-Watson
1
.980 a
.960 960 17514 1.462
a Predictors: (Constant), Vùng miền, LnLabour, Cấp đất, LnFertiliser, LnMachine
b Dependent Variable: LnOutput
Mô hình tương đối phù hợp và đáng tin cậy vì R 2 = 0,960 có nghĩa là trong các yếu
tố ảnh hưởng đến sản lượng lúa của hộ gia đình, các yếu tố trong mô hình của phương trình(3) đã giải thích được 96,0% sự thay đổi về sản lượng lúa của hộ gia đình và còn lại 4,0%được giải thích bằng các yếu tố khác chưa giải quyết trong mô hình
- Kiểm định sự tồn tại của hệ số hồi quy:
Trang 28- Xác định tầm quan trọng của các yếu tố ảnh hưởng:
Model
Unstandardized Coefficients
Standardized Coefficients ABS
(Beta) %
Tầm quan trọng
+ Trong trường hợp các biến khác không đổi khi đầu tư cho cấp đất tăng 1% thì sản
lượng lúa của HGĐ giảm 0,054% và ngược lại
+ Trong trường hợp các biến khác không đổi khi đầu tư cho vùng miền tăng 1% thì sản lượnglúa của HGĐ giảm 0,409% và ngược lại
- Đề xuất giải pháp khắc phục:
+ Tăng cường đầu tư cho phân bón, lựa chọn phân bón phù hợp với tiêu chí không gây
hại cho sức khỏe con người, không gây hại cho môi trường và tăng chất lượng lúa
*Dựa vào mô hình hồi quy thì chất lượng phân bón chiếm tỷ lệ cao cho việc tăng chất
lượng lúa, giúp cải thiện sản lượng lúa
Page of 28 37
Trang 29*Ông cha ta đã có câu “Nhất nước, nhì phân, tam cần, tứ giống” nước hiện tải thìchưa cần nhắc đến còn việc bón phân và sử dụng đúng loại phân bón tốt sẽ giúp cải thiên vànâng cao chất lượng lúa cũng như sản lượng lúa.
+ Tích cực đầu tư cơ giới hóa, phát triển cơ sở hạ tầng, máy móc thiết bị
+ Ưu tiên phát triển trồng lúa các vùng miền Nam
+ Đào tạo chất lượng cho lao động nông thôn, cải tạo chất lượng đất trồng
Page of 29 37
Trang 30Bài 7: Cho số liệu về khảo sát các nhân tố ảnh hưởng đến nghèo tại 1 địa phương Yêu cầu: Xây dựng hàm hồi quy nghiên cứu các nhân tố ảnh hưởng đến nghèo tại địa
phương nghiên cứu, phân tích ảnh hưởng của các nhân tố, gợi mở hoặc đề xuất chính sách
Phương trình hồi quy:
Trang 31- Phân tích mối quan hệ giữa Hocvan và với các biến quan sát còn lại
hệ số tương quan bội (Pearson Correlation)
0,0 < r=0,026 < 0,3 chúng ta kết luận rằng Hocvan và Pthuoc có mối quan hệ
- Xác định tương quan giữa các biến định tính với nhau:
Dân tộc với Giới tính chủ hộ không có sự tương quan vì giá trị cột
Correlations
Học vấn Phụ thuôZc
Số KM từ nhà HGĐ đến chợ Diện tích
** Correlation is significant at the 0.01 level (2-tailed).
* Correlation is significant at the 0.05 level (2-tailed)