1. Trang chủ
  2. » Luận Văn - Báo Cáo

bài tập phân tích dữ liệu

37 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 37
Dung lượng 2,04 MB

Nội dung

Cho bảng số liệu lượng tiêu thụ sản phẩm của doanh nghiệp được ghi theo mùatrong nhiều năm Hãy thực hiện xử lý dữ liệu thích hợp, phân tích ảnh hưởng của mùa tới lượng tiêuthụ của sản ph

Trang 1

HỌC VIỆN TÀI CHÍNH

VIỆN ĐÀO TẠO QUỐC TẾ

Institute of International Finance Education

DUAL DEGREE PROGRAMME- DDP

BÀI TẬP PHÂN TÍCH DỮ LIỆU

Course name: RESEARCH METHOD

(Phương pháp nghiên cứu)

Academic Year (Semester): 2023-2024 (Semester 1)

Student Full Name: Hồ Tự Hồng

Student ID: DDP0603123

Class Code: RM1.0601

Page of 1 37

Trang 2

Mentor: PGS.TS Lê Đình Hải

BÀI LÀM

Bài 1 Cho bảng số liệu

Obs thunhap tieudung Obs thunhap tieudung

a.Hãy sử dụng các thủ tục cần thiết trong SPSS để lập bảng thống kê mô tả, hãy mô tả

về thông tin biến dựa trên các đặc trưng thống kê thu được

Page of 2 37

Trang 3

4 Cột thứ 4 là Maximum, là giá trị lớn nhất Giá trị lớn nhất của biến Thu nhập là 1.80

có ý nghĩa: trong 44 người được khảo sát thì 1.80 là mức thu nhập cao nhất; giá trịlớn nhất của biến Tiêu dùng là 0.95 có ý nghĩa: trong 44 người được khảo sát thì0.95 là mức tiêu dùng cao nhất

5 Cột thứ 5 là Mean, giá trị trung bình Giá trị trung bình của biến Thu nhập là 0.7898

có ý nghĩa: mức thu nhập trung bình của 44 người tham gia khảo sát là 0.7898; Giátrị trung bình của biến Tiêu dùng là 0.4539 có ý nghĩa: mức tiêu dùng trung bình của

44 người tham gia khảo sát là 0.4539

6 Cột tiếp theo là Std.Deviation, độ lệch chuẩn Độ lệch chuẩn biến Thu nhập là0.41414 lớn hơn so với độ lệch chuẩn biến Tiêu thụ là 0.20308 Theo 44 ngườitham gia khảo sát thì mức thu nhập giữa họ có sự khác nhau nhiều hơn mức tiêudùng

Page of 3 37

Descriptive Statistics

Std Deviation Statistic Statistic Statistic Statistic Std Error Statistic

Valid N (listwise) 44

Trang 4

b Vẽ biểu đồ Histogram của thu nhập trên đó có vẽ đường cong chuẩn, hãy nhận xét phân bố của biến thu nhập

Biểu đồ trên thể hiện sự phân bố của biến Thu nhập với cỡ mẫu là 44

Nhìn vào đây ta thấy biểu đồ phân bố theo hình dạng phân phối chuẩn Có một đườngcong giống hình chuông trên hình là đường phân phối chuẩn, ta thấy biểu đồ tần sốhistogram tương ứng với đường cong hình chuông đó Bên cạnh đó, giá trị trung bìnhmean là 0.79 và độ lệch chuẩn bằng 0.414; biểu đồ phân bố lệch trái

Với dạng biểu đồ này ta thấy rằng dữ liệu đã bị giới hạn một phía Ta có thể khắcphục bằng cách đưa những dữ liệu bị giới hạn hay bị loại bỏ bởi tiêu chuẩn nào đó vào

và tìm hiểu, rà soát lại lịch sử lấy dữ liệu

Page of 4 37

Trang 5

c Hãy sử dụng các thủ tục cần thiết phân tích mối quan hệ giữa thu nhập và tiêu dùng

** Correlation is significant at the 0.01 level (2-tailed)

Từ bảng Correlations ta thấy giá trị Sig.(2-tailed)= 0,000< α = 0,05 nên 2 biến thunhập và tiêu dùng có tương quan rất chặt chẽ với nhau

Hệ số tương quan bội giữa thu nhập và tiêu dùng là r = 0.975 (0,9 < r= 0,975 < 1)

2 biến thu nhập và tiêu dùng có mối tương quan đồng biến với nhau, khi thu nhậptăng thì tiêu dùng cũng tăng và ngược lại

Vậy 2 biến thu nhập và tiêu dùng có tương quan rất chặt chẽ và đồng biến với nhau

Bài 2 Cho bảng số liệu doanh thu trong ngày của 2 cửa hàng của công ty như sau:

Page of 5 37

Cửa hàng 1 4.5 4.75 4.85 3.85 3.9 4.35 4.7 4.25 5.3 3.9 5.4 5.3 4.5 3.95 4.35Cửa hàng 2 3.4 4.25 4.5 4.9 4.6 4.45 3.95 3 4.7 3.7 5.05 3.3 3.43 4.15 5.2

Trang 6

Hãy dùng các thủ tục cần thiết trong SPSS để phân tích và so sánh doanh thu của hai cửa hàng nói trên Cửa hàng nào cho doanh thu cao hơn (giả thiết rằng doanh thu trong ngày có phân bố gần phân bố chuẩn)

Kiểm định phương sai 2 mẫu :

H0: Var 1 (Cửa hàng 1) = Var 2 (Cửa hàng 2)

H1: Var 1 (Cửa hàng 1) ≠ Var 2 (Cửa hàng 2)

Var 1 phương sai về doanh thu của cửa hàng 1

Var 2 phương sai về doanh thu của cửa hàng 2

Kiểm định giá trị bình quân của 2 mẫu độc lập:

Trang 7

Independent Samples Test

t-test for Equality of Means

Page of 7 37

Trang 8

Sig (2-tailed) Mean Difference Std Error

Difference

Independent Samples Test

t-test for Equality of Means 95% Confidence Interval of the DifferenceIndependent Samples Test

Levene's Test for Equality of Variances

t-test for Equality of Means

Trang 9

Nhìn vào bảng Independent Samples Test ta thấy:

Cột Sig = 0,216 > α =0,05 nên ta có cơ sở chấp nhận H0

Var 1 = Var 2

Phương sai 2 mẫu bằng nhau

Khi đó:

So sánh giá trị ở cột Sig.(2-tailed) dòng 1 với α = 0,05

Cột Sig.(2-tailed) dòng 1 = 0,126 > α = 0,05 nên ta có cơ sở chấp nhận H0

µ1 = µ2

Doanh thu bình quân của 2 cửa hàng không có sự khác biệt đáng kể với mức độ tin cậy 95%

Bài 3 Cho bảng số liệu lượng tiêu thụ sản phẩm của doanh nghiệp được ghi theo mùa

trong nhiều năm

Xuân 5.2 4.9 6.3 4.7 4.5 5.2 4.8 6.1 4.8 5 4.9 6.3 5.5 6.1 4.9 4.7 5.7 4.7 6.3 6.5

Hạ 6.2 5.3 6.2 6.4 5.7 5.2 4.8 4.7 4.9 5.6 6.7 4.8 6.5 5.1 5.4 6.2 4.5 5.2 6.3 6.2 Thu 4.3 4.5 4.5 5 4.6 5.1 5 5.2 5.3 5.5 5.5 5.3 5.7 5.5 5.6 5.7 6 6.1 6.1 6.3 Đông 4.3 4.7 4.5 5.1 3.9 4.1 5.2 6.1 3.7 4.8 4.3 5.7 3.2 5.3 4.5 6.1 3.2 5.1 4.7 4.9

Hãy thực hiện xử lý dữ liệu thích hợp, phân tích ảnh hưởng của mùa tới lượng tiêu thụ của sản phẩm

Descriptives

Tiêu Thụ

N Mean Deviation Std. Error Std.

95% Confidence Interval for Mean Minimum MaximumLower

Bound UpperBound

Page of 9 37

Trang 10

Test of Homogeneity of Variances

Levene

Trang 11

Kiểm định giả thuyết:

H0: M1 (Mùa Xuân) = M2 (Mùa Hạ) = M3 (Mùa Thu)= M4 (Mùa Đông)

H1: Có ít nhất một M khác biệt nhiều so với các M còn lại (Tức là có ít nhất 1 mùa códoanh thu khác biệt đáng kể với các mùa còn lại)

So sánh giá trị cột sig của bảng ANOVA với α = 0,05

sig. ở bảng ANOVA = 0,001 < α = 0,05 nên ta có cơ sở bác bỏ H0, chấp nhận H1.

Vậy với mức độ tin cậy 95% luôn khẳng định rằng có ít nhất 1 mùa khác biệt đáng kể với 3 mùa cònlại

Dựa vào bảng Multiple Comparisons, giá trị cột Mean Difference (I-J) các dòng có dấu

* thì giá trị ở cột Sig tương ứng < α = 0,05 và có sự khác biệt đáng kể.

Vậy với mức độ tin cậy 95% ta luôn khẳng định rằng Mùa đông có lượng tiêu thụ thấp hơnmột cách đáng kể so với 3 mùa còn lại

Page 11 of 37

Trang 12

Bài 4: Tìm hiểu về nhu cầu sử dụng điện thoại, ông Bình đã sử dụng bộ dữ liệu củaSingapore giai đoạn 1960-1981 với 2 biến sau:

TEL: Số lượng máy điện thoại trên 1000 người

GDP: Tổng sản phẩm quốc nội theo đầu người, tại mức giá cơ cấu tính theo đô la Singapore năm

Trang 13

b Hãy tính các trị thống kê tổng hợp cho biến GDP và TEL ( trung bình, phương sai, độ lệch chuẩn, Max, Min )

Descriptive Statistics

Statistic Statistic Statistic Statistic Std Error Statistic Statistic

Trang 14

Trong đó:

- Mean: Giá trị trung bình

** Correlation is significant at the 0.01 level (2-tailed)

Bảng Correlations cho ta thấy giá trị Sig (2-tailed) = 0,000 < α = 0,05 nên 2 biến GDP

và TEL có tương quan rất chặt chẽ với nhau

Hệ số tương quan bội giữa GDP và TEL là r = 0.973 gần bằng 1, nên 2 GDP và TEL

có mối tương quan đồng biến với nhau, khi GDP tăng thì TEL cũng tăng và ngược lại Vậy 2 biến GDP và TEL có tương quan rất chặt chẽ và đồng biến với nhau

d Xây dựng mô hình hồi quy giữa TEL và GDP.

Page of 14 37

Trang 15

a Predictors:

(Constant), GDP

b Dependent Variable: TEL

Ta có phương trình mô hình hồi quy mẫu: TEL= GDP +

Kiểm tra sự phù hợp và tin cậy của mô hình:

Dựa vào bảng Model Summary b ta thấy mô hình tương đối phù hợp và đáng tin cậy

vì R = 0.943 có nghĩa là trong các nhân tố ảnh hưởng đến sự thay đổi của TEL thì GDP2

đã giải thích được 94,3% sự thay đổi của TEL còn lại 5,7% chịu tác động ảnh hưởng cácnhân tố khác chưa có điều kiện đưa vào mô hình

Adjusted R Square

Std Error of the Estimate

Change Statistics

R Square Change

F Change

1 ,973 a ,946 ,943 21,061 ,946 350,667

Trang 16

Model

Unstandardized Coefficients

Standardized Coefficients

a Dependent Variable: TEL

Kiểm tra sự tồn tại của hệ số hồi quy:

H0: B1 = 0

H1: B1 ≠ 0

H0: B2 = 0

H1: B2 ≠ 0

Phương trình của mô hình hồi quy: TEL = -66.106 + 0.065 GDP .

Với mức độ tin cậy 95% hệ số hồi quy của biến GDP luôn luôn khác 0 vì Sig = 0,000 < α =0,05 và GDP ảnh hưởng đáng kể đến TEL

Vậy trong trường hợp các yếu tố khác không đổi, khi GDP tăng lên 1 triệu đô thì TEL tăng 0.065 đơn vị

Ta có được thống kê số dư là:

Trang 17

Bài 5: Sinh viên tự đề xuất một yêu cầu nghiên cứu trong thực tế và ứng dụng công cụ

SPSS để tính toán, xây dựng mô hình, giải thích ý nghĩa và đề xuất giải pháp nếu có

Bài 6: Cho số liệu về sản xuất lúa ở tệp "RiceProduction", các biến tương ứng là:

1- Biến phụ thuộc:

- Output: sản lượng lúa (kg) của hộ gia đình 2- Biến giải thích/Các yếu ảnh hưởng: Hailoại:

Các đầu vào:

- Land: diện tích đất trồng lúa (ha)

- Fertilizer: đầu tư cho phân bón

- Labour: đầu tư về lao động (ngày công)

- Machine: đầu tư cho MMTB (giờ máy)

Các điều kiện sản xuất và đặc trưng của hộ gia đình

- Plot: số mảnh ruộng của hộ gia đình

- LandClass: Cấp đất (cấp đất càng cao đất càng xấu)

- Crop: hệ số mùa vụ (số vụ lúa bình quân/năm)

- Age: tuổi của chủ hộ

Page of 17 37

Trang 18

- Hhsize: số người trong hộ gia đình

- Vùng miền: Các quan sát từ 1-192 là các hộ gia đình ở miền Bắc (mã hóa Miền Bắc =1),các quan sát từ số 193 trở đi là các hộ gia đình miền Nam (mã hóa Miền Nam=0)

Yêu cầu:

1 Nhập dữ liệu từ file Excel vào phần mềm SPSS và ghi vào fileTen_RiceProduction_STT.sav

2 Bỏ đi 10 quan sát ngẫu nhiên (STT và 9 quan sát khác)

3 Xây dựng hàm hồi quy nghiên cứu các nhân tố ảnh hưởng đến sản lượng lúa của hộ giađình, ước lượng hàm hồi quy, phân tích ảnh hưởng của các nhân tố, gợi mở hoặc đề xuấtchính sách

Bảng số liệu bài 6

Các số đã bỏ trước khi chạy: 53, 82, 83, 84, 85, 86, 87, 88, 89, 90

Mô hình hồi quy tuyến tính đa biến: Có 10 biến độc lập

-Phương trình hồi quy tuyến tính:

Output=

(1)

- Kiểm tra số ngoại lai :

Page of 18 37

Trang 19

Khi kiểm tra yếu tố sản lượng lúa, ta loại bỏ các số dị biệt có số thứ tự: 202, 190, 226, 214

- Kiểm tra phân phối chuẩn các biến định lượng:

Page of 19 37

Trang 20

Các biến đều chưa tiệm cận với phân phối chuẩn

Sử dụng phương pháp chuyển đổi biến Ln

Trang 21

Page of 21 37

Trang 22

Phương trình: LnOutput =

(2)

- Phân tích tương quan giữa các biến độc lập với biến phụ thuộc:

Correlations LnLan

d LnFertiliser

LnLabo

ur LnMachi ne LnPlot

Cấp đất Tuổi của hộ

chủ Số khẩu của hộ Vùng miền

Page of 22 37

Trang 23

Correlation 1 .946

-.121 * 382 **

-.031 552

369

-.169 ** 1 Sig (2-tailed) 000 000 000 000 000 000 001

** Correlation is significant at the 0.01 level (2-tailed)

Page of 23 37

Trang 24

Dựa vào bảng trên, ta loại các biến LnPlot, tuổi chủ hộ và số khẩu có |r| < 0,3 do cótương quan yếu với sản lượng lúa

Phương trình:

LnOutput =

(3)

- Kiểm tra các khuyết tật mô hình:

+ Hiện tượng đa cộng tuyến:

Coefficients a

Model

Unstandardized Coefficients

Standardized Coefficients

a Dependent Variable: LnOutput

Dựa vào bảng Coefficients, có giá trị ở cột VIF của LnLand, LnFertiliser,LnMachine >= 10 nên có hiện tượng đa cộng tuyến

Để khắc phục điều này, ta có bỏ biến LnLand, chạy lại mô hình

Coefficients a

Model

Unstandardized Coefficients

Standardized Coefficients

Trang 25

LnLabour 301 043 177 6.990 000 171 5.837 LnMachine 365 035 344 10.548 000 103 9.682 Cấp đất -.054 010 -.067 -5.668 000 776 1.289 Vùng miền -.409 029 -.235 -14.235 000 403 2.480

a Dependent Variable: LnOutput

VIF của tất cả các biến đều <10 nên mô hình không có hiện tượng đa cộng tuyến

+ Hiện tượng tương quan phần dư:

Model Summary b

Model R R Square

Adjusted Square

R Std Error of the Estimate Durbin-Watson

1

.980 a

.960 960 17514 1.462

a Predictors: (Constant), Vùng miền, LnLabour, Cấp đất, LnFertiliser, LnMachine

b Dependent Variable: LnOutput

Ta thấy Durbin-Watson = 1,462 thỏa mãn điều kiện lớn hơn 1 và nhỏ hơn 3 nên môhình không có hiện tượng tự tương quan phần dư

+ Phần dư có tiệm cận với phân phối chuẩn hay không:

Page of 25 37

Trang 26

Căn cứ vào đồ thị Histogram có dạng giống hình chuông

Phân bố của phần dư tiệm cận phân phối chuẩn

- Kiểm tra sự tồn tại của mô hình:

a Dependent Variable: LnOutput

b Predictors: (Constant), Vùng miền, LnLabour, Cấp đất, LnFertiliser, LnMachine

H0: B1 = B2 = B3 = B4 = B5 = 0

H1: Có ít nhất một B khác biệt đáng kể với các B còn lại

Page of 26 37

Trang 27

So sánh giá trị cột sig của bảng ANOVA với α = 0,05

Vì Sig = 0,000 < α = 0,05 nên ta có cơ sở bác bỏ H0, chấp nhận H1

Vậy với mức độ tin cậy 95% mô hình luôn tồn tại

- Kiểm định sự phù hợp và tin cậy của mô hình:

Model Summary b

Model R R Square

Adjusted Square

R Std Error of the Estimate Durbin-Watson

1

.980 a

.960 960 17514 1.462

a Predictors: (Constant), Vùng miền, LnLabour, Cấp đất, LnFertiliser, LnMachine

b Dependent Variable: LnOutput

Mô hình tương đối phù hợp và đáng tin cậy vì R 2 = 0,960 có nghĩa là trong các yếu

tố ảnh hưởng đến sản lượng lúa của hộ gia đình, các yếu tố trong mô hình của phương trình(3) đã giải thích được 96,0% sự thay đổi về sản lượng lúa của hộ gia đình và còn lại 4,0%được giải thích bằng các yếu tố khác chưa giải quyết trong mô hình

- Kiểm định sự tồn tại của hệ số hồi quy:

Trang 28

- Xác định tầm quan trọng của các yếu tố ảnh hưởng:

Model

Unstandardized Coefficients

Standardized Coefficients ABS

(Beta) %

Tầm quan trọng

+ Trong trường hợp các biến khác không đổi khi đầu tư cho cấp đất tăng 1% thì sản

lượng lúa của HGĐ giảm 0,054% và ngược lại

+ Trong trường hợp các biến khác không đổi khi đầu tư cho vùng miền tăng 1% thì sản lượnglúa của HGĐ giảm 0,409% và ngược lại

- Đề xuất giải pháp khắc phục:

+ Tăng cường đầu tư cho phân bón, lựa chọn phân bón phù hợp với tiêu chí không gây

hại cho sức khỏe con người, không gây hại cho môi trường và tăng chất lượng lúa

*Dựa vào mô hình hồi quy thì chất lượng phân bón chiếm tỷ lệ cao cho việc tăng chất

lượng lúa, giúp cải thiện sản lượng lúa

Page of 28 37

Trang 29

*Ông cha ta đã có câu “Nhất nước, nhì phân, tam cần, tứ giống” nước hiện tải thìchưa cần nhắc đến còn việc bón phân và sử dụng đúng loại phân bón tốt sẽ giúp cải thiên vànâng cao chất lượng lúa cũng như sản lượng lúa.

+ Tích cực đầu tư cơ giới hóa, phát triển cơ sở hạ tầng, máy móc thiết bị

+ Ưu tiên phát triển trồng lúa các vùng miền Nam

+ Đào tạo chất lượng cho lao động nông thôn, cải tạo chất lượng đất trồng

Page of 29 37

Trang 30

Bài 7: Cho số liệu về khảo sát các nhân tố ảnh hưởng đến nghèo tại 1 địa phương Yêu cầu: Xây dựng hàm hồi quy nghiên cứu các nhân tố ảnh hưởng đến nghèo tại địa

phương nghiên cứu, phân tích ảnh hưởng của các nhân tố, gợi mở hoặc đề xuất chính sách

Phương trình hồi quy:

Trang 31

- Phân tích mối quan hệ giữa Hocvan và với các biến quan sát còn lại

hệ số tương quan bội (Pearson Correlation)

0,0 < r=0,026 < 0,3 chúng ta kết luận rằng Hocvan và Pthuoc có mối quan hệ

- Xác định tương quan giữa các biến định tính với nhau:

Dân tộc với Giới tính chủ hộ không có sự tương quan vì giá trị cột

Correlations

Học vấn Phụ thuôZc

Số KM từ nhà HGĐ đến chợ Diện tích

** Correlation is significant at the 0.01 level (2-tailed).

* Correlation is significant at the 0.05 level (2-tailed)

Ngày đăng: 16/05/2024, 16:24

HÌNH ẢNH LIÊN QUAN

Bảng Correlations cho ta thấy giá trị  Sig. (2-tailed)  = 0,000 &lt; α = 0,05 nên 2 biến GDP và TEL có tương quan rất chặt chẽ với nhau - bài tập phân tích dữ liệu
ng Correlations cho ta thấy giá trị Sig. (2-tailed) = 0,000 &lt; α = 0,05 nên 2 biến GDP và TEL có tương quan rất chặt chẽ với nhau (Trang 14)
w