In recent years, Vietnam’s economy has quickly developed and integrated successfully into global business.
Trang 1Kể từ khi ra đời, thống kê ngày càng đóng vai trò quan trọng trong đời sống xã hội Thông qua việc phát hiện, phản ánh những quy luật về mặt lượng của hiện tượng, các con số thống kê giúp cho việc kiểm tra, giám sát, đánh giá các chương trình, kế hoạch và định hướng sự phát triển kinh tế - xã hội trong tương lai Do vai trò quan trọng của thống kê nên V.I.Lê – nin đã khẳng định rằng :" thống kê kinh tế - xã hội là một trong những công cụ mạnh mẽ nhất để nhận thức xã hội ".
Ngày nay, thống kê được coi là một trong những công cụ quản lý vĩ mô quan trọng, có vai trò cung cấp các thông tin thống kê trung thực, khách quan, chính xác, đầy đủ, kịp thời phục vụ các cơ quan nhà nước trong việc đánh giá,
dự báo tình hình, hoạch định chiến lược, chính sách, xây dựng kế hoạch phát triển kinh tế - xã hội ngắn hạn và dài hạn
Đối tượng nghiên cứu của thống kê học là mặt lượng trong mối liên hệ mật thiết với mặt chất của các hiện tượng số lớn, trong điều kiện thời gian và địa điểm cụ thể
1.Lý do chọn đề tài
Các hiện tượng kinh tế - xã hội tồn tại trong mối liên hệ phụ thuộc lẫn nhau Phân tích hồi quy và tương quan là phương pháp thường sử dụng để nghiên cứu mối liên hệ phụ thuộc đó
2.Mục đích nghiên cứu
Nhiệm vụ của phương pháp phân tích hồi quy và tương quan phải giải quyết hai vấn đề cơ bản sau :
Một là : xác định mô hình hồi quy phản ánh mối liên hệ
Hai là : đánh giá mức độ chặt chẽ của mối liên hệ tương quan đó
Trang 2Trong đề án này, em sử dụng phương pháp phân tích hồi quy và tương quan để xây dựng mối liên hệ và phân tích các nhân tố ảnh hưởng đến tổng tỷ suất sinh
Và qua đây, em xin gửi lời cảm ơn chân thành tới TS Bùi Đức Triệu - Giảng viên khoa Thống kê Trường Đại học Kinh Tế Quốc Dân đã hướng dẫn
em hoàn thành đề án này
Trang 3B PHẦN NỘI DUNG
I LÝ THUYẾT VÀ ỨNG DỤNG
1 Liên hệ hàm số và liên hệ tương quan
Chủ nghĩa duy vật biện chứng khẳng định : các hiện tượng tồn tại trong mối liên hệ phụ thuộc lẫn nhau Phương pháp phân tích hồi quy và tương quan là một trong những phương pháp thường được sử dụng để nghiên cứu mối liên hệ phụ thuộc đó Khi nghiên cứu mối liên hệ phụ thuộc, nếu xét theo mức độ chặt chẽ của mối liên hệ, có thể phân thành hai loại : liên hệ hàm số
và liên hệ tương quan
- Liên hệ hàm số là mối liên hệ hoàn toàn chặt chẽ giữa tiêu thức nguyên nhân – kí hiệu là x và tiêu thức kết quả - kí hiệu là y Dạng tổng quát của liên hệ hàm số : y = f(x), tức là : Cứ mỗi giá trị của tiêu thức nguyên nhân
sẽ có một giá trị tương ứng của tiêu thức kết quả Mối liên hệ này có thể thấy được không những ở toàn bộ tổng thể, mà cả trên từng đơn vị cá biệt Liên hệ hàm số thường gặp khi nghiên cứu các hiện tượng tự nhiên như Vật lý, Toán học…như mối liên hệ giữa bán kính và diện tích hình tròn, ta có công thức sau : S =πR2
- Liên hệ tương quan là mối liên hệ không hoàn toàn chặt chẽ giữa tiêu thức nguyên nhân và tiêu thức kết quả : Cứ mỗi giá trị của tiêu thức nguyên nhân sẽ có nhiều giá trị tương ứng của tiêu thức kết quả Ví dụ : mối liên hệ giữa số lượng sản phẩm và giá thành đơn vị sản phẩm.Không phải khi khối lượng sản phẩm tăng lên thì giá thành đơn vị sản phẩm sẽ giảm theo một lượng tương ứng Cũng như mối liên hệ giữa số lượng phân bón và năng suất cây trồng, mối liên hệ giữa vốn đầu tư và kết quả sản xuất…Các mối liên hệ này là các mối liên hệ không hoàn toàn chặt chẽ, không được biểu hiện một cách rõ ràng trên từng đơn vị cá biệt Do đó để phản ánh mối liên hệ tương quan thì phải nghiên cứu hiện tượng số lớn, tức là thu thập tài liệu về tiêu thức nguyên nhân và tiêu thức kết quả của nhiều đơn vị Liên hệ tương quan thường gặp khi nghiên cứu các hiện tượng kinh tế - xã hội
2 Ý nghĩa phân tích hồi quy và tương quan
Phương pháp phân tích hồi quy và tương quan là phương pháp thường được sử dụng trong thống kê để nghiên cứu mối liên hệ giữa các hiện tượng, như mối liên hệ giữa các yếu tố đầu vào của quá trình sảnh xuất với kết quả sản xuất, mối liên hệ giữa thu nhập và tiêu dùng, mối liên hệ giữa phát triển kinh tế – xã hội…
Phương pháp phân tích hồi quy và tương quan còn được vận dụng trong
Trang 43 Hồi quy tương quan tuyến tính đơn
Ví dụ : Có tài liệu về số lao động và giá trị sản xuất (GO) của 10 doanh nghiệp công nghiệp như sau :
Lao động(người)
GO(Tỷ đồng)
Tài liệu trên cho thấy: Nhìn chung,cùng với sự tăng lên của số lượng lao động thì giá trị sản xuất cũng tăng lên,nhưng cũng có trường hợp không hẳn như vậy – như doanh nghiệp thứ hai so vơi doanh nghiệp thứ nhất: Số lao động nhiều hơn nhưng giá trị sản xuất lại thấp hơn Điều này chứng tỏ giữa số lượng lao động và giá trị sản xuất có mối liên hệ không hoàn toàn chặt chẽ - tức là liên hệ tương quan
Có thể dùng đồ thị để biểu hiện mối liên hệ với trục hoành là số lao động (x) , trục tung là giá trị sản xuất (y) như sau:
Trang 5400 300
200 100
Mô hình hồi quy đơn :
ŷx = b0 + b1x
Trong đó :
ŷx : là giá trị của tiêu thức kết quả được tính từ mô hình hồi quy
b0 : là hệ số tự do, phản ánh ŷx không phụ thuộc vào x
b1 : là hệ số góc, phản ánh sự thay đổi của ŷx khi x tăng một đơn vị
Các hệ số b0 và b1 được xác định bằng phương pháp bình phương nhỏ nhất : ∑ (y- ŷx)2 = Min
Trang 6b0 = 2.927 ; b1 = 0.082
Mô hình hồi quy tuyến tính phản ánh mối liên hệ giữa số lượng lao động và giá trị sản xuất là :
ŷx = 2.927 + 0.082x
b0 = 2.927 : nói lên các nguyên nhân khác ngoài x, ảnh hưởng đến GO
b1 = 0.082 : nói lên khi thêm một lao động thì GO tăng bình quân 0.082 tỷ đồng
Bằng cách biến đổi hệ phương trình trên, có thể tính b0 và b1như sau:
.
x
xy x y b
n
=∑ = 30814.13
10 = 3081.413
x x n
=∑ = 1612
10 = 161.2
y y
n
= ∑ = 161.45
10 = 16.145
Trang 716.145 0.082*161.2 2.927
b b
xy x y r
σ σ
−
=Hoặc :
- Nếu r = 1 ( hoặc r = -1 ): Giữa x và y có mối liên hệ hàm số
- Nếu r = 0 : Giữa x và y không có mối liên hệ tương quan tuyến tính
- Nếu r → 1 ( hoặc r → -1 ) : Giữa x và y có mối liên hệ càng chặt chẽ
- Nếu r dương : Giữa x và y có mối liên hệ thuận, nếu r âm : Giữa x và y
Trang 8- Nếu η = 1 : Giữa x và y có mối liên hệ hàm số
- Nếu η = 0 : Giữa x và y không có mối liên hệ.
- Nếu η → 1 : Giữa x và y có mối liên hệ càng chặt chẽ.
5 Hồi quy tương quan tuyến tính bội
Giả sử có k tiêu thức nguyên nhân :
1 , , , , 2 3 k
1 2 k 0 1 1 2 2 3 3 k k
y = +b b x +b x +b x + +b x và tiêu thức kết quả y, mô
hình hồi quy tuyến tính bội sẽ có dạng :
b1,b2,b3,…,bk là các hệ số hồi quy riêng
Áp dụng phương pháp bình phương nhỏ nhất sẽ có hệ phương trình sau đây
để tính b0, b1,b2,b3,…,bk :
Trang 9
* Hệ số hồi quy chuẩn hóa – kí hiệu: beta, được sử dụng để đánh giá
mức độ ảnh hưởng của từng tiêu thức nguyên nhân xi đối với tiêu thức kết quả
y, và được tính hệ công thức sau đây :
i
i x
SS x n
σ =
−
( ) 1
y
SS y n
σ =
−Dấu của beta i là dấu của bi, phản ánh chiều hướng mối liên hệ là thuận hay nghịch giữa tiêu thức nguyên nhân xi đối với tiêu thức kết quả y Nếu
* Hệ số tương quan bội và hệ số tương quan riêng phần
- Hệ số tương quan bội ( kí hiệu R ) được sử dụng để đánh giá mức độ chặt chẽ mối liên hệ tương quan tuyến tính giữa tất cả các tiêu thức nguyên nhân x x x1 , , , , 2 3 x k với tiêu thức kết quả y và được tính theo công thức sau đây :
$
1 2
2
+ Nếu R = 1 : Giữa x x x1 , 2 , 3 , ,x k và y có mối quan hệ hàm số
+ Nếu R = 0 : Giữa x x x1 , 2 , 3 , ,x k và y không có mối liên hệ tương quan
Trang 10+ Nếu R→ 1 : Giữa x x x1 , , , , 2 3 x k và y có mối liên hệ tương quan tuyến tính càng chặt chẽ.
Trong trường hợp chỉ có hai tiêu thức nguyên nhân, ta có thể tính hệ số tương quan tuyến tính bội theo công thức sau đây :
+ Hệ số tương quan riêng phần giữa x1 và y trong khi x2 không đổi:
Hậu quả của đa cộng tuyến là làm cho việc ước lượng các hệ số của mô hình hồi quy sẽ không chính xác, ảnh hưởng đến việc suy rộng các kết quả tính toán
Để khắc phục hiện tượng đa cộng tuyến, trong một số chương trình về thống kê, ví dụ như chương trình SPSS, có một số phương pháp xây dựng mô hình hồi quy sau đây :
- Phương pháp đưa vào dần ( Forward selectinon ): Tiêu thức đầu tiên được xem xét để đưa vào mô hình hồi quy là tiêu thức nguyên nhân có hệ số tương quan lớn nhất ( về trị tuyệt đối ) với tiêu thức kết quả Để xem xét tiêu thức nguyên nhân này ( và những tiêu thức nguyên nhân khác ) có được đưa
Trang 11vào mô hình hồi quy hay không thì sử dụng tiêu chuẩn vào là thống kê F (được mặc định F = 3,84 ) Nếu tiêu thức nguyên nhân đầu tiên được xem xét
để đưa vào mô hình hồi quy thỏa mãn tiêu chuẩn vào thì phương pháp đưa vào dần sẽ tiếp tục, nếu không, không có tiêu thức nguyên nhân nào được đưa vào mô hình hồi quy
Khi tiêu thức nguyên nhân đầu tiên đã thỏa mã tiêu chuẩn vào mô hình hồi quy thì tiêu thức nguyên nhân thứ hai được xem xét có thoả mãn tiêu chuẩn vào hay không là tiêu thức nguyên nhân có hệ số tương quan riêng phần lớn nhất ( về trị tuyệt đối ) với tiêu thức kết quả Nếu tiêu thức này thoả mãn tiêu chuẩn vào sẽ được đưa vào mô hình hồi quy Thủ tục này sẽ tiếp tục cho đến khi không còn tiêu thức nguyên nhân nào thỏa mãn tiêu chuẩn vào
- Phương pháp loại trừ dần ( Backward elimintion ): Tất cả các tiêu thức nguyên nhân được đưa vào mô hình hồi quy Sau đó loại trừ dần chúng bằng tiêu chuẩn loại trừ Tiêu chuẩn loại trừ là giá trị F tối thiểu ( được mặc định F = 2,71 ) mà tiêu thức nguyên nhân phải đạt được để được ở lại trong
mô hình hồi quy Nếu các tiêu thức nguyên nhân có giá trị F nhỏ hơn giá trị F tối thiểu thì chúng sẽ bị loại khỏi mô hình hồi quy
- Phương pháp chọn từng bước ( Stepwise selection ): Là sự kết hợp giữa hai phương pháp trên và là phương pháp thường được sử dụng
Tiêu thức nguyên nhân đầu tiên được chọn để đưa vào mô hình hồi quy giống như phương pháp đưa dần vào, nếu có không thỏa mãn tiêu chuẩn vào thì thủ tục này sẽ chấm dứt và không có tiêu thức nguyên nhân nào được lựa chọn Nếu nó thỏa mãn tiêu chuẩn vào thì tiêu thức nguyên nhân thứ hai được lựa chọn dựa vào hệ số tương quan riêng phần lớn nhất ( về trị tuyệt đối ) Nếu tiêu thức nguyên nhân thứ hai thỏa mãn tiêu chuẩn vào thì nó cũng sẽ đi vào mô hình hồi quy
Sau đó, dựa vào tiêu chuẩn ra để xem xét tiêu thức nguyên nhân thứ nhất có phải loại bỏ khỏi mô hình hồi quy hay không Trong bước kế tiếp, các tiêu thức nguyên nhân không ở trong mô hình hồi quy được xem xét và để đưa vào Sau mỗi bước, các tiêu thức nguyên nhân ở trong mỗi mô hình hồi quy được xem xét để loại trừ ra cho đến khi không còn tiêu thức nguyên nhân nào thỏa mãn tiêu chuẩn ra thì kết thúc
Các mô hình hồi quy được xây dựng theo các phương pháp trên có thể khác nhau Tuỳ thuộc vào mục đích và nhiệm vụ nghiên cứu cụ thể để lựa chọn mô hình thích hợp
7 Tương quan hạng
Tương quan hạng có thể được sử dụng trong trường hợp số lượng đơn
vị không nhiều để nghiên cứu mối liên hệ tương quan giữa hai tiêu thức Đối
Trang 12của tiêu thức - tức là sử dụng thang đo thứ bậc Nếu biểu hiện tiêu thức của một số đơn vị giống nhau thì lấy hạng bình quân của các đơn vị đó.
Hệ số tương quan hang rs của Spearman được sử dụng để đánh giá mức
độ chặt chẽ và tính theo công thức sau đây:
2 2
6 1 ( 1)
i s
d r
n : Số đơn vị nghiên cứu ;
di : Hiệu của hai hạng đơn vị i, với i= 1,n
Tính chất của hệ số tương quan hạng giống với tính chất của hệ số tương quan tuyến tính giữa hai tiêu thức số lượng, tức là :
} {
k: có giá trị trong khoảng [ ]0;1
Nếu k = 0 cho biết không có mối quan hệ
k = 1 cho biết mối quan hệ hoàn toàn chặt chẽ
Trang 13II VẬN DỤNG ĐỂ PHÂN TÍCH SỐ LIỆU THỰC TẾ
(dùng hồi quy tương quan tuyến tính giữa nhiều tiêu thức số lượng)
Theo kết quả cuộc Tổng điều tra dân số năm 1999 và báo cáo phát triển con người năm 2001, có tài liệu của 10 tỉnh phía Bắc nước ta như sau :
X1: GDP bình quân theo đầu người ( triệu đồng )
X2: Tỷ lệ phụ nữ 15 - 49 tuổi chưa biết đọc, biết viết (%)
X3: Tỷ suất chết của trẻ em dưới 1 tuổi (‰)
X4: Tuổi kết hôn trung bình lần đầu của phụ nữ 15 – 49 tuổi (tuổi)
X5: Tỷ lệ phụ nữ 15 – 49 tuổi thực hiện biện pháp tránh thai (%)
Có nhiều phương pháp để xây dựng mô hình hồi quy như : phương pháp đưa vào một lượt (enter), phương pháp loại trừ dần ( forward ), phương pháp chọn từng bước ( stepwise )
- Phương pháp đưa vào một lượt ( enter ) : các tiêu thức nguyên nhân ( các biến độc lập ) đều được đưa vào một lượt trong mô hình hồi quy, không
có tiêu thức nguyên nhân nào bị loại khỏi mô hình Ta có một số kết quả sau đây :
Trang 14Y X1 X2 X3 X4 X5 Pearson
a Predictors: (Constant), X5, X4, X1, X3, X2
Bảng Model Summary cho thấy :
+ hệ số tương quan bội R = 0,939 phản ánh mối liên hệ giữa các tiêu thức nguyên nhân X1,X2,X3,X4,X5 với tiêu thức kết quả Y rất chặt chẽ
+ hệ số xác định bội R2 = 0,882 phản ánh 88,2% sự biến động của tiêu thức kết quả Y là do các tiêu thức nguyên nhân X mang lại
Trang 15Model
Unstandardized Coefficients
b2 = 0,01 : khi tỷ lệ phụ nữ 15 - 49 tuổi chưa biết đọc, biết viết
tăng thêm 1% thì tổng tỷ suất sinh tăng tương ứng 0,01 đơn vị
b3 = 0,009 : khi tỷ suất chết của trẻ em dưới 1 tuổi tăng thêm 1‰ thì tổng tỷ suất sinh tăng tương ứng 0,009 đơn vị
b4 = -0,477 : khi tuổi kết hôn trung bình lần đầu của phụ nữ 15 – 49 tuổi tăng thêm 1 tuổi thì tổng tỷ suất sinh giảm tương ứng 0,477 đơn vị
b5 = -0,031 : khi tỷ lệ phụ nữ 15 – 49 tuổi thực hiện biện pháp tránh thai tăng thêm 1% thì tổng tỷ suất sinh giảm tương ứng 0,031 đơn vị
Dấu của các hệ số hồi quy phản ánh chiều hướng mối liên hệ của từng tiêu thức nguyên nhân với tiêu thức kết quả
* b2 = 0,01 và b3 = 0,009 có dấu dương phản ánh mối liên hệ giữa X2 và
X3 với Y là mối liên hệ thuận Hay tỷ lệ phụ nữ 15 - 49 tuổi chưa biết đọc, biết viết và tỷ suất chết của trẻ em dưới 1 tuổi với Tổng tỷ suất sinh có mối liên hệ thuận
* b = -1,021 ; b = -0,477 ; b = -0,031 có dấu âm phản ánh mối liên
Trang 1615 – 49 tuổi thực hiện biện pháp tránh thai với Tổng tỷ suất sinh có mối liên
hệ nghịch
Bảng Coefficients(a) còn cho biết các hệ số hồi quy chuẩn hoá beta, cho phép đánh giá mức độ ảnh hưởng cũng như chiều hướng tác động của từng tiêu thức nguyên nhân X đến tiêu thức kết quả Y Giá trị tuyệt đối của beta càng lớn thì ảnh hưởng của tiêu thức nguyên nhân đến tiêu thức kết quả càng lớn và dấu của beta là dấu của hệ số hồi quy thông thường Theo kết quả trên :
Mô hình hồi quy trên có nhiều tiêu thức nguyên nhân,chúng dễ có tương quan tuyến tính với nhau nên không tránh khỏi hiện tượng đa cộng tuyến.Vì thế,việc ước lượng các hệ số của mô hình sẽ không chính xác, ảnh hưởng tới việc suy rộng kết quả tính toán
Để khắc phục hiện tượng trên,ta dùng một số phương pháp sau đây:-Phương phap loại trừ dần(backward):Tất cả các tiêu thức nguyên nhân được đưa vào mô hình hồi quy,sau đó tuần tự loại trừ chúng bằng tiêu chuẩn loại trừ.Tiêu chuẩn loại trừ là giá trị F tối thiểu phải đạt được để ở lại mô hình.Nếu các tiêu thức nguyên nhân có giá trị F nhỏ hơn giá trị F tối thiểu thì chúng sẽ bị loại khỏi mô hình.Theo phương pháp này ta có kết quả sau đây:
Standardized
Trang 17Hệ số tương quan bội R = 0.935
Như vậy X3 đã bị loại khỏi mô hình
Mô hình 3:
Ŷ = 20.695 – 1,132X1 – 0.648X4 – 0.0417X5
Hệ số tương quan bội R=0.933
Như vậy thêm X2 bị loại khỏi mô hình
-Phương pháp đưa dần vào(forward): Tiêu thức đầu tiên được xem xét
để đưa vào mô hình hồi quy là tiêu thức nguyên nhân có hê số tương quan lớn nhất ( về trị tuyệt đối ) với tiêu thức kết quả Để xem xét tiêu thức nguyên nhân này ( và những tiêu thức nguyên nhân khác ) có được đưa vào mô hình hồi quy hay không thì sử dụng tiêu chuẩn vào là thống kê F ( được mặc định
F = 3,84 ) Nếu tiêu thức nguyên nhân đầu tiên được xem xét để đưa vào mô hình hồi quy thỏa mãn tiêu chuẩn vào thì phương pháp đưa vào dần sẽ tiếp