phân tích giá trị sản xuất công nghiệp trong nền kinh tế trong những năm gần đây
Trang 1LỜI MỞ ĐẦU
gày nay, công nghệ thông tin đang ngày càng phát triển và trở thành một phần quan trọng không thể thiếu đối với cuộc sống mỗi con người cũng như các lĩnh vực trong đời sông xã hội Phân tích thống kê số liệu là một môn học mới, đòi hỏi kiến thức hiểu biết sâu rộng, ham học hòi, tìm hiểu, số lượng chính xác từ sinh viên Việc phân tích tập số liệu mẫu, đánh giá các tham số đặc trưng, phân tích phương sai, xây dựng các mô hình hồi quy và tương quan đóng một vai trò
vô cùng quan trọng cho các nghiên cứu khoa học về mọi lĩnh vực của đời sống con người.
N
Nghiên cứu là một lĩnh vực khó tìm hiểu , mất nhiều thời gian, cần sự kiên trì và tập trung nghiên cứu Đòi hỏi các nhà khoa học không chỉ có kiến thức chuyên ngành mà còn cần sự hiểu biết ở mọi mặt của xã hội
Nhận định được những điều trên, mặc dù vốn kiến thức chưa nhiều, nhưng với mong muốn nghiên cứu tập số liệu và đưa ra năng lực dự báo khác nhau Nhóm 16 – lớp KHMT3 – K6 đã lựa chọn đề tài “phân tích gía trị sản xuất công nghiệp trong nền kinh tế trong những năm gân đây ” với mong muốn tìm hiểu chuyên sâu hơn về lĩnh vực cũng như có cơ hội tiếp cận nghiên cứu các đề tài có tính chất ứng dụng cao cho một lĩnh vực cụ thể của đời sống
Vì kiến thức còn hạn chế nên bài tập lớn của nhóm chúng em chưa được hoàn hảo.Vì vậy, nhóm chúng em mong muốn nhận được những ý kiến đóng góp của thầy cô.
Chúng em xin chân thành cảm ơn !!!
Nhóm 16– KHMT3 – K6
Trang 2CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
I PHÂN TÍCH CHUỖI THỜI GIAN: không thường xuyên
Phương pháp phân tích chuỗi thời gian có:
Để đánh giá yếu tố xu thế , phương pháp sử dụng phổ biến là:Phương pháp
bình phương tối thiểu (BPTT)
Trang 3Đây là phương pháp cho phép xác định được đường cong ( thẳng ) hoặc mặt phẳng( Siêu mặt phẳng ) biểu thị xu thế số liệu, giới thiệu “tốt nhất “ số liệu trong quá khứ( “ gần với số liệu quan sát “).
Trong trường hợp cá biệt khi nhận thấy xu thế của biến khảo sát trong thời giandài là tuyến tính , phương trình sẽ xác định bởi
N i i
0 0
Trang 4N-> tổng số quan trắc
Chú ý :Trong trường hợp xu thế không phải là tuyến tính , ta có thể xét đến
dạng đường cong hàm mũ y=abt hoặc dạng parabol y = a + bt + ct2
II PHÂN TÍCH CÁC ĐẶC ĐIỂM CỦA TẬP DỮ LIỆU
1 CÁC ĐẶC TRƯNG THỐNG KÊ CỦA TẬP SỐ LIỆU
1.1 Các tham số đặc trưng về sự tập trung của tập số liệu
Tần suất (Pi)
Giả thiết có một tập số liệu kết quả nghiên cứu gồm có N số liệu, trong đó
có ni giá trị có Xi (Xi xuất hiện ni lần) ni gọi là tần số của giá trị Xi, khi đó, tần suất củagiá trị Xi đươcj tính như sau:
pi =
n i N
pi : là tần xuất xuất hiện giá trị Xi, khi N→ ∞ thì pi→Pi(Pi là xác xuất xuất hiện Xi)
Trang 5Số tứ phân vị là các số mà chia tập số liệu thành 4 phần tư Có 3 số
tứ phân vị là Q1=X1/1, Q2 = X2/4 và Q3 = X3/4 Số Q2 = X2/4 trùng với số trung vị Med
Đối với các số liệu không nhóm lại:
Giả sử X1, X2, …Xn là dãy các giá trị của tập số liệu kết quả thựcnghiệm, được sắp xếp theo thứ tự tăng dần, thì:
- Số trung vị của tập N số lẻ được tính theo công thức:
Đối với số liệu gộp thành nhiều nhóm:
Gỉa sử nhóm thứ i(Xi, Xi+1) có ni giá trị nằm trong nhóm đó và ta có:
∑
i
n i = N Thì Med(trung vị của nhóm) nằm trong nhóm thứ k(Xk, Xk+1) được tínhnhư sau:
Trang 6 Mode
Mode: là giá trị xuất hiện thường xuyên nhất trong tập hợp, danh sáchcác giá trị, phần tử Trong trường hợp không có giá trị nào được lặp lại thì không cóMode
Trung bình cộng
Trung bình cộng đơn giản trong thống kê là một đại lượng mô tả thống
kê, được tính ra bằng cách lấy tổng giá trị của toàn bộ các quan sát trong tập chia cho sốlượng các quan sát trong tập
Gọi X là giá trị trung bình cộng của 1 tập số liệu thì X được tính theocông thức sau:
1.2 Các tham số đặc trưng cho sự phân tán của tập số liệu
Phương sai(σ2hoặc S2)
Phương sai là trung bình của tổng bình phương sai khác giữa các giá trịcủa tập số liệu so với giá trị trung bình của tập số liệu kết quả thực nghiệm:
¿, N’ = N – 1 khi N<30(σ2
¿
N’ có bản chất là bậc tự do của tập số liệu kết quả thực nghiệm
Phương sai đặc trưng cho sự sai biệt của các số liệu trong kết quả thựcnghiệm Phương sai càng lớn, sai biệt càng lớn Ngược lại phương sai càng nhỏ thì sự saibiệt càng nhỏ
Trang 7Phương sai còn biểu diễn độ phân tán của tập số liệu kết quả thực nghiệmđối với giá trị trung bình Phương sai càng lớn độ phân tán chung quang có giá trị trungbình càng lớn và ngược lại.
Khi độ lệch chuẩn (Sf) (tức sai biệt của các số liệu thực nghiệm lớn) Thì
Cv loứn và ngược lại
1.3 Các đặc trưng phân phối thống kê của tập số liệu
Đặc trưng phân phối thongs kê của một tập số liệu kết quả thực nghiệm
là qui luật phân bố ngẫu nhiên các giá trị kết quả thực nghiệm trên trục số thực Đặc trưngphân phối thống kê riêng và thường tuân theo 1 trong 6 qui luâtj phân phối thống kê ngẫunhiên, đó là:
Phân phối chuẩn(phân phối chuẩn gauss) (u) :
- Hàm số của phân phối chuẩn được biểu diễn bằng phương trinhf toán học:
Trang 8Trong đó:
X: là biến cố ngẫu nhiên
μ : là hằng số, bănggiá trị kì vọng của biến ngẫu nhiên
σ : là hằng số, bằng giá trị phương sai của biến ngẫunhiên
G ọ iu l à c hu ẩ n gauss v à
Đặt u = X−μ τ Thay vào phương trình trên ta được dạng chính tắc của hàm phân phốichuẩn:
Phân phối Student(phân phối t)
Hàm phân phối student có dạng:
=
´
X−μ
S ´X f
= u f
Hàm này phụ thuộc và biến cố t là 1 biến ngẫu nhiên
f: là bậc tự do ( f = N −1)B: là hằng số
Sf = là độ lệch chuẩn
Vậy t bao giờ cũng phụ thuộc vào bậc tự do Đối với phân phối chuẩn Student cũng có bảng tra chuẩn Student tính sẵn.Dựa vào bảng này, cho một cặp giá trị P và f thì xác định được 1 giá trị t và ngược lại, khibiết t và f thì xác định được P
- Có 2 lại bảng tra giá trị( gọi là bảng phân phối của chuẩn t) Khi giả thiết thống
kê đặt là:
Trang 9Nếu giả thiết Nếu giả thiết
Thì tra bảng phân vị của chuẩn t
theo 1 phía
Thì tra bảng phân vị của chuẩn t
theo 2 phía
Phân phối Fisher:
Hàm phân phối Fisher có dạng:
Y(F, f1, f2) = A F (
f 1−2
2 )(f 2−f 1 F)
Hàm phân phối Fisher cũng có tính chất như các hàm phân phối khác
Người ta cũng lập những bảng tra sẵn khi cho(P, f1, f2) sẽ tra được các giá trị củachuẩn F, ngược lại cho 3 trong 4 thông số( F, P, f1, f2) sẽ tra được thông số thứ 4
Phân phối khi bình phương:
Hàm phân phối khi bình phương có dạng:
Trang 10 Phân phối Poisson:
Hàm phân phối Poisson có dạng:
- Kỳ vọng của biến ngẫu nhiên X là: Np
- Phương sai của biến ngẫu nhiên X là: C2 = Npq
- Độ lệch chuẩn của biến ngẫu nhiên X là: √ σ2 = √ Npq
- Độ sai chuẩn của biến ngẫu nhiên X là : Cx = Npq
Mối quan hệ giữa các hàm phân phối và các chuẩn phân phối
Nhận xét:
- Tập số liệu kết quả thực nghiệm phụ thuộc vào bậc tự do
- 2 bậc tự do tuân theo hàm F
- 1 bậc tự do thì tuân theo hàm t hoặc hàm x2
Không phụ thuộc vào tự do thì tuân theo hàm u hoặc hàm P
Cách xác định định tính luật phân phối của một tập số liệu kết quả thực nghiệm Nếu N>30 và có 1 trong 3 tính chất sau thì tập số liệu kết quả thực nghiệm
có quy luật phân phối chuẩn:
1) Đồ thị phân phối tần suất có dạng chuông2) M0≡ Me≡ X
3) Xi nhận giá trị ở ngoài khoảng X± 2 σ l à 5 % hoặc
Xi nhận giá trị ở trong khoảng X± 2 σ l à 95 %
2 ĐÁNH GIÁ TẬP SỐ LIỆU KẾT QUẢ THỰC NGHIỆM
2.1 Sai số thực nghiệm
Có 4 loại tham số thực nghiệm:
- Sai số tuyệt đối:
ε = X = X −μ
Trang 11- Sai số tương đối:
ε R = X i− ´X
´
X 100 = X i−μ´
X 100 Sai số tương đối không có thứ nguyên cho nên được dung để so sánh sai sốtương đối của cả phương pháp thực nghiệm cho các kết quả không cùng(thử nghiệm) thứnguyên
- Sai số hệ thống:
∆ X= ´X −μ ≠0
Hiệu này khác 0 là đáng tin cậy thì thử nghiệm đã mắc sai số hệ thống
- Sai số ngẫu nhiên:
2.2 Độ chính xác của tập số liệu kết quả thực nghiệm.
- Giá trị trung bình cộng sai khác với giá trị thật càng nhỏ thì độ chính xác của thựcnghiệm càng lớn và ngược lại
- Nguyên nhân dẫn đến độ chính xác kém có thể là:
+ Chọn mẫu không đúng về chất lượng và số lượng+ Giải pháp do số liệu không chính xác
2.3 Độ sai biệt của tập số liệu kết quả thực nghiệm
- Phương sai biểu diễn độ sai biệt trung bình Phương sai càng nhỏ thì độ sai biệtcàng nhỏ và ngược lại
- Nguyên nhân dẫn đến độ sai biệt lớn:
+ Chọn mẫu về chất lượng và số lượng không đặc trưng cho mụctiêu thực nghiệm
+ Tay nghề kém
2.4 Sai số tối đa cho phép ∆ P( X )
Sai số tối đa cho phép ∆ P( X ) của một tập số liệu kết quả thực nghiệmđược qui định: Cho phép lấy các giá trị Xi sai khác với giá trị trung bình X lớn nhất là
± 3 σ Nó pahnr ánh tính thống kê của kết quả thực nghiệm Sai số tôí đa cho phép chialàm 2 loại:
- Sai số tối đa cho phép tuyệt đối:
∆ P ( X )=±3 σ
- Sai số tối đa cho phép tương đối:
Trang 12∆ P ( X )
±3 σ
´X ∙100 Những giá trị kết quả thực nghiệm nào nằm ngoài khoảng sai số tối đa chophép tuyệt đối khi phải loại bỏ
2.5 Khoảng chính xác tin cậy:
∆ X ( P , f )= ´X −μ=t (P , f ) S ´x
Trong đó: P: độ tin cậy thống kê
f: bậc tự do của tập số liệu kết quả thực nghiệm
2.6 Khoảng giới hạn tin cậy của một tập số liệu kết quả thực nghiệm:
Khoảng giới hạn tin cậy của một tập số liệu kết quả thực nghiệm đượcnằm trong khoảng:
´
X ± ∆(P , f )=X ± t ( P , f ) S´ ´x
Giá trị Xi bất kì của một tập số liệu kết quả thực nghiệm được chấp nhậntheo độ tin cậy thống kê(P) cho trước, có bậc tự do f=N-1 phải luôn nằm trong khoảnggiới hạn tin cậy và thường biểu diễn như sau:
Xi(X −∆´ X ÷ ´X +∆ X
Hay:
P = {X −t ( p , f ) S´ f<Xi< ´X+ t( p , f )S f}
III. XÂY DỰNG MÔ HÌNH
1 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
1.1 Khái niệm
Giả xử nhận thấy giá trị của y có xu hướng tăng hoặc giảm một cách tuyến tính khităng x, ta có thể chọn một mô hình biểu diễn quan hệ của y theo x bằng cách vẽ mộtđường cũng được “làm khớp ” cho một tập dữ liệu Tuy nhiên vấn đề là: Làm thế nào vẽ
Trang 13một đường đi qua tất cả các điểm, ít nhất là một điểm sẽ lệch đáng kể so với đường thẳngđược làm khớp.
Các giải pháp cho vẫn đề:
Xây dựng một mô hình hồi quy tuyến tính đơn giản, sao cho giá trị trung bình của
y tương ứng với giá trị của x Đồ thị là đường thẳng và các điểm đi chệch so với đườngthẳng này do ngẫu nhiên, và bằng e, tức là:
a y=A+Bx+eTrong đó: A và B là các tham số chưa biết trong xác định mô hình Nếu ta giả xửgiá trị kỳ vọng E(e)=0, thì giá trị trung bình của y là:
- y là biến phụ thuộc (biến được mô hình hóa, còn gọi là biến đáp ứng)
- x là biến độc lập
- e là lỗi ngẫu nhiên
- A hệ số tự do
- B độ nghiêng của đường thẳng
1.2 Tính hệ số tự do (A), độ nghiêng (B) theo phương pháp bình phương
là ước lượng của A và B tương ứng Đối với một điểm số liệu, nói rằng các điểm (xi,yi),giá trị quan sát của y là yi và các giá trị dự đoán của y sẽ là:
^y=a+b x i
Trang 14và độ lệch của giá trị thứ i của y từ giá trị dự đoán của nó là:
Công thức tính toán cho đường bình phương cực tiểu:
1.3 Đánh giá phương sai (δ2)
Trong hầu hết các tình huống thực tế, phương sai ∂2 của số ngẫu nhiên e chưa biết
và phải được ước tính từ dữ liệu mẫu Với đo phương sai của cá giá trị y về đường hồiquy, trực giác ta ước tính bằng cách chia tổng số lỗi SSE cho một số thích hợp
Tính toán phương sai σ2
Degree of freedom for error=
SSE n−2
Trang 151 Giả định b có phân phối mẫu là phân phối chuẩn.
2 Các trung bình của b tính theo bình phưowng cực tiểu là B,
E(b) = B, có nghĩa là, b là một ước lượng không chệch cho B
3 Độ lệch chuẩn của phân phối mẫu của b là:
Trang 16Một tiện ích kiểm định mô hình
2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐA BIẾN
2.1 Giới thiệu các mô hình tuyến tính tổng quát
Ta có thể chuyển mô hình bậc hai về mô hình bậc nhất:
Mô hình bậc hai:
E ( y )=B0+B 1 X1+B 2 X
1Đặt X2=X12
Trở thành mô hình bậc nhất:
E ( y )=B0+B 1 X1+B 2 X2
Do vậy, chúng ta chỉ xét mô hình hồi quy bậc nhất đa biến
Mô hình tuyến tính đa biến tổng quát
y=B0+B 1 X1+…+ Bk X k+e
Trong đó:
Trang 17y: biến phụ thuộc (biến được mô hình hóa)
Trong đó e là sai số ngẫu nhiên :
- Đối với các giá trị bất kỳ của x1, x2,…, xk lỗi ngẫu nhiên e có phân bố chuẩnvới trung bình bằng 0 và phương sai bằng δ2
- Các lỗi ngẫu nhiên là độc lập
2.3 Phương pháp bình phương tối thiểu
Xét tương tự mô hình hồi quy tuyến tính một biến đơn giản
Giả sử ta có bảng dữ liệu mẫu:
Ta sẽ sử dụng phương pháp bình phương tối thiểu và tính B0, B1, B2,…., Bk saocho cực tiểu
Trang 182.4 Đánh giá phương sai
Vì phương sai δ2sẽ hiếm khi được biết trước, chúng ta phải sử dụng các dữ liệumẫu để ước tính giá trị của nó
Ước lượng của δ2 , phương sai trong mô hình hồi quy đa biến
S2
Degree of freedom for error=
SSE n−2
Trang 19Phân bố mẫu của bi (i=0,1,…,k) là chuẩn với:
2 dựa trên [n-(k+1)]=df
n = số các quan sátk= số các biến độc lập trong môhình
The values of t α such that P(t3t α)= α
2.6 Kiểm tra năng lực của mô hình
Hệ số xác định đa biến R2 được định nghĩa:
Trang 20Vậy R2 là một đại lượng thống kê mẫu nói lên sự phù hợp của mô hình với dữliệu, và do đó đại diện cho một biện pháp tổng thể về năng lực của mô hình Nó có thểđược sử dụng để suy diễn về năng lực của mô hình để dự báo giá trị y cho từng biến độclập.
Kiểm định năng lực tổng thể của mô hình:
E(y) = B0 + B1x1 + … + Bkxk
H0: Bi=0 (Giả thuyết không : y không phụ thuộc vào tất cả các biến độc lập xi)
Ha: Bi≠0 : (Giả thuyết khác không : y phụ thuộc vào ít nhất một biến độc lập xi)Kiểm định thống kê:
Vùng bác bỏ: F > Fα, trong đó F α là giá trị định vị vùng trong phần đuôi phải củaphân bố F với n1 = k và n2 n-(k+1)
n = số các quan sát
k = số các tham số trong mô hình
R2 = Hệ số xác định đa biến
IV SỬ DỤNG MÔ HÌNH
1 Sử dụng mô hình để ước lượng và dự báo
Thủ tục hình thành một khoảng thời dự báo cho y cho a* x được thể hiện trong hộsau:
Một khoảng tin cậy(1-α)100% đối với E(y)
s và (X’X)-1 đạt được từ phân tích bình phương cực tiểu
tα/2 dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]
Trang 21Thủ tục hình thành một khoảng thời dự báo y tại một giá trị cụ thể x* của biến độclập:
Một khoảng dự báo(1-α)100% đối với E(y)
s và (X’X)-1 đạt được từ phân tích bình phương cực tiểu
tα/2 dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]
2 Mô hình tương quan
Phân tích tương quan là công cụ thống kê có thể sử dụng để mô tả mức độcác biến quan hệ tuyến tính liên quan Thường thường, phân tích mối tương quan được sửdụng kết hợp với phân tích hồi qui để đánh giá mô hình tìm theo bình phương cực tiếu làphù hợp với những dữ liệu hay không Phân tích tương quan cũng có thể được sử dụng để
đo lường mức độ liên kết giữa hai biến.: Dùng hệ số xác định và hệ số tương quan
a Hệ số tương quan
Cho một tập mẫu gồm n các số đo trên x và y các hệ số tương quan r làmột độ đo cường độ của quan hệ tuyến tính giữ hai biến x và y Nó được tính nhưsau:
y i
Trang 22 Một số tính chất của hệ tương quan:
- -1≤ R ≤ 1 theo bất đẳng thức Cauchy – Bunhiacopskij
- R và b độ dốc của đường hồi qui bình phương cực tiểu có cùng dấu
- Một giá trị của r gần hoặc bằng 0 có nghĩa là ít hoặc không có mối quan hệtuyến tính giữa x và y Các r gần 1 hoặc -1, thì mối quan hệ tuyến tính giữa x
Trong đó r là hệ số tương quan
Vì vậy thông thường ta gọi r2 là hệ số xác định
Thống kê các hệ số xác định bằng cách nhìn vào sự biến động về y đượcgiải thích bởi đường hồi qui
- Ý nghĩa của hệ số xác định r2
Khoảng 100(r2)% của tổng các bình phương của độ lệch giữa các gía trị y trong tậpmẫu với trung bình của chúng ´y có thể được giải thích bởi sử dụng x để dự báo y trong
mô hình đường thẳng
c Sử dụng mô hình cho tính toán và dự báo
Việc sử dụng phổ biến nhất của một mô hình có thể đưoực chia thành 2loại:
Sử dụng các mô hình để tính giá trị trung bình của y, E(y), cho một giá trị
Độ lệch chuẩn của lỗi dựbáo với giá trị dự báo ^y cho mộtgiá trị cụ thể y tại một giá trị cụ thể
Trang 23Trong đó σ là căn bậc hai của σ2, phương sai cuả lỗi ngẫu nhiên
Giá trị thật của σ sẽ hieém khi được biến đến Vì vậy, chúng ta ước lượnggiá trị của σbởi s và tìm khoảng tính toán vaf dự báo như sau:
Một khoảng tin cậy (1-α
)100% cho trung bình của y tại x=xp
Một khoảng tin cậy (1-α
)100% của dự báo một giá trị cụ thể