Các mô hình hồi quy hai biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Các mô hình hồi quy hai biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Các mô hình hồi quy hai biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Các mô hình hồi quy hai biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Các mô hình hồi quy hai biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Các mô hình hồi quy hai biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Các mô hình hồi quy hai biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Các mô hình hồi quy hai biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Các mô hình hồi quy hai biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Các mô hình hồi quy hai biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Các mô hình hồi quy hai biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Các mô hình hồi quy hai biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)
Trang 1
KHOA TỐN
3k3 3k dd sÉ sÉ dk oR KKK
TRAN HUYEN TRANG
CAC MO HINH HOI QUY HAI BIEN: THUC HANH BANG NGON NGU'R
KHOA LUAN TOT NGHIEP DAI HOC
Chuyên ngành: Tốn ứng dụng
HÀ NỘI - 2016
Trang 2
TRƯỜNG ĐẠI HỌC SƯ PHAM HA NOI 2 KHOA TỐN
3k3 3È sk 3k sÉ d 2K 2 KK
TRAN HUYEN TRANG
CAC MO HINH HOI QUY HAI BIEN: THUC HANH BANG NGON NGU'R
Trang 3Trước khi trình bày nội dung chính của khĩa luận tốt nghiệp, em xin
bày td long biết ơn sâu sắc tới Tiến sĩ Hà Bình Minh đã tận tình hướng dẫn để em cĩ thể hồn thành đề tài này
Em cũng xin bày tỏ lịng biết ơn chân thành tới tồn thể các thầy cơ
giáo trong khoa Tốn, Trường Đại học Sư phạm Hà Nội 2 đã dạy bảo em tận tình trong suốt quá trình học tập tại khoa
Nhân dịp này em cũng xin được gửi lời cảm ơn chân thành tới gia đình, bạn bè đã luơn bên em, động viên, giúp đỡ em trong suốt quá trình học
tập và thực hiện đề tài thực tập này
Hà Nội, ngàu 27 tháng 04 năm 2016
Trang 4Lời cam đoan
Tơi xin cam đoan rằng số liệu và kết quả nghiên cứu trong khĩa luận này là trung thực và khơng trùng lặp với các đề tài khác Tơi cũng xin cam
Trang 5Lời mở đầu iii
1 Kiến thức chuẩn bị 1
11 Khái nệm hồiquy 1
111 Phân tích hồi quy 1
1.1.2 Biến phụ thuộc và biến độc lập 1
1.22_ Mơ hình hồi quy hai biến tuyến tính 2
121 Dạng của mơhìnhh 2
1.2.2 Phương pháp phân tích mơ hình 2
Trang 6Khĩa luận tốt nghiệp Dại học TRẦN HUYỄN TRANG
2.2.3 Phân tích hồi quy tuyến tính
3 Các mơ hình hồi quy hai biến 3.1 3.4 3.5 3.6 3.7 Mơ hình hồi quy qua géc toa dé (Regression - Through - Origin model) 0 xa
Mơ hình logarit kép (Log- Log) 3.21 Giới thiệu mơ hình log-log -
3.2.2 Cách chuyển về mơ hình hồi quy tuyến tính
323 Vídu Q2
Mơ hình Log - Lin (Log-Linear model) hay mơ hình tăng truGUg « iwi ee ERE ERE eR wR Heme Ewe He 3.3.1 Giới thiệu mơ hình log-ln
3.3.2 Cách chuyển về mơ hình hồi quy tuyến tính
3.3.3 Vídu Q2
Mơ hình tuyến tính - Logarit (Lin - Log model)
3.4.1 Giới thiệu mơ hình ln-log Ta Ta a 4a Mơ hình nghịch đảo (Reciprocal Model) hay mơ hình Hy- perbol cv rà va 3.5.1 Giới thiệu mơ hình nghịch đảo - na ee So sánh # giữa các mơ hình
Bảng tổng kết các dạng mơ hình hồi quy hai biến
Trang 71 Ly do chon dé tai
Trong thực tiễn nghiên cứu một số vấn dé kinh tế, xã hội như GDP,
tỷ lệ lạm phát người ta đi xây dựng các mơ hình hồi quy tuyến tính
để thể hiện mối quan hệ giữa các biến, từ đĩ phản ánh được bản chất
hiện tượng Để khảo sát các hiện tượng kinh tế này, người ta đã viết các
phần mềm giúp xử lý số liệu đơn giản hơn
Năm 1996, hai nhà thống kê học Ross Ihaka va Robert Gentleman
[lac đĩ] thuộc Trường đại học Auckland, New Zealand phát hoạ một ngơn ngữ mới cho phân tích thống kê mà họ đặt tên là R R là một phần mềm tiện ích, khơng chỉ đa năng, dễ sử dụng mà việc cài đặt cũng khá đơn giản và đặc biệt là hồn tồn miễn phí
Trên cở sở đĩ, cùng với mong muốn tìm hiểu sâu sắc hơn về mơ hình
hồi quy và ứng dụng của phần mềm R trong đĩ như thế nào, em đã chon đề tài "Các mơ hình hồi quy hai biến: Thực hành bằng ngơn ngữ R" làm đề tài khĩa luận tốt nghiệp đại học của mình
2 Mục đích nghiên cứu
Nghiên cứu các mơ hình hồi quy hai biến và thực hiện hồi quy tuyến
tính bằng việc sử dụng ngơn ngữ R 3 Nhiệm vụ nghiên cứu
Tìm hiểu các mơ hình hồi quy hai biến và thực hành chúng bằng phần mềm R
4 Đối tượng và phạm vi nghiên cứu
Trong khuơn khổ của khĩa luận, em chỉ nghiên cứu các mơ hình hồi
Trang 8Khĩa luận tốt nghiệp Dại học TRAN HuyvEN TRANG quy hai biến và sử dụng ngơn ngữ R trong phân tích số liệu và vẽ biểu d Ow Ngồi ra, khĩa luận cịn giới thiệu một cách tổng quát nhất về phan mềm chuyên dụng R
5ð Phương pháp nghiên cứu
Sưu tầm, đọc và nghiên cứu tài liệu, phân tích, tổng hợp kiến thức Trao đổi, thảo luận với người hướng dẫn khoa học qua đĩ tổng hợp kiến thức và trình bày theo đề cương nghiên cứu, thực hiện theo kế hoạch
để hồn thành khĩa luận
6 Cấu trúc khĩa luận
Ngồi phần mỏ đầu, kết luận, tài liệu tham khảo, khĩa luận tốt nghiệp
bao gồm ba chương:
e Chương 1: Kiến thức chuẩn bị
Chương này sẽ đi trình bày một số khái niệm cơ bản như biến độc lập, biến phụ thuộc, mơ hình hồi quy hai biến tuyến tính và cách thủ cơng
để phân tích mơ hình này
e Chương 2: Giới thiệu ngơn ngữ R
Chương này sẽ giới thiệu cơ bản về phần mềm R gồm làm quen bước
đầu với R, cách nhập dữ liệu, vẽ biểu đồ và phân tích hồi quy tuyến
tính
e Chương 3: Các mơ hình hồi quy hai biến
Chương này sẽ đi nghiên cứu các mơ hình hồi quy hai biến, cách chuyển
chúng về dạng mơ hình hồi quy tuyến tính và từ đĩ nêu ra các ví dụ minh họa tương ứng về sử dụng phần mềm R để phân tích các số liệu
Trang 9và vẽ biểu đồ trong mơ hình hồi quy
Do thời gian thực hiện khơng nhiều, kiến thức cịn hạn chế nên khĩa luận khơng tránh khỏi những sai sĩt Tác giả mong nhận được sự gĩp ý và những ý kiến phản biện của quý thầy cơ và bạn đọc Xin chân thành cảm on!
Hà Nội, ngày 27/04/2016 Tác giả khĩa luận
Trang 10Chương 1
Kiến thức chuẩn bị
1.1 Khái niệm hồi quy 1.1.1 Phân tích hồi quy
Phân tích hồi quy là tìm mối quan hệ phụ thuộc của biến phụ thuộc
vào một hoặc nhiều biến khác (được gọi là biến độc lập), nhằm mục đích
ước lượng hoặc tiên đốn giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trị của biến độc lập
1.1.2 Biến phụ thuộc và biến độc lập
Biến phụ thuộc được ký hiệu là Y và nhận các giá trị xác định, biến
độc lập là những biến ngẫu nhiên, ký hiệu X;, X3,
Trong mối quan hệ giữa hai biến này, biến phụ thuộc chịu tác động
của biến độc lập, biến độc lập là biến gây ra ảnh hưởng cho biến phụ
thuộc
Chẳng hạn, ta xét mối quan hệ giữa kết quả học tập với thời gian rèn
Trang 11lại Qua đĩ cĩ thể thấy rằng thời gian rèn luyện gây ảnh hưởng lên kết quả học tập Vậy thời gian đĩng vai trị là biến độc lập, kết quả là biến phụ thuộc
1.2 Mơ hình hồi quy hai biến tuyên tính 1.2.1 Dạng của mơ hình
Mơ hình hồi quy hai biến là mơ hình đơn giản nhất, cịn được gọi là mơ hình hồi quy đơn, cĩ dạng:
Y; = 0ì + 0X; + U;
Trong đĩ, biến Y là biến phụ thuộc hay biến được giải thích; biến X là biến độc lập hay biến giải thích
1.2.2 Phương pháp phần tích mơ hình
Trong phương trình trên đi và Ø; là hệ số hồi quy, Ư, là một biến số theo luật phân phối chuẩn với trung bình 0 và phương sai ø)
Các thơng số đ;, Ø9; và ø? phải được ước tính từ dữ liệu Phương
pháp để ước tính các thơng số này là phương pháp bình phương nhỏ nhất (least squares method)
Như tên gọi, phương pháp bình phương nhỏ nhất tìm giá trị 6,, Ø;
sao cho ()$)[Y; — (đi + 6X;,)|? nhỏ nhất Sau vài thao tác tốn, cĩ thể
Trang 12Khĩa luận tốt nghiệp Dại hoc TRẦN HUYỄN TRANG
chứng minh dễ dàng rằng, ước số cho đị, Ø; đáp ứng điều kiện đĩ là: >(Œœ.- X)Œ, ~ Y) By _ j=l )›(; — x) i=] đ =Y- 8X
Ư đây, X và Y là giá tri trung bình của biến số X và Y Chú ý; ®, Bs
(với dấu mũ phía trên) là để nhắc nhỏ rằng đây là hai ước số (estimates) của đị và đ; (chúng ta khơng biết chính xác 8, va Ø;, nhưng chỉ cĩ thể ước tính mà thơi) Và phương sai của phần dư cĩ thể ước tính như sau:
n
3,0 —%)
gs? = = — với s? là wdc 86 cha o? m — 2
Trang 13Giới thiệu ngơn ngữ R
2.1 Tổng quan về R 2.1.1 Khái niệm về R
R là một phần mềm sử dụng cho phân tích thống kê và vẽ biểu đồ
Thật ra, về bản chất, R là ngơn ngữ máy tính đa năng, cĩ thể sử dụng cho nhiều mục tiêu khác nhau:
e Tính tốn đơn giản
e Tốn hoc giai tri (recreational mathematics) e Tinh tốn ma trận (matrix)
e Phan tich théng kê phức tạp
Vì là một ngơn ngữ, cho nên người ta cĩ thể sử dụng R để phát triển thành các phần mềm chuyên mơn cho một vấn đề tính tốn cá biệt
Vì thế, những ai làm nghiên cứu khoa học, nhất là ở các nước cịn nghèo khĩ như nước ta, cần phải học cách sử dụng R cho phân tích
Trang 14Khĩa luận tốt nghiệp Đại học TRAN HUYỄN TRANG
2.1.2 Làm quen với R
Trước tiên để khởi động R, bạn kích đúp (hoặc đơn) vào biểu tượng file R, trên màn hình xuất hiện cửa số sau: TÁC rất Vc Psdượn Whdme tp ilzïÏgi[]ele]|eliZ] R 1 Copyright 2008, The R Foundation tor statietical Computing Version 2.2.1 (2005-12-20 £36812) TEBM 3~800051-07-0
Rds Free software and cones with ABSOLUTELY NO WARRANTY You are welcome to redistribute it under certain conditions type "Lic }! ar ‘licence()* for distribution details
Natural language support but running in an English lecsle R is a collaborative project with many contributors, Typs ‘contributors()' for nors information and ‘citation()' on how te cite R or R packages in publications, Type 'deno()' for some denos, 'help()' for on-line help, or thelp start ()' for an HTML browser interface to help Type 'q4)’ te quit Re
of
Cú pháp chung của R là như sau:
>đối tượng <- hàm (thơng số 1, thơng số 2, , thơng số n) Chẳng hạn như: > reg <- lm(y ~ #) thi reg 1A mot đối tượng (object), con Im 1d mot ham, va ~ z là thơng số của hàm Hay: > setwd(“c: /works/stats”)
thi setwd 18 mét hàm, cịn “c:/works/stats” 1a thong s6 cia ham
Trang 15args(x), (args viét tat chit arguments) ma trong đĩ x là một hàm chúng
ta cần biết: > args(lm)
function (formula, data, subset, weights, na.action, method = "qr",
Trang 16Khĩa luận tốt nghiệp Dại học TRAN HUYỄN TRANG
Với R, tất cả các câu chữ hay lệnh sau kí hiệu # đều khơng cĩ hiệu
ứng, vì # là kí hiệu dành cho người sử dụng thêm vào các ghi chú, ví
du:
> 3# lệnh sưu đâu sẽ mơ phỏng 5 giá trị normal
>a <- rnorm(5)
2.1.3 Cách đặt tên trong R
Đặt tên một đối tượng (objecb) hay một biến số (variable) trong R, khá linh hoạt, vì R khơng cĩ nhiều giới hạn như các phần mềm khác
Tên một object phải được viết liền nhau (tức khơng được cách rời bằng một khoảng trống) Chẳng hạn như R chấp nhận rmobject nhưng khơng
chap nhan my object > myobject <- rnorm(5) > my object <- rnorm(5)
Error: syntax error in "my object"
Nhung d6i khi tén myobject kho doc, cho nén ching ta nén tac rdi
bang “.” Nhu my object > my.object <- rnorm(5)
Một điều quan trọng cần lưu ý là R phân biệt mẫu tự viết hoa và
viết thudng Cho nén My.object khac véi my.object Vi du: > My.object.u <- 5
> my.object.L <- 5
Trang 17Một vài điều cần lưu ý khi đặt tên trong R là:
e Khơng nên đặt tên một biến số hay variable bằng kí hiệu" "(underscore)
nhu my_ object hay my-object
e Khơng nên đặt tên một object giống như một biến số trong một dữ liệu Ví dụ, nếu chúng ta cĩ một đata.frame (dữ liệu hay dataset) với
biến số year trong đĩ, thì khơng nên cĩ một object trùng tên year, tức 1a khéng nén viét: year <- year Tuy nhiên, nếu data.frame tên là data thì chúng ta cĩ thể đề cập đến bién sé year véi mot ki tu $ nhw sau: data$year (Tức là biến số year trong data.frame data), va trong trường
hợp do, year <- data$year c6 thé chap nhận được
2.1.4 Hỗ trợ trong R
Ngồi lệnh args() R cịn cung cấp lệnh heip() để người sử dụng cĩ thể
hiểu “văn phạm” của từng hàm Chẳng hạn như muốn biết ham lm c6 những thơng số (arguments) nào, chúng ta chỉ đơn giản lệnh:
> help(lm)
hay
Trang 18Khĩa luận tốt nghiệp Dại học TRAN HUYỄN TRANG
2.2 Lập trình với R
2.2.1 Cách nhập dữ liệu vào R
Ví dụ: Bảng thống kê dưới đây mơ tả sự gia tăng dân số của Trung
Quốc giai đoạn 1995 - 2008 Đơn vị: triệu người! Năm 1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 Dan số | 1211.2 | 1223.9 | 1236.3 | 1247.6 | 1257.9 | 1267.4 | 1276.3 Nam | 2002 | 2003 | 2004 | 2005 | 2006 | 2007 | 2008 Dãn s6 | 1284.5 | 1292.3 | 1299.9 | 1307.6 | 1314.5 | 1321.3 | 1328.0 * Nhập dữ liệu đầu vào trong R nhu sau: > Nam <- c(1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008) > DanSo <- c(1221.2, 1223.9, 1236.3, 1247.6, 1257.9, 1267.4, 1276.3, 1284.5, 1292.3, 1299.9, 1307.6, 1314.5, 1321.3, 1328.0)
eLệnh thứ nhất cho R biết rằng chúng ta muốn tạo ra một cột dữ liệu (từ nay tơi sẽ gọi là biến số, tức variable) cĩ tên là Nam, va lénh thứ hai là tạo ra một cột khác cĩ tên là 2am5ò
eChúng ta dùng function e (viết tắt của chữ concatenation — cĩ nghĩa là “mĩc nối vào nhau”) để nhập dữ liệu Chú ý rằng mỗi số liệu được cách nhau bằng một dấu phẩy
eKí hiệu DanSo <- (cting c6 thé viét 1A DanSo =) cĩ nghĩa là các số liệu theo sau sẽ cĩ nằm trong biến số DønSo Chúng ta sẽ gặp kí hiệu
Trang 19này rất nhiều lần trong khi sử dụng R
eDanSo và Nươm là hai đối tượng riêng lẻ Bây giờ chúng ta cần phải nhập hai đối tượng này thành một data.frame để R cĩ thể xử lí sau này
— Dé lam việc này chúng ta cần đến function data.frame: > data <- data.frame(DanSo, Nam)
Ngồi cách nhập số liệu trực tiếp như ở ví dụ trên, R cịn cho phép chúng ta: - Nhập số liệu từ một fezt file: read.table - Nhập số liệu từ Excel - Nhập số liệu từ SPSS 2.2.2 Vẽ biểu đồ trong R
Trỏ lại ví dụ trên, để tìm hiểu mối liên hệ giữa hai biến, chúng ta dùng
Trang 20Khĩa luận tốt nghiệp Dại học "TRẦN HUYỄN TRANG IR R Graphics: Device 2 (ACTIVE) Leis is) DanSo 1280 1300 1320 e 1260 1240 I 1220 I ° T T T T T T T 1996 1998 2000 2002 2004 2006 2008 Nam
Biểu đồ mơ tả sự gia tăng dân số của Trung Quốc giai đoạn 1995 - 2008
R cịn giúp chúng ta vẽ biểu đồ cho một biến số rời rạc, biểu đồ cho hai
biến số rời rạc, biểu đồ hình trịn 2.2.3 Phân tích hồi quy tuyến tính
Mơ hình tuyến tính phát biểu rằng:
Y, = 6, +Ø;X,+ U,
Ham m (viết tắt từ linear model) trong R cĩ thể tính tốn các giá trị của đ, Bo, cting nhu s? mét cdch nhanh gon Nhung ching ta phải đưa các thơng tin của hàm Im vao m6t object Goi object do la reg thi
Trang 21lệnh như sau Tiếp tục với ví dụ trên bằng R: > reg <- lm(danso ~ t)
> summary(reg)
Lệnh thứ hai, sưmnznar(reg), yêu cầu R liệt kê các thơng tin tính tốn
trong reg Phần kết quả chia làm 3 phần:
(a) Phần 1 mơ tả phần dư (residuals) của mơ hình hồi qui
(b) Phần 2 trình bày ước số của Ø; và đ; cùng với sai số chuẩn và giá
trị của kiểm định t
(c) Phần 3 của kết quả cho chúng ta thơng tin về phương sai của phần
du (residual mean square) Trong kết quả này cịn cĩ kiểm định F, cũng
chỉ là một kiểm định xem cĩ quả thật 9s bằng 0, tức cĩ ý nghĩa tương
tự như kiểm định t trong phần trên Nĩi chung, trong trường hợp phân tích hồi qui tuyến tính đơn giản (với một yếu tố) chúng ta khơng cần
phải quan tâm đến kiểm định FE
Ngồi ra, phần 3 cịn cho chúng ta một thơng tin quan trọng, đĩ là trị số Đ? hay hệ số xác định bội (coefficient of determination) Tức là bằng tổng bình phương giữa số ước tính và trung bình chia cho tổng bình phương số quan sát và trung bình Giá trị #2 càng cao là một dấu
hiệu cho thấy mối liên hệ giữa hai biến số càng chặt chẽ
Một hệ số cũng cần đề cập ở đây là hệ số điều chỉnh xác định bội
(mà trong kết quả trên R gọi là “Adjusted R-squared”) Dây là hệ số cho
chúng ta biết mức độ cải tiến của phương sai phan du (residual variance) do yếu tố độ tuổi cĩ mặt trong mơ hình tuyến tính Nĩi chung, hệ số này khơng khác mấy so với hệ số xác định bội, và chúng ta cũng khơng
Trang 22Khĩa luận tốt nghiệp Dại học TRẦN HUYỀN TRANG
cần chú tâm quá mức
Trén day là một số những uấn dé cơ bản của R uà cách sử dụng R trong phân tích mmơ hành hồi quụ hai biến tuyến tính Ngồi ra, R con
rất nhiều những ứng dụng khác, nhưng uìà điều kiện thời gian khơng cho
phép, em zinu phép sẽ được trành bàu cụ thể hơn trong một đề tài khác
Trang 23Các mơ hình hồi quy hai biến
Chúng ta sẽ xem xét các mơ hình hồi quy hai biến và thực hành chúng bằng ngơn ngữ R
3.1 Mơ hình hồi quy qua gốc tọa độ (Regression -
Through - Origin model)
Trang 24Khĩa luận tốt nghiệp Dại học "TRẦN HUYỄN TRANG
Bài tốn: Biết các quan sát (X;, Y;), ta phải tìm hệ số đ; sao cho tổng bình phương của sai số nhỏ nhất Túc là, ta cần tìm Bo sao cho: ® t4 SY lI M 1 S = L S = + Diéu kién can: + Điều kiện đủ: > 8, là lời giải cực tiểu của f + Ngồi ra, ta cĩ: 62 Var(62) = >x xe Lui Usp RS na ta | Trong đĩ, 6? được thay bởi ®: 2?= ey a
+ Đối với mơ hình hồi quy qua téc dé, R? = 1 - fee #? khơng cĩ ý nghĩa, kiểm định F khơng thể thực hiện
Lý do: Với TSS = ))(Y; — Y)? ¡ ESS = ÿ)(,—Y)? ; RSS = ))(Y, - Y,)?
Đẳng thức: TSS = ESS + RSS co thé khong dude théa man; ESS,
RSS cĩ thé lén hon TSS
Trang 25Ngudi ta thay R? bing f?„ (Rj„„) mà giá trị #?„„ € (0,1): tho
2 (Qo Xi¥i)?
Tho XP DY
+ Ta khơng thể so sánh #? thơ với R? do cong thite tinh khéc nhau + Mơ hình hồi quy qua gốc tọa độ được sử dụng phải dựa trên cơ sở lý thuyết kinh tế hoặc cĩ trước kinh nghiệm tốt Thơng thường ta nên
dùng mơ hình hồi quy đơn biến bình thường (hồi quy khơng qua géc toa độ), sau đĩ kiểm định đ;, xét một trong hai trường hợp xảy ra:
* Nếu hệ số chặn ước lượng khác khơng, khơng cĩ ý nghĩa thống kê, ta cĩ thể sử dụng mơ hình hồi quy qua gốc tọa độ
* Nếu hệ số chặn cĩ ý nghĩa thống kê, ta dùng mơ hình bình thường + Nên nhớ, nếu mơ hình đúng phải cĩ hệ số tự do â, trong khi ta lại sử dụng mơ hình hồi quy qua gốc tọa độ, nghĩa là đã phạm sai số đặc trưng Điều này cĩ thể dẫn đến vi phạm các giả thiết mơ hình hồi quy tuyến tính cổ điển
Ví dụ: Giả sử đối với một hàm sản xuất cơng nghiệp, biến phụ thuộc
Y là sản lượng sản xuất, biến độc lập X là nguyên vật liệu Rõ ràng khi
khơng cĩ nguyên vật liệu (X=0), tất yếu sẽ ngưng sản xuất Ta chọn
mơ hình qua gốc tọa độ sẽ phù hợp hơn mơ hình cĩ tung độ gĩc Nếu khơng, khơng cĩ nguyên vật liệu mà vẫn cĩ sản phẩm được làm ra (Y
= 61)
Trang 26Khĩa luận tốt nghiệp Dại học "TRẦN HUYỀN TRANG
3.2 M6 hinh logarit kép (Log - Log)
3.2.1 Giới thiệu mơ hình log-log
Mơ hình logarit kép phù hợp với dữ liệu ở nhiều lĩnh vực khác nhau Ví
dụ đường cầu với độ co dãn khơng đổi hoặc hàm sản xuất Cobb-Douglas Mơ hình đường cầu:
Y; = 6,X;"e" i 1 Ỹ 3.2
3.2.2 Cách chuyển về mơ hình hồi quy tuyến tính
Khơng thể ước lượng mơ hình (3.2) theo phương pháp OLS vì nĩ phi tuyến tính đối với tham số (và cũng phi tuyến tính đối với biến số) Tuy
nhiên, nếu ta thực hiện biến đổi đại số bằng cách lấy logarit hai về thì được mơ hình như sau:
In(Y;) = In(8,) + 0sÌnX; + U, (3.3) Đặt đ; = In(0), phương trình trở thành:
In(Y;) = Bf + BolnX; + U; + Day là mơ hình tuyến tính theo tham số đị và Ø; nên cĩ thể ước lượng các tham số theo OLS:
Dat Y* = In(Y;) ; X? = InX; ta duoc m6 hinh:
Y* = BF + BX +U, (3.4)
Trang 27Ta sẽ chứng minh đặc tính đáng lưu ý của mơ hình này là độ co giãn cầu theo giá khơng đổi Lấy vi phân hai về của (3.4) ta cĩ:
dY dX dY Y dY Y YX “—= vV=”x => *ax"”*x — By = vix = ayy ~ yy = ——— = fo — = fo
Vậy độ co dãn của cầu theo giá khơng đổi (vì luơn = 6Q) In¥ Y a 8 Be 5 = 3 LaY = Inf, — 2:11} 2
Gia Xi Log của giá nX
Hinh 3.1: Chuyén dang Log - log
Tổng quát, đối với mơ hình logarit kép, hệ số ứng với In của một biến số độc lập là độ co giãn của biến phụ thuộc vào biến độc lập đĩ
Lưu ý: Ta quy ước tất cả các mơ hình logarit ở chương này đều sử dụng
logarit nesespeer (logarit tự nhiên) thay vì logarit thập phân bởi vì sự diễn dịch và phân tích kết quả sẽ thuận tiện hơn
Trang 28Khĩa luận tốt nghiệp Dại học TRAN HuyEen TRANG
3.2.3 Vidu
Quan sát mẫu số liệu chuỗi thời gian theo quý sau đây, trong đĩ:
* EXPSERVICES (Expenditure on services - Chi tiéu cho dich vu Don
vi: ty USD)
* PCEXP (Total personal consumption expenditure - Téng chi tiéu ding cá nhân Don vi: ty USD)!
‘Source: Economic Report of the President, 1999 USA
Trich: Damoda N Gujarati, Basic econometrics, Fourth Edition, page 178
Trang 30Khĩa luận tốt nghiệp Dại hoc "TRẦN HUYỄN TRANG
e Hồi quy log - log
Để tìm hiểu hệ số co dãn của mức chỉ tiêu cho dịch vụ với tổng chỉ tiêu
cho tiêu dùng cá nhân, ta sử dụng mơ hình log - log -Nhập dữ liệu đầu vào trong R: > EXPSERVICES <- ¢(2445.3, 2455.9, 2480.8, 2494.4, 2510.9, 2531.4, 2543.8, 2555.9, 2570.4, 2594.8, 2610.3, 2622.9, 2648.5, 2668.4, 2688.1, 2701.7, 2722.1, 2743.6, 2775.4, 2804.8, 2829.3, 2866.8, 2904.8) > PCEXP <-c(4286.8, 4322.8, 4366.6, 4398.0, 4439.4, 4472.2, 4498.2, 4534.1, 4555.3, 4593.6, 4623.4, 4650.0, 4692.1, 4746.6, 4768.8, 4802.6, 4853.4, 4872.7, 4947.0, 4981.0, 3055.1, 5130.2, 5181.8) > data <- data.frame(EXPSERVICES, PCEXP) > plot(log(/EXPSERVICES) log(PCEXP), pch=16)
Trang 31° ° 8 4 " ° '$ : z 8 4 z ° ° ui ° 2 ° - * if 5 * ° #8 é ~ < ° « ° Lá ° La T T T T T 81 82 83 84 85 log(PCEXP) Hình 3.2: Biểu đồ In(EXPSERVICES) theo In(PCEXP) øe Hồi quy theo thời gian mức chỉ tiêu cho dịch vụ:
- Nhập dữ liệu về thời gian trong R:
> T <- c((seq(as Date("1993-01-01"), as Date("1993-12-31"), by="quarter")), (seq(as.Date("1994-01-01"), as.Date("1994-12-31"), by="quarter")),
(seq(as.Date("1995-01-01"), as.Date("1995-12-31"), by="quarter")),
(seq(as Date("1996-01-01"), as.Date("1996-12-31"), by="quarter")),
(seq(as.Date("1997-01-01"), as.Date("1997-12-31"), by="quarter")), (seq(as Date("1998-01-01"), as.Date("1998-09-30"), by="quarter"))) với: seq(as Date("1993-01-01"), as.Date("1993-12-31"), by="quarter"
là 3 quý của năm 1993
Trang 32Khĩa luận tốt nghiệp Dại học TRẦN HUYỄN TRANG Call: im(formula = EXPSERVICES ~ T) Residuals: Min 1Q Median 3Q Max -19.327 -13.134 -4.483 9.704 46.226 Coefficients:
Estimate Std Error t value Pr(>|t])
(Intercept) 6.147e+02 5.624e+01 10.55: 3.a9c-=10*++*
T 2.156e-01 5.868e-03 36.12 < 2e-16 ***
Signift codes: D 94/2” 6.007) Vee 0 01 *" 6.05 ©! 0,1 198 1 Residual standard error: 17.33 on 21 degrees of freedom
Multiple R-squared: 0.9842, Adjusted R-squared: 0.9834 F-statistic: 1305 on 1 and 21 DF, p-value: < 2.2e-16
Qua bảng kết quả trên, ta thấy các hệ số hồi quy đều cĩ ý nghĩa thống kê (giá trị thống kê È của các hệ số hồi quy rất lớn cũng như giá trị
p-value của chúng rất bé so với mức ý nghĩa 0,05) Ngồi ra, hệ số !?? =
0,98 chứng tỏ mức độ phù hợp của mơ hình rất cao - Ý nghĩa kinh tế của tung độ gốc đị = 18.71:
Khi t = 0, EXPSERVICES = 18.71 Cho thấy mức chi tiêu cho dịch vụ trong quý 4 năm 1992 vào khoảng 18.71 tỷ USD
- Ý nghĩa kinh tế của hệ số gĩc Øđ; = 4.86: Sau mỗi quý, trong giai đoạn từ quý 1 năm 1992 đề quý 3 năm 1999, chi tiêu cho dịch vụ tăng
bình quân mỗi quý là 4.86 tỷ USD
e Hồi quy theo thời gian tổng chỉ tiêu cho tiêu dùng cá nhân,
Trang 33Call: im(formula = PCEXP ~ T) Residuals: Min 10 Median 3Q Max -1726.90 -10.83 45.19 137.16 359.49 Coefficients: Estimate Std Error t value Pr(>|[t]) (Intercept) 2504.2335 1309.9937 1.912 0.0697 T 0.2221 0.1390 1.602 0.1240 Signif codes: 0 \**#** 6.001 Ý#** 0.01 **% D.05 %, 7 D.1 Y * 1
Residual standard error: 403.8 on 21 degrees of freedom
Multiple R-squared: 0.1089, Adjusted R-squared: 0.06649
F-statistic: 2.567 on 1 and 21 DF, p-value: 0.124 vi
Qua bảng kết quả trên, ta thấy các hệ số hồi quy đều cĩ ý nghĩa thống kê (giá trị thống kê t của các hệ số hồi quy rất lớn cũng như giá trị
p-value của chúng rất bé so với mức ý nghĩa 0,05)
- Ý nghĩa kinh tế của tung độ gốc Ø¡ = 4228: Khi t = 0, PCEXP = 2504.23, cho thấy mức tổng chỉ tiêu cho tiêu dùng cá nhân ứng với Quý 4 năm 1992 vào khoảng 2504.23 tỷ USD
- Ý nghĩa kinh tế của hệ số gĩc đ; = 0.22: Sau mỗi quý, trong giai
đoạn từ Quý 1 năm 1992 đến Quý 3 năm 1999, tổng chi tiêu cho tiêu dùng cá nhân tăng trung bình khoảng 0.22 tỷ USD
Trang 34Khĩa luận tốt nghiệp Dại học TRAN HuyEN TRANG
3.3 Mơ hình Log - Lin (Log-Linear model) hay mơ hình tăng trưởng
3.3.1 Giới thiệu mơ hình log - lin
Đây là mơ hình dạng Semilog (Semilog Model - Bán logarit), nghĩa là chỉ cĩ một biến thể hiện dưới dạng logarit
Các nhà kinh tế và Nhà nước thường quan tâm tới tốc độ tăng trưởng (giảm sút) của một số biến kinh tế thuộc tầm vĩ mơ như tốc độ tăng trưởng dân số, GNP, mức cung tiền tệ, thất nghiệp, sản xuất, thâm hụt thương mại
Cơng thức tính lãi gộp là một trường hợp của hàm tăng trưởng:
W,=W(L+r) (3.5)
tr: Tốc độ tăng trưởng gộp theo thời gian của Y t: Thời gian - Tháng, quý hay năm
W„: Giá trị của biến phụ thuộc tại thời điểm
Yo: - Giá trị của biến phụ thuộc tại thời điểm t nào đĩ 3.3.2 Cách chuyển về mơ hình hồi quy tuyến tính Lấy logarit hai về của (3.5)
Trang 35Dat: 6B, = In(¥Y%) va 6 = In(1 +r)
Ngồi ra, đưa thêm yếu tố ngẫu nhiên vào, ta được mơ hình hồi quy tuyến tính theo tham số 6, va Go:
InY, = 6, + Bot + U; (3.7)
Mơ hình trên chỉ khác mơ hình hồi quy đơn bình thường ở chỗ biến Y thể hiện dưới dạng logarit và biến độc lập là thời gian
Mặt khác, ta cĩ:
đựnY) _ (JY)4Y - dVJY _(Wị-Vj)/V¡
B= =
° dt dt dt (X — Xr)
Nghĩa là, hệ số gĩc đ; đo lường sự thay đổi tương đối của biến phụ
thuộc Y theo sự thay đổi tuyệt đối của biến độc lập t, thực chất chính
là sự thay đổi tương đối của biến phụ thuộc theo thời gian
Ta nhân mức thay đổi tương đối của Y cho 100 để quy về tỷ lệ phần
trăm, nếu:
+ Ø; > 0: Biểu thị tốc độ tăng trưởng của biến phụ thuộc Y
+ Ø; < 0: Biểu thị tốc độ giảm sút của biến phụ thuộc Y
Ta cần phân biệt mơ hình log-lin với mơ hình xu hướng tuyến tính
(Linear trend Model) Mơ hình xu hướng tuyến tính được biểu diễn dưới
dạng: lnY¡= Øị + Got + U;
Mơ hình xu hướng tuyến tính khác biệt so với mơ hình log-lin ở chỗ
biến phụ thuộc Y theo thời gian, khơng thể hiện dưới dạng logarit Lựa chọn mơ hình nào phụ thuộc vào việ cta quan tâm tới ước lượng thay đổi tương đối hay tuyệt đối của biến phụ thuộc theo thời gian Nếu
Trang 36Khĩa luận tốt nghiệp Dại học TRẦN HUYỄN TRANG
quan tâm tới lượng thay đổi tuyệt đối của biến phụ thuộc thì mơ hình
xu hướng tuyến tính thích hợp hơn Nếu ta quan tâm đến tốc độ tăng
trưởng của biến Y theo thời gian, mơ hình log-lin là phù hợp Ngồi ra, ta khơng thể so sánh #? của hai mơ hình này
Hơn nữa, mơ hình log-lin và mơ hình xu hướng tuyến tính chỉ thích
hợp nếu số liệu chuỗi thời gian cĩ tính chất dừng (Giá trị trung bình
và phương sai của biến chuỗi thời gian khơng thay đổi, cĩ tính chất hệ thống theo thời gian)
3.3.3 Ví dụ
Trang 37> plot(GDP ~ year, pch=16) Ta được: Biểu đồ GDP Singapore theo giá so sánh năm 2000 giai đoạn 1995 - 2008 200000 I GDP 160000 1 ° e 120000 I T T T T T T T 1996 1998 2000 2002 2004 2006 2008 year
e Biểu đồ phân tán biểu diễn biến động GDP của Singapore giai đoạn (1995 - 2008) cho thấy GDP tăng, giảm khơng đồng đều
e Dể khảo sát mức độ gia tăng bình quân tính theo số tuyệt đối (USD)
của GDP qua mỗi năm, ta cĩ thể sử dụng mơ hình hồi quy tuyến tính
của GDP theo thời gian:
+ Dữ liệu đầu vào trong R:
>t <-c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14)
> reg <- lm(GDP ~ t)
Trang 38Khĩa luận tốt nghiệp Dại học TRẦN HUYỄN TRANG > summary(reg) => Két qua nhu sau: Call: 1m(formula = GDP ~ t) Residuals: Min 18 Median 3Q Max -124613:.7 4578.5 538.7 5540.0 12968.0 Coefficients: Estimate 5rtd Error t value Pr(>|t|} (Intercept) 103698.5 4650.1 213150 (2: 00-11, TY E 8785.0 546.1 16.09 1.74e-09 ***
Siqnif codes: 0 Y##** 0:001 Y*4*?* 0.01 **'° 0.05 *,* O21 “1 Residual standard error: 8237 on 12 degrees of freedom
Multiple R-squared: 0.9557, Adjusted R-squared: 0.952
F-statistic: 258.8 on 1 and 12 DF, p-value: 1.743e-09
Kết quả cho thấy các hệ số hồi quy đều cĩ ý nghĩa thống kê (giá trị thống kê t của các hệ số hồi quy khá lớn cũng như gia tri p-value của chúng rất bé so với mức ý nghĩa 0,05) Hệ số xác định cao (R? 0,955680), cho thấy mức độ phù hợp của mơ hình rất lớn
Ý nghĩa kinh tế của các tham số hồi quy: *ổ; = 103.698,5 GDP của năm 1994 khoảng 8784,958 triệu USD (ứng với t = 0) x6; = 8784.058 Mỗi năm, trong giai đoạn (1995 - 2008), GDP tăng bình quân 8784,958 triệu USD
e Nếu ta muốn trĩc lượng tốc độ tăng trưởng bình quân của GDP trong
giai đoạn trên, ta cĩ thể sử dụng mơ hình hồi quy dạng log - lin
Trang 39reg <- lm(log(GDP) ~ t) ` - > summary(reg) => Kết quả như sau: Call: im(formula = log(GDP) ~ t) Residuals: Min iQ Median -0.063579 -0.018139 -0.004117 32 0.021920 Coefficients: Estimate Std Error t (Intercept) 11.63182 0.01933 t 0.05160 0.00227 Signif value 601.75 32.113 EEle3s: 0đ vxae*?-07001: e#w/ 0:01 Residual standard error: Multiple R-squared: 0.9773, F-statistic: 516.5 on i and 12 DE, Max 0.047038 Ezr(>[tl) 4 2e-1E 3.132e-11 wR ~.# Xe? SOS Tet Oa #1 0.03424 on 12 degrees of freedom Adjusted R-squared: p-value: 0.9754 3.12e-11
Kết quả cho thấy: các tham số hồi quy đều cĩ ý nghĩa thống kê (căn
cứ vào t-sbatistic và Prob) cũng như mức độ phù hợp rất cao của mơ hinh (R? = 0,9773 rất lớn)
Ý nghĩa kinh tế của các tham số hồi quy:
«6, = 11,63182 = InYy 4 Yo = GDPiogy = e1163132 — 112,625,113
«By = 0,051596 ~ 5,16 % cho thấy tốc độ tăng trưởng bình quân năm
GDP cua Singapore trong giai đoạn (1995 - 2008) khoảng 5,16% 3.4 Mơ hình tuyến tính - Logarit (Lin - Log model) 3.4.1 Giới thiệu mơ hình lin - log
Mơ hình lin-log thuộc dạng Semilog, được sử dụng trong trường hợp ta khảo sát mức thay đổi tuyệt đối của biến phụ thuộc khi biến độc lập
Trang 40Khĩa luận tốt nghiệp Dại học "TRẦN HUYỀN TRANG
thay đổi 1% Mơ hình này thường sử dụng trong khảo sát một số quan
hệ như: lượng cung tiền ảnh hưởng tới GNP, diện tích trồng trọt tác
động tới sản lượng cây trồng, diện tích căn nhà tác động tới giá nhà Y; = 6ì + BalnX; “bp U; y 1 dY Ta cĩ: - = Pa > By = aX xX 8 Thay đổi tuyệt đối của Y Thay đổi tuyệt đối của Y 2a — 2s Ae 9 = Le he 9
Thay doi tuyét d6icta ln X Thay doi tuong doi cla X
Vậy, lượng thay đổi tuyệt đối của Y được tính xấp xi: Ax
X
AY = ®&(——)
Nếu thay đổi tương đối của X được quy về %, dưới dạng (100^X)%,
thì lượng thay đổi tuyệt đối của Y sẽ là: Bo AX AY = —(1 1001 00 X ) AX AY =(0,01/6;)(100—— (0,.01,)(100—)
Do đĩ, khi X thay đổi 1% thì Y thay đổi 0,01 6) don vi
Mơ hình này phù hợp với quan hệ thu nhập và tiêu dùng của một hàng hĩa thơng thường với Y là chỉ tiêu cho hàng hĩa đĩ và X là thu nhập Quan hệ này cho thấy Y tăng theo X nhưng tốc độ tăng chậm
dần