1. Trang chủ
  2. » Khoa Học Tự Nhiên

Mô hình hồi quy nhiều biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)

58 300 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 58
Dung lượng 7,93 MB

Nội dung

Mô hình hồi quy nhiều biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Mô hình hồi quy nhiều biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Mô hình hồi quy nhiều biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Mô hình hồi quy nhiều biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Mô hình hồi quy nhiều biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Mô hình hồi quy nhiều biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Mô hình hồi quy nhiều biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Mô hình hồi quy nhiều biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Mô hình hồi quy nhiều biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Mô hình hồi quy nhiều biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Mô hình hồi quy nhiều biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Mô hình hồi quy nhiều biến thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)

Trang 2

MUC LUC

Lời cám ơn 2 Q Q Q Q Q v LGicam doan .0 0 00000 2 eee

Ldindidau .202.02.2 0 22000004 1 Giới thiệu ngôn ngữ R

11 Khéi quét chung .0 0.0.0.2 0 0040 1117 KhánệmR 1.1.2 UunđiểmcủaR 12 Làm quenvớil Q Q Q Q 1.2.1 Cai dit va giao dién 122 Ngôn ngữcủaR cốc 1.2.3 Cách đặt tên trongR 1.2.4 Hỗ trợ trong R và môi trường vận hành

12.5 Nhap diiliéw esse sme ew ewe eee aes

1.2.6 Các lệnh hệthống

2_ Mô hình hồi quy nhiều biến

2.1 Mô hình hồi quy tuyến tính babiến

Trang 3

Mục lục

t9 BR b9 Ưóc lượng tham số hàm ba biến theo phương pháp

bình phương tối thiểu thông thường

2.1.3 Phương sai sai số chuẩn

2.1.4 Hệ số xác định, hệ số xác định có hiệu chỉnh

2.1.5 Kiểm định sự phù hợp của mô hình

216 Vídụminhhọa

2.2_ Mô hình hồi quy kbiến

2.2.1 Dạng ma trận và các giả định của mô hình

2.2.2 Ước lượng các tham số hồi quy

2.2.3 Hệ số xác định và hệ số xác định có hiệu chỉnh 2.24 Ma trận hệ số tương quan

2.2.5 Ma trận hiệp phương sai

Kiểm định sự phù hợp của mô hình

Trang 4

LOI CAM ON

Để hoàn thành khóa luận tốt nghiệp này, em xin bày tỏ lòng biết ơn chân thành tới các thầy giáo và cô giáo trong khoa Toán Học - Trường

Đại Học Sư Phạm Hà Nội 2, đã tận tình giúp đỡ chỉ bảo trong suốt thời

gian em theo học tại khoa và trong thời gian làm khóa luận

Đặc biệt em xin bày tỏ lòng biết ơn sâu sắc tới T'.S Hà Bình Minh ~ Giảng viên Trường Dai hoc Bách Khoa Hà Nội, người trực tiếp hướng dẫn em, luôn tận tâm chỉ bảo và định hướng cho em trong suốt quá trình làm khóa luận để em có được kết quả như ngày hôm nay

Cuối cùng em xin gửi lời cảm ơn đến gia đình, bạn bè, người thân đã giúp đỡ động viên em rất nhiều trong quá trình học tập và làm khóa luận Tốt Nghiệp

Mặc dù đã có rất nhiều cố gắng, song thời gian và kinh nghiệm bản

thân còn nhiều hạn chế nên khóa luận không thể tránh khỏi những thiếu

sót rất mong được sự đóng góp ý kiến của các thầy cô giáo, các bạn sinh

viên và bạn đọc

Em xin chân thành cảm ơn!

Hà Nội, ngàu 02 tháng 05 năm 2016

Sinh viên

Trang 5

LOI CAM DOAN

Khóa luận này là kết quả nghiên cứu của bản thân em dưới sự hướng

dẫn tận tình của thầy giáo T.8S Hà Bình Minh

Trong khi nghiên cứu hoàn thành đề tài nghiên cứu này em đã tham

khảo một số tài liệu đã ghi trong phần tài liệu tham khảo

Em xin khẳng định kết quả của đề tài "Mô hình hồi quy nhiều biến: thực hành bằng ngôn ngữ R" là kết quả của việc nghiên cứu, học tập và nỗ lực của bản thân, không có sự trùng lặp với kết quả của

các đề tài khác Nếu sai em xin chịu hoàn toàn trách nhiệm

Hà Nột,ngàu 02 tháng 05 năm 2016

Sinh viên

Trang 6

`

Lời nói đầu

1 Lí do chọn đề tài

Toán ứng dụng là bộ môn rất quan trọng và có nhiều ứng dụng trong

thực tế, giúp con người rút ra thông tin từ dữ liệu quan sát nhằm giải

quyết các vấn đề trong cuộc sống

Trong thực tế thì một hiện tượng đơn giản thường chịu chỉ phối bởi

các biến phụ thuộc và các biến độc lập Để thể hiện mối quan hệ giữa

các biến đó thì người ta sử dụng mô hình hồi quy nhiều biến

2 Mục đích nghiên cứu

Nghiên cứu mô hình hồi quy nhiều biến: thực hành bằng ngôn ngữ R

3 Phương phap nghiên cứu

Sử dụng R hỗ trợ, thực hành với các ví dụ, so sánh với các phương pháp

cổ điển

4 Phạm vi nghiên cứu

Do thời gian không nhiều nên bài báo cáo chỉ tìm hiểu được một số vấn

Trang 7

Danh mục kí hiệu

Chương 1 giới thiệu phần mềm tính toán và lập trình, cách sử dụng R

e Chương 2: Mô hình hồi quy nhiều biến

Chương 2 trình bày một số kiến thức về mô hình hồi quy nhiều biến

và ví dụ thực hành mô hình bằng ngôn ngữ R

Tuy đã có nhiều cố gắng nhưng do thời gian và khả năng có hạn nên các

vấn đề trong luận văn vẫn chưa được trình bày sâu sắc và không thể tránh khỏi có những sai sót trong cách trình bày Tác giả mong nhận được sự góp ý xây dựng của thầy cô và các bạn Tác giả xin chân thành cảm ơn! Hà Nội, ngày 02 tháng 05 năm 2016

Trang 8

Chuong 1

GiGi thiéu ngôn ngữ R

1.1 Khái quát chung

Năm 1996, trong một bài báo quan trọng về tính toán thống kê, hai

nha théng ké hoc Ross Ihaka va Robert Gentleman [lic d6] thuéc Trường

đại học Auckland, New Zcaland phát hoạ một ngôn ngữ mới cho phân

tích thống kê mà họ đặt tên là R [1] Sáng kiến này được rất nhiều nhà

thống kê học trên thế giới tán thành và tham gia vào việc phát triển R

Qua chưa đầy 10 năm phát triển, càng ngày càng có nhiều nhà thống kê

học, toán học, nghiên cứu trong mọi lĩnh vực đã chuyển sang sử dụng R

để phân tích dữ liệu khoa học Trên toàn cầu, đã có một mạng lưới hơn

Trang 9

Chuong 1 GIGI THIEU NGON NGU R

1.1.1 Khai niém vé R

R là một phần mềm sử dụng cho phân tích thống kê và vẽ biểu đồ R là ngôn ngữ máy tính đa năng, có thể sử dụng cho nhiều mục tiêu khác

nhau, từ tính toán đơn giản, toán học giải trí (recreational mathematics),

tính toán ma trận (matrix), đến các phân tích thống kê phức tạp Vì là

một ngôn ngữ cho nên người ta có thể sử dụng R để phát triển thành các phần mềm chuyên môn cho một vấn đề tính toán cá biệt để phục vụ

cho nhiều mục đích khác nhau của người sử dụng

R cung cấp cho chúng ta một ngôn ngữ máy tính và một số hàm để

làm các phân tích căn bản và đơn giản

1.1.2 Ưu điểm của R

e R có chứa nhiều loại kỹ thuật thống kê: mô hình hóa tuyến tính và phi tuyến tính, kiểm thử thông kê cổ điểm, phân tích chuỗi thời gian, phân tích mô hình hôi quy, phân loại, phân nhóm, và đồ

họa R

e R cũng có tính mở rộng cao bằng cách sử dụng các gói cho người dùng đưa lên cho một số chức năng trong lĩnh vực nghiên cứu cụ thể

Trang 10

Chuong 1 GIGI THIEU NGON NGU R

e Ngôn ngữ R có nhiều ưu điểm hơn so với các ngôn ngữ lập trình bac cao nhu C, C++, Java

e R có khả năng điều khiển dữ liệu và lưu trữ số liệu

e R cho phép sử dụng ma trận đại số e Kha nang biểu diễn đồ thị phong phú

1.2 Làm quen với R

1.2.1 Cài đặt và giao diện

Để sử dụng R thì việc đầu tiên là phải cài đặt phần mềm R trong

máy tính của mình Sau khi hoàn tất việc cài đặt thì có một icon

sẽ xuất hiện trên desktop của máy tính Đến đây ta có thể sử dụng

R Nhấp chuột vào icon này chúng ta sẽ được một cửa số như sau:

1.2.2 Ngôn ngữ của R

Trang 11

Chương 1 GIGI THIEU NGON NGU R

Hinh 1.1: Man hinh desktop

quả Văn phạm chung của R là lénh (command) hay ham (function)

Văn phạm chung của R là như sau:

đối tượng <- hàm (thông số 1, thông số 2, , thông số n)

Xét lệnh sau: > m <- mean(y), trong đó m là đối tượng; mean là hàm và y là đối tượng R cũng sử dụng các phép tốn thơng thường được liệt kê trong bảng sau: Ki tu Y nghia Lénh R + Cong a+b a+b - Trừ a- b a-b * Nhân ab a*b

/ Chia phải a/b

sqrt căn bậc hai của a | sqrt(a) “hoặc ** luỹ thừa a^b a^b

Trang 12

Chuong 1 GIGI THIEU NGON NGU R

Trang 13

Chuong 1 GIGI THIEU NGON NGU R

1.2.3 Cách dat tén trong R

Đặt tên một đối tượng (objecE) hay một biến số (variable) trong R, khá linh hoạt, vì R, không có nhiều giới hạn như các phần mềm khác Tên một đối tượng phải được viết liền nhau tức là không cách bởi khoảng trồng Chẳng hạn R chấp nhận batdauR nhưng không chấp nhận bat dauR Nhưng đôi khi batdauR khó đọc thì người ta có thể tách rời bằng

II

dau ".", chang hạn như bat.dauR Ngoài ra thì trong R cũng phân biệt mẫu kí tự viết hoa và viết thường Ví dụ: > Vi.du <- 5 > vi.du <- 20 > Vi.du + vi.du [1] 25 1.2.4 Hỗ trợ trong R và môi trường vận hành a, Hỗ trợ trong R

Trong R ngoài lệnh dùng để tính toán thì R còn cung cấp lệnh he1lp() để người sử dụng có thể hiểu thêm về văn phạm của từng hàm Chẳng

Trang 14

Chuong 1 GIGI THIEU NGON NGU R

Khi đó một cửa số sẽ hiện ra bên phải của màn hình chỉ rõ cách sử dụng ra sao, thậm chí có cả ví dụ để ta thực hành ngay trên R để biết cách vận hành của nó

b, Môi trường vận hành

Dữ liệu phải được chứa trong một khu vực của máy tính Trước khi sử dụng R thì để thuận tiện cho việc làm việc với dữ liệu thì cách hay nhất là

tạo ra một khu vực mới để chứ dữ liệu, chẳng hạn như c:\work`\ batdauR Dé R biết dữ liệu nằm ở đâu, chúng ta sử dụng lệnh sewt (set working

dierectory) như sau:

> setwd("c:/work/batdauR")

Để biết R, đang làm việc ở thư mục nào thì chúng ta sử dụng lệnh:

> getwd()

1.2.5 Nhập dữ liệu

Muốn phân tích dữ liệu bằng R thì chúng ta phải có sẵn dữ liệu mà

R có thể hiểu được để xử lí Dữ liệu mà R, hiểu được phải à dữ liệu trong một data.frame(một văn phạm được đặt tên) trong R, từ nhập trực tiếp

đến nhập từ các nguồn khác nhau Ta có 5 cách thông dụng nhất:

a, Nhập dữ liệu trực tiếp: c( )

Ví dụ 1: Chúng ta có số liệu về khối lượng chất xúc tác và thời gian

phản ứng khi ta tiến hành 10 thí nghiệm hoá học như sau, và muốn nhập

Trang 15

Chuong 1 GIGI THIEU NGON NGU R vao R 1 300 4 270 10 240 17 280 20 260 26 220 30 195 35 160 45 120 Chúng ta có thể sử dụng function có tên c như sau: > weigh <- c(1,4,10,17, 20,26, 30,35, 41, 4B) > time <- c(300, 2270, 240,280, 260, 220, 195, 160, 145, 120)

Vì mỗi cột số liệu hay mỗi cột data.frame là một đối tượng Vì vậy weigh và time là hai đối tượng riêng lẻ Chúng ta cần nhập hai đối tượng

này thành một data.frame để R có thể xử lí sau này Để làm được việc

này thì chúng ta cần đến function data.frame:

< vi.dul <- data.frame(weigh, time)

Trong lệnh này chúng ta muốn cho R, biết rằng hai cột (đối tượng)

weigh và time vào một đối tượng có tên là vi.dul

Để kiểm tra xem trong vi.dul có gì thì đơn giản ta dùng lệnh:

< vi.dul

Trang 16

Chương 1 GIGI THIEU NGON NGU R Và R sẽ báo cáo weigh time 1 1 300 2 4 270 3 10 240 4 17 280 5 20 260 6 26 220 7 30 195 8 35 160 9 41 145 10 45 120

Để lưu số liệu này theo dạng R thì chúng ta cần dùng lệnh save Giả sử chúng ta muốn lưu số liệu trong directory có tên là "c: \baitapR" chúng

ta cần gõ như sau:

> setwd ("c:/baitapR")

> save (vi.dul, file="vi.du1i.rda")

b, Nhập dữ liệu truc tiép: edit (data.frame () )

Cũng với ví dụ 1 như ở phần a thi ta nhập số liệu đó trực tiếp vào

bảng thông qua lệnh sau:

> vi.dui <- edit(data.frame())

Trang 17

Chương 1 GIGI THIEU NGON NGU R

Chúng ta sẽ có một cửa số như sau:

Nhấp chuột vào cột varl và thay đổi bằng cách gõ vào đó weigh Tương tự cho var2 ta cũng thay bằng time Như vậy là ta đã có một

data.rame với tên vi.dul với hai biến số là weigh và time

c, Nhập dữ liệu từ một text file: read.table

Ví dụ 2: Chúng ta thu thập số liệu về gãy xương Các số liệu này

được lưu trong một file có tên là fracture.txt tại danh mục c: \ work Số liệu này như sau: cột 1 là mã số của bệnh nhân, cột 2 là giới tính, cột 3 là tuổi, cột 4 là cân nặng, cột 5 là chiều cao

Để nhập các dữ liệu này vào R để tiện cho việc phân tích thì chúng

ta sử dụng lệnh read.table như sau:

> setwd("c: / work")

> gay.xuong <- read.table("fracture.txt", header=TRUE)

Lệnh thứ nhất chúng ta cho phép R truy nhập đúng danh mục đang

Trang 18

Chương 1 GIGI THIEU NGON NGU R id sex age weight height ethnicity igfi igfbp3 als 1 Female 15 42 162 Asian 189.000 4.00000 323.667 2 male 16 44 160 Caucasian 160.000 3.75000 333.750 3 Female 15 43 157 asian 146 833 3.43333 248.333 4 Female 15 42 155 Asian 185.500 3.40000 251.000 5 Female 16 47 167 Asian 192 333 4.23333 322.000 6 Female 25 45 160 asian 110.000 3.50000 284.667 7 Female 19 45 161 Asian 157.000 3.20000 274.000 8 Female 18 43 153 Asian 146.000 3.40000 303.000 9 Female 15 41 1438 asian 197.667 3.56667 308.500 10 Female 24 45 157 african 148.000 3.40000 273.000 11 Female 26 45 159 Asian 105.333 3.30000 295,333 12 Male 15 47 164 Asian 162.000 3.50000 287 333 13 Female 15 43 150 asian 170.000 3.15000 254.500 14 male 15 46 162 Asian 192.000 3.30000 305.000 15 Female 19 48 168 Caucasian 314.500 4.75000 381.750 16 Female 15 48 165 Caucasian 334.000 3.80000 312.000 17 Female 20 45 156 Asian 125.667 3.53333 281.500 18 Female 22 46 157 Caucasian 100.167 2.76667 249.000 19 Female 20 45 154 asian 165.000 3.76667 234.000 20 Female 21 46 137 Caucasian 145.000 3.30000 303.000

được lưu trữ Lệnh thứ 2 yêu cầu R nhập số liệu từ một file có tên là

"fracture.txt" Trong lénh nay header=TRUE có nghĩa là yêu cầu R đọc dòng đầu tiên trong ñle đó như là tên của từng cột dữ kiện

Để kiểm tra xem R, đã đọc được hết dữ liệu hay chưa thì ta dùng lệnh: > gay.xuong Và để kiểm tra xem dữ liệu có các cột nào thì ta dùng lệnh: > names(gay.xuong) Chúng ta lưu dữ liệu dưới dạng R bằng lệnh: > save(gay.xuong, file-"gay.xuong.rda")

d, Nhập dữ liệu từ một Excel: read.csv

Trang 19

Chuong 1 GIGI THIEU NGON NGU R

Ví du 3: Ta có một dữ liệu bao gồm các cột sau đây đang được lưu trong Excel, 5 = - Dé+> ae Haar or at Pate mua [S4 0-]|B+|[ A=] (EM a) WE BH | sed crve comer - [$n 46m |/GAa|| Condtionel Fok caller Deste Fermat | 7 Sat End e s f al @-7% Việc đầu tiên chúng ta cần làm là lưu dữ liệu dưới dạng csv bằng cách:

e Vào Excel, chon File + Save as

e Chon Save as type"CSV (Comma delimited)"

Việc thứ 2 là vào R và ra lệnh: > setwd("c: / work")

> vidu3 <- read.csv ("excel.csv", header=TRUE)

Trong đó: Lệnh thứ nhất ta muốn đảm bảo R truy nhập đúng danh

mục mà số liệu đang được lưu trữ Lệnh thứ 2 yêu cầu R đọc số liệu từ

"excel.csv" va luu di liệu này trong một đối tượng có tên là "vidu3" Để

Trang 20

Chương 1 GIGI THIEU NGON NGU R

a

te

Obs cont ¡ -(AA|ÍE=l#-| 3wesret ene |b Bers 3a oF đà Ccondtional Format Cell Inert Delete Format

Bs ng Os ite Qeew> Fes Seed Som & Find e Pas prormat porter |B 2 U~|ÌB-llf> À-| [E BE MEE 4jUewacee (So % 9) | ‘Save As Local DiskiC) » werk Eo tocai 0k) ca DUUEUĐ = SFTP Filename: Save as type: [CSV (Comma delimited) Authors Admin 1») Hide Foidere lưu vidu3 dưới dạng R thì ta dùng lệnh: > save(vidu3, file-"vidu3.rda") e, Nhập dữ liệu từ một SPSS: read.spss

Phần mềm thống kê SPSS lưu dữ liệu dưới dạng "sav" Chang han

nếu chúng ta có một dữ liệu có tên vidu4.sav trong danh mục c: \work

Trang 21

Chương 1 GIGI THIEU NGON NGU R

e Luu testo dưới dạng R để xử lí bằng lệnh:

> save(testo, file-"testo.rda")

1.2.6 Các lệnh hệ thống

Lệnh về môi trường vận hành của R

getwd() Cho biết thư mục hiện hành là gì setwd() Cc huyén thu muc van hanh

options(prompt="R>") Déi promt thanh R

options (width=100) Đối chiều rộng cửa số thành 100 character options (scipen=3) Đổi thành 3 số thập phân

options() Cho biết các thông số về môi trường của R

Lệnh cơ bản

1sQ Liệt kê các đối tượng trong bộ nhớ rm(đối tượng) Xóa đối tượng

seach() Tìm hướng

Các hàm thống kê và đồ thị

Các hàm số thống kê:

min(x) Số nhỏ nhất của biến số x max(x) Số lớn nhất của biến số x

which min(x) Tìm dòng có giá trị nhỏ nhất của biến số x which max(x) Tìm dòng có giá trị lớn nhất của biến số x sum(x) Tồng của biến số x

range(x) Khác biệt giữa max(x) và min(x)

Trang 22

Chuong 1 GIGI THIEU NGON NGU R

mean (x) Số trung bình của biến số x median(x) Số trung vị của biến số x

sd(x) Độ lệch chuẩn của biến số x

var(x) Phương sai của biến số x

Để phân tích hồi quy tuyến tính thì ta dùng hàm 1m(y ~ x)

Một số hàm vẽ đồ thị

plot(y ~ x) Ve d Oy thi y va x

Oy

Trang 23

Chuong 2

MO HiNH HOI QUY NHIEU BIEN

2.1 Mô hình hồi quy tuyến tính ba biễn * Khái niệm về hồi quy

- Phân tích hồi quy là tìm mối quan hệ phụ thuộc của biến phụ thuộc

vào một hoặc nhiều biến khác (được gọi là biến độc lập), nhằm mục địch

ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trị của biến độc lập

- Biến phụ thuộc là những biến ngẫu nhiên và biến độc lập nhận những giá trị xác định Biến phụ thuộc được kí hiệu là Y, biến độc lập

là X;, X:, X¿, Trong mối quan hệ giữa hai biến này, biến phụ thuộc

chịu tác động của biến độc lập, biến độc lập gây ảnh hưởng lên biến phụ

thuộc

Trang 24

Chương 2 MƠ HÌNH HỒI QUY NHIỀU BIẾN

- Tham số hồi quy là những hằng số được kí hiệu là Øị, 8s, Øs có

thể chưa biết và là đối tượng cần đi tìm Tham số hồi quy là đại lượng mô tả mối quan hệ giữa các biến

* Mô hình hồi quy hai biến tuyến tính

- Mô hình hồi quy hai biến là mô hình đơn giản nhất, còn được gọi là hồi quy đơn Trong đó chỉ gồm một biến phụ thuộc (Y) và một biến độc lập (X) - Dạng phương trình hồi quy Y=6,4+6.X +U Trong do: Y là biến phụ thuộc X là các biến độc lập U là phần dư

6ì, 8s là các tham số hồi quy

Mô hình hồi quy ba biến là dạng đơn giản nhất của mô hình hồi quy

bội, trong đó có một biến phụ thuộc và hai biến độc lập

2.1.1 Dạng phương trình và các giả định của mô hình

(1) Dạng phương trình hồi quy

Y; = 0i + 0sÄz¡ + 0Ä :¡ + Ú¡

Trang 25

Chương 2 MƠ HÌNH HỒI QUY NHIỀU BIẾN Trong đó: Y là biến phụ thuộc X;›, X; là các biến độc lập U; la phần dư

6, Ø›, 8s là các tham số hồi quy

Công thức trên thể hiện sự liên hệ hay phụ thuộc, tác động của các biến

độc lập X;, X; lên biến phụ thuộc Y theo các tham số hồi quy (2) Các giả định của mô hình

1 t#(X¡;) =Ũ= Var(X›,); E(X3;) =0= Var(X:,) 2 Giá trị trung bình của Ù; = 0 E(U;/Xo;, X3:) =0 Vi 3 Phương sai các U, không đổi: o? = Var(Y;) = Var(U,) Var(U,/X»;) = Var(U;/Xa;) = Var(U,/Xy:) = Var(U,/X3;) = 0 Ví # j 4 Không có hiện tượng tương quan giữa các U; Cou(U;/U;) = 0,Vi 4 7

5 Cou(U;, Xo;) = Cou(U;, X3:)

6 U, có phân phối chuẩn N(0,0?) + E(U) = E(U;) = 0

Trang 26

Chương 2 MƠ HÌNH HỒI QUY NHIỀU BIẾN

7 Không có đa cộng tuyến hoàn hảo giữa các biến X¿ và X; trong mô hình, tức là không tồn tại bộ số thực À¡, Às, À; sao cho:

mM + Ay X 9; + A3 X34 — 0V;

8 Số quan sát n phải lớn hơn số các tham số cần tóc lượng

9 Biến độc lập X; phải biến thiên từ quan sát này qua quan sát khác hay Var(X,) > 0

10 Dạng hàm của mô hình được xác định một cách đúng đắn

2.1.2 Ước lượng tham số hồi quy

Với mô hình hồi quy tuyến tính ba biến:

E(Y/Xai, X3i) = đi + 02Xz¡ + 0i

Giả sử ta quan sát thứ ¡ có 3 giá trị tương ướng: Y, X;,X; Trong

thực tế thì ta không biết được 8); Ø;; 9; Vì vậy chúng ta phải dùng dữ

liệu để ước lượng các tham số đó

Khảo sát mô hình thì chúng ta phải tiến hành các thí nghiệm, các phép đo hay quan sát để có được các bộ số liệu (X;, W) Với số liệu thu thập được từ việc khảo sát một mẫu, ta xây dựng biểu đồ phân tán Mỗi

điểm thể hiện tọa độ của một quan sát và tập hợp các điểm qua sát tọa

thành "đám mây tọa độ" Trong số các điểm này, một số điểm nằm trên đường hồi quy, một số khác thì nằm ngoài Những điểm nằm ngoài sẽ tạo ra một khoảng cách khi chiếu thẳng đứng với đường hồi quy Khoảng

Trang 27

Chương 2 MÔ HÌNH HỒI QUY NHIỀU BIẾN

cách này được gọi là phân dư hay chính là chênh lệch giữa giá trị quan

sát với giá giá trị lý thuyết

Bn, là ước lượng không chệch của đựạ„ : E(Bin) = E(8n) , hon ntta

phải là một ước lượng hiệu quả Với một số giả định chặt chẽ như ở mục

(2.1.1) ở trên thì phương pháp tổng bình phương bé nhất cho ước lượng

hiéu qua cho 6,,

Hàm hồi quy mẫu có dạng: x = by + KuẨn + luÄni Trong đó ô, là ước lượng điểm của đ; với 7 = 1,2,3 Y; = â + BX) fe ByX4; + U; Voi U; 1d hiéu sé cha giá trị quan sát được với giá trị lý thuyết (phần dư) U; =¥i- Yi = Yi — By — Ô Xa — Ấy

Khi đó bài toán ước tính tham số hồi quy sẽ trở thành bài toán tìm giá trị nhỏ nhất của tổng các phần dư

^^ A I owt D x

Bài toán: Tìm giá trị của 6,, 82, 83 sao cho 5> U; đạt giá trị nhỏ nhất

#1

YO =O - VP = OM - b= bX a — ByXsi)? > Min

i=1 i=1 i=1

Ta sử dụng phương pháp đạo hàm để tính toán

f(b, Bo, | 3) = ~™% — By — BoX oi — ñX¿¡)? => Min #=1

®(ƒ¿ =0;ƒ; =0;ƒ7;)=0

Trang 28

Chương 2 MƠ HÌNH HỒI QUY NHIỀU BIẾN

Qua hữu hạn các bước tính tốn, ta có các cơng thức tính các giá trị

ước lượng của tham số hồi quy trong hàm ba biến như sau: n G yita,)(S5@2,) — (5 ytas)(S ea.) Bo — = ¡=1 ¡=1 #1 (z5;)Q2 23.) — (Ô) z2) ¡=1 1=1 i=1 (2 0izzi)(2 z3) — Ô2 0iesi)(D) #aiai) Bs — =1 ¡=1 i=1 ¡=1 (Do 035) (25 23:) — (XS 03,234)? i=1 ¡=1 ¡=1

2.1.3 Phương sai, sai số chuẩn

(1) Phương sai, sai số chuẩn

- Phương sai của biến ngẫu nhiên X là một số không âm, kí hiệu là

DX hoặc var(X) Phương sai của biến ngẫu nhiên dùng để đo mức độ phân tán của các giá trị của biến ngẫu nhiên X xung quanh kỳ vọng của

no

a” = Var(X)

- Độ lệch chuẩn là căn bậc hai của phương sai ø? và được kí hiệu là

- Sai số chuẩn của các trung bình các mẫu cùng cỡ rút ra từ một quần

thể mẹ, được kí hiệu là se

Phương sai và sai số chuẩn của các hệ số hồi quy được tính theo công

Trang 29

Chương 2 MƠ HÌNH HỒI QUY NHIỀU BIẾN n n nm 2 2 2 2 _« 5 1 XI 03, + XZ YO aw, — 2XNX3 VO waxy) A i=1 i=1 i=1 Var(01) = (- + n n 3u 5 — ()}ma¡z¿,)? ?=1 i=1 )ởŸ se(G,) = V Var(8) » Var(ô›)= ———=“—————ø'; se(8;) = Var(6) » By c— ®› #2iai)° t=Í i=l » re, Var(ơ;) = ————— '*'; se(Ơs) =i 4/ Var(ô;) Trong 32a — (7 sua)? ¡=1 i=1

đó, 6? = Var(Y,) = Var(U;) nhưng chưa biết, ta thay bằng 6? cia mau, với Ô? là ước lượng không chệch của o? nM „9 YU; t=1 n— ä a2 C —

(2) Quan hé giita Var(3), Var(G3) va hé s6 tương quan ry, x, (723)

Trang 30

Chương 2 MƠ HÌNH HỒI QUY NHIỀU BIẾN Hệ số tương quan giữa X;› và X;: TX;,X; = Theo bất đẳng thức Cauchy, ta có: (Dares,) 0< Fấ, =—————<l n (Oho e4,) Đặt rx,x, = r›;¿ biến đổi đại số Var(ô;) ta được: ơ? Var(8;) = ñ=)0 9 Tương tự: ơ? Var) = Go rh) mài)

Từ các công thức trên ta có thể rút ra một số các kết luận như sau:

e Nếu X; và Xs có tương quan tuyến tính hoàn hảo thì r;¿ = 1 Hệ quả là Vaz(ô)) Var(ô) vô cùng lớn, hay ta không thể xác định được hệ số của mô hình hồi quy

Trang 31

Chương 2 MÔ HÌNH HỒI QUY NHIỀU BIẾN Những nhận định trên đúng cho cả hồi quy tuyến tính hơn ba biến eTSS=RSS+ ESS © TSS = y= OM -PP = S)Y?— nŸ; >0 1=1 i=1 t=1 2.1.4 Hệ số xác định và hệ số xác định có điều chỉnh

- Hệ số xác định cho biết mức độ phù hợp của mô hình nghiên cứu với ý nghĩa là các biến độc lâp giải thích được bao nhiêu phần trăm biến

thiên của biến phụ thuộc (1) Hệ số xác định #? * Công thức: ESS Ady ent BY Yil3i _ T88 - TSS _— T898 - ae * Tinh chat:

e / luôn luôn > 0 (do TSS va ESS 1a s6 đã bình phương ) #? dùng để đo sự phù hợp của hàm hồi quy Thông thường #2 là hàm tăng

Trang 32

Chương 2 MƠ HÌNH HỒI QUY NHIỀU BIẾN

theo số biến giải thích có trong mô hình Nên khi biến giải thích tăng, f? cũng tăng Vì vậy khi chọn mô hình cùng biến phụ thuộc nhưng có số biến độc lập khác nhau, ta chọn mô hình có #? cao

nhất

e Hệ số xác định #? cho ta biết tác động tổng hợp của tất cả các biến

độc lập lên biến phụ thuộc, không cho biết chính xác tác động của

các biến độc lập Ví dụ mô hình hồi quy ba biến với R? = 60%, c6

thể nói cả hai biến độc lập giải thích được 60% sự biến động của

biến phụ thuộc Trong đó, có thể chỉ một biến có giá trị giải thích sự biến động của biến phụ thuộc, biến còn lại thì không có ý nghĩa

(2) Hệ số xác định có điều chỉnh #

Để so sánh hai # ta cần tính đến số biến độc lập có trong mô hình

Ta có thể sử dụng một hệ số xác định khác cho phù hợp hơn, gọi là hệ

số xác định có điều chỉnh (#2) "Có điều chỉnh " được hiểu là điều chỉnh

Trang 33

Chương 2 MƠ HÌNH HỒI QUY NHIỀU BIẾN

Trong đó, k là số tham số trong mô hình bao gồm cả hệ

số tự do Giữa ñ? và 2 có liên quan nhau qua công thức: n— ] n—k R?=1-(1- R’)

(3) Tinh chat cia R?

* Khik> 1: R? < R? <1 Nghia là, số biến giải thích càng lớn thì # càng nhỏ hơn #2 Thật vậy, nếu k = 1 > R? = H2 Ta có thể lý luận gần đúng như sau: n-1 Giả sử /? không đổi, ta đặt: y = 7= n— 1 — t> (1-7 t= R= 1-(1- By n kt=}> y=

Vậy, khi k † thì 7# |, trong khi # †

Trang 34

Chương 2 MƠ HÌNH HỒI QUY NHIỀU BIẾN

_ có thể >0

=?=1-(1- R)?>= = n-k „

có thê <0

Chính vì những tính chất trên của R?, người ta chọn R2 để xét có đưa

thêm biến giải thích vào mô hình không Cụ thể, ta còn có thể đưa thêm biến giải thích mới vào mô hình khi mà # vẫn còn tăng và hệ số

hồi quy tương ứng với biến đưa vào khác không, có ý nghĩa thống kê Để biết hệ số hồi quy khác không của biến X¿ mới đưa vào mô hình có ý nghĩa thống kê hay không, ta kiểm định giả thiết: Hạ : 9, = 0;

1: 0, #0 Nếu bác bỏ giả thiết Hạ, nghĩa là biến X¿ có thể được đưa thêm vào mô hình

Giá trị của #? hoặc #2 cho ta biết mức độ phù hợp của mô hình

Nếu #? hoặc #2 + 1 hoặc > 0,7 thì mô hình là tốt

2.1.5 Kiểm định giả thiết về các hệ số hồi quy

Trang 35

Chương 2 MƠ HÌNH HỒI QUY NHIỀU BIẾN É: Tính biếu thức thống kê: † = 5-6; se(3;) By Với mức ý nghĩa œ đã cho, tra bảng tầm †(s(„—a)| So sdnh t vdi t2,(n-3)] Nếu |t| > ta (n—3) —> Bác bỏ Hà

Nếu |i| < tas(n—3) > Chap nhan Hy

Thông thường, khi kiểm định gia thiét Ho, ta giả sử rằng biến X,,

không có tác động riêng phần lên biến Y Cho nên cặp giả thiết Họ ụ Bm = 0

được đặt là:

Hy: Bm £0

Kết quả là một trong hai khả năng sau đây:

Nếu chấp nhận giả thiết Hạ, nghĩa là Ø„ không có ý nghĩa thống kê,

biến X„ không ảnh hưởng lên biến Y

Nếu bác bỏ giả thiết Hạ, đ„ khác không và có ý nghĩa thống kê, nghĩa

là biến X„ thực sự có ảnh hưởng lên biến Y

2.1.6 Ví dụ minh họa

Ví dụ 1: Giả sử ta có mẫu số liệu sau đây: Lượng cầu của thịt gà ở Mỹ từ năm 1960 đến năm 1980 (Biến Y - pao), thu nhập bình quân của

người tiêu dùng (Biến X;¿ - USD), giá của thịt gà (Biến X; - USD/pao)

Hãy ước lượng hàm hồi quy tuyến tính của lượng cầu của thịt gà theo

Trang 37

Chương 2 MÔ HÌNH HỒI QUY NHIỀU BIẾN

Thực hiện phân tích trên R Bước 1: Nhập dữ liệu

Với bảng số liệu như trên thì ta có thể sử dụng một trong 5 cách đã nêu

ở Chương 1 để nhập dữ liệu sao cho phù hợp Ö đây ta đã có một file dữ

liệu với tên "Vidul.csv" được lưu trong ổ "c:/a" Dé truy nhap va doc dữ liệu thì ta sử dụng các lệnh: > setwd("c:/a") > vidul= read.csv("vidul.csv", header=T) > attach(vidul) Bước 2: Phân tích hồi quy Chúng ta sử dụng lệnh: > 1m(Y ~ X2 + X3)

Bước 3: Hiển thị kết quả

Trang 38

Chương 2 MƠ HÌNH HỒI QUY NHIỀU BIẾN Coefficients: Estimate Std Error t value Pr(>|tl) (Intercept) 35.03203 3.30997 10.584 3.70e-09 *** X2 0.01797 0.00214 8.396 1.22e-07 *** X3 -0.27972 0.10680 -2.619 0.0174 * Signif codes: 0 “***? 0.001 “**? 0.01 “*? 0.05 “.?7 0.1 7? 1 Residual standard error: 1.979 on 18 degrees of freedom

Multiple R-squared: 0.9167, Adjusted R-squared: 0.9074 F-statistic: 98.99 on 2 and 18 DF, p-value: 1.939e-10

Y nghia:

Trang 39

Chương 2 MƠ HÌNH HỒI QUY NHIỀU BIẾN bình quân của người tiêu dùng và giá của thịt gà là: Ÿ, = 35.03203 + 0.01797 X;; — 0.27972Xz, e Ta có 6, > 0; va G3 < 0 suy ra biến Y đồng biến với X; và nghịch biến với X¿

° â = 35.03203: Khi thu nhập bình quân của người tiêu dùng và giá

của thịt gà bằng 0 thì lượng cầu của thịt gà là 35.03203 pao

e By = 0.01797: Khi giá của thịt gà không đổi, nếu thu nhập bình quân người tiêu dùng tăng (giảm) 1 USD thì lượng cầu của thịt gà sẽ tăng (giảm) 0.01797 pao

° Bs = —0.27972: Khi thu nhập bình quân người tiêu dùng không đổi,

nếu giá của thịt gà tăng (giảm) 1 pao/ USD thì lượng cầu của thịt gà sẽ giảm (tăng) 0.27972 pao

Từ kết quả thu được ta có thể biết #? = 0.9167 và #? = 0.9074 Như

vậy thì hai biến thu nhập bình quân người tiêu dùng và giá của thịt gà

giải thích 92 % độ khác biệt về lượng cầu của thịt gà giữa các năm Mô

hình được coi là mô hình tốt

Ngoài ra thì giá trị của Pr(>|t|) của hai biên lần lượt là:1.22e— 07 <

0.05 và 0.0174 < 0.05 nên ta có biến X;; X; đều có ý nghĩa thống kê

Trang 40

Chương 2 MƠ HÌNH HỒI QUY NHIỀU BIẾN

2.2 Mô hình hồi quy k biến

Thực tế, khi khảo sát một hiện tượng kinh tế, rất nhiều trường hợp dẫn đến phải xét đến hàm hồi quy tuyến tính gồm một biến phụ thuộc

chịu ảnh hưởng không phải chỉ hai mà ba, bốn, năm hoặc thậm chí hàng chục biến giải thích Trong trường hợp này, một cách tổng quát, ta có hàm hồi quy k biến

2.2.1 Dạng ma trận và các giả định của mô hình

(1) Hàm hồi quy tổng thể PREF và hàm hồi quy mẫu SRF Mô hình hồi quy bội k biến có dạng đại số như sau:

PRF

Ngày đăng: 05/07/2017, 06:29

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN