1. Trang chủ
  2. » Khoa Học Tự Nhiên

Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)

62 251 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 9,78 MB

Nội dung

Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)

Trang 1

BO GIAO DUC VA DAO TAO

TRƯỜNG ĐẠI HỌC SƯ PHẠM HA NỘI 2

KHOA TỐN

Hồng Thị Thanh Huyền

HỒI QUY VỚI BIÊN ĐỊNH TÍNH THUC HANH BANG NGON NGU R

KHOA LUAN TOT NGHIEP DAI HOC

Trang 2

BO GIAO DUC VA DAO TAO

TRUONG DAI HOC SU PHAM HA NOI 2

KHOA TOAN

Hoang Thi Thanh Huyén

HOI QUY VGI BIEN DINH TINH

THUC HANH BANG NGON NGU R Chuyên ngành: Toán ứng dụng

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: Tiến sĩ: Hà Bình Minh

Trang 3

LOI CAM ON

Trước khi trình bày nội dung chính của bản báo cáo thực tập chuyên ngành, em

xin bày tỏ lòng biết ơn sâu sắc tới Tiến sĩ Hà Bình Minh đã tận tình hướng dẫn để em có thể hoàn thành đề tài này

Em cũng xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cơ giáo trong

khoa Tốn, Trường Đại học Sư phạm Hà Nội 2 da day dé em tan tinh trong suốt quá trình học tập tại khoa

Trang 4

LOI CAM DOAN

Tôi xin cam đoan rằng số liệu và kết quả nghiên cứu trong khóa luận này là trung thực và không trùng lặp với các đề tài khác Tôi cũng xin cam đoan rằng mọi sự giúp

đỡ cho việc thực hiện khóa luận này đã được cảm ơn và các thông tin thu trích dẫn

trong khóa luận đã được chỉ rõ nguồn gốc

Hà Nội, ngày 4 tháng ð năm 2016 Sinh viên

Trang 5

Muc luc 1 GIGI THIEU NGON NGU R 1.1 1.2 1.3 1.4

Ưu điểm và hạn chế củaR_

Cai dst Ro « sei me ewe be wa HERS HE HS "Van pham"R 2 ee 1.3.1 Cách đặt têntrongR 13.2 Hỗ trợtrongR c Cách nhập dữ liệu vào R 1.4.1 Nhập số liệu trực tiếp: c(j)

1.4.2 Nhập số liệu trực tiếp: cd# (data.rame())

1.4.3 Nhap sé lieu tit mét tezt file: read table

1.4.4 Nhập số liệu từ Ðxcel: read.csu

1.4.5 Nhập số liệu từ một SPSS: read.spss

2 HOI QUY VỚI BIẾN ĐỊNH TÍNH

2.1 Khái niệm về hồi quy 2.1.1 Phân tích hồi quy

Trang 6

22 Khái nệm vềbingiả 14

2.21 Biến định lượng và biến định tính 15

2.2.2 Hồi quy với một biến định lượng và một biến định tính có hai phạm trù 19

2.2.3 Hồi quy với một biến định lượng và một biến định tính có nhiều hơn hai phạm trà 22

2.2.4 Hồi quy với một biến định lượng và hai biến định HN ¢ pe ema Ew EM RHE wR Eee 23 243 Biến giả với hệ số góc khác nhau 25

2.4 Biến giả với tung độ gốc và hệ số góc khác nhau 26

2.5 Biến giả trong phân tích thời vụ 28

2.6 Hồi quy tuyến tính từng khúc (piecewise linear regression) 34 27 Hồi quy với biến giả, mô hình Semi Logarit 38

2.7.1 Mô hình Log-Lin 38

2.7.2 Mô hình Lin- Log 42

2.8 Hồi quy với biến phụ thuộc là biến giá 45

2.8.1 Một số ví dụ về biến phụ thuộc dinh tinh 45

2.8.2_ Biến phụ thuộc nhị phân 47

2.8.3 Phân tích xác suất biểu hiện các trạng thái của biến phụ thuộc định tính 48

2.8.4 Mô hình xác suất tuyến tínhLPM 50

Trang 7

LOI MO DAU

1.Li do chon dé tai

Trong thực tế để nghiên cứu các hiện tượng kinh tế, xã hội, ta đi xây

dựng các mô hình hồi quy để thể hiện mối quan hệ giữa các biến, phản

ánh bản chất hiện tượng để từ đó có thể đưa ra những nhận xét, kết

luận về hiện tượng Nhưng các hiện tượng đó không phải lúc nào cũng được mô tả bằng các biến định lượng mà đôi khi bằng các biến định tính Trong trường hợp hồi quy với các biến định tính, ta phải lượng hóa

chúng bằng những con số, thường là số 0 và số 1 và được gọi là biến giả

Hồi quy nói chung và hồi quy với biến định tính nói riêng ta đều cần đến sự trợ giúp của các phần mềm chuyên dụng Chúng ta có thể sử dụng

các phần mềm thông dụng như SAS, SPSS, Stata, S-Plus để phân tích

số liệu và biểu đồ Tuy nhiên, để sử dụng được các phần mềm đó, chúng

ta phải chi phí tương đối cao Để khắc phục hạn chế đó, năm 1996, hai

nhà thống kê học Ross Ihaka va Robert Gentleman thuéc trường đại học

Auckland New Zealand phát họa ngôn ngữ cho phân tích thống kê mà

họ đặt tên là R hoàn toàn miễn phí Để hiểu hơn về hồi quy với biến định tính, sử dụng được phần mềm R trong phân tích số liệu, em lựa

Trang 8

Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN

Sử dụng ngôn ngữ R hỗ trợ trong tìm mô hình hồi quy với biến định

tính, thực hành các ví dụ bằng R, từ đó tìm ra các tham số rồi đưa ra những đánh giá, kết luận với hiện tượng đang nghiên cứu

4 Phạm vi nghiên cứu

Do thời gian không nhiều nên bài luận văn chỉ tìm hiểu được một số vấn

đề của hồi quy với biến định tính: mô hình hồi quy có chứa biến độc lập

định tính và mô hình hồi quy với biến phụ thuộc định tính

5 Bố cục đề tài

Đề tài bao gồm hai chương:

e Chương 1: Giới thiệu ngôn ngữ R

Chương 1: Trình bày những kiến thức tổng quan về ngôn ngữ R

như: cách cài đặt, cách đặt tên, cách nhập dữ liệu trong R

e Chương 2: Hồi quy với biến định tính

Chương 2: Trình bày những kiến thức chung nhất về hồi quy, khái

niệm biến giả và kĩ thuật sử dụng biến giả trong một số mô hình

hồi quy

Do thời gian thực hiện đề tài không nhiều, kiến thức còn hạn chế nên

luận văn của em không tránh được những thiếu sót Em rất mong nhận

được sự góp ý và những ý kiến phản biện của quý thầy cô và bạn đọc

Trang 9

Chuong 1

GIGI THIEU NGON NGU R

Nói một cách ngắn gọn, R là một phần mềm sử dụng cho phân tích thống kê và biểu đồ Thật ra, về bản chất R là ngôn ngữ máy tính đa năng, có

thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí, toán học ma trận đến các phân tích thống kê phức tạp

11 Ưu điểm và hạn chế của R

Phần mềm R có một số wu điểm vượt trội so với các phần mềm chuyên

dụng khác như:

* Ưu điểm:

e R là phần mềm miễn phí, có sẵn trên web và dễ dàng cài đặt e Việc nhập - xuất dữ liệu rất đơn giản và khá gọn so với các phần

mềm chuyên dụng khác

e Với phần mềm R, chúng ta có thể tạo ra những biểu đồ chuyên

Trang 10

Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN

e Chúng ta có thể dễ dàng giải thích kết quả khi thực hiện phân tích thống kê vì R chỉ xuất ra thông tin cần thiết

e Khi stt dung phan mém R dé phân tích dữ liệu, chúng ta có thể cập

nhật những phương pháp phân tích thống kê hiện đại bằng cách cài đặt những package chuyên dụng

e Với R chúng ta có thể sử dụng để tính toán như một máy tính thơng

thường (tính tốn số học, đạo hầm, giải phương trình )

Tuy nhiên, phần mềm R còn tồn tại những hạn chế chẳng hạn như: * Hạn chế e Thuật ngữ khó hiểu e Dùng lệnh e Ki hiéu 1.2 Cài đặt R

Để sử dụng R thì đầu tiên ta phải cài đặt R trong máy tính của mình Với máy tính đã được kết nối mạng, chúng ta truy cập địa chỉ:

http://cran R-project.org

Tài liệu cần tải về tùy theo phiên bản, nhưng thường có tên bắt đầu

bằng mẫu tự R và số phiên bản (version) Khi đã tải R xuống máy tinh, bước tiếp theo là cài đặt (set-up) vào máy tính Để làm việc này chúng

ta nhấn chuột vào tài liệu trên và làm theo hướng dẫn cách cài đặt trên

Trang 11

Khoa luận tốt nghiệp Dại học HOÀNG THỊ THANH HUYỄN hiện một icon Khi chúng ta nhấp chuột vào icon trên sẽ xuất hiện một window như sau: ‘Misc Packages Windows Help a _ File Edit

Jz[=°Ju] helo) el|#]

R version 3.2.4 Revised (2016-03-16 rz70336) "Very Secure Dishes" Copyright (C) 2016 The R Foundation for Statistical Computing Platform: i386-w64-mingw32/i386 (32-bit)

Ris free software and comes with ABSOLUTELY NO WARRANTY

You are welcome to redistribute it under certain conditions

Type 'license()' or 'licence()' for distribution details

R is a collaborative project with many contributors

Type ‘contributors()' for more information and

"citation()" on how to cite R or R packages in publications

Type 'demo()' for some demos, ‘help()' for on-line help, or ‘help.start()' for an HTML browser interface to help

Type 'q()' to quit R

Trang 12

Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN

1.3 "Van pham" R

“Văn phạm” chung của R là một lệnh (command) hay hàm Cú phấp chung của R là như sau:

đối tượng = hàm (thông số 1, thông số 2, ,thông số n) Ví du 1.3.1 > reg <- Im (x ~ y) trong đó: reø là một đối tượng, in là một hàm và z ~ y 1a thông số của hàm Để biết một hàm cần có những thông số nào, ta dùng lệnh args(z) mà trong đó x là một hàm chúng ta cần biết Ví dụ 1.3.2 <- arge (lm)

R là một ngôn ngữ "đối tượng" Diều này có nghĩa là các dữ liệu

trong R được chứa trong object, điều này cũng có ảnh hưởng đến cách viết của R

Ví dụ 1.3.3 Chúng ta không viết x=5 như thông thường, trong R để

thể hiện điều đó chúng ta viết là x==5

1.3.1 Cách đặt tên trong R

Khi đặt tên một đối tượng hay một biến số trong R, ta lưu ý:

e Tên một đối tượng phải viết liền nhau, không có khoảng trắng Ví

dụ:

Trang 13

Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN

e R phân biệt chữ viết hoa và chữ viết thường

e Không nên đặt tên một biến số bằng kí hiệu "-", Ví dụ: doi-tuong e Không nên đặt tên một đối tượng giống tên một biến số trong dữ liệu 1.3.2 H6 tro trong R Ngoai lénh args () R còn cung cấp lệnh help() dé người sử dụng có thể hiểu được văn phạm của từng hàm Ví dụ muốn biết hàm in có những thông số nào ta dùng > help(1m)

Một cửa số sẽ hiện ra bên phải của màn hình chỉ rõ cách sử dụng và ví dụ, chúng ta có thể copy và dán ví dụ vào R để xem cách vận hành

Trang 14

Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN

1.4 Cách nhập dữ liệu vào R

Dữ liệu mà R hiểu được phải là dữ liệu trong một dafa.frame Sau đây

là một số cách để nhập dữ liệu vào R

1.4.1 Nhập số liệu trực tiếp: e()

Ví dụ 1.4.1 Ta có mẫu số liệu về số lượng hàng bán (biến Y), giá đơn

Trang 15

Khóa luận tét nghiép Dai hoc HOANG THI THANH HUYEN Ys 25.0 24 of 18.0 Tu vo 24,0 at a J1 14.5 23.0 10 14.0 41T 28.1 a2 22.0 J oo ÉH sẽ Là bị be tủ 25 26 22 2s 26 “3 ZT 25 23 26 27 3ũ fee Ae ee a PB mi eee

1.4.2 Nhập số liệu trực tiếp: edit (data.frame())

Vẫn với số liệu ở ví dụ trên, ta thao tác: Y = edit (data.frame())

Trang 16

Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỆN

> Y=edit (đata.frame () )

Sau đó chúng ta sửa và nhập số liệu vào bảng

1.43 Nhập số liệu tt mot teat file: read table

Giá sử số liệu của chúng ta được lưu vào trong một text file có tên là

Trang 17

Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN

1.4.4 Nhap sé liéu ttt Excel: read.csv

Để nhập số liêu từ phần mềm Excel, ta thực hiện theo 2 bước:

e Bước 1: Dùng lệnh "Save as" trong Excel và lưu số liệu dưới dạng

e Bước 2: Dùng R (lệnh reøad.cso) để nhập dữ liệu dạng csv

1.4.5 Nhập số liệu từ một SPSS%: read.spss

Phần mềm thống kê SPSS lưu dữ liệu dưới dạng "sav" Vi du chúng ta có dữ liệu tên là hƒ.sưu trong diretory Œ / works / soleu chúng ta thực

Trang 18

Chuong 2

HÔI QUY VỚI BIẾN ĐỊNH TÍNH

2.1 Khái niệm về hồi quy 2.1.1 Phân tích hồi quy

Phân tích hồi quy là tìm mối quan hệ phụ thuộc của biến phụ thuộc vào

một hoặc nhiều biến khác (được gọi là biến độc lập), nhằm mục đích tóc

lượng hoặc tiên đoán giá trị kì vọng của biến phụ thuộc khi biết trước

giá trị của biến độc lập

2.1.2 Biến phụ thuộc và biến độc lập

Biến phụ thuộc được kí hiệu là Y, biến độc lập là X¿, X;, X:

Trong mối quan hệ giữa hai biến này, biến phụ thuộc chịu tác động của

biến độc lập, biến độc lập là biến gây ra ảnh hưởng cho biến phụ thuộc

Chang han ta xét mối quan hệ giữa giá bán tivi với sức mua của người tiêu dùng Khi giá thành tivi cao thì số lượng người mua thấp, ngược lại

khi giá thành tivi giảm thì số lượng người mua tăng lên Từ đây, ta thấy

Trang 19

Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN

là biến độc lập còn sức mua là biến phụ thuộc

Biến độc lập nhận những giá trị xác định, biến phụ thuộc là những biến

ngẫu nhiên Trường hợp đơn giản, một biến phụ thuộc chịu ảnh hưởng

của một biến độc lập Trường hợp phức tạp hơn, một biến phụ thuộc chịu ảnh hưởng của nhiều biến độc lập

2.1.3 Nhắc lại về mô hình hồi quy hai biến tuyến tính 1 Mô hình hồi quy hai biến tuyến tính dạng

Trong đó: Y là biến phụ thuộc; X là biến độc lập

2 Phương pháp tổng bình phương tối thiểu thông thường

(OLS)

e Khi ưóc lượng các tham số trong mô hình hồi quy bằng phương

pháp OLS lưu ý các điều kiện: phương sai không đổi, không xảy ra hiện tượng tự tương quan

e Trọng tâm của phương pháp là: xét biểu đồ phân tán xây dựng từ

mẫu số liệu thực tế, điểm tọa độ của mỗi quan sát thường có một

khoảng cách khi chiếu xuống đường thẳng hồi quy Bình phương

mỗi khoảng cách này, sau đó lấy tổng bình phương của chúng và

xét điều kiện để tổng bình phương này cực tiểu, ta thiết lập được các biểu thức ước lượng giá trị các tham số hồi quy

3 Tham số hồi quy

Trang 20

Nhóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN

Trong kinh té lugng tham sé thuéng dude ki hiéu 1a 6), Bo, ., By cd thể chưa biết và là đối tượng cần tìm Trong trường hợp tổng quát, tham số cũng có thể xem như một biến, cũng có thể có tác động đến các yếu

tố kinh tế khác Giá trị tuyệt đối của tham số có thể cho ta biết mức độ

ảnh hưởng mạnh hay yếu của biến độc lập lên biến phụ thuộc

Cụ thể trong mô hình (1) các tham số hồi quy là đổ và Ø;, trong đó: e 0; gọi là tung độ gốc hay hệ số chặn của đường thang

Khi X = 0: Néu 6, > 0 thi Y = 8; = Yuin; néu 6 < Othi Y = 3B; =

Ynax tit do két hop voi tinh hinh cu thé va lí thuyết kinh tế để nêu

ý nghĩa kinh tế của đi

e 0; là hệ số góc hay độ dốc đường thẳng hồi quy

Dấu của 6; thể hiện mối quan hệ của biến Y và biến X trong mô

hình: Nếu Ø; > 0 thì X, Y đồng biến và ngược lại Kết hợp giữa

dấu của đ; > 0 với giá trị của nó, ta thấy được ảnh hưởng của biến X lên biến Y, ngoài ra ta cũng có thể nhận ra bản chất kinh tế của

hiện tượng đang khảo sát

2.2 Khái niệm về biến giả

Trong thực tế ta gặp rất nhiều giá trị quan sát được thể hiện bằng một

con số cụ thể, chẳng hạn như: doanh thu bán hàng hằng năm của một

công ty (tỷ đồng), số lượng hàng bán (sản phẩm), thu nhập cá nhân

(triệu đồng), số năm công tác nhưng bên cạnh đó chúng ta cũng gặp không ít những hiện tượng gắn liền với những biến không thể cân đo

Trang 21

Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN

đong đếm được bằng các công cụ đo lường mà chỉ bằng trực quan bằng

cảm nhận, ví dụ như: dân tộc, tôn giáo, giới tính, màu sắc Đó là những

biến định tính Những biến định tính này sau khi được lượng hóa được

gọi là biến giả Trong chương này, chúng ta sẽ khảo sát một số trường

hợp hồi quy có sử dụng biến giả: mô hình hồi quy có chứa biến độc lập

định tính và mô hình hồi quy với biến phụ thuộc định tính

2.2.1 Biến định lượng và biến định tính

(1).Bién định lượng: Khi giá trị quan sát được thể hiện bằng một con số, có thể có đơn vị cụ thể

(2).Biến định tính: Thể hiện đặc điểm, tính chất của một hiện tượng Ví dụ như giới tính, dân tộc, tôn giáo, màu sắc, khu vực công tác, tình

trạng hôn nhân, lĩnh vực hoạt động của doanh nghiệp Biến định tính

chỉ có thể phân thành các phạm trù (thuộc tính, đặc điểm) khác nhau

Một biến định tính có thể rơi vào một phạm trù, hai phạm trù hoặc

nhiều hơn

*Lượng hóa biến định tính: Nhằm đưa tính chất của biến định tính

vào mô hình hồi quy, ta cần mã hóa chúng như một biến định lượng,

nghĩa là phải gán cho mỗi phạm trù bằng một con số Vì vậy sau khi lượng hóa, biến định tính được gọi là biến giả (dummy variable)

Vi du 2.2.1 Ta kí hiệu 8 là giới tính, với S = 1 nếu là nữ và S = 0 nếu

là nam Tuy nhiên, ta vẫn có thể đặt ngược lại: S = 1 nếu là nam và S

= 0 nếu là nữ Khi đó, mô hình đối với nam và đối với nữ có thể khác nhau về hình thức thể hiện (dấu và giá trị của các tham số hồi quy có

Trang 22

Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYỀN

thể thay đổi) nhưng bản chất vẫn không đổi

Biến định tính thường được mã hóa cho các tính chất bằng hai con

số: 0 và 1, cho nên còn được gọi là biến nhị phân

Ví dụ 2.2.2 Xét mẫu số liệu sau về thu nhập (triệu đồng/tháng) của công nhân xây dựng: trong đó Y - thu nhập; X - giới tính; d - biến giả Y|3.2|163 |36|75 |3.4]8 3.0}2.9)6.5 |70 |3.5|7.3 X |nữ | nam | nữ | nam | nữ | nam | nữ | nữ | nam | nam | nữ | nam dđịỊ0 l1 0 |1 0 |1 0 10 |1 1 0 |1

Để có mô hình hồi quy thu nhập của công nhân xây dựng theo giới tính thì ta phải tìm được các hệ số đụ, Ø; trong mô hình:

Y; = Ø¡ + 0X, + U;

Sử dụng phần mềm R, thực hiện theo các thao tác sau:

thunhap = edit (data.frame()) / enter sau đố nhập số liệu thunhap / enter

reg = lm (data = thunhap, Y ~ d) / enter summary (reg) / enter

Trang 23

Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỀN

Vậy với mẫu số liệu trên, thu nhập bình quân của công nhân nữ luôn thấp hơn thu nhập bình quân của công nhân nam là 3.8333 triệu đồng/tháng Cũng vẫn ví dụ trên nhưng ta giả sử d = 0 nếu là nam, d = 1 nếu là nữ Khi đó lập lại bảng số liệu (thay đổi cột giá trị của d) và làm tương tu như trên, ta thu được bảng kết quả tương ứng:

Coefficients:

Estimate Std Error t value Pr(>|tl)

(Intercept) 7.1000 0.2006 35.40 7.67e-12 ***

d -3.8333 0.2836 -13.52 9.48e-08 ***

Từ đây ta cũng có hàm hồi quy tuyến tính: Ÿ; = 7.1 — 3.8333đ, Vậy

thu nhập của nhân viên nữ luôn thấp hơn nhân viên nam là 3.8333 triệu

đồng/tháng

*Nhận xét: So sánh hai trường hợp mã hóa trái ngược nhau đối với yếu tố nam và nữ của nhóm công nhân xây dựng trong ví dụ trên, ta

thấy kết quả hồi quy hoàn toàn giống nhau Thu nhập bình quân hàng

tháng của công nhân nam luôn cao hơn công nhân nữ là 3.8333 triệu đồng/tháng

Ví dụ trên cho thấy rằng các con số gán cho mỗi tính chất của một biến định tính chỉ mang ý nghĩa định danh, không có vai trò tham gia vào các phép tính

Biến định tính có nhiều hơn hai phạm trù: có thể dùng một biến giả,

mỗi phạm trù lượng hóa bằng một con số hoặc dùng nhiều biến giả lượng hóa bằng số 0 và số 1

Ví dụ 2.2.3 Khảo sát thu nhập bình quân một giáo viên (biến phụ

Trang 24

Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN

thành, vùng sâu vùng xa Có thể dùng 2 biến giả với số 0 hoặc số 1 để gán cho mỗi biến (biến nhị phân) Cụ thể: Dị, = 1 nội thành Dị; = 0 —nơi khác J Dy, = 1 — ngoại thành ( Dy; = 0 —>nơi khác

Ta c6 m6 hinh nhu sau: Y; = 8) + 62D1; + 83D; + Uj

+N6i thanh: D,; = 1, Do; = 0 > E(Y;/Dy; = 1, Dy; = 0) = 8 + B+ Uj

+Ngoai thanh:

Dy; = 0, Do, =1 > E(Y;/Di; = 0, Do; = 1) = 6 + 63+ Ui +Ving sau ving xa:

Dy; = 0, Dz, = 0 > E(Y;/Di; = 0, Dy; = 0) = 8 + U;

6: Biểu thị thu nhập của một giáo viên giảng dạy ở địa bàn vùng sâu vùng xa

(G1 + G2): Biéu thi thu nhập của một giáo viên giảng dạy ở nội thành

(6; + 6;): Biểu thị thu nhập của một giáo viên giảng dạy ở ngoại thành Vậy:

6;: Cho thấy mức chênh lệch về thu nhập của một giáo viên giảng

dạy ở nội thành so với vùng sâu vùng xa

0s: Cho thấy mức chênh lệch về thu nhập của một giáo viên giảng

dạy ở ngoại thành so với vùng sâu vùng xa

(6: + Ø;): Biểu thị chênh lệch về thu nhập của một giáo viên giảng

dạy ở nội thành so voi ngoại thành

Tùy theo dấu của các tham số trên, mức chênh lệch sẽ là âm hoặc dương

Trang 25

Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYỆN

Ví dụ 2.2.4 Mức độ vừa ý của người tiêu dùng sau khi sử dụng một

mặt hàng hoặc một dịch vụ được chia thành: rất không hài lòng, không

hài lòng, bình thường, hài lòng và rất hài lòng

Vì có 5 trạng thái ưa thích, ta có thể sử dụng bốn biến giả: Dị; = 1 —>không hài lòng Dạ; = 1 —>bình thường D,=0— khác Dy, =0 —> khác | D3; = 1 hai long D4, = 1 rat hai long D3; = 0 > khác Dy=0> khác Vay D,,; = 0, Do; = 0, D3; = 0 > Rat khong hai long Luu y:

e Hau quả của một biến giả với nhiều giá trị: mô hình khó phân tích

hơn khi so sánh giá trị trung bình của các biến phụ thuộc ứng với các phạm trù khác nhau; biến giả với nhiều giá trị trở thành biến định lượng thông thường nên dễ xảy ra tương quan với các biến độc lập khác trong mô hình

e Dể phân biệt hai thuộc tính, ta dùng một biến giả: để phân biệt ba thuộc tính ta dùng hai biến giả Tổng quát, để phân biệt n thuộc tính ta dùng (n-1) bién gia

2.2.2 Hồi quy với một biến định lượng và một biến định tính có hai phạm trù

Một công ty sản xuất và bán sản phẩm A, muốn biết với cùng mức

giá bán sản phẩm A thì số lượng hàng bán được ở thành phố và nông

thôn khác nhau như thế nào

Trang 26

Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN Ta xét mô hình kinh tế lượng như sau: Y; = 8; + 6.X; + 63D, + U; Trong đó: Y: Doanh số bán hàng, X: Giá bán, D: Biến giả, D, = 1 nếu bán ở thành thị,

D, = 0 nếu bán ở nông thôn—> phạm trù cơ sỏ

Đối với điểm bán hàng ở nông thôn: E[Y:/X¡, D; = 0Ì = đi + 0X; Đối với điểm bán hàng ở thành thị: ELY,/Xi, D,; = 1) = 6 + 62X; + Bs = (G1 + Bs) + BX; Vậy chênh lệch trong doanh số bán hàng giữa thành thị và nông thôn là: /[Y;/X;, D¡ = 1] — E[Y;/X;, D¡ = 0| = 8

Sự khác biệt về doanh số bán hàng giữa thành thị và nông thôn chỉ có

ý nghĩa thống kê Øs khác không có ý nghĩa thống kê

Trang 27

Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYỀN X Xx D Y D Y (x 1000d) (x 1000) 42 TP | 1 | 1350 43 TP | 1 | 1280 46 NT 750 40 TP |} 1 | 1420 0 41 NT /0} 820 42 TP |} 1} 1400 44 TP | 1 | 1540 44 TP | 1 | 1500 40 NT | 0] 890 45 NT | 0] 780 45 NT | 0} 780 43 NT | 0} 850

Chúng ta có thể tìm được mô hình hồi quy bằng cách sử dụng phan mềm R, theo các bước sau:

Trang 28

Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN

Vậy mô hình hồi quy cần tìm là: Y; = 1715.102 — 7.061X; — 597.449,

Nhận xét: Với kết quả hồi quy cho thấy:

e ? = 0.9505: Mô hình có mức độ phù hợp cao

e Tham số 6 = —7.061 < 0, cho thấy giá bán và lương hàng bán đươc có mối quan hệ nghịch biến, điều này phù hơp với quy luật kinh tế Tuy nhiên, giá trị tuyệt đối của Ø; quá bé, cho thấy khi giá

bán thay đổi trong phạm vi một đơn vị, lượng hàng thay đối không đáng kế (+7.061 kg sản phẩm)

e Tham số Ö; = —597.449 cho thấy với cùng một mức giá, nếu khu

vực bán hàng khác nhau, lượng hàng bán đươc bình quân ở thành

phố cao hơn ở nông thôn một lượng là 597.449 kg/tháng

2.2.3 Hồi quy với một biến định lượng và một biến định tính có nhiều hơn hai phạm trù

Giả sử chúng ta muốn ước lượng mức thu nhập của nhân viên được quyết định bởi số năm kinh nghiệm công tác và trình độ học vấn Gọi Y: Tiền lương; X: Số năm kinh nghiệm; D: Học vấn Giả sử chúng

ta phân loại học vấn như sau: tốt nghiệp phổ thông, đại học và sau đại học

(DI; = 1, Dy; = 0): Dai hoc, (Dy; = 0, Dy; = 1): Sau dai hoc,

(Dị; =0, Dạ, = 0): Phổ thông -> phạm tri co sé

Mô hình hồi quy: Y; = đị + 9X; + 6D; + 8Ð; + U,

Trang 29

Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỆN

Khai triển của mô hình trên như sau: Đối với người tốt nghiệp phổ thông : E(Y;/X;i, Di; = 0, Do; = 0) = 6) + BoXj Đối với người có trình độ đại học:

E(Y,/X;, Di; = 1, Doi = 0) = 61 + 2Ä; + Ø = (0i + 0s) + 0Ä ¡

Đối với người có trình độ sau đại học:

(Yi/ÄX¡, Dị = 0, Dại = 1) = 0ì + 0Ä ¡ + 0a = (0i + 8i) + 0 Äc Từ các mô hình hồi quy trên:

So sánh tung độ gốc: ta suy ra mức chênh lệch về thu nhập của các nhân viên có cùng số năm kinh nghiệm Cụ thể:

e Chênh lệch giữa nhân viên có bằng đại học so với nhân viên tốt

nghiệp phổ thong: (6, + 33) — B; = 8s

e Chênh lệch giữa nhân viên có bằng sau đại học so với nhân viên tốt nghiệp phổ thông: (đi + đi) — đi = Bu

e Chênh lệch giữa nhân viên có bằng sau đại học so với nhân viên có

bằng dai hoc: (8; + 84) — (81 + 63) = 64 — Bs

So sánh hệ số góc: hệ số góc bằng nhau trong các trường hợp và bằng By Điều này cho thấy số năm kinh nghiệm tăng lên như nhau dẫn đến

mức tăng thu nhập từ lương như nhau

2.2.4 Hồi quy với một biến định lượng và hai biến định tính Vẫn sử dụng ví dụ ở mục (2.2.3) vừa nêu trên, chúng ta muốn xem mức lương giữa nam và nữ còn khác nhau như thế nào Ta bổ sung vào mô hình biến giả D;,: Biến giới tính, bằng 0 cho nữ và bằng 1 cho nam

Trang 30

Khóa luận tốt nghiệp Dại học HOÀNG THỊ THANH HUYỀN

Ta có mô hình hồi quy tổng quát như sau:

Y; = đi + Ø2X¡ + Ø3Dụ; + 61 Da; + 85D3;i + Ui (1) Xét thu nhập của nữ: -Có trình độ phổ thông: E(Y./X;, Dị; =0, Dạ; = 0, Dạ; = 0) = 0ì + 0X; + U; -Có trình độ đại học: E(Y;/X;, Dy; = 1, Dạy = 0, Dạy = 0) = Ôi + 0X, + 0 + U; = (0 + 0x) + BX; + Uj -Có trình độ sau đại học: E(W/ÄX¡, Dị = 0, Dại = 1, Dạị = 0) = 0ì + 0Ä; + 0+ U¿ = (0 + Ba) + BoX; + U; (2) Thu nhập của nam : -Có trình độ phổ thông : (WV/X¡, Dị = 0, Dại = 0, Dại = 1) = 0ị + 0X; + Ø; + Ui -Có trình độ đại học: E(VJ/J/Xi, Dị = 1,D¿i = 0D, = 1) = 0i + X; + Ø + Ø; + U, = (G1 + 63 + Bs) + B2Xi + Uj

-C6 trinh d6 sau dai hoc:

E(Y,/X;, Di; = 0,D2; = 1,D3, = 1) = By + OX; + 6+ 65+ U; =

(đi + đa + Ø;) + 6X; + Ui

Từ các mô hình trên, ta có thể so sánh mức thu nhập giữa các nhân

viên trong nhiều trường hợp, cụ thể:

e So sánh cùng giới tính, khác trình độ văn hóa:

Giữa nhân viên nữ có bằng đại học so với nhân viên nữ tốt nghiệp

Trang 31

Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN

phổ thông, chênh lệch (6; + 83) — 31 = 83

Giữa nhân viên nam có trình độ sau đại học so với nhân viên nam có trình độ đại học, mức chênh lệch:

In + By + Bs) _ (8; + 6 + Bs) = By — 6

e So sánh khác giới tính, cùng trình độ văn hóa

Giữa nữ nhân viên và nam nhân viên có cùng trình độ sau đại học:

(6, + 64 + 0) — (Øi + 84) = Bs

Giữa nam nhân viên với nữ nhân viên cùng có bằng đại học,mức

chênh lệch: (đi + 63 + 85) — (G1 + 83) = 8s

e So sánh khác giới tính, khác trình độ văn hóa

Giữa nam nhân viên có bắng sau đại học với nữ nhân viên có bằng

đại học, mức chênh lệch: (Øị + đị + đ;) — (ổi + 0s) = (81 — 83) + Bs Trong đó, chênh lệch do trình độ là (6, — 6s), chênh lệch do giới tính là 6s

Lưu ý: H ® 5 on góc của tất cả các mô hình trên đều bằng nhau và bằng 2 Bo

2.3 Biến giả với hệ số góc khác nhau

Những trường hợp vừa trình bày trên cho thấy chỉ có tung độ gốc giữa các mô hình khác nhau, hệ số góc luôn bằng nhau Thực tế có những trường hợp ngược lại, tung độ gốc giữa các mô hình không đổi, chỉ thay

đổi hệ số góc

Giả sử ta hồi quy thu nhập (Biến Y) của nhân viên nam và nữ, có

Trang 32

Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN

cùng mức lương khởi điểm (¡) và thâm niên công tác (Biến X) Trong

đó thâm niên công tác như nhau nhưng tốc độ tăng lương có thể khác nhau giữa nam và nữ Trong trường hợp này, để khảo sát xem mức thu nhập có khác nhau hay không giữa nam và nữ nhân viên, ta xét thêm

biến giới tính Mô hình hồi quy với PRE có dạng: Y; = Øđị + 0X; + U,

Đặt 6; = ;' + 0;D; Với D; = 1 nếu là nhân viên nam, D; = 0 nếu nhân viên nữ Theo cách đặt này mô hình tổng quát trở thành:

¥, = By + (By* + 6sD,)X, + U;

Với nhân viên nam : Ÿ¡ = 6, + (6)* + 83)X, + Uj Voi nhan vién nit: Y; = G, + 6° X;+ Uj

Từ các mô hình trên ta thấy có sự khác nhau giữa hệ số góc của mô hình

thu nhập đối với nam nhân viên so với nữ nhân viên là: (đạÏ+ đạ)— Ø;” =

6a

Nếu đạ > 0 tốc độ tăng thu nhập của nam nhanh hơn nữ và ngược lại, nếu đạ < 0 Đặc biệt tốc độ tăng thu nhập của nam và nữ như nhau nếu

63 = 0 thi tăng thu nhập giữa nam và nữ không khác nhau

2.4_ Biến giả với tung độ gốc và hệ số góc khác nhau

Trong trường hợp cả tung độ gốc và hệ số góc khác nhau, chẳng han như mức lương khởi điểm và tốc độ tăng lương của nhân viên nam và nhân viên nữ trong trường hợp nêu trên đều khác nhau, mô hình hồi quy PRF: Y; = Øị + 6›X; + U;

Trong đó: đi = đi” +oaiD;; Ø8; = 6; ” + a¿D;

Trang 33

Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN

Hàm hồi quy tổng quát trở thành: Y; = 6° +a,D; + (82* + agD;)X; + U;

Với nhân vién nam: Y; = (6,* + a1) + (Bo* + œ›)X; + U V6i nhan vién nit: Y; = 6," + Bo*X; + Uj

So sánh hai mô hình trên, ta thấy: chênh lệch giữa tung độ gốc là ơi, chênh lệch giữa hệ số góc là ơa

Nếu a; > 0, lương khởi điểm của nam cao hơn nữ Ngược lại nếu a; < 0 lương khởi điểm của nam thấp hơn nữ

Nếu œ; > 0 tốc độ tăng lương của nam nhanh hơn nữ Ngược lại, nếu œ¿ < 0 tốc độ tăng lương của nam chậm hơn nữ

Lưu ý: Khai triển các mô hình trên, ta thấy xuất hiện biến (DX), biến

này còn được gọi là biến tương tác, thể hiện tác đông đồng thời của biến D và biến X lên biến Y

Dưới đây là hình minh họa cho các trường hợp bằng nhau và khác nhau

giữa tung độ gốc và hệ số góc đối với mô hình theo thâm niên và theo

Trang 34

Khóa luận tốt nghiệp Dại học HOÀNG THỊ THANH HUYEN ¥} = đị+ (+ 8a) Xã; ¥; = (8) + 33) + SoXo; x Tungdôlậch(3;) Tungddbangnhanl 3) Hésagéc bằngnhau(/2;) Hésigéckhaenhau ¥; = (9, + Bs) + (+ By) Xx Tungd6léch( (3) Nệsũ górlệch( 3)

2.5 Biến giả trong phân tích thời vụ

Trong thực tế, đặc biệt là trong kinh tế có nhiều quan sát là biến

chuỗi thời gian mang tính thời vụ, ví dụ như: số lượng sách giáo khoa, dụng cụ học tập trong những ngày đầu năm học mới; doanh số bán hàng giải khát, hàng điện lạnh vào những ngày nóng bức; lượng du khách đến

Trang 35

Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN

những điểm du lịch trong những ngày lễ hội Trong các trường hợp đó ta sử dụng biến giả để tách biệt tác động của yếu tố thời vụ (hay nhân

on

tố mùa) trong chuỗi thời gian để tập chung vào các thành phần khác của số liệu như: chu kì, xu hướng, ngẫu nhiên

Ví dụ 2.5.1 Khảo sát số lượng tủ lạnh (nghìn cái) được tiêu thụ tại

Mỹ từ quý 1 năm 1978 đến quý 4 năm 1985 có bảng số liệu sau:

Trang 37

Khoa luận tốt nghiệp Dại học HOÀNG THỊ THANH HUYỄN Xét mô hình gồm ba biến giả mã hóa cho bốn quý trong năm là: Y, = đi + 6;D¿¡ + 6:D¿, + 6D, trong đó:

Dạy = 1 ứng với Quý 2, Dạ, = 0 ứng với quý khác D3, = 1 ứng với quý 3, D3; = 0 ứng với quý khác Dị, = 1 ứng với quý 4, Dị; = 0 ứng với quý khác Sử dụng phần mềm R theo các bước sau:

tieuthu = edit (data.frame()), sau đố nhập số liệu vào bảng mreg = lm (data = tieuthu, frig ~ d2 + d3 + d4 )

Trang 38

Khóa luận tốt nghiệp Dại học HOÀNG THỊ THANH HUYỄN summary (mreg) trong đó "tieuthu" là tên đối tượng Khi đó ta có bảng kết quả sau: Call: im(formula = frig ~ d2 + d3 + d4, data = tieuthu) Residuals: Min 1Q Median 3Q Max -300.75 -130.81 51.688 103.91 231.50 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 1222.13 58.99 20.372 < 2e-16 *** d2 245.57 84.84 2.892 0.007320 ** d3 347.62 84.84 4.097 0.000323 *** d4 ie dS 84.84 -0.732 0.470091

SigaEr: cones: OG) ert GUT 99W” DU U99 Bless" OLY = 3

Residual standard error: 169.7 on 28 degrees of freedom

Multiple R-squared: 0.5318, Adjusted R-squared: 0.4816

F-statistic: 10.6 on 3 and 28 DF, p-value: 7.908e-05

Vậy phương trình hồi quy cần tìm là:

Y, = 1222.13 + 245.37D, + 347.62D3, — 62.13Dy

Từ bảng kết quả trên và phương trình hồi quy ta có nhận xét:

e Giá trị p-value của Ø; là 0.007320 < 0.05; giá trị p-value của 8s là

0.000323 < 0.05 nên chúng đều có ý nghĩa thống kê Điều này chứng

tỏ số lượng tủ lạnh tiêu thụ ở quý 2 và quý 3 bị ảnh hưởng bởi tính mùa vụ, thể hiện mức bán tăng cao hơn các quý còn lại trong năm e Giá tri p-value cua G, 1a 0.470091 > 0.05 nên nó không có ý nghĩa

thống kê, chứng tỏ số hàng bán được từ quý 1 sang quý 4 biến động

không nhiều

Trang 39

Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYỆN

e Số tủ lạnh bán được ở mỗi quý trong năm như sau:

Quy 1 (Dy, = 0, D3, = 0, Dy, = 0), 86 luong bán trung bình là 1222130 cai Quy 2 (Dy, = 1, D3, = 0, Dy, = 0), 86 luong bán trung bình là 1222130 + 245370 = 1467500 cai Quy 3 (Dz, = 0, Dz, = 1, Dy, = 0), số lượng bán trung bình là 1222130 + 347620 = 1569750 cai Quy 4 (Dz, = 0, Dạ, = 0, Dị, = 1), số lượng trung bình là 1222130 - 62130 = 1160000 cái

Việc điều chỉnh mùa vụ được thực hiện bằng việc điều chỉnh chuỗi số

liệu như sau:

Buéc 1: Tìm chuỗi phần dư của mô hình hồi quy, kí hiệu (S1) bằng ngôn ngữ R theo hàm sau resid (mreg) Chuỗi phần dư này cho thấy số lượng tủ lạnh tiêu thụ từng quý tương ứng sau khi loại trừ yếu tố thời vụ

Bước 2: Cộng phần dư (S1) với giá trị trung bình của biến phụ thuộc

tương ứng với mỗi quý

Ta được chuỗi thời gian đã điều chỉnh mùa vụ như sau:

Trang 40

Khóa luận tốt nghiệp Dại học HOÀNG THỊ THANH HUYỀN - Y đã điều Phần Y đã điều Năm- |Phần |Y trung Năm- Y trung chỉnh mùa chỉnh mùa quý dư bình quý bình vụ dư vụ 1978-1 | 94.875 | 1354.844 | 1449.719 | 1982-1 | -279.125 | 1354.844 | 1075.719 1978-2 | 147.5 1354.844 | 1502.344 1982-2 | -292.5 1354.844 | 1062.344 1978-3 | 92.25 1354.844 | 1447.094 | 1982-3 | -300.75 | 1354.844 | 1054.094 1978-4 | 135 1354.844 | 1489.844 | 1982-4 | -187 1354.844 | 1167.844 1979-1 | 48.875 | 1354.844 | 1403.719 | 1983-1 | -120.125 | 1354.844 | 1234.719 1979-2 | 87.5 1354.844 | 1442.344 1983-2 | -123.5 1354.844 | 1231.344 1979-3 | 69.25 1354.844 | 1424.094 | 1983-3 | 71.25 1354.844 | 1426.094 1979-4 | 78 1354.844 | 1432.844 | 1983-4 | 65 1354.844 | 1419.844 1980-1 | 54.875 | 1354.844 | 1409.719 | 1984-1 | 206.875 | 1354.844 | 1561.719 1980-2 | -209.5 | 1354.844 | 1145.344 1984-2 | 231.5 1354.844 | 1586.344 1980-3 | -152.75 | 1354.844 | 1202.094 | 1984-3 | 179.25 1354.844 | 1534.094 1980-4 | 25 1354.844 | 1379.844 1984-4 | -43 1854.844 | 1511.844 1981-1 | -26.125 | 1354.844 | 1328.719 1985-1 | 19.875 1354.844 | 1374.719 1981-2 | -57.5 1354.844 | 1297.344 | 1985-2 | 216.5 1354.844 | 1571.344 1981-3 | -152.75 | 1354.844 | 1202.094 1985-3 | 194.25 1354.844 | 1549.094 1981-4 | -241 1354.844 | 1113.844 1985-4 | 168 1354.844 | 1522.844 2.6 Hồi quy tuyến tinh timg khic (piecewise linear regression)

Nếu có sự thay đổi về cấu trúc của hàm hồi quy trên các khoảng giá

Ngày đăng: 05/07/2017, 06:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN