Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)Hồi quy với biến định tính thực hành bằng ngôn ngữ R (Khóa luận tốt nghiệp)
Trang 1BO GIAO DUC VA DAO TAO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HA NỘI 2
KHOA TỐN
Hồng Thị Thanh Huyền
HỒI QUY VỚI BIÊN ĐỊNH TÍNH THUC HANH BANG NGON NGU R
KHOA LUAN TOT NGHIEP DAI HOC
Trang 2BO GIAO DUC VA DAO TAO
TRUONG DAI HOC SU PHAM HA NOI 2
KHOA TOAN
Hoang Thi Thanh Huyén
HOI QUY VGI BIEN DINH TINH
THUC HANH BANG NGON NGU R Chuyên ngành: Toán ứng dụng
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC: Tiến sĩ: Hà Bình Minh
Trang 3LOI CAM ON
Trước khi trình bày nội dung chính của bản báo cáo thực tập chuyên ngành, em
xin bày tỏ lòng biết ơn sâu sắc tới Tiến sĩ Hà Bình Minh đã tận tình hướng dẫn để em có thể hoàn thành đề tài này
Em cũng xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cơ giáo trong
khoa Tốn, Trường Đại học Sư phạm Hà Nội 2 da day dé em tan tinh trong suốt quá trình học tập tại khoa
Trang 4LOI CAM DOAN
Tôi xin cam đoan rằng số liệu và kết quả nghiên cứu trong khóa luận này là trung thực và không trùng lặp với các đề tài khác Tôi cũng xin cam đoan rằng mọi sự giúp
đỡ cho việc thực hiện khóa luận này đã được cảm ơn và các thông tin thu trích dẫn
trong khóa luận đã được chỉ rõ nguồn gốc
Hà Nội, ngày 4 tháng ð năm 2016 Sinh viên
Trang 5Muc luc 1 GIGI THIEU NGON NGU R 1.1 1.2 1.3 1.4
Ưu điểm và hạn chế củaR_
Cai dst Ro « sei me ewe be wa HERS HE HS "Van pham"R 2 ee 1.3.1 Cách đặt têntrongR 13.2 Hỗ trợtrongR c Cách nhập dữ liệu vào R 1.4.1 Nhập số liệu trực tiếp: c(j)
1.4.2 Nhập số liệu trực tiếp: cd# (data.rame())
1.4.3 Nhap sé lieu tit mét tezt file: read table
1.4.4 Nhập số liệu từ Ðxcel: read.csu
1.4.5 Nhập số liệu từ một SPSS: read.spss
2 HOI QUY VỚI BIẾN ĐỊNH TÍNH
2.1 Khái niệm về hồi quy 2.1.1 Phân tích hồi quy
Trang 622 Khái nệm vềbingiả 14
2.21 Biến định lượng và biến định tính 15
2.2.2 Hồi quy với một biến định lượng và một biến định tính có hai phạm trù 19
2.2.3 Hồi quy với một biến định lượng và một biến định tính có nhiều hơn hai phạm trà 22
2.2.4 Hồi quy với một biến định lượng và hai biến định HN ¢ pe ema Ew EM RHE wR Eee 23 243 Biến giả với hệ số góc khác nhau 25
2.4 Biến giả với tung độ gốc và hệ số góc khác nhau 26
2.5 Biến giả trong phân tích thời vụ 28
2.6 Hồi quy tuyến tính từng khúc (piecewise linear regression) 34 27 Hồi quy với biến giả, mô hình Semi Logarit 38
2.7.1 Mô hình Log-Lin 38
2.7.2 Mô hình Lin- Log 42
2.8 Hồi quy với biến phụ thuộc là biến giá 45
2.8.1 Một số ví dụ về biến phụ thuộc dinh tinh 45
2.8.2_ Biến phụ thuộc nhị phân 47
2.8.3 Phân tích xác suất biểu hiện các trạng thái của biến phụ thuộc định tính 48
2.8.4 Mô hình xác suất tuyến tínhLPM 50
Trang 7LOI MO DAU
1.Li do chon dé tai
Trong thực tế để nghiên cứu các hiện tượng kinh tế, xã hội, ta đi xây
dựng các mô hình hồi quy để thể hiện mối quan hệ giữa các biến, phản
ánh bản chất hiện tượng để từ đó có thể đưa ra những nhận xét, kết
luận về hiện tượng Nhưng các hiện tượng đó không phải lúc nào cũng được mô tả bằng các biến định lượng mà đôi khi bằng các biến định tính Trong trường hợp hồi quy với các biến định tính, ta phải lượng hóa
chúng bằng những con số, thường là số 0 và số 1 và được gọi là biến giả
Hồi quy nói chung và hồi quy với biến định tính nói riêng ta đều cần đến sự trợ giúp của các phần mềm chuyên dụng Chúng ta có thể sử dụng
các phần mềm thông dụng như SAS, SPSS, Stata, S-Plus để phân tích
số liệu và biểu đồ Tuy nhiên, để sử dụng được các phần mềm đó, chúng
ta phải chi phí tương đối cao Để khắc phục hạn chế đó, năm 1996, hai
nhà thống kê học Ross Ihaka va Robert Gentleman thuéc trường đại học
Auckland New Zealand phát họa ngôn ngữ cho phân tích thống kê mà
họ đặt tên là R hoàn toàn miễn phí Để hiểu hơn về hồi quy với biến định tính, sử dụng được phần mềm R trong phân tích số liệu, em lựa
Trang 8Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN
Sử dụng ngôn ngữ R hỗ trợ trong tìm mô hình hồi quy với biến định
tính, thực hành các ví dụ bằng R, từ đó tìm ra các tham số rồi đưa ra những đánh giá, kết luận với hiện tượng đang nghiên cứu
4 Phạm vi nghiên cứu
Do thời gian không nhiều nên bài luận văn chỉ tìm hiểu được một số vấn
đề của hồi quy với biến định tính: mô hình hồi quy có chứa biến độc lập
định tính và mô hình hồi quy với biến phụ thuộc định tính
5 Bố cục đề tài
Đề tài bao gồm hai chương:
e Chương 1: Giới thiệu ngôn ngữ R
Chương 1: Trình bày những kiến thức tổng quan về ngôn ngữ R
như: cách cài đặt, cách đặt tên, cách nhập dữ liệu trong R
e Chương 2: Hồi quy với biến định tính
Chương 2: Trình bày những kiến thức chung nhất về hồi quy, khái
niệm biến giả và kĩ thuật sử dụng biến giả trong một số mô hình
hồi quy
Do thời gian thực hiện đề tài không nhiều, kiến thức còn hạn chế nên
luận văn của em không tránh được những thiếu sót Em rất mong nhận
được sự góp ý và những ý kiến phản biện của quý thầy cô và bạn đọc
Trang 9Chuong 1
GIGI THIEU NGON NGU R
Nói một cách ngắn gọn, R là một phần mềm sử dụng cho phân tích thống kê và biểu đồ Thật ra, về bản chất R là ngôn ngữ máy tính đa năng, có
thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí, toán học ma trận đến các phân tích thống kê phức tạp
11 Ưu điểm và hạn chế của R
Phần mềm R có một số wu điểm vượt trội so với các phần mềm chuyên
dụng khác như:
* Ưu điểm:
e R là phần mềm miễn phí, có sẵn trên web và dễ dàng cài đặt e Việc nhập - xuất dữ liệu rất đơn giản và khá gọn so với các phần
mềm chuyên dụng khác
e Với phần mềm R, chúng ta có thể tạo ra những biểu đồ chuyên
Trang 10Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN
e Chúng ta có thể dễ dàng giải thích kết quả khi thực hiện phân tích thống kê vì R chỉ xuất ra thông tin cần thiết
e Khi stt dung phan mém R dé phân tích dữ liệu, chúng ta có thể cập
nhật những phương pháp phân tích thống kê hiện đại bằng cách cài đặt những package chuyên dụng
e Với R chúng ta có thể sử dụng để tính toán như một máy tính thơng
thường (tính tốn số học, đạo hầm, giải phương trình )
Tuy nhiên, phần mềm R còn tồn tại những hạn chế chẳng hạn như: * Hạn chế e Thuật ngữ khó hiểu e Dùng lệnh e Ki hiéu 1.2 Cài đặt R
Để sử dụng R thì đầu tiên ta phải cài đặt R trong máy tính của mình Với máy tính đã được kết nối mạng, chúng ta truy cập địa chỉ:
http://cran R-project.org
Tài liệu cần tải về tùy theo phiên bản, nhưng thường có tên bắt đầu
bằng mẫu tự R và số phiên bản (version) Khi đã tải R xuống máy tinh, bước tiếp theo là cài đặt (set-up) vào máy tính Để làm việc này chúng
ta nhấn chuột vào tài liệu trên và làm theo hướng dẫn cách cài đặt trên
Trang 11Khoa luận tốt nghiệp Dại học HOÀNG THỊ THANH HUYỄN hiện một icon Khi chúng ta nhấp chuột vào icon trên sẽ xuất hiện một window như sau: ‘Misc Packages Windows Help a _ File Edit
Jz[=°Ju] helo) el|#]
R version 3.2.4 Revised (2016-03-16 rz70336) "Very Secure Dishes" Copyright (C) 2016 The R Foundation for Statistical Computing Platform: i386-w64-mingw32/i386 (32-bit)
Ris free software and comes with ABSOLUTELY NO WARRANTY
You are welcome to redistribute it under certain conditions
Type 'license()' or 'licence()' for distribution details
R is a collaborative project with many contributors
Type ‘contributors()' for more information and
"citation()" on how to cite R or R packages in publications
Type 'demo()' for some demos, ‘help()' for on-line help, or ‘help.start()' for an HTML browser interface to help
Type 'q()' to quit R
Trang 12Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN
1.3 "Van pham" R
“Văn phạm” chung của R là một lệnh (command) hay hàm Cú phấp chung của R là như sau:
đối tượng = hàm (thông số 1, thông số 2, ,thông số n) Ví du 1.3.1 > reg <- Im (x ~ y) trong đó: reø là một đối tượng, in là một hàm và z ~ y 1a thông số của hàm Để biết một hàm cần có những thông số nào, ta dùng lệnh args(z) mà trong đó x là một hàm chúng ta cần biết Ví dụ 1.3.2 <- arge (lm)
R là một ngôn ngữ "đối tượng" Diều này có nghĩa là các dữ liệu
trong R được chứa trong object, điều này cũng có ảnh hưởng đến cách viết của R
Ví dụ 1.3.3 Chúng ta không viết x=5 như thông thường, trong R để
thể hiện điều đó chúng ta viết là x==5
1.3.1 Cách đặt tên trong R
Khi đặt tên một đối tượng hay một biến số trong R, ta lưu ý:
e Tên một đối tượng phải viết liền nhau, không có khoảng trắng Ví
dụ:
Trang 13Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN
e R phân biệt chữ viết hoa và chữ viết thường
e Không nên đặt tên một biến số bằng kí hiệu "-", Ví dụ: doi-tuong e Không nên đặt tên một đối tượng giống tên một biến số trong dữ liệu 1.3.2 H6 tro trong R Ngoai lénh args () R còn cung cấp lệnh help() dé người sử dụng có thể hiểu được văn phạm của từng hàm Ví dụ muốn biết hàm in có những thông số nào ta dùng > help(1m)
Một cửa số sẽ hiện ra bên phải của màn hình chỉ rõ cách sử dụng và ví dụ, chúng ta có thể copy và dán ví dụ vào R để xem cách vận hành
Trang 14Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN
1.4 Cách nhập dữ liệu vào R
Dữ liệu mà R hiểu được phải là dữ liệu trong một dafa.frame Sau đây
là một số cách để nhập dữ liệu vào R
1.4.1 Nhập số liệu trực tiếp: e()
Ví dụ 1.4.1 Ta có mẫu số liệu về số lượng hàng bán (biến Y), giá đơn
Trang 15Khóa luận tét nghiép Dai hoc HOANG THI THANH HUYEN Ys 25.0 24 of 18.0 Tu vo 24,0 at a J1 14.5 23.0 10 14.0 41T 28.1 a2 22.0 J oo ÉH sẽ Là bị be tủ 25 26 22 2s 26 “3 ZT 25 23 26 27 3ũ fee Ae ee a PB mi eee
1.4.2 Nhập số liệu trực tiếp: edit (data.frame())
Vẫn với số liệu ở ví dụ trên, ta thao tác: Y = edit (data.frame())
Trang 16Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỆN
> Y=edit (đata.frame () )
Sau đó chúng ta sửa và nhập số liệu vào bảng
1.43 Nhập số liệu tt mot teat file: read table
Giá sử số liệu của chúng ta được lưu vào trong một text file có tên là
Trang 17Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN
1.4.4 Nhap sé liéu ttt Excel: read.csv
Để nhập số liêu từ phần mềm Excel, ta thực hiện theo 2 bước:
e Bước 1: Dùng lệnh "Save as" trong Excel và lưu số liệu dưới dạng
e Bước 2: Dùng R (lệnh reøad.cso) để nhập dữ liệu dạng csv
1.4.5 Nhập số liệu từ một SPSS%: read.spss
Phần mềm thống kê SPSS lưu dữ liệu dưới dạng "sav" Vi du chúng ta có dữ liệu tên là hƒ.sưu trong diretory Œ / works / soleu chúng ta thực
Trang 18Chuong 2
HÔI QUY VỚI BIẾN ĐỊNH TÍNH
2.1 Khái niệm về hồi quy 2.1.1 Phân tích hồi quy
Phân tích hồi quy là tìm mối quan hệ phụ thuộc của biến phụ thuộc vào
một hoặc nhiều biến khác (được gọi là biến độc lập), nhằm mục đích tóc
lượng hoặc tiên đoán giá trị kì vọng của biến phụ thuộc khi biết trước
giá trị của biến độc lập
2.1.2 Biến phụ thuộc và biến độc lập
Biến phụ thuộc được kí hiệu là Y, biến độc lập là X¿, X;, X:
Trong mối quan hệ giữa hai biến này, biến phụ thuộc chịu tác động của
biến độc lập, biến độc lập là biến gây ra ảnh hưởng cho biến phụ thuộc
Chang han ta xét mối quan hệ giữa giá bán tivi với sức mua của người tiêu dùng Khi giá thành tivi cao thì số lượng người mua thấp, ngược lại
khi giá thành tivi giảm thì số lượng người mua tăng lên Từ đây, ta thấy
Trang 19Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN
là biến độc lập còn sức mua là biến phụ thuộc
Biến độc lập nhận những giá trị xác định, biến phụ thuộc là những biến
ngẫu nhiên Trường hợp đơn giản, một biến phụ thuộc chịu ảnh hưởng
của một biến độc lập Trường hợp phức tạp hơn, một biến phụ thuộc chịu ảnh hưởng của nhiều biến độc lập
2.1.3 Nhắc lại về mô hình hồi quy hai biến tuyến tính 1 Mô hình hồi quy hai biến tuyến tính dạng
Trong đó: Y là biến phụ thuộc; X là biến độc lập
2 Phương pháp tổng bình phương tối thiểu thông thường
(OLS)
e Khi ưóc lượng các tham số trong mô hình hồi quy bằng phương
pháp OLS lưu ý các điều kiện: phương sai không đổi, không xảy ra hiện tượng tự tương quan
e Trọng tâm của phương pháp là: xét biểu đồ phân tán xây dựng từ
mẫu số liệu thực tế, điểm tọa độ của mỗi quan sát thường có một
khoảng cách khi chiếu xuống đường thẳng hồi quy Bình phương
mỗi khoảng cách này, sau đó lấy tổng bình phương của chúng và
xét điều kiện để tổng bình phương này cực tiểu, ta thiết lập được các biểu thức ước lượng giá trị các tham số hồi quy
3 Tham số hồi quy
Trang 20Nhóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN
Trong kinh té lugng tham sé thuéng dude ki hiéu 1a 6), Bo, ., By cd thể chưa biết và là đối tượng cần tìm Trong trường hợp tổng quát, tham số cũng có thể xem như một biến, cũng có thể có tác động đến các yếu
tố kinh tế khác Giá trị tuyệt đối của tham số có thể cho ta biết mức độ
ảnh hưởng mạnh hay yếu của biến độc lập lên biến phụ thuộc
Cụ thể trong mô hình (1) các tham số hồi quy là đổ và Ø;, trong đó: e 0; gọi là tung độ gốc hay hệ số chặn của đường thang
Khi X = 0: Néu 6, > 0 thi Y = 8; = Yuin; néu 6 < Othi Y = 3B; =
Ynax tit do két hop voi tinh hinh cu thé va lí thuyết kinh tế để nêu
ý nghĩa kinh tế của đi
e 0; là hệ số góc hay độ dốc đường thẳng hồi quy
Dấu của 6; thể hiện mối quan hệ của biến Y và biến X trong mô
hình: Nếu Ø; > 0 thì X, Y đồng biến và ngược lại Kết hợp giữa
dấu của đ; > 0 với giá trị của nó, ta thấy được ảnh hưởng của biến X lên biến Y, ngoài ra ta cũng có thể nhận ra bản chất kinh tế của
hiện tượng đang khảo sát
2.2 Khái niệm về biến giả
Trong thực tế ta gặp rất nhiều giá trị quan sát được thể hiện bằng một
con số cụ thể, chẳng hạn như: doanh thu bán hàng hằng năm của một
công ty (tỷ đồng), số lượng hàng bán (sản phẩm), thu nhập cá nhân
(triệu đồng), số năm công tác nhưng bên cạnh đó chúng ta cũng gặp không ít những hiện tượng gắn liền với những biến không thể cân đo
Trang 21Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN
đong đếm được bằng các công cụ đo lường mà chỉ bằng trực quan bằng
cảm nhận, ví dụ như: dân tộc, tôn giáo, giới tính, màu sắc Đó là những
biến định tính Những biến định tính này sau khi được lượng hóa được
gọi là biến giả Trong chương này, chúng ta sẽ khảo sát một số trường
hợp hồi quy có sử dụng biến giả: mô hình hồi quy có chứa biến độc lập
định tính và mô hình hồi quy với biến phụ thuộc định tính
2.2.1 Biến định lượng và biến định tính
(1).Bién định lượng: Khi giá trị quan sát được thể hiện bằng một con số, có thể có đơn vị cụ thể
(2).Biến định tính: Thể hiện đặc điểm, tính chất của một hiện tượng Ví dụ như giới tính, dân tộc, tôn giáo, màu sắc, khu vực công tác, tình
trạng hôn nhân, lĩnh vực hoạt động của doanh nghiệp Biến định tính
chỉ có thể phân thành các phạm trù (thuộc tính, đặc điểm) khác nhau
Một biến định tính có thể rơi vào một phạm trù, hai phạm trù hoặc
nhiều hơn
*Lượng hóa biến định tính: Nhằm đưa tính chất của biến định tính
vào mô hình hồi quy, ta cần mã hóa chúng như một biến định lượng,
nghĩa là phải gán cho mỗi phạm trù bằng một con số Vì vậy sau khi lượng hóa, biến định tính được gọi là biến giả (dummy variable)
Vi du 2.2.1 Ta kí hiệu 8 là giới tính, với S = 1 nếu là nữ và S = 0 nếu
là nam Tuy nhiên, ta vẫn có thể đặt ngược lại: S = 1 nếu là nam và S
= 0 nếu là nữ Khi đó, mô hình đối với nam và đối với nữ có thể khác nhau về hình thức thể hiện (dấu và giá trị của các tham số hồi quy có
Trang 22Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYỀN
thể thay đổi) nhưng bản chất vẫn không đổi
Biến định tính thường được mã hóa cho các tính chất bằng hai con
số: 0 và 1, cho nên còn được gọi là biến nhị phân
Ví dụ 2.2.2 Xét mẫu số liệu sau về thu nhập (triệu đồng/tháng) của công nhân xây dựng: trong đó Y - thu nhập; X - giới tính; d - biến giả Y|3.2|163 |36|75 |3.4]8 3.0}2.9)6.5 |70 |3.5|7.3 X |nữ | nam | nữ | nam | nữ | nam | nữ | nữ | nam | nam | nữ | nam dđịỊ0 l1 0 |1 0 |1 0 10 |1 1 0 |1
Để có mô hình hồi quy thu nhập của công nhân xây dựng theo giới tính thì ta phải tìm được các hệ số đụ, Ø; trong mô hình:
Y; = Ø¡ + 0X, + U;
Sử dụng phần mềm R, thực hiện theo các thao tác sau:
thunhap = edit (data.frame()) / enter sau đố nhập số liệu thunhap / enter
reg = lm (data = thunhap, Y ~ d) / enter summary (reg) / enter
Trang 23Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỀN
Vậy với mẫu số liệu trên, thu nhập bình quân của công nhân nữ luôn thấp hơn thu nhập bình quân của công nhân nam là 3.8333 triệu đồng/tháng Cũng vẫn ví dụ trên nhưng ta giả sử d = 0 nếu là nam, d = 1 nếu là nữ Khi đó lập lại bảng số liệu (thay đổi cột giá trị của d) và làm tương tu như trên, ta thu được bảng kết quả tương ứng:
Coefficients:
Estimate Std Error t value Pr(>|tl)
(Intercept) 7.1000 0.2006 35.40 7.67e-12 ***
d -3.8333 0.2836 -13.52 9.48e-08 ***
Từ đây ta cũng có hàm hồi quy tuyến tính: Ÿ; = 7.1 — 3.8333đ, Vậy
thu nhập của nhân viên nữ luôn thấp hơn nhân viên nam là 3.8333 triệu
đồng/tháng
*Nhận xét: So sánh hai trường hợp mã hóa trái ngược nhau đối với yếu tố nam và nữ của nhóm công nhân xây dựng trong ví dụ trên, ta
thấy kết quả hồi quy hoàn toàn giống nhau Thu nhập bình quân hàng
tháng của công nhân nam luôn cao hơn công nhân nữ là 3.8333 triệu đồng/tháng
Ví dụ trên cho thấy rằng các con số gán cho mỗi tính chất của một biến định tính chỉ mang ý nghĩa định danh, không có vai trò tham gia vào các phép tính
Biến định tính có nhiều hơn hai phạm trù: có thể dùng một biến giả,
mỗi phạm trù lượng hóa bằng một con số hoặc dùng nhiều biến giả lượng hóa bằng số 0 và số 1
Ví dụ 2.2.3 Khảo sát thu nhập bình quân một giáo viên (biến phụ
Trang 24Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN
thành, vùng sâu vùng xa Có thể dùng 2 biến giả với số 0 hoặc số 1 để gán cho mỗi biến (biến nhị phân) Cụ thể: Dị, = 1 nội thành Dị; = 0 —nơi khác J Dy, = 1 — ngoại thành ( Dy; = 0 —>nơi khác
Ta c6 m6 hinh nhu sau: Y; = 8) + 62D1; + 83D; + Uj
+N6i thanh: D,; = 1, Do; = 0 > E(Y;/Dy; = 1, Dy; = 0) = 8 + B+ Uj
+Ngoai thanh:
Dy; = 0, Do, =1 > E(Y;/Di; = 0, Do; = 1) = 6 + 63+ Ui +Ving sau ving xa:
Dy; = 0, Dz, = 0 > E(Y;/Di; = 0, Dy; = 0) = 8 + U;
6: Biểu thị thu nhập của một giáo viên giảng dạy ở địa bàn vùng sâu vùng xa
(G1 + G2): Biéu thi thu nhập của một giáo viên giảng dạy ở nội thành
(6; + 6;): Biểu thị thu nhập của một giáo viên giảng dạy ở ngoại thành Vậy:
6;: Cho thấy mức chênh lệch về thu nhập của một giáo viên giảng
dạy ở nội thành so với vùng sâu vùng xa
0s: Cho thấy mức chênh lệch về thu nhập của một giáo viên giảng
dạy ở ngoại thành so với vùng sâu vùng xa
(6: + Ø;): Biểu thị chênh lệch về thu nhập của một giáo viên giảng
dạy ở nội thành so voi ngoại thành
Tùy theo dấu của các tham số trên, mức chênh lệch sẽ là âm hoặc dương
Trang 25Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYỆN
Ví dụ 2.2.4 Mức độ vừa ý của người tiêu dùng sau khi sử dụng một
mặt hàng hoặc một dịch vụ được chia thành: rất không hài lòng, không
hài lòng, bình thường, hài lòng và rất hài lòng
Vì có 5 trạng thái ưa thích, ta có thể sử dụng bốn biến giả: Dị; = 1 —>không hài lòng Dạ; = 1 —>bình thường D,=0— khác Dy, =0 —> khác | D3; = 1 hai long D4, = 1 rat hai long D3; = 0 > khác Dy=0> khác Vay D,,; = 0, Do; = 0, D3; = 0 > Rat khong hai long Luu y:
e Hau quả của một biến giả với nhiều giá trị: mô hình khó phân tích
hơn khi so sánh giá trị trung bình của các biến phụ thuộc ứng với các phạm trù khác nhau; biến giả với nhiều giá trị trở thành biến định lượng thông thường nên dễ xảy ra tương quan với các biến độc lập khác trong mô hình
e Dể phân biệt hai thuộc tính, ta dùng một biến giả: để phân biệt ba thuộc tính ta dùng hai biến giả Tổng quát, để phân biệt n thuộc tính ta dùng (n-1) bién gia
2.2.2 Hồi quy với một biến định lượng và một biến định tính có hai phạm trù
Một công ty sản xuất và bán sản phẩm A, muốn biết với cùng mức
giá bán sản phẩm A thì số lượng hàng bán được ở thành phố và nông
thôn khác nhau như thế nào
Trang 26Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN Ta xét mô hình kinh tế lượng như sau: Y; = 8; + 6.X; + 63D, + U; Trong đó: Y: Doanh số bán hàng, X: Giá bán, D: Biến giả, D, = 1 nếu bán ở thành thị,
D, = 0 nếu bán ở nông thôn—> phạm trù cơ sỏ
Đối với điểm bán hàng ở nông thôn: E[Y:/X¡, D; = 0Ì = đi + 0X; Đối với điểm bán hàng ở thành thị: ELY,/Xi, D,; = 1) = 6 + 62X; + Bs = (G1 + Bs) + BX; Vậy chênh lệch trong doanh số bán hàng giữa thành thị và nông thôn là: /[Y;/X;, D¡ = 1] — E[Y;/X;, D¡ = 0| = 8
Sự khác biệt về doanh số bán hàng giữa thành thị và nông thôn chỉ có
ý nghĩa thống kê Øs khác không có ý nghĩa thống kê
Trang 27Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYỀN X Xx D Y D Y (x 1000d) (x 1000) 42 TP | 1 | 1350 43 TP | 1 | 1280 46 NT 750 40 TP |} 1 | 1420 0 41 NT /0} 820 42 TP |} 1} 1400 44 TP | 1 | 1540 44 TP | 1 | 1500 40 NT | 0] 890 45 NT | 0] 780 45 NT | 0} 780 43 NT | 0} 850
Chúng ta có thể tìm được mô hình hồi quy bằng cách sử dụng phan mềm R, theo các bước sau:
Trang 28Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN
Vậy mô hình hồi quy cần tìm là: Y; = 1715.102 — 7.061X; — 597.449,
Nhận xét: Với kết quả hồi quy cho thấy:
e ? = 0.9505: Mô hình có mức độ phù hợp cao
e Tham số 6 = —7.061 < 0, cho thấy giá bán và lương hàng bán đươc có mối quan hệ nghịch biến, điều này phù hơp với quy luật kinh tế Tuy nhiên, giá trị tuyệt đối của Ø; quá bé, cho thấy khi giá
bán thay đổi trong phạm vi một đơn vị, lượng hàng thay đối không đáng kế (+7.061 kg sản phẩm)
e Tham số Ö; = —597.449 cho thấy với cùng một mức giá, nếu khu
vực bán hàng khác nhau, lượng hàng bán đươc bình quân ở thành
phố cao hơn ở nông thôn một lượng là 597.449 kg/tháng
2.2.3 Hồi quy với một biến định lượng và một biến định tính có nhiều hơn hai phạm trù
Giả sử chúng ta muốn ước lượng mức thu nhập của nhân viên được quyết định bởi số năm kinh nghiệm công tác và trình độ học vấn Gọi Y: Tiền lương; X: Số năm kinh nghiệm; D: Học vấn Giả sử chúng
ta phân loại học vấn như sau: tốt nghiệp phổ thông, đại học và sau đại học
(DI; = 1, Dy; = 0): Dai hoc, (Dy; = 0, Dy; = 1): Sau dai hoc,
(Dị; =0, Dạ, = 0): Phổ thông -> phạm tri co sé
Mô hình hồi quy: Y; = đị + 9X; + 6D; + 8Ð; + U,
Trang 29Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỆN
Khai triển của mô hình trên như sau: Đối với người tốt nghiệp phổ thông : E(Y;/X;i, Di; = 0, Do; = 0) = 6) + BoXj Đối với người có trình độ đại học:
E(Y,/X;, Di; = 1, Doi = 0) = 61 + 2Ä; + Ø = (0i + 0s) + 0Ä ¡
Đối với người có trình độ sau đại học:
(Yi/ÄX¡, Dị = 0, Dại = 1) = 0ì + 0Ä ¡ + 0a = (0i + 8i) + 0 Äc Từ các mô hình hồi quy trên:
So sánh tung độ gốc: ta suy ra mức chênh lệch về thu nhập của các nhân viên có cùng số năm kinh nghiệm Cụ thể:
e Chênh lệch giữa nhân viên có bằng đại học so với nhân viên tốt
nghiệp phổ thong: (6, + 33) — B; = 8s
e Chênh lệch giữa nhân viên có bằng sau đại học so với nhân viên tốt nghiệp phổ thông: (đi + đi) — đi = Bu
e Chênh lệch giữa nhân viên có bằng sau đại học so với nhân viên có
bằng dai hoc: (8; + 84) — (81 + 63) = 64 — Bs
So sánh hệ số góc: hệ số góc bằng nhau trong các trường hợp và bằng By Điều này cho thấy số năm kinh nghiệm tăng lên như nhau dẫn đến
mức tăng thu nhập từ lương như nhau
2.2.4 Hồi quy với một biến định lượng và hai biến định tính Vẫn sử dụng ví dụ ở mục (2.2.3) vừa nêu trên, chúng ta muốn xem mức lương giữa nam và nữ còn khác nhau như thế nào Ta bổ sung vào mô hình biến giả D;,: Biến giới tính, bằng 0 cho nữ và bằng 1 cho nam
Trang 30Khóa luận tốt nghiệp Dại học HOÀNG THỊ THANH HUYỀN
Ta có mô hình hồi quy tổng quát như sau:
Y; = đi + Ø2X¡ + Ø3Dụ; + 61 Da; + 85D3;i + Ui (1) Xét thu nhập của nữ: -Có trình độ phổ thông: E(Y./X;, Dị; =0, Dạ; = 0, Dạ; = 0) = 0ì + 0X; + U; -Có trình độ đại học: E(Y;/X;, Dy; = 1, Dạy = 0, Dạy = 0) = Ôi + 0X, + 0 + U; = (0 + 0x) + BX; + Uj -Có trình độ sau đại học: E(W/ÄX¡, Dị = 0, Dại = 1, Dạị = 0) = 0ì + 0Ä; + 0+ U¿ = (0 + Ba) + BoX; + U; (2) Thu nhập của nam : -Có trình độ phổ thông : (WV/X¡, Dị = 0, Dại = 0, Dại = 1) = 0ị + 0X; + Ø; + Ui -Có trình độ đại học: E(VJ/J/Xi, Dị = 1,D¿i = 0D, = 1) = 0i + X; + Ø + Ø; + U, = (G1 + 63 + Bs) + B2Xi + Uj
-C6 trinh d6 sau dai hoc:
E(Y,/X;, Di; = 0,D2; = 1,D3, = 1) = By + OX; + 6+ 65+ U; =
(đi + đa + Ø;) + 6X; + Ui
Từ các mô hình trên, ta có thể so sánh mức thu nhập giữa các nhân
viên trong nhiều trường hợp, cụ thể:
e So sánh cùng giới tính, khác trình độ văn hóa:
Giữa nhân viên nữ có bằng đại học so với nhân viên nữ tốt nghiệp
Trang 31Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN
phổ thông, chênh lệch (6; + 83) — 31 = 83
Giữa nhân viên nam có trình độ sau đại học so với nhân viên nam có trình độ đại học, mức chênh lệch:
In + By + Bs) _ (8; + 6 + Bs) = By — 6
e So sánh khác giới tính, cùng trình độ văn hóa
Giữa nữ nhân viên và nam nhân viên có cùng trình độ sau đại học:
(6, + 64 + 0) — (Øi + 84) = Bs
Giữa nam nhân viên với nữ nhân viên cùng có bằng đại học,mức
chênh lệch: (đi + 63 + 85) — (G1 + 83) = 8s
e So sánh khác giới tính, khác trình độ văn hóa
Giữa nam nhân viên có bắng sau đại học với nữ nhân viên có bằng
đại học, mức chênh lệch: (Øị + đị + đ;) — (ổi + 0s) = (81 — 83) + Bs Trong đó, chênh lệch do trình độ là (6, — 6s), chênh lệch do giới tính là 6s
Lưu ý: H ® 5 on góc của tất cả các mô hình trên đều bằng nhau và bằng 2 Bo
2.3 Biến giả với hệ số góc khác nhau
Những trường hợp vừa trình bày trên cho thấy chỉ có tung độ gốc giữa các mô hình khác nhau, hệ số góc luôn bằng nhau Thực tế có những trường hợp ngược lại, tung độ gốc giữa các mô hình không đổi, chỉ thay
đổi hệ số góc
Giả sử ta hồi quy thu nhập (Biến Y) của nhân viên nam và nữ, có
Trang 32Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN
cùng mức lương khởi điểm (¡) và thâm niên công tác (Biến X) Trong
đó thâm niên công tác như nhau nhưng tốc độ tăng lương có thể khác nhau giữa nam và nữ Trong trường hợp này, để khảo sát xem mức thu nhập có khác nhau hay không giữa nam và nữ nhân viên, ta xét thêm
biến giới tính Mô hình hồi quy với PRE có dạng: Y; = Øđị + 0X; + U,
Đặt 6; = ;' + 0;D; Với D; = 1 nếu là nhân viên nam, D; = 0 nếu nhân viên nữ Theo cách đặt này mô hình tổng quát trở thành:
¥, = By + (By* + 6sD,)X, + U;
Với nhân viên nam : Ÿ¡ = 6, + (6)* + 83)X, + Uj Voi nhan vién nit: Y; = G, + 6° X;+ Uj
Từ các mô hình trên ta thấy có sự khác nhau giữa hệ số góc của mô hình
thu nhập đối với nam nhân viên so với nữ nhân viên là: (đạÏ+ đạ)— Ø;” =
6a
Nếu đạ > 0 tốc độ tăng thu nhập của nam nhanh hơn nữ và ngược lại, nếu đạ < 0 Đặc biệt tốc độ tăng thu nhập của nam và nữ như nhau nếu
63 = 0 thi tăng thu nhập giữa nam và nữ không khác nhau
2.4_ Biến giả với tung độ gốc và hệ số góc khác nhau
Trong trường hợp cả tung độ gốc và hệ số góc khác nhau, chẳng han như mức lương khởi điểm và tốc độ tăng lương của nhân viên nam và nhân viên nữ trong trường hợp nêu trên đều khác nhau, mô hình hồi quy PRF: Y; = Øị + 6›X; + U;
Trong đó: đi = đi” +oaiD;; Ø8; = 6; ” + a¿D;
Trang 33Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYEN
Hàm hồi quy tổng quát trở thành: Y; = 6° +a,D; + (82* + agD;)X; + U;
Với nhân vién nam: Y; = (6,* + a1) + (Bo* + œ›)X; + U V6i nhan vién nit: Y; = 6," + Bo*X; + Uj
So sánh hai mô hình trên, ta thấy: chênh lệch giữa tung độ gốc là ơi, chênh lệch giữa hệ số góc là ơa
Nếu a; > 0, lương khởi điểm của nam cao hơn nữ Ngược lại nếu a; < 0 lương khởi điểm của nam thấp hơn nữ
Nếu œ; > 0 tốc độ tăng lương của nam nhanh hơn nữ Ngược lại, nếu œ¿ < 0 tốc độ tăng lương của nam chậm hơn nữ
Lưu ý: Khai triển các mô hình trên, ta thấy xuất hiện biến (DX), biến
này còn được gọi là biến tương tác, thể hiện tác đông đồng thời của biến D và biến X lên biến Y
Dưới đây là hình minh họa cho các trường hợp bằng nhau và khác nhau
giữa tung độ gốc và hệ số góc đối với mô hình theo thâm niên và theo
Trang 34Khóa luận tốt nghiệp Dại học HOÀNG THỊ THANH HUYEN ¥} = đị+ (+ 8a) Xã; ¥; = (8) + 33) + SoXo; x Tungdôlậch(3;) Tungddbangnhanl 3) Hésagéc bằngnhau(/2;) Hésigéckhaenhau ¥; = (9, + Bs) + (+ By) Xx Tungd6léch( (3) Nệsũ górlệch( 3)
2.5 Biến giả trong phân tích thời vụ
Trong thực tế, đặc biệt là trong kinh tế có nhiều quan sát là biến
chuỗi thời gian mang tính thời vụ, ví dụ như: số lượng sách giáo khoa, dụng cụ học tập trong những ngày đầu năm học mới; doanh số bán hàng giải khát, hàng điện lạnh vào những ngày nóng bức; lượng du khách đến
Trang 35Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYEN
những điểm du lịch trong những ngày lễ hội Trong các trường hợp đó ta sử dụng biến giả để tách biệt tác động của yếu tố thời vụ (hay nhân
on
tố mùa) trong chuỗi thời gian để tập chung vào các thành phần khác của số liệu như: chu kì, xu hướng, ngẫu nhiên
Ví dụ 2.5.1 Khảo sát số lượng tủ lạnh (nghìn cái) được tiêu thụ tại
Mỹ từ quý 1 năm 1978 đến quý 4 năm 1985 có bảng số liệu sau:
Trang 37Khoa luận tốt nghiệp Dại học HOÀNG THỊ THANH HUYỄN Xét mô hình gồm ba biến giả mã hóa cho bốn quý trong năm là: Y, = đi + 6;D¿¡ + 6:D¿, + 6D, trong đó:
Dạy = 1 ứng với Quý 2, Dạ, = 0 ứng với quý khác D3, = 1 ứng với quý 3, D3; = 0 ứng với quý khác Dị, = 1 ứng với quý 4, Dị; = 0 ứng với quý khác Sử dụng phần mềm R theo các bước sau:
tieuthu = edit (data.frame()), sau đố nhập số liệu vào bảng mreg = lm (data = tieuthu, frig ~ d2 + d3 + d4 )
Trang 38Khóa luận tốt nghiệp Dại học HOÀNG THỊ THANH HUYỄN summary (mreg) trong đó "tieuthu" là tên đối tượng Khi đó ta có bảng kết quả sau: Call: im(formula = frig ~ d2 + d3 + d4, data = tieuthu) Residuals: Min 1Q Median 3Q Max -300.75 -130.81 51.688 103.91 231.50 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 1222.13 58.99 20.372 < 2e-16 *** d2 245.57 84.84 2.892 0.007320 ** d3 347.62 84.84 4.097 0.000323 *** d4 ie dS 84.84 -0.732 0.470091
SigaEr: cones: OG) ert GUT 99W” DU U99 Bless" OLY = 3
Residual standard error: 169.7 on 28 degrees of freedom
Multiple R-squared: 0.5318, Adjusted R-squared: 0.4816
F-statistic: 10.6 on 3 and 28 DF, p-value: 7.908e-05
Vậy phương trình hồi quy cần tìm là:
Y, = 1222.13 + 245.37D, + 347.62D3, — 62.13Dy
Từ bảng kết quả trên và phương trình hồi quy ta có nhận xét:
e Giá trị p-value của Ø; là 0.007320 < 0.05; giá trị p-value của 8s là
0.000323 < 0.05 nên chúng đều có ý nghĩa thống kê Điều này chứng
tỏ số lượng tủ lạnh tiêu thụ ở quý 2 và quý 3 bị ảnh hưởng bởi tính mùa vụ, thể hiện mức bán tăng cao hơn các quý còn lại trong năm e Giá tri p-value cua G, 1a 0.470091 > 0.05 nên nó không có ý nghĩa
thống kê, chứng tỏ số hàng bán được từ quý 1 sang quý 4 biến động
không nhiều
Trang 39Khóa luận tốt nghiệp Dai hoc HOÀNG THỊ THANH HUYỆN
e Số tủ lạnh bán được ở mỗi quý trong năm như sau:
Quy 1 (Dy, = 0, D3, = 0, Dy, = 0), 86 luong bán trung bình là 1222130 cai Quy 2 (Dy, = 1, D3, = 0, Dy, = 0), 86 luong bán trung bình là 1222130 + 245370 = 1467500 cai Quy 3 (Dz, = 0, Dz, = 1, Dy, = 0), số lượng bán trung bình là 1222130 + 347620 = 1569750 cai Quy 4 (Dz, = 0, Dạ, = 0, Dị, = 1), số lượng trung bình là 1222130 - 62130 = 1160000 cái
Việc điều chỉnh mùa vụ được thực hiện bằng việc điều chỉnh chuỗi số
liệu như sau:
Buéc 1: Tìm chuỗi phần dư của mô hình hồi quy, kí hiệu (S1) bằng ngôn ngữ R theo hàm sau resid (mreg) Chuỗi phần dư này cho thấy số lượng tủ lạnh tiêu thụ từng quý tương ứng sau khi loại trừ yếu tố thời vụ
Bước 2: Cộng phần dư (S1) với giá trị trung bình của biến phụ thuộc
tương ứng với mỗi quý
Ta được chuỗi thời gian đã điều chỉnh mùa vụ như sau:
Trang 40Khóa luận tốt nghiệp Dại học HOÀNG THỊ THANH HUYỀN - Y đã điều Phần Y đã điều Năm- |Phần |Y trung Năm- Y trung chỉnh mùa chỉnh mùa quý dư bình quý bình vụ dư vụ 1978-1 | 94.875 | 1354.844 | 1449.719 | 1982-1 | -279.125 | 1354.844 | 1075.719 1978-2 | 147.5 1354.844 | 1502.344 1982-2 | -292.5 1354.844 | 1062.344 1978-3 | 92.25 1354.844 | 1447.094 | 1982-3 | -300.75 | 1354.844 | 1054.094 1978-4 | 135 1354.844 | 1489.844 | 1982-4 | -187 1354.844 | 1167.844 1979-1 | 48.875 | 1354.844 | 1403.719 | 1983-1 | -120.125 | 1354.844 | 1234.719 1979-2 | 87.5 1354.844 | 1442.344 1983-2 | -123.5 1354.844 | 1231.344 1979-3 | 69.25 1354.844 | 1424.094 | 1983-3 | 71.25 1354.844 | 1426.094 1979-4 | 78 1354.844 | 1432.844 | 1983-4 | 65 1354.844 | 1419.844 1980-1 | 54.875 | 1354.844 | 1409.719 | 1984-1 | 206.875 | 1354.844 | 1561.719 1980-2 | -209.5 | 1354.844 | 1145.344 1984-2 | 231.5 1354.844 | 1586.344 1980-3 | -152.75 | 1354.844 | 1202.094 | 1984-3 | 179.25 1354.844 | 1534.094 1980-4 | 25 1354.844 | 1379.844 1984-4 | -43 1854.844 | 1511.844 1981-1 | -26.125 | 1354.844 | 1328.719 1985-1 | 19.875 1354.844 | 1374.719 1981-2 | -57.5 1354.844 | 1297.344 | 1985-2 | 216.5 1354.844 | 1571.344 1981-3 | -152.75 | 1354.844 | 1202.094 1985-3 | 194.25 1354.844 | 1549.094 1981-4 | -241 1354.844 | 1113.844 1985-4 | 168 1354.844 | 1522.844 2.6 Hồi quy tuyến tinh timg khic (piecewise linear regression)
Nếu có sự thay đổi về cấu trúc của hàm hồi quy trên các khoảng giá