Chương 4 Biến giả trong phân tích hồi quy
4.1. Các khái niệm về biến giả
4.1.1. Khái niệm về biến giả: Trong các chương trước, các biến giải thích là các biến định lượng hay các tiêu chuẩn số lượng. Tuy nhiên trong thực tế có những trường hợp định lượng hay các tiêu chuẩn số lượng. Tuy nhiên trong thực tế có những trường hợp biến giải thích là biến định tính hay tiêu chuẩn chất lượng như: màu sắc, âm thanh, giới tính, chủng tộc, tơn giáo, hình thức sở hữu, nghề nghiệp,... mà chúng ta cảm nhận được
ảnh hưởng không bỏ qua được của chúng vào biến phụ thuộc đang xét. Để đưa những thuộc tính của biến định tính vào mơ hình hồi quy định lượng, người ta lượng hóa các thuộc tính bằng cách sử dụng kỹ thuật biến giả (dummy variables). Biến định tính sau khi
được lượng hóa để đưa vào mơ hình được gọi là biến giả.
4.1.2. Các ví dụ.
Ví dụ 4.1: Khảo sát lượng hàng A bán được theo hai khu vực bán là thành thị và nông
thôn. Ký hiệu Y là lượng hàng A bán được, Y là một biến định lượng phụ thuộc vào khu vực bán là một biến định tính gồm 2 thuộc tính: thành thị và nơng thơn. Để biểu thị sự
phụ thuộc của lượng hàng bán được Y vào biến định tính là khu vực bán trong một mơ
hình kinh tếlượng, ta lượng hóa biến định tính khu vực bằng cách đặt: 𝐷(𝑥) = {0, 𝑛ế𝑢 𝑙ượ𝑛𝑔 ℎà𝑛𝑔 𝑥 đượ𝑐 𝑏á𝑛 ở 𝑛ô𝑛𝑔 𝑡ℎô𝑛,1, 𝑛ế𝑢 𝑙ượ𝑛𝑔 ℎà𝑛𝑔 𝑥 đượ𝑐 𝑏á𝑛 ở 𝑡ℎà𝑛ℎ 𝑡ℎị.
Khi đó D là một biến định lượng, thay cho vai trò của biến định tính khu vực, được đưa
vào mơ hình kinh tếlượng sau đây:
{𝐸(𝑌|𝐷) = 𝑎 + 𝑏. 𝐷𝑌 = 𝑎 + 𝑏. 𝐷 + 𝑈 (4.1)
Theo đó: 𝐸(𝑌|𝐷 = 0) = 𝑎: là lượng hàng bình quân bán được ở khu vực nông thôn. 𝐸(𝑌|𝐷 = 1) = 𝑎 + 𝑏: là lượng hàng bình quân bán được ở khu vực thành thị. Vì thế: 𝑏 = 𝐸(𝑌|𝐷 = 1) − 𝐸(𝑌|𝐷 = 0): là mức chênh lệch bình quân về lượng hàng bán
được ở khu vực thành thị so với khu vực nông thôn. Lúc này lượng hàng bình quân bán được ở khu vực nông thôn là tiêu chuẩn để so sánh. Ta gọi thuộc tính “ nơng thơn” là
thuộc tính cơ sở (hay phạm trù cơ sở), tương ứng với giá trị D = 0.
Chú ý: Khi biến định tính có nhiều hơn hai thuộc tính, ta có thể sử dụng giải pháp biến
giả có nhiều hơn hai giá trị hoặc sử dụng giải pháp nhiều biến giả có giá trị 0 và 1. Tuy nhiên giải pháp đầu ít được sử dụng bởi những nguyên nhân sau: Khi so sánh giá trị trung bình của biến phụ thuộc tương ứng với các thuộc tính khác nhau thì việc phân tích mơ hình sẽ khó khăn hơn: Biến giả có nhiều giá trị trở thành biến định lượng thông thường
Bộ mơn Tốn – Thống kê Bài giảng Kinh tếlượng
dụng nhiều biến giả với hai giá trị 0 và 1, trên nguyên tắc: đối với mỗi biến định tính thì số biến giảđược sử dụng bằng số thuộc tính – 1.
Ví dụ 4.2: Khảo sát lương nhân viên theo trình độ, với ba mức: Đại học, thạc sĩ, tiến sĩ, tức là theo 3 thuộc tính khác nhau. Theo đó ta sử dụng 2 biến giả 𝐷1𝑣à 𝐷2 𝑛ℎư 𝑠𝑎𝑢:
𝐷1(𝑥) = {1, 𝑛ế𝑢 𝑥 𝑐ó 𝑡𝑟ì𝑛ℎ độ 𝑡ℎạ𝑐 𝑠ĩ0, 𝑛ế𝑢 𝑥 𝑐ó 𝑡𝑟ì𝑛ℎ độ 𝑘ℎá𝑐 ; 𝐷2(𝑥) = {1, 𝑛ế𝑢 𝑥 𝑐ó 𝑡𝑟ì𝑛ℎ độ 𝑡𝑖ế𝑛 𝑠ĩ0, 𝑛ế𝑢 𝑥 𝑐ó 𝑡𝑟ì𝑛ℎ độ 𝑘ℎá𝑐 .
Như vậy trình độ nhân viên cơng sở được xác định bởi cặp giá trị của hai biến giả: Đạ𝑖 ℎọ𝑐: 𝐷1 = 0; 𝐷2 = 0. 𝑇ℎạ𝑐 𝑠ĩ: 𝐷1 = 1; 𝐷2 = 0. 𝑇𝑖ế𝑛 𝑠ĩ: 𝐷1 = 0; 𝐷2 = 1
Khi đó mơ hình hồi quy có dạng:
𝐸(𝑌|𝐷1, 𝐷2) = 𝑎 + 𝑏1. 𝐷1 + 𝑏2𝐷2 (4.2)
trong đó các mức giá trị kỳ vọng có điều kiện mang ý nghĩa như sau:
𝐸(𝑌|𝐷1 = 0; 𝐷2 = 0) = 𝑎: là mức lương bình quân của nhân viên có trình độ đại học. 𝐸(𝑌|𝐷1 = 1; 𝐷2 = 0) = 𝑎 + 𝑏1: mức lương bình quân của nhân viên trình độ thạc sỹ 𝐸(𝑌|𝐷1 = 0; 𝐷2 = 1) = 𝑎 + 𝑏2: mức lương bình quân của nhân viên trình độ tiến sỹ 𝑏1: là chênh lệch mức lương bình qn của nhân viên có trình độ thạc sỹ với nhân viên có
trình độ đại học.
𝑏2: là chênh lệch mức lương bình quân của nhân viên có trình độ tiến sỹ với nhân viên có
trình độ đại học.
Như vậy mức lương bình qn của nhân viên có trình độđại học là tiêu chuẩn để so sánh, ta gọi thuộc tính “trình độđại học” là thuộc tính cơ sở (hay là phạm trù cơ sở) tương ứng
với cặp giá trị 𝐷1 = 0, 𝐷2 = 0.
Ví dụ 4.3: Hãy thiết lập mơ hình hồi quy trong đó: doanh số bán sản phẩm A phụ thuộc
vào: giá bán, kiểu dáng 1, kiểu dáng 2, kiểu dáng 3, khu vực nông thôn, khu vực thành thị.
Mơ hình này có 4 biến: doanh số Y là biến định lượng, nó là biến phụ thuộc; các biến giải thích là: giá bán X (biến định lượng), và hai biến định tính là: kiểu dáng (có 3 thuộc tính) và khu vực bán (có 2 thuộc tính). Vậy ta cần 2 biến giả (nhị phân) cho kiểu dáng và một biến giả (nhị phân) cho khu vực bán như sau:
𝐷1(𝑥) = { 1, 𝑛ế𝑢 𝑥 𝑐ó 𝑘𝑖ể𝑢 𝑑á𝑛𝑔 10, 𝑛ế𝑢 𝑥 𝑐ó 𝑘𝑖ể𝑢 𝑑á𝑛𝑔 𝑘ℎá𝑐 ;
𝐷2(𝑥) = { 1, 𝑛ế𝑢 𝑥 𝑐ó 𝑘𝑖ể𝑢 𝑑á𝑛𝑔 20, 𝑛ế𝑢 𝑥 𝑐ó 𝑘𝑖ể𝑢 𝑑á𝑛𝑔 𝑘ℎá𝑐; 𝐷(𝑥) = {0, 𝑛ế𝑢 𝑥 𝑏á𝑛 ở 𝑛ô𝑛𝑔 𝑡ℎô𝑛 1, 𝑛ế𝑢 𝑥 𝑏á𝑛 ở 𝑡ℎà𝑛ℎ 𝑡ℎị
Khi đó mơ hình hồi quy có dạng:
𝐸(𝑌|𝑋, 𝐷, 𝐷1, 𝐷2) = 𝑎 + 𝑏. 𝑋 + 𝑐. 𝐷 + 𝑏1. 𝐷1+ 𝑏2𝐷2 (4.3) trong đó:
𝐸(𝑌|𝑋, 𝐷 = 0, 𝐷1 = 0, 𝐷2 = 0) = 𝑎 + 𝑏𝑋: Doanh số bình quân bán kiểu dáng 3 ở khu
vực nơng thơn có giá bán X
𝐸(𝑌|𝑋, 𝐷 = 0, 𝐷1 = 1, 𝐷2 = 0) = 𝑎 + 𝑏𝑋 + 𝑏1: Doanh số bình quân bán kiểu dáng 1 ở
khu vực nơng thơn có giá bán X
𝐸(𝑌|𝑋, 𝐷 = 0, 𝐷1 = 0, 𝐷2 = 1) = 𝑎 + 𝑏𝑋 + 𝑏2: Doanh số bình quân bán kiểu dáng 2 ở
Bộ mơn Tốn – Thống kê Bài giảng Kinh tếlượng
𝐸(𝑌|𝑋, 𝐷 = 1, 𝐷1 = 0, 𝐷2 = 0) = 𝑎 + 𝑏𝑋: Doanh số bình quân bán kiểu dáng 3 ở khu
vực thành thị có giá bán X
𝐸(𝑌|𝑋, 𝐷 = 1, 𝐷1 = 1, 𝐷2 = 0) = 𝑎 + 𝑏𝑋 + 𝑏1: Doanh số bình quân bán kiểu dáng 1 ở
khu vực thành thị có giá bán X
𝐸(𝑌|𝑋, 𝐷 = 1, 𝐷1 = 0, 𝐷2 = 1) = 𝑎 + 𝑏𝑋 + 𝑏2: Doanh số bình quân bán kiểu dáng 2 ở khu vực thành thị có giá bán X