Chương 4 Biến giả trong phân tích hồi quy
4.2. Kỹ thuật sử dụng biến giả
4.2.1. Mơ hình có biến giả
Mơ hình có biến giả là mơ hình phải sử dụng biến giả, đó là mơ hình có đưa vào một hay nhiều biến giải thích là biến định tính. Sự xuất hiện của biến định tính trong mơ hình là cần thiết khi ta cảm nhận sự phụ thuộc hoặc muốn khảo sát sự phụ thuộc của biến được
giải thích vào sự thay đổi thuộc tính của biến định tính.
4.2.2. Kỹ thuật sử dụng biến giả
Đứng trước một mơ hình có xét đến ảnh hưởng trực tiếp của một hay nhiều biến định tính đối với biến phụ thuộc (một biến định lượng), để sử dụng biến giả, ta cần lưu ý các bước
sau:
- Xác định xem có bao nhiêu biến giải thích là biến định tính - Xác định số thuộc tính của mỗi biến định tính
- Số biến giả (nhị phân) cần cho một biến định tính bằng số thuộc tính của biến định tính này trừ đi 1.
Gọi m là số biến định tính được đưa vào, trong đó biến thứ j có 𝑘𝑗 thuộc tính, j = 1, 2,…,
m,. Khi đó biến thứ j này cần đến (𝑘𝑗− 1) biến giả và tổng số biến giả (nhị phân) trong mơ hình là: 𝑘1+ 𝑘2+ ⋯ + 𝑘𝑚− 𝑚.
- Biểu diễn các điều kiện, các tình huống trong mơ hình qua các biến giả
Ví dụ sau minh họa cho kỹ thuật này:
Để khảo sát lương Y của giáo viên theo thâm niên giảng dạy X, ta sử dụng
mơ hình hồi quy sau: {𝐸(𝑌|𝑋) = 𝑎 + 𝑏. 𝑋𝑌 = 𝑎 + 𝑏. 𝑋 + 𝑈
Bây giờ ta muốn tìm hiểu về sự chênh lệch tiền lương bình quân giữa giáo viên nam và giáo viên nữ, tức là sự tác động của giới tính đến mức lương. Điều này đòi hỏi ta phải đưa thêm một biến giả D vào mơ hình để mơ tả sự tác động của giới tính. Đặt:
𝐷(𝑥) = {1, 𝑛ế𝑢 𝑔𝑖á𝑜 𝑣𝑖ê𝑛 𝑥 𝑙à 𝑛𝑎𝑚0, 𝑛ế𝑢 𝑔𝑖á𝑜 𝑣𝑖ê𝑛 𝑥 𝑙à 𝑛ữ Ta có các tình huống:
* TH1: Lương khởi điểm của giáo viên nam và nữ khác nhau, nhưng tốc độ tăng lương
của nam và nữ là như nhau.
* TH2: Lương khởi điểm của giáo viên nam và nữ như nhau, nhưng tốc độ tăng lương
của nam và nữ là khác nhau.
* TH3: Lương khởi điểm của giáo viên nam và nữ khác nhau và tốc độ tăng lương của
Bộ mơn Tốn – Thống kê Bài giảng Kinh tếlượng
Ta sử dụng biến giả tương ứng với các tình huống trên như sau:
4.2.2.1. TH1: Dịch chuyển số hạng tung độ gốc
Đặ𝑡: 𝑎 = 𝑎0+ 𝑎1𝐷. 𝐾ℎ𝑖 đó ℎà𝑚 𝑃𝑅𝐹 𝑐ó 𝑑ạ𝑛𝑔:
𝒀 = 𝒂𝟎+ 𝒂𝟏𝑫 + 𝒃. 𝑿 + 𝑼 (4.4) Hồi quy mẫu SRF cho mức lương của giáo viên nữ (D = 0) là:
𝑌̂ = 𝑎̂0+ 𝑏̂. 𝑋 (4.4a) Hồi quy mẫu SRF cho mức lương của giáo viên nam (D = 1) là:
𝑌̂ = 𝑎̂0+ 𝑎̂1+ 𝑏̂. 𝑋 (4.4b)
Theo đó mức lương khởi điểm của giáo viên nữ là 𝑎0 có ước lượng là 𝑎̂0, mức
lương khởi điểm của giáo viên nam là
𝑎0+ 𝑎1 có ước lượng là 𝑎̂0+ 𝑎̂1
Hai đường thẳng (4.4a) và (4.4b) có cùng
hệ số góc 𝑏̂ biểu thị tốc độ tăng lương của giáo viên nữvà giáo viên nam là như nhau.
Việc xác minh giới tính có thực sự ảnh
hưởng đến lương khởi điểm của giáo viên Hình 4.1. Đồ thị biểu diễn Lương khởi điểm
hay khơng chính là bài tốn kiểm định hai của giáo viên nam và nữkhác nhau, nhưng
phía đối với giả thuyết 𝐻0: 𝑎1 = 0 (có thể tốc độtăng lương của nam và nữlà như
dùng kiểm định Wald hoặc kiểm định t) nhau
4.2.2.2. TH2: Dịch chuyển độ dốc
Đặ𝑡: 𝑏 = 𝑏0 + 𝑏1. 𝐷. 𝑀ơ ℎì𝑛ℎ ℎồ𝑖 𝑞𝑢𝑦 𝑡ổ𝑛𝑔 𝑡ℎể 𝑐ó 𝑑ạ𝑛𝑔:
𝑌 = 𝑎 + 𝑏. 𝑋 + 𝑈 = 𝑎 + 𝑏0. 𝑋 + 𝑏1. (𝐷. 𝑋) + 𝑈 (4.5) Ta gọi (D.X) là biến tương tác. Khi đó: Hồi quy SRF cho mức lương của giáo viên nữ (D = 0) là:
𝑌̂ = 𝑎̂0+ 𝑏̂0. 𝑋 (4.5a) Hồi quy SRF cho mức lương của giáo viên nam (D = 1) là:
𝑌̂ = 𝑎̂0+ (𝑏̂0+ 𝑏̂1). 𝑋 (4.5b)
Đường thẳng (4.5a) và (4.5b) khi bỏ qua
yếu tố nhiễu được cho bởi hình 4.2 sau,
trong đó lương khởi điểm của giáo viên nam và nữđều là mức 𝑎̂0 như nhau, nhưng tốc độ tăng lương của nữ là 𝑏̂0, của nam là (𝑏̂0+ 𝑏̂1), chênh lệch một lượng 𝑏̂1. Việc xác minh giới tính có thực sự ảnh
hưởng đến tốc độtăng lương của giáo viên
hay khơng chính là bài toán kiểm định hai Hình 4.2. Đồ thị biểu diễn Lương khởi điểm
phía đối với giả thuyết 𝐻0: 𝑏1 = 0 (có thể của giáo viên nam và nữnhư nhau, nhưng
dùng kiểm định Wald hoặc kiểm định t) tốc độtăng lương của nam, nữ là khác nhau
Bộ mơn Tốn – Thống kê Bài giảng Kinh tếlượng
4.2.2.3. TH3: Dịch chuyển cảtung độ gốc và độ dốc
Đặ𝑡: 𝑎 = 𝑎0+ 𝑎1𝐷, 𝑏 = 𝑏0+ 𝑏1. 𝐷. 𝑀ơ ℎì𝑛ℎ ℎồ𝑖 𝑞𝑢𝑦 𝑡ổ𝑛𝑔 𝑡ℎể 𝑐ó 𝑑ạ𝑛𝑔:
𝑌 = 𝑎 + 𝑏. 𝑋 + 𝑈 = 𝑎0+ 𝑎1𝐷 + 𝑏0. 𝑋 + 𝑏1. (𝐷. 𝑋) + 𝑈 (4.6)
Khi đó:
Hồi quy SRF cho mức lương của giáo viên nữ (D = 0) là:
𝑌̂ = 𝑎̂0 + 𝑏̂0. 𝑋 (4.6a) Hồi quy SRF cho mức lương của giáo viên nam (D = 1) là:
𝑌̂ = (𝑎̂0+ 𝑎̂1) + (𝑏̂0+ 𝑏̂1). 𝑋 (4.6b)
Đường thẳng (4.6a) và (4.6b) khi bỏ qua
yếu tố nhiễu được cho bởi hình 4.3 sau.
Trong đó lương khởi điểm của giáo viên nữ là mức 𝑎̂0, của giáo viên nam là (𝑎̂0+ 𝑎̂1), với mức chênh lệch là 𝑎̂1; tốc độ tăng lương của nữ là 𝑏̂0, của nam
là (𝑏̂0+ 𝑏̂1), chênh lệch một lượng 𝑏̂1.
Để xác minh giới tính có thực sự ảnh hưởng đến mức lương khởi điểm và tốc
độ tăng lương của giáo viên hay khơng Hình 4.3. Đồ thị biểu diễn lương khởi điểm
chính là bài tốn kiểm định giả thuyết của giáo viên nam và nữ khác nhau và tốc
𝐻0: 𝑎1 = 𝑏1 = 0 (dùng kiểm định Wald). độtăng lương của nam, nữcũng khác nhau.
Lưu ý:
a. Trong thực tế người ta không xác định được trước việc bài tốn đặt ra rơi vào tình
huống nào. Do đó hoặc ta phải xét lần lượt 3 mơ hình hồi quy ứng với 3 tình huống rồi chọn mơ hình phù hợp nhất; hoặc ta bắt đầu từ tình huống thứ 3 rồi kiểm định 𝐻0: 𝑎1 = 𝑏1 = 0: nếu chấp nhận 𝐻0 thì ta dùng mơ hình hồi quy Y theo X (khơng có tác động của giới tính), nếu bác bỏ 𝐻0 thì tiếp tục kiểm định riêng từng hệ số để xác minh sự ảnh hưởng của giới tính nằm ở mức lương khởi đầu (tung độ gốc) hay tốc độ tăng lương (độ
dốc), tức là kiểm định: 𝐻0: 𝑎1 = 0 hoặc kiểm định: 𝐻0: 𝑏1 = 0.
b. Có thể mở rộng bài tốn hồi quy dạng trên đây khi số biến định tính tăng lên hoặc số
thuộc tính của các biến định tính tăng lên. Chẳng hạn trong mơ hình trên, ngồi thâm niên giảng dạy, giới tính, ta cịn xét đến sựảnh hưởng của trình độ với 3 thuộc tính: cử nhân, thạc sỹ, tiến sỹ đối với lương của giáo viên. Theo đó ta phải đưa vào mơ hình 3 biến giả D, 𝐾1, 𝐾2:
𝐷(𝑥) = {1, 𝑛ế𝑢 𝑔𝑖á𝑜 𝑣𝑖ê𝑛 𝑥 𝑙à 𝑛𝑎𝑚0, 𝑛ế𝑢 𝑔𝑖á𝑜 𝑣𝑖ê𝑛 𝑥 𝑙à 𝑛ữ
Bộ mơn Tốn – Thống kê Bài giảng Kinh tếlượng
Ta có mơ hình PRF: 𝑌 = 𝑎 + 𝑏. 𝑋 + 𝑐. 𝐷 + 𝑑1. 𝐾1+ 𝑑2. 𝐾2+ 𝑈 (4.7)
Khi đó:
∗ 𝐸(𝑌|𝑋, 𝐷 = 0, 𝐾1 = 0, 𝐾2 = 0) = 𝑎 + 𝑏. 𝑋: lương b.qn của g.viên nữ có trình độ cử
nhân
∗ 𝐸(𝑌|𝑋, 𝐷 = 0, 𝐾1 = 1, 𝐾2 = 0) = 𝑎 + 𝑑1+ 𝑏. 𝑋: lương bình qn của giáo viên nữ có
trình độ thạc sỹ
∗ 𝐸(𝑌|𝑋, 𝐷 = 0, 𝐾1 = 0, 𝐾2 = 1) = 𝑎 + 𝑑2 + 𝑏. 𝑋: lương bình qn của giáo viên nữ có trình độ tiến sỹ
∗ 𝐸(𝑌|𝑋, 𝐷 = 1, 𝐾1 = 0, 𝐾2 = 0) = 𝑎 + 𝑐 + 𝑏. 𝑋: lương bình quân của giáo viên nam có trình độ cử nhân
∗ 𝐸(𝑌|𝑋, 𝐷 = 1, 𝐾1 = 1, 𝐾2 = 0) = 𝑎 + 𝑐 + 𝑑1+ 𝑏. 𝑋: lương bình quân của giáo viên nam có trình độ thạc sỹ
∗ 𝐸(𝑌|𝑋, 𝐷 = 1, 𝐾1 = 0, 𝐾2 = 1) = 𝑎 + 𝑐 + 𝑑2+ 𝑏. 𝑋: lương bình quân của giáo viên nam có trình độ tiến sỹ
- Ngoài ra, khi tốc độ tăng lương có thể bị chi phối bởi giới tính thì ta cần bổ sung thêm biến tương tác (D.X) vào mơ hình hồi quy. Khi đó mơ hình hồi quy có dạng:
𝑌 = 𝑎 + 𝑏. 𝑋 + 𝜆(𝐷. 𝑋) + 𝑐. 𝐷 + 𝑑1. 𝐾1+ 𝑑2. 𝐾2+ 𝑈 (4.8)
- Khi tốc độ tăng lương có thể bị chi phối bởi yếu tố trình độ thì ta cần bổ sung thêm 2
biến tương tác: (𝐾1. 𝑋) 𝑣à (𝐾2. 𝑋) . Khi đó mơ hình hồi quy có dạng: 𝑌 = 𝑎 + 𝑏. 𝑋 + 𝜆1(𝐾1. 𝑋) + 𝜆2(𝐾2. 𝑋) + 𝑐. 𝐷 + 𝑑1. 𝐾1+ 𝑑2. 𝐾2+ 𝑈 (4.9)