2.1 Cơ sở lý thuyết
2.1.4 Hồi quy phân vị
Năm 1978, Koenker & Bassett công bố một phương pháp hồi quy mới, Phương pháp hồi quy phân vị. Mục tiêu là cải tiến và mở rộng phương pháp hồi quy tuyến tính sang dạng tổng quát hơn. Phương pháp hồi quy tuyến tính thơng thường, mơ hình OLS, được dùng để ước lượng tác động biên của các biến độc lập đến giá trị trung bình (trung vị) của biến phụ thuộc. Với hồi quy phân vị, được dùng để ước lượng tác động biên của biến độc lập lên biến phụ thuộc trên từng phân vị của nó (González & Jaro, 2019; T. T. A. Tran, 2017). Khái niệm phân vị ở đây được hiểu là một giá trị tương ứng với một tỷ lệ cụ thể của một mẫu được sắp xếp trong tổng thể. Giá trị này thương nằm trong phạm vi từ 0 đến 1. Nếu mẫu có phân vị 0.5 có nghĩa là mẫu nằm ở vị trí trung vị (50%) của tổng thể. Vậy điểm khác biệt của OLS và phân vị là gì?
Điểm khác biệt đầu tiên, hàm mục tiêu của OLS là cực tiểu hố bình phương sai số giữa thực tế và giá trị hồi quy của biến phụ thuộc. Đối với phân vị là cực tiểu hóa giá trị tuyệt đối sai số đó.
Bảng 2-1 Hàm mục tiêu hồi quy tuyến tính OLS và Phân vị
Hồi quy Hàm mục tiêu
OLS
min
𝛽∈𝑅𝑘∑(𝑦𝑖 − 𝜇(𝛽, 𝑥𝑖 ))2 𝑁
𝑖=1
Trong đó, 𝛽 = {𝛽1, … , 𝛽𝑘} hệ số hồi quy, (𝑥𝑖)𝑇 = {𝑥𝑖1, … , 𝑥𝑖𝑘} vec tơ chuyển vị của 𝑥𝑖, 𝑥𝑖𝑗 ∈ 𝑅 biến j trong
mơ hình, 𝑘 là số lượng biến độc lập, 𝑁 số lượng quan sát, 𝜇(𝛽, 𝑥𝑖 ) = 𝛽1𝑥𝑖1 + ⋯ + 𝛽𝑘𝑥𝑖𝑘
Phân vị min 𝛽∈𝑅𝑘∑ 𝜌𝜏(𝑦𝑖− 𝜀(𝛽, 𝑥𝑖)) 𝑁 𝑖=1 Trong đó, 𝜌𝜏(𝑧) = { 𝜏 ∗ 𝑧 𝑛ế𝑢 𝑧 > 0(𝜏 − 1) ∗ 𝑧 𝑛ế𝑢 𝑧 < 0 𝜏 ∈ (0,1), 𝜀(𝛽, 𝑥𝑖 ) = 𝛽1𝑥𝑖1 + ⋯ + 𝛽𝑘𝑥𝑖𝑘 (2.8)
Nguồn tác giả tổng hợp từ (Tran T. T., 2015)
Điểm khách biệt thứ hai, Giả định thường xuyên bị vi phạm trong hồi quy tuyến tính OLS là giả định phương sai khơng đổi. Trên thực tế sai số của biến không thể không đổi trên các tất cả phân vị. Hơn nữa, thông tin phần đuôi của ước lượng OLS thường bị loại bỏ làm mất mát thông tin. OLS rất nhạy cảm với giá trị ngoại lai (outlier) có thể làm thay đổi kết quả (Pham, 2019). Hồi quy phân vị có thể giải quyết được những nhược điểm này.
Thứ nhất, Việc ước lượng mối quan hệ giữa biến độc lập và phụ thuộc trên từng phân vị khác nhau. Do đó khơng bị mất thông tin ở phần đuôi. Thứ hai, Giá trị ngoại lai cũng không thể ảnh hưởng đến kết quả. Nếu có, nó chỉ ảnh hưởng trên một phân vị cụ thể. Thứ ba, hồi quy phân vị không dựa trên giả định sai số tuân theo dạng phân phối chuẩn. Thứ tư, hồi quy phân vị phù hợp khi phân tích mơ hình hồi quy có sự xuất hiện của phương sai thay đổi hoặc dữ liệu đối xứng qua giá trị trung bình. Tại mỗi phân vị của trường hợp này, mối quan hệ giữa biến độc lập và biến giải thích là hồn tồn khác nhau.
Tuy nhiên, Hồi quy phân vị vẫn tồn tại nhược điểm. Việc tính tốn là rất phức tạp, Tại mỗi phân vị việc ước lượng hệ số hồi quy là đi giải bài tốn quy hoạch tuyến tính. Với sự phát triển về khã năng xử lý tính tốn của máy trính điện tử và sự phát triển các cơng cụ lập trình tuyến tính, sự phức tạp của tính tốn có thể được giải quyết. Các lý thuyết xử lý các khuyết tật của dữ liệu trong hồi quy phân vị mới bước đầu đạt được một số kết quả khả quan và vẫn còn tiếp tục được nghiên cứu (Tran T. T., 2015).