CHƯƠNG II. CƠ SỞ DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.2. Phương pháp nghiên cứu
2.3.1. Phương pháp hồi quy phân lớp
Để xây dựng phương trình dự báo MNMP luận văn sử dụng phương pháp thống hồi quy logistic hay còn gọi l& phương pháp hồi quy phân lớp.
Hồi quy từ lâu đã trở th&nh một phần không thể thiếu trong khoa học phân tích dữ liệu liên quan đến việc tìm hiểu v& phân tích mối quan hệ giữa các đối tượng nghiên cứu thể hiện qua các biến mục tiêu (biến Y) v& các biến độc lập (biến giải thích-các biến X). Vì các đối tượng nghiên cứu thường đa dạng v& khác nhau về bản chất khiến cho loại biến, hay các loại dữ liệu sẽ khác nhau.
Hồi quy lô-gic l& phương pháp hồi quy thông dụng nhất, áp dụng cho các biến mục tiêu không phải l& biến định lượng. Sự khác biệt giữa biến mục tiêu chính l& cơ sở phân biệt hồi quy lô-gic với các phương pháp hồi quy khác
điển hình như hồi quy tuyến tính. Ngo&i ra, chính sự khác biệt của biến mục tiêu nên cách thức lập phương trình, dạng phương trình, các giả định xung quanh đều sẽ khác nhau giữa 2 dạng hồi quy n&y. Tuy nhiên vẫn có điểm chung ở tất cả các phương pháp đó chính l& mục tiêu phân tích, đó l& tìm ra mô hình phù hợp nhất v& tối ưu nhất để mô tả mối quan hệ giữa biến mục tiêu Y v& một tập hợp các biến độc lập X qua đó đưa ra các kết quả dự báo hay phân loại trong tương lại của Y.
Điểm khác biệt thứ 2 giữa hồi quy lô-gic v& hồi quy tuyến tính chính l&
kết quả của biến mục tiêu Y trong hồi quy tuyến tính l& giá trị số còn kết quả dự báo của biến mục tiêu Y trong hồi quy lô-gic sẽ mang giá trị xác suất để phân loại đối tượng nghiên cứu hay quyết định giá trị cuối cùng của biến Y trong danh mục các giá trị định tính (phân lớp).
Điểm khác biệt thứ 3 l& đối với các dạng hồi quy áp dụng cho biến mục tiêu l& biến định lượng thì nhiệm vụ phân tích sau cùng sẽ l& đưa ra kết quả dự báo phân nhóm của biến Y (ví dụ: mưa vừa, mưa to, mưa rất to)
Hồi quy lô-gic hay mô hình lô-gic được ứng dụng trong phân tích dự báo, đã được ứng dụng rộng rãi hơn trong lĩnh vực học máy. Hồi quy lô-gic xuất hiện trong các phần mềm thống kê v& khai phá dữ liệu, giúp người dùng tìm hiểu mối quan hệ giữa biến mục tiêu l& biến định tính v& một hay nhiều chiều biến độc lập thông qua thiết lập phương trình hồi quy lô-gic.
Phương trình hồi quy lô-gic được viết dưới dạng như sau:
y=βo+ β1x+ε (2.23)
Tuy nhiên, kết quả của phương trình hồi quy logistic l& xác suất v& dựa v&o xác suất để quyết định giá trị sau cùng của biến Y. Đối với hồi quy lô-gic, biến Y có 2 giá trị (xảy ra v& không xảy ra hoặc có v& không) v& thông thường sẽ gán Y = 0 cho các kết quả “không xảy ra”, “không”…, Y = 1 cho các giá trị còn lại.
Như vậy, chính xác hơn phương trình tổng quát của hồi quy lô-gic sẽ có dạng tổng quát với p l& xác suất cần tìm.
p=βo+ β1x+ε (2.24)
Xác suất có giá trị từ 0 đến 1, giá trị c&ng tiến đến 1 thì tương ứng khả năng Y=1 sẽ cao, v& khi xác suất có giá trị tiến đến 0 thì tương ứng khả năng Y=0 sẽ cao.
Với p l& biến phụ thuộc, xác suất khả năng Y xảy ra 0 hoặc 1 (chịu ảnh hưởng của biến X) chính l& biến cần dự báo, X l& biến độc lập, βo l& giá trị ước lượng cả p khi x đạt giá trị 0, β1 dùng để xác định giá trị trung bình của p tăng hay giảm khi x tăng, ε l& sai số, thể hiện giá trị cá yếu tố khác không thể nghiên cứu hết v& cá yếu tố n&y vẫn tác động lên giá trị p.
Tuy nhiên, phương trình tổng quát trên lại không thích hợp trong việc ước lượng trung bình của biến mục tiêu y cho một đối tượng bất kỳ trong tổng thể nghiên cứu mặc dù chúng vẫn thể hiện mối quan hệ giữa biến y v& biến x bằng hệ số hồi quy β.
Nếu sử dụng phương trình trên thì giá trị xác suất p có thể không nằm trong giới hạn 0 v& 1, nghĩa l& có thế p lớn hơn 1 hoặc p bé hơn 0 mang giá trị âm. Với phương trình trên chúng ta có đồ thị
Đồ thị n&y khá giống với hồi quy tuyến tính, không thích hợp để miêu ta kết quả phân tích hồi quy logistic. Do đó, cần xây dựng một phương trình hồi quy với đồ thị giới hạn được xác suất p từ 0 đến 1. Cụ thể như hình sau:
Phương trình tổng quát của đồ thị dạng đơn biến:
P= eβ0+β1x
1+eβ0+ β1x (2.25)
Công thức thể hiện dưới dạng phân số với mẫu số luôn lớn hơn tử số do đó giới hạn giá trị của p nằm giữa 0 v& 1. Với đồ thị dạng hình cong chữ S, xác suất p luôn nằm trong khoảng 0 v& 1 tại bất kỳ giá trị anó của x.
Tham số β trong mô hình thể hiện giá trị trung bình của p tăng hay giảm khi x tăng. β1>0, xác suất p tăng khi x tăng. β1<0, xác suất p giảm khi x tăng. Nếu β1=0 , p không thay đổi khi x thay đổi, lúc n&y đường cong l&
một đường thẳng nằm ngang. Độ dốc của đường cong tăng khi giá trị tuyệt đối của β1 tăng. Tuy nhiên, không giống trong đồ thị đường thẳng ở hồi quy tuyến tính, β1 không phải l& độ dốc v& do đó không thể được hiểu l& sự thay đổi về giá trị trung bình p khi x thay đổi 1 đơn vị. Đối với đường cong hình chữ S n&y, tỷ lệ đường cong dốc lên hoặc thoải, thay đổi nhưu thế n&o dự trên phạm vi của các giá trị x được biểu thị qua hình dưới.
Phương trình tổng quát hồi quy logistic đơn biến với duy nhất 1 biến độc lập v& một biến mục tiêu y nên có 1 hệ sốβ1. Trong thực tế khi phân tích chúng ta sẽ quan tâm nhiều hơn đến tất cả các yếu tố liên quan đến đối tượng mục tiêu nghiên cứu hay gọi l& biến y.
Mục tiêu dự báo hay ước lượng xác suất trung bình dẫn đến khả năng Y=1 hay Y=0 dựa trên phương trình tìm được. Phương trình tổng quát dạng đa biến tiêu chuẩn được viết như sau:
E( y )= eβ0+ β1x1+ β2x2+. .. +βpxp
1+eβ0+β1x1+ β2x2+.. .+βpxp (2.26)
E( y )=P( y=1|x1, x2,..., xp)
Phương trình tổng quát để ước lượng xác suất đa biến được viết lại như sau: