IV. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU
2.2 PHÂN LOẠI BẰNG PHƢƠNG PHÁP FISHER
2.2.1 Trƣờng hợp hai tổng thể
Xét trong trƣờng hợp hai tổng thể và với biến quan sát x có n
chiều. Gọi và là trung bình của và theo biến x. Giả sử ma trận hiệp phƣơng sai ∑ ,( )( ) - bằng nhau cho cả hai tổng thể. Đặt , trong đó ( ).
Ta có
là trung bình của theo biến y, là trung bình của theo biến y,
* + ∑ là phƣơng sai bằng nhau của hai tổng thể theo biến y.
Để tìm hàm phân biệt y ta tìm sao cho
( ) ( )
∑
( )( ) ∑
đạt giá trị cực đại. Fisher đã đƣa ra kết quả cụ thể ∑ ( ) với . Chọn ta có hàm phân biệt tuyến tính Fisher
( ) ∑
Đặt
20
khi đó nếu có phần tử mới với biến quan sát thì luật phân loại Fisher đƣợc thực hiện nhƣ sau:
Xếp phần tử mới vào tổng thể nếu ( ) ∑ , ngược lại ta xếp vào .
2.2.2 Trƣờng hợp nhiều hơn hai tổng thể
Trong trƣờng hợp nhiều hơn hai tổng thể ( ), giả sử ma trận hiệp phƣơng sai của các tổng thể bằng nhau: ∑ ∑ ∑ ∑. Gọi
là véctơ trung bình của các tổng thể theo biến I,
̅ ∑ là véctơ trung bình chung của các tổng thể theo biến x. Đặt , khi đó
là trung bình của theo biến y,
̅ ∑ ̅ là véctơ trung bình chung của các tổng thể theo biến y,
∑ là phƣơng sai giống nhau của các tổng thể theo biến y.
Tƣơng tự nhƣ trƣờng hợp hai tổng thể, để tìm hàm phân biệt tuyến tính y, chúng ta tìm để biểu thức sau đạt giá trị lớn nhất
∑( ̅ ) ∑ [∑ ( ̅)( ̅) ] ∑ ∑ ( ) ∑( ̅)( ̅)
Gọi với ( ) là giá trị riêng khác 0 của ma trận ∑ .
Với giá trị riêng , Fisher chứng minh rằng biểu thức (2.1) đạt giá trị lớn nhất khi véctơ thỏa ,(∑ )
∑
Khi đó đƣợc gọi là hàm phân biệt thứ i.
Giả sử có hàm phân biệt Fisher vừa tìm ở trên thì khoảng cách từ
21
( ) ( ) ( ) ∑ . /
∑, ( )-
Việc phân loại phần tử mới có giá trị y theo phƣơng pháp Fisher đƣợc
thực hiện rất tự nhiên.
Xếp phần tử mới vào tổng thể nếu bình phƣơng khoảng cách từ ytới
nhỏ hơn bình phƣơng khoảng cách từ y tới với mọi
Cụ thể
Xếp y vào tổng thể ( ) ( )
Gọi x là biến quan sát của phần tử mới sao cho , ta có
( ) ∑[ ( )] ( ) ∑ ( ) ( ) ∑ Trong đó ( ) ∑ ∑
Lúc này phần tử mới sẽ đƣợc xếp vào nếu ( ) nhỏ nhất. Vì
∑ giống nhau cho tất cả ( ) nên quy tắc phân loại đơn giản nhƣ sau:
Xếp phần tử mới vào nếu ( ) * ( )+
2.2.3 Phân loại Fisher với phần mềm SPSS
Sử dụng phần mềm SPSS để thực hiện phân loại theo phƣơng pháp
Fisher, chúng ta làm nhƣ sau:
Bước 1: Vào menu Analyze Classify Discriminant…Khi đó,
hộp thoại Discriminant Analysis sẽ xuất hiện.
Bước 2: Đƣa biến phụ thuộc (y) vào khung Grouping Variable. Kích
vào nút Define Range, điền số 0 cho ô Minimum, và điền số 1 cho ô Maximum, xong chọn Continue. Đƣa tiếp 1 biến hay 1 khối biến cần xét vào
ô Independents.
Bước 3: Vào tùy chọn Statistics check chọn các phần: Means,
22
trung bình từng tổng thể, các hệ số của các hàm phân biệt Fisher, các ma trận hiệp phƣơng sai và ma trận hiệp phƣơng sai gộp. Xong ta chọn continue.
Bước 4: Vào tùy chọn Classify chọn Summary table. Nếu muốn vẽ
các đồ thị thì độc giả kích chọn thêm các phần Plots. Xong ta chọn continue.
Bước 5: Vào tùy chọn Save check chọn các phần: Predicted group
membership, Discriminant scores, Probabilities of group membership.
Xong chọn continue.
Cuối cùng, chúng ta nhấn OK để SPSS đƣa ra kết quả phân tích.
2.3 PHƢƠNG PHÁP BAYES 2.3.1 Trƣờng hợp hai tổng thể 2.3.1 Trƣờng hợp hai tổng thể
a) Khi quan tâm đến xác suất tiên nghiệm
Xét hai tổng thể và với biến quan sát trên . Gọi ( | ) là xác suất để phần tử có biến quan sát x thuộc tổng thể thứ i (i = 1,2), khi đó việc phân loại phần tử đang quan tâm này đƣợc thực hiện nhƣ sau:
Nếu ( | ) ( | ) thì xếp phần tử vào , ngược lại xếp vào . (2.2) Theo định lý Bayes cho trƣờng hợp liên tục, xác suất hậu nghiệm ( | ) đƣợc xác định bởi công thức sau:
( | ) ∑ ( ) ( | ) ( ) ( | ) ( ) ( ) ( ) Trong đó
( )là xác suất tiên nghiệm của tổng thể , ,
( ) ( | ) là hàm mật độ xác suất của tổng thể ,
( ) ( ) ( ) là hàm mật độ xác suất kết hợp.
Thế (2.3) vào (2.2) và do ( )giống nhau cho 2 vế bất đẳng thức, nên quy luật (2.2) trở thành
Nếu ( ) ( ) thì xếp x vào , ngược lại xếp x vào . (2.4) Nguyên tắc (2.4) có thể viết lại dƣới dạng
23
( ) đƣợc gọi là tỷ số hợp lý, đƣợc gọi là giá trị ngƣỡng của sự quyết định.
Đôi khi để thuận tiện cho việc tính toán, ta lấy logarit cơ số e hai vế của tỷ số hợp lý. Lúc này luật (2.5) trở thành
Nếu , ( )- , ( )- . / thì xếp x vào , ngược lại xếp x vào
.
( ) , ( )- , ( )- , ( )- đƣợc gọi là hàm phân biệt.
b) Khi không quan tâm đến xác suất tiên nghiệm hoặc
Trong trƣờng hợp này thì (2.4) đƣợc viết lại nhƣ sau:
Nếu ( ) ( ) xếp x vào , ngược lại xếp x vào .
2.3.2 Trƣờng hợp nhiều hơn hai tổng thể
Xét k tổng thể với xác suất tiên nghiệm . Đặt ( ) ( ), khi đó phần tử với biến quan sát x đƣợc xếp vào nếu
( | ) ( | ) ( )
Áp dụng định lý Bayes cho trƣờng hợp liên tục thì (2.6) trở thành
( ) ( ) ( )
( )
( )
Trong đó
( ) là xác suất tiên nghiệm của tổng thể thứ i,
( )là hàm mật độ xác suất của tổng thể thứ i.
Sau khi ƣớc lƣợng đƣợc hàm mật độ xác suất cho các tổng thể, dựa vào nguyên tắc phân loại, chúng tôi đã viết một chƣơng trình phân loại trên phần mềm Matlab nhƣ sau:
Chƣơng trình 2.1. Phân loại phần tử x0 vào một trong k tổng thể n
chiều ( ) ( ( ) ) , - ( * + * +)
24
, - ( ) , -
Cách chạy chƣơng trình trên nhƣ sau:
Trong cửa sổ lệnh của Matlab ta lần lƣợt gõ các lệnh sau:
( ) ( ) ( ) ( ) Chú ý:
Kết quả (2.7) có thể viết rõ ràng hơn như sau:
Nếu ∑ ( ) ( ) ∑ ( ) ( ) , thì
( ) ( )
Chúng ta gọi ( ) ( ( )) là hàm phân biệt của tổng thể thứ i. Khi các tổng thể có biến quan sát X có phân phối chuẩn n chiều
( )
( ) ⁄ |∑| [ ( ) ∑ ( )]
Thì ( ) được xác định như sau:
( ) (|∑ |) ( ) ∑ ( ) ( ) ( )
Vì ( ) giống nhau cho các hàm phân biệt. Vì vậy, ta có thể bỏ số hạng này. Khi đó hàm phân biệt trên trở thành
( ) (|∑ |) ( ) ∑ ( ) ( )
Trong trường hợp các tổng thể có ma trận hiệp phương sai giống nhau thì hàm phân biệt trở thành
25
2.3.3 Sai số Bayes
a) Trƣờng hợp hai tổng thể
Trong trƣờng hợp không quan tâm đến xác suất tiên nghiệm q của , ta có
( | ) ∫ ( ) là xác suất phân loại một phần tử vào khi nó thuộc .
( | ) ∫ ( ) là xác suất phân loại một phần tử vào
khi nó thuộc . Trong đó
* | ( ) ( )+ * | ( ) ( )+
Xác suất sai lầm trong phân loại Bayes đƣợc gọi là sai số Bayes và đƣợc xác định bởi công thức
∫ * ( ) ( )+
Khi quan tâm đến xác suất tiên nghiệm q của thì trở thành và trở thành với ∫ ( ) ∫( ) ( ) Trong đó * | ( ) ( ) ( )+ * | ( ) ( ) ( )+
Đặt ( ) ( ), khi đó sai số Bayes xác định bởi công thức sau:
( ) ∫ * ( ) ( ) ( )+
Với và ; và đƣợc gọi chung là hai thành phần của sai số Bayes.
b) Trƣờng hợp nhiều hơn hai tổng thể
Sai số Bayes trong phân loại k tổng thể đƣợc định nghĩa bởi biểu thức
26
( ) ∑ ∫ ( ) ( )
|
Việc tính sai số Bayes bởi (2.8) rất phức tạp. Vì vậy ở trƣờng hợp này, thay vì tính xác suất sai lầm, ngƣời ta thƣờng tính xác suất của sự phân loại đúng ( ) nhƣ sau:
( ) ∑ ∫ ( )
Nhƣ vậy, sai số Bayes đƣợc xác định
( ) ( )
2.3.4 Chƣơng trình tính sai số Bayes
Sử dụng cách tính gần đúng hàm cực đại của các hàm mật độ xác suất bằng phƣơng pháp Monte-Carlo, chúng ta có chƣơng trình tính sai số Bayes cho các trƣờng hợp:
Chƣơng trình 2.2. Chƣơng trình tính sai số Bayes cho trƣờng hợp chiều với tổng thể ( ) ( ( ) ) , - ( ) ( ) ( ) ( ) ( ) . ( ( ))/ ( ) ( ) ( )
27
( )
Lƣu file vừa tạo với tên “saisobayes.m” trong thƣ mục “work” của Matlap. Khi cần tính độ rộng của k hàm mật độ xác suất 1 chiều ta thực hiện
nhƣ sau:
( )
Chƣơng trình 2.3. Chƣơng trình tính sai số Bayes cho trƣờng hợp chiều với tổng thể ( ) ( ( ) ) , - ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ( ( ( ( )) ( )) ( ))) ( ) ( ) ( ) ( ) ( )
28
Lƣu file vừa tạo với tên “saisobayes.m” trong thƣ mục “work” của Matlap. Khi cần tính độ rộng của k hàm mật độ xác suất n chiều ta thực hiện
nhƣ sau:
( )
2.4 PHƢƠNG PHÁP HỒI QUY LOGISTIC 2.4.1 Khái niệm 2.4.1 Khái niệm
a) Hồi quy Logistic
Hồi quy Logistic là một kỹ thuật phân tích hồi quy. Trong đó, biến phụ thuộc Y là một biến nhị phân. Theo đó Y chỉ có 2 giá trị thƣờng đƣợc mã hoá là và ( gọi là lớp thành công; gọi là lớp thất bại). Biến độc lập trong hồi quy Logistic có thể là biến rời rạc hoặc liên tục, biến đơn hoặc đa biến số.
Hồi quy Logistic đƣợc xây dựng trên nền tảng các mô hình hồi quy phổ biến, đặc biệt là hồi quy tuyến tính.
b) Odds và tỷ số odds
Định nghĩa 1.1. Odds của một biến cố xảy ra đƣợc định nghĩa là tỷ số
giữa xác suất của biến cố xảy ra với xác suất của biến cố đó không xảy ra. Kí hiệu: Odds của biến cố A đƣợc kí hiệu là ( ).
Nhƣ vậy
( ) ( )
( )
Định nghĩa 1.2. Tỷ số odds của hai biến cố và đã xảy ra là tỷ số của
( ) và ( ). Kí hiệu: ( ). Nhƣ vậy ( ) ( ) ( ) ( ) ( ) ( ) ( )
Nhận xét: Odds của một biến cố đã xảy ra là con số so sánh số lần xác suất xảy ra và không xảy ra của một biến cố. Trong khi đó ( ) là so sánh số lần của ( ) và ( ).
29
2.4.2 Hồi quy Logistic đơn a) Mô hình a) Mô hình
Khi phân tích dữ liệu nhị phân, chúng ta quan tâm đến việc phân tích mối quan hệ giữa xác suất của kết quả thành công với các biến độc lập ảnh hƣởng đến kết quả này, hơn là phân tích mối quan hệ giữa giá trị của biến phụ thuộc với các biến độc lập.
Khi tìm mối quan hệ giữa biến phụ thuộc nhị phân với các biến độc lập khác ta gặp vấn đề khó khăn so với các mô hình hồi quy khác. Bởi xác suất của sự thành công chỉ có thể đƣa giá trị giữa và trong khi các biến độc lập khác có thể nhận giá trị bất kỳ. Để giải quyết khó khăn này, ngƣời ta sử dụng mô hình hồi quy Logistic. Hàm hồi quy Logistic sẽ tìm mối quan hệ giữa odds của một sự thành công với các biến độc lập khác bất kỳ. Mối quan hệ này có thể tuyến tính và phi tuyến tính. Tuy nhiên, trong các bài toán thực tế mối quan hệ này thông thƣờng là tuyến tính.
Xét hai biến X và Y, trong đó Y chỉ nhận giá trị là 0 và 1 còn giá trị của X
ảnh hƣởng đến giá trị của Y. Gọi ( ) ( | ) là xác suất có điều kiện của khi X xảy ra. Giả sử ( ) có mối quan hệ với biến X, nhƣng ta không thể tìm trực tiếp mối quan hệ này vì ( ) thuộc , - trong khi tùy ý. Bởi vì [ ( ( ))] 0 ( )
( )1 có mối quan hệ với ( ) và có giá trị bất kỳ nên ta có thể thay thế mối quan hệ giữa ( ) và bằng mối quan hệ giữa 0 ( ) ( ) 1 và X. Giả sử mối quan hệ này là tuyến tính
[ ( )
( )] ( )
Hay
( )
( ) ( ) ( )
(2.9) và (2.10) là hai hình thức của mô hình hồi quy Logistic đơn. Trong đó
[ ( ( ))] hay 0 ( ) ( ) 1 còn đƣợc gọi là ( ( )).
Hai tham số và đƣợc gọi là hai hệ số của đƣờng hồi quy, cụ thể hơn đƣợc gọi là điểm chắn, đƣợc gọi là độ dốc.
30
Chú ý:
i) Ta có
* ( )+ * ( )+ ( ) ( )
Như vậy khi tăng lên 1 đơn vị thì ( ( )) sẽ tăng lên ii) Khi thì giá trị của odds tương ứng là
( ( )| ) ( )
Khi (tức tăng lên 1 đơn vị từ thì
( ( )| ) ( ( ))
Khi đó tỷ số là tỷ số của hai odds và được tính bằng công thức sau:
( ( )| )
( ( )| )
( ( ))
( ) ( )
b) Xây dựng đƣờng hồi quy mẫu
Trong hồi quy Logistic, các hệ số trong các đƣờng hồi quy đƣợc ƣớc lƣợng bằng phƣơng pháp hợp lý cực đại.
Giả sử ta có n mẫu quan sát độc lập ( ) . Trong đó
( ) . Giả sử phân phối có điều kiện cho khi xảy ra là phân phối nhị thức ( ) với
[
]
Gọi ̂ , ̂ lần lƣợt là các ƣớc lƣợng của và . Chúng ta xây dựng đƣờng hồi quy
( ( )
( )) ̂ ̂ ( )
Từ (2.11) ta có xác suất của sự thành công và không thành công đƣợc xác định bởi ( ̂ ̂ ) ( ̂ ̂ ) ( ̂ ̂ ) Thực hiên n lần quan sát ta có hàm hợp lý ( ̂ ̂ ) ∏ ( ) ∏ [( ( ̂ ̂ ) ( ̂ ̂ )) ( ( ̂ ̂ )) ]
31
( ̂ ∑ ̂ ∑ ) ∏ [ ( ̂ ̂ )]
Trong đó, nhận giá trị bằng 1 nếu kết quả thành công và nhận giá trị bằng 0 nếu kết quả thất bại.
Ta có ( ) * ( ̂ ̂ ) ( ̂ ̂ )+ ∑ ( ) ( ( ̂ ̂ ) ( ̂ ̂ )) (∑∑ ( ) ( ) )
Cho ( ) ta có hệ phƣơng trình cụ thể nhƣ sau:
{ ∑ ∑( [ ( ̂ ̂ )]) ∑ ∑ ( [ ( ̂ ̂ )])
Việc giải hệ phƣơng trình để tìm một biểu thức giải tích cụ thể rất phức tạp trong trƣờng hợp tổng quát, nên ngƣời ta chỉ giải trong trƣờng hợp cụ thể. Tuy nhiên việc tính toán trong trƣờng hợp cụ thể cũng không đơn giản, nên trong thực tế ngƣời ta thƣờng sử dụng đến sự hỗ trợ của các phần mềm toán học nhƣ SPSS hay R.
2.4.3 Hồi quy Logistic bội a) Mô hình a) Mô hình
Xét biến phụ thuộc Y và k biến độc lập . Trong đó Y chỉ nhận
hai giá trị 0 và 1 còn giá trị của ảnh hƣởng đến giá trị của Y. Đặt ( ), gọi ( ) ( | ) là xác suất điều kiện của khi X
xảy ra .Giả sử ( ), ta có quan hệ tuyến tính với biến bởi biểu thức sau:
* ( ) ( )+ ∑ ( ) Hay ( ) ( ) ( ∑ ) ( )
(2.12) và (2.13) là hai hình thức của mô hình hồi quy Logistic bội. .
32
b) Xây dựng đƣờng hồi quy mẫu
Quan sát n mẫu độc lập ta có các giá trị có thể có của và các giá trị có
thể có của là và . Giả sử là những biến độc lập và ( ). Gọi ̂ là những ƣớc lƣợng của . Ta có ( ) ( ̂ ∑ ̂ )
Từ đây ta rút ra đƣợc xác suất của sự thành công và không thành công cho một lần quan sát đƣợc xác định bởi công thức
( ̂ ∑ ̂ ) ( ̂ ∑ ̂ ) ( ̂ ∑ ̂ )
( ̂ ∑ ̂ ) ( ̂ ∑ ̂ )
Hàm hợp lý cho n quan sát trên là
∏ [( ( ̂ ∑ ̂ )
( ̂ ∑ ̂ )) ( ( ̂ ∑ ̂ ))
]
Trong đó nhận giá trị bằng 1 nếu kết quả thành công và nhận giá trị bằng 0 nếu kết quả thất bại.
Cực đại hoá hàm hợp lý L ta có hệ phƣơng trình
{ ∑ ∑ ( * ( ̂ ∑ ̂ )+) ∑ ∑ ( * ( ̂ ∑ ̂ )+) ( )
Trong đó ̂ ̂ với lần lƣợt là các ƣớc lƣợng của .
Việc giải hệ phƣơng trình (2.14) vô cùng phức tạp. Thực tế tính toán ngƣời ta chỉ ƣớc lƣợng giá trị số của nó bằng một chƣơng trình nào đó.
2.4.4 Vấn đề phân loại
33
( ) sẽ có xác suất để để thuộc lớp thành công và không thành công
( ̂ ∑ ̂ ) ( ̂ ∑ ̂ ) ( ̂ ∑ ̂ )
( ̂ ∑ ̂ ) ( ̂ ∑ ̂ )
Từ đây chúng ta có nguyên tắc phân loại là: Một phần tử với biến quan sát
( ) sẽ đƣợc xếp vào nhóm thành công nếu xác suất thành công nếu . Ngƣợc lại nếu ta sẽ xếp vào nhóm thất bại.
2.4.5 Sử dụng phần mềm SPSS trong hồi quy Logistic
Hiện nay sử dụng hồi quy Logistic trong phân loại là phƣơng pháp đƣợc sử dụng phổ biến nhất, đặc biệt là trong y học và trong xã hội. Vì vậy các các phần mềm thống kê phổ biến hiện nay nhƣ R, SPSS, Militab, Eview, … đều có các gói để xử lý. Trong luận văn này, chúng tôi sử dụng phần mềm SPSS. Các lệnh đƣợc sử dụng cụ thể nhƣ sau:
Bước 1: Tại cửa sổ dữ liệu của file Binary Logistic bạn chọn menu: Anlyze > Regression > Binary Logistic, lựa chọn này mở ra hộp thoại Logistic Regression.
Bước2: Chọn biến phụ thuộc (y) đƣa sang khung Dependent, nhớ chỉ
chọn biến có 2 biểu hiện, nếu biến phụ thuộc bạn chọn không có đúng 2 biểu hiện thì thủ tục này không thực hiện đƣợc.