Một số lượng lớncác dữ liệu đang được sưu tập, lưu trữ, quản lý và tương tác với các gói phầnmềm thống kê cho phép việc phân tích dữ liệu phức tạp được thực hiện dễ dàng.Ngày nay, các dữ
Trang 1trường đại học khoa học tự nhiên
-
Lờ Th ị Thanh Hà
Luận văn thạc sĩ khoa học
Hà Nội-2013
Trang 2trường đại học khoa học tự nhiên
-
Lờ Th ị Thanh Hà
Chuyờn ngành: Lý thuyết xỏc suất và thống kờ toỏn học
Trang 3Lời cảm ơn i
Lời nói đầu iv
1 Phân tích phân biệt tuyến tính 1 1.1 Quy tắc phân loại Bayes 2
1.1.1 Quy tắc phân loại Bayes 2 lớp 2
1.1.2 Phân tích phân biệt tuyến tính Gauss 3
1.1.3 LDA thông qua hồi quy bội 8
1.1.4 Quy tắc phân loại Bayes đa lớp 10
1.2 Phân biệt Logistic 15
1.2.1 Trường hợp 2 lớp 15
1.2.2 Trường hợp đa lớp 19
2 Support Vector Machine 21 2.1 Support vector machine tuyến tính 21
2.1.1 Trường hợp tách tuyến tính 21
2.1.2 Trường hợp không tách tuyến tính 28
2.2 Support vector machine phi tuyến 31
2.2.1 Không gian đặc trưng 32
2.2.2 Thủ thuật Kernel 33
2.2.3 Tối ưu hóa trong không gian đặc trưng 39
2.2.4 SVM là một phương pháp quy chuẩn 40
2.3 Support vector đa lớp 42
2.3.1 SVM đa lớp là một chuỗi bài toán nhị phân 42
2.3.2 Một SVM đa lớp đúng 43
ii
Trang 43.1 Minh họa về phân tích phân biệt tuyến tính 49
3.2 Ứng dụng SVM để phân loại email và spam 53
3.3 Dữ liệu chẩn đoán ung thư vú Wisconsin 56
Kết luận 60
Tài liệu tham khảo 62
Trang 5kể trong khả năng tính toán địa phương và lưu trữ dữ liệu Một số lượng lớncác dữ liệu đang được sưu tập, lưu trữ, quản lý và tương tác với các gói phầnmềm thống kê cho phép việc phân tích dữ liệu phức tạp được thực hiện dễ dàng.
Ngày nay, các dữ liệu khổng lồ đã trở thành tiêu chuẩn để làm việc hơn là
bị đặt ở trường hợp ngoại lệ và thống kê là một môn khoa học được thay đổi đểtheo kịp với sự phát triển này Thay vì phụ thuộc quá nhiều vào kiểm tra giảthuyết truyền thống, sự chú ý đang được tập trung vào thông tin hoặc khámphá kiến thức Theo đó, chúng ta thấy một số tiến bộ gần đây trong phân tích
đa biến bao gồm các kỹ thuật từ khoa học máy tính, trí thông minh nhân tạo
và lý thuyết học máy Tuy nhiên, nhiều trong số các kỹ thuật mới này vẫn cònđang trong giai đoạn mở đầu, chờ lý thuyết thống kê để bắt kịp đồng thời cònchưa được phổ dụng mặc dù rất hiệu quả
Nhằm tìm hiểu các kỹ thuật phân tích thống kê mới này, bản luận văn tậptrung vào 2 kỹ thuật đang được sử dụng rộng rãi hiện nay, đó là kỹ thuật phântích phân biệt và kỹ thuật Support vector machines Ngoài phần mở đầu, kếtluận và tài liệu tham khảo, luận văn gồm có 3 chương:
Chương 1: "Phân tích phân biệt" trình bày các kỹ thuật phân loại củaphương pháp phân tích phân biệt bao gồm quy tắc phân loại Bayes và phânbiệt Logistic Xuất phát là quy tắc phân loại cho bài toán nhị phân sau một
Trang 6số trường hợp đặc biệt sẽ là quy tắc phân loại cho bài toán đa lớp.
Chương 2: "Support Vector Machines" Trong chương này, chúng ta sẽ mô
tả support vector machines tuyến tính và phi tuyến giống như lời giải của bàitoán phân loại nhị phân Support vector phi tuyến kết hợp các phép biến đổikhông tuyến tính của các vectơ đầu vào và sử dụng các thủ thuật kernel để
có thể tính toán đơn giản hơn Mặc dù phương pháp support vector được xâydựng đặc biệt cho trường hợp phân loại nhị phân nhưng chúng ta cũng nỗ lực
để mở rộng phương pháp cho bài toán đa lớp
Chương 3: "Một số ví dụ thực tế"
Hà nội, ngày 22 tháng 02 năm 2013
Trang 7Phân tích phân biệt tuyến tính
Xét một tập L các quan sát nhiều chiều và giả thiết rằng mỗi quan sátđược lấy từ lớp K xác định nào đó có các tính chất đặc trưng Các lớp này cóthể đồng nhất, ví dụ như loài thực vật, mức độ tín nhiệm của khách hàng, sựhiện diện hay vắng mặt của 1 tình trạng y tế cụ thể, quan điểm về kiểm duyệtInternet hoặc email -spam Để phân biệt các lớp đã biết từ những lớp khácnhau, chúng ta sẽ liên kết 1 lớp nhãn duy nhất (hoặc 1 giá trị đầu ra) với mỗilớp; sau đó, quan sát sẽ được mô tả giống như là các quan sát đã gán nhãn.Trong mỗi tình huống, chúng ta sẽ nhằm vào 2 mục đích chính
• Phân biệt: Chúng ta sẽ sử dụng thông tin trong một tập dữ liệu cácquan sát đã gán nhãn để xây dựng nên một "quy tắc phân loại" mà sẽtách được các lớp một cách tốt nhất có thể
• Phân lớp: Cho sẵn một tập các thước đo trên một quan sát mới mà chưađược gán nhãn, chúng ta sẽ sử dụng quy tắc phân loại để dự đoán lớp củaquan sát đó
Một quy tắc phân loại là một tổ hợp của các biến đầu vào Khi có 2 lớp (K = 2),chúng ta sẽ chỉ cần 1 quy tắc phân loại và khi có lớn hơn 2 lớp (K > 2), chúng
ta sẽ cần ít nhất là 2 và nhiều nhất là K − 1 quy tắc phân loại để phân biệtcác lớp và dự đoán lớp của quan sát mới
Để hiểu rõ hơn, chúng ta sẽ xem xét một ví dụ về chuẩn đoán y tế sau đây.Nếu một bệnh nhân vào phòng khẩn cấp với vấn đề đau dạ dày nghiêm trọng
1
Trang 8và các triệu chứng phù hợp với cả ngộ độc thực phẩm và viêm ruột thừa thì
1 quyết định đặt ra đó là " loại bệnh nào phù hợp với bệnh nhân hơn?" thìsau đó bệnh nhân mới được điều trị Trong bài toán này, chúng ta thấy rằng,hướng điều trị thích hợp cho nguyên nhân gây bệnh này sẽ là phương phápđối lập với nguyên nhân gây bệnh còn lại: viêm ruột thừa đòi hỏi phải phẫuthuật trong khi ngộ độc thực phẩm thì không, đồng thời việc chẩn đoán sai cóthể gây ra tử vong Theo kết quả của các thử nghiệm lâm sàng, bác sỹ quyếtđịnh khi một quá trình điều trị có thể tối đa hóa khả năng thành công Nếu
tổ hợp các kết quả kiểm tra nhắm vào một hướng cụ thể thì phẫu thuật đượckhuyến khích; ngược lại, các bác sỹ sẽ đề xuất điều trị không phẫu thuật Khi
đó, một "quy tắc phân loại" sẽ được xây dựng từ các kinh nghiệm dựa trên kếtquả điều tra của các bệnh nhân điều trị trước Quy tắc phân loại càng đángtin cậy thì cơ hội chẩn đoán thành công càng lớn đối với một bệnh nhân mớitrong tương lai
1.1 Quy tắc phân loại Bayes
1.1.1 Quy tắc phân loại Bayes 2 lớp
Đầu tiên chúng ta xét bài toán phân loại 2 lớp (K = 2), trong đó chúng tamong muốn phân biệt giữa 2 lớp Π1, Π2
Cho
P (X ∈ Πi) = πi, i = 1, 2, (1.1)
là xác suất tiên nghiệm mà 1 quan sát ngẫu nhiên được lựa chọn X = x thuộc
Π1 hoặc Π2 Giả sử, mật độ xác xuất đa biến có điều kiện của X với lớp thứ ilà
P ({X = x|X ∈ Πi}) = fi(x), i = 1, 2 (1.2)Theo định lý Bayes, chúng ta thu được xác suất hậu nghiệm
p(Πi|x) = P (X ∈ Πi|X = x) = fi(x)πi
f1(x)π1+ f2(x)π2
, i = 1, 2 (1.3)Như vậy, với một x cho trước, chúng ta có ý tưởng phân loại đó là gán x vàolớp mà có xác suất hậu nghiệm cao hơn Quy tắc này được gọi là quy tắc phân
Trang 9loại Bayes Hay nói cách khác, chúng ta sẽ gán x vào Π1 nếu
p(Π1|x)p(Π2|x) > 1, (1.4)
và gán vào Π2 nếu ngược lại Thay (1.3) vào (1.4), chúng ta có quy tắc phânloại
Quy tắc phân loại
1.1.2 Phân tích phân biệt tuyến tính Gauss
Bây giờ chúng ta sẽ làm quy tắc phân lớp Bayes chính xác hơn bằng giảthiết Fisher rằng cả 2 mật độ xác suất nhiều chiều trong (1.2) là Gauss, cóvectơ trung bình tùy ý
(a) Trường hợp có ma trận covariance chung Tức là, f1(·) là 1 mật độ
Trang 10Khi đó
L(X) = b0+ bTx
Quy tắc phân loại
Quy tắc phân loại
(
x∈ Π1 khi L(x) > 0
x∈ Π2 ngược lại (1.10)Trên biên {x ∈ Rr|L(X) = 0}, phương trình kết quả là tuyến tính trong x và
do đó, xác định một siêu phẳng phân tách 2 lớp Quy tắc (1.10) được gọi làphân tích phân biệt tuyến tính Gauss(LDA)
Biểu thức
U = bTx= (µ1− µ2)TΣ−1XXx, (1.11)được gọi là hàm phân biệt tuyến tính Fisher(LDF)
Tổng xác suất phân loại sai
LDF chia không gian đặc trưng Rr thành 2 lớp rời nhau R1, R2 Nếu x rơivào R1, ta gán nó vào Π1 trong khi nếu x rơi vào R2, ta sẽ gán nó vào Π2 Bâygiờ, chúng ta quan tâm tới xác suất phân loại sai x
x sẽ bị phân loại sai nếu x được gán vào Π2 nhưng thực sự nó lại thuộc Π1hoặc x được gán vào Π1 nhưng thực sự nó lại thuộc vào Π2
Khoảng cách Mahalanobis giữa Π1 và Π2 được định nghĩa là
∆2 = (µ1− µ2)TΣ−1XX(µ1− µ2) (1.12)
Ta có
E(U|X ∈ Πi) = bTµi= (µ1− µ2)TΣ−1XXµi, i = 1, 2, (1.13)và
var(U|X ∈ Πi) = bTΣXXb = ∆2 (1.14)Đặt
Z = U − E(U|X ∈ Πi)p
var(U|X ∈ Πi) ∼ N (0; 1)
Trang 11Khi đó tổng xác suất phân loại sai là
P (∆) = P (X ∈ R2|X ∈ Π1)π1+ P (X ∈ R1|X ∈ Π2)π2 (1.15)trong đó,
Các kịch bản khác nhau dưới đây là có khả năng khi lấy mẫu từ phần tử củaP:
Trang 121 Lấy mẫu có điều kiện, trong đó 1 mẫu kích thước cố định n = n1 + n2
là được lựa chọn ngẫu nhiên từ P, và tại x cố định có n1(x) quan sát
từ Πi, i = 1, 2 Kịch bản lấy mẫu này thường xuất hiện trong sinh trắcnghiệm
2 Lấy mẫu hỗn hợp, trong đó 1 mẫu kích thước cố định n = n1+ n2 là đượclựa chọn ngẫu nhiên từ P, thỏa mãn n1, n2 được lựa chọn ngẫu nhiên.Điều này khá thông thường trong nghiên cứu sự phân biệt
3 Lấy mẫu tách, trong đó mẫu kích thước ni cố định được lựa chọn ngẫunhiên từ Πi, i = 1, 2, và n = n1+ n2 Đây là kịch bản phổ biến nhất.Trong cả 3 kịch bản, các ước lượng hợp lý nhất của b0, b có thể thu được(Anderson, 1982)
Các ước lượng mẫu
Các ước lượng ML của µi, i = 1, 2 và ΣXX được cho bởi
ˆ
µi = ¯Xi = n−1i
n i
Xj=1
Xij; i = 1, 2 (1.18)ˆ
ΣXX = n−1SXX, (1.19)trong đó
SXX = SXX(1) + SXX(2) , (1.20)
SXX(i) =
n i
Xj=1(Xij − ¯Xi)(Xij − ¯Xi)T, i = 1, 2; n = n1+ n2 (1.21)
Nhận xét 1.1.2 Nếu chúng ta muốn ước lượng không chệch của ΣXX, chúng
ta chia SXX trong (1.20) cho bậc tự do của nó n − 2 = n1+ n2− 2 để thu đượcb
ˆL(x) = ˆb0+ ˆbTx (1.23)
Trang 13Quy tắc phân loại
(b) Trường hợp ma trận covariance khác nhau Trong mục này chúng ta
sẽ tìm hiểu xem quy tắc phân lớp (1.10) sẽ thay đổi như thế nào nếu ma trậncovariance của 2 dữ liệu Gauss là khác nhau Nghĩa là, Σ1 6= Σ2
Trong trường hợp này (1.7) trở thành
số hợp lý -log (1.28) có dạng 1 hàm bậc 2 của x Trong trường hợp này, lập
Q(x) = β0+ βTx+ xTΩx, (1.29)trong đó
Chú ý rằng Ω là 1 ma trận đối xứng Quy tắc phân lớp
(gán x vào Π1, nếu Q(x) > 0,gán x vào Π2, nếu Q(x) < 0, (1.33)
Trang 14Hàm Q(x) được gọi là hàm phân biệt bậc 2(QDF) và quy tắc phân lớp (1.33)được gọi là phân tích phân biệt bậc 2 (QDA) Biên {x ∈ Rr|Q(x) = 0} mà tách
2 lớp là một hàm bậc 2 của x
Ước lượng hợp lý cực đại (ML)
Nếu r + 3 tham số phân biệt trong µ1, µ2, Σ1 và Σ2 là chưa biết và π1, π2 cũngchưa biết (1 tham số điều kiện), chúng có thể được ước lượng bằng cách sửdụng mẫu ở phía trên với ngoại lệ của ma trận covariance, trong đó ước lượngcủa Σi là
b
Σi = n−1i
n i
Xj=1(Xij − ¯Xi)(Xij − ¯Xi)T; i = 1, 2 (1.34)Thay thế các ước lượng vào Q(x) trong (1.29), chúng ta có
bQ(x) = bβ0+ bβTx+ xTΩx,b (1.35)trong đó
β = bΣ−11 X¯1− bΣ−12 X¯2 (1.37)b
và bc1 là ước lượng của số hạng đầu tiên trong (1.28)
Do quy tắc phân loại bQ(x) phụ thuộc vào nghịch đảo của bΣ1 và bΣ2, nó chỉ
ra rằng nếu cả n1 hoặc n2 nhỏ hơn r thì bΣi (i = 1 hoặc 2) sẽ suy biến và QDAthất bại
1.1.3 LDA thông qua hồi quy bội
Các kết quả phía trên cũng có thể thu được bằng cách sử dụng hồi quy bội
Ý tưởng là chúng ta tạo ra một biến chỉ số Y biểu diễn các quan sát mà rơivào các lớp tương ứng, sau đó hồi quy Y trên vectơ đặc trưng X
Trang 15XcXcT = SXX + kddT, (1.45)
YcXcT = k(y1− y2)dT, (1.46)
YcYcT = k(y1− y2)2, (1.47)trong đó
Trang 16Chúng ta có
(Ir + kddTS−1
XX)−1 = Ir− kdd
TS−1XX
là thống kê Hotelling T2, mà được sử dụng để kiểm tra giả thuyết µ1 = µ2 Giả
sử tính chuẩn tắc đa biến
(n− r − 1r(n− 2) )T
2
∼ Fr,n−r−1 (1.54)khi giả thuyết này là đúng Chú ý rằng D2 = dTΣbXX−1d là tỷ lệ thuận với 1ước lượng của ∆2 Từ (1.24) và (1.52), ta có
ˆ
β ∝ bΣ−1XX( ¯X1− ¯X2) = ˆb, (1.55)trong đó, hằng số tỷ lệ là n1n2(y1− y2)
n(n1+ n2− 2 + T2) Điều này, lần đầu tiên được ghinhận bởi Fisher(1936) Do đó, chúng ta có thể thu được ước lượng Fisher LDF(1.24) thông qua hồi quy bội
1.1.4 Quy tắc phân loại Bayes đa lớp
Bây giờ chúng ta giả sử rằng, các phần tử sẽ được chia vào K > 2 lớp rờinhau Xét ví dụ về phân loại văn bản Ở mức độ đơn giản nhất của xử lý thôngtin, chúng ta cần lưu và phân loại các file, email và URL Với mức độ phức tạphơn, chúng ta cần gán các mục tin tức, computer FAQs, an ninh thông tin, xácđịnh tác giả, nhận dạng thư rác, để phân loại
Cho
p(X ∈ Πi) = πi, i = 1, , K, (1.56)
Trang 17là xác suất tiên nghiệm của một quan sát ngẫu nhiên được chọn X mà thuộcvào mỗi lớp khác nhau và cho
p(X = x|X ∈ Πi) = fi(x), i = 1, , K, (1.57)
là mật độ xác suất nhiều chiều cho mỗi lớp Kết quả xác suất hậu nghiệm mà
1 quan sát x thuộc lớp thứ i được cho bởi
Do đó, x được gán vào Πi nếu fi(x)πi > fj(x)πj,∀j 6= i hoặc tương đươngnếu loge(fi(x)πi) > loge(fj(x)πj),∀j 6= i Quy tắc phân loại Bayes có thể đượcxác định ở một dạng tương đương bởi cặp so sánh các xác suất hậu nghiệm.Chúng ta định nghĩa "log −odds" mà cho biết x sẽ được gán vào Πi chứ khôngphải Πj như sau
Ri = {x ∈ Rr|Lij(x) > 0; j = 1, , K; j 6= i}, i = 1, , K (1.61)Lập luận này có thể chính xác hơn bằng cách giả thiết rằng lớp thứ i Πi mà fi(·)
là mật độ N (µi, Σi) trong đó µi là r- vector và Σilà ma trận (r ×r) covariance,(i = 1, 2, , K) Chúng ta giả thiết sâu hơn rằng ma trận covariance cho K lớp
là đồng nhất Σ1 =· · · = ΣK và bằng ma trận covariance chung ΣXX Dưới giả
Trang 18thiết Gauss nhiều biến, log −odds của việc gán x vào Πi (phản đối Πj) là mộthàm tuyến tính của x,
Lij(x) = b0ij + bTijx, (1.62)trong đó
bij = (µi− µj)TΣ−1XX (1.63)
b0ij = −1
2{µTi Σ−1XXµi− µTj Σ−1XXµj} + loge(πi
πj) (1.64)
Do Lij(x) là tuyến tính theo x, các Ri trong (1.61) chia không gian r- chiềubởi các siêu phẳng
Ước lượng hợp lý cực đại
Thông thường, vector trung bình và ma trận covariance chung sẽ chưa biết.Trong trường hợp đó, chúng ta ước lượng Kr + r(r + 1)
2 tham số phân biệtbằng cách lấy mẫu từ mỗi K lớp Do đó, từ lớp thứ i, chúng ta lấy ni quan sát
Xij, j = 1, 2, , ni trên r- vect-tơ mà sau đó được lập thành ma trận dữ liệu
Trang 19trong đó Hn j là (nj× nj) ma trận trung tâm Do đó, chúng ta tính toán
r×r
SXX =XcXT
c =
KXi=1
n i
Xj=1(Xij − ¯Xi)(Xij − ¯Xi)T (1.70)Bây giờ, chúng ta xét phân tích
Xij − ¯X = (Xij − ¯Xi) + ( ¯Xi− ¯X), (1.71)cho quan sát thứ j trong lớp thứ i, trong đó
¯
X = n−1X 1n = n−1
KXi=1
n 1
Xj=1
Xij = ( ¯X1, , ¯Xr)T (1.72)
là toàn bộ vector giá trị trung bình bỏ qua các lớp đồng nhất Nhân vào bênphải 2 vế của (1.71) với chuyển vị tương ứng và lấy tổng trên toàn bộ n quansát và chú ý rằng, số hạng tích trực giao là biến mất, chúng ta đi tới phân tíchnhiều chiều cùng phương sai đồng nhất (MANOVA)
Stot = SB+ SW, (1.73)trong đó Stot, SB và SW được cho bởi bảng trên
Bảng 1.1: Bảng phân tích ma trận hiệp phương sai đa biến cho K lớp Π 1 , Π 2 , , Π K , khi có một mẫu ngẫu nhiên của n i quan sát được lấy từ Π i , i = 1, 2, , K.
Do đó, toàn bộ ma trận covariance của các quan sát, Stot có n − 1 bậc tự
do và được tính toán bằng cách bỏ đi các lớp đồng nhất, được phân thành 1phần ma biểu diễn ma trận covariance giữa các lớp SB, có K − 1 bậc tự do và
Trang 201 phần khác biểu diễn ma trận covariance hợp nhất các lớp, SW(= SXX), có
n− K bậc tự do Một ước lượng không chệch của ma trận covariance chung
ΣXX của K lớp được cho bởi
b
ΣXX = (n− K)−1SW = (n− K)−1SXX (1.74)Nếu chúng ta cho fi(x) = fi(x, ηi), trong đó ηi là một r vector của các tham
số chưa biết và giả sử rằng {πi} đã biết, xác suất hậu nghiệm (1.58) được ướclượng bởi
ˆp(Πi|x) = Kfi(x, ˆηi)πi
Pj=1
Nếu {fi(·)} là mật độ Gauss nhiều chiều và ηi = (µi, ΣXX) thì phiên bảnmẫu của Lij(x) được cho bởi
b
Lij(x) = bboij + bbTijx, (1.77)trong đó,
n; i = 1, 2, , K.Quy tắc phân loại chuyển thành
gán x vào Πinếu bLij(x) > 0; j = 1, 2, , K; j 6= i (1.80)Nói cách khác, chúng ta gán x vào lớp Πi với giá trị lớn nhất của bLij(x).Trong trường hợp có ma trận covariance không thể được giả thiết như nhau,ước lượng vector trung bình thu được bằng cách ước lượng (1.67) và ma trận
Trang 21covariance lớp thứ i, Σi, được ước lượng bới ước lượng hợp lý cực đại của nó
b
Σi = n−1i
n i
Xj=1(Xij − ¯Xi)(Xij − ¯XiT), i = 1, 2, , K (1.81)
Như vậy, chúng ta sẽ có Kr + Kr(r + 1)
2 tham số phân biệt cần ước lượng vànếu r lớn thì đây sẽ là một sự gia tăng đáng kể so với thực hiện LDA Các kếtquả phân tích phân biệt bậc 2 (QDA) là tương tự với trường hợp 2 lớp nếuchúng ta quyết định dựa vào so sánh logefi(x), i = 1, 2, , K− 1 với logefK(x)
p(Π1|x) = eL(x)
1 + eL(x), (1.83)p(Π2|x) = 1
1 + eL(x) (1.84)trong đó,
L(x) = β0+ βTx (1.85)Chúng ta có thể viết (1.83) là
p(Π1|x) = 1
1 + e−L(x) = σ(L(x)), (1.86)trong đó, σ(u) = 1
1 + e−u là một hàm sigmoid, lấy giá trị u ∈ R trên (0; 1).Ước lượng hợp lý cực đại
Trang 22Bây giờ chúng ta viết p(Π1|x) là p1(x, β0, β) và tương tự với p2(x, β0, β) Do đó,thay vì ước lượng µ1, µ2 đầu tiên và ΣXX như đã làm trong (1.20) và (1.21)
để ước lượng β0 và vector hệ số β, chúng ta sẽ ước lượng trực tiếp thông qua(1.82) Chúng ta định nghĩa biến đáp ứng Y như sau
Cho trước n quan sát, (Xi, Yi), i = 1, 2, , n trên (X, Y ), điều kiện hợp lý cho(β0, β) có thể được viết là
L(β0, β) =
nYi=1(p1(xi, β0, β))yi(1− p1(xi, β0, β))1−yi, (1.88)khi đó điều kiện hợp lý -log là
ℓ(β0, β) =
nXi=1{yilogep1(xi, β0, β) + (1− yi) loge(1− p1(xi, β0, β))} (1.89)
=
nXi=1{yi(β0+ βTxi)− loge(1 + eβ0 +βx)} (1.90)
Các ước lượng hợp lý cực đại, βe0, eβ của (β0, β) thu được bằng cách cực đạiℓ(β0, β) theo β0, β Thuật toán cực đại được rút thành một phiên bản lặp củaquy trình bình phương tối thiểu có trọng số trong đó các trọng số và các phảnứng được cập nhật tại mỗi bước tương tác Chi tiết của thuật toán lặp bìnhphương tối thiểu đánh lại trọng số được trình bày ở mục sau
Ước lượng hợp lý cực đại βe0, eβ có thể đưa vào (1.85) để đưa ra 1 ước lượngkhác của LDF,
eL(x) = eβ0+ eβTx (1.91)Quy tắc phân lớp (
x∈ Π1, nếu eL(x) > 0
x∈ Π2, nếu eL(x) < 0,
Trang 23được gọi là phân tích phân biệt logistic.
Chúng ta chú ý rằng cực đại (1.90) nói chung sẽ không thu được cùng ướclượng cho β0, β như chúng ta tìm được trong (1.24) và (1.25) cho Fisher LDF.Một quy trình phân lớp tương đương là để sử dụng eL(x) trong (1.91) để ướclượng xác suất p(Π1|x) trong (1.83) Thay thế eL(x) vào (1.83) thu được ướclượng
ep(Π1|x) = e
e L(x)
1 + eL(x)e , (1.92)
vì vậy x được gán vào Π1 nếu ep(Π1|x) là lớn hơn giá trị cắt nào đó, giả sử 0.5
và x được gán vào Π2 nếu ngược lại
Thuật toán bình phương tối thiểu đánh lại trọng số lặp
Để rõ ràng hơn, chúng ta định nghĩa lại r- vector xi và β như (r + 1)-vectorsau: xi ←− (1, xT
i )T và β ←− (β0, βT)T Do đó, β0+ βTxi có thể được viết gọnhơn là βTxi Chúng ta cũng viết p1(xi, β0, β) là p1(xi, β) và ℓ(β0, β) là ℓ(β).Đạo hàm (1.90) và cho đạo hàm bằng 0 thu được phương trình điểm
·ℓ(β) = ∂ℓ(β)
∂β =
nXi=1
Trang 24trong đó các đạo hàm được tính tại eβ(k).
Sử dụng ký hiệu ma trận, chúng ta lập
X = (X1, , Xn),Y = (Y1, , Yn)T,lần lượt là ma trận dữ liệu ((r + 1) × n) và n-vector, và cho W = diag{wi} là
ma trận trọng số đường chéo (n × n) với phần tử thứ i trên đường chéo đượccho bởi
wi = p1(xi, eβ)(1− p1(xi, eβ)), i = 1, 2, , n
vector điểm của các đạo hàm cấp 1 của (1.93) và ma trận Hessian (1.94) có thểđược viết lại lần lượt là
·ℓ(β) =X (Y − p1),··ℓ(β) =−X WXT, (1.96)trong đó, p là n- vector
z=XTβe(k) + W−1(y− p1), (1.98)
là một n- vector Phần tử thứ i của z được cho bởi
zi = xTi βe(k) + yi− p1(xi, eβ(k))
p1(xi, eβ(k))(1− p1(xi, eβ(k))). (1.99)Cập nhật (1.97) có dạng của 1 ước lượng bình phương tối thiểu tổng quát với
W là ma trận đường chéo của các trọng số, z là vector phản ứng và X là matrận dữ liệu Chú ý rằng p1 = p(k)1 , z = z(k) và W = W(k) có cập nhật tại mỗibước trong thuật toán bởi vì chúng phụ thuộc vào eβ(k) Hơn nữa, công thức cậpnhật (1.97) giả sử rằng ((r + 1) × (r + 1))- ma trận X WXT có thể lấy nghịchđảo, 1 điều kiện mà sẽ vi phạm trong ứng dụng mà n < r + 1 Mặc dù thực tếrằng sự hội tụ của thuật toán IRLS tới cực đại của ℓ(β) không thể được đảmbảo, nhưng thuật toán hội tụ tới hầu hết các trường hợp
Trang 25Nhận xét 1.2.1 Phân tích phân biệt Gauss hay Phân biệt logistic
So sánh lý thuyết và thực tiễn giữa 2 loại phân biệt chúng ta rút ra một vàikhác biệt dưới đây
1 Điều kiện hợp lý -log (1.90) là có hiệu lực dưới các giả thiết của họ hàm mũtrên f(·) (bao gồm mô hình Gauss đa biến với cùng ma trận covariance).Điều này cho thấy rằng phân biệt logistic là tốt hơn phân tích phân biệtGauss khi không có giả thiết chuẩn
2 Các nghiên cứu mô phỏng đã chỉ ra rằng khi giả thiết về phân phối Gausshoặc giả thiết cùng ma trận covariance không được thỏa mãn thì phânbiệt logistic thực hiện tốt hơn
3 Phân tích phân biệt logistic là tiệm cận ít hiệu quả hơn phân tích phânbiệt Gauss bởi vì Gauss LDA được dựa trên đầy đủ ML hơn là điều kiệnML
4 Tại điểm mà chúng ta kỳ vọng phân biệt tốt sẽ diễn ra, phân biệt logisticđòi hỏi một kích thước mẫu lớn hơn Gauss LDA để đạt được cùng phânphối tỷ lệ sai số (Efron, 1975) và kết quả này mở rộng tới LDA bằng cách
sử dụng 1 họ hàm mũ với ước lượng plug-in
1.2.2 Trường hợp đa lớp
Phương pháp phân biệt logistic mở rộng cho trường hợp đa lớp (> 2) Đặt
ui = loge{fi(x)πi}, chúng ta có thể biểu diễn (1.58) dưới dạng
p(Πi|x) = e
u i
PK k=1eu k
= σi (1.100)
Trong ngôn ngữ thống kê, (1.100) được biết là mô hình logistic bội, trong khi
ở ngôn ngữ mạng neural, nó được gọi là hàm kích hoạt mũ chính tắc (hoặcsoftmax) Mặt khác, chúng ta có thể viết
σi = 1
1 + e−ω i, (1.101)
Trang 26Li(x) = ui− uK = b0i+ bTi x, (1.102)trong đó,
bi = (µi− µK)TΣ−1XX (1.103)
b0i= −1
2{µTi Σ−1XXµi− µTKΣ−1XXµK} + loge{ πi
πK} (1.104)Nếu chúng ta chia cả tử và mẫu của (1.100) cho eu K và sử dụng (1.102) thì xácsuất tiên nghiệm có thể được viết là
p(Πi|x) = e
L i (x)
1 +PK−1
k=1 eL k (x), i = 1, 2, , K − 1, (1.105)p(ΠK|x) = 1
1 +PK−1
k=1 eLk(x) (1.106)Nếu chúng ta viết fi(x) = fi(x, ηi), trong đó ηi là một r vector của các tham sốchưa biết, thì chúng ta sẽ ước lượng ηi bởi bηi và fi(x) bởi bfi(x) = fi(x, bηi) Quytắc phân lớp được thực hiện một cách tương tự đó là chúng ta sẽ gán x vào lớp
mà cực đại fi(x, bηi), i = 1, 2, , K Quy tắc này được gọi là quy tắc phân biệtlogistic bội
Trang 27Support Vector Machine
2.1 Support vector machine tuyến tính
Giả sử chúng ta có 1 tập dữ liệu
L = {(xi; yi) : i = 1, 2, , n} (2.1)trong đó xi ∈ Rr và yi ∈ {−1; +1} Bài toán phân loại nhị phân là hãy sử dụng
L, xây dựng hàm f : Rr −→ R thỏa mãn
C(x) = sign(f (x)) (2.2)
là 1 quy tắc phân loại
Như vậy, hàm tách f chia mỗi điểm mới x trong tập kiểm tra T vào mộttrong hai lớp Π+ hoặc Π− phụ thuộc vào liệu C(x) là +1 (nếu f(x) ≥ 0) hoặc
−1 (nếu f(x) < 0) Mục đích ở đây là để có 1 hàm f mà gán tất cả các điểmdương trong tập T (ví như những điểm có y = +1) vào Π+ và tất cả các điểm
âm trong T (y = −1) vào Π− Trong thực hành, chúng ta biết rằng không cókhả năng phân loại đúng 100%
2.1.1 Trường hợp tách tuyến tính
Đầu tiên, xét trường hợp đơn giản nhất: Giả sử các điểm dữ liệu dương(yi = +1) và âm (yi = −1) từ tập dữ liệu L có thể được tách bởi một siêuphẳng
{x : f(x) = β0+ xTβ = 0}, (2.3)
21
Trang 28trong đó β là vector hệ số với chuẩn Euclid kβk và β0 là độ chệch (b = −β0 làngưỡng) Nếu siêu phẳng có thể chia tập dữ liệu vào 2 lớp mà không có lỗi thìsiêu phẳng được gọi là siêu phẳng tách Như vậy, rõ ràng là một số vô hạn cácsiêu phẳng tách như vậy Vấn đề đặt ra là làm sao có thể xác định siêu phẳngtách tốt nhất.
Xét siêu phẳng bất kỳ Gọi d− là khoảng cách ngắn nhất từ siêu phẳng táchtới điểm dữ liệu âm gần nhất và d+ là khoảng cách ngắn nhất cũng từ siêuphẳng đó tới điểm dữ liệu dương gần nhất Do đó, biên của siêu phẳng táchđược xác định như d = d−+ d+ Ta thấy rằng, nếu khoảng cách của siêu phẳng
và các quan sát gần nhất là max thì siêu phẳng này sẽ là tách tối ưu
Nếu dữ liệu đầu vào từ 2 lớp là phân chia tuyến tính thì tồn tại β0 và βthỏa mãn
β0+ xTi β ≥ 1, nếu yi = +1 (2.4)
β0+ xTi β ≤ −1, nếu yi = −1 (2.5)Nếu có vector dữ liệu trong L mà đẳng thức (2.4) xảy ra thì vector dữ liệu đónằm trên siêu phẳng H+ : (β0− 1) + xTβ = 0; tương tự nếu có vector dữ liệutrong L mà đẳng thức (2.5) đúng thì vector dữ liệu đó nằm trên siêu phẳng
d− = |β0+ xT−1β|
kβk =
1kβk; d+ =
|β0+ xT+1β|kβk =
1kβk. (2.7)
Trang 29Do đó, biên của siêu phẳng tách là d = 2
kβk.Bất đẳng thức (2.4) và (2.5) được viết lại dưới dạng
Định nghĩa 2.1.2 Đại lượng yi(β0+ xT
i β) được gọi là biên của (xi, yi) đối vớisiêu phẳng (2.3), i = 1, 2, , n
Như vậy chúng ta thấy rằng xi là một support vector nếu biên của nó bằng 1.Bài toán đặt ra Tìm siêu phẳng tách tối ưu, cụ thể là tìm siêu phẳng mà
mà cực đại biên 2
kβk, với các điều kiện (2.8) Tương đương với, tìm β0 và β để
cực tiểu 1
2kβk2, (2.9)với điều kiện
yi(β0+ xTi β)≥ 1, i = 1, 2, , n (2.10)
Trang 30Chúng ta sẽ giải quyết bài toán này bằng cách sử dụng nhân tử Lagrange.Xét hàm gốc
FP(β0, β, α) = 1
2kβk2−
nXi=1
αi{yi(β0+ xTi β)− 1}, (2.11)trong đó
α = (α1, , αn)T ≥ 0 (2.12)
là n vector (không âm) các hệ số Lagrange Chúng ta cần cực tiểu F theo biếngốc β0, β và do đó là cực đại kết quả cực tiểu F theo biến đối ngẫu α Karush-Kuhn - Tucker đưa ra điều kiện cần và đủ cho lời giải của bài toán tối ưu cóđiều kiện Với bài toán gốc, β0, β, α phải thỏa mãn
∂FP(β0, β, α)
∂β0
=−
nXi=1
αiyi = 0, (2.13)
∂FP(β0, β, α)
∂β = β −
nXi=1
αiyixi = 0, (2.14)
yi(β0+ xTi β)− 1 ≥ 0, (2.15)
αi{yi(β0+ xTi β)− 1} = 0, (2.17)với i = 1, 2, , n Điều kiện (2.17) được gọi là điều kiện bổ sung Karush- Kuhn-Tucker
Giải phương trình (2.13) và (2.14) thu được
nXi=1
αiyi = 0, (2.18)
β∗ =
nXi=1
αi{yi(β0∗+ xTi β∗)− 1}
= 12
nXi=1
nXj=1
αiαjyiyj(xTi xj)−
nXi=1
nXj=1
αiαjyiyj(xTi xi) +
nXi=1
αi
Trang 31nXi=1
αi− 12
nXi=1
nXj=1
αiαjyiyj(xTi xj), (2.20)
Biểu thức (2.20) được gọi là hàm đối ngẫu của bài toán tối ưu Chúng ta cầntìm các nhân tử Lagrange bằng cách cực đại hàm đối ngẫu (2.20) với các ràngbuộc (2.16) và (2.18) Bài toán cực đại có ràng buộc (đối ngẫu Wolfe) có thểđược viết ở dạng ma trận như dưới đây
Bài toán Tìm α để
cực đại FD(α) = 1Tnα− 1
2α
THα (2.21)với ràng buộc
α > 0; αTy = 0, (2.22)trong đó y = (y1, , yn)T và H = (Hij) là ma trận vuông cấp n với Hij =
b
β = Xi∈svb
αiyixi (2.24)
Nói cách khác, bβ là 1 hàm tuyến tính chỉ của các vector support {xi; i ∈ sv}.Chúng ta thấy rằng, các vector support mang tất cả các thông tin cần thiết đểxác định siêu phẳng tối ưu
Trang 32Độ chệch tối ưu bβ0 là không được xác định rõ ràng bởi lời giải tối ưu, chúng
ta có thể ước lượng nó bằng cách giải (2.17) với mỗi vector support và sau đólấy trung bình các kết quả Như vậy, ước lượng độ chệch của siêu phẳng tối ưuđược cho bởi
b
β0 = 1
|sv|
Xi∈sv
(1− yixTi βb
yi
trong đó |sv| là số vector support trong L
Theo đó, siêu phẳng tối ưu có thể được viết
b
f (x) = bβ0+ xTβb
= bβ0+X
i∈svb
αiyi(xTxi) (2.26)Quy tắc phân lớp được cho bởi
C(x) = sign{ bf (x)} (2.27)Nếu j ∈ sv thì từ (2.26) ta có
yjf (xb j) = yjβb0+X
i∈svb
αiαbjyiyj(xTi xj)
= Xj∈svb
αjyjXi∈svb
αiyi(xTi xj)
= Xj∈svb
αj(1− yjβb0) (từ(2.28))
= Xj∈svb
αj (từ(2.18)) (2.29)
Vậy, siêu phẳng tối ưu có biên cực đại 2
kβk, trong đó1
kβk = (
Xj∈svb
αj)−1/2 (2.30)
Trang 33Ví dụ 2.1.1 Tìm siêu phẳng tách tối ưu tập dữ liệu
αi{yi(β0+ xTi β)}Khi đó,
Giải hệ, chúng ta thu được
α2 = 14
α3 = 58
Trang 342.1.2 Trường hợp không tách tuyến tính
Trong ứng dụng thực tế, sẽ là không chắc chắn để có 1 tách tuyến tính rõràng như vậy giữa các dữ liệu được rút ra từ 2 lớp Nhiều khả năng sẽ có chồngchất nào đó Tức là dữ liệu nào đó trong lớp này xâm nhập vào vùng khônggian của nhóm kia và ngược lại Tính chồng chất sẽ gây ra vấn đề cho bất kỳquy tắc phân lớp nào và độ phức tạp phụ thuộc vào mức chồng chất
Trường hợp không tách xảy ra nếu hoặc cả 2 lớp là tách được nhưng khôngtuyến tính hoặc không có một tách rõ ràng tồn tại giữa hai lớp, tuyến tínhhoặc không tuyến tính Một lý do cho trường hợp chồng chất là do mức độ ồncao của 1 hoặc 2 lớp dữ liệu Như một kết quả, chúng ta thấy rằng 1 hoặc hơncác ràng buộc sẽ bị vi phạm
Để giải quyết vấn đề này, chúng ta sẽ sử dụng một công thức linh hoạt hơn (lờigiải soft margin) nhờ sử dụng 1 biến bù không âm ξi cho mỗi quan sát (xi, yi)