2 Support Vector Machine
3.3 Dữ liệu chẩn đoỏn ung thư vỳ Wisconsin
Ung thư vỳ là nguyờn nhõn lớn thứ 2 của cỏc nguyờn nhõn gõy chết vỡ ung thư đối với phụ nữ. Hiện nay, cú 3 phương phỏp để chẩn đoỏn ung thư vỳ được sử dụng đú là
• Chụp nhũ ảnh
• Sinh thiết tuyến vỳ bằng chọc hỳt kim nhỏ(FNA) với giải thớch hỡnh ảnh
• Phẫu thuật sinh thiết.
Mặc dự phẫu thuật sinh thiết là hầu như chớnh xỏc trong phõn biệt khối u ỏc tớnh với cỏc khối u lành tớnh, chỳng vẫn cú nhược điểm là rất mất thời gian và
tốn kộm. Một hệ thống hỡnh ảnh mỏy tớnh gần đõy đó được phỏt triển tại Đại học Wisconsin - Madison với mục đớch phỏt triển 1 quy trỡnh mà chẩn đoỏn FNA với độ chớnh xỏc cao.
FNA là thủ thuật dựng kim nhỏ để chọc hỳt lấy một mẫu mụ từ một tổn thương nghi ngờ là tổn thương chưa cú chẩn đoỏn chắc chắn hoặc chẩn đoỏn khụng rừ ràng ở vỳ để chẩn đoỏn bệnh lý tuyến vỳ. FNA sẽ được đặt trờn một slide kớnh và màu để làm nổi bật hạt nhõn cấu thành. Một hỡnh ảnh từ FNA được chuyển giao cho 1 mỏy trạm bởi 1 mỏy quay camera gắn trờn kớnh hiển vi; và ranh giới chớnh xỏc của hạt nhõn được xỏc định.
Ở đõy, chỳng ta xỏc định 10 biến của cỏc hạt nhõn của mỗi tế bào được tớnh toỏn từ cỏc mẫu chất lỏng. Chỳng được liệt kờ trong bảng sau
Cỏc biến được xõy dựng sao cho những giỏ trị lớn sẽ chỉ ra khả năng cao hơn của bệnh ỏc tớnh. Mỗi hỡnh ảnh sẽ bao gồm 10-40 nhõn, giỏ trị trung bỡnh(mv), giỏ trị cực (là giỏ trị lớn nhất hoặc tồi tệ nhất; kớch thước lớn nhất, hỡnh dạng bất thường nhất)(ev), và độ lệch chuẩn(sd) của mỗi một trong cỏc tế bào được tớnh toỏn. Như vậy, chỳng ta sẽ cú tổng cộng 30 biến giỏ trị thực.
Do tất cả 30 biến đều là những thước đo khụng õm với biểu đồ lệch nhau, chỳng ta sẽ lấy loga tự nhiờn của mỗi biến trước khi phõn tớch dữ liệu. Dữ liệu giỏ trị của số 0 được thay thế bởi 0.001 trước khi biến đổi. Trong vớ dụ này, chỳng ta hiểu là cỏc dữ liệu đó được biến đổi.
Tập dữ liệu chỳng ta xột ở đõy bao gồm 569 trường hợp (hỡnh ảnh), trong đú 212 hỡnh ảnh là chẩn đoỏn ỏc tớnh (xỏc nhận bằng phẫu thuật sinh thiết) và 357 hỡnh ảnh là chẩn đoỏn lành tớnh (xỏc nhận bằng sinh thiết hoặc kiểm tra y tế định kỳ). Nhiều cặp của 30 biến là tương quan cao, vớ dụ cú 19 tương quan là lớn hơn 0.8 và 0.9; 25 tương quan là nhỏ hơn 0.9 (6 tương quan lớn hơn 0.99). Bài toỏn thứ nhất đặt ra là làm thế nào để tỏch cỏc khối u ỏc tớnh từ cỏc khối u lành tớnh một cỏch tốt nhất (mà khụng thực hiện phẫu thuật). Bài toỏn thứ 2 là làm thế nào để thực hiện điều này mà sử dụng càng ớt biến càng tốt. Để phõn biệt giữa khối u lành tớnh và ỏc tớnh, 1 hàm phõn biệt tuyến tớnh (LDF) cú thể được suy ra từ ước lượng cỏc hệ số cho một tổ hợp tuyến
Bảng 3.2: 10 biến trong nghiờn cứu dữ liệu ung thư vỳ. radius bỏn kớnh hạt nhõn
texture Phương sai của mức xỏm bờn trong ranh giới của cỏc hạt nhõn
peri Khoảng cỏch xung quanh chu vi của hạt nhõn area Diện tớch hạt nhõn
smooth Độ trơn của đường viền hạt nhõn comp Một thước đo tớnh compact của nhõn tế bào
theo cụng thức (peri)2 area
scav Mức độ nghiờm trọng của concavities hoặc vết lừm vào trong một nhõn tế bào bằng
cỏch sử dụng một phộp đo kớch thước ncav Số điểm lừm của hạt nhõn symt Tớnh đối xứng của hạt nhõn fracd Chiều Fractal của tế bào
tớnh tối ưu của 30 biến đầu vào. Từ kết quả LDF, chỳng ta tớnh toỏn 1 điểm cho mỗi 569 khối u và sau đú, chỳng ta tỏch cỏc điểm theo nhúm.
Chỳng ta ước lượng tiờn nghiệm π1 và π2 bởi πˆ1 = n1
n = 357 569 = 0.6274 và ˆ π2 = n2 n = 212
569 = 0.3726. Cỏc hệ số của LDF được ước lượng bởi tớnh toỏn đầu tiờn X¯1,X¯2 và ma trận covariance chung Pˆ
XX và do đú sử dụng 1.24. Cỏc kết quả được cho bởi bảng 3.2.
Sử dụng quy trỡnh kiểm chứng chộo leave-one-out làm giảm 1 quan sỏt từ tập
Bảng 3.3: Cỏc hệ số được ước lượng của hàm phõn tớch phõn biệt Fisher cho dữ liệu ung thư vỳ. Tất cả cỏc biến đó được lấy loga tự nhiờn.
Biến Hệ số Biến Hệ số Biến Hệ số radius.mv -30.586 radius.sd -2.630 radius.ev 6.283 texture.mv -0.317 texture.sd -0.602 texture.ev 2.313 peri.mv 35.215 peri.sd 0.262 peri.ev -3.176 area.mv -2.250 area.sd -3.176 area.ev -1.913 smooth.mv 0.327 smooth.sd 0.139 smooth.ev 1.540
comp.mv -2.165 comp.sd -0.398 comp.ev 0.528 scav.mv 1.371 scav.sd 0.047 scav.ev -1.161 ncav.mv 0.509 ncav.sd 0.953 ncav.ev -0.947 symt.mv -1.223 symt.sd -0.530 symt.ev 2.911 fracd.mv -3.585 fracd.sd -0.521 fracd.ev 4.168
quan sỏt bỏ qua được. Quy trỡnh lặp lại 569 lần cho mỗi quan sỏt trong tập dữ liệu. Bảng "sai số" cho việc phõn loại 569 quan sỏt được cho trong bảng dưới đõy. Trong bảng 3.3, tổng số hàng là phõn loại đỳng và tổng số cột là dự đoỏn phõn loại sử dụng Fisher LDF và kiểm chứng chộo leave-one-out. Như vậy, tỷ
Bảng 3.4: Bảng sai số trong nghiờn cứu dữ liệu ung thư vỳ. Dự đoỏn lành tớnh Dự đoỏn ỏc tớnh Tổng hàng Khối u lành tớnh 353 4 357
Khối u ỏc tớnh 20 192 212 Tổng cột 373 196 569
lệ chia lớp sai với LDF Fisher trong vớ dụ này được ước lượng là 24
569 = 0.042
Luận văn trỡnh bày một số kỹ thuật hiện đại giải quyết hữu hiệu cỏc bài toỏn phõn tớch thống kờ nhiều chiều. Đõy là những kỹ thuật tốt, cú tớnh ứng dụng cao trong thực tế đặc biệt là trong y sinh học, kinh tế...
Luận văn đó đề cập đến cỏc vấn đề sau:
1. Trỡnh bày cỏc kỹ thuật phõn loại trong phương phỏp phõn tớch phõn biệt tuyến tớnh, bao gồm
• Quy tắc phõn loại Bayes
• Quy tắc phõn loại Logistic
2. Trỡnh bày phương phỏp support vector machines, đõy là phương phỏp phõn lớp hiệu quả được nghiờn cứu nhiều nhất trong thời gian qua. 3. Phõn tớch những giải phỏp cho phộp mở rộng và cải tiến để nõng cao hiệu
quả ứng dụng của SVM.
4. Trỡnh bày hướng ỏp dụng phương phỏp SVM cũng như những cải tiến, mở rộng của nú vào giải quyết một số bài toỏn ứng dụng thực tiễn. 5. Minh họa một số vớ dụ thực tế sử dụng 2 phương phỏp trờn.
[1] Nguyễn Văn Hữu(chủ biờn), Đào Hữu Hồ, Hoàng Hữu Như,Thống kờ toỏn học, NXB Đại học Quốc gia Hà Nội, 2004.
[2] Alan Julian Izenman, Modern Multivariate Statistical Techniques, Springer, 2008.
[3] R. Gunn, " Support vector machines for classification and regression", Technical Report, University of Southampton Press, 1998.
[4] Scholkopf, B., Burges, C., Smola, A.(Eds), 1999. Advances in Kernal Meth- ods: Support Vector , MIT Press, Cambridge.
[5] http: //astro.temple.edu/ alan/MMST/datasets.html [6] http: //bis.net.vn