2 Support Vector Machine
3.3 Dữ liệu chẩn đoán ung thư vú Wisconsin
Ung thư vú là nguyên nhân lớn thứ 2 của các nguyên nhân gây chết vì ung thư đối với phụ nữ. Hiện nay, có 3 phương pháp để chẩn đốn ung thư vú được sử dụng đó là
• Chụp nhũ ảnh
• Sinh thiết tuyến vú bằng chọc hút kim nhỏ(FNA) với giải thích hình ảnh
• Phẫu thuật sinh thiết.
Mặc dù phẫu thuật sinh thiết là hầu như chính xác trong phân biệt khối u ác tính với các khối u lành tính, chúng vẫn có nhược điểm là rất mất thời gian và
tốn kém. Một hệ thống hình ảnh máy tính gần đây đã được phát triển tại Đại học Wisconsin - Madison với mục đích phát triển 1 quy trình mà chẩn đốn FNA với độ chính xác cao.
FNA là thủ thuật dùng kim nhỏ để chọc hút lấy một mẫu mô từ một tổn thương nghi ngờ là tổn thương chưa có chẩn đoán chắc chắn hoặc chẩn đoán khơng rõ ràng ở vú để chẩn đốn bệnh lý tuyến vú. FNA sẽ được đặt trên một slide kính và màu để làm nổi bật hạt nhân cấu thành. Một hình ảnh từ FNA được chuyển giao cho 1 máy trạm bởi 1 máy quay camera gắn trên kính hiển vi; và ranh giới chính xác của hạt nhân được xác định.
Ở đây, chúng ta xác định 10 biến của các hạt nhân của mỗi tế bào được tính tốn từ các mẫu chất lỏng. Chúng được liệt kê trong bảng sau
Các biến được xây dựng sao cho những giá trị lớn sẽ chỉ ra khả năng cao hơn của bệnh ác tính. Mỗi hình ảnh sẽ bao gồm 10-40 nhân, giá trị trung bình(mv), giá trị cực (là giá trị lớn nhất hoặc tồi tệ nhất; kích thước lớn nhất, hình dạng
bất thường nhất)(ev), và độ lệch chuẩn(sd) của mỗi một trong các tế bào được
tính tốn. Như vậy, chúng ta sẽ có tổng cộng 30 biến giá trị thực.
Do tất cả 30 biến đều là những thước đo không âm với biểu đồ lệch nhau, chúng ta sẽ lấy loga tự nhiên của mỗi biến trước khi phân tích dữ liệu. Dữ liệu giá trị của số 0 được thay thế bởi 0.001 trước khi biến đổi. Trong ví dụ này, chúng ta hiểu là các dữ liệu đã được biến đổi.
Tập dữ liệu chúng ta xét ở đây bao gồm 569 trường hợp (hình ảnh), trong đó 212 hình ảnh là chẩn đốn ác tính (xác nhận bằng phẫu thuật sinh thiết) và 357 hình ảnh là chẩn đốn lành tính (xác nhận bằng sinh thiết hoặc kiểm tra y tế định kỳ). Nhiều cặp của 30 biến là tương quan cao, ví dụ có 19 tương quan là lớn hơn 0.8 và 0.9; 25 tương quan là nhỏ hơn 0.9 (6 tương quan lớn hơn 0.99). Bài toán thứ nhất đặt ra là làm thế nào để tách các khối u ác tính từ các khối u lành tính một cách tốt nhất (mà khơng thực hiện phẫu thuật). Bài toán thứ 2 là làm thế nào để thực hiện điều này mà sử dụng càng ít biến càng tốt. Để phân biệt giữa khối u lành tính và ác tính, 1 hàm phân biệt tuyến tính (LDF) có thể được suy ra từ ước lượng các hệ số cho một tổ hợp tuyến
Bảng 3.2: 10 biến trong nghiên cứu dữ liệu ung thư vú. radius bán kính hạt nhân
texture Phương sai của mức xám bên trong ranh giới của các hạt nhân
peri Khoảng cách xung quanh chu vi của hạt nhân area Diện tích hạt nhân
smooth Độ trơn của đường viền hạt nhân comp Một thước đo tính compact của nhân tế bào
theo công thức (peri)2 area
scav Mức độ nghiêm trọng của concavities hoặc vết lõm vào trong một nhân tế bào bằng
cách sử dụng một phép đo kích thước ncav Số điểm lõm của hạt nhân symt Tính đối xứng của hạt nhân fracd Chiều Fractal của tế bào
tính tối ưu của 30 biến đầu vào. Từ kết quả LDF, chúng ta tính tốn 1 điểm cho mỗi 569 khối u và sau đó, chúng ta tách các điểm theo nhóm.
Chúng ta ước lượng tiên nghiệm π1 và π2 bởi π1ˆ = n1
n = 357 569 = 0.6274 và ˆ π2 = n2 n = 212
569 = 0.3726. Các hệ số của LDF được ước lượng bởi tính tốn
đầu tiên X¯1,X¯2 và ma trận covariance chung Pˆ
XX và do đó sử dụng 1.24. Các kết quả được cho bởi bảng 3.2.
Sử dụng quy trình kiểm chứng chéo leave-one-out làm giảm 1 quan sát từ tập
Bảng 3.3: Các hệ số được ước lượng của hàm phân tích phân biệt Fisher cho dữ liệu ung thư vú. Tất cả các biến đã được lấy loga tự nhiên.
Biến Hệ số Biến Hệ số Biến Hệ số radius.mv -30.586 radius.sd -2.630 radius.ev 6.283 texture.mv -0.317 texture.sd -0.602 texture.ev 2.313 peri.mv 35.215 peri.sd 0.262 peri.ev -3.176 area.mv -2.250 area.sd -3.176 area.ev -1.913 smooth.mv 0.327 smooth.sd 0.139 smooth.ev 1.540
comp.mv -2.165 comp.sd -0.398 comp.ev 0.528 scav.mv 1.371 scav.sd 0.047 scav.ev -1.161 ncav.mv 0.509 ncav.sd 0.953 ncav.ev -0.947 symt.mv -1.223 symt.sd -0.530 symt.ev 2.911 fracd.mv -3.585 fracd.sd -0.521 fracd.ev 4.168
quan sát bỏ qua được. Quy trình lặp lại 569 lần cho mỗi quan sát trong tập dữ liệu. Bảng "sai số" cho việc phân loại 569 quan sát được cho trong bảng dưới đây. Trong bảng 3.3, tổng số hàng là phân loại đúng và tổng số cột là dự đoán phân loại sử dụng Fisher LDF và kiểm chứng chéo leave-one-out. Như vậy, tỷ
Bảng 3.4: Bảng sai số trong nghiên cứu dữ liệu ung thư vú. Dự đốn lành tính Dự đốn ác tính Tổng hàng Khối u lành tính 353 4 357
Khối u ác tính 20 192 212 Tổng cột 373 196 569
lệ chia lớp sai với LDF Fisher trong ví dụ này được ước lượng là 24
569 = 0.042
Luận văn trình bày một số kỹ thuật hiện đại giải quyết hữu hiệu các bài tốn phân tích thống kê nhiều chiều. Đây là những kỹ thuật tốt, có tính ứng dụng cao trong thực tế đặc biệt là trong y sinh học, kinh tế...
Luận văn đã đề cập đến các vấn đề sau:
1. Trình bày các kỹ thuật phân loại trong phương pháp phân tích phân biệt tuyến tính, bao gồm
• Quy tắc phân loại Bayes
• Quy tắc phân loại Logistic
2. Trình bày phương pháp support vector machines, đây là phương pháp phân lớp hiệu quả được nghiên cứu nhiều nhất trong thời gian qua. 3. Phân tích những giải pháp cho phép mở rộng và cải tiến để nâng cao hiệu
quả ứng dụng của SVM.
4. Trình bày hướng áp dụng phương pháp SVM cũng như những cải tiến, mở rộng của nó vào giải quyết một số bài tốn ứng dụng thực tiễn. 5. Minh họa một số ví dụ thực tế sử dụng 2 phương pháp trên.
[1] Nguyễn Văn Hữu(chủ biên), Đào Hữu Hồ, Hồng Hữu Như,Thống kê tốn học, NXB Đại học Quốc gia Hà Nội, 2004.
[2] Alan Julian Izenman, Modern Multivariate Statistical Techniques,
Springer, 2008.
[3] R. Gunn, " Support vector machines for classification and regression", Technical Report, University of Southampton Press, 1998.
[4] Scholkopf, B., Burges, C., Smola, A.(Eds), 1999. Advances in Kernal Meth- ods: Support Vector , MIT Press, Cambridge.
[5] http: //astro.temple.edu/ alan/MMST/datasets.html [6] http: //bis.net.vn