Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
691,38 KB
Nội dung
đại học quốc gia hà nội trường đại học khoa häc tù nhiªn Lê Thị Thanh Hà MỘT SỐ KỸ THUẬT HIỆN ĐẠI TRONG PHÂN TCH THNG Kấ NHIU CHIU Luận văn thạc sĩ khoa học Hà Nội-2013 đại học quốc gia hà nội trường đại học khoa học tự nhiên Lê Thị Thanh Hà MỘT SỐ KỸ THUẬT HIỆN ĐẠI TRONG PHÂN TÍCH THỐNG KÊ NHIỀU CHIỀU Chuyên ngành: Lý thuyết xác suất thống kê toán học Mã s: 60 46 15 Luận văn thạc sĩ khoa học Người hướng dẫn khoa học: GS TSKH ĐẶNG HÙNG THẮNG Hµ Néi-2013 Mục lục Lời cảm ơn i Lời nói đầu iv Phân tích phân biệt tuyến tính 1.1 Quy tắc phân loại Bayes 1.1.1 Quy tắc phân loại Bayes lớp 1.1.2 Phân tích phân biệt tuyến tính Gauss 1.1.3 LDA thông qua hồi quy bội 1.1.4 Quy tắc phân loại Bayes đa lớp 10 1.2 Phân biệt Logistic 15 1.2.1 Trường hợp lớp 15 1.2.2 Trường hợp đa lớp 19 Support Vector Machine 21 2.1 Support vector machine tuyến tính 21 2.1.1 Trường hợp tách tuyến tính 21 2.1.2 Trường hợp khơng tách tuyến tính 28 2.2 Support vector machine phi tuyến 31 2.2.1 Không gian đặc trưng 32 2.2.2 Thủ thuật Kernel 33 2.2.3 Tối ưu hóa không gian đặc trưng 39 2.2.4 SVM phương pháp quy chuẩn 40 2.3 Support vector đa lớp 42 2.3.1 SVM đa lớp chuỗi toán nhị phân 42 2.3.2 Một SVM đa lớp 43 ii Một số ví dụ thực tế 49 3.1 Minh họa phân tích phân biệt tuyến tính 49 3.2 Ứng dụng SVM để phân loại email spam 53 3.3 Dữ liệu chẩn đoán ung thư vú Wisconsin 56 Kết luận 60 Tài liệu tham khảo 62 iv Lời mở đầu Cách khơng lâu, phân tích đa biến bao gồm phương pháp tuyến tính minh họa liệu nhỏ vừa Hơn nữa, tính tốn thống kê có nghĩa xử lý hàng loạt chủ yếu thực máy tính lớn sở máy tính từ xa Kể từ năm 1970, tương tác tính tốn bắt đầu khởi sắc phân tích liệu thăm dị ý tưởng Trong thập kỷ tiếp sau, thấy số phát triển đáng kể khả tính tốn địa phương lưu trữ liệu Một số lượng lớn liệu sưu tập, lưu trữ, quản lý tương tác với gói phần mềm thống kê cho phép việc phân tích liệu phức tạp thực dễ dàng Ngày nay, liệu khổng lồ trở thành tiêu chuẩn để làm việc bị đặt trường hợp ngoại lệ thống kê môn khoa học thay đổi để theo kịp với phát triển Thay phụ thuộc nhiều vào kiểm tra giả thuyết truyền thống, ý tập trung vào thông tin khám phá kiến thức Theo đó, thấy số tiến gần phân tích đa biến bao gồm kỹ thuật từ khoa học máy tính, trí thông minh nhân tạo lý thuyết học máy Tuy nhiên, nhiều số kỹ thuật giai đoạn mở đầu, chờ lý thuyết thống kê để bắt kịp đồng thời chưa phổ dụng hiệu Nhằm tìm hiểu kỹ thuật phân tích thống kê này, luận văn tập trung vào kỹ thuật sử dụng rộng rãi nay, kỹ thuật phân tích phân biệt kỹ thuật Support vector machines Ngoài phần mở đầu, kết luận tài liệu tham khảo, luận văn gồm có chương: Chương 1: "Phân tích phân biệt" trình bày kỹ thuật phân loại phương pháp phân tích phân biệt bao gồm quy tắc phân loại Bayes phân biệt Logistic Xuất phát quy tắc phân loại cho toán nhị phân sau v số trường hợp đặc biệt quy tắc phân loại cho toán đa lớp Chương 2: "Support Vector Machines" Trong chương này, mơ tả support vector machines tuyến tính phi tuyến giống lời giải toán phân loại nhị phân Support vector phi tuyến kết hợp phép biến đổi khơng tuyến tính vectơ đầu vào sử dụng thủ thuật kernel để tính toán đơn giản Mặc dù phương pháp support vector xây dựng đặc biệt cho trường hợp phân loại nhị phân nỗ lực để mở rộng phương pháp cho toán đa lớp Chương 3: "Một số ví dụ thực tế" Hà nội, ngày 22 tháng 02 năm 2013 Chương Phân tích phân biệt tuyến tính Xét tập L quan sát nhiều chiều giả thiết quan sát lấy từ lớp K xác định có tính chất đặc trưng Các lớp đồng nhất, ví dụ lồi thực vật, mức độ tín nhiệm khách hàng, diện hay vắng mặt tình trạng y tế cụ thể, quan điểm kiểm duyệt Internet email -spam Để phân biệt lớp biết từ lớp khác nhau, liên kết lớp nhãn (hoặc giá trị đầu ra) với lớp; sau đó, quan sát mô tả giống quan sát gán nhãn Trong tình huống, nhằm vào mục đích • Phân biệt: Chúng ta sử dụng thông tin tập liệu quan sát gán nhãn để xây dựng nên "quy tắc phân loại" mà tách lớp cách tốt • Phân lớp: Cho sẵn tập thước đo quan sát mà chưa gán nhãn, sử dụng quy tắc phân loại để dự đốn lớp quan sát Một quy tắc phân loại tổ hợp biến đầu vào Khi có lớp (K = 2), cần quy tắc phân loại có lớn lớp (K > 2), cần nhiều K − quy tắc phân loại để phân biệt lớp dự đoán lớp quan sát Để hiểu rõ hơn, xem xét ví dụ chuẩn đoán y tế sau Nếu bệnh nhân vào phòng khẩn cấp với vấn đề đau dày nghiêm trọng Chương Phân tích phân biệt tuyến tính triệu chứng phù hợp với ngộ độc thực phẩm viêm ruột thừa định đặt " loại bệnh phù hợp với bệnh nhân hơn?" sau bệnh nhân điều trị Trong tốn này, thấy rằng, hướng điều trị thích hợp cho nguyên nhân gây bệnh phương pháp đối lập với nguyên nhân gây bệnh lại: viêm ruột thừa đòi hỏi phải phẫu thuật ngộ độc thực phẩm khơng, đồng thời việc chẩn đốn sai gây tử vong Theo kết thử nghiệm lâm sàng, bác sỹ định q trình điều trị tối đa hóa khả thành cơng Nếu tổ hợp kết kiểm tra nhắm vào hướng cụ thể phẫu thuật khuyến khích; ngược lại, bác sỹ đề xuất điều trị không phẫu thuật Khi đó, "quy tắc phân loại" xây dựng từ kinh nghiệm dựa kết điều tra bệnh nhân điều trị trước Quy tắc phân loại đáng tin cậy hội chẩn đốn thành công lớn bệnh nhân tương lai 1.1 Quy tắc phân loại Bayes 1.1.1 Quy tắc phân loại Bayes lớp Đầu tiên xét toán phân loại lớp (K = 2), mong muốn phân biệt lớp Π1 , Π2 Cho P (X ∈ Πi ) = πi , i = 1, 2, (1.1) xác suất tiên nghiệm mà quan sát ngẫu nhiên lựa chọn X = x thuộc Π1 Π2 Giả sử, mật độ xác xuất đa biến có điều kiện X với lớp thứ i P ({X = x|X ∈ Πi }) = fi (x), i = 1, (1.2) Theo định lý Bayes, thu xác suất hậu nghiệm p(Πi |x) = P (X ∈ Πi |X = x) = fi (x)πi , i = 1, f1 (x)π1 + f2 (x)π2 (1.3) Như vậy, với x cho trước, có ý tưởng phân loại gán x vào lớp mà có xác suất hậu nghiệm cao Quy tắc gọi quy tắc phân Chương Phân tích phân biệt tuyến tính loại Bayes Hay nói cách khác, gán x vào Π1 p(Π1 |x) > 1, p(Π2 |x) (1.4) gán vào Π2 ngược lại Thay (1.3) vào (1.4), có quy tắc phân loại x ∈ Π1 f1 (x) > π2 f2 (x) π1 Quy tắc phân loại x ∈ Π2 ngược lại Trên biên {x ∈ Rr | lớp 1.1.2 (1.5) f1 (x) π2 = }, gán ngẫu nhiên x vào hai f2 (x) π1 Phân tích phân biệt tuyến tính Gauss Bây làm quy tắc phân lớp Bayes xác giả thiết Fisher mật độ xác suất nhiều chiều (1.2) Gauss, có vectơ trung bình tùy ý (a) Trường hợp có ma trận covariance chung Tức là, f1 (·) mật độ Nr (µ1, Σ1 ) f2 (·) mật độ Nr (µ2 , Σ2 ), Σ1 = Σ2 = ΣXX Tỷ số hai mật độ exp{− (x − µ1 )T Σ−1 (x − µ1 )} XX f1 (x) = , f2 (x) T Σ−1 (x − µ )} exp{− (x − µ2 ) XX 2 (1.6) Suy loge f1 (x) = (µ1 − µ2 )T Σ−1 x − (µ1 − µ2 )T Σ−1 (µ1 + µ2 ) XX XX f2 (x) = (µ1 − µ2 )T Σ−1 x − (µT Σ−1 µ1 − µT Σ−1 µ2 ) XX XX XX (1.7) (1.8) Như L(X) = loge { f1 (x)π1 π1 } = (µ1 −µ2 )T Σ−1 x− (µT Σ−1 µ1 −µT Σ−1 µ2 )+loge ( ) XX XX XX f2 (x)π2 π2 (1.9) Đặt π1 b = Σ−1 (µ1 − µ2 ); b0 = − (µT Σ−1 µ1 − µT Σ−1 µ2 ) + loge ( ), XX XX XX π2 Chương Phân tích phân biệt tuyến tính Khi L(X) = b0 + bT x Quy tắc phân loại Quy tắc phân loại x ∈ Π1 L(x) > x ∈ Π2 ngược lại (1.10) Trên biên {x ∈ Rr |L(X) = 0}, phương trình kết tuyến tính x đó, xác định siêu phẳng phân tách lớp Quy tắc (1.10) gọi phân tích phân biệt tuyến tính Gauss(LDA) Biểu thức U = bT x = (µ1 − µ2 )T Σ−1 x, XX (1.11) gọi hàm phân biệt tuyến tính Fisher(LDF) Tổng xác suất phân loại sai LDF chia không gian đặc trưng Rr thành lớp rời R1 , R2 Nếu x rơi vào R1 , ta gán vào Π1 x rơi vào R2 , ta gán vào Π2 Bây giờ, quan tâm tới xác suất phân loại sai x x bị phân loại sai x gán vào Π2 thực lại thuộc Π1 x gán vào Π1 thực lại thuộc vào Π2 Khoảng cách Mahalanobis Π1 Π2 định nghĩa ∆2 = (µ1 − µ2 )T Σ−1 (µ1 − µ2 ) XX (1.12) E(U |X ∈ Πi ) = bT µi = (µ1 − µ2 )T Σ−1 µi , i = 1, 2, XX (1.13) var(U |X ∈ Πi ) = bT ΣXX b = ∆2 (1.14) Ta có Đặt Z= U − E(U |X ∈ Πi ) var(U |X ∈ Πi ) ∼ N (0; 1) Chương Support Vector Machine 48 α), giả sử K xác định dương ¯ Bài toán đối ngẫu tìm {α.k } để cực tiểu FD = K K T k=1 (α.k − α) K(α.k − α) + nλ ¯ ¯ T α.k y.k (2.102) k=1 với ràng buộc ≤ α.k ≤ Lk , k = 1, 2, , K, (α.k − α)T 1n = 0, k = 1, 2, , K ¯ (2.103) (2.104) Từ lời giải α.k cho toán lập trình bậc hai này, lập ˆ ˆ ˆ β.k = −(nλ)−1 (α.k − α), ˆ ¯ ˆ α = K −1 ¯ (2.105) K ˆ k=1 α.k Lời giải toán phân loại đa lớp cho x cho ˆ Ck (x) = arg max{fk (x)}, k đó, (2.106) n ˆ ˆ fk (x) = β0k + ˆ βℓk K(xℓ , x), k = 1, 2, , K (2.107) ℓ=1 ˆ Giả sử vector hàng αi = (αi1 , · · · , αiK ) = với (xi , yi ); từ (2.105), βi = ˆ ˆ ˆ ˆ ˆ ˆ (βi1 , · · · , βiK ) = Điều số hạng βik K(xi , x) = 0, k = 1, 2, , K Do đó, số hạng chứa (xi , yi ) không xuất (2.107); Nói cách khác, khơng vấn đề liệu (xi , yi ) hay không chứa tập L khơng ảnh hưởng tới lời giải Kết đưa tới định nghĩa support vector: "Một quan sát (xi , yi ) gọi support ˆ ˆ ˆ vector βi = (βi1 , · · · , βik ) = 0" Chương Một số ví dụ thực tế 3.1 Minh họa phân tích phân biệt tuyến tính Giả sử cơng ty sản xuất sản phẩm đắt tiền chất lượng cao Sản phẩm miêu tả đặc trưng "độ cong" "đường kính" Kết kiểm sốt chất lượng kiểm tra chuyên gia cho bảng 3.1 Vấn đề đặt làm thiết lập mơ hình tự động mà kiểm tra chất lượng sản phẩm công ty Giả sử sản phẩm với độ cong 2.81 đường kính 5.46(đối tượng cần xếp lớp) kết đạt hay khơng đạt Ứng dụng phân tích phân biệt áp dụng sau Bước Ta vẽ sản phẩm theo đặc trưng độ cong ứng với trục Ox đường kính ứng với trục Oy Chúng ta thấy vẽ đường để tách biệt lớp đạt(gồm sản phẩm) không đạt (gồm sản phẩm) Bài toán đặt tìm đường phân tách lớp quay thuộc tính để đạt khoảng cách lớp lớn khoảng cách đối tượng lớp nhỏ Bước Chúng ta biểu diễn đối tượng dạng ma trận sau - Ma trận đặc trưng(biến độc lập) x Mỗi dòng biểu diễn đối tượng cột biểu diễn đặc điểm - Ma trận lớp y chứa lớp đối tượng(biến phụ thuộc) Như 49 Chương Một số ví dụ thực tế 50 Bảng 3.1: Bảng liệu kiểm tra kết chất lượng sản phẩm Stt Độ cong Đường kính Kết 2.95 6.63 Đạt 2.53 7.79 Đạt 3.57 5.65 Đạt 3.16 5.47 Đạt 2.58 4.46 Không đạt 2.16 6.22 Không đạt 3.27 3.52 Khơng đạt Hình 3.1: Đồ thị liệu gốc có Chương Một số ví dụ thực tế 51 1 1 y = 1 2 2 6.63 7.79 5.65 5.47 4.46 6.22 3.52 2.95 2.53 3.57 x = 3.16 2.58 2.16 3.27 Gọi xk dòng thứ k ma trận x g số lớp y Như vậy, tập liệu này, có g = Gọi xi ma trận chứa đặc trưng đối tượng thuộc lớp i Ở đây, có lớp nên i = 1, 2.95 2.53 x1 = 3.57 3.16 6.63 7.79 5.65 5.47 2.58 4.46 x2 = 2.16 6.22 3.27 3.52 Gọi µi trung bình đặc trưng đối tượng thuộc lớp i Như vậy, µ1 = 3.05 6.38 µ2 = 2.67 4.73 Gọi µ trung bình tồn thể liệu µ = 2.89 5.68 x0 gọi "mean corrected data" tính cách lấy ma trận chứa i đặc trưng đối tượng lớp i xi trừ cho ma trận chứa trung bình tồn liệu µ Như vậy, x0 = xi − µ i 0.060 0.951 −0.357 2.109 x0 = 0.679 −0.025 0.269 −0.209 −0.305 −1.218 x0 = −0.732 0.547 0.386 −2.155 Chương Một số ví dụ thực tế 52 Ma trận hiệp phương sai lớp i tính theo cơng thức sau ci = (x0 )T x0 i i ni Ma trận gộp hiệp phương sai lớp tính sau C(r, s) = n g ni Ci (r, s) i=1 Như vậy, có C(1, 1) = (4 · 0.166 + · 0.259) = 0.206 C(1, 2) = (4 · (−0.192) + · (−0.286)) = −0.233 C(2, 2) = (4 · 1.349 + · 2.142) = 1.689 Do đó, C= Ma trận nghịch đảo 0.206 −0.233 C −1 = −0.233 1.689 5.745 0.791 0.791 0.701 p vec tơ xác suất lớp Hàng thứ i biểu diễn xác suất lớp i ni tính: pi = Trong ví dụ này, có N 0.571 p = 7 = 0.429 Hàm phân biệt cho Li = µi C −1xT − µi C −1 µT + ln(pi ) i k Sau tính tốn giá trị Li , gán đối tượng k vào nhóm i cho Li có giá trị lớn Ở đây, viết xk = 2.81 5.46 Khi đó, L1 = 44.049 < L2 = 44.085 Như vậy, sản phẩm gán vào nhóm Do đó, sản phẩm có kết kiểm tra không đạt chất lượng Chương Một số ví dụ thực tế 3.2 53 Ứng dụng SVM để phân loại email spam Sự phát triển dịch vụ thông tin Internet nhu cầu trao đổi thông tin làm cho hệ thống thư điện tử phát triển mạnh Song song với phát triển đó, tình trạng thư rác ngày gây nhiều thiệt hại cho cộng đồng người sử dụng như: hao phí tài nguyên mạng máy tính, làm thời gian người dùng chí phát tán thơng tin văn hóa độc hại Vì vậy, vấn đề xây dựng giải pháp tự động lọc chống thư rác trở thành nhu cầu thiếu Hệ thống lọc thư rác dựa phương pháp phân loại văn bản, tức gán văn vào số nhóm văn biết trước Đối với toán lọc thư rác, đầu vào thư điện tử gửi mạng Internet Ở mức độ đơn giản, thấy có hai nhóm văn thư rác (spam mail) thư (email) Việc xác định nhóm thư rác thường khơng có định nghĩa xác, thay đổi theo đối tượng hoàn cảnh Theo định nghĩa thơng thường, thư có nội dung văn hóa độc hại, thư quảng cáo phán tán với số lượng lớn, thư tuyên truyền với mục đích xấu, Vì vậy, hệ thống phân loại tự động có khả học để thích nghi cần thiết cho hệ thống thư điện tử Phương pháp sử dụng kỹ thuật SVM hiệu việc phân loại thư rác, chất phương pháp sử dụng thống kê nên có ưu điểm định Tập liệu sử dụng có nguồn gốc từ sưu tập email spam (là email thương mại không yêu cầu mà đến từ bưu điện cá nhân đệ đơn thư rác) email (cái mà đến từ tổ chức làm việc email cá nhân) Ở sưu tập bao gồm 4,601 messages, có 1,813 thư rác 2,788 email Mỗi messages nhận chuyển thành biểu diễn vector Mỗi vector bao gồm 57 tọa độ ứng với 57 biến dùng để phân biệt email thư rác Trong đó, có 48 biến mà có dạng "word_freq_WORD", mà đưa tỷ lệ phần trăm từ email phù hợp WORD; biến có dạng "word_freq_CHAR", đưa phần trăm Chương Một số ví dụ thực tế 54 chữ email mà phù hợp CHAR; biến độ dài, đo độ dài trung bình, độ dài lớn nhất, tổng độ dài chuỗi không bị gián đoạn chữ viết hoa liên tiếp Ở đây, messages gán nhãn vào lớp email hay thư rác Và toán đặt sử dụng SVM để phân loại 4,601 messages vào lớp (bài tốn phân loại nhị phân) từ tìm tỷ lệ phân loại sai để xem mức độ xác phương pháp Ở áp dụng SVM khơng tuyến tính (R package libsvm) sử dụng kernel RBF 4,061 messages (2,788 email 1,813 spam) Lời giải SVM phụ thuộc vào chi phí C vi phạm ràng buộc phương sai σ kernel Gauss RBF Bằng cách sử dụng phương pháp thử sửa sai, sử dụng lưới giá trị cho C γ = : σ C = 10, 80, 100, 200, 500, 10000 γ = 0.00001(0.00001)0.0001(0.0001)0.002(0.001)0.01(0.01)0.04 Trong hình, có giá trị 10-fold CV (kiểm chứng chéo) tỷ lệ phân loại sai tương ứng với γ liệt kê trên, đường cong (liên kết với tập điểm) biểu diễn giá trị khác C Với C thấy đường cong phân loại sai CV/10 có hình dạng tương tự: giá trị cực tiểu cho γ gần cho giá trị γ xa đường cong có xu hướng lên Trong tìm kiếm gốc, tìm cực tiểu CV/10 tỷ lệ Chương Một số ví dụ thực tế 55 phân loại sai 8.06% (C; γ) = (500, 0.0002) (1, 000, 0.0002) Chúng ta thấy mức độ tổng quát tỷ lệ phân loại sai có xu hướng giảm C tăng γ giảm đồng thời Một chi tiết điều tra cho C > 1000 γ gần tiết lộ tỷ lệ phân loại sai CV/10 6.91% C = 11, 000 γ = 0.00001 tương ứng với ước lượng 10 CV tỷ lệ phân loại đúng: 0.9043, 0.9478, 0.9304, 0.9261, 0.9109, 0.9413, 0.9326, 0.9500, 0.9326, 0.9328 Lời giải có 931 support vectơ (482 email, 449 spam)điều có nghĩa tỷ lệ lớn (79.8%) messages (cụ thể 82.7% email 75.2% spam) không điểm support Trong 4601 messages có 2697 email 1676 spam Chương Một số ví dụ thực tế 56 phân loại (228 phân loại sai)thu tỷ lệ sai số hiển thị 4.96% So sánh với tiếp cận khác dùng để phân lớp lọc thư rác việc sử dụng SVM có nhiều tiện ích phù hợp với nhu cầu người dùng Ở đây, tiêu chuẩn phân loại học từ mẫu học riêng cá nhân, vận dụng cá nhân hay đơn vị tạo cách lọc riêng Đồng thời mềm dẻo giúp dễ dàng cho việc điều chỉnh tương thích với xuất loại thư rác Trong cơng cụ khác phải tốn nhiều công sức phát triển luật việc sử dụng SVM cần học lại tập mẫu mở rộng (chứa mẫu thư rác cũ mới), tự động phát triển tiêu chuẩn lọc thích hợp với tình Một chương trình không dựa sở mẫu thư rác mà người dùng đưa vào để huấn luyện mà sử dụng mẫu thư mong muốn, chúng xem mẫu hợp lệ Các đặc tính thư mong muốn cho ta hệ thống dẫn thứ hai, tăng cường khả phân lớp hệ thống cho thu phức tạp khơng rõ ràng cho phép them phạm trù phân loại thứ ba “mong muốn đảm bảo” ngồi phạm trù “spam đảm bảo” “khơng rõ, khơng giống spam” Do đó, phân lớp trở nên cụ thể rõ ràng 3.3 Dữ liệu chẩn đoán ung thư vú Wisconsin Ung thư vú nguyên nhân lớn thứ nguyên nhân gây chết ung thư phụ nữ Hiện nay, có phương pháp để chẩn đốn ung thư vú sử dụng • Chụp nhũ ảnh • Sinh thiết tuyến vú chọc hút kim nhỏ(FNA) với giải thích hình ảnh • Phẫu thuật sinh thiết Mặc dù phẫu thuật sinh thiết xác phân biệt khối u ác tính với khối u lành tính, chúng có nhược điểm thời gian Chương Một số ví dụ thực tế 57 tốn Một hệ thống hình ảnh máy tính gần phát triển Đại học Wisconsin - Madison với mục đích phát triển quy trình mà chẩn đốn FNA với độ xác cao FNA thủ thuật dùng kim nhỏ để chọc hút lấy mẫu mô từ tổn thương nghi ngờ tổn thương chưa có chẩn đốn chắn chẩn đốn khơng rõ ràng vú để chẩn đoán bệnh lý tuyến vú FNA đặt slide kính màu để làm bật hạt nhân cấu thành Một hình ảnh từ FNA chuyển giao cho máy trạm máy quay camera gắn kính hiển vi; ranh giới xác hạt nhân xác định Ở đây, xác định 10 biến hạt nhân tế bào tính tốn từ mẫu chất lỏng Chúng liệt kê bảng sau Các biến xây dựng cho giá trị lớn khả cao bệnh ác tính Mỗi hình ảnh bao gồm 10-40 nhân, giá trị trung bình(mv), giá trị cực (là giá trị lớn tồi tệ nhất; kích thước lớn nhất, hình dạng bất thường nhất)(ev), độ lệch chuẩn(sd) tế bào tính tốn Như vậy, có tổng cộng 30 biến giá trị thực Do tất 30 biến thước đo không âm với biểu đồ lệch nhau, lấy loga tự nhiên biến trước phân tích liệu Dữ liệu giá trị số thay 0.001 trước biến đổi Trong ví dụ này, hiểu liệu biến đổi Tập liệu xét bao gồm 569 trường hợp (hình ảnh), 212 hình ảnh chẩn đốn ác tính (xác nhận phẫu thuật sinh thiết) 357 hình ảnh chẩn đốn lành tính (xác nhận sinh thiết kiểm tra y tế định kỳ) Nhiều cặp 30 biến tương quan cao, ví dụ có 19 tương quan lớn 0.8 0.9; 25 tương quan nhỏ 0.9 (6 tương quan lớn 0.99) Bài toán thứ đặt làm để tách khối u ác tính từ khối u lành tính cách tốt (mà khơng thực phẫu thuật) Bài toán thứ làm để thực điều mà sử dụng biến tốt Để phân biệt khối u lành tính ác tính, hàm phân biệt tuyến tính (LDF) suy từ ước lượng hệ số cho tổ hợp tuyến Chương Một số ví dụ thực tế 58 Bảng 3.2: 10 biến nghiên cứu liệu ung thư vú radius bán kính hạt nhân texture Phương sai mức xám bên ranh giới hạt nhân peri Khoảng cách xung quanh chu vi hạt nhân area Diện tích hạt nhân smooth Độ trơn đường viền hạt nhân comp Một thước đo tính compact nhân tế bào theo công thức scav (peri)2 area Mức độ nghiêm trọng concavities vết lõm vào nhân tế bào cách sử dụng phép đo kích thước ncav Số điểm lõm hạt nhân symt Tính đối xứng hạt nhân fracd Chiều Fractal tế bào Chương Một số ví dụ thực tế 59 tính tối ưu 30 biến đầu vào Từ kết LDF, tính tốn điểm cho 569 khối u sau đó, tách điểm theo nhóm 357 n1 = = 0.6274 Chúng ta ước lượng tiên nghiệm π1 π2 π1 = ˆ n 569 212 n2 = = 0.3726 Các hệ số LDF ước lượng tính tốn π2 = ˆ n 569 ¯ ¯ X1 , X2 ma trận covariance chung ˆ XX sử dụng 1.24 Các kết cho bảng 3.2 Sử dụng quy trình kiểm chứng chéo leave-one-out làm giảm quan sát từ tập Bảng 3.3: Các hệ số ước lượng hàm phân tích phân biệt Fisher cho liệu ung thư vú Tất biến lấy loga tự nhiên Biến Hệ số Biến Hệ số Biến Hệ số radius.mv -30.586 radius.sd -2.630 radius.ev 6.283 texture.mv -0.317 texture.sd -0.602 texture.ev 2.313 peri.mv 35.215 peri.sd 0.262 peri.ev -3.176 area.mv -2.250 area.sd -3.176 area.ev -1.913 smooth.mv 0.327 smooth.sd 0.139 smooth.ev 1.540 comp.mv -2.165 comp.sd -0.398 comp.ev 0.528 scav.mv 1.371 scav.sd 0.047 scav.ev -1.161 ncav.mv 0.509 ncav.sd 0.953 ncav.ev -0.947 symt.mv -1.223 symt.sd -0.530 symt.ev 2.911 fracd.mv -3.585 fracd.sd -0.521 fracd.ev 4.168 liệu, ước lượng lại LDF từ (n − 1) quan sát cịn lại sau đó, chia lớp Chương Một số ví dụ thực tế 60 quan sát bỏ qua Quy trình lặp lại 569 lần cho quan sát tập liệu Bảng "sai số" cho việc phân loại 569 quan sát cho bảng Trong bảng 3.3, tổng số hàng phân loại tổng số cột dự đoán phân loại sử dụng Fisher LDF kiểm chứng chéo leave-one-out Như vậy, tỷ Bảng 3.4: Bảng sai số nghiên cứu liệu ung thư vú Dự đốn lành tính Dự đốn ác tính Tổng hàng Khối u lành tính 353 357 Khối u ác tính 20 192 212 Tổng cột 373 196 569 lệ chia lớp sai với LDF Fisher ví dụ ước lượng hay 4.2% 24 = 0.042 569 Kết luận Luận văn trình bày số kỹ thuật đại giải hữu hiệu tốn phân tích thống kê nhiều chiều Đây kỹ thuật tốt, có tính ứng dụng cao thực tế đặc biệt y sinh học, kinh tế Luận văn đề cập đến vấn đề sau: Trình bày kỹ thuật phân loại phương pháp phân tích phân biệt tuyến tính, bao gồm • Quy tắc phân loại Bayes • Quy tắc phân loại Logistic Trình bày phương pháp support vector machines, phương pháp phân lớp hiệu nghiên cứu nhiều thời gian qua Phân tích giải pháp cho phép mở rộng cải tiến để nâng cao hiệu ứng dụng SVM Trình bày hướng áp dụng phương pháp SVM cải tiến, mở rộng vào giải số tốn ứng dụng thực tiễn Minh họa số ví dụ thực tế sử dụng phương pháp Tài liệu tham khảo [1] Nguyễn Văn Hữu(chủ biên), Đào Hữu Hồ, Hồng Hữu Như, Thống kê tốn học, NXB Đại học Quốc gia Hà Nội, 2004 [2] Alan Julian Izenman, Modern Multivariate Statistical Techniques, Springer, 2008 [3] R Gunn, " Support vector machines for classification and regression", Technical Report, University of Southampton Press, 1998 [4] Scholkopf, B., Burges, C., Smola, A.(Eds), 1999 Advances in Kernal Methods: Support Vector , MIT Press, Cambridge [5] http: //astro.temple.edu/ alan/MMST/datasets.html [6] http: //bis.net.vn .. .đại học quốc gia hà nội trường đại học khoa häc tù nhiªn Lê Thị Thanh Hà MỘT SỐ KỸ THUẬT HIỆN ĐẠI TRONG PHÂN TÍCH THỐNG KÊ NHIỀU CHIỀU Chuyên ngành: Lý thuyết xác suất thống kê. .. Tuy nhiên, nhiều số kỹ thuật giai đoạn mở đầu, chờ lý thuyết thống kê để bắt kịp đồng thời chưa phổ dụng hiệu Nhằm tìm hiểu kỹ thuật phân tích thống kê này, luận văn tập trung vào kỹ thuật sử dụng... nay, kỹ thuật phân tích phân biệt kỹ thuật Support vector machines Ngoài phần mở đầu, kết luận tài liệu tham khảo, luận văn gồm có chương: Chương 1: "Phân tích phân biệt" trình bày kỹ thuật phân