Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 82 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
82
Dung lượng
650,86 KB
Nội dung
đại học quốc gia hà nội trờng đại học khoa häc tù nhiªn Lê Thị Thanh Hà MỘT SỐ KỸ THUẬT HIỆN ĐẠI TRONG PHÂN TCH THNG Kấ NHIU CHIU Luận văn thạc sĩ khoa học Hà Nội-2013 đại học quốc gia hà nội trờng đại học khoa học tự nhiên Lê Thị Thanh Hà MỘT SỐ KỸ THUẬT HIỆN ĐẠI TRONG PHÂN TÍCH THỐNG KÊ NHIỀU CHIỀU Chuyên ngành: Lý thuyết xác suất thống kê toán học Mã s: 60 46 15 LUận văn thạc sĩ khoa học Người hướng dẫn khoa học: GS TSKH ĐẶNG HÙNG THẮNG Hµ Néi-2013 Mục lục Lời cảm ơn Lời nói đầu Phân tích phân biệt tuyến tính 1.1 Quy tắc phân loại Bayes 1.1.1 1.1.2 1.1.3 1.1.4 1.2 Phân biệt Logistic 1.2.1 1.2.2 Support Vector Machine 2.1 Support vector machine tuyến 2.1.1 2.1.2 2.2 Support vector machine phi tu 2.2.1 2.2.2 2.2.3 2.2.4 2.3 Support vector đa lớp 2.3.1 2.3.2 ii Một số ví dụ thực tế 3.1 Minh họa phân tích phân b 3.2 Ứng dụng SVM để phân loại e 3.3 Dữ liệu chẩn đoán ung thư vú Kết luận Tài liệu tham khảo iv Lời mở đầu Cách không lâu, phân tích đa biến bao gồm phương pháp tuyến tính minh họa liệu nhỏ vừa Hơn nữa, tính tốn thống kê có nghĩa xử lý hàng loạt chủ yếu thực máy tính lớn sở máy tính từ xa Kể từ năm 1970, tương tác tính tốn bắt đầu khởi sắc phân tích liệu thăm dị ý tưởng Trong thập kỷ tiếp sau, thấy số phát triển đáng kể khả tính tốn địa phương lưu trữ liệu Một số lượng lớn liệu sưu tập, lưu trữ, quản lý tương tác với gói phần mềm thống kê cho phép việc phân tích liệu phức tạp thực dễ dàng Ngày nay, liệu khổng lồ trở thành tiêu chuẩn để làm việc bị đặt trường hợp ngoại lệ thống kê môn khoa học thay đổi để theo kịp với phát triển Thay phụ thuộc nhiều vào kiểm tra giả thuyết truyền thống, ý tập trung vào thông tin khám phá kiến thức Theo đó, thấy số tiến gần phân tích đa biến bao gồm kỹ thuật từ khoa học máy tính, trí thơng minh nhân tạo lý thuyết học máy Tuy nhiên, nhiều số kỹ thuật giai đoạn mở đầu, chờ lý thuyết thống kê để bắt kịp đồng thời chưa phổ dụng hiệu Nhằm tìm hiểu kỹ thuật phân tích thống kê này, luận văn tập trung vào kỹ thuật sử dụng rộng rãi nay, kỹ thuật phân tích phân biệt kỹ thuật Support vector machines Ngoài phần mở đầu, kết luận tài liệu tham khảo, luận văn gồm có chương: Chương 1: "Phân tích phân biệt" trình bày kỹ thuật phân loại phương pháp phân tích phân biệt bao gồm quy tắc phân loại Bayes phân biệt Logistic Xuất phát quy tắc phân loại cho toán nhị phân sau v số trường hợp đặc biệt quy tắc phân loại cho toán đa lớp Chương 2: "Support Vector Machines" Trong chương này, mô tả support vector machines tuyến tính phi tuyến giống lời giải toán phân loại nhị phân Support vector phi tuyến kết hợp phép biến đổi không tuyến tính vectơ đầu vào sử dụng thủ thuật kernel để tính tốn đơn giản Mặc dù phương pháp support vector xây dựng đặc biệt cho trường hợp phân loại nhị phân nỗ lực để mở rộng phương pháp cho tốn đa lớp Chương 3: "Một số ví dụ thực tế" Hà nội, ngày 22 tháng 02 năm 2013 Chương Phân tích phân biệt tuyến tính Xét tập L quan sát nhiều chiều giả thiết quan sát lấy từ lớp K xác định có tính chất đặc trưng Các lớp đồng nhất, ví dụ lồi thực vật, mức độ tín nhiệm khách hàng, diện hay vắng mặt tình trạng y tế cụ thể, quan điểm kiểm duyệt Internet email spam Để phân biệt lớp biết từ nhữn g lớp khác nhau, liên kết lớp nhãn (hoặc giá trị đầu ra) với lớp; sau đó, quan sát mô tả giống quan sát gán nhãn Trong tình huống, nhằm vào mục đích • Phân biệt: Chúng ta sử dụng thông tin tập liệu quan sát gán nhãn để xây dựng nên "quy tắc phân loại" mà tách lớp cách tốt • Phân lớp: Cho sẵn tập thước đo quan sát mà chưa gán nhãn, sử dụng quy tắc phân loại để dự đoán lớp quan sát Một quy tắc phân loại tổ hợp biến đầu vào Khi có lớp (K = 2), cần quy tắc phân loại có lớn lớp (K > 2), cần nhiều K − quy tắc phân loại để phân biệt lớp dự đoán lớp quan sát Để hiểu rõ hơn, xem xét ví dụ chuẩn đoán y tế sau Nếu bệnh nhân vào phòng khẩn cấp với vấn đề đau dày nghiêm trọng Chương Phân tích phân biệt tuyến tính triệu chứng phù hợp với ngộ độc thực phẩm viêm ruột thừa định đặt " loại bệnh phù hợp với bệnh nhân hơn?" sau bệnh nhân điều trị Trong toán này, thấy rằng, hướng điều trị thích hợp cho nguyên nhân gây bệnh phương pháp đối lập với nguyên nhân gây bệnh lại: viêm ruột thừa đòi hỏi phải phẫu thuật ngộ độc thực phẩm khơng, đồng thời việc chẩn đốn sai gây tử vong Theo kết thử nghiệm lâm sàng, bác sỹ định trình điều trị tối đa hóa khả thành công Nếu tổ hợp kết kiểm tra nhắm vào hướng cụ thể phẫu thuật khuyến khích; ngược lại, bác sỹ đề xuất điều trị khơng phẫu thuật Khi đó, "quy tắc phân loại" xây dựng từ kinh nghiệm dựa kết điều tra bệnh nhân điều trị trước Quy tắc phân loại đáng tin cậy hội chẩn đốn thành cơng lớn bệnh nhân tương lai 1.1 Quy tắc phân loại Bayes 1.1.1 Quy tắc phân loại Bayes lớp Đầu tiên xét tốn phân loại lớp (K = 2), mong muốn phân biệt lớp Π1, Π2 Cho P (X ∈ Πi) = πi, i = 1, 2, xác suất tiên nghiệm mà quan sát ngẫu nhiên lựa chọn X = x thuộc Π1 Π2 Giả sử, mật độ xác xuất đa biến có điều kiện X với lớp thứ i P ({X = x|X ∈ Πi}) = fi(x), i = 1, Theo định lý Bayes, thu xác suất hậu nghiệm p(Πi|x) = P (X ∈ Πi|X = x) = Như vậy, với x cho trước, có ý tưởng phân loại gán x vào lớp mà có xác suất hậu nghiệm cao Quy tắc gọi quy tắc phân Chương Phân tích phân biệt tuyến tính loại Bayes Hay nói cách khác, gán x vào Π1 gán vào Π2 ngược lại Thay (1.3) vào (1.4), có quy tắc phân loại Trên biên {x ∈ lớp 1.1.2 Phân tích phân biệt tuyến tính Gauss Bây làm quy tắc phân lớp Bayes xác giả thiết Fisher mật độ xác suất nhiều chiều (1.2) Gauss, có vectơ trung bình tùy ý (a) Trường hợp có ma trận covariance chung Tức là, f1( ) mật độ Nr( 1, Σ1) f2( ) mật độ Nr( 2, Σ2), Σ1 = Σ2 = ΣXX Tỷ số hai mật độ f1(x) f2(x) Suy loge Như L(X) = loge{ Đặt −1 b = ΣXX (1− Chương Support Vector Machine α¯), giả sử K xác định dương Bài tốn đối ngẫu tìm {α.k} để K cực tiểu F = D k=1 K αT y (2.102) ≤ α.k ≤ Lk, k = 1, 2, , K, (α k (2.103) (α − α¯)T K(α − α¯) + nλ k k k=1 k k với ràng buộc (2.104) T − α¯) 1n = 0, k = 1, 2, , K Từ lời giải αˆ.k cho tốn lập trình bậc hai này, lập −1 (2.105) βˆ.k = −(nλ) ( αˆ.k − αˆ), ˆ α = K Lời giải toán phân loại đa lớp cho x cho đó, ˆ fk(x) = β0k Giả sử vector hàng αˆi = ( αˆi1, ˆ (βi1, ˆ , βiK ) = Điều số hạng βikK(xi, x) = Do đó, số hạng chứa (xi, yi) không xuất (2.107); Nói cách khác, khơng vấn đề liệu (xi, yi) hay không chứa tậpL khơng ảnh hưởng tới lời giải Kết đưa tới định nghĩa support vector: "Một quan sát (xi, yi) gọi support vector ˆ ˆ βi = (βi1, ˆ , βik) = " Chương Một số ví dụ thực tế 3.1 Minh họa phân tích phân biệt tuyến tính Giả sử cơng ty sản xuất sản phẩm đắt tiền chất lượng cao Sản phẩm miêu tả đặc trưng "độ cong" "đường kính" Kết kiểm sốt chất lượng kiểm tra chuyên gia cho bảng 3.1 Vấn đề đặt làm thiết lập mơ hình tự động mà kiểm tra chất lượng sản phẩm công ty Giả sử sản phẩm với độ cong 2.81 đường kính 5.46(đối tượng cần xếp lớp) kết đạt hay khơng đạt Ứng dụng phân tích phân biệt áp dụng sau Bước Ta vẽ sản phẩm theo đặc trưng độ cong ứng với trục Ox đường kính ứng với trục Oy Chúng ta thấy vẽ đường để tách biệt lớp đạt(gồm sản phẩm) khơng đạt (gồm sản phẩm) Bài tốn đặt tìm đường phân tách lớp quay thuộc tính để đạt khoảng cách lớp lớn khoảng cách đối tượng lớp nhỏ Bước Chúng ta biểu diễn đối tượng dạng ma trận sau Ma trận đặc trưng(biến độc lập) x Mỗi dòng biểu diễn đối tượng cột biểu diễn đặc điểm Ma trận lớp y chứa lớp đối tượng(biến phụ thuộc) Như 49 Chương Một số ví dụ thực tế Bảng 3.1: Bảng liệu kiểm tra kết chất lượng sản phẩm Hình 3.1: Đồ thị liệu gốc có x = Gọi xk dòng thứ k ma trận x g số lớp y Như vậy, tập liệu này, có g = Gọi xi ma trận chứa đặc trưng đối tượng thuộc lớp i Ở đây, có lớp nên i = 1, 2.95 x1 = Gọi i trung bình đặc trưng đối tượng thuộ Gọi x0i gọi "mean corrected data" tính cách lấy ma trận chứa đặc trưng đối tượng lớp i xi trừ cho ma trận chứa trung bình tồn liệu Như vậy, x i = xi − x = Chương Một số ví dụ thực tế Ma trận hiệp phương sai lớp i tính theo cơng thức sau niCi(r, s) ci = g C(r, s) = n Như vậy, có C(1, 1) = 7(4 0.166 + 0.259) = 0.206 C(1, 2) = 7(4 (−0.192) + (−0.286)) = −0.233 C(2, 2) = 7(4 1.349 + 2.142) = 1.689 Do đó, 0.206 −0.233 −0.233 1.689 C= Ma trận nghịch đảo C−1 = 5.7450.791 0.791 0.701 p vec tơ xác suất lớp Hàng thứ i biểu diễn xác suất lớp i ni tính: pi = N Trong ví dụ này, có p= Hàm phân biệt cho −1 T Li = iC xk Sau tính tốn giá trị Li, gán đối tượng k vào nhóm i cho Li có giá trị lớn Ở đây, viết xk = 2.81 5.46 Khi đó, L1 = 44.049 < L2 = 44.085 Như vậy, sản phẩm gán vào nhóm Do đó, sản phẩm có kết kiểm tra khơng đạt chất lượng Chương Một số ví dụ thực tế 3.2 Ứng dụng SVM để phân loại email spam Sự phát triển dịch vụ thông tin Internet nhu cầu trao đổi thông tin làm cho hệ thống thư điện tử phát triển mạnh Song song với phát triển đó, tình trạng thư rác ngày gây nhiều thiệt hại cho cộng đồng người sử dụng như: hao phí tài nguyên mạng máy tính, làm thời gian người dùng chí phát tán thơng tin văn hóa độc hại Vì vậy, vấn đề xây dựng giải pháp tự động lọc chống thư rác trở thành nhu cầu thiếu Hệ thống lọc thư rác dựa phương pháp phân loại văn bản, tức gán văn vào số nhóm văn biết trước Đối với toán lọc thư rác, đầu vào thư điện tử gửi mạng Internet Ở mức độ đơn giản, thấy có hai nhóm văn thư rác (spam mail) thư (email) Việc xác định nhóm thư rác thường khơng có định nghĩa xác, thay đổi theo đối tượng hoàn cảnh Theo định nghĩa thơng thường, thư có nội dung văn hóa độc hại, thư quảng cáo phán tán với số lượng lớn, thư tuyên truyền với mục đích xấu, Vì vậy, hệ thống phân loại tự động có khả học để thích nghi cần thiết cho hệ thống thư điện tử Phương pháp sử dụng kỹ thuật SVM hiệu việc phân loại thư rác, chất phương pháp sử dụng thống kê nên có ưu điểm định Tập liệu sử dụng có nguồn gốc từ sưu tập email spam (là email thương mại không yêu cầu mà đến từ bưu điện cá nhân đệ đơn thư rác) email (cái mà đến từ tổ chức làm việc email cá nhân) Ở sưu tập bao gồm 4,601 messages, có 1,813 thư rác 2,788 email Mỗi messages nhận chuyển thành biểu diễn vector Mỗi vector bao gồm 57 tọa độ ứng với 57 biến dùng để phân biệt email thư rác Trong đó, có 48 biến mà có dạng "word_freq_WORD", mà đưa tỷ lệ phần trăm từ email phù hợp WORD; biến có dạng "word_freq_CHAR", đưa phần trăm Chương Một số ví dụ thực tế chữ email mà phù hợp CHAR; biến độ dài, đo độ dài trung bình, độ dài lớn nhất, tổng độ dài chuỗi không bị gián đoạn chữ viết hoa liên tiếp Ở đây, messages gán nhãn vào lớp email hay thư rác Và toán đặt sử dụng SVM để phân loại 4,601 messages vào lớp (bài tốn phân loại nhị phân) từ tìm tỷ lệ phân loại sai để xem mức độ xác phương pháp Ở áp dụng SVM không tuyến tính (R package libsvm) sử dụng kernel RBF 4,061 messages (2,788 email 1,813 spam) Lời giải SVM phụ thuộc vào chi phí C vi phạm ràng buộc phương sai σ kernel Gauss RBF Bằng cách sử dụng phương pháp thử sửa sai, sử dụng lưới giá trị cho C γ = σ C = 10, 80, 100, 200, 500, 10000 : γ = 0.00001(0.00001)0.0001(0.0001)0.002(0.001)0.01(0.01)0.04 Trong hình, có giá trị 10fold CV (kiểm chứng c héo) tỷ lệ phân loại sai tương ứng với γ liệt kê trên, đường cong (liên kết với tập điểm) biểu diễn giá trị khác C Với C thấy đường cong phân loại sai CV/10 có hình dạng tương tự: giá trị cực tiểu cho γ gần cho giá trị γ xa đường cong có xu hướng lên Trong tìm kiếm gốc, tìm cực tiểu CV/10 tỷ lệ Chương Một số ví dụ thực tế phân loại sai 8.06% (C; γ) = (500, 0.0002) (1, 000, 0.0002) Chúng ta thấy mức độ tổng quát tỷ lệ phân loại sai có xu hướng giảm C tăng γ giảm đồng thời Một chi tiết điều tra cho C > 1000 γ gần tiết lộ tỷ lệ phân loại sai CV/10 6.91% C = 11, 000 γ = 0.00001 tương ứng với ước lượng 10 CV tỷ lệ phân loại đúng: 0.9043, 0.9478, 0.9304, 0.9261, 0.9109, 0.9413, 0.9326, 0.9500, 0.9326, 0.9328 Lời giải có 931 support vectơ (482 email, 449 spam)điều có nghĩa tỷ lệ lớn (79.8%) messages (cụ thể 82.7% email 75.2% spam) không điểm support Trong 4601 messages có 2697 email 1676 spam Chương Một số ví dụ thực tế phân loại (228 phân loại sai)thu tỷ lệ sai số hiển thị 4.96% So sánh với tiếp cận khác dùng để phân lớp lọc thư rác việc sử dụng SVM có nhiều tiện ích phù hợp với nhu cầu người dùng Ở đây, tiêu chuẩn phân loại học từ mẫu học riêng cá nhân, vận dụng cá nhân hay đơn vị tạo cách lọc riêng Đồng thời mềm dẻo giúp dễ dàng cho việc điều chỉnh tương thích với xuất loại thư rác Trong cơng cụ khác phải tốn nhiều cơng sức phát triển luật việc sử dụng SVM cần học lại tập mẫu mở rộng (chứa mẫu thư rác cũ mới), tự động phát triển tiêu chuẩn lọc thích hợp với tình Một chương trình khơng dựa sở mẫu thư rác mà người dùng đưa vào để huấn luyện mà sử dụng mẫu thư mong muốn, chúng xem mẫu hợp lệ Các đặc tính thư mong muốn cho ta hệ thống dẫn thứ hai, tăng cường khả phân lớp hệ thống cho thu phức tạp không rõ ràng cho phép them phạm trù phân loại thứ ba “mong muốn đảm bảo” phạm trù “spam đảm bảo” “không rõ, không giống spam” Do đó, phân lớp trở nên cụ thể rõ ràng 3.3 Dữ liệu chẩn đoán ung thư vú Wisconsin Ung thư vú nguyên nhân lớn thứ nguyên nhân gây chết ung thư phụ nữ Hiện nay, có phương pháp để chẩn đoán ung thư vú sử dụng • Chụp nhũ ảnh • Sinh thiết tuyến vú chọc hút kim nhỏ(FNA) với giải thích hình ảnh • Phẫu thuật sinh thiết Mặc dù phẫu thuật sinh thiết xác phân biệt khối u ác tính với khối u lành tính, chúng có nhược điểm thời gian Chương Một số ví dụ thực tế tốn Một hệ thống hình ảnh máy tính gần phát triển Đại học Wisconsin Madison với mục đích phát triển quy trình mà c hẩn đốn FNA với độ xác cao FNA thủ thuật dùng kim nhỏ để chọc hút lấy mẫu mô từ tổn thương nghi ngờ tổn thương chưa có chẩn đốn chắn chẩn đốn khơng rõ ràng vú để chẩn đốn bệnh lý tuyến vú FNA đặt slide kính màu để làm bật hạt nhân cấu thành Một hình ảnh từ FNA chuyển giao cho máy trạm máy quay camera gắn kính hiển vi; ranh giới xác hạt nhân xác định Ở đây, xác định 10 biến hạt nhân tế bào tính tốn từ mẫu chất lỏng Chúng liệt kê bảng sau Các biến xây dựng cho giá trị lớn khả cao bệnh ác tính Mỗi hình ảnh bao gồm 1040 nhân, giá trị tru ng bình(mv), giá trị cực (là giá trị lớn tồi tệ nhất; kích thước lớn nhất, hình dạng bất thường nhất)(ev), độ lệch chuẩn(sd) tế bào tính tốn Như vậy, có tổng cộng 30 biến giá trị thực Do tất 30 biến thước đo không âm với biểu đồ lệch nhau, lấy loga tự nhiên biến trước phân tích liệu Dữ liệu giá trị số thay 0.001 trước biến đổi Trong ví dụ này, hiểu liệu biến đổi Tập liệu xét bao gồm 569 trường hợp (hình ảnh), 212 hình ảnh chẩn đốn ác tính (xác nhận phẫu thuật sinh thiết) 357 hình ảnh chẩn đốn lành tính (xác nhận sinh thiết kiểm tra y tế định kỳ) Nhiều cặp 30 biến tương quan cao, ví dụ có 19 tương quan lớn 0.8 0.9; 25 tương quan nhỏ 0.9 (6 tương quan lớn 0.99) Bài toán thứ đặt làm để tách khối u ác tính từ khối u lành tính cách tốt (mà khơng thực phẫu thuật) Bài toán thứ làm để thực điều mà sử dụng biến tốt Để phân biệt khối u lành tính ác tính, hàm phân biệt tuyến tính (LDF) suy từ ước lượng hệ số cho tổ hợp tuyến Chương Một số ví dụ thực tế Bảng 3.2: 10 biến nghiên cứu liệu ung thư vú radius texture peri area smooth comp scav ncav symt fracd Chương Một số ví dụ thực tế tính tối ưu 30 biến đầu vào Từ kết LDF, tính tốn điểm cho 569 khối u sau đó, tách điểm theo nhóm Chúng ta ước lượng tiên nghiệm π1 π2 πˆ1 = 0.6274 πˆ2 = n 357 n = 569 = n 212 n = 569 = 0.3726 Các hệ số LDF ước ˆ lượng tính tốn X1, X2 ma trận covariance chung XX sử dụng 1.24 Các kết cho bảng 3.2 Sử dụng quy trình kiểm chứng chéo leaveoneout làm giảm qua n sát từ tập Bảng 3.3: Các hệ số ước lượng hàm phân tích phân biệt Fisher cho liệu ung thư vú Tất biến lấy loga tự nhiên Biến radius.mv texture.mv peri.mv area.mv smooth.mv comp.mv scav.mv ncav.mv symt.mv fracd.mv liệu, ước lượng lại LDF từ (n − 1) quan sát cịn lại sau đó, chia lớp Chương Một số ví dụ thực tế quan sát bỏ qua Quy trình lặp lại 569 lần cho quan sát tập liệu Bảng "sai số" cho việc phân loại 569 quan sát cho bảng Trong bảng 3.3, tổng số hàng phân loại tổng số cột dự đoán phân loại sử dụng Fisher LDF kiểm chứng chéo leaveoneout Như vậy, tỷ Bảng 3.4: Bảng sai số nghiên cứu liệu ung thư vú Khối u lành t Khối u ác tín Tổng cột lệ chia lớp sai với LDF Fisher ví dụ ước lượng 569 0.042 hay 4.2% 24 = Kết luận Luận văn trình bày số kỹ thuật đại giải hữu hiệu toán phân tích thống kê nhiều chiều Đây kỹ thuật tốt, có tính ứng dụng cao thực tế đặc biệt y sinh học, kinh tế Luận văn đề cập đến vấn đề sau: Trình bày kỹ thuật phân loại phương pháp phân tích phân biệt tuyến tính, bao gồm • Quy tắc phân loại Bayes • Quy tắc phân loại Logistic Trình bày phương pháp support vector machines, phương pháp phân lớp hiệu nghiên cứu nhiều thời gian qua Phân tích giải pháp cho phép mở rộng cải tiến để nâng cao hiệu ứng dụng SVM Trình bày hướng áp dụng phương pháp SVM cải tiến, mở rộng vào giải số toán ứng dụng thực tiễn Minh họa số ví dụ thực tế sử dụng phương pháp Tài liệu tham khảo [1] Nguyễn Văn Hữu(chủ biên), Đào Hữu Hồ, Hoàng Hữu Như, Thống kê toán học, NXB Đại học Quốc gia Hà Nội, 2004 [2] Alan Julian Izenman, Modern Multivariate Statistical Techniques, Springer, 2008 [3] R Gunn, " Support vector machines for classification and regression", Technical Report, University of Southampton Press, 1998 [4] Scholkopf, B., Burges, C., Smola, A.(Eds), 1999 Advances in Kernal Meth ods: Support Vector , MIT Press, Cambridge [5] http: //astro.temple.edu/ alan/MMST/datasets.html [6] http: //bis.net.vn .. .đại học quốc gia hà nội trờng đại học khoa häc tù nhiªn Lê Thị Thanh Hà MỘT SỐ KỸ THUẬT HIỆN ĐẠI TRONG PHÂN TÍCH THỐNG KÊ NHIỀU CHIỀU Chuyên ngành: Lý thuyết xác suất thống kê. .. Tuy nhiên, nhiều số kỹ thuật giai đoạn mở đầu, chờ lý thuyết thống kê để bắt kịp đồng thời chưa phổ dụng hiệu Nhằm tìm hiểu kỹ thuật phân tích thống kê này, luận văn tập trung vào kỹ thuật sử dụng... nay, kỹ thuật phân tích phân biệt kỹ thuật Support vector machines Ngoài phần mở đầu, kết luận tài liệu tham khảo, luận văn gồm có chương: Chương 1: "Phân tích phân biệt" trình bày kỹ thuật phân