Nghiên cứu mô hình tối ưu lồi cho một số bài toán phân lớp nhị phân

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN THỊ TỐ MI NGHIÊN CỨU MƠ HÌNH TỐI ƯU LỒI CHO MỘT SỐ BÀI TOÁN PHÂN LỚP NHỊ PHÂN LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN LONG AN, 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN THỊ TỐ MI NGHIÊN CỨU MƠ HÌNH TỐI ƯU LỒI CHO MỘT SỐ BÀI TOÁN PHÂN LỚP NHỊ PHÂN Chuyên ngành: Công nghệ thông tin Mã số: 60480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: TS LÊ HỒNG TRANG LONG AN, 2017 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi hướng dẫn Tiến sĩ Lê Hồng Trang Các số liệu, kết nêu luận văn trung thực số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngồi ra, luận văn sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Tơi xin cam đoan giúp đỡ cho việc thực luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Nguyễn Thị Tố Mi LỜI CẢM ƠN Để thực hoàn thành Luận văn cao học ‘‘Nghiên cứu mơ hình tối ưu lồi cho số toán phân lớp nhị phân“, em xin gửi lời cảm ơn biết ơn chân thành đến thành viên giúp đỡ em trình thực luận văn Trước tiên, em xin cảm ơn Khoa Công Nghệ Thông Tin Trường Đại Học Vinh mở lớp liên kết giảng dạy Long An để em có hội tham gia khóa học này, em xin cảm ơn Trường Đại học Kinh tế - Công nghiệp Long An phối hợp với Trường Đại học Vinh để tạo điều kiện sở vật chất tốt để hỗ trợ chúng em hồn thành khóa học cao học (2015-2017) Bên cạnh đó, em xin gửi lời cảm ơn chân thành đến quý thầy cô tham gia giảng dạy mơn suốt khóa học em Đặc biệt, em xin gửi lời cảm ơn biết ơn sâu sắc đến thầy Tiến sĩ Lê Hồng Trang nhiệt tình hướng dẫn, góp ý nhận xét, động viên dành nhiều thời gian, tâm huyết để nghiên cứu giúp đỡ em hồn thành luận văn cao học Bên cạnh đó, em xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp giúp đỡ tạo điều kiện cho em dành thời gian hồn thành luận văn cao học Trong lời cảm ơn này, em xin kính chúc quý thầy cô Khoa Công Nghệ Thông Tin, quý thầy Phịng Sau Đại học trường Đại học Vinh quý thầy cô Khoa liên kết đào tạo Trường Đại học Kinh tế - Công nghiệp Long An nhiều sức khỏe, ln hồn thành tốt cơng tác chun mơn công tác khác nghiệp giáo dục q thầy Trong q trình thực luận văn, dành nhiều thời gian nghiên cứu hỗ trợ nhiều từ Tiến sĩ Lê Hồng Trang khơng tránh khỏi thiếu sót hạn chế kiến thức nên em hy vọng quý thầy sau tham khảo luận văn có góp ý nhận xét gửi đến em để em chỉnh sửa kịp thời hồn thiện luận văn Em xin chân thành cảm ơn! Tân An, ngày 20 tháng 02 năm 2017 Học viên Nguyễn Thị Tố Mi MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG MỞ ĐẦU 1.1 Đặt vấn đề 13 1.2 Các kiến thức tập lồi hàm lồi 13 1.2.1 Tập lồi 13 1.2.2 Tính tách rời tập lồi 18 1.2.3 Hàm lồi 18 1.3 Bài toán tối ưu lồi 22 1.3.1 Tối ưu dạng chuẩn (standard form) 22 1.3.2 Tối ưu lồi (convex optimization) 23 1.3.3 Tối ưu tuyến tính (linear optimization) 25 1.3.4 Tối ưu bậc hai (quadractic optimization) 26 1.4 Bài toán phân lớp nhị phân 28 1.4.1 Giới thiệu Phân lớp (classification) 28 1.4.2 Một số hướng tiếp cận để giải toán phân lớp nhị phân 28 Chương 2: MƠ HÌNH TỐI ƯU LỒI CHO CÁC BÀI TOÁN PHÂN LỚP NHỊ PHÂN 30 2.1 Phân lớp 30 2.1.1 Giới thiệu 30 2.1.2 Hướng tiếp cận phân lớp 30 2.1.3 Ví dụ phân lớp 31 2.2 Phân lớp dạng Robust 31 2.2.1 Giới thiệu 31 2.2.2 Hướng tiếp cận phân lớp dạng Robust 32 2.2.3 Ví dụ phân lớp nhị phân dạng Robust 33 2.3 Phân lớp mơ hình Logistic 34 2.3.1 Giới thiệu 34 2.3.2 Hướng tiếp cận phân lớp mơ hình Logistic 34 2.3.3 Ví dụ phân lớp nhị phân mơ hình Logistic 36 2.4 Phân lớp Support Vector Classifer 36 2.4.1 Giới thiệu 36 2.4.2 Mơ hình Support Vector Classifer 37 2.4.3 Ví dụ phân lớp Support Vector Classifer (SVM) 39 2.5 Phân lớp bậc hai 40 2.5.1 Giới thiệu 40 2.5.2 Hướng tiếp cận phân lớp bậc hai 40 2.5.3 Ví dụ phân lớp bậc hai 42 2.6 Phân lớp đa thức 42 2.6.1 Giới thiệu 42 2.6.2 Hướng tiếp cận phân lớp đa thức 43 2.6.3 Ví dụ phân lớp đa thức 44 Chương 3: XÂY DỰNG ỨNG DỤNG PHÂN LỚP NHỊ PHÂN 45 3.1 Giới thiệu phân lớp với thuật toán Support Vector Machine 45 3.2 Giới thiệu công cụ mơ hình hóa CVX 48 3.3 Thực thi số ứng dụng số phân lớp nhị phân tuyến tính 50 3.4 Đánh giá thực nghiệm 55 3.5 Ứng dụng lọc thư spam với thuật toán Support Vector Machine 58 3.6 Nhận xét đề xuất 66 KẾT LUẬN 67 TÀI LIỆU THAM KHẢO 68 DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT SVM Support Vector Machine (Máy vec-tơ hỗ trợ) SDP Semi-Definite Programing Bất đẳng thức theo thành phần domf Miền xác định C, D Tập lồi epi f Đồ thị f  x  Đạo hàm bậc 2 f  x  Đạo hàm bậc hai Sn Hàm bậc hai s.t Subject to (thỏa mãn) DANH MỤC CÁC HÌNH Hình 1: Bao lồi 14 Hình 2: Tổ hợp nón 15 Hình 3: Siêu phẳng 15 Hình 4: Nửa khơng gian 16 Hình 5: Đa diện 17 Hình 6: Siêu phẳng hỗ trợ 17 T Hình 7: Siêu phẳng x | a x  b tách C D 18   Hình 8: Xấp xỉ bậc hàm f 20 Hình 9: Đồ thị 21 Hình 10: Điều kiện tối ưu với f0 khả vi 25 Hình 11: Tập phương án đa diện 26 Hình 12: Bài toán cực tiểu hàm bậc hai lồi đa diện 27 Hình 13: Ví dụ phân lớp nhị phân 28 Hình 14: Mơ hình phân lớp tuyến tính 29 Hình 1: Phân lớp 31 Hình 2: Giải pháp tốn phân biệt tuyến tính Robust 34 Hình 3: Phân lớp nhị phân qua mơ hình logistic 36 Hình 4: Phân lớp tuyến tính qua quy hoạch tuyến tính 37 Hình 5: Phân lớp tuyến tính qua phương pháp phân lớp hỗ trợ vector với 39 Hình 6: Phân lớp bậc hai với điều kiện P 42 Hình 7: Mức độ tối thiểu phân lớp đa thức không gian 44 Hình 1: Mơ hình phân lớp Khai phá liệu 47 Hình 2: Ví dụ liệu chưa phân lớp 48 Hình 3: Phân lớp đơn giản sử dụng hàm affine 51 Hình 4: Phân lớp nhị phân qua toán tối ưu 52 Hình 5: Phân lớp nhị phân tuyến tính sử dụng Support Vector Classifier 54 Hình 6: Thời gian chạy ba trình giải M, N nhỏ 56 Hình 7: Thời gian chạy ba trình giải M, N lớn 57 DANH MỤC CÁC BẢNG Bảng 1: Thời gian nghiệm thực thi 10 liệu ngẫu nhiên 55 Bảng 2: So sánh kết lọc trích email spam từ thuật tốn 61 Bảng 3: Kết phân lớp 63 Bảng 4: Sự kết hợp thuật toán phân lớp 65 Bảng 5: Kết kết hợp thuật toán lọc thư spam 65 MỞ ĐẦU Lý chọn đề tài Tối ưu hóa lĩnh vực kinh điển tốn học có ảnh hưởng đến ngành khoa học – công nghệ kinh tế - xã hội Trong thực tế, tối ưu công cụ quan trọng khoa học định phân tích hệ thống vật lý đặc biệt muốn tìm giải pháp tối ưu cho toán hay vấn đề cần xác định mục tiêu đại lượng đo lợi nhuận, thời gian, lượng,…dựa đặc trưng hệ thống từ xác định phương án để tối ưu mục tiêu cần tìm Phương án tối ưu phương án hợp lý nhất, tốt nhất, tiết kiệm chi phí, tài nguyên, nguồn lực mà lại cho hiệu cao Bài toán tối ưu lồi toán toán tối ưu, toán tạo tiền đề, mở hướng giải cho toán ngành khoa học kỹ thuật máy tính Trong đó, việc xây dựng mơ hình tối ưu lồi cho toán phân lớp nhị phân vấn đề cấp bách cần nghiên cứu ứng dụng rộng rãi Về phương diện tính tốn có nhiều phương pháp để phân lớp toán nhị phân nhiên, việc sử dụng mơ hình tối ưu lồi để xây dựng ứng dụng phân lớp nhị phân tuyến tính ý phát triển Phân lớp nhị phân tuyến tính khái niệm tổng quát phân lớp tuyến tính Fisher, phương pháp sử dụng thống kê (statistics), nhận dạng mẫu (Pattern Recognition), học máy (Learning Machine), khai phá liệu (Data Mining) để tìm kết hợp tuyến tính tính đặc trưng để tách hai lớp đối tượng kiện Kết kết hợp tách hai tập điểm siêu phẳng Với lý muốn tìm hiểu, nghiên cứu mơ hình tối ưu lồi (Covex Optimization) ứng dụng vào tốn phân lớp, đồng thời tìm hiểu phương pháp dùng để phân lớp toán phân lớp mà cụ thể toán phân lớp nhị phân, đồng ý thầy Tiến sĩ Lê Hồng Trang nên chọn thực luận văn Nghiên cứu mơ hình tối ưu lồi cho tốn phân lớp nhị phân Lịch sử vấn đề Trãi qua trình hình thành phát triển việc phân lớp trở nên đơn giản với người thông qua nhiều phương pháp kỹ thuật khác Tuy nhiên, việc sử dụng kỹ thuật phân lớp nhị phân tuyến tính cách sử dụng mơ hình Tối ưu lồi hướng tiềm Qua đó, người dùng linh động lựa chọn số phương pháp phân lớp tuyến tính hay phi tuyến Đặc biệt, ứng dụng phân lớp chạy mơi trường Matlab cơng cụ mơ hình CVX Đối tượng phạm vi nghiên cứu 3.1 Đối tượng 3.1.1 Nghiên cứu lý thuyết Nghiên cứu toán tối ưu toán học, cụ thể tối ưu lồi Nghiên cứu toán phân lớp nhị phân, cụ thể phương pháp phân lớp nhị phân phân lớp nhị phân tuyến tính phân lớp nhị phân phi tuyến 3.1.2 Nghiên cứu thực nghiệm Nghiên cứu sử dụng cơng cụ lập trình Matlab công cụ CVX để xây dựng thực thi ứng dụng minh họa cho toán phân lớp nhị phân tuyến tính với phương pháp phân lớp nhị phân Support Vector Machine 3.2 Phạm vi Luận văn tập trung nghiên cứu việc ứng dụng mơ hình tối ưu lồi cho số toán phân lớp nhị phân ví dụ minh họa Trong phạm vi luận văn này, tập trung nghiên cứu nhằm thể ứng dụng cụ thể với phương pháp phân lớp nhị phân Support Vector Machine Mục đích, nhiệm vụ nghiên cứu Luận văn tập trung thực mục đích sau đây: 4.1 Mục đích tổng quát Nghiên cứu mơ hình tối ưu lồi cho số tốn phân lớp nhị phân 54 axis equal title('Approximate binary classification using support vector classifier (SVM)'); print -deps svc-discr2.eps Hình 5: Phân lớp nhị phân tuyến tính sử dụng Support Vector Classifier Phương pháp phân lớp hỗ trợ vector, cho thấy phân lớp sai 02 điểm, điểm lại phân lớp lại nằm đường biên phân lớp xác định với 1 ≤ aT z  b ≤ Đây toán lồi giảm số lượng điểm phân lớp sai (bao gồm điểm đường biên) hình 3.5 cho ta thấy điều 55 3.4 Đánh giá thực nghiệm Để cho tính hữu ích áp dụng tiếp cận tối ưu lồi cho toán phân lớp nhị phân, luận văn tiến hành thực nghiệm phân lớp sử dụng Support Vector Machine (SVM) với số liệu Các liệu cho ngẫu nhiên với kích thước tăng dần Với M, N số điểm liệu mẫu gán nhãn y x, tương ứng Trong thực nghiệm đây, M N thiết lập Điều có nghĩa số điểm mẫu gấp đơi giá trị M Khi đó, số biến mà thuật toán phải làm việc nhân lên bốn lần giá trị M Thực nghiệm tiến hành với ba trình giải khác hỗ trợ CVX, SDPT3, Sedumi, Mosek Các trình giải thiết kế với phương pháp điểm để giải toán tối ưu lồi Tuy nhiên, chúng khác việc thiết kế cải tiến thuật tốn Do đó, hiệu tính tốn chúng khác Bảng 3.1 thể thực nghiệm với ba trình giải trên, với thực nghiệm cho tập liệu, chúng tơi ghi lại kích thước liệu, thời gian tính toán giá trị tối ưu đạt của tốn phân lớp với liệu Bảng 1: Thời gian nghiệm thực thi 10 liệu ngẫu nhiên SDPT3 STT M, N Thời gian Sedumi Thời Nghiệm (giây) gian Mosek Thời Nghiệm (giây) gian Nghiệm (giây) 10 0.32 0.91 0.13 0.91 1.09 0.91 50 0.42 1.82 0.14 1.82 1.65 1.82 100 0.63 2.52 0.23 2.52 1.69 2.52 500 0.97 8.16 0.31 8.16 1.92 8.16 1,000 1.23 18.29 0.39 18.29 2.05 18.29 56 5,000 2.65 88.42 1.53 88.42 2.15 88.42 50,000 17.73 Failed 25.85 846.42 4.30 846.42 100,000 37.43 Failed 63.60 1662.13 8.74 1662.12 500,000 89.73 Failed 427.70 8381.97 41.16 8381.97 1,000,000 420.84 Failed 1343.78 16705.80 96.23 16705.80 10 Mười liệu thực nghiệm với kích thước lớn 1000000 cho M N Trong trường hợp có hai triệu điểm mẫu, tức mơ hình tốn triệu điểm (tính u, v) Kết bảng cho thấy với Mosek thời gian để giải nghiệm 96 giây Điều cho thấy với toán phân lớp, việc áp dụng tối ưu lồi sử dụng thuật tốn tốt hiệu Để phân tích rõ kết cho Bảng 3.1, khía cạnh hiệu tính tốn, hai hình vẽ đưa so sánh thời gian chạy trình giải sử dụng Hình 6: Thời gian chạy ba trình giải M, N nhỏ 57 Hình 3.6 cho thấy, trình giải SDPT3 thực thi với toán có kích thước nhỏ, liệu tăng lên thuật tốn khơng đưa nghiệm dừng sau số bước lặp định Lý dừng, số lần lặp vượt giá trị cho phép (tuỳ thuộc vào kích thước tốn) Với kích thước nhỏ, SDPT3 Sedumi có hiệu tính tốn tốt so với Mosek Tuy nhiên, ưu điểm khơng trì ta tăng kích thước toán lên lớn siêu lớn Điều thể rõ Hình 3.7 Hình 7: Thời gian chạy ba trình giải M, N lớn Thời gian thực thi thể Hình 3.7 cho thấy, Mosek đặc biệt hiệu với tốn liệu lớn Ví dụ với kích thước M = N =1000000, thời gian thực thi Mosek 96.23 giây so với 1343.78 giây Sedumi, giá trị tối ưu Sedumi tìm Mosek đưa Hơn nữa, để đạt kết đó, Sedumi 4847.51 giây cho việc thực tiền xử lý mơ hình liệu, Mosek 158.81 giây Những kết 58 cho thấy với trình giải thiết kế tốt, mơ hình tối ưu lồi cho tốn phân lớp nhị phân đáng giá 3.5 Ứng dụng lọc thư spam với thuật toán Support Vector Machine Giải thuật học Support Vector Machine Vapnik tìm siêu phẳng tối ưu (xác định vec-tơ pháp tuyến w độ lệch siêu phẳng b) dựa hai siêu phẳng hỗ trợ lớp Các phần tử Ai lớp +1 nằm bên phải siêu phẳng hỗ trợ cho lớp +1, phần tử Aj lớp -1 nằm phía bên trái siêu phẳng hỗ trợ cho lớp -1 Ai w  b  1, i có D i, i   (1) Aj w  b   1, i có D  j, j   (2) Kết hợp (1) (2) ta được: D  Aw  eb   e (3) Trong e vec-tơ cột mà tất phần tử Hình 8: Phân lớp tuyến tính với máy học Support Vector Machine 59 Khoảng cách hai siêu phẳng hỗ trợ gọi lề (margin) tính bằng: margin = w (4) đó, w độ dài vec-tơ w Siêu phẳng kết (w, b) phân chia tập điểm thành lớp nằm siêu phẳng hỗ trợ Bất điểm xi nằm sai phía so với siêu phẳng hỗ trợ xem lỗi Khoảng cách lỗi biểu diễn z i ≥ (với xi nằm phía siêu phẳng hỗ trợ khoảng cách lỗi tương ứng z i = 0, ngược lại zi > khoảng cách từ điểm xi đến siêu phẳng hỗ trợ tương ứng nó) Việc tìm kiếm siêu phẳng tối ưu giải thuật máy học Support Vector Machine với việc cực đại hóa lề (lề lớn, mơ hình phân lớp an tồn) cực tiểu hóa lỗi Giải thuật SVM (Support Vector Machine) dẫn đến tốn quy hoạch tồn phương sau: f  C z  z , w ,b w 2 (5) với ràng buộc D(Aw – eb) + z ≥ e C > số cho phép điều chỉnh mức độ lỗi (z ≥ 0) độ rộng (lề) siêu phẳng hỗ trợ: Giải tốn quy hoạch tồn phương (5), thu siêu phẳng (w, b) Việc phân loại cho phần tử dựa siêu phẳng kết (w, b) tính theo cơng thức sau: predict (x) = sign (wx + b) (6) Giải thuật SVM (Support Vector Machine) giải tốn phân lớp tuyến tính, nhiên ta kết hợp SVM (Support Vector Machine) với phương pháp hàm nhân (kernel-based method) cho phép giải lớp toán phân lớp phi tuyến 60  Thực thi giải thuật Support Vector Machine với toán lọc thư spam so sánh hiệu phân lớp SVM so với thuật toán phân lớp khác Mỗi thư chuyển thành vector đặc trưng với 21700 thuộc tính (đây số lượng từ khác tùy vào tất thư tập văn bản) Một thuộc tính n đặt thành từ tương ứng có văn khơng có văn Bài tốn trích xuất đặc trưng sử dụng cho tất thuật toán Vectơ đặc trưng thư đưa để phân lớp thành thuật tốn phân lớp huấn luyện thơng điệp phần tập văn đó, không chứa thư để phân lớp Đối với thuật toán, số N S  L thư spam phân lớp khơng xác phân loại thư hợp pháp số N L  S thư hợp pháp, phân loại khơng xác thư spam Cho N = 1099 thể tổng số thư đến, N s = 481 - số lượng thư spam, N L = 618 - số lượng thư hợp pháp Số lượng hiệu suất sau tỷ lệ lỗi E  N S L  N L N độ xác P 1 E thư hợp pháp (fallout) FL  NL  S NL S 61 thư spam (fallout) FS  NS  L NS Lưu ý tỷ lệ lỗi độ xác phải xem xét tương đối so với trường hợp không phân lớp Nếu không sử dụng lọc spam tất trường hợp phải đảm bảo độ xác NL , trường hợp ta N xét lớn 50% Vì vậy, nên quan tâm đến việc làm để phân lớp tốt ứng dụng thuật toán phân lớp so với phân lớp bình thường Điều quan trọng tỷ lệ phân lớp xác phân lớp bình thường xác đạt theo công thức sau: G P NL  N N  N S  L  N LS NL  Trình bày thuật tốn phân lớp Bảng 2: So sánh kết lọc trích email spam từ thuật toán Thuật toán N LS N S L FS G Naïve Bayes (  =1) 138 87.4% 0.0% 28.7% 1.56 k-NN (k=51) 68 33 90.8% 11.0% 6.9% 1.61 SVM 10 11 98.1% 1.6% 2.3% 1.74 P FL [Konstantin Tretyakov, kt@ut.ee, Institute of Computer Science, University of Tartu] Theo quan sát từ bảng thống kê 3.2 ta nhận xét rằng, mặt lý thuyết thuật toán máy hỗ trợ vectơ tổng quát đó, có độ xác sau lọc thư spam cao so với thuật toán cịn lại (mặc dù khơng đề cập luận văn) Quan sát thứ hai phân lớp với bayesian tạo khơng có trường hợp phân lớp sai tất trường hợp Cần lưu ý rằng, có thuộc tính vector đặc trưng (1000-2000), thuật tốn khơng thực tối đa tính 62 nó, lúc xuất xác định sai xác định Số lượng xác định sai sau giảm cách tăng tham số  Khi có nhiều đặc trưng sử dụng, số lượng xác định sai giảm số lượng xác định xấp xỉ Với số lượng lớn đặc trưng điều chỉnh tham số  gần khơng có ảnh hưởng, hầu hết trường hợp tỷ lệ khả xảy cho thư dường  Đối với thuật toán phân lớp k-láng giềng gần dường xuất gần độc lập với giá trị k Nhìn chung khơng xác số lượng xác định sai lớn Thực lọc spam khơng có xác định sai Theo tiêu chí này, có phân lớp bayesian vượt qua thử nghiệm Hướng tới cần thử điều chỉnh thuật tốn khác để có kết tốt  Loại bỏ xác định sai Chúng ta cần lọc thư rác với xác suất thấp xác định sai Hầu hết thuật tốn phân lớp ứng dụng có số tham số điều chỉnh để giảm xác suất lọc thư sai tăng xác suất lọc thư Chúng ta điều chỉnh thông số tương ứng việc phân lớp khơng có xác định sai nhiều tất trình phân lớp Vì vậy, yêu cầu đặt thuật tốn phân lớp khơng nên phân lớp sai tập huấn luyện phần tập văn (yêu cầu phân lớp) kiểm tra tất tập văn Đặc biệt, thuật tốn không nên tạo phân lớp sai tập huấn luyện phần tập văn kiểm tra toàn tập văn (phân lớp) Có vẻ hợp lý để hy vọng lọc đáp ứng yêu cầu này, tin tưởng sống Bây nhìn vào điều chỉnh Bộ phân lớp bayesian có tham số  , tham số tăng lên Bộ phân lớp kNN thay với phân lớp l/k số l điều chỉnh với 63 k Thuật tốn Perceptron khơng thể điều chỉnh, rời khỏi q trình phân lớp giai đoạn Phân lớp hard-margin SVM cải thiện, phân lớp soft-margin SVM điều chỉnh Mặc dù hoạt động bên thuật tốn khơng thảo luận đây, luận văn kết tương ứng trình bày Các thơng số u cầu xác định thực nghiệm Việc phân lớp thu thỏa mãn yêu cầu nêu xác u cầu thử nghiệm 210 tập huấn luyện khác nhau, bên cạnh thử nghiệm nhiều tập huấn luyện khác kết hợp này, thơng số thu phải tương đối gần với mục tiêu kết phân lớp Dưới biện pháp thực kết phân lớp (các biện pháp thu theo cách tương tự mô tả phần trước) Bảng 3: Kết phân lớp Thuật toán Naïve Bayes (  =8) l/k-NN (k=51, l=35) SVM soft margin (cost=0.3) N LS N S L 0 140 337 101 P FL FS 87.3% 0.0% 29.1% 69.3% 0.0% 70.0% 90.8% 0.0% 21.0% G 1.55 1.23 1.61 [Konstantin Tretyakov, kt@ut.ee, Institute of Computer Science, University of Tartu] Nhìn kết phân tích cho thấy phân lớp l/k khơng thể so sánh với hai phân lớp cịn lại Vì vậy, khơng xét trường hợp kết luận có hai thuật tốn dùng lọc thư rác hoạt động tốt thuật tốn máy hỗ trợ vector (SVM) Nạve Bayes Đây hai thuật tốn trích lọc đem lại hiệu cao trình lọc thư spam  So sánh phân lớp Cho f g biểu thị hai lọc thư rác mà hai có xác suất lọc sai thấp Có thể kết hợp chúng để có lọc với độ xác tốt sử dụng quy tắc phân lớp sau đây: 64 Phân loại thư x spam f hay g phân loại spam Nếu khơng (Nếu f (x) = g (x) = L) phân loại thư hợp pháp (legitimate mail) Chúng ta xem xét kết phân lớp union (tập phân lớp sai so với tập kết ban đầu) f g biểu thị f  g Có vẻ làm việc nguy hiểm kết phân lớp tạo lọc sai cho thư x trình phân lớp thực Chúng ta giả định phân lớp f g có xác suất thấp việc lọc sai xác suất mà chúng có lỗi lọc thấp, union an toàn trường hợp Sau đây, ý kiến để giải thích cho vấn đề đó: Nếu cho thư x f(x) = g(x) = c, phân lớp x phụ thuộc đến c Mục đích f ( x)  g ( x) ví dụ cho f(x) = L g(x)=S Chúng ta biết g khơng phân lớp sai thư hợp pháp thư spam lý thuật tốn đưa kết khác liên quan đến thật f chọn an tồn, định sai Vì vậy, hợp lý để giả định lớp thực thư x S L Số lượng kết phân lớp dĩ nhiên phân lớp gốc ban đầu, cho thư x phân lớp f  g phải phân lớp cho tập f tập g Trong phần trước, tìm hai phân lớp mà khơng có phân lớp sai Sau bảng 3.4 biểu diễn đặc tính kết hợp thuật toán 65 Bảng 4: Sự kết hợp thuật tốn phân lớp Thuật tốn Nạve Bayes  SVM N LS N S L 61 FL P 94.4% 0.0% FS 12.7% G 1.68 [Konstantin Tretyakov, kt@ut.ee, Institute of Computer Science, University of Tartu] Và ý kiến cuối cùng, cho h phân lớp với độ xác cao (ví dụ cho thuật tốn phân lớp Support Vector Machine (SVM) với biên dày) Có thể sử dụng để làm giảm khả phân lớp sai f  g cách sau Nếu f(x) = g(x) = c thực trên, ví dụ phân lớp x đến lớp c Nếu cho thư x phân lớp f g cho kết kết khác không nên chọn phân lớp x spam, tham khảo thay h Bởi h có độ xác cao, nên hợp lý để tin trình phân lớp cho kết xác Do h hoạt động biện pháp bổ sung để giúp kiểm nghiệm kết phân lớp sai Vì vậy, xác định cách kết hợp ba phân lớp sau đây: Cho thư x phân lớp vào lớp c hai số phân lớp f, g h phân lớp c Nếu kết hợp thuật toán Navie Bayesian, Support Vector Machine thuật toán Perceptron lọc thư spam thu kết sau: Bảng 5: Kết kết hợp thuật toán lọc thư spam Thuật toán số thuật toán N LS N S L P FL FS G 62 94.4% 0.0% 12.9% 1.68 [Konstantin Tretyakov, kt@ut.ee, Institute of Computer Science, University of Tartu] Vì vậy, thấy việc phân lớp cho lọc thư spam trước có phần phân lớp sai nhiều so với việc kết hợp thuật toán lại với kết phân lớp sai 66 3.6 Nhận xét đề xuất Luận văn thuộc hướng tiếp cận sử dụng mơ hình tối ưu lồi cho toán phổ biến khoa học máy tính thuộc lĩnh vực học máy, khai phá liệu hay trí tuệ nhân tuệ Các kết tìm hiểu tảng sở cho việc nghiên cứu tiếp cận tối ưu số hiệu cho toán lĩnh vực trên, đặc biệt mơ hình tốn thực tế phức tạp với yêu cầu tập liệu lớn phức hợp 67 KẾT LUẬN Sau thời gian thực hồn thành, luận văn Nghiên cứu mơ hình Tối ưu lồi cho số tốn phân lớp nhị phân đạt kết sau: Luận văn trình bày kiến thức tảng tối ưu lồi toán phân lớp nhị phân lĩnh vực học máy Tìm hiểu kỹ mơ hình tối ưu lồi cho toán phân lớp nhị phân, từ lý thuyết nhận diện tốn lập cơng thức tốn học cho mơ hình tốn Các mơ hình tính tốn xây dựng code demo mơi trường Matlab CVX minh họa cho phương pháp phân lớp tuyến tính với hàm affine đơn giản, phương pháp Support Vector Classifier (SVM) với liệu ngẫu nhiên Các kết số minh họa đồ họa trình bày đầy đủ luận văn Ứng dụng công cụ số Matlab CVX để thực thi ứng dụng demo tốn phân lớp tuyến tính nhị phân dự định ban đầu đề cương Xây dựng ứng dụng đơn giản tốn phân lớp nhằm tính khả thi việc áp dụng tiếp cận tối ưu lồi cho tốn phổ biến khoa học máy tính - Hạn chế luận văn: Mặc dù hoàn thành nội dung đề cương ban đầu đặt ra, nhiên khơng có nhiều thời gian hạn chế mặt kỹ lập trình nên luận văn chưa có nhiều ứng dụng thực tế minh họa cho việc phân lớp mơ hình tối ưu lồi - Hướng khắc phục phát triển luận văn: Tiếp tục nghiên cứu xây dựng thêm mơ hình Tối ưu lồi cho ứng dụng phân lớp lọc thư spam với thuật toán SVM ứng dụng thực tế cụ thể 68 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Đức Nghĩa, Tối ưu hóa, NXB Giáo dục, Hà Nội, 2003 [2] Trần Xuân Sinh, Lý thuyết Quy hoạch Tuyến tính, NXB Sư Phạm, 2003 Tài liệu tiếng Anh [3] Konstantin Tretyakov, kt@ut.ee, Institute of Computer Science, University of Tartu, 2004 [4] N Cristianini and J Shawe-Taylor An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, Cambridge University Press, 2000 [5]Stephen Boyd & Lieven Vandenberghe, Convex Optimization, Cambridge University Press, 2004 [6] J Nocedal & S Wright, Numerical Optimization, 2nd Ed., Springer, 2006 ... cứu mơ hình tối ưu lồi cho số toán phân lớp nhị phân 9 4.2 Mục đích cụ thể (i) Nghiên cứu mơ hình tối ưu lồi (ii) Nghiên cứu tốn phân lớp nhị phân (iii) Nghiên cứu việc áp dụng mơ hình tối ưu. .. vi nghiên cứu 3.1 Đối tượng 3.1.1 Nghiên cứu lý thuyết Nghiên cứu toán tối ưu toán học, cụ thể tối ưu lồi Nghiên cứu toán phân lớp nhị phân, cụ thể phương pháp phân lớp nhị phân phân lớp nhị phân. .. pháp dùng để phân lớp toán phân lớp mà cụ thể toán phân lớp nhị phân, đồng ý thầy Tiến sĩ Lê Hồng Trang nên chọn thực luận văn Nghiên cứu mô hình tối ưu lồi cho tốn phân lớp nhị phân 8 Lịch

Định dạng
Số trang	70
Dung lượng	1,5 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Nguyễn Đức Nghĩa, Tối ưu hóa, NXB Giáo dục, Hà Nội, 2003	Khác
[2] Trần Xuân Sinh, Lý thuyết Quy hoạch Tuyến tính, NXB Sư Phạm, 2003. Tài liệu tiếng Anh	Khác
[3] Konstantin Tretyakov, kt@ut.ee, Institute of Computer Science, University of Tartu, 2004	Khác
[4] N. Cristianini and J. Shawe-Taylor. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, Cambridge University Press, 2000	Khác
[5]Stephen Boyd & Lieven Vandenberghe, Convex Optimization, Cambridge University Press, 2004	Khác
[6] J. Nocedal & S. Wright, Numerical Optimization, 2nd Ed., Springer, 2006	Khác