21 CHƯƠNG 3 GIẢI THUẬT SVM, NAIVE BAYES VÀ ENTROPY CỰC ĐẠI 3 1 Máy học Vectơ (SVM) Máy học V ctơ hỗ trợ (SVM Support V ctor Machin ) thu c t trong các mô hình tuyến tính tổng quát giúp phân loại hoặc hồi quy quyết định dựa trên giá trị của ự kết hợp tuyến tính giữa các đối tượng 7 Tác gi có thể dễ dàng c i thiện SVM ằng cách ử dụng từ điển chỉ định cho trường của tác gi chọn đúng 13 SVM light là t triển khai của Máy ctơ hỗ trợ (SVM) th o Vapnik (1995) cho n đề nh n dạng ẫu, hồi quy à n đề hà.
CHƯƠNG CỰC ĐẠI GIẢI THUẬT SVM, NAIVE BAYES VÀ ENTROPY 3.1 Máy học Vectơ (SVM) Máy học V ctơ hỗ trợ (SVM - Support V ctor Machin ) thu c t mơ hình tuyến tính tổng qt giúp phân loại hồi quy định dựa giá trị ự kết hợp tuyến tính đối tượng [7] Tác gi dễ dàng c i thiện SVM ằng cách dụng từ điển định cho trường tác gi chọn [13] SVM light t triển khai Máy đề nh n dạng ẫu, hồi quy trình ao gồ ctơ hỗ trợ (SVM) th o Vapnik (1995) cho n đề hà n xếp hạng Các tính n ng chương như: Thu t tốn tối ưu hóa nhanh (lựa chọn iệc dựa đ kh thi nh t; “thu nhỏ” h uri tic; dụng g p trường hợp tuyến tính) Hỗ trợ gi i n đề phân loại hồi quy Đối ới trường hợp đầu đa iến có c u trúc Tính tốn ước tính ề tỷ lệ lỗi, đ xác iệc thu hồi Cho phép khởi đ ng lại từ Xử lý hàng nghìn ctơ cụ thể iến kép ctơ hỗ trợ dụng iển diễn Thu t tốn tối ưu hóa dụng SVM 2002 [23] Joachi nhớ light ctơ thưa thớt [13] trình ày Joachi , 1999 [24] Nhìn chung, thu t tốn có yêu cầu ề r ng xử lý n đề ới hàng tr nghìn ctơ hỗ trợ t cách xác, hiệu qu [13] Ngồi ra, áy học V ctơ cung c p phương pháp để đánh giá hiệu u t tổng quát hóa t cách r t hiệu qu Các kết qu ước tính gần cơng ằng cung c p thử nghiệ ỏ qua SVM light khai thác hầu hết kết qu xác định trước khơng cần ph i tính tốn [23] [13] 21 Thu t tốn có t hà t điể ới học hà từ, ắp xếp thứ tự Bên cạnh đó, phần quy ề t nhó xếp hạng [25] Với đối tượng ao gồ ới t cách xác nh t t chuỗi ưu hóa giới hạn gi i pháp ằng iệc dụng hình thức tì n đề tối kiế cục t chi tiết thu t tốn trình ày Joachi [26] [13] Th o Joachi , cách tiếp c n SVM hiệu qu tạo, phân loại kè ới hiểu t thu t toán để tạo SVM chuyển đổi lớn Thu t tốn thực ằng cách gi i Những thông tin ục tiêu tì ề , 1999 ặt tính tốn iệc đào t lý thuyết học t p hướng dẫn ứng dụng giới thực tế[23] Máy học V ctơ kỹ thu t ẫu t nhiệ áy học thống kê [20] Để chọn t iêu phẳng phân tách ụ phân loại, SVM dụng chiến lược tối đa hóa lợi nhu n ẫu Trường hợp tác gi tách liệu) tác gi xây dựng iêu ẫu tuyến tính ( í dụ ì t ố nhiễu ặt phẳng phân tách ằng iệc cho phép t ố phân loại Ở trường hợp này, tác gi xây dựng t iêu phẳng tối ưu ằng cách giới thiệu thông ố hay giao dịch ố đ lớn [21] SVM, li SVM [15] thư iện ã nguồn r t phổ iến cho áy học ctơ hỗ trợ ới tính linh hoạt c u hình kh n ng dụng tương lai Nghiên cứu tác gi dụng SVM light Joachi [13] ì thu t tốn tối ưu hóa nhanh Việc dụng nh p liệu thu th p để có 22 t t p liệu Hình 3.1 Mơ t cách nh p liệu Nghiên cứu tiến hành phân loại ctơ hỗ trợ SVC (hỗ trợ phân loại ctơ -hai lớp nhiều lớp) Mô-đun phân loại gọi để l y đ xác in 23 Hình 3.2 Mơ t chi tiết ề phân loại Hình 3.3 Mô t chi tiết ề phân loại Nghiên cứu tiếp tục tiến hành ctơ hỗ trợ ctơ hỗ trợ (tiếp th o) hình thử nghiệ để dự đốn thông tin t p liệu Triển khai thu t tốn chạy thử nghiệ , chi tiết trình ày hình 3.4 24 Hình 3.4 Mơ t chi tiết thu t tốn dự đốn Kết qu đầu thu t toán dự đoán dụng để xếp hạng nghiệ Sau đó, thu t tốn dự đốn hiển thị thứ tự hình thử hình ngụ ý 3.2 Giải thuật Naive Bayes Na Bay tính đ c l p ạnh ph n xác u t đơn gi n dựa iệc áp dụng định lý Bay ới ẽ gi định từ chức n ng Thu t toán đơn gi n, dễ dụng ẫn r t tốt Ngoài ra, nhược điể tương tác tính n ng [12] Na gi n dựa định lý Bay [27] Tiếp th o đưa thu t tốn khơng thể tì Bay th y ự t phương pháp phân loại đơn ind p n au đưa gi định tính n ng ẫu x = ( , ) phương pháp ẽ tìm nhãn lớp x y , , nh t y ∗ cho x au: ∗ | | 25 | Trong đó: Y t p hợp t t c nhãn lớp Sử dụng gi định ề tính đ c l p chức n ng, từ có: | Th o xác u t | ∏ | tính đơn gi n ằng cách đế ẫu [8] Gi i thu t Na Bay tác gi dụng khung Datu ox [14] Khung hỗ trợ nhiều thu t toán tác gi dụng khuôn khổ dụng tác gi ã hóa từ liệu thơ ang liệu dụng phân loại, tác gi cần ph i xử lý liệu kiể ẫu au đưa cod Trước tra liệu để loại ỏ ký tự phần khơng cần thiết Hình 3.5 Tiến hành nh p thư iện liệu 26 n Đầu tiên ẫu Hình 3.6 Nh p liệu cho thu t tốn Hình 3.7 Kiể tra liệu trước tiến hành thử nghiệ 27 Hình 3.8 Vẽ h at ap thích ớp Na Bay x phần n i dung Thực phương thức train () pr dict() chịu trách nhiệ tạo t dự đốn Ngồi ra, lớp chịu trách nhiệ thích hợp để xử lý trước phân loại dụng cho gọi phương thức ên ngồi ã hóa tài liệu trước train dự đốn [14] 28 Hình 3.9 Báo cáo phân loại kết qu a tr n Cuối dụng trình phân loại dự đốn lớp Sau đó, ằng cách gọi đơn gi n phương thức dự đoán (pr dict()), tác gi ẽ nh n lớp dự đốn liệu 29 Hình 3.10 Triển khai thu t toán chạy thử nghiệ 3.3 Phương pháp Entropy cực đại Entropy cực đại (MaxEnt - Maxi u quát hóa hồi quy logi tic cho Entropy) n đề nhiều lớp ới kết qu nhiều hai B phân loại thu t toán thường dụng Na Bay t phương pháp phân loại tổng t gi i pháp thay cho gi i thu t ì khơng gi định tính đ c l p thống kê đối tượng ngẫu nhiên đóng trị yếu tố dự đốn Bên cạnh đó, q trình học t p thu t tốn ch Na có Bay ới ố lượng lớp đáng kể [12] Tác gi dụng a lớp nên không n đề ới hiệu u t tốc đ Mơ hình Entropy cực đại [28] m t phương pháp ước tính điều kiện xác su t | hình xu t | Trong hình; t nhãn y cho trước ối c nh x, ∑ tham chiếu đến m t hà Để nắ đặc trưng; m t tham số mơ t chuẩn hóa hệ ố thơng tin thống kê, phương pháp Entropy cực đại yêu cầu ph i phù hợp ới t ố ràng u c (tính ch t) Trong ố 30 hình hình đáp ứng ràng u c, phương pháp Entropy cực đại chọn hình ới phân phối xác u t phẳng nh t [8] Nghiên cứu tác gi chọn Stanford Cla ifi r áp dụng cho Entropy cực đại làm thu t tốn [16] Stanford Cla ifi r gán liệu liệu thơ ang liệu t trình phân loại l y t p hợp liệu đầu t t p hợp danh ục Tác gi tiến hành ã hóa từ ẫu au đưa cod nh p đọc liệu Hình 3.11 Mơ t chi tiết cách nh p liệu Tiến hành xây dựng thử nghiệ ô hình phân loại dụng tiếp dự đốn Chạy cho kết qu dự đốn 31 hình Hình 3.12 Mơ t chi tiết thu t tốn phân loại dự đốn Hình 3.13 Chi tiết ề chạy thử nghiệ ề dự đoán 3.4 Kết uả giải thuật đạt số liệu Th o nghiên cứu Phúc công ự (2007) trình ày cách phân loại tin nhắn Việt Na dựng diễn đàn trực tuyến Nghiên cứu dụng hình Na Bay để xây phân loại Nghiên cứu xây dựng kho liệu ới 2.500 tin nhắn Các thơng điệp trích từ tiếng Việt diễn đàn trực tuyến ới diễn đàn Mỗi diễn đàn tương ứng ới chủ đề chương trình nhó 32 nghiên cứu Nghiên cứu tạo hình Na Bay nhúng xu t từ khóa, nhó giá tác gi loại ỏ thẻ ht l, ký hiệu, Sau đánh hình phân loại nhằ có xây dựng lệ ố lượng kiể ph n loại diễn đàn trực tuyến Trước trích kiể tra tính xác Nghiên cứu thực chỉnh ửa t kho liệu để tạo hình Việc phân loại đ xác tỷ ẫu phân loại lớp ố lượng tra Khi x ẫu t p hợp xét có nhiều khía cạnh nh hưởng đến xác, tốc đ học, Thời gian tạo học Na phương pháp khác Vì y gi i thu t Na Bay Bay phân loại đ r t nhanh o ới thích hợp ới trường có nhiều thay đổi phân loại thư điện tử nghiên cứu phát từ khóa ới, lớp ới Nghiên cứu thử nghiệ ô hình phân loại tự đ ng l y từ kho tài liệu 2.500 tin nhắn kho liệu thử nghiệ chứa 1.300 tin nhắn Kết qu cho th y đ xác phân loại 86% Với đ xác góp phần khuyến khích nhó tác gi c i thiện nhiều iệc phân đoạn từ tiếng Việt, gắn thẻ POS, tách cụ danh từ Bên cạnh đó, nâng cao ch t lượng từ điển từ đồng ngh a ối quan hệ từ ới ngh a từ [4] M t nghiên cứu thực nghiệ Na áy học phân tích tình c dựa người Việt trình ày nghiên cứu Duyên công ự (2014) Trong nghiên cứu nhó tác gi t p trung nhiệ liên quan đến giới thiệu ụ phân loại tình c Điều tra nhiệ ụ hình học t p khía cạnh tính n ng ngơn ngữ học Nghiên cứu t liệu có thích cho tình c phân loại từ đánh giá khách ạn ằng tiếng Việt Sau tiến hành thí nghiệ đưa phân tích kho liệu [8] Nghiên cứu Duyên c ng ự (2014) tiến hành thí nghiệ phương pháp học t p Na (SVM) Đối ới Bay , Entropy cực đại (MEM), Máy học ctor hỗ trợ ỗi phương pháp học, nghiên cứu tiến hành thực nghiệ ới kết hợp khác ố tính n ng kể đến đặc điể â tiết, đặc điể để o ánh a quan trọng từ, đặc điể tính n ng điể tổng thể [8] 33 â từ, đặc điể tiết quan trọng, đặc điể n-gram Hình 3.14 So ánh phương pháp học t p khác Trong hình cho th y kết qu tốt nh t a phương pháp Th o kết qu phương pháp Máy học ctor hỗ trợ (SVM) đạt kết qu cao nh t ới đ xác 76,8% Tiếp th o phương pháp Entropy cực đại (MEM) có đ xác đạt 75,3% cuối phương pháp Na Bay có kết qu ự xác th p nh t 70,4% [8] Qua q trình nghiên cứu ề phân tích tâ học Kết qu nghiên cứu thử nghiệ giá khách ạn cho th y Máy học loại tình c lý người Việt Na dựa áy kho liệu thu th p từ ài đánh ctor hỗ trợ (SVM) có hiệu qu đối ới phân người Việt Na Sử dụng tính n ng dựa từ đạt kết qu tốt o ới iệc dụng tính n ng dựa â từ quan trọng ao gồ tiết Việc gi i nén tính n ng dựa danh từ riêng, danh từ chung đ ng từ, tính từ, trạng từ hay phụ từ liên từ hoạt đ ng tốt tính n ng trích xu t dụng t t c từ Sử dụng unigra có hiệu qu cho nhiệ trọng iệc dự đốn xác tình c ụ Cuối điể tổng thể r t quan câu tiếng Việt [8] Nghiên cứu D l n (2010) ề phân tích o ánh kỹ thu t học qu n lý lưu giữ Trong nghiên cứu dụng n ố kỹ thu t khai thác liệu Nghiên cứu phát triển thích lý ao có ự tiêu hao inh iên n cho th y t p hợp hoạt đ ng tốt áy cho inh iên liệu ới t hình để dự đốn gi i nh t Kết qu phân tích o ánh hình riêng lẻ Bên cạnh đó, t p liệu cân ằng cho kết qu dự đoán tốt t p liệu không cân ằng V n đề phân 34 tích đ nhạy c hình cho th y iến ố giáo dục tài t yếu tố dự áo quan trọng Trong nghiên cứu, ốn phương pháp phân loại phổ iến dụng ạng nơ-ron, định, áy ctơ hỗ trợ hồi quy logi tic ới a kỹ thu t tổng hợp xây dựng, o ánh ới ằng cách dụng đ xác dự đoán ẫu chờ M t ố lượng lớn nghiên cứu o ánh phương pháp khai thác liệu cài đặt khác [7] Trong t p thử nghiệ đầu tiên, nghiên cứu dụng t p liệu an đầu ao gồ ghi Dựa kết qu xác thực chéo 10 lần cho th t áy n ctơ hỗ trợ tạo kết qu tốt nh t ới tổng thể tỷ lệ dự đốn 87,23% au định, cuối hồi quy logi tic ần thử nghiệ 16.066 ạng nỏ-ron tiếp th o, nghiên cứu dụng t p liệu cân ằng tốt hai lớp iểu diễn ằng Sử dụng g p 10 lần phương pháp xác nh n chéo, nghiên cứu phát triển thử nghiệ c ốn loại hình Dựa kết qu ẫu giữ lại, áy dự đoán cho t t ctơ hỗ trợ tạo đ xác dự đốn tổng thể 81,18%, au định, ạng nơ-ron hồi quy logi tic Kết qu cuối cho th y rằng, ới đầy đủ liệu iến thích hợp, phương pháp khai thác liệu có kh n ng dự đốn inh iên n đ xác kho ng 80% Trong ố áy nh t ị tiêu hao ới hình dự đốn dụng nghiên cứu ctơ hỗ trợ hoạt đ ng tốt nh t, tiếp th o định, ạng nơ-ron hồi quy logi tic [7] 3.5 Kết luận Máy ctơ hỗ trợ t Vapnik (1995) Máy học phẳng tối ưu (cho phép điể ( r ng ề áy học ới cho ài toán phân loại th o Cort and ctơ hỗ trợ kết hợp a ý tưởng: kỹ thu t gi i pháp từ iêu r ng ctơ gi i pháp ctơ hỗ trợ), ý tưởng ề tích tụ ặt gi i pháp từ tuyến tính đến phi tuyến tính) khái niệ (để cho phép ót q trình) Gi i thu t thử nghiệ ề lề o ánh ới hiệu u t thu t toán cổ điển khác Mặc dù có ự đơn gi n thiết kế ề ặt định thu t toán ới ẫn thể t kết qu tốt nghiên cứu o ánh Các đặc điể kiể oát n ng lực, dễ dàng thay đổi ề định thực áy học ctơ hỗ trợ trở thành áy học t p r t ạnh cho ẽ phổ iến [20] 35 ặt t phương pháp Xây dựng hình hóa ntropy cực đại tính n ng ràng u c có giá trị Sau th o lu n ề nguyên lý ntropy cực đại Nguyên tắc hướng dẫn cách chọn ố hình phù hợp ới ràng u c, hình t phần hình có ntropy cực đại Quan át th y t họ hà ỗi ràng u c Giá trị tối ưu tha ũ ới tha ố điều chỉnh cho ố có ằng cách tối đa hóa kh n ng liệu [28] Gi i thu t Na Bay có hiệu qu đáng ngạc nhiên thực tế ì định phân loại thường c ước tính xác u t khơng xác Mặc dù t ố điều kiện tối ưu Na Bay [29] ẫn cần ph i hiểu âu ề đặc điể Na Bay Na Bay xác định khứ liệu nh hưởng đến kết qu hoạt đ ng tốt nh t hai trường hợp: tính n ng hồn tồn đ c l p tính n ng phụ thu c chức n ng Đặc iệt, đ xác Na Bay không trực tiếp tương quan ới ức đ phụ thu c tính n ng đo lường dạng thơng tin lẫn có điều kiện lớp đối tượng địa lý Bên cạnh đó, t dự đốn tốt ề đ xác iệc chứa ề lớp gi định hình Na ối quan hệ thước đo thông tin Bay Cuối cùng, hiểu rõ ề tác đ ng gi định đ c l p đối ới phân loại dụng nhằ phân loại Na đặc trưng Bay Tuy nhiên, cần ph i nghiên cứu thê ề thực nghiệ , lý thuyết để hiểu rõ hành i Na t thông tin Bay đạt hiệu qu đưa kỹ thu t x p xỉ tốt để để uy lu n xác u t xác [27] 36 ... Hình 3. 11 Mơ t chi tiết cách nh p liệu Tiến hành xây dựng thử nghiệ ô hình phân loại dụng tiếp dự đốn Chạy cho kết qu dự đốn 31 hình Hình 3. 12 Mơ t chi tiết thu t tốn phân loại dự đốn Hình 3. 13. .. inh iên liệu ới t hình để dự đốn gi i nh t Kết qu phân tích o ánh hình riêng lẻ Bên cạnh đó, t p liệu cân ằng cho kết qu dự đoán tốt t p liệu không cân ằng V n đề phân 34 tích đ nhạy c hình cho... liệu Hình 3. 1 Mơ t cách nh p liệu Nghiên cứu tiến hành phân loại ctơ hỗ trợ SVC (hỗ trợ phân loại ctơ -hai lớp nhiều lớp) Mô-đun phân loại gọi để l y đ xác in 23 Hình 3. 2 Mơ t chi tiết ề phân loại