PHÂN LOẠI VĂN BẢN VỚI MÁY HỌC VECTOR HỖ TRỢ VÀ CÂY QUYẾT ĐỊNH

Tạp chí Khoa học 2012:21a 52-63 Trường Đại học Cần Thơ PHÂN LOẠI VĂN BẢN VỚI MÁY HỌC VECTOR HỖ TRỢ VÀ CÂY QUYẾT ĐỊNH Trần Cao Đệ Phạm Nguyên Khang1 ABSTRACT Text document classification, basically, can be considered as a classification problem Automatic text document classification is to assign a label to a new document based on the similarity of the document with labeled documents in the training set Many machine learning and data mining methods have been applied in text document classification such as: Naive Bayes, decision tree, k – Nearest neighbor, neural network,… Support vector machine (SVM) is an efficient classification algorithm It has been applied to machine learning and recognition field However, it is still not efficient in applying to text document classification because, by the nature, this problem often deals with a large feature space This paper focuses on applying SVM to text document classification and compares the efficiency of the method with the one of decision tree, a traditional classification algorithm The research illustrates that SVM along with the feature selection based on the singular value decomposition (SVD) is much better than decision tree method Keywords: Decision tree, Support vector machine (SVM), text document classification, single value decomposition (SVD) Title: Text document classification with support vector machine and decision tree TÓM TẮT Bài toán phân loại văn bản, thực chất, xem toán phân lớp Phân loại văn tự động việc gán nhãn phân loại lên văn dựa mức độ tương tự văn so với văn gán nhãn tập huấn luyện Nhiều kỹ thuật máy học khai phá liệu áp dụng vào toán phân loại văn bản, chẳng hạn: phương pháp định dựa vào Bayes ngây thơ (Naive Bayes), định (decision tree), k–láng giềng gần (KNN), mạng nơron (neural network),… Máy học vectơ hỗ trợ (SVM) giải thuật phân lớp có hiệu cao áp dụng nhiều lĩnh vực khai phá liệu nhận dạng Tuy nhiên SVM chưa áp dụng cách có hiệu vào phân loại văn đặc điểm toán phân loại văn không gian đặc trưng thường lớn Bài viết nghiên cứu máy học vector hỗ trợ (SVM), áp dụng vào toán phân loại văn so sánh hiệu với hiệu giải thuật phân lớp cổ điển, phổ biến định Nghiên cứu SVM với cách lựa chọn đặc trưng phương pháp tách giá trị đơn (SVD) cho kết tốt so với định Từ khóa: Cây định, máy học vector hỗ trợ, phân loại văn bản, tách giá trị đơn GIỚI THIỆU BÀI TOÁN PHÂN LOẠI VĂN BẢN Phân loại văn toán xử lí văn cổ điển, ánh xạ văn vào chủ đề biết tập hữu hạn chủ đề dựa ngữ nghĩa văn Ví dụ viết tờ báo thuộc (hoặc vài) chủ Khoa Công nghệ Thông tin & Truyền thông, Trường Đại học Cần Thơ 52 Tạp chí Khoa học 2012:21a 52-63 Trường Đại học Cần Thơ đề (như thể thao, sức khỏe, công nghệ thông tin,…) Việc tự động phân loại văn vào chủ đề giúp cho việc xếp, lưu trữ truy vấn tài liệu dễ dàng sau Đặc điểm bật toán đa dạng chủ đề văn tính đa chủ đề văn Tính đa chủ đề văn làm cho phân loại mang tính tương đối có phần chủ quan, người thực hiện, dễ bị nhập nhằng phân loại tự động Rõ ràng viết Giáo dục xếp vào Kinh tế viết bàn tiền nong đầu tư cho giáo dục tác động đầu tư đến kinh tế - xã hội Về chất, văn tập hợp từ ngữ có liên quan với tạo nên nội dung ngữ nghĩa văn Từ ngữ văn đa dạng tính đa dạng ngôn ngữ (đồng nghĩa, đa nghĩa, từ vay mượn nước ngoài,…) số lượng từ cần xét lớn Ở cần lưu ý rằng, văn có số lượng từ ngữ không nhiều, số lượng từ ngữ cần xét nhiều phải bao hàm tất từ ngôn ngữ xét Trên giới có nhiều công trình nghiên cứu đạt kết khả quan, phân loại văn tiếng Anh Tuy vậy, nghiên cứu ứng dụng văn tiếng Việt nhiều hạn chế khó khăn tách từ câu Có thể liệt kê số công trình nghiên cứu nước với hướng tiếp cận khác cho toán phân loại văn bản, bao gồm: phân loại với máy học vectơ hỗ trợ [1], cách tiếp cận sử dụng lý thuyết tập thô [2], cách tiếp cận thống kê hình vị [3], cách tiếp cận sử dụng phương pháp học không giám sát đánh mục [4], cách tiếp cận theo luật kết hợp [5] Theo kết trình bày công trình cách tiếp cận nêu cho kết tốt Tuy nhiên khó so sánh kết với tập liệu thực nghiệm phương pháp khác Bài viết so sánh hiệu hai cách tiếp cận phân loại văn bản: phân loại với giải thuật định phân loại với máy học vector hỗ trợ kết hợp với phân tích giá trị đơn (SVD) Theo hai cách tiếp cận này, trước hết, văn coi tập hợp từ Để thực tách từ áp dụng giải thuật MMSEG [6] Phần trình bày cụ thể mô hình hóa văn trước áp dụng phân lớp theo giải thuật định phân lớp theo SVM MÔ HÌNH HÓA VĂN BẢN Trên thực tế, để áp dụng giải thuật tách từ, văn cần qua bước tiền xử lí bản: chuẩn hóa dấu, chuẩn hóa “i” “y”, chuẩn hóa font,… Tuy nhiên bước không đề cập giới hạn trang viết Có thể xem văn tập hợp từ Khái niệm “từ” theo nghĩa chuỗi kí tự liên tiếp văn bản, không thiết phải từ có nghĩa ngôn ngữ Việc xác định “từ” hay tách từ thực giải thuật Hiện phương pháp MMSEG [6] cải tiến áp dụng rộng rãi tách từ tiếng Việt Một số đề xuất tách từ độc lập với ngôn ngữ phương pháp n-gram; chẳng hạn tiếng Việt lấy hai tiếng liên tiếp đứng cạnh văn làm “2-gram” Như “2-gram” không thiết phải từ tiếng Việt Trong nghiên cứu này, dùng giải thuật MMSEG để tách từ tiếng Việt Giải thuật có nguồn gốc để tách tiếng Trung Quốc [7] 53 Tạp chí Khoa học 2012:21a 52-63 Trường Đại học Cần Thơ với độ xác 99% Nhiều nghiên cứu áp dụng giải thuật MMSEG vào tách từ tiếng Việt chưa thấy có báo cáo thức kết tách từ Tuy nhiên, nghiên cứu chúng tôi, MMSEG áp dụng vào toán phân loại văn vì: MMSEG tách từ với độ xác cao 95%; tỷ lệ sai sót tách từ khoảng 5% không ảnh hưởng lớn đến kết phân loại Sau tách từ, văn xem tập hợp “từ” Chữ từ dấu ngoặc từ sinh giải thuật tách từ, không thiết phải có nghĩa ngôn ngữ Với giải thuật MMSEG “từ” tách có nghĩa (có từ điển), nhiên không thiết phải hoàn toàn ngữ cảnh văn (ngữ nghĩa) Hình cho ví dụ đoạn văn tách theo giải thuật MMSEG Ai/ cũng/ biết/ không gian/ có thể/ tác động/ đến/ người Mặt trời/ gây nên/ nhiều/ vấn đề/ nơi/ số/ người/ nhạy cảm/ trước/ những/ đổi thay/ của/ thời tiết Bên cạnh/ việc/ gây nên/ biến động/ thuỷ triều/ mặt trăng/ còn/ là/ nguyên nhân/ của/ tượng/ mộng du/ bước đi/ khi/ ngủ Dường như/ ai/ cũng/ nghe nói/ địa cầu/ chúng ta/ có thể/ là/ nơi/ đổ bộ/ của/ các/ thiên thạch/ vào/ một/ ngày/ vô định/ Hình 1: Ví dụ tách từ với giải thuật MMSEG Rõ ràng rằng, từ văn có mức độ quan trọng khác văn phân loại văn Một số từ từ nối, từ số lượng (“và”, “các”, “những, “mỗi”,…) không mang tính phân biệt phân loại Ngoài ra, có nhiều từ khác giá trị phân loại ví dụ từ xuất hầu khắp văn hay dùng không phổ biến văn bản, từ gọi stopword cần loại bỏ Có nhiều cách loại bỏ stopword, chẳng hạn dùng danh sách stopword loại bỏ theo tần suất xuất từ (chỉ số TF*IDF) Trong thực nghiệm dùng danh sách stopword kết hợp với việc loại bỏ từ có số TF*IDF thấp Chỉ số TF*IDF thấp tức từ xuất hầu khắp băn từ xuất Sau loại bỏ stopword, văn xem tập hợp đặc trưng, tập hợp từ “quan trọng” lại để biểu diễn văn Việc phân loại văn dựa đặc trưng Tuy nhiên, thấy rằng, số đặc trưng văn lớn không gian đặc trưng (tất đặc trưng) tất văn xem xét lớn, nguyên tắc, bao gồm tất từ ngôn ngữ Chính vậy, phân loại dựa đặc trưng cần phải có cách xử lí, lựa chọn đặc trưng nhằm rút ngắn số chiều không gian đặc trưng Trên thực tế, người ta xét tất từ ngôn ngữ mà dùng tập hợp từ rút từ tập (đủ lớn) văn xét (gọi tập ngữ liệu) Kế đến, văn di tập ngữ liệu xét mô hình hóa vector trọng số đặc trưng, di(wi1,…,wim) Trong viết này, trọng số từ tính theo tần suất xuất từ văn (TF) tần suất nghịch đảo từ tập ngữ liệu (IDF) 54 Tạp chí Khoa học 2012:21a 52-63 Trường Đại học Cần Thơ  N   w ij  TFij * log  DF   j    (1) TFij số lần xuất từ thứ j văn thứ i DFj tổng số văn có chứa từ thứ j tập ngữ liệu N tổng số văn tập ngữ liệu PHÂN LOẠI VĂN BẢN THEO PHƯƠNG PHÁP CÂY QUYẾT ĐỊNH Phương pháp định [8] áp dụng vào toán phân loại văn Dựa vào tập văn huấn luyện (sau gọi tắt tập huấn luyện), xây dựng định Cây định có dạng nhị phân, nút tương ứng với việc phân hoạch tập văn dựa thuộc tính (một từ) Việc xây dựng định phụ thuộc vào việc lựa chọn thuộc tính để phân hoạch Theo [8], lựa chọn thuộc tính phân hoạch dựa độ lợi thông tin (information gain) lớn nhất, hiệu độ hỗn loạn thông tin trước sau phân hoạch với thuộc tính Độ lợi thông tin tính toán dựa vào độ hỗn loạn thông tin (Entropy) theo công thức (2) Giả sử tập huấn luyện S chứa văn thuộc k chủ đề, độ hỗn loạn thông tin tập S là: k (2) Entropy( S )   ( pi log pi ) i 1 Trong pi xác suất để phần tử (1 văn bản) thuộc vào chủ đề thứ i pi tần suất xuất văn thuộc chủ đề thứ i tập S Độ lợi thông tin dùng thuộc tính a phân hoạch tập S thành tập tùy theo giá trị a (kí hiệu Values(a) công thức) : Gain( S , a)  Entropy ( S )     sS EntropyS  v vValues a v (3) 3.1 Giải thuật xây dựng định Đầu vào : - Tập M chứa tất văn huấn luyện mô hình hóa thành vector di(wi1,…,wim) - Tập A chứa tất từ tập huấn luyện M (sau loại stopword) - Một tập chủ đề C Đầu : Cây định dạng nhị phân cho việc phân loại theo tập chủ đề C Giải thuật (tham khảo [9]): - Bắt đầu: nút gốc chứa tất văn huấn luyện - Nếu liệu nút thuộc chủ đề (1 lớp) nút nút gán nhãn chủ đề - Nếu nút chứa liệu không (thuộc lớp khác nhau) lựa chọn thuộc tính phân hoạch với độ lợi thông tin lớn (giả sử thuộc tính a với giá trị y, y gọi giá trị phân tách); phân chia nút cách đệ qui làm 55 Tạp chí Khoa học 2012:21a 52-63 Trường Đại học Cần Thơ hai tập M1, M2; M1 chứa văn chứa a giá trị thuộc tính nhỏ y, M2 chứa văn chứa a giá trị thuộc tính lớn y Giải thuật dừng tất nút gán nhãn Trong ứng dụng, người ta không tiến hành phân hoạch nút đến liệu đồng (chỉ thuộc lớp) mà người ta dừng phân hoạch số phần tử nút số lượng gán nhãn nút theo luật bình chọn số đông phần tử chứa nút Điều nhằm cải tiến tốc độ xây dựng tránh tình trạng học vẹt 3.2 Đánh giá giải thuật máy học Một số số thông dụng dùng để đánh giá giải thuật máy học, hay cụ thể để đánh giá phân loại hai lớp tạm gọi dương âm: - Số dương (TP- True positive): số phần tử dương phân loại dương - Số sai âm (FN - False negative): số phần tử dương phân loại âm - Số âm (TN- True negative): số phần tử âm phân loại âm - Số sai dương (FP - False positive): số phần tử âm phân loại dương - Độ xác (Precision) = TP/(TP + FP) - Độ bao phủ (Recall) = TP/(TP + FN) - Độ đo F1= 2*Precision*Recall/(Precision + Recall) Các số dùng để đánh giá hiệu định máy học SVM sau, phần thực nghiệm 3.3 Xén tỉa định Cây định vừa xây dựng thường lớn, không mang tính tổng quát mà mang tính « học vẹt » theo tập huấn luyện Để tăng tính tổng quát cây, làm cho thích ứng với mẫu liệu mới, chưa huấn luyện, người ta cắt bớt nhánh hay gọi xén tỉa với tập kiểm chứng độc lập với tập huấn luyện Đây gọi việc xén tỉa sau, giải thuật chi tiết sau: - Với nút (không phải nút lá), cắt bỏ nhánh phân hoạch nút biến nút thành nút gán nhãn theo luật bình chọn số đông - Dùng tập kiểm chứng độc lập để kiểm tra độ xác (precision) sau thao tác xén - Nếu sau xén, độ xác tăng lên giữ nguyên việc xén tiếp tục trình xén cho nút lại; ngược lại trả lại trạng ban đầu (không thực việc xén tỉa) Thuật toán dừng tất nút xem xét để xén tỉa Việc thực xén tỉa có độ phức tạp thời gian lớn phải dùng tập kiểm chứng để ước lượng lỗi sinh xén tỉa Trong thực hành áp dụng giải thuật xây dựng với giải pháp bình chọn số đông, số đông vượt ngưỡng đặt dừng việc phân hoạch Như vậy, không thực thao tác xén tỉa 3.4 Thực phân loại văn Các định xây dựng xong sẵn sàng để dùng cho phân loại văn Văn (cần phân loại) coi tập hợp đặc 56 Tạp chí Khoa học 2012:21a 52-63 Trường Đại học Cần Thơ trưng (các từ) Ta tiến hành duyệt định để gán nhãn phân loại chủ đề cho văn Việc duyệt định giống với duyệt tìm kiếm nhị phân tìm kiếm: - Nếu từ thuộc văn giá trị từ nhỏ giá trị phân tách nút, từ không thuộc văn ta duyệt tiếp trái định - Nếu từ thuộc văn giá trị từ lớn giá trị phân tách nút ta duyệt phải định - Quá trình dừng gặp nút nút lá, gán nhãn cho văn nhãn nút PHÂN LOẠI VĂN BẢN VỚI MÁY HỌC VECTOR HỖ TRỢ Gần phương pháp máy học vector hỗ trợ áp dụng vào toán phân loại văn cho thấy kết khả quan [1,12] Tuy nhiên, nói, toán phân loại văn có đặc trưng từ nên không gian đặc trưng lớn, bao gồm từ ngôn ngữ tập ngữ liệu Số chiều không gian đặc trưng lớn làm gia tăng nhiễu, trở ngại việc áp dụng SVM vào phân loại văn Để áp dụng có hiệu SVM, người ta cần tìm cách rút ngắn số chiều không gian đặc trưng Trong nghiên cứu [1], tác giả đề xuất dùng lượng tin tương hỗ để loại bỏ bớt đặc trưng Trong nghiên cứu dùng kỹ thuật tích giá trị đơn (SVD) để rút ngắn số chiều không gian đặc trưng 4.1 Phân tích giá trị đơn (SVD) Phân tích giá trị đơn phân tích toán học tảng kỹ thuật mục ngữ nghĩa tiềm ẩn (LSI-Latent Semantic Indexing) dùng rộng rãi tìm kiếm thu hồi thông tin dạng văn Ý tưởng giải thuật [10,11] sau: Cho ma trận A (kích thước mxn), ma trận A luôn phân tích thành tích ba ma trận theo dạng: A = U∑VT , đó: - U ma trận trực giao mxm có cột vectơ đơn bên trái A - ∑ ma trận mxn có đường chéo chứa giá trị đơn, không âm có thứ tự giảm dần: 1 ≥ 2 ≥ … ≥ min(m,n) ≥ - V ma trận trực giao nxn có cột vectơ đơn bên phải A Hạng ma trận A số số khác đường chéo ma trận ∑ Thông thường A ma trận thưa có kích thước lớn Để giảm số chiều ma trận người ta thường tìm cách xấp xỉ ma trận A (có hạng r) ma trận Ak có hạng k nhỏ r nhiều Ma trận xấp xỉ A theo kỹ thuật là: Ak = Uk∑kVkT, - Uk ma trận trực giao mxk có cột k cột đầu ma trận U - ∑k ma trận đường chéo kxk chứa k phần tử 1, 2, … , k đường chéo - Vk ma trận trực giao nxk có cột k cột đầu ma trận V 57 Tạp chí Khoa học 2012:21a 52-63 Trường Đại học Cần Thơ Việc xấp xỉ xem chuyển không gian xét (r chiều) không gian k chiều, với k nhỏ nhiều so với r Về mặt thực hành việc cắt ma trận A số chiều k loại bỏ nhiễu tăng cường mối liên kết ngữ nghĩa tiềm ẩn từ tập văn Chúng áp dụng kỹ thuật xấp xỉ để rút ngắn số chiều không gian đặc trưng Khởi đầu, văn mô hình hóa thành vectơ cột không gian xác định Amxn Sau cắt Amxn Ak, tất vectơ xét chiếu lên không gian Ak để có số chiều k theo công thức: Proj(x) = xTUk∑k-1 (4) 4.2 Máy học véctơ hỗ trợ Hình 2: Ví dụ siêu phẳng với lề cực đại R2 Máy học véctơ hỗ trợ (SVM) giải thuật máy học dựa lý thuyết học thống kê Vapnik Chervonenkis xây dựng [13] Bài toán SVM toán phân loại hai lớp: Cho trước n điểm không gian d chiều (mỗi điểm thuộc vào lớp kí hiệu +1 –1, mục đích giải thuật SVM tìm siêu phẳng (hyperplane) phân hoạch tối ưu cho phép chia điểm thành hai phần cho điểm lớp nằm phía với siêu phẳng Hình cho minh họa phân lớp với SVM mặt phẳng Xét tập liệu mẫu tách rời tuyến tính {(x1,y1),(x2,y2), ,(xn,yn)} với xiRd yi {±1} Siêu phẳng tối ưu phân tập liệu thành hai lớp siêu phẳng tách rời liệu thành hai lớp riêng biệt với lề (margin) lớn Tức là, cần tìm siêu phẳng H: y = w.x + b = hai siêu phẳng H1, H2 hỗ trợ song song với H có khoảng cách đến H Với điều kiện phần tử tập mẫu nằm H1 H2, đó: w.x + b >= +1 với y = +1 w.x + b >= -1 với y = -1 Kết hợp hai điều kiện ta có y(w.x + b) >= Khoảng cách siêu phẳng H1 H2 đến H w Ta cần tìm siêu phẳng H với lề lớn nhất, tức giải toán tối ưu tìm w với ràng buộc y(w.x + b) >= w,b Người ta chuyển toán sang toán tương đương dễ giải w, b w với ràng buộc y(w.x + b) >= Lời giải cho toán tối ưu cực tiểu hóa hàm Lagrange: L(w,b,α) = 58 (5) Tạp chí Khoa học 2012:21a 52-63 Trường Đại học Cần Thơ Trong α hệ số Lagrange, α≥0 Sau người ta chuyển thành toán đối ngẫu cực đại hóa hàm W(α): (6) Từ giải để tìm giá trị tối ưu cho w,b α Về sau, việc phân loại mẫu việc kiểm tra hàm dấu sign(wx +b) Lời giải tìm siêu phẳng tối ưu mở rộng trường hợp liệu tách rời tuyến tính [11] cách ánh xạ liệu vào không gian có số chiều lớn cách sử dụng hàm nhân K (kernel) Một số hàm nhân thường dùng cho bảng Bảng 1: Một số hàm nhân thường dùng Ở ý định sâu vào chi tiết giải toán tìm siêu phẳng này, độc giả quan tâm tìm lời giải công trình Vapnik [13] Chúng sử dụng phần mềm Weka [14] để thực tính toán phân lớp kiểm tra phương pháp đề xuất KẾT QUẢ THỰC NGHIỆM Trong thực nghiệm, có 7842 văn thuộc 10 chủ đề khác tập hợp dùng để xây dựng máy học kiểm chứng hiệu Các văn sưu tập từ trang báo điện tử phổ biến tiếng việt vnexpress.net, vietnamnet.vn, dantri.com.vn Sau tách từ loại bỏ stopword, số từ lại 14275 từ Sau mô hình hóa, văn vector trọng số từ, trọng số số TF*IDF trình bày Như tập ngữ liệu mô hình hóa ma trận chứa TF*IDF từ có kích thước 14275 x 7842 phần tử Bảng cho số liệu thống kê số văn thuộc chủ đề Trong chủ đề, 500 văn chọn cách ngẫu nhiên để huấn luyện, tức xây dựng định huấn luyện máy học SVM Số văn lại để kiểm chứng độc lập Để tiện gọi tên hai tập đặt tên tập huấn luyện tập kiểm chứng độc lập Việc đánh giá dựa vào số độ xác (Precision), độ bao phủ (Recall) F1 Kết kiểm chứng định với tập kiểm chứng độc lập cho bảng Các số kiểm chứng nói cho bảng so sánh với kết kiểm chứng với máy học SVM 59 Tạp chí Khoa học 2012:21a 52-63 Trường Đại học Cần Thơ Bảng 2: 10 chủ đề số lượng mẫu dùng thực nghiệm Số mẫu huấn luyện Tên lớp CNTT ĐTVT Giáo dục Ẩm thực Bất động sản Khoa học Kinh tế Y học Thể thao Giải trí Tổng cộng Số mẫu kiểm chứng 500 500 500 500 500 500 500 500 500 500 5000 Tổng số mẫu (văn bản) 286 282 299 291 265 282 291 287 288 271 2842 786 782 799 791 765 782 791 787 788 771 7842 Bảng 3: Kết kiểm chứng phân lớp định Tên lớp CNTT ĐTVT Giáo dục Ẩm thực Bất động sản Khoa học Kinh tế Y học Thể thao Giải trí Mã lớp 7 10 10 250 12 2 227 10 10 231 253 9 225 5 7 226 3 5 243 12 7 245 6 273 5 213 Để huấn luyện máy học SVM, tập ngữ liệu xét (đã mô hình hóa ma trận A14275x7842) phân tích giá trị đơn rút ngắn số chiều k=200 Tất vector tương ứng với 7842 văn chiếu lên không gian A200 công thức (4) Máy học SVM huấn luyện tập huấn luyện dùng để xây dựng định Tập kiểm chứng độc lập lần dùng để kiểm chứng hiệu máy học SVM Kết kiểm chứng cho bảng số đánh giá cho bảng để so sánh với phân lớp theo định Máy học SVM thực nghiệm máy học với hàm nhân (kernel) RBF, với tham số C 12 Gama 2-8 Thực nghiệm làm với số tham số khác C Gama, tham số nói chọn phương pháp thử sai Do tham số Gama nhỏ nên dùng máy học SVM với hàm nhân tuyến tính (linear kernel) Kết thực nghiệm liệu với hàm nhân tuyến tính (C=10 eps=0.01) cho kết tốt hàm nhân RBF ít, khác biệt nhiều Vì dùng hàm nhân RBF hay hàm nhân tuyến tính với tham số vừa nêu 60 Tạp chí Khoa học 2012:21a 52-63 Trường Đại học Cần Thơ Bảng 4: Kết kiểm chứng phân lớp máy học SVM Tên lớp Mã lớp CNTT ĐTVT Giáo dục Ẩm thực Bất động sản Khoa học Kinh tế Y học Thể thao Giải trí 10 10 265 11 1 4 2 246 3 3 3 276 2 273 2 249 2 4 251 3 3 3 254 3 3 2 258 2 2 4 269 1 244 Từ số liệu kiểm chứng chi tiết bảng tính toán số đánh giá: Precision, Recall F1 bảng Bảng 5: So sánh hiệu phân loại văn với định với máy học SVM Tên lớp CNTT ĐTVT Giáo dục Ẩm thực Bất động sản Khoa học Kinh tế Y học Thể thao Giải trí Cây định Precision Recall 84.5% 87.4% 81.9% 80.5% 83.4% 77.3% 83.8% 86.9% 81.5% 84.9% 84.3% 80.1% 86.2% 83.5% 84.9% 89.9% 84.3% 94.8% 85.5% 78.6% Trung bình Máy học SVM F1 Precision Recall 85.9% 81.2% 80.2% 85.3% 83.2% 82.2% 84.8% 87.3% 89.2% 81.9% 84.1% 89.5% 92.7% 88.2% 87.2% 90.2% 92.3% 93.2% 93.8% 91.9% 94.0% 90.0% 89.0% 91.0% 87.3% 91.2% 89.9% 91.8% 93.4% 92.8% 90.0% Trung bình F1 91.1% 87.7% 91.2% 93.5% 92.9% 89.5% 89.1% 90.5% 92.6% 91.4% 91.0% Như với máy học SVM kết hợp với phân tích giá trị đơn để rút ngắn số chiều không gian đặc trưng cho kết phân loại văn tốt phương pháp định Chúng thử nghiệm dùng SVM với không gian đặc trưng ban đầu, chưa rút gọn số chiều Kết cho thấy dùng SVM với không gian đặc trưng nguyên thủy kết thấp (chỉ số F1 trung bình thu thực nghiệm 85.2%), gần tương đương với hiệu định trình bày bảng Việc phân tích giá trị đơn rút ngắn số chiều không gian đặc trưng góp phần tăng độ xác máy học SVM loại bỏ bớt nhiễu tăng cường mối liên hệ ngữ nghĩa từ không gian đặc trưng KẾT LUẬN Trong viết trình bày phương pháp phân loại văn dựa máy học SVM Đóng góp đề xuất dùng kỹ thuật phân tích giá 61 Tạp chí Khoa học 2012:21a 52-63 Trường Đại học Cần Thơ trị đơn (SVD) để rút ngắn số chiều không gian đặc trưng Chúng kiểm chứng đề xuất 2842 tập tin độc lập tập huấn luyện thuộc 10 chủ đề với máy học SVM cài đặt phần mềm Weka Kết cho thấy việc dùng SVD để phân tích rút gọn số chiều không gian đặc trưng nâng cao hiệu phân lớp SVM Thực nghiệm so sánh kết phân lớp với SVM với kết phân lớp với định, qua cho thấy SVM thực tốt định số chiều không gian đặc trưng rút gọn cách hợp lí Việc rút gọn đặc trưng giúp cho không gian lưu trữ giảm xuống thời gian thực phân lớp nhanh số chiều không gian đặc trưng nhỏ nhiều so với số chiều không gian đặc trưng ban đầu Các kiểm chứng thực nghiệm dựa tập hợp mẫu độc lập với mẫu dùng để xây dựng máy học cho thấy hiệu máy học SVM toán phân loại văn ổn định, học vẹt Việc phân tích giá trị đơn để rút gọn số chiều không gian đặc trưng hoàn toàn thích hợp cho toán phân loại văn bản, toán mà không gian đặc trưng lớn, có nhiều nhiễu Kết nghiên cứu áp dụng vào toán phân lớp nhận dạng khác nhận dạng chữ viết tay, nhận dạng hình ảnh (mặt người, vân tay) Các toán chất không khác so với toán phân loại văn qui trình xử lí, phương pháp xử lí tương tự nhau: rút trích đặc trưng, lựa chọn đặc trưng, máy học phân lớp Chúng tiếp tục nghiên cứu việc lựa chọn đặc trưng phân tích giá trị đơn SVD hi vọng cải tiến hiệu nhận dạng ảnh nói chung, nhận dạng chữ viết tay nói riêng TÀI LIỆU THAM KHẢO Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM Tạp chí CNTT&TT, Tháng năm 2006 Nguyễn Ngọc Bình, “Dùng lý thuyết tập thô kỹ thuật khác để phân loại, phân cụm văn tiếng Việt”, Kỷ yếu hội thảo ICT.rda’04 Hà nội 2004 Nguyễn Linh Giang, Nguyễn Duy Hải, “Mô hình thống kê hình vị tiếng Việt ứng dụng”, Chuyên san “Các công trình nghiên cứu, triển khai Công nghệ Thông tin Viễn thông, Tạp chí Bưu Viễn thông, số 1, tháng 7-1999, trang 61-67 1999 Huỳnh Quyết Thắng, Đinh Thị Thu Phương, “Tiếp cận phương pháp học không giám sát học có giám sát với toán phân lớp văn tiếng Việt đề xuất cải tiến công thức tính độ liên quan hai văn mô hình vectơ”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005 Đỗ Phúc, Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào toán phân loại văn tiếng Việt có xem xét ngữ nghĩa, Tạp chí phát triển KH&CN, tập 9, số 2, pp 23-32, năm 2006 Chih-Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm http://technology.chtsai.org/MMSEG/, 2000 Keh-Jiann Chen, Shing-Huan Liu, Word Identification for Mandarin Chinese sentences, proceedings of Coling 92, Nantes, pp 23-28, 1992 Quinlan J., C4.5: Programs for Machine Learning, Morgan Kaufman Publishers, 1993 Đỗ Thanh Nghị, Khai mỏ liệu – minh họa ngôn ngữ R (chương 4), NXB Đại học Cần Thơ, 2010 62 Tạp chí Khoa học 2012:21a 52-63 Trường Đại học Cần Thơ 10 M.W Berry, Z Drmac, E.R Jessup; Matrices, Vectơ Spaces and Information Retrieval; Society for Industrial and Applied Mathematics, Vol 41, No 2, 1999 pp 335-362 11 T Letsche M Berry; Large-scale Information Retrieval with Latent Semantic Analysis SIGIR 2001, pp 19-25 12 Thorsten Joachims Text Categorization with Support Vector Machines: Learning with Many Relevant Features In European Conference on Machine Learning (ECML), 1998 13 V.Vapnik The Nature of Statistical Learning Theory Springer, NewYork, 1995 14 Weka, http://www.cs.waikato.ac.nz/ml/weka/ 63

Định dạng
Số trang	12
Dung lượng	561,93 KB