Bài toán tự động phân loại là một trong những bài toán kinh điển trong lĩnh vực xử lý dữ liệu văn bản. Đây là vấn đề có vai trò quan trọng khi phải xử lý một số lượng lớn dữ liệu. Trên thế giới đã có nhiều công trình nghiên cứu đạt những kết quả khả quan về hướng này. Tuy vậy, các nghiên cứu và ứng dụng đối với văn bản tiếng Việt còn có nhiều hạn chế. Phần nhiều lý do là đặc thù của tiếng Việt trên phương diện từ vựng và câu.
Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM Classification of Vietnamese Documents Using Support Vector Machine Nguyễn Linh Giang, Nguyễn Mạnh Hiển Abstract: In this paper, we present studies on Vietnamese document classification problem using Support Vector Machine (SVM) SVM is a learning method with ability to automatically tune the capacity of the learning machine by maximizing the margin between positive and negative examples in order to optimize the generalization performance, SVM has a large potential for the successful applications in the field of text categorization This paper presents the results of the experiment on Vietnamese text categorization with SVM Từ khóa: Phân loại văn bản, Support Vector Machine I GIỚI THIỆU Bài toán tự động phân loại toán kinh điển lĩnh vực xử lý liệu văn Đây vấn đề có vai trò quan trọng phải xử lý số lượng lớn liệu Trên giới có nhiều công trình nghiên cứu đạt kết khả quan hướng Tuy vậy, nghiên cứu ứng dụng văn tiếng Việt có nhiều hạn chế Phần nhiều lý đặc thù tiếng Việt phương diện từ vựng câu Trong lĩnh vực khai phá liệu, phương pháp phân loại văn dựa phương pháp định định Bayes, định, kláng giềng gần nhất, mạng nơron, Những phương pháp cho kết chấp nhận sử dụng thực tế Trong năm gần đây, phương pháp phân loại sử dụng Bộ phân loại vector hỗ trợ (SVM) quan tâm sử dụng nhiều lĩnh vực nhận dạng phân loại SVM họ phương pháp dựa sở hàm nhân (kernel) để tối thiểu hóa rủi ro ước lượng Phương pháp SVM đời từ lý thuyết học thống kê Vapnik Chervonenkis xây dựng [11, 12] có nhiều tiềm phát triển mặt lý thuyết ứng dụng thực tiễn Các thử nghiệm thực tế cho thấy, phương pháp SVM có khả phân loại tốt toán phân loại văn nhiều ứng dụng khác (như nhận dạng chữ viết tay, phát mặt người ảnh, ước lượng hồi quy, ) So sánh với phương pháp phân loại khác, khả phân loại SVM tương đương tốt đáng kể [1, 2, 3, 4, 10] Vấn đề phân loại văn tiếng Việt nhiều sở nghiên cứu nước quan tâm năm gần Một số công trình nghiên cứu đạt kết khả quan Các hướng tiếp cận toán phân loại văn nghiên cứu bao gồm: hướng tiếp cận toán phân loại lý thuyết đồ thị [14], cách tiếp cận sử dụng lý thuyết tập thô [13], cách tiếp cận thống kê [15], cách tiếp cận sử dụng phương pháp học không giám sát đánh mục [16, 17] Nhìn chung, cách tiếp cận cho kết chấp nhận Tuy để đến triển khai khả thi cần đẩy mạnh nghiên cứu hướng Một khó khăn việc áp dụng thuật toán phân loại văn vào tiếng Việt xây dựng tập hợp từ vựng văn Vấn đề liên quan tới việc phân tách câu thành từ cách xác Để giải vấn đề này, sử dụng từ điển thuật ngữ tiếng Việt với khoảng 11.000 từ cụm từ Văn biểu diễn dạng vector phân loại theo phương pháp SVM Trong báo này, trước hết trình bày sở phương pháp SVM thuật toán giải toán quy hoạch toàn phương phát sinh từ phương pháp Phần đề cập tới toán phân loại văn biểu diễn vector Chúng nhấn mạnh vào khía cạnh tiền xử lý văn bản, trích chọn đặc trưng, biểu diễn văn bản, phân tích phù hợp phương pháp SVM áp dụng vào toán phân loại văn Phần cuối kết thí nghiệm ứng dụng SVM vào phân loại văn tiếng Việt Những thí nghiệm nhằm kiểm chứng khả phân loại SVM văn tiếng Việt Đồng thời xác định tham số SVM thích hợp cho phân lớp xác định toán phân loại văn hoàn toàn không gian đối tượng Một phân loại tốt phân loại có lực thấp (có nghĩa đơn giản nhất) đảm bảo sai số huấn luyện nhỏ Phương pháp SVM xây dựng dựa ý tưởng Xét toán phân loại đơn giản - phân loại hai phân lớp với tập liệu mẫu: {(xi, yi)| i = 1, 2, , N, xi ∈ Rm } Trong mẫu vector đối tượng phân loại thành mẫu dương mẫu âm: − Các mẫu dương mẫu xi thuộc lĩnh vực quan tâm gán nhãn yi = 1; − Các mẫu âm mẫu xi không thuộc lĩnh vực quan tâm gán nhãn yi = −1; II BỘ PHÂN LOẠI VECTOR HỖ TRỢ (SVM) Đặc trưng định khả phân loại phân loại hiệu suất tổng quát hóa, khả phân loại liệu dựa vào tri thức tích lũy trình huấn luyện Thuật toán huấn luyện đánh giá tốt sau trình huấn luyện, hiệu suất tổng quát hóa phân loại nhận cao Hiệu suất tổng quát hóa phụ thuộc vào hai tham số sai số huấn luyện lực máy học Trong sai số huấn luyện tỷ lệ lỗi phân loại tập liệu huấn luyện Còn lực máy học xác định kích thước VapnikChervonenkis (kích thước VC) Kích thước VC khái niệm quan trọng họ hàm phân tách (hay phân loại) Đại lượng xác định số điểm cực đại mà họ hàm phân tách Hình Mặt siêu phẳng tách mẫu dương khỏi mẫu âm Trong trường hợp này, phân loại SVM mặt siêu phẳng phân tách mẫu dương khỏi mẫu âm với độ chênh lệch cực đại, độ chênh lệch – gọi lề (margin) xác định khoảng cách mẫu dương mẫu âm gần mặt siêu phẳng (hình 1) Mặt siêu phẳng gọi mặt siêu phẳng lề tối ưu Các mặt siêu phẳng không gian đối tượng có phương trình wTx + b = 0, w vector trọng số, b độ dịch Khi thay đổi w b, hướng khoảng cách từ gốc tọa độ đến mặt siêu phẳng thay đổi Bộ phân loại SVM định nghĩa sau: f(x) = sign(wTx + b) (1) Trong sign(z) = +1 z ≥ 0, sign(z) = −1 z < Nếu f(x) = +1 x thuộc lớp dương (lĩnh vực quan tâm), ngược lại, f(x) = −1 x thuộc lớp âm (các lĩnh vực khác) Máy học SVM họ mặt siêu phẳng phụ thuộc vào tham số w b Mục tiêu phương pháp SVM ước lượng w b để cực đại hóa lề lớp liệu dương âm Các giá trị khác lề cho ta họ mặt siêu phẳng khác nhau, lề lớn lực máy học giảm Như vậy, cực đại hóa lề thực chất việc tìm máy học có lực nhỏ Quá trình phân loại tối ưu sai số phân loại cực tiểu Nếu tập liệu huấn luyện khả tách tuyến tính, ta có ràng buộc sau: wT xi + b ≥ +1 yi = +1 wT xi + b ≤ −1 yi = −1 (2) (3) T Hai mặt siêu phẳng có phương trình w x + b = ±1 gọi mặt siêu phẳng hỗ trợ (các đường nét đứt hình 1) Để xây dựng mặt siêu phẳng lề tối ưu, ta phải giải toán quy hoạch toàn phương sau: Cực đại hóa: N ∑α i − i =1 N N ∑∑α iα j yi y j xTi x j i =1 j =1 (4) với ràng buộc: αi ≥ (5) ∑ α i yi = (6) N i =1 hệ số Lagrange αi, i = 1, 2, , N, biến cần tối ưu hóa Vector w tính từ nghiệm toán toàn phương nói sau: N w = ∑ α i yi x i (7) i =1 Để xác định độ dịch b, ta chọn mẫu xi cho với αi > 0, sau sử dụng điều kiện Karush–Kuhn– Tucker (KKT) sau: αi [ yi (wT xi + b) – 1] = (8) Các mẫu xi tương ứng với αi > mẫu nằm gần mặt siêu phẳng định (thỏa mãn dấu đẳng thức (2), (3)) gọi vector hỗ trợ Những vector hỗ trợ thành phần quan trọng tập liệu huấn luyện Bởi có vector hỗ trợ, ta xây dựng mặt siêu phẳng lề tối ưu có tập liệu huấn luyện đầy đủ Nếu tập liệu huấn luyện không khả tách tuyến tính ta giải theo hai cách Cách thứ sử dụng mặt siêu phẳng lề mềm, nghĩa cho phép số mẫu huấn luyện nằm phía sai mặt siêu phẳng phân tách vị trí rơi vào vùng mặt siêu phẳng phân tách mặt siêu phẳng hỗ trợ tương ứng Trong trường hợp này, hệ số Lagrange toán quy hoạch toàn phương có thêm cận C dương tham số người sử dụng lựa chọn Tham số tương ứng với giá trị phạt mẫu bị phân loại sai Cách thứ hai sử dụng ánh xạ phi tuyến Φ để ánh xạ điểm liệu đầu vào sang không gian có số chiều cao Trong không gian này, điểm liệu trở thành khả tách tuyến tính, phân tách với lỗi so với trường hợp sử dụng không gian ban đầu Một mặt định tuyến tính không gian tương ứng với mặt định phi tuyến không gian ban đầu Khi đó, toán quy hoạch toàn phương ban đầu trở thành: Cực đại hóa: N N N ∑α i − ∑∑ α iα j yi y j k (x i , x j ) i =1 i =1 j =1 với ràng buộc: (9) ≤ αi ≤ C (10) N ∑ α i yi = (11) i =1 k hàm nhân thỏa mãn: k(x i , x j ) = Φ (x i ) Τ ⋅ Φ (x j ) (12) Với việc dùng hàm nhân, ta không cần biết rõ ánh xạ Φ Hơn nữa, cách chọn nhân phù hợp, ta xây dựng nhiều phân loại khác Chẳng hạn, nhân đa thức k(xi, xj) = (xiT xj + 1) p dẫn đến phân loại đa thức, nhân Gaussian k(xi, xj) = exp(−γ||xi − xj||2) dẫn đến phân loại RBF (Radial Basis Functions), nhân sigmoid k(xi, xj) = tanh(κxiT xj + δ), hàm tang hyperbol, dẫn tới mạng nơron sigmoid hai lớp (một lớp nơron ẩn nơron đầu ra) Tuy nhiên, ưu điểm cách huấn luyện SVM so với cách huấn luyện khác hầu hết tham số máy học xác định cách tự động trình huấn luyện Huấn luyện SVM Huấn luyện SVM việc giải toán quy hoạch toàn phương SVM Các phương pháp số giải toán quy hoạch yêu cầu phải lưu trữ ma trận có kích thước bình phương số lượng mẫu huấn luyện Trong toán thực tế, điều không khả thi thông thường kích thước tập liệu huấn luyện thường lớn (có thể lên tới hàng chục nghìn mẫu) Nhiều thuật toán khác phát triển để giải vấn đề nêu Những thuật toán dựa việc phân rã tập liệu huấn luyện thành nhóm liệu Điều có nghĩa toán quy hoạch toàn phương lớn phân rã thành toán quy hoạch toàn phương với kích thước nhỏ Sau đó, thuật toán kiểm tra điều kiện KKT để xác định phương án tối ưu Một số thuật toán huấn luyện dựa vào tính chất [6]: tập liệu huấn luyện toán quy hoạch toàn phương cần giải bước có mẫu vi phạm điều kiện KKT, sau giải toán này, hàm mục tiêu tăng Như vậy, chuỗi toán quy hoạch toàn phương với mẫu vi phạm điều kiện KKT đảm bảo hội tụ đến phương án tối ưu Do đó, ta trì tập liệu làm việc đủ lớn có kích thước cố định bước huấn luyện, ta loại bỏ thêm vào số lượng mẫu Chúng tập trung vào nghiên cứu thuật toán huấn luyện SVM tối ưu hóa cực tiểu (Sequential Minimal Optimization - SMO) [7] Thuật toán sử dụng tập liệu huấn luyện (còn gọi tập làm việc) có kích thước nhỏ bao gồm hai hệ số Lagrange Bài toán quy hoạch toàn phương nhỏ phải gồm hai hệ số Lagrange hệ số Lagrange phải thỏa mãn ràng buộc đẳng thức (11) Phương pháp SMO có số heuristic cho việc chọn hai hệ số Lagrange để tối ưu hóa bước Mặc dù có nhiều toán quy hoạch toàn phương so với phương pháp khác, toán giải nhanh dẫn đến toán quy hoạch toàn phương tổng thể giải cách nhanh chóng III PHÂN LOẠI VĂN BẢN VÀ SVM Phân loại văn tiến trình đưa văn chưa biết chủ đề vào lớp văn biết (tương ứng với chủ đề hay lĩnh vực khác nhau) Mỗi lĩnh vực xác định số tài liệu mẫu lĩnh vực Để thực trình phân loại, phương pháp huấn luyện sử dụng để xây dựng phân loại từ tài liệu mẫu, sau dùng phân loại để dự đoán lớp tài liệu (chưa biết chủ đề) Trong trình phân loại, văn biểu diễn dạng vector với thành phần (chiều) vector trọng số từ Ở đây, bỏ qua thứ tự từ vấn đề ngữ pháp khác Dưới số phương pháp định trọng số từ thông dụng: Tần suất từ (term frequency - TF): Trọng số từ tần suất xuất từ tài liệu Cách định trọng số nói từ quan trọng cho tài liệu xuất nhiều lần tài liệu TFIDF: Trọng số từ tích tần suất từ TF tần suất tài liệu nghịch đảo từ xác định công thức IDF = log(N / DF) + (13) đó: N kích thước tập tài liệu huấn luyện; DF tần suất tài liệu: số tài liệu mà từ xuất Trọng số TFIDF kết hợp thêm giá trị tần suất tài liệu DF vào trọng số TF Khi từ xuất tài liệu (tương ứng với giá trị DF nhỏ) khả phân biệt tài liệu dựa từ cao Các từ dùng để biểu diễn tài liệu thường gọi đặc trưng Để nâng cao tốc độ độ xác phân loại, bước tiền xử lý văn bản, ta loại bỏ từ ý nghĩa cho phân loại văn Thông thường từ từ có số lần xuất quá nhiều Tuy việc loại bỏ từ không làm giảm đáng kể số lượng đặc trưng Với số lượng đặc trưng lớn phân loại học xác tập tài liệu huấn luyện, nhiều trường hợp cho kết dự đoán xác tài liệu Để tránh tượng này, ta phải có tập tài liệu mẫu đủ lớn để huấn luyện phân loại Tuy vậy, thu thập tập mẫu đủ lớn tương ứng với số lượng đặc trưng thường khó thực thực tế Do toán phân loại có hiệu thực tiễn, cần thiết phải làm giảm số lượng đặc trưng Có nhiều phương pháp chọn đặc trưng hiệu Ở đây, sử dụng phương pháp lượng tin tương hỗ Phương pháp sử dụng độ đo lượng tin tương hỗ từ lớp tài liệu để chọn từ tốt Lượng tin tương hỗ từ t lớp c tính sau: MI (t , c) = ∑ ∑ t∈{0,1} c∈{0,1} P(t , c) log P (t , c) (14) P (t ) P(c) đó: P(t, c) xác suất xuất đồng thời từ t lớp c; P(t) xác suất xuất từ t P(c) xác suất xuất lớp c Độ đo MI toàn cục (tính toàn tập tài liệu huấn luyện) cho từ t tính sau: MI avg (t ) = ∑ P (ci ) MI (t , ci ) (15) i Khi sử dụng phương pháp chọn đặc trưng, ta loại bỏ nhiều từ quan trọng, dẫn đến mát nhiều thông tin, điều làm cho độ xác phân loại giảm đáng kể Trong thực tế, theo thí nghiệm Joachims [4], đặc trưng liên quan, hầu hết mang thông tin đó, phân loại tốt nên huấn luyện với nhiều đặc trưng Điều làm cho SVM trở thành phương pháp thích hợp cho phân loại văn bản, giải thuật SVM có khả điều chỉnh lực phân loại tự động đảm bảo hiệu suất tổng quát hóa tốt, chí không gian liệu có số chiều cao (số đặc trưng lớn) lượng tài liệu mẫu có hạn Trong thực nghiệm toán phân loại văn tiếng Anh, phương pháp SVM cho kết phân loại tương đối khả quan [4] Một lý liệu văn thường khả tách tuyến tính, SVM thực việc xác định mặt siêu phẳng phân tách liệu tối ưu Trong thí nghiệm phân loại văn tiếng Việt thực hiện, nhận thấy liệu văn tiếng Việt nói chung khả tách Khi liệu khả tách giải thuật SVM cần tập trung vào cực đại hóa lề, dẫn tới hiệu suất tổng quát hóa tốt Một điểm đáng ý huấn luyện SVM cho phân loại văn ta xây dựng nhiều phân loại khác cách chọn hàm nhân phù hợp nói phần II Nhưng không phương pháp khác, mô hình máy học (các tham số w, b tối ưu) học cách tự động trình huấn luyện SVM Những phân tích cho thấy SVM có nhiều điểm phù hợp cho việc ứng dụng phân loại văn Và thực tế, thí nghiệm phân loại văn tiếng Anh SVM đạt độ xác phân loại cao tỏ xuất sắc so với phương pháp phân loại văn khác Trong phần IV báo này, đưa kết thí nghiệm ứng dụng SVM vào phân loại văn tiếng Việt IV KẾT QUẢ THỰC NGHIỆM Chúng thực thí nghiệm ứng dụng SVM vào phân loại văn tiếng Việt Tập tài liệu mẫu sử dụng gồm 4162 tài liệu lấy từ trang http://vnexpress.net (bảng 1) Tập tài liệu chia thành hai phần: 50% dùng làm tập tài liệu huấn luyện, 50% dùng làm tập tài liệu kiểm thử Việc lựa chọn văn để kiểm thử thuật toán dựa vào giả thiết sau: − Các tài liệu phân lớp thành phân nhóm tách biệt Trên thực tế, tài liệu Vnexpress.net phân loại không xác Các phân lớp tài liệu có giao thoa tài liệu thuộc phân lớp có đặc trưng thuộc phân lớp khác − Sự phân bố tài liệu phân nhóm không ảnh hưởng tới phân bố tài liệu phân nhóm khác Giả thiết đặt để chuyển toán phân loại nhiều phân lớp thành toán phân loại hai phân lớp Bộ phân loại SVM huấn luyện tập tài liệu huấn luyện hiệu suất tổng quát hóa (độ xác) đánh giá tập tài liệu kiểm thử (tập tài liệu kiểm thử không tham gia vào trình huấn luyện, cho phép đánh giá khách quan hiệu suất tổng quát hóa) Bảng Tập tài liệu mẫu dùng thí nghiệm phân loại văn tiếng Việt Loại tài liệu Huấn luyện Kiểm thử Âm nhạc Ẩm thực Bất động sản Gia đình Giáo dục Hội họa Khảo cổ Khoa học Kinh doanh Pháp luật Phim ảnh Sức khỏe Tâm lý Thế giới Thể thao Thời trang Vi tính 119 109 119 85 165 111 45 119 193 155 117 109 47 85 257 107 140 119 109 119 86 166 112 45 118 194 154 117 108 46 85 256 106 140 Đối với việc tiền xử lý tài liệu, sử dụng từ tiếng Việt gồm 11.210 từ Sở dĩ phải sử dụng từ điển từ đặc điểm khác biệt tiếng Việt so với tiếng Anh phương diện từ vựng Các từ tiếng Anh ngăn cách cách, dấu câu Do việc xác định ranh giới từ câu văn tiếng Anh dựa hoàn toàn vào dấu ngắt từ Trong đó, việc xác định ranh giới từ câu tiếng Việt khó khăn không hiểu ngữ nghĩa từ nghữ cảnh ngữ nghĩa câu Ví dụ, từ “phản” từ “động” từ độc lập có ý nghĩa đứng riêng lẻ Tuy chúng đứng cạnh tạo thành từ ghép “phản động” từ độc lập có ý nghĩa khác tùy theo ngữ cảnh Như để tìm ranh giới từ câu tiếng Việt, dựa vào dấu ngắt từ nhưn dấu cách thông thường Để làm đơn giản hóa vấn đề nay, sử dụng từ tiếng Việt để hỗ trợ trình phân tách từ Bước tiền xử lý đếm số lần xuất từ tài liệu Vì từ tiếng Việt bao (như “áo” “áo sơ mi”), từ dài (theo số âm tiết) tách trước Những từ không xuất lần (trong tập tài liệu huấn luyện) bị loại bỏ, kết lại 7721 từ Để thử nghiệm với số đặc trưng khác nhau, 100 từ có tần suất cao từ xuất lần bị loại bỏ, thu 5709 từ; sau đó, phương pháp lượng tin tương hỗ sử dụng để chọn 5000, 4000, 3000, 2000 1000 từ Với số đặc trưng chọn, tài liệu biểu diễn dạng vector thưa dùng cách định trọng số từ TFIDF Mỗi vector thưa gồm hai mảng: mảng số nguyên lưu số giá trị khác 0, mảng số thực lưu giá trị khác tương ứng Sở dĩ dùng vector thưa số từ xuất tài liệu nhỏ so với tổng số từ sử dụng; điều mặt tiết kiệm nhớ, mặt khác làm tăng tốc độ tính toán lên đáng kể Các vector tỷ lệ cho thành phần nằm khoảng [0, 1], qua giúp tránh việc thành phần có giá trị lớn lấn át thành phần có giá trị nhỏ, tránh khó khăn tính toán với giá trị lớn Để thực phân loại văn phương pháp SVM, sử dụng phần mềm LIBSVM 2.71 với công cụ grid.py cho phép chọn tham số tối ưu cho giải thuật SVM với nhân Gaussian Điều thực cách chia tập tài liệu huấn luyện thành v phần nhau, phần kiểm thử phân loại huấn luyện v – phần lại Độ xác ứng với giá trị tham số (C γ) tính tỷ lệ tài liệu tập tài liệu huấn luyện dự đoán Chú ý hoàn toàn tham gia tài liệu tập tài liệu kiểm thử Sau chọn tham số C γ tối ưu, phân loại SVM huấn luyện toàn tập tài liệu huấn luyện, độ xác đánh giá cách thực phân loại tập tài liệu kiểm thử LIBSVM thực phân loại đa lớp (trong trường hợp báo 17 lớp) theo kiểu “mộtđấu-một” (one-against-one), nghĩa với hai lớp huấn luyện phân loại, kết có tổng cộng k(k – 1)/2 phân loại, với k số lớp Đối với hai lớp thứ i thứ j, tài liệu chưa biết x phân loại phân loại huấn luyện hai lớp Nếu x xác định thuộc lớp i điểm số cho lớp i tăng lên 1, ngược lại điểm số cho lớp j tăng lên Ta dự đoán x nằm lớp có điểm số cao Trong trường hợp có hai lớp điểm số này, ta đơn giản chọn lớp có số thứ tự nhỏ Trở lại thí nghiệm, tham số tối ưu tìm số 110 giá trị (C, γ) thử nghiệm (với C = 2-5, 2-3, , 215, γ = 23, 21, , 2-15) Kết chọn tham số đưa bảng Từ bảng 2, ta thấy tham số tốt 7721 đặc trưng, C = 215 γ = 2-13 Như vậy, trường hợp thí nghiệm này, phương pháp chọn đặc trưng không đem lại kết mong muốn – chúng làm giảm độ xác Với tham số trên, phân loại SVM huấn luyện toàn tập tài liệu huấn luyện, sau độ xác đánh giá tập tài liệu kiểm thử, cho kết bảng Bảng Các tham số tối ưu tương ứng với số lượng đặc trưng Số đặc trưng 7721 5709 5000 4000 3000 2000 1000 (C, γ) tốt (215, 2-13) (213, 2-11) (211, 2-11) (25, 2-5) (25, 2-5) (27, 2-5) (23, 2-3) Độ xác (%) 82,90 82,04 80,40 78,58 78,34 73,87 71,57 Bảng Độ xác phân loại lớp toàn tập tài liệu kiểm thử Loại tài liệu Âm nhạc Ẩm thực Bất động sản Gia đình Độ xác (%) 72,27 93,58 94,12 72,09 Giáo dục 79,52 Hội họa 82,14 Khảo cổ 51,11 Khoa học 65,25 Kinh doanh 83,51 Pháp luật 94,81 Phim ảnh 66,67 Sức khỏe 78,70 Tâm lý 39,13 Thế giới 71,76 Thể thao 98,05 Thời trang 76,42 Vi tính 79,29 Tất 80,72 Trong bảng 3, độ xác tất lớp tài liệu 80,72% tính tỷ số số tài liệu dự đoán tổng số tài liệu tập tài liệu kiểm thử Hình đồ thị minh họa cho trường hợp phân loại SVM huấn luyện hai lớp tài liệu gia đình giáo dục Hình 2a cho thấy phân bố điểm liệu huấn luyện, hình 2b cho thấy phân bố điểm liệu kiểm thử Ta nhận thấy lỗi vị trí hình 2a, lại có vài lỗi vị trí hình 2b Trong trường hợp này, máy học SVM học xác tập tài liệu huấn luyện (khả tách tuyến tính) mắc phải vài sai sót dự đoán tài liệu chưa biết (các tài liệu kiểm thử) Những kết thực nghiệm thí nghiệm phân loại văn tiếng Việt phân loại SVM có độ xác chưa cao (khoảng 80,72%) Điều trình tiền xử lý văn liệu huấn luyện với liệu thử nghiệm phân loại chưa xác Thật liệu thu thập Vnexpress.net không phân loại chuẩn Một văn bản, ví dụ thuộc lĩnh vực “Bất động sản” hoàn toàn thuộc lĩnh vực “Kinh doanh” Như phân lớp văn mẫu thực tế không hoàn toàn phân tách tuyến tính mà có vùng không gian mập mờ Điều ảnh hưởng mạnh đến trình huấn luyện phân loại (a) huấn luyện gồm hai lớp gia đình giáo dục ♦ Các tài liệu gia đình ◊ Các tài liệu giáo dục (b) kiểm thử gồm hai lớp gia đình giáo dục Hình Đồ thị giá trị f(x) = wT x + b tài liệu x tập tài liệu Tuy ứng dụng thực tế phân loại trang Web, xử lý phân loại khối lớn văn kết chấp nhận Vấn đề đặt cho nghiên cứu là: − Xây dựng hệ thống liệu thử nghiệm tiêu chuẩn Đây vấn đề lớn cần tập trung nhiều công sức; − Thử nghiệm phân loại với hàm nhân khác để chọn nhân tối ưu tập hợp liệu kiểm thử V KẾT LUẬN Trong báo này, khảo sát hiệu phương pháp phân loại SVM Đây phân loại có khả tự động điều chỉnh tham số để tối ưu hóa hiệu suất phân loại chí không gian đặc trưng có số chiều cao Bộ phân loại SVM tỏ phù hợp cho phân loại văn Trong thử nghiệm với toán phân loại văn tiếng Việt, độ xác phân loại 80,72% chấp nhận điều kiện thực tế Hiện tại, tiếp tục nghiên cứu cải tiến khâu tiền xử lý văn bản, xây dựng mẫu huấn luyện tiêu chuẩn điều chỉnh giải thuật SVM để nâng cao độ xác phân loại TÀI LIỆU THAM KHẢO [1] B BOSER, I GUYON, V VAPNIK, “A training algorithm for optimal margin classifiers”, Proceedings of the Fifth Annual Workshop on Computational Learning Theory (ACM), pp 144-152, 1992 [2] C BURGES, “A tutorial on Support Vector Machines for pattern recognition”, Proceedings of Int Conference on Data Mining and Knowledge Discovery, Vol 2, No 2, pp 121-167, 1998 [3] S DUMAIS, J PLATT, D HECKERMAN, M SAHAMI, “Inductive learning algorithms and representations for text categorization”, Proceedings of Conference on Information and Knowledge Management (CIKM), pp 148-155, 1998 [4] T JOACHIMS, “Text categorization with Support Vector Machines: Learning with many relevant features”, Technical Report 23, LS VIII, University of Dortmund, 1997 [5] S HAYKIN, Neural networks: A comprehensive foundation, Prentice Hall, 1998 [6] E OSUNA, R FREUND, F GIROSI, An improved training algorithm for Support Vector Machines, Neural Networks for Signal Processing VII –Proceedings of the 1997 IEEE Workshop, pp 276-285, New York, IEEE, 1997 [7] J PLATT, Sequential minimal optimization: A fast algorithm for training Support Vector Machines, Technical Report MSR-TR-98-14, Microsoft Research, 1998 [8] C.J VAN RIJSBERGEN, Information Retrieval, Butterworths, London, 1979 [9] Y YANG, X LIU, “A re-examination of text categorization methods”, Proceedings of the 22th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), pp 4249, 1999 [10] Y YANG, J PEDERSEN, “A comparative study on feature selection in text categorization”, Proceedings of the 14th International Conference on Machine Learning (ICML), pp 412-420, Morgan & Kaufmann 1997 [11] V VAPNIK, “Nature of statistical learning theory”, Springer-Verlag, 2000 [12] V N VAPNIK, A YA CHERVONENKIS, Teoria Raspoznavaniya Obrazov, Nauka, 1974 [13] NGUYỄN NGỌC BÌNH, “Dùng lý thuyết tập thô kỹ thuật khác để phân loại, phân cụm văn tiếng Việt”, Kỷ yếu hội thảo ICT.rda’04 Hà nội 2004 [14] ĐỖ BÍCH DIỆP, “Phân loại văn dựa mô hình đồ thị”, Luận văn cao học Trường Đại học Tổng hợp New South Wales - Australia 2004 [15] NGUYỄN LINH GIANG, NGUYỄN DUY HẢI, “Mô hình thống kê hình vị tiếng Việt ứng dụng”, Chuyên san “Các công trình nghiên cứu, triển khai Công nghệ Thông tin Viễn thông, Tạp chí Bưu Viễn thông, số 1, tháng 7-1999, trang 61-67 1999 [16] HUỲNH QUYẾT THẮNG, ĐINH THỊ PHƯƠNG THU, “Tiếp cận phương pháp học không giám sát học có giám sát với toán phân lớp văn tiếng Việt đề xuất cải tiến công thức tính độ liên quan hai văn mô hình vector”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005 [17] ĐINH THỊ PHƯƠNG THU, HOÀNG VĨNH SƠN, HUỲNH QUYẾT THẮNG, “Phương án xây dựng tập mẫu cho toán phân lớp văn tiếng Việt: nguyên lý, giải thuật, thử nghiệm đánh giá kết quả”, Bài báo gửi đăng Tạp chí khoa học công nghệ, 2005 Ngày nhận bài: 8/6/2005 SƠ LƯỢC TÁC GIẢ NGUYỄN LINH GIANG Sinh năm 1968 Hà Nội Tốt nghiệp Đại học năm 1991 nhận học vị Tiến sỹ Liên Xô cũ chuyên ngành Đảm bảo Toán học cho máy tính năm 1995 Hiện Khoa Công nghệ Thông tin, Đại học Bách khoa Hà Nội Lĩnh vực nghiên cứu: Điều khiển tối ưu, xử lý văn tiếng Việt, an toàn mạng, multimedia Email: giangnl@it-hut.edu.vn NGUYỄN MẠNH HIỂN Sinh năm 1981 Tốt nghiệp Đại học chuyên ngành Truyền thông Mạng, Đại học Bách khoa Hà Nội năm 2004 Hiện công tác Khoa Công nghệ Thông tin, Đại học Thủy Lợi Lĩnh vực nghiên cứu: Học máy, khai phá liệu tiếng Việt Email: nmhien@gmail.com