Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 74 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
74
Dung lượng
25,8 MB
Nội dung
DẠI ỉIỌ C ỌƯÓC GIA IỈẢ NỘI TRƯỜ NG ĐẠI HỌC CƠNG NGHỆ • • • Phạm Đức Hồng XÂY DỤNG HỆ THỐNG PHÂN LOẠI VẢN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP MÁY VÉC-TO HỎ TRỢ KÉT HỢP CÁC PHƯƠNG PHÁP TỐI u KÍCH THƯỚC DỬ LIỆU Ngành: C ông nghệ thông tin C huyên ngành: C ôn g nghệ phần mềm Mã số: 60 48 10 LU Ậ N V Ă N TH Ạ C s ĩ NG Ư Ờ I H Ư Ớ N G D À N K H O A HỌC: TS Lê Anh C u n g ỌỌ0 D OOOồdỹ Hà Nội - 2009 Lời cảm ơn Tôi xin gừi lời cám ơn chân thành nhấí đến TS Lê Anh Cường, người tận tình hướng dần, giúp đờ tơi suốt trình thực luận vãn Cảm ơn Ban Giám đốc Trung tâm An ninh mạng Bkis đà tạo điều kiện đế thực thừ nghiệm kết quà suốt trình làm luận văn Xin cảm ơn gia đinh nhữntĩ neười bạn dành cho tơi tình thương u hồ trợ tốt Tóm tắt luận văn ■ Phân loại văn bàn toán quan trọng xử lý văn hàn tiếng Việt Một thách thức cùa toán phân loại văn bàn sỏ lượng đặc trưng (thuộc tính) dùng đe phân toại thi thường lớn Bên cạnh dó, áp dụng vào ưong xìr lý tiếng Việt cần phai khảo sát hiệu phương pháp phân loại số dặc diem riêng tiếng Việt việc sử dụng từ hay âm tiết Luận văn trình bày phương pháp phân loại Máy Véc-tơ hồ trự dược cho phương pháp phân loại tốt đồng thời kết hợp tập trung giãi vấn để "số chiêu đặc trưng lớn" bans cách áp dụng phương pháp eiàm chiều đặc trưng Sau trình bàv tổnẹ quan tiếp cận giam chiểu đặc trưna luận vãn sâu vào trình bày tiếp cận Lantern semantic index Centroid Orthogonal Centroid, GSVD/LDA áp dụna cho liệu phán cụm phù hợp với tốn phân loại văn Trên sờ dó cài đặt thử nghiệm, đưa bảng so sánh đánh giá kết quà phân loại ứns dụne cho toán phân loại vãn bán tiếng Việt trôna hai trường hợp dựa vào đặc điểm riêng tiếng Việt sử dụng tách từ âm tiết Mục lục Tóim tát luận v ă n Dainh mục thuật ngữ Dainh mục hình v ẽ Dainh mục bảng .« Chiưoiìg 1: Tổng quan .6 Il I Giới thiệu toán xứ lý văn bàn 11.2 Các phưang pháp phân loại văn ban .6 11.3 Vấn dề giảm chiều đặc trưng 1.3.1 Giới thiệu 1.3.2 Các tiếp cận tinh hình nghiên cứu Việt Nam 11.4 Đặc điềm tiếng Việt 11.5 Mục tiêu luận vãn 10 Ch ương 2: Biểu diễn văn 11 ! G ió i t h i ệ u 11 2.2 Mơ hình Boolean 12 2.3 Mơ hình tần suất (Term Frequency - TF) 12 2.4 Mỏ hình nghịch đào tần sổ văn ( Inverse Document Frequency - IDF) 13 2.5 Mơ hình kết hợp TFxIDF 13 2.6 Áp dụng phưang pháp véc-tơ thưa lưu trữ vănbàn 13 Ch ương 3: Các phương pháp phân loại văn .15 3.1 Giới thiệu 15 3.2 Ọuv trình phân loại văn bán 15 3.3 Đặc điểm cùa Tiếng Việt ảnh hưởng phânloạivăn 16 3.3.1 Đặc điểm tiêng V iệt 16 3.3.2 Ánh hưởng phân loại văn 18 3.4 Phương pháp phân loại Naïve Bayes 18 3.5 Phương pháp phân loại Centroid- based vector 19 3.6 Phương pháp phùn loại k-Nearest Neighbor (kNN) 19 3.7 Phân loại văn bang phưong pháp SupportVector Machines 20 3.7.1 Lý thuyết học thông kê 20 3.7.1.1 Chiều VC (Vapnik Chervonenkis dimension) 20 3.7.1.2 Rủi ro cùa tốn học phân loại có giám sát 22 3.7.1.3 Rủi ro thực nghiệm .23 3.7.1.4 Nậuỵên tắc tối thiểu hoá rủi ro cấu trúc 23 3.7.1.5 Bồ đề Vapnik .24 3.7.2 Support Vector Machines 25 3.7.2.1 Dừ liệu huấn luyện phân chia tuyến tính khơng có nhiễu 26 3.7.2.2 Dữ liệu huấn luyện phàn chia tuyến tính có nhiễu 30 3.7.2.3 Dừ liệu huấn luyện phân chia tuyến tinh dược 32 3.7.2.4 Hàm nhân Kernel 34 3.7.3 Phương pháp giải toán tối ưu 34 3.7.? Thuật toán giãi toán u 35 3.7.3.2 Thuật toán khới tạo biến a " 37 Chưoìig 4: Các phưong pháp tối ưu kích thưóc liệu 39 4.1 Biểu diễn giám bậc ma trận Term - Doc 39 4.2 Phương pháp Latent semantic analysis 41 4.2.1 Singular value decomposition 42 4.2.2 Thuật toán giảm số chiều LSI/SVD 45 4.3 Phương pháp trọng tâm 47 4.3 i Binh phưcrng tồi thiếu 47 4.3.2 Thuật toán trọng tâm giám số chiều 49 4.4 Phưcmg pháp trọng tâm trực giao 49 4.4.1 Phân tích QR ma trận 49 4.4.2 Thuật toán trọng tâm trực giao giảm số chiều 52 4.5 Phương pháp Linear discriminant analysis 52 4.5.1 Hàm phân lớp tuyến tính Fisher (Fisher’s linear discriminant - FLD) 52 4.5.2 Generalized Singular Value Decomposition (GSVD) 53 4.5.3 Linear discriminant analysis da lớp 55 4.5.4 Thuật toán giảm số chiều LDA/GSVD 56 Chưong 5: Cài đăt chng trình kết thử nghiệm 58 5.1 Chức tiên xử lý vân 58 5.1.1 Chuẩn hóa 58 5.1.2 Xây dựng từ điển 58 5.1.3 Biểu diễn văn bàn 59 5.1.4 Thuật toán giảm số chiều vãn bàn 59 5.1.4.1 Thuật toán giảm sộ chiều LSI/SVD 59 5.1.4.2 Thuật toán giảm số chiều Centroid 60 5.1.4.3 Thuật toán giảm số chiều Orthogonal Centroid .60 5.2 Huấn luyện phân loại 61 5.2.1 Phương pháp SVM 61 5.2.1.1 Quá trình huấn luyện 61 5.2.1.2 Quá trình kiểm tra 63 5.2.1.3 Phân loại vãn bán 64 5.3 Ket thực nghiệm 65 5.3.1 Vãn tách thành từ (word segments) 65 5.3.2 Văn dược tách thành âm tiết 67 Kết luận 70 Tài liệu tham khảo 71 Danh mục thuật ngữ iS l • IW l-i '■ 1 ' kNN SVM III y ; Tiếng Việt P S I E I illi tã M ẳ ấ ỊJrtix*vJwijiir;WLf ễyÌÌlỆ llftfl High Dimension SỐ chiều dặc trưnii lớn (Cao) I I k-Nearest Neighbor k láng giềng gần (phân loại văn bàn) s top words từ dừng Support Vector Machines Máy véc-tơ hỗ trợ Text Categorization Classification) Bài toán phân loại văn hàn (Text FLD Fisher’s linear discriminant Hàm phân lớp tuyến tính Fisher LSI Latent semantic indexing Đánh chi mục ngữ nghĩa ẩn SVD Singular value decomposition Phân tích giá trị kỳ dị GSVD Generalized Singular Value Decomposition Phân tích giá trị kỳ dị hai ma trận 10 Centroid Trạng tâm 11 Orthogonal Centroid Trọng tâm trực giao 12 word segments Tách từ 13 Linear discriminant analysis Phân tích tuyến tính Danh mục hình vẽ Hình l Biêu diên véc-tơ văn bàn tronẹ khơng gian chi có thuật ngữ 1 Hình Minh họa chiểu v c tập hàm Ịf(x)} không gian hai chiêu với điêm liệ u 21 Hình Minh họa hàm ịf(x)Ị khơng gian hai chiểu với điếm liệu .22 Hình Mơ tá siêu phăng phân chia tập mẫu huấn luyện 26 Hình Siêu phănẹ phân chia liệu ràng b u ộ c 27 Danh mục bảng Bàng l Dữ liệu huấn luyện kiêm th 65 Báng Độ xác phân loại mỏi chuvên mục toàn tập dừ liệu trường hợp văn bàn tách thành từ sư dụng thuật toán giám chiểu LSI/SVM 65 Bâng Độ chỉnh xác phân loại moi chuyên mục vị tồn tập liệu trường hợp văn ban tách thành từ sứ dụng thuật toán giam chiểu Centroid Orthogonal C entroid .66 Bủng Chì phí thời gian huấn luyện phân loại sử dụng hàm nhản Poly (d - ) trường hợp văn bán tách thành từ 67 Bãrg Chi phí thời gian thực thuật tốn giảm chiểu trường hợp văn tách thành từ 67 Bárg Độ xác phân loại mơi chun mục (ồn tập dừ liệu trường hợp văn bàn tách thành âm tiết sử dụng thuật toán ẹiớm chiểu LSI/SVM 67 Bárg Độ chinh xác phần loại moi chuyền mục toàn tập dừ liệu trường hợp văn bán tách thành âm tiết sư dụng thuật toán giảm chiều Centroicỉ Orthogonal C entroid 68 Bars; Chi phi thời gian huấn luyện phán loại sứ dụng hàm nhân Polỵ (ci-2) trường hợp văn dược tách thành âm tiế t 69 Bàrg Chi phi thời gian thực thuật toán giám chiều trường hợp văn bàn tách thành âm tiế t 69 Chương 1: Tổng quan 1.11 GIỚI thiệu toán xử lý văn Ngày với phát triển mạnh mẽ cơng nghệ thỏim tin nhu cầu lưui trừ va trao doi thône tin bàng văn hàn số tăng lên với sổ lượng lớn Đó côntĩ văni giấy tờ doanh nghiệp tổ chức hành số hóa lưu trừ dạnig văn bàn tin web site báo điện tử, nội dung thông tin trao đôi ermail, Với sờ dừ liệu có số lượng văn khổng lồ với nhu cầu trao đồi thơ'ng tin lớn lớp tốn xir lý văn đời nham khai thác cách hiệtu quà thông tin từ liệu văn bàn Lớp toán xử lý văn bàn bao gồm: dịch tự độnig văn bàn, tóm tắt văn bản, tìm kiếm văn bản, phân loại văn bản, Xử lý văn bàn kỹ thuật chung để trích chọn thơng tin có ích chưa biết đến, cịn tiềm ẩn từ văn Xử lý văn cỏ nhiệm vụ thu thập phàn tích văn bàng công cụ tự động bán tự động từ nguồn văn bàn có khác nhau, để có dược tri thức mới, chưa dược biết đến trước đó; phát mơ tà chune, cùa lớp đổi tượng văn bàn, từ khoá, mối liên quan mặt nội dung, phân loại đối tượng văn bàn, v.v Bài toán tự động phản loại văn bàn (Text Classification) toán quan trọne cần eiải xử lý văn bàn Kết phân loại ứna dụng trực tiếp thành phần quan trọne nhiều hệ thống xử lý thông tin khác hệ thống lọc thư rác (mail spam) hay lay tin tự động Ngồi có írng dụng hỗ trợ nhiều toán xừ lý vãn tim kiếm, dịch máy, tóm tắt văn bán 1.2 Các phương pháp phân loại văn Trong xử lý vãn bản, phương pháp học mảy dã chứng tỏ tính hiệu quà vượt trội Một số phương pháp phân loại thône, dụng dược sử dụng định Bayes (Mitchell, 1996), quyếl định (Fuhr et al, 19 1), véc-tơ trọng tâm (Centroidbased vector) (Han, Karypis 2000), k-lántỊ giềng gần (Yang, 1994), mạng nơron (Wiener et al, 1995), Những phương pháp nàv cho kết quà chấp nhận sử dụng trone thực tế Prone năm «ần phương pháp phân loại sử dụng Bộ phân loại véc-tơ hồ trợ (SVM ) quan tâm sir dụng nhiều lĩnh vục nhận dạng phân loại (Joachims, 1998) SVM họ phươna pháp dựa trèn sờ hàm nhân (kernel) dề tối thiểu hóa rủi ro ước lirợne Phương pháp SVM dời từ lý thuyết học thổng kê Vapnik Chiervonenkis xây dựng có nhiều tiềm phát triền mặt lv thuyết cũns, ứng dụng thực tiền Các thử nghiệm thực tố cho thấy, phương pháp SVM cỏ khà nărsg phân loại tốt toán phân loại văn bàn tron li nhiều ứng dụng khác (như nhận dạng chừ viêt tay, phát mặt người tronc ánh ước lượng hồi quy .) So sánh với phương pháp phân loại khác, khả năns phàn loại cùa SVM tương dương tốt đáng kể (Nguyền Linh Giang Nguyền Mạnh Hiền, 2005) Hệ thốnụ phân loại văn bàn tiếng Việt ỡ nước ta có nhiều nhà nghiên cứu phát triền xây dựnc năm gần (Huỳnh Quyết Thắng Đinh Thị Phương 1999) (Nguyền Linh Giang Nguyễn Mạnh Hiển, 2005) Các hướng tiếp cận toán phân loại văn bàn nghiên cửu bao gom: hướng tiếp cận hài toán phân loại bẳng lý thuyết đồ thị (Đồ Bích Diệp, 2004), cách tiếp cận sử dụng lý thuyết tập thơ (Nguyễn Ngọc Bình, 2004), cách tiếp cận thong kê (Nguyễn Linh Giang Nguyễn Duy Hài, 1999), cách tiếp cận sử dụng phương pháp học không giám sát đánh chi mục (Huỳnh Quyết Thẳng Đinh Thị Phương, 1999) Nhìn chung, nhìme cách tiếp cận cho kết quà chấp nhận N hững tháclì thức toán phân loại văn Tiếng Việt: Số chiều đặc trung lớn Trong phân loại văn bàn lất phương pháp gặp khó khăn chung không gian dừ liệu với số chiều lớn Khi đỏ địi hỏi khơng gian nhứ liệu lớn nhiều thời gian xử lý văn bàn phân loại Đê giải vấn đề khó khăn luận văn trình bày xây dựng hệ thống phân loại kết hợp với phương pháp tối ưu kích thước dừ liệu áp dụng cho văn bàn Tiếng Việt Phân tách câu thành từ Khác với tiếng Anh vãn hán tiếng Việt có thổ biểu diễn bời danh sách từ âm tiết Đẻ biểu diễn văn hãn từ phải xử lý toán tách từ (word segmentation) cho tiếng Việt Ilai cách sử dụnu (âm tiết từ) sỗ khải) sát so sánh luận văn 1.3 Vấn đề giảm chiều đặc trưng 1.3.1 G ió i thiệu Những tiến hộ trono, cơng nghệ thơng tin mạng máy tính (network), phần cứng (hardware), phàn mềm (software), cấu trúc dừ liệu thuật toán tạo lên sở hạ tầng đủ mạnh để xử lý luồng dừ liệu khổng lồ web, tronẹ hệ thống máy tính, cảm biển mạng máy tính (sensor networks), việc phân tích gen DNA cùa người sinh vật khác, loại dừ liệu dạn a văn (text), ảnh, âm song dô xử lý luồng dừ liệu lớn vần vấn dò phức tạp Trong giảng cho sinh viên với chu dê "Phân tích liệu có sơ chiều dặc trưng cao: Nlĩững thuận lợi khó khăn” (High-Dimensional Data Analysis: The Curses and Blessings o f Dimensionality) (David Donoho, 2000) đại học Standford năm 2000 tiến SV David Donolio đà điểm qua thuận lợi khó khăn việc giải tốn có số chiều đặc trưng cao dồng thời kêu gọi nhà toán học the kỳ 21 quan tâm đóne Ĩp hướng giải nhiều cho lớp tốn Khái niệm “khó khăn cùa số chiều đặc trưng lớn” (curses o f dimensionality) (Richard Bellman, 1961) Richard Bellman sử dụng Ian nói đến khó khản việc giải toán liên quan đến số chiều đặc trưng lớn (high dimension), s ổ lượne chiều (dimension) toán sổ lượna biến số liên quan, số lượne cảm biến (sensors) dùng dế thu thập dừ liệu lớn Để xứ lý dù liệu với sổ chiều (dimension) khổng lồ sổ lượng khổng lồ địi hỏi tìm kiếm trong gian trạng thái lớn gấp nhiều lần dó chi phí thời gian theo đa thức hàm so 11ÌŨ Điều thú vị tốn tốn xử lý liệu lớn có nhiều thuận lợi (blessings o f dimensionality) toán học yếu tố thuận lợi số chiều lớn khái niệm “thước đo tập trung tương đối” (concentration o f measure) nói dến thống kê tập Iruna xấp xi có nhiều thể hiển có đặc trưng Trong lý thuyết xác suất có luật số lớn (law o f large numbers) giá trị trung bình cùa thể ngẫu nhiên thường hội tụ giá trị kỳ vọng cùa biến ngẫu nhiên (constant) Hay định luật giới hạn trung lâm (central limit): Giá trị trung bình cùa ngầu nhiên có hành vi giống biến Gauss, ta chọn naẫu nhiên thê dây thể kích thước dãy thể lớn đặc trưne thong kê (trung bình, phươns sa i ) thê gan với đặc trung dãy Giám chiều khônẹ gian đặc trưng tốn phân loại văn nói riêng tốn có số chiều lớn nói chung có vai trị quan trọng việc: - Giảm thiếu khơníỊ gian nhớ dừ liệu - Tăng tốc dộ xử lý dừ liệu cho giải thuật xử lý văn Chương 5: Cài đặt chương trinh kết thử nghiệm SVM trình bày giãi thuật học phân loại lớp luận văn áp dụng cho phân loại đa lớp (trong trường hợp cùa luận vãn lớp) theo kiểu "một-đấu-một” (one-against-one), nghĩa với hai lớp sè huấn luyện phân loại, kết có tống cộng k(k - I)/2 phân loại, với k !à sổ lớp Dối v ới hai lớ p th ứ ì t h ứ ỹ , m ộ t tà i liệ u c h a b iế t X s ẽ d ợ c p h n lo ại b n g b ộ p h â n loại đưực huấn luyện hai lớp Nếu X xác định thuộc lớp i điểm sổ cho lớp i dược tăng lên 1, nsược lại điểm số cholứp j dược tăng lên Ta dự đoán X nậm lớp có điểm số cao Trong trường hợp cỏ hai lớp bằngnhau điểm sổ này, ta chi dưn giàn chọn lớp có số thứ tự nhỏ 5.1 Chức tiền xử Ịý văn Việc tiền xử lý văn bàn có ý nghĩa quan trọng, định nhiều đến hiệu năna cùa chươrm trình xử lý Neu trinh tiền xử lý văn bàn có tốc độ nhanh cho dộ chinh xác cao, nhờ dó tốc độ xử lý hiệu chức xử lý văn sè cao 5.1.1 Chuẩn hóa Đe đơn giản hố việc tách từ, với mồi văn bàn đầu vào, ta thực hiệc qua bước tiền xứ lý ký tự đổ dưa văn dạng xâu chuẩn, dâv xâu chuẩn xâu mà khơng có dấu cách liền nhau, có dấu câu két thúc xâu, trước dấu câu khơng có dấu cách Để có xâu chuẩn, chuẩn bị cho việc tách từ, ta thực qua bước sau: Chuyên hết ký tự chừ hoa thành chừ thường Dùng dấu câu (bao gồm dấu để tách vănbánthành tàp hợp câu Ta tách nhir vi âm tiết cách dấu câu không thuộc cùng; từ Tiến hành chuẩn hố với câu: - có >1 dấu cách dírna kề nhau, loại bớt đi, chi để lại dấu cách loại bỏ nhừnsi dấu cách dầu cuối câu 5.1.2 XâvV d ư* n gH bơ• từ điền Từ tập dừ liệu huấn luyện ban đẩu sau q trình chuẩn hóa văn bàn tách văn ta xây dựng nên từ điển bao gồm từ dã dược tách trước từ xuất 58 lần từ điển với lần suất cùa từ điển xuất tất văn hàn Từ điển liệu phục vụ cho việc hiểu diễn văn dạng vectư có so chiều bang dộ dài từ diên 5.1.3 Biểu diễn văn ban Chương cùa luận văn trình bày số mơ hình biểu điền hón tronỗ khụne gian vect, bao gm: mụ hỡnh Boolean, mơ hình tần suất (TF), mơ hình nRhịch dao tẩn số văn (1DF) mơ hình kết hợp TFxIDF Trong phần cài đặt chương trình chúng tơi chọn mơ hình biểu diễn véc-tơ chuẩn dựa mơ hình tần suất TF dế biểu diễn văn bàn Công thức tính trọng số cùa từ văn theo mơ hình sau: W ÍJ ~ f ij Trong đó: f„ sổ lần xuất cùa thuật ngữ t, vãn dị 5.1.4 T h u ậ t toán giả m s ố chiều văn Thông thường sau bước biểu điền văn băn ta sử dụng liệu vectơ làm đẩu vào cho thuật toán hưyến luyện phân loại, luận văn tập chung vào thừ nghiệm phân loại kết hợp với phương pháp giảm sổ chiều nhàm làm giảm thời gian tính tốn khơng gian nhớ dừ liệu tính tốn sau bước biểu diễn văn ta tập vec tơ liệu huấn luyện tập vec tơ liệu test tập vec tư thực qua phép toán tối ưu để giảm số chiều Kct quà việc giàm số chiều sứ dụng làm dầu vào cho thuật toán huấn luyện phân loại 5.1.4 ì Thuật toán giảm số chiều LSl/SVD Input: Cho ma trận term -doc A e K""'1 ma trận hiểu diễn tập liệu huấn luyện số nguyên k>0 Tính Ak = v k z k VỊ Đặt ma trận Y bàng X* v Ị Output: Y R ttn 59 - Ma trận Y - z* l\T ma trận terni - doc biêu diễn vãn bàn không gian ngừ nghĩa an k chiều cùa tập vãn bàn huấn luyện hay nói cách khác Y ma trận biểu diễn giàm số chiều cùa ma trận A Ma trận ọ = u[Q ma trận term - doc biểu diễn tập vãn bàn kiểm thừ (test) không gian ngừ nghĩa ân k chiều hay nói cách khác Q ma trận biêu diễn giảm s ố chiều cùa ma trận o - Nếu văn (Ị m uốn biểu diễn giảm số chiều khơng gian k chiều thi í/ = u ịq biểu diễn cùa q 5.1.4.2 Thuật toán giảm số chiều Centroid Input: Cho ma trận term 0 số lớp dừ liệu huấn luyện (trong luận văn k= iớp) Tính trọnu tâm c, lớp thứ / với \ < ì < k Đặt ma trận c = [c,,c2, ,cA] Tính QR cùa ma trận c = ỌkR Y = 0[A Output: ma trận Y € Mu" 60 Neu A ma trận biểu diễn tập dừ liệu huấn luyện thỉ Y ma trận liệu huấn luyện biểu diễn giảm số chiều cùa A - Neu A ma trận biếu diễn tập liệu kiêm thứ Y ma trận liệu kiểm thứ biểu diễn giám số chiều cùa A - Ncu văn q muốn biểu diễn giảnì sổ chiều tronc khơn5 gian k chiều - y = Q*ÍÌ biểu diễn cùa q 5.2 Huấn luyện phân loại 5.2.1 P h u o n g pháp S V M Phân loại văn sử dụng phưcrne pháp SVM ta biết phương pháp học có giám sát (ờ dây giám sát bời tập dừ liệu huấn luyện) Do đó, trước đưa định phân loại văn bàn đó, chương trình cần huấn luyện liệu huấn luyện dã phân loại trước Như vậy, việc thực chương trình tách thành hai modul riêng biệt: - Modul huấn luyện: từ đầu vào tập liệu huấn luyện dã qua tiền xử ỉý tham số cần thiết khác (tham so V, tham số hàm nhân Kernel), với loại chủ dề văn định, thực hiộn giải thuật giải tốn tối ưu để tìm siêu phẳng phân loại văn cho chù đề Đầu nhìrne tham sổ siêu phẳng h, a=(a, a2 anJ - Modu! kiểm tra: với đầu vào tập văn kiểm tra qua tiền xử lý, tham số cùa siêu phăng tìm từ modul huấn luyện, véc-tư trọng sổ cùa văn bàn huấn luyện, với từnu loại chủ đề văn bản, sử dụng hàm dấu để xét loại cho vãn bàn đó, đưa danh sách nhân (chủ đề) phù hợp đế gán cho văn hàn Đánh giá kết quà trình kiểm tra thơng qua cơne thức đánh giá hiệu chương trình 5.2.1.1 Quá trình huấn luyện Trong phương pháp phân loại văn bang SVM, công việc huấn luyện (học) quan trọng tốn nhiều thời gian Ọuá trình huấn luyện trà tham số cùa hàm tối ưu hố, tham số cùa support vẻc-tơ Ket cùa trình huấn luyện dược dùng cho việc kiểm tra phân loại văn khác 61 De chuân bị liệu cho trình huấn luyện, tập văn huấn luyện thô ban đầu dưa qua bước tiền xử lý de thu vê dạng tập văn bàn huấn luyện biểu diễn dạng vẻc-tư thưa với thành phần trọng so cùa từ văn Tập văn bàn huấn luyện đà dược gán nhãn màng lưu nhàn văn bán huấn luyện đâu vào cho trình huấn luyện cùa chương trình Chú ý rang với số CỈ1Ú đề văn m, nhãn cùa văn bán đánh theo giá trị từ I đến m để the chủ đồ mà thuộc vào Sau mảng biến đổi thành mảng giá trị { 1/-1} tưưng ứne với chủ đê dịnh xét Module huấn luvện có dầu vào, đầu thuật toán thực sau: Đầu vào: Là tập véc-tơ biểu diễn tập văn bàn huấn luyện gán nhàn (đầu mođul tien xử lý tập văn huản luyện), giá trị cúa tham so V (Error parameter - tham số lõi cho phép), tham sổ kernel cùa hàm nhân K(x„xJ - Neu kernel = hàm nhân sử dụng hàm tuyến tính - Nếu kernel = 2, đồng thời có thêm tham số d hàm nhân hàm đa thức có số mũ = d - Neu kernel = 3, đồntí thời có thêm tham số Ỵ hàm nhân hàm RBF Đầu ra: Là hệ số siêu phẳng tối ưu, b, a - ( a h a2 Và lưu lại tham sổ cùa hàm nhân K(x,.xj) sử dụng cho module định phàn loại Thuật toán: Bước ỉ: Tuỳ thuộc vào tham số hàm nhân kernel, sử dụng hàm nhân tương ứng (một ba hàm Linear, Poly, RBF) đe tính mảng giá trị hàm nhân cùa cặp (jc„ X j) tro n g tậ p h u ấn luyện Bước 2: Sử dụng thuật toán khởi tạo bien a , để khởi tạo biến a - ( a ha2>— ans)'Khởi tạo giá trị ban đầu cho tham sổ (a„ G„ Vị , V ĩ ) = 0, tính tập N11 (N tập chi sổ i văn bàn có cặp giá trị () Vđược gán nhãn - N e ợ c l i X đ ợ c ẹ ả n n h ã n - Bước 2: Từ kết cùa bước 1, kết hợp với mảng y lưu nhãn văn bán kiềm Ira, tính giá trị độ xác, độ bao đổ đưa kết quà dánh giá hiệu chươne trình phân loại đoi với lớp văn Nhận xét: Ưu điểm cùa việc phân chia giai đoạn phân loại văn thành hai modul là, với mồi lớp vãn bàn cần thực module huấn luyện lần, mà sử dụng dược cho tất tập dừ liệu kiểm tra sau 5.2.1.3 Phân h i văn Với chức nũng tương tự mođul kiểm tra mocỉul có đặc điêm khác khơng dung để dánh giá hiệu liane chương trinh, mà tlùrm với mục đích giúp người dùng có định phân loại cho văn cụ thê Mođul có đầu vào đầu sau: Đầu vào: Văn bàn cần phân loại biểu diễn dạng véc-tư trọng sổ, tập vãn bàn huấn luyện dạng véc-tơ trọng sổ gán nhãn, tham số 6, a, cùa siêu phang tối ưu tham số cùa hàm nhân K(x„ Xị) đà dùng trình huấn luyện Đầu ra: Đưa định chủ dề phù hợp với văn bán xét Thuật tốn: - Với chủ đề văn bản, tính giá trị /( * ) =iỴJa,yìK (*, *x)+b 1=1 Ncu f(x)>0 X gán nhãn Lưu lại danh sách chù dề gán nhãn =1 cho văn 64 - Neil có I dề mà ứng với nó, văn hàn clirợc gán nhãn = thi dưa định phân loại cho vãn vào chù đề - Ncu sổ đề > I, có giải pháp: đưa danh sách tất đề để người dùng định, dựa vào giá trị hàm f(x) để phân loại vãn ban vào chù đề có max (dựa vào nguyên tac tìm siêu phăng tối ưu) 5.3 Kết thực nghiệm Dừ liệu huấn luyện (data train) kiểm thứ (data test) dược sử dụng gồm 4936 tài liệu dược lấy từ trang http://vnexpress.net Tập tài liệu chia lấy ngẫu nhiên 60% dược dùng làm dừ liệu huẩn luyện, 40% dùng làm dừ liệu kiểm thừ (test): ' ÍĨạ Ul IS fe! Kinh doanh ïtiiiiM fÊfü? iiv !f|tịí- 540 424 Pháp luật 240 197 Thê thao 660 450 Vãn hóa 360 294 Vi tính Xã hội r—J i Tơng sơ 660 300 524 218 2760 2170 Bảng ỉ Dữ liệu huấn luyện kiểm thừ 5.3.1 Văn đư ợc tách thành từ (w ord segm ents) Từ data train xây dựng từ điền gồm 13408 từ Loại bò từ có tần số nhỏ từ điển gồm 6216 từ Bảng Độ chinh xác phân loại moi chuvên mục toàn tập dừ liệu trường hợp văn tách thành từ sử dụng thuật toán giám chiều LSI/SVM S Ë M Sr '0 fi • ^-U- • '1 ! Linear ( O lO ) J&trVii-'.-ir -Í- i f P l Q m Sm : i f f ■'r o • ■ -■ pV ••• " ■ :$ữÊ8ỂỉlÊ> - Z'rtrrr;r-*rôvite* -'**ã -ãã>1* N fp fc ùtf y ' ù& m >; ' :fcifĐli l " 'ã ã ' ã ;; \r y,.,.:ằ .^ẽ^ẻặ11:i l ẫ pn;vx%r- L-.ã ã i i l É É K in h d o a n li 9 8 8 9 P h p lu ậ t 4 9 9 88.66 Q 8 3 5 T h ề th a o 3 _ _ _ Ị 65 5ỊP ••• ; V ă n 1 h ó a 9 9 7 9 6 9 6 9 % V i tin h 9 X h ộ i 8 2 9 1 ru n g b in h 9 9 1 lĩSiM WW& •w.‘ ỀẵỀ^ỀÊẾẾẵỂÊỄẩÊíÊẳ l& v V v l lS l l P o l v ( d = ) K in h d o a n h 9 9 8 8 ^ P h p lu ậ t 4 9 9 4 4 '5 T h ê th a o 3 88 2 5 9 4 V ă n h ó a 7 9 9 V i tin h 9 9 9 3 X ã h ộ i 9 4 8 8 9 8 T ru n g b ìn h 9 9 6 9 I ỄI R B F < r = ) IBS!! ỵ.ỵ.- I B I i i ISSSĨ K in h d o a n h 8 9 0 P h p lu ậ t 4 8 5 5 T h ê th a o 5 8 2 6 9 7 4 4.22 V ă n h ó a 5 7 39.45 V i tin h 9 2 8 9 8 X â 8 7 8 4 7 8 0 5 hội T ru n g b ìn h ’ v ũ T õ ' 9 Bảng Độ xác phân loại mơi chun mục tồn tập liệu trường hợp văn bán tách thành từ sứ dụng thuật toán ẹiàm chiểu Centroid Orthogonal Centroid 66 lu ậ t th a o V ă n h ó a 9 9 3 6 6 9 í ■c ! T h ê 4 NJ* i Ị P h p < d = ) V i tín h 9 9 X ã h ộ i 9 4 9 9 T ru n g b in h Ịm ỀraằiỉraÉrailraỉX ỈaÉânẵỉÊỐ Ì R B F < r = i > K in h d o a n h 8 9 P h p lu ậ t 4 9 T h ê th a o 5 3 5 V â n 5 9 V i tín h 9 X 8 9 9 7 5 9 h ó a h ộ i T ru n g b in h Bảng Chi phi thời gian huấn luyện phàn loại sứ dụng hàm (d=2) trường hợp văn bàn tách thành từ ; ; i t, S V M - F u ll (6 x ) S V M - L S I p h ú t S V M - C e n tr o id S V M - O r th o g o n a l C e n tr o id (3 0 x ) K - 0 (6 x ) (6 x ) Ị : ẬI p h ú t :: • : ỉ^ í'> ! 12 p h ú t g iâ y p h ú t 21 g iâ y g iâ y g iâ y g iâ y 2_£Íây nhàn Poly iV V i í Y O i { t ị : J : ' g ià y g iâ y _ _ _ _ Bảng Chi phỉ thời gian thực thuật toán giảm chiều trường hợp văn bán tách thành từ 'ỊtSi >ỉiỴíịtĩl ttiì t 1^3 v ^ * _ L S | _ ! h p h ú l C e n tr o id g i â y O r th o g o n a l C e n tr o id 10 g iâ y g iâ y _ ~ 5.3.2 Văn đư ợc tách thành âm tiết ■ Từ data train sau loại bỏ từ stop word từ có tần số nhỏ xây dựng dược từ điển gồm 4740 từ Bang Độ xác phân loại moi chuyên mục toàn tập liệu trường hợp văn bán tách t h n h âm tiết sử dụng thuật toán giam chiêu LSI/SVM 67 ỉ 1Sftffffii-' •/m m -: ' Q wmm ĩẫ ẵ B Ễ Ế Wm-iMÊmi ■ i f c ầ:MỂÈẾÊầi i n i i l i l I ;4 > - p L in e a r K in h d o a n h 98.58 9 9 19 6 (C = ) P h p lu ậ t 4 1 9 9 9 Thé thao 97.55 93.77 96 97.77 97.33 van hóa 94.89 93.87 97.27 97.61 96.56 96.78 94.84 83.94 96.56 93.57 96.94 93.11 95.22 87.62 96.18 88.53 86.23 96.67 96.96 95.68 95.20 V i tín h X ã h ộ i T ru n g I L: ii.W Uwhii’ Í P o l y ( d = ) Ị 96.77 b ìn h t >'• J^ Ỉ T » 1 ■■ S I K i •!' - ?V.• K in h d o a n h 8 9 9 6 P h p lu ậ t 4 7 9 9 9 Thê thao 5 9 7 9 2 V n 5 9 9 7 V i tin h 9 9 7 9 X ã 9 91 8 83702 7 9 9 h ó a h ộ i T ru n g b ìn h S ïv • ( / = l É M ■- - i l i N ị u' 9 9 0 Pháp luật 4 8 0 T h ê 5 6 3 8 2 Văn hóa 5 90.81 6 Vi tính 9 9 88.93 9 7 Xã hội 9 12.01 0 T ru n g b in h 7 85.09 8 31 d o a n h th a o ï ’ 8 K in h 1.5) ; -t - - - m Ê Ể ề W È Ể È ẫW B Ê Ê M f R B F l ■ :v ■ ’ 95.77 ^ 'j^ iT P S M n p a f i 'ã-fii'AM S&iaiỡitteớớ-.n2bS 1: / rJợ.-fc-.K - ỹ v oằW1 f " Bảng Độ xác phân loại mơi chuyền mục tồn tập liệu trường hợp văn bàn tách thành âm tiết sứ dụng thuật toán giảm chiều Centroid Orthogonal Centroid — Linear (C=10) P h p T h ê lu ậ t th a o — — ■EMmBBBaaa— 9 4 4 9 5 5 K in h d o a n h 2 ỉ 68 Ị 4 9 7 V i tín h 6 9 X ã 9 7 6 V ă n h ó a L r ' h ộ i T ru n g b in h 4 6 p p p f l p l l l f P Poly ( d = ) K in h d o a n h 8 8 P h p lu ậ t 4 9 th a o 5 1 V ã n h ó a 5 9 9 V i tín h 9 6 X 9 7 9 7 9 T ru n g : • : ĩỵ r " R B F ( / = ) 5~~ I h ê hội b ìn h '"■’".r" " il S? '.‘■'ĩẮụ,:Ặị ; K ín h d o a n h 8 98.58 8 P h p lu ậ t 4 9 9 T h ê th a o 5 3 3 V ă n 5 7 7 V i tín h 9 9 7 X ã 9 3 7 9 h ó a I L h ộ i T ru n g b in h Bảng Chi p hi thời gian huấn luyện phản loại sử dụng hàm nhân Polv (d -2 ) trường hợp vãn dược tách thành âm tiết ĩỴ Ịĩv m tm m ã iiợfij V i' f ỷ ^ d i ’ ‘ 9mif r w j i R p f r i i ! i | n ? S V M - F u ll (4 x ) 13 p h ú t S V M - L S I (3 0 x ) K = 0 S V M - C e n tr o id 11 g i â y 4 g iâ y S V M - O r th o g o n a l C e n tr o id 12 g iã y g ià y (6 x ) (6 x ) p h ú t 17 g ià y 15 g iâ y p h ú t g iâ y p h ú t g iâ y Báng Chi p hi thời gian thực thuật toán giám chiều trường hợp vân tách thành âm tiết ■ 1| ị ỉ ị ' : ì Ị \ i f i | ỉ Ị ; t ị ; ổ L S I C e n tr o id O r th o g o n a l C e n tr o id '■ ỵm m lh 5 g iâ y g iâ y 69 p h u t m m iïïi :■ ' i f ' Kết luận ■ Các kết đạt đirợc luận văn Phân loại văn bán tiếng Việt hài toán quan trọng xứ lý văn Luận ván dã trình bày tông quan tiếp cận phân loại văn bán trình bày chi tiểp thuật tốn phân loại Bayes, kNN, Centroid- based vector đặc biệt phương pháp Support Vector Machines trình bày chi tiết Bên cạnh dó giâm chiều đặc trưng hay tối ưu kích thước dừ liệu hướng nghiên cứu quan trọng nhầm giải lớp bải tốn có khối lượng liệu khơna lồ Luận văn trình bày tổng quan vấn đề tối ưu kích thước liệu tiếp cận Trong chúng tơi sâu vào trình bày tiếp cận Lantent semantic index, Centroid, Orthogonal Centroid, GSVD/LDA Trên sở đỏ cài đặt thử nghiệm đánh giá kết ứng dụns toán phân loại văn liếng Việt Qua báng so sánh kết quà ta thấy phương pháp Centroid, Orthogonal Centroid có kết quà tốt mà thời gian thực nhiều nhiều so với sử dụng Lantent semantic index giảm chiều đặc trưng Kết độ phân loại xác hai trườns hạp dựa vào đặc điểm tiếng Việt (âm tiết từ) xấp xỉ tương đương điều chứng tỏ bỏ qua toán tách từ văn tiếng Việt bằne, cách tách văn theo âm tiết giống vãn tiếng Anh kết quà phân loại văn tiếng Việt vần cho két quà tốt Hướng nghiên cứu Thử nghiệm phân loại SVM kết hợp với phương pháp giảm chiều dựa vào đặc điểm khác cùa văn tiếng Việt có nhiều tri thức biểu diễn văn theo cú pháp hay cụm từ văn bàn tiếng Việt 70 Tài liệu tham khảo rv > • • * J•Ấ I MA I r lieu tieng v^iet Nguyễn Ngọc Bình (2004), Dùng lý thuyết tập thỏ vả kỹ thuật khác dế phàn loại, phân cụm văn ban tiếng Việt, ICT.rda’04, Hà nội 2- Đỗ Bích Diệp (2004), Phân loại vân bán dựa mỏ hình đị thị, Luận văn cao hoc, Trường Đại học Tông họp New South Wales - Australia Nguyễn Linh Giang, Nguyễn Duy Hải (1999), “Mơ hình thống kê hình vị tiếng Việt ứng dụng”, Các cơng trình nghiên cửu , triển khai Cơng nghệ Thơng tin Viễn thơng , Tạp chí Bưu Viễn thơng, tr.61-67 Nguyễn Thị Minh Khuê (2005), Phân loại vân bàn Tiếng Việt phương pháp Support Vectơ Machine , Đồ án tốt nghiệp đại hợc, Trường Đai học Bách Khoa H Nội Đỗ Thanh Nghị (2005), Một thuật toán máy vector ho trợ đơn giàn nhanh chóng cho việc khai thác liệu, FA IR’05 D uong Thanh Tịnh (2005), Xây dựng hệ thống hỗ trợ tư vắn cho thương mại (điện từ , Luận văn cao học, Trưịug Đại học Cơng Nghệ Thơng Tin TPHCM Huỳnh Quyết Thắng, Đinh Thu Phương Thu (2005), Tiếp cận phương pháp học không giám sát học có giám sát với tốn phân lớp văn bón tiếng Việt vờ đề xuất cài tiến công thức tinh độ liên quan hai văn bủn mơ hình vector, Kỷ yếu Hội thảo ICT.rda’04, tr.251-261 Hà Nội Đ inh Thu Phương Thu, Hoàng Vĩnh Son, Huỳnh Quyết Thắng (2005), Phương án xây dựng tập mau cho toán phản lớp văn bán tiếng Việt: nguyền lý, gứài thuật, thừ nghiệm đánh giá kết quà, Bài báo gửi đăng Tạp chí khoa hv>vw.tw ocnm s.com /hooklet.htni 72