Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng việt

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯU TRƯỜNG HUY NGHIÊN CỨU CẢI TIẾN MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TỰ ĐỘNG VÀ ÁP DỤNG TRONG XỬ LÝ VĂN BẢN TIẾNG VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60 48 10 LUẬN VĂN THẠC SĨ HƯỚNG DẪN KHOA HỌC: PSG.TS NGUYỄN NGỌC BÌNH Hà Nội - 2008 MỤC LỤC Danh sách hình Danh sách bảng Danh sách từ viết tắt Bảng thuật ngữ Anh-Việt MỞ ĐẦU Cơ sở khoa học tính thực tiễn đề tài Phạm vi mục đính nghiên cứu để tài Bố cục cấu trúc luận văn CHƢƠNG - TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI VĂN BẢN 11 1.1 Tổng quan 11 1.2 Các bƣớc tốn phân loại văn 13 CHƢƠNG - BIỂU DIỄN VĂN BẢN TRONG PHÂN LOẠI VĂN BẢN 15 2.1 Các vector thuộc tính 15 2.2 Việc lựa chọn thuộc tính 16 2.2.1 Loại bỏ từ dừng 16 2.2.2 Xác định gốc từ 17 2.2.3 Lựa chọn thuộc tính 17 2.3 Một số phƣơng pháp lựa chọn thuộc tính phân loại văn 17 2.3.1 Ngƣỡng tần xuất văn (DF) 17 2.3.2 Lợi ích thông tin (IG) 18 2.3.3 Thông tin tƣơng hỗ (MI) 19 2.3.4 Thống kê Chi bình phƣơng  20 2.3.5 Cƣờng độ từ (TS) 21 2.3.6 Một số phƣơng pháp khác 22 2.4 Tổng kết chƣơng 22 CHƢƠNG - CÁC PHƢƠNG PHÁP PHÂN LOẠI VĂN BẢN TRUYỀN THỐNG 24 3.1 Phƣơng pháp Rocchio 24 3.2 Phƣơng pháp k- Nearest Neighbour 24 3.3 Phƣơng pháp Naïve Bayes (NB) 25 3.4 Phƣơng pháp Linear Least Square Fit- LLSF 27 3.5 Phƣơng pháp Centroid- based vector 28 3.6 Phƣơng pháp SVM- Support Vector Machine 28 3.7 Một số phƣơng pháp khác 32 3.8 Phƣơng pháp đánh giá 32 3.9 Tổng kết chƣơng 33 CHƢƠNG - PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 35 4.1 Tiếng Việt số đặc điểm tiếng Việt 35 4.1.1 Cấu trúc từ tiếng Việt 35 4.1.2 So sánh tiếng Việt tiếng Anh 37 4.2 Bài toán phân loại văn tiếng Việt 38 4.3 Vấn đề tách từ văn tiếng Việt 39 4.3.1 Tách từ văn tiếng Việt dựa từ 40 4.3.2 Tách từ văn tiếng Việt dựa ký tự 41 4.3.3 Một số phƣơng pháp tách từ văn tiếng Việt 41 4.4 Thực nghiệm kết 47 4.5 Tổng kết chƣơng 51 CHƢƠNG - ỨNG DỤNG PHÂN CỤM TRONG CẢI TIẾN PHÂN LOẠI VĂN BẢN 53 5.1 Giới thiệu 53 5.2 Phân cụm liệu 54 5.3 Một số phƣơng pháp phân loại văn sử dụng phân cụm 56 5.3.1 Phƣơng pháp 56 5.3.2 Phƣơng pháp 58 5.3.3 Phƣơng pháp 61 5.4 Nhận xét 64 5.5 Thực nghiệm kết thực nghiệm 65 5.6.Tổng kết chƣơng 68 CHƢƠNG - CẢI TIẾN GIẢI THUẬT CHIẾT XUẤT THUỘC TÍNH NHĨM XÂU CON CHÍNH VÀ ÁP DỤNG TRONG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 70 6.1 Giới thiệu 70 6.2 Cây hậu tố 71 6.3 Thuộc tính nhóm xâu 73 6.3.1 Các nhóm xâu 74 6.3.2 Các nhóm xâu 75 6.4 Thuật toán 77 6.5 Nhận xét đề xuất cải tiến thuật tốn chƣơng trình 79 6.6 Thực nghiệm kết 80 6.7 Tổng kết chƣơng 83 CHƢƠNG - CÁC CỘNG CỤ HỖ TRỢ VÀ CÁC CHƢƠNG TRÌNH 85 7.1 Công cụ chiết xuất nội dung từ web-site báo điện tử 85 7.2 Chƣơng trình phân đoạn từ tiếng Việt tạo ma trận thuộc tính 88 7.3 Cơng cụ chiết xuất thuộc tính KSG đƣa ma trân thuộc tính 91 7.4 Công cụ mở rộng tập liệu kết hợp phân cụm 93 7.5 Phân lọai văn sử dụng thƣ viện LibSVM 93 7.6 Công cụ phân loại theo phƣơng pháp kNN Centroid based vector 94 KẾT LUẬN 96 Nhận xét chung 96 Hƣớng phát triển 98 Tài liệu tham khảo 100 PHỤ LỤC A: Phân tích thiết kế chƣơng trình phân loại văn tự động sử dụng thuộc tính nhóm xâu 103 Yêu cầu chƣơng trình 103 Phân tích 103 2.1 Mơ hình ca sử dụng 103 2.2 Biểu đồ hệ thống mơ hình khái niệm 104 Thiết kế 106 3.1 Thao tác tập ngữ liệu 106 3.2 Xử lý thuộc tính xâu 108 3.3 Phân loại văn phƣơng pháp SVM 110 Cài đặt chƣơng trình 111 PHỤ LỤC B: Cấu trúc đĩa CD kèm 113 PHỤ LỤC C: Chia liệu, cơng cụ chƣơng trình liên quan 114 Chỉ mục từ 116 Danh sách hình Hình 1-1: Các bƣớc phân loại văn 13 Hình 1-2: Mơ hình học máy 14 Hình 2-1: Biểu diễn văn vector thuộc tính 15 Hình 3-1: SVM với siêu phẳng phân chia hai nhóm liệu mẫu 29 Hình 4-1: Tình hình tốn tách từ tiếng Việt 40 Hình 5-1: Phân loại kết hợp phân cụm 54 Hình 5-2: Thuật tốn phân loại văn sử dụng phân cụm Zeng, H.J 60 Hình 5-3: Thuật tốn phân loại văn sử dụng phân cụm Kyriakopoulou, A 63 Hình 5-4: Biểu đồ so sánh độ xác theo tỷ lệ tập huấn luyên 68 Hình 6-1: Cây hậu tố 72 Hình 6-2: Thuật tốn chiết xuất thuộc tính nhóm xâu 77 Hình 7-1: Minh họa nội dung báo trang web 85 Hình 7-2: Giao diện công cụ chiết xuất nội dung 86 Hình 7-3: Minh họa kết phân chia liệu cho k-fold cross validation 87 Hình 7-4: Minh họa cấu trúc thƣ mục đầu vào chƣơng trình phân đoạn từ tiếng Việt tạo ma trận thuộc tính 88 Hình A-1: Biểu đồ ca sử dụng 104 Hình A-2: Biểu đồ hệ thống 105 Hình A-3: Mơ hình khái niệm hệ thống 106 Hình A-4: Biểu đồ lớp ca sử dụng thao tác corpus 107 Hình A-5: Biểu đồ ca sử dụng thao tác corpus 107 Hình A-6: Biểu đồ lớp KSG 109 Hình A-7: Biểu đồ KSG 109 Hình A-8: Biểu đồ lớp SVM 110 Hình A-9: Biểu đồ SVM 111 Danh sách bảng Bảng 3-1: Kết thực nghiệm T Joachims, so sánh phƣơng pháp SVM với số phƣơng pháp khác Corpus Reuters 31 Bảng 4-1: Cấu trúc âm tiết tiếng Việt 35 Bảng 4-2: So sánh tiếng Việt Tiếng anh 37 Bảng 4-3: Thống kế nguồn gốc liệu corpus 49 Bảng 4-4: Thống kê liệu corpus cho nhóm văn 50 Bảng 4-5: Kết phân loại sử dụng số phƣơng pháp truyền thống 51 Bảng 5-1: Kết thực nghiệm phân lọai sử dụng phân cụm 67 Bảng 6-1: Sự phụ thuộc số thuộc tính KSG với tham số đầu vào 81 Bảng 6-2: Kết sử dụng hàm nhân tuyến tính hàm nhân RBF 82 Bảng 6-3: So sánh phƣơng pháp SVM SVM+KSG 83 Bảng A-1: Danh sách ca sử dụng 104 Bảng A-2: Ánh xạ lớp thiết kế file cài đặt 111 Danh sách từ viết tắt Từ viết tắt Từ gốc ARAM Adaptive Resonance Associative Map CBC Clustering Based Text Classification Conf Confidence Weight CSDL Cơ sở liệu DF Document Frequency FSM Finite State Machine GA Genetics Algorithm HMM Hiden Markov Model IDF Inverse Document Frequency IG Information Gain kNN k- Nearest Neighbour KSG Key SubString Group LLSP Linear Least Square Fit LRMM Left Right Maximum Matching MI Mutual Information MM Maximum Matching MM Maximum Entropy NB Naïve Bayes NLP Natual Language Processing POS Part Of Speed SVM Support Vector Machine TBL Transformation based learning TC Text Categorization TF Term Frequency TM2 Second Moment of Term TS Term Strength TSVM Transductive Support Vector Machine WFST Weight Finite State Transducer Bảng thuật ngữ Anh-Việt Tiếng Anh Tiếng Việt Bioinfomatics Tin sinh học Centroid Trọng tâm Context predicate Thành phần ngữ cảnh Corpus Tập ngữ liệu Co-training Đồng huấn luyện Data clustering Phân cụm liệu Data mining Khai phá liệu Discriminative learning Học phân biệt Empirical risk minimization Tối thiểu hóa rủi ro thực nghiệm Fard clustering Phân cụm cứng Feature Thuộc tính Feature selection Lựa chọn thuộc tính Generative learning Học suy diễn Incremental clustering Phân cụm bổ sung Incremental supervised learning Học có giám sát bổ sung Inductive learning Học quy nạp Key sub-string group Nhóm xâu Key-substring group feature Thuộc tính nhóm xâu Machine Learning Học máy Mutual information Thơng tin tƣơng hỗ Pattern regconition Nhận dạng mẫu Reinforcement Learning Học củng cố Stop word Từ dừng Suffix tree Cây hậu tố Syllable Âm tiết Unseen new document Văn cần đoán nhận Word clustering Phân cụm theo từ Word stemming Xác định từ gốc MỞ ĐẦU Cơ sở khoa học tính thực tiễn đề tài Từ Internet đời, chứng kiến phát triển không ngừng số lƣợng thông tin trực tuyến Internet Nếu xem World Wide Web nhƣ Cơ sở liệu-CSDL, CSDL khổng lồ, hỗn tạp đa phƣơng tiện, nhiên số có 80% lƣợng thơng tin dƣới dạng văn Với CSDL lớn nhƣ thế, việc tìm kiếm thơng tin khơng đạt kết nhƣ mong muốn, thông tin tồn Phân loại văn cơng cụ hữu hiệu để làm giảm bớt nhƣng khó khăn tìm kiếm thơng tin, cơng cụ quan trọng việc quản lý, tổ chức xếp thông tin Phân loại văn tự động tác vụ tự động xác định tài liệu (dạng văn dạng ngôn ngữ tự nhiên) thuộc hạng mục đƣợc định trƣớc Phân loại văn quan trọng đƣợc sử dụng nhiều ứng dụng nhƣ lọc văn (text filtering), tổ chức tài liệu, chống spam mail Trong nhƣng năm cuối thập niên 90, kỷ trƣớc năm đầu kỷ 21, nhiều phƣơng pháp nhƣ thuật toán đƣợc giới thiệu để giải toán đặc biệt cho tiếng Anh (hay số ngôn ngữ Âu Ấn gần với tiếng Anh tiếng Đức, Pháp…) Đối với số ngôn ngữ châu Á nhƣ tiếng Việt, tiếng Trung, tiếng Nhật tiếng Hàn, tốn trở nên khó khăn tính chất đặc thù ngơn ngữ Ở Việt Nam, tốn xử lý ngơn ngữ tự nhiên, dịch tự động, tìm kiếm, tóm tắt, phân loại văn đƣợc nhà nƣớc, viện nghiên cứu, trƣờng đại học công ty công nghệ thông tin quan tâm, đầu tƣ nghiên cứu có nhƣng thành định rõ rệt Trong luận văn mình, tơi xin chọn hƣớng nghiên cứu cải tiến số phƣơng pháp phân loại văn tự động áp dụng xử lý văn tiếng Việt, có thừa kế kết có giới Việt Nam, để nâng cao độ xác hiệu với khía cạch đặc thù tiếng Việt với mong muốn góp phần sức lực cho vấn đề nêu nƣớc nhà Phạm vi mục đính nghiên cứu để tài Luận văn tập trung chủ yếu tập trung vào vấn đề sau: - Tìm hiểu tốn phân loại văn tự động số thuật toán tiêu biểu đƣợc đánh giá hiệu giới nhƣ SVM (Support Vector Machine), kNN (k- Nearest Neighbor), Nạve Bayes… - Tìm hiểu tốn phân loại văn tiếng Việt, với vấn đề sau: + Thuận lợi khó khăn + Đặc điểm tiếng Việt, cấu trúc từ tiếng Việt + Vấn đề phân đoạn từ tiếng Việt, Vietnamese word segmentation, vấn đề tập ngữ liệu tiếng Việt (Vietnamese corpus) … + Áp dụng số thuật toán vào toán phân loại văn tiếng Việt + Cài đặt cơng cụ thuật tốn liên quan + Thực nghiệm kết thực nghiệm phân loại văn tiếng Việt sử dụng số thuật toán tiêu biểu - Nghiên cứu số hƣớng cải tiến phân loại văn phù hợp với bối cảnh Việt Nam tiếng Việt + Sử dụng phân cụm phân loại văn + Sử dụng thuộc tính nhóm xâu phân loại văn + Cài đặt cơng cụ thuật tốn liên quan + Thực nghiệm kết thực nghiệm Bố cục cấu trúc luận văn Luận văn đƣợc cấu trúc nhƣ sau - Chƣơng 1: Trình bày tổng quan phân loại văn - Chƣơng 2: Trình bày vấn đề biểu diễn văn phân loại văn dƣới dạng vector thuộc tính, số phƣơng pháp giảm kích thƣớc khơng gian thuộc tính nhƣ sử dụng danh sách từ dừng, tìm gốc từ, vấn đề trọng số phƣơng pháp lựa chọn thuộc tính - Chƣơng 3: Trình bày phƣơng pháp phân loại văn truyền thống - Chƣơng 4: Áp dụng phân loại văn tiếng Việt, đặc điểm tiếng Việt, so sánh với ngôn ngữ khác, thực nghiệm kết thực nghiệm cho toán phân loại tiếng Việt 104 Bảng A-1: Danh sách ca sử dụng STT Ca sử dụng Corpus Mô tả Xử lý corpus, duyệt đệ quy thƣ mục tập ngữ liệu, đƣa văn vào danh sách tập ngữ liệu Biểu diễn corpus dƣới dạng hậu tố, lựa KSG chọn, chiết xuất thuộc tính xâu sử dụng cấu trúc liệu hậu tố đƣa ma trận thuộc tính với trọng số tính theo TF-IDF SVM Phân loại văn sử dụng phƣơng pháp SVM, sử dụng thƣ viện LIBSVM Hình A-1: Biểu đồ ca sử dụng 2.2 Biểu đồ hệ thống mơ hình khái niệm Biểu đồ hệ thống đƣợc trình bày Hình A-2 105 System : Users Corpus, Parametters for KSG Feature Selection Matrices of KSG Features Train the classifier Modeled Classifier Predict testing documents Predicted results Hình A-2: Biểu đồ hệ thống Mơ hình khái niệm  Tác nhân: Ngƣời sử dụng chƣơng trình phân loại văn tự động  Lớp giao diện: o CGuiConsole, lớp giao diện theo console cho phép ngƣời dụng thực câu lênh chƣơng trình nhƣ chiết xuất thuộc tính xâu chính, thực việc huấn luyện kiểm thử cho việc phân loại văn  Lớp điều khiển: o CKSG: Thực thao tác chuyển từ corpus sang câu hậu tố, lựa chọn chiết xt thuộc tính nhóm xâu chính, chuyển dạng ma trận thuộc tính tƣơng thích với đầu vào SVM o CSVM: Thực việc chuẩn hóa liệu, huấn luyện, kiểm thử dự đoán phân loại văn  Lớp thực thể: CCorpus, lƣu thông tin, cấu trúc liệu corpus  Sơ đồ liên kết: 106 CGuiConsole Users (f rom VNTC_KSG) CKSG CCorpus (f rom VNTC_KSG) (f rom VNTC_KSG) Feature matrix files CSVM (f rom VNTC_KSG) Hình A-3: Mơ hình khái niệm hệ thống Thiết kế 3.1 Thao tác tập ngữ liệu Xác định lớp thiết kế Lớp phân tích CCorpus Lớp thiết kế Mô tả Corpus Lƣu trữ xử lý tập ngữ liệu, C++ class Document IniFile Biểu đổ lớp Lƣu cấu trúc văn , C++ class Xử lý file Ini, Đọc tham số từ file Ini, C++ class 107 Biểu đồ lớp Corpus với biến hàm lớp thiết kế đƣợc thể nhƣ Hình A-4 Hình A-4: Biểu đồ lớp ca sử dụng thao tác corpus Biểu đồ tuần tự: : Corpus : IniFile : Document GetSection( ) GetValue( ) Corpus (String) Recurs iveScanPath( ) GetValue( ) GetType(Integer) SetType( ) GetID(Integer) SetCatID( ) GetFullPath(Integer) SetFileName( ) Hình A-5: Biểu đồ ca sử dụng thao tác corpus 108 3.2 Xử lý thuộc tính xâu Xác định lớp thiết kế Lớp phân tích Lớp thiết kế SuffixTree Mơ tả Xử lý cấu trúc liệu hậu tố, chuyển corpus sang hậu tố, C++ class Thực việc chiết KSG CKSG xuất thuộc tính nhóm xâu , C++ class Khơng gian thuộc tính nhóm xâu FeatureSpace chun ma trận thc tính cho tập huấn luyện tập kiểm thử, C++ class Feature Biểu đồ lớp Lƣu cấu trúc thuộc tính, C++ class 109 Hình A-6: Biểu đồ lớp KSG Biểu đồ : GuiConsole : KSG : SuffixTree : Corpus : FeatureSpace : Users SetCorpusMode( ) SetParameters( ) ExtractKSGFeature( ) ExtractKsgFromCorpusFolder( ) stree_new_tree( ) Corpus(String) GetDataFromCorpusFile(Integer) Document Text stree_add_string( ) stree_get_ident( ) UpdateFeatureSpace( ) GetWeight( ) ExportToSVMMatrices( ) SVM Training & Testing Matrices Show status Show status Hình A-7: Biểu đồ KSG : Feature 110 3.3 Phân loại văn phƣơng pháp SVM Xác định lớp thiết kế Lớp phân tích CSVM Lớp thiết kế Mơ tả SVM Giao tiếp với thƣ viện LIBSVM qua Interface, C++ class GuiConsole LibSVM Giao diện sử dụng, qua console Interface thƣ viện LIBSVM, C++ Header files, DLL files Biểu đồ lớp: Hình A-8: Biểu đồ lớp SVM Biểu đồ 111 : GuiConsol e : SVM : Li bSVM : Users Scale( ) Scale( ) Scale( ) Scaled feature m atri x Scaled feature m atri x Scaled feature m atri x T rain( ) T rain( ) T rain( ) Modeled Classifer Modeled Classifer Modeled Classifer Predict Predict( ) Predict( ) Cl assi fi ed results Cl assi fi ed results Cl assi fi ed results Hình A-9: Biểu đồ SVM Cài đặt chƣơng trình Chƣơng trình đƣợc cài đặt ngơn ngữ C++ môi trƣờng phát triển Visual Studio NET 2005 Mã nguồn đƣợc chia sẻ tải xuống từ trang web http://vietnamese-tc.sourceforge.net/ Chƣơng trình sử dụng file ini để thiết lập tham số đầu vào, cấu trúc thƣ mục tập ngữ liệu định tập huấn luyện nhƣ kiểm thử Bảng A-2: Ánh xạ lớp thiết kế file cài đặt Lớp IniFile File IniFile.h IniFile.cpp Mô tả File header xử lý file ini cấu hình chƣơng trình Cải đặt thao tác đọc nghi file ini 112 Corpus SuffixTree KSG Corpus.h File header corpus Corpus.cpp File cài đặt thao tác corpus stree.h FeatureSpace tố stree.cpp Cài đặt thao tác hậu tố Ksg.h File header Ksg.cpp Main.cpp SVM File header thao tác liệu hậu Lựa chiết xuất thuộc tính nhóm xâu Chƣơng trình chính, giao diện thao tác với ngƣời sử dụng Svm.h File header thƣ viện LIBSVM Svm.cpp Interface thao tác với thƣ viện LIBSVM FeatureSpace.h File header Khơng gian thuộc tính FeatureSpace.cpp Khơng gian thuộc tính 113 PHỤ LỤC B: Cấu trúc đĩa CD kèm Đĩa CD kèm theo luận văn có cấu trúc nhƣ sau: Documents # Luận văn -Thesis -Reference Corpus # Danh sách tài liệu tham khảo # Lƣu trữ tập ngữ liệu tiếng Việt -HTML # Lƣu trữ dƣới dạng HTML -Txt-UTF8 # Dạng txt UTF-8 Programs # Lƣu chƣơng trình, cơng cụ phát triển -DocumentExtractor -vntextprepro # Chƣơng trình chiết xuất nội dung # Chƣơng trình tiền xử lý văn tiếng Việt, tách từ, sinh ma trận thuộc tính, tính trọng số -vnksg # Chƣơng trình chiết xuất thuộc tính nhóm xâu sinh ma trận thuộc tính, tính trọng số -DataExpansion # Chƣơng trình mở rộng liệu dùng cho phƣơng pháp clustering -kNN # Chƣơng trình phân loại theo thuật tốn kNN -Centroid Based # Chƣơng trình phân loại theo thuật toán Centroid based ExperimentResults # Lƣu kết thực nghiệm -Traditional Methods # Thực nghiệm kết thực nghiệm phƣơng pháp truyền thống -Clustering # Thực nghiệm kết thực nghiệm phƣơng pháp sử dụng phân cụm -KSG # Thực nghiệm kết thực nghiệm phƣơng pháp sử dụng thuộc tính nhóm xâu 114 PHỤ LỤC C: Chia liệu, công cụ chƣơng trình liên quan Tập ngữ liệu cơng cụ chƣơng trình liên quan luận văn đƣợc đƣa lên website sau: http://vietnamese-tc.sourceforge.net/ Corpus chƣơng trình đƣợc khuyến cáo sử dụng cho mục định nghiên cứu, cần tham chiếu đến tác giả Tác giả không chụi trách nhiệm với lỗi sử dụng, hay lỗi ảnh hƣớng đến chƣơng trình khác cài đặt sử dụng Nội dung trang web bao gồm: Corpus thống kê nguồn gốc corpus Copus đƣợc sƣu tầm từ website báo điện phổ biến Việt Nam, nhiều lĩnh vực để đảm bào tính cân cho từ vựng Corpus đƣợc kèm theo thông tin thống kê nguồn gốc số lƣợng file văn tƣơng ứng với nhóm văn Corpus có dung lƣợng 40M, gồm 10 nghìn văn đƣợc chia làm 10 nhóm Các cơng cụ chƣơng trình i) Cơng cụ chiết xuất nội dung từ site báo điện tử, config để tự động lấy tin, chiết xuất nội dung, chuyển đổi định dạng sang dạng text, có kèm theo chức tự động chia liệu cho k-fold cross validation Chƣơng trình đƣợc viết ngơn ngữ C#.NET 2.0 ii) Chƣơng trình phân đoạn từ tiếng việt đƣa ma trận thuộc tính với số đƣợc tính theo TFIDF, tƣơng thích với SVMLight, http://www.svmlight.joachims.org LibSVM, http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Chƣơng trình đƣợc viết ngơn ngữ Java, có sử dụng mở rộng từ chƣơng trình JVNSegmentor, http://jvnsegmenter.sourceforge.net/, tác giả Phan Xuân Hiếu iii) Chƣơng trình chiết xuất thuộc tính nhóm xâu chính, có xử lý Unicode đƣa ma trận thuộc tính với số đƣợc tính theo TFIDF, 115 tƣơng thích với SVMLight , http://www.svmlight.joachims.org LibSVM, http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Chƣơng trình cài đặt, mở rộng cải tiến thuật toán chiết xuất thuộc tính nhóm xâu chính, viết ngơn ngữ C++ iv) Chƣơng trình phân loại văn cài đặt thuật tốn kNN Centroid based Vector v) Chƣơng trình mở rộng tập liệu sử dụng phân cụm, chƣơng trình phân loại văn sử dụng phân cụm Chƣơng trình có sử dụng thƣ viện phân cụm liệu CLUTO, http://glaros.dtc.umn.edu/gkhome/views/cluto/ 116 Chỉ mục từ Adaptive Resonance Associative Map Dữ liệu kiểm thử, 47 Gốc từ, 16, 17 ARAM, 32 Âm tiết, 35, 37, 41, 45 Hàm nhân, 82 Hậu tố, 38 Bảng ngẫu nhiên, 19, 20 Biểu diễn văn bản, 15 Bộ từ vựng, 19 Cấu trúc từ tiếng Việt, 9, 35 Hệ chuyên gia, 11 Hệ tọa độ trực giao, 22 Heuristic, 11 Học không giám sát, 12 Cây hậu tố, 71, 80 Học máy, 11, 14, 15, 54 Cây hậu tố tập ngữ liệu, 73 Cây định, 12 Centroid Based Vector, 48, 51 Học máy thống kê, 73 Huấn luyện, 15 Internet, 8, 11 Chiều sâu theo xâu nút, 72 Chọn thuộc tính, 13, 14 Intranet, 11 Kết phân loại, 16 Cơ sở liệu, Common Random Fields, 45 Khai phá liệu, 54 Không gian thuộc tính, 12, 16, 17, Cơng cụ chiết xuất nội dung, 47 Cƣờng độ từ, 21 Đặc điểm tiếng Việt, 9, 35 22, 56, 58, 73 Không gian vector, 17 Khớp xác, 71 Dấu thanh, 35 Khớp khơng xác, 71 Dịch tự động, Độ bao Recall, 32 Độ xác kNN, 9, 12, 48, 51, 53 k-way clustering, 62 Kỹ sƣ trí thức, 11 Kỹ thuật kiểm tra chéo Precision, 32 K-Fold cross validation, 47 Độ phức tạp nhớ, 19 Độ phức tạp thời gian, 19, 79 Latent Semantic Indexing, 22 LIBSVM, 48, 94 Dữ liệu gán nhãn, 53 Liên kết hậu tố, 73 Dữ liệu huấn luyện, 47 LLFS, 12 117 Lọc quản lý tài ngun, 11 Lợi ích thơng tin, 18 (IG), 14 IG, 18 Phân loại văn theo chủ đề, 12 Phân loại văn theo ngữ nghĩa, 12 Phân loại văn tiếng Việt, 9, 39, Lựa chọn thuộc tính, 14, 16, 17 Mạng chuyển dịch trạng thái hữu hạn có trọng số 79 Phân loại văn tự động, Phân tích ảnh, 54 WFST, 42 Mạng Neutral, 12 Maximum Entropy, 32 Máy trạng thái hữu hạn Phụ âm, 35 Phƣơng pháp Centroid- based vector, 28 Phƣơng pháp k- Nearest Neighbour, FSM, 45 24 Naïve Bayes, 9, 12 N-gram, 41 Nguyên âm, 35 Phƣơng pháp khớp tối đa, 41 Phƣơng pháp Linear Least Square Fit, 27 Nhận dạng mẫu, 12, 54 Phƣơng pháp Naïve Bayes, 25 Nhãn đƣờng đi, 72 Phƣơng pháp Rocchio, 24 Nhóm xâu con, 74 Phƣơng pháp SVM, 28 Nhóm xâu chính, 75 Phƣơng pháp TBL, 42 Phân cụm, 9, 53 Phân cụm k-way clustering, 55 Phân cụm cứng, 56 Siêu phằng, 29 Siêu thuộc tính, 61, 62 meta-feature, 61 Phân cụm liệu, 54 SVM, 9, 12, 48, 51, 53, 82 Phân cụm kết hợp coclustering, 55 Phân cụm văn bản, 21 Phân đoạn liệu tuần tự, 45 Tách từ văn tiếng Việt, 39, 45 Tần suất từ TF, 18 Phân đoạn từ, 79 Phân đoạn từ tiếng Việt, 9, 47 Phân loại văn bản, 8, 11, 15 Tần suất văn bản, 14, 17 Tần suất văn ngƣợc, 18 Tạo mục, 13, 14 Phân loại văn không phụ thuộc Tập liệu gán nhãn, 12 vào ngôn ngữ, 79 Tập liệu gán nhãn mở rộng, 58 118 Tập huấn luyện, 18, 63 Tập luật, 11 Tiền xử lý, 13, 47 Tìm kiếm, Tập ngữ liệu tiếng Việt, Tìm kiếm thơng tin, 8, 15 Tập thử nghiệm, 63 Tin sinh học, 54 Tập văn huấn luyện, 17 TF-IDF, 18, 80 Thống kê Chi bình phƣơng, 20 Tóm tắt văn bản, Tri thức chuyên gia, 11 Trọng số tin cậy, 22 Thống kê dựa cơng cụ tìm kiếm Internet, 41 Thơng tin, Thơng tin tƣơng hỗ, 19 Trung bình Macro Macro average, 33 Trung bình Micro Micro average, 33 (MI), 14 Từ dừng, 16, 47 Thuật toán Adaboots, 32 Thuật toán Bầu cử, 32 Thuật toán di truyền, 43 Từ láy, 38 Từ tiếng Việt, 36 Từ tiếng Việt, 36 Thuật toán phân cấp, 54 Unigram, 41 Thuật toán phân vùng, 54 Văn huấn luyện, 21 Thuộc tính, 15, 16, 57 Vector thuộc tính, 53 Thuộc tính nhóm xâu chính, 9, World Wide Web, 73, 79 Tiền tố, 38 Xác suất điều kiện, 19 Xử lý ngôn ngữ tự nhiên, 8, 15, 37 ... tốn phân loại văn tiếng Việt khơng phải ngoại lệ Ở đây, định nghĩa toán phân loại văn tiếng Việt toán phân loại văn tự động, văn tiếng Việt dạng ngôn ngữ tự nhiên 4.3 Vấn đề tách từ văn tiếng Việt. .. nhƣng thành định rõ rệt Trong luận văn mình, tơi xin chọn hƣớng nghiên cứu cải tiến số phƣơng pháp phân loại văn tự động áp dụng xử lý văn tiếng Việt, có thừa kế kết có giới Việt Nam, để nâng cao... toán phân loại văn tiếng Việt với thực nghiệm liên quan đƣợc thực trình bày chƣơng sau 35 CHƢƠNG - PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 4.1 Tiếng Việt số đặc điểm tiếng Việt Tiếng Việt loại hình ngơn

Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng việt

Thông tin tài liệu

Từ khóa liên quan

Mục lục

MỤC LỤC

Danh sách các hình

Danh sách bảng

Danh sách từ viết tắt

Bảng thuật ngữ Anh-Việt

MỞ ĐẦU

1. Cơ sở khoa học và tính thực tiễn của đề tài.

2. Phạm vi và mục đính nghiên cứu của để tài

3. Bố cục và cấu trúc của luận văn

1.1. Tổng quan

1.2. Các bƣớc chính trong bài toán phân loại văn bản

2.1. Các vector thuộc tính

2.2. Việc lựa chọn thuộc tính

2.2.1. Loại bỏ các từ dừng

2.2.2. Xác định gốc của từ

2.2.3. Lựa chọn thuộc tính

2.3.1. Ngƣỡng tần xuất văn bản (DF)

2.3.2. Lợi ích thông tin (IG)

2.3.3. Thông tin tƣơng hỗ (MI)

2.3.5. Cƣờng độ của từ (TS)

Tài liệu cùng người dùng

Tài liệu liên quan