Luận văn thạc sĩ nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng việt

119 1 0
Luận văn thạc sĩ nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯU TRƯỜNG HUY NGHIÊN CỨU CẢI TIẾN MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TỰ ĐỘNG VÀ ÁP DỤNG TRONG XỬ LÝ VĂN BẢN TIẾNG VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60 48 10 LUẬN VĂN THẠC SĨ HƯỚNG DẪN KHOA HỌC: PSG.TS NGUYỄN NGỌC BÌNH Hà Nội - 2008 z MỤC LỤC Danh sách hình Danh sách bảng Danh sách từ viết tắt Bảng thuật ngữ Anh-Việt MỞ ĐẦU Cơ sở khoa học tính thực tiễn đề tài Phạm vi mục đính nghiên cứu để tài Bố cục cấu trúc luận văn CHƢƠNG - TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI VĂN BẢN 11 1.1 Tổng quan 11 1.2 Các bƣớc tốn phân loại văn 13 CHƢƠNG - BIỂU DIỄN VĂN BẢN TRONG PHÂN LOẠI VĂN BẢN 15 2.1 Các vector thuộc tính 15 2.2 Việc lựa chọn thuộc tính 16 2.2.1 Loại bỏ từ dừng 16 2.2.2 Xác định gốc từ 17 2.2.3 Lựa chọn thuộc tính 17 2.3 Một số phƣơng pháp lựa chọn thuộc tính phân loại văn 17 2.3.1 Ngƣỡng tần xuất văn (DF) 17 2.3.2 Lợi ích thông tin (IG) 18 2.3.3 Thông tin tƣơng hỗ (MI) 19 2.3.4 Thống kê Chi bình phƣơng  20 2.3.5 Cƣờng độ từ (TS) 21 2.3.6 Một số phƣơng pháp khác 22 2.4 Tổng kết chƣơng 22 CHƢƠNG - CÁC PHƢƠNG PHÁP PHÂN LOẠI VĂN BẢN TRUYỀN THỐNG 24 3.1 Phƣơng pháp Rocchio 24 3.2 Phƣơng pháp k- Nearest Neighbour 24 3.3 Phƣơng pháp Naïve Bayes (NB) 25 3.4 Phƣơng pháp Linear Least Square Fit- LLSF 27 z 3.5 Phƣơng pháp Centroid- based vector 28 3.6 Phƣơng pháp SVM- Support Vector Machine 28 3.7 Một số phƣơng pháp khác 32 3.8 Phƣơng pháp đánh giá 32 3.9 Tổng kết chƣơng 33 CHƢƠNG - PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 35 4.1 Tiếng Việt số đặc điểm tiếng Việt 35 4.1.1 Cấu trúc từ tiếng Việt 35 4.1.2 So sánh tiếng Việt tiếng Anh 37 4.2 Bài toán phân loại văn tiếng Việt 38 4.3 Vấn đề tách từ văn tiếng Việt 39 4.3.1 Tách từ văn tiếng Việt dựa từ 40 4.3.2 Tách từ văn tiếng Việt dựa ký tự 41 4.3.3 Một số phƣơng pháp tách từ văn tiếng Việt 41 4.4 Thực nghiệm kết 47 4.5 Tổng kết chƣơng 51 CHƢƠNG - ỨNG DỤNG PHÂN CỤM TRONG CẢI TIẾN PHÂN LOẠI VĂN BẢN 53 5.1 Giới thiệu 53 5.2 Phân cụm liệu 54 5.3 Một số phƣơng pháp phân loại văn sử dụng phân cụm 56 5.3.1 Phƣơng pháp 56 5.3.2 Phƣơng pháp 58 5.3.3 Phƣơng pháp 61 5.4 Nhận xét 64 5.5 Thực nghiệm kết thực nghiệm 65 5.6.Tổng kết chƣơng 68 CHƢƠNG - CẢI TIẾN GIẢI THUẬT CHIẾT XUẤT THUỘC TÍNH NHĨM XÂU CON CHÍNH VÀ ÁP DỤNG TRONG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 70 6.1 Giới thiệu 70 6.2 Cây hậu tố 71 z 6.3 Thuộc tính nhóm xâu 73 6.3.1 Các nhóm xâu 74 6.3.2 Các nhóm xâu 75 6.4 Thuật toán 77 6.5 Nhận xét đề xuất cải tiến thuật toán chƣơng trình 79 6.6 Thực nghiệm kết 80 6.7 Tổng kết chƣơng 83 CHƢƠNG - CÁC CỘNG CỤ HỖ TRỢ VÀ CÁC CHƢƠNG TRÌNH 85 7.1 Cơng cụ chiết xuất nội dung từ web-site báo điện tử 85 7.2 Chƣơng trình phân đoạn từ tiếng Việt tạo ma trận thuộc tính 88 7.3 Cơng cụ chiết xuất thuộc tính KSG đƣa ma trân thuộc tính 91 7.4 Cơng cụ mở rộng tập liệu kết hợp phân cụm 93 7.5 Phân lọai văn sử dụng thƣ viện LibSVM 93 7.6 Công cụ phân loại theo phƣơng pháp kNN Centroid based vector 94 KẾT LUẬN 96 Nhận xét chung 96 Hƣớng phát triển 98 Tài liệu tham khảo 100 PHỤ LỤC A: Phân tích thiết kế chƣơng trình phân loại văn tự động sử dụng thuộc tính nhóm xâu 103 Yêu cầu chƣơng trình 103 Phân tích 103 2.1 Mơ hình ca sử dụng 103 2.2 Biểu đồ hệ thống mơ hình khái niệm 104 Thiết kế 106 3.1 Thao tác tập ngữ liệu 106 3.2 Xử lý thuộc tính xâu 108 3.3 Phân loại văn phƣơng pháp SVM 110 Cài đặt chƣơng trình 111 PHỤ LỤC B: Cấu trúc đĩa CD kèm 113 PHỤ LỤC C: Chia liệu, cơng cụ chƣơng trình liên quan 114 Chỉ mục từ 116 z Danh sách hình Hình 1-1: Các bƣớc phân loại văn 13 Hình 1-2: Mơ hình học máy 14 Hình 2-1: Biểu diễn văn vector thuộc tính 15 Hình 3-1: SVM với siêu phẳng phân chia hai nhóm liệu mẫu 29 Hình 4-1: Tình hình toán tách từ tiếng Việt 40 Hình 5-1: Phân loại kết hợp phân cụm 54 Hình 5-2: Thuật toán phân loại văn sử dụng phân cụm Zeng, H.J 60 Hình 5-3: Thuật tốn phân loại văn sử dụng phân cụm Kyriakopoulou, A 63 Hình 5-4: Biểu đồ so sánh độ xác theo tỷ lệ tập huấn luyên 68 Hình 6-1: Cây hậu tố 72 Hình 6-2: Thuật tốn chiết xuất thuộc tính nhóm xâu 77 Hình 7-1: Minh họa nội dung báo trang web 85 Hình 7-2: Giao diện cơng cụ chiết xuất nội dung 86 Hình 7-3: Minh họa kết phân chia liệu cho k-fold cross validation 87 Hình 7-4: Minh họa cấu trúc thƣ mục đầu vào chƣơng trình phân đoạn từ tiếng Việt tạo ma trận thuộc tính 88 Hình A-1: Biểu đồ ca sử dụng 104 Hình A-2: Biểu đồ hệ thống 105 Hình A-3: Mơ hình khái niệm hệ thống 106 Hình A-4: Biểu đồ lớp ca sử dụng thao tác corpus 107 Hình A-5: Biểu đồ ca sử dụng thao tác corpus 107 Hình A-6: Biểu đồ lớp KSG 109 Hình A-7: Biểu đồ KSG 109 Hình A-8: Biểu đồ lớp SVM 110 Hình A-9: Biểu đồ SVM 111 z Danh sách bảng Bảng 3-1: Kết thực nghiệm T Joachims, so sánh phƣơng pháp SVM với số phƣơng pháp khác Corpus Reuters 31 Bảng 4-1: Cấu trúc âm tiết tiếng Việt 35 Bảng 4-2: So sánh tiếng Việt Tiếng anh 37 Bảng 4-3: Thống kế nguồn gốc liệu corpus 49 Bảng 4-4: Thống kê liệu corpus cho nhóm văn 50 Bảng 4-5: Kết phân loại sử dụng số phƣơng pháp truyền thống 51 Bảng 5-1: Kết thực nghiệm phân lọai sử dụng phân cụm 67 Bảng 6-1: Sự phụ thuộc số thuộc tính KSG với tham số đầu vào 81 Bảng 6-2: Kết sử dụng hàm nhân tuyến tính hàm nhân RBF 82 Bảng 6-3: So sánh phƣơng pháp SVM SVM+KSG 83 Bảng A-1: Danh sách ca sử dụng 104 Bảng A-2: Ánh xạ lớp thiết kế file cài đặt 111 z Danh sách từ viết tắt Từ viết tắt Từ gốc ARAM Adaptive Resonance Associative Map CBC Clustering Based Text Classification Conf Confidence Weight CSDL Cơ sở liệu DF Document Frequency FSM Finite State Machine GA Genetics Algorithm HMM Hiden Markov Model IDF Inverse Document Frequency IG Information Gain kNN k- Nearest Neighbour KSG Key SubString Group LLSP Linear Least Square Fit LRMM Left Right Maximum Matching MI Mutual Information MM Maximum Matching MM Maximum Entropy NB Naïve Bayes NLP Natual Language Processing POS Part Of Speed SVM Support Vector Machine TBL Transformation based learning TC Text Categorization TF Term Frequency TM2 Second Moment of Term TS Term Strength TSVM Transductive Support Vector Machine WFST Weight Finite State Transducer z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Bảng thuật ngữ Anh-Việt Tiếng Anh Tiếng Việt Bioinfomatics Tin sinh học Centroid Trọng tâm Context predicate Thành phần ngữ cảnh Corpus Tập ngữ liệu Co-training Đồng huấn luyện Data clustering Phân cụm liệu Data mining Khai phá liệu Discriminative learning Học phân biệt Empirical risk minimization Tối thiểu hóa rủi ro thực nghiệm Fard clustering Phân cụm cứng Feature Thuộc tính Feature selection Lựa chọn thuộc tính Generative learning Học suy diễn Incremental clustering Phân cụm bổ sung Incremental supervised learning Học có giám sát bổ sung Inductive learning Học quy nạp Key sub-string group Nhóm xâu Key-substring group feature Thuộc tính nhóm xâu Machine Learning Học máy Mutual information Thông tin tƣơng hỗ Pattern regconition Nhận dạng mẫu Reinforcement Learning Học củng cố Stop word Từ dừng Suffix tree Cây hậu tố Syllable Âm tiết Unseen new document Văn cần đoán nhận Word clustering Phân cụm theo từ Word stemming Xác định từ gốc z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 MỞ ĐẦU Cơ sở khoa học tính thực tiễn đề tài Từ Internet đời, chứng kiến phát triển không ngừng số lƣợng thông tin trực tuyến Internet Nếu xem World Wide Web nhƣ Cơ sở liệu-CSDL, CSDL khổng lồ, hỗn tạp đa phƣơng tiện, nhiên số có 80% lƣợng thông tin dƣới dạng văn Với CSDL lớn nhƣ thế, việc tìm kiếm thơng tin khơng đạt kết nhƣ mong muốn, thông tin tồn Phân loại văn công cụ hữu hiệu để làm giảm bớt nhƣng khó khăn tìm kiếm thơng tin, cơng cụ quan trọng việc quản lý, tổ chức xếp thông tin Phân loại văn tự động tác vụ tự động xác định tài liệu (dạng văn dạng ngôn ngữ tự nhiên) thuộc hạng mục đƣợc định trƣớc Phân loại văn quan trọng đƣợc sử dụng nhiều ứng dụng nhƣ lọc văn (text filtering), tổ chức tài liệu, chống spam mail Trong nhƣng năm cuối thập niên 90, kỷ trƣớc năm đầu kỷ 21, nhiều phƣơng pháp nhƣ thuật toán đƣợc giới thiệu để giải toán đặc biệt cho tiếng Anh (hay số ngôn ngữ Âu Ấn gần với tiếng Anh tiếng Đức, Pháp…) Đối với số ngôn ngữ châu Á nhƣ tiếng Việt, tiếng Trung, tiếng Nhật tiếng Hàn, toán trở nên khó khăn tính chất đặc thù ngơn ngữ Ở Việt Nam, tốn xử lý ngơn ngữ tự nhiên, dịch tự động, tìm kiếm, tóm tắt, phân loại văn đƣợc nhà nƣớc, viện nghiên cứu, trƣờng đại học công ty công nghệ thông tin quan tâm, đầu tƣ nghiên cứu có nhƣng thành định rõ rệt Trong luận văn mình, xin chọn hƣớng nghiên cứu cải tiến số phƣơng pháp phân loại văn tự động áp dụng xử lý văn tiếng Việt, có thừa kế kết có giới Việt Nam, để nâng cao độ xác hiệu với khía cạch đặc thù tiếng Việt với mong muốn góp phần sức lực cho vấn đề nêu nƣớc nhà z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Phạm vi mục đính nghiên cứu để tài Luận văn tập trung chủ yếu tập trung vào vấn đề sau: - Tìm hiểu toán phân loại văn tự động số thuật toán tiêu biểu đƣợc đánh giá hiệu giới nhƣ SVM (Support Vector Machine), kNN (k- Nearest Neighbor), Nạve Bayes… - Tìm hiểu toán phân loại văn tiếng Việt, với vấn đề sau: + Thuận lợi khó khăn + Đặc điểm tiếng Việt, cấu trúc từ tiếng Việt + Vấn đề phân đoạn từ tiếng Việt, Vietnamese word segmentation, vấn đề tập ngữ liệu tiếng Việt (Vietnamese corpus) … + Áp dụng số thuật toán vào toán phân loại văn tiếng Việt + Cài đặt cơng cụ thuật tốn liên quan + Thực nghiệm kết thực nghiệm phân loại văn tiếng Việt sử dụng số thuật toán tiêu biểu - Nghiên cứu số hƣớng cải tiến phân loại văn phù hợp với bối cảnh Việt Nam tiếng Việt + Sử dụng phân cụm phân loại văn + Sử dụng thuộc tính nhóm xâu phân loại văn + Cài đặt cơng cụ thuật tốn liên quan + Thực nghiệm kết thực nghiệm Bố cục cấu trúc luận văn Luận văn đƣợc cấu trúc nhƣ sau - Chƣơng 1: Trình bày tổng quan phân loại văn - Chƣơng 2: Trình bày vấn đề biểu diễn văn phân loại văn dƣới dạng vector thuộc tính, số phƣơng pháp giảm kích thƣớc khơng gian thuộc tính nhƣ sử dụng danh sách từ dừng, tìm gốc từ, vấn đề trọng số phƣơng pháp lựa chọn thuộc tính - Chƣơng 3: Trình bày phƣơng pháp phân loại văn truyền thống - Chƣơng 4: Áp dụng phân loại văn tiếng Việt, đặc điểm tiếng Việt, so sánh với ngôn ngữ khác, thực nghiệm kết thực nghiệm cho toán phân loại tiếng Việt z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 104 Bảng A-1: Danh sách ca sử dụng STT Ca sử dụng Corpus Mô tả Xử lý corpus, duyệt đệ quy thƣ mục tập ngữ liệu, đƣa văn vào danh sách tập ngữ liệu Biểu diễn corpus dƣới dạng hậu tố, lựa KSG chọn, chiết xuất thuộc tính xâu sử dụng cấu trúc liệu hậu tố đƣa ma trận thuộc tính với trọng số tính theo TF-IDF SVM Phân loại văn sử dụng phƣơng pháp SVM, sử dụng thƣ viện LIBSVM Hình A-1: Biểu đồ ca sử dụng 2.2 Biểu đồ hệ thống mơ hình khái niệm Biểu đồ hệ thống đƣợc trình bày Hình A-2 z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 105 System : Users Corpus, Parametters for KSG Feature Selection Matrices of KSG Features Train the classifier Modeled Classifier Predict testing documents Predicted results Hình A-2: Biểu đồ hệ thống Mơ hình khái niệm  Tác nhân: Ngƣời sử dụng chƣơng trình phân loại văn tự động  Lớp giao diện: o CGuiConsole, lớp giao diện theo console cho phép ngƣời dụng thực câu lênh chƣơng trình nhƣ chiết xuất thuộc tính xâu chính, thực việc huấn luyện kiểm thử cho việc phân loại văn  Lớp điều khiển: o CKSG: Thực thao tác chuyển từ corpus sang câu hậu tố, lựa chọn chiết xt thuộc tính nhóm xâu chính, chuyển dạng ma trận thuộc tính tƣơng thích với đầu vào SVM o CSVM: Thực việc chuẩn hóa liệu, huấn luyện, kiểm thử dự đoán phân loại văn  Lớp thực thể: CCorpus, lƣu thông tin, cấu trúc liệu corpus  Sơ đồ liên kết: z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 106 CGuiConsole Users (f rom VNTC_KSG) CKSG CCorpus (f rom VNTC_KSG) (f rom VNTC_KSG) Feature matrix files CSVM (f rom VNTC_KSG) Hình A-3: Mơ hình khái niệm hệ thống Thiết kế 3.1 Thao tác tập ngữ liệu Xác định lớp thiết kế Lớp phân tích CCorpus Lớp thiết kế Mô tả Corpus Lƣu trữ xử lý tập ngữ liệu, C++ class Lƣu cấu trúc văn , Document C++ class Xử lý file Ini, Đọc IniFile tham số từ file Ini, C++ class Biểu đổ lớp z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 107 Biểu đồ lớp Corpus với biến hàm lớp thiết kế đƣợc thể nhƣ Hình A-4 Hình A-4: Biểu đồ lớp ca sử dụng thao tác corpus Biểu đồ tuần tự: : Corpus : IniFile : Document GetSection( ) GetValue( ) Corpus (String) Recurs iveScanPath( ) GetValue( ) GetType(Integer) SetType( ) GetID(Integer) SetCatID( ) GetFullPath(Integer) SetFileName( ) Hình A-5: Biểu đồ ca sử dụng thao tác corpus z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 108 3.2 Xử lý thuộc tính xâu Xác định lớp thiết kế Lớp phân tích Lớp thiết kế SuffixTree Mô tả Xử lý cấu trúc liệu hậu tố, chuyển corpus sang hậu tố, C++ class Thực việc chiết xuất thuộc tính nhóm KSG xâu , C++ class CKSG Khơng gian thuộc tính nhóm xâu FeatureSpace chun ma trận thc tính cho tập huấn luyện tập kiểm thử, C++ class Lƣu cấu trúc Feature thuộc tính, C++ class Biểu đồ lớp z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 109 Hình A-6: Biểu đồ lớp KSG Biểu đồ : GuiConsole : KSG : SuffixTree : Corpus : FeatureSpace : Users SetCorpusMode( ) SetParameters( ) ExtractKSGFeature( ) ExtractKsgFromCorpusFolder( ) stree_new_tree( ) Corpus(String) GetDataFromCorpusFile(Integer) Document Text stree_add_string( ) stree_get_ident( ) UpdateFeatureSpace( ) GetWeight( ) ExportToSVMMatrices( ) SVM Training & Testing Matrices Show status Show status Hình A-7: Biểu đồ KSG z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 : Feature 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 110 3.3 Phân loại văn phƣơng pháp SVM Xác định lớp thiết kế Lớp phân tích Lớp thiết kế Mơ tả Giao tiếp với thƣ viện SVM CSVM GuiConsole LibSVM LIBSVM qua Interface, C++ class Giao diện sử dụng, qua console Interface thƣ viện LIBSVM, C++ Header files, DLL files Biểu đồ lớp: Hình A-8: Biểu đồ lớp SVM Biểu đồ z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 111 : GuiConsol e : SVM : Li bSVM : Users Scale( ) Scale( ) Scale( ) Scaled feature m atri x Scaled feature m atri x Scaled feature m atri x T rain( ) T rain( ) T rain( ) Modeled Classifer Modeled Classifer Modeled Classifer Predict Predict( ) Predict( ) Cl assi fi ed results Cl assi fi ed results Cl assi fi ed results Hình A-9: Biểu đồ SVM Cài đặt chƣơng trình Chƣơng trình đƣợc cài đặt ngôn ngữ C++ môi trƣờng phát triển Visual Studio NET 2005 Mã nguồn đƣợc chia sẻ tải xuống từ trang web http://vietnamese-tc.sourceforge.net/ Chƣơng trình sử dụng file ini để thiết lập tham số đầu vào, cấu trúc thƣ mục tập ngữ liệu định tập huấn luyện nhƣ kiểm thử Bảng A-2: Ánh xạ lớp thiết kế file cài đặt Lớp IniFile File Mô tả File header xử lý file ini cấu IniFile.h hình chƣơng trình Cải đặt thao tác đọc nghi file ini IniFile.cpp z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 112 Corpus SuffixTree KSG Corpus.h File header corpus Corpus.cpp File cài đặt thao tác corpus File header thao tác liệu hậu stree.h tố stree.cpp Cài đặt thao tác hậu tố Ksg.h File header Lựa chiết xuất thuộc tính nhóm Ksg.cpp xâu Chƣơng trình chính, giao diện thao Main.cpp SVM FeatureSpace tác với ngƣời sử dụng Svm.h File header thƣ viện LIBSVM Svm.cpp Interface thao tác với thƣ viện LIBSVM FeatureSpace.h File header Khơng gian thuộc tính FeatureSpace.cpp Khơng gian thuộc tính z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 113 PHỤ LỤC B: Cấu trúc đĩa CD kèm Đĩa CD kèm theo luận văn có cấu trúc nhƣ sau: Documents # Luận văn -Thesis -Reference # Danh sách tài liệu tham khảo # Lƣu trữ tập ngữ liệu tiếng Việt Corpus -HTML # Lƣu trữ dƣới dạng HTML -Txt-UTF8 # Dạng txt UTF-8 # Lƣu chƣơng trình, cơng cụ phát triển Programs # Chƣơng trình chiết xuất nội dung -DocumentExtractor -vntextprepro # Chƣơng trình tiền xử lý văn tiếng Việt, tách từ, sinh ma trận thuộc tính, tính trọng số -vnksg # Chƣơng trình chiết xuất thuộc tính nhóm xâu sinh ma trận thuộc tính, tính trọng số -DataExpansion # Chƣơng trình mở rộng liệu dùng cho phƣơng pháp clustering -kNN # Chƣơng trình phân loại theo thuật tốn kNN -Centroid Based # Chƣơng trình phân loại theo thuật toán Centroid based ExperimentResults # Lƣu kết thực nghiệm -Traditional Methods # Thực nghiệm kết thực nghiệm phƣơng pháp truyền thống -Clustering # Thực nghiệm kết thực nghiệm phƣơng pháp sử dụng phân cụm -KSG # Thực nghiệm kết thực nghiệm phƣơng pháp sử dụng thuộc tính nhóm xâu z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 114 PHỤ LỤC C: Chia liệu, cơng cụ chƣơng trình liên quan Tập ngữ liệu cơng cụ chƣơng trình liên quan luận văn đƣợc đƣa lên website sau: http://vietnamese-tc.sourceforge.net/ Corpus chƣơng trình đƣợc khuyến cáo sử dụng cho mục định nghiên cứu, cần tham chiếu đến tác giả Tác giả không chụi trách nhiệm với lỗi sử dụng, hay lỗi ảnh hƣớng đến chƣơng trình khác cài đặt sử dụng Nội dung trang web bao gồm: Corpus thống kê nguồn gốc corpus Copus đƣợc sƣu tầm từ website báo điện phổ biến Việt Nam, nhiều lĩnh vực để đảm bào tính cân cho từ vựng Corpus đƣợc kèm theo thông tin thống kê nguồn gốc số lƣợng file văn tƣơng ứng với nhóm văn Corpus có dung lƣợng 40M, gồm 10 nghìn văn đƣợc chia làm 10 nhóm Các cơng cụ chƣơng trình i) Cơng cụ chiết xuất nội dung từ site báo điện tử, config để tự động lấy tin, chiết xuất nội dung, chuyển đổi định dạng sang dạng text, có kèm theo chức tự động chia liệu cho k-fold cross validation Chƣơng trình đƣợc viết ngơn ngữ C#.NET 2.0 ii) Chƣơng trình phân đoạn từ tiếng việt đƣa ma trận thuộc tính với số đƣợc tính theo TFIDF, tƣơng thích với SVMLight, http://www.svmlight.joachims.org LibSVM, http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Chƣơng trình đƣợc viết ngơn ngữ Java, có sử dụng mở rộng từ chƣơng trình JVNSegmentor, http://jvnsegmenter.sourceforge.net/, tác giả Phan Xuân Hiếu iii) Chƣơng trình chiết xuất thuộc tính nhóm xâu chính, có xử lý Unicode đƣa ma trận thuộc tính với số đƣợc tính theo TFIDF, z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 115 tƣơng thích với SVMLight , http://www.svmlight.joachims.org LibSVM, http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Chƣơng trình cài đặt, mở rộng cải tiến thuật tốn chiết xuất thuộc tính nhóm xâu chính, viết ngơn ngữ C++ iv) Chƣơng trình phân loại văn cài đặt thuật toán kNN Centroid based Vector v) Chƣơng trình mở rộng tập liệu sử dụng phân cụm, chƣơng trình phân loại văn sử dụng phân cụm Chƣơng trình có sử dụng thƣ viện phân cụm liệu CLUTO, http://glaros.dtc.umn.edu/gkhome/views/cluto/ z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 116 Chỉ mục từ Adaptive Resonance Associative Map Dữ liệu kiểm thử, 47 Gốc từ, 16, 17 ARAM, 32 Hàm nhân, 82 Âm tiết, 35, 37, 41, 45 Hậu tố, 38 Bảng ngẫu nhiên, 19, 20 Hệ chuyên gia, 11 Biểu diễn văn bản, 15 Bộ từ vựng, 19 Cấu trúc từ tiếng Việt, 9, 35 Hệ tọa độ trực giao, 22 Heuristic, 11 Học không giám sát, 12 Cây hậu tố, 71, 80 Học máy, 11, 14, 15, 54 Cây hậu tố tập ngữ liệu, 73 Cây định, 12 Centroid Based Vector, 48, 51 Học máy thống kê, 73 Huấn luyện, 15 Internet, 8, 11 Chiều sâu theo xâu nút, 72 Chọn thuộc tính, 13, 14 Intranet, 11 Kết phân loại, 16 Cơ sở liệu, Common Random Fields, 45 Khai phá liệu, 54 Khơng gian thuộc tính, 12, 16, 17, Công cụ chiết xuất nội dung, 47 Cƣờng độ từ, 21 Đặc điểm tiếng Việt, 9, 35 22, 56, 58, 73 Không gian vector, 17 Khớp xác, 71 Dấu thanh, 35 Khớp khơng xác, 71 Dịch tự động, kNN, 9, 12, 48, 51, 53 Độ bao Recall, 32 Độ xác k-way clustering, 62 Kỹ sƣ trí thức, 11 Kỹ thuật kiểm tra chéo Precision, 32 Độ phức tạp nhớ, 19 K-Fold cross validation, 47 Latent Semantic Indexing, 22 Độ phức tạp thời gian, 19, 79 LIBSVM, 48, 94 Dữ liệu gán nhãn, 53 Liên kết hậu tố, 73 Dữ liệu huấn luyện, 47 LLFS, 12 z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 117 Phân loại văn theo chủ đề, 12 Phân loại văn theo ngữ nghĩa, Lọc quản lý tài nguyên, 11 Lợi ích thơng tin, 18 (IG), 14 12 Phân loại văn tiếng Việt, 9, 39, IG, 18 Lựa chọn thuộc tính, 14, 16, 17 79 Mạng chuyển dịch trạng thái hữu hạn có trọng số Phân loại văn tự động, Phân tích ảnh, 54 WFST, 42 Mạng Neutral, 12 Maximum Entropy, 32 Máy trạng thái hữu hạn Phụ âm, 35 Phƣơng pháp Centroid- based vector, 28 Phƣơng pháp k- Nearest Neighbour, FSM, 45 24 Naïve Bayes, 9, 12 N-gram, 41 Nguyên âm, 35 Phƣơng pháp khớp tối đa, 41 Phƣơng pháp Linear Least Square Fit, 27 Nhận dạng mẫu, 12, 54 Nhãn đƣờng đi, 72 Phƣơng pháp Nạve Bayes, 25 Phƣơng pháp Rocchio, 24 Nhóm xâu con, 74 Phƣơng pháp SVM, 28 Nhóm xâu chính, 75 Phƣơng pháp TBL, 42 Phân cụm, 9, 53 Phân cụm k-way clustering, 55 Phân cụm cứng, 56 Siêu phằng, 29 Siêu thuộc tính, 61, 62 meta-feature, 61 Phân cụm liệu, 54 SVM, 9, 12, 48, 51, 53, 82 Phân cụm kết hợp Tách từ văn tiếng Việt, coclustering, 55 Phân cụm văn bản, 21 Phân đoạn liệu tuần tự, 45 39, 45 Tần suất từ TF, 18 Phân đoạn từ, 79 Phân đoạn từ tiếng Việt, 9, 47 Phân loại văn bản, 8, 11, 15 Tần suất văn bản, 14, 17 Tần suất văn ngƣợc, 18 Tạo mục, 13, 14 Phân loại văn không phụ thuộc Tập liệu gán nhãn, 12 vào ngôn ngữ, 79 Tập liệu gán nhãn mở rộng, 58 z 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

Ngày đăng: 06/09/2023, 00:21

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan