TF ì IDF Phương phỏp biểu diễn văn bản dựa trờn tần số thuật ngữ TF và nghịch đảo tần số văn bản IDF Trang 10 Danh mục cỏc bảng trong Luận văn Trang 11 Danh mục cỏc hỡnh vẽ trong Luậ
đinh thị phơng thu Bộ giáo dục đào tạo Trờng đại học bách khoa Hà Nội -*** - Đinh Thị Phơng Thu tiếp cận học không giám sát học có giám sát ngành công nghệ thông tin với toán phân lớp văn tiếng việt & đề xuất cải tiến công thức tính độ liên quan hai văn mô hình vector luận văn thạc sĩ công nghệ thông tin khoá 2002 - 2004 Hà nội - Năm 2004 1708330044779cca44031-8668-41ea-a1fc-d76b2eb6178d 1708330044779617f5f53-4900-4ab9-8815-c8780a75c794 17083300447790a8ec64a-a8bb-489e-a25d-6bf09fe8fa95 giáo dục đào tạo trờng đại học bách khoa hà nội *** Đinh Thị Phơng Thu tiếp cận học không giám sát học có giám sát với toán phân lớp văn tiếng việt & đề xuất cải tiến công thức tính độ liên quan hai văn mô hình vector Chuyên ngành: Công nghệ thông tin luận văn thạc sĩ công nghệ thông tin ng gêi êi h híng íng dÉn khoa häc TS Huỳnh Quyết Thắng Hà nội - 11/2004 - Trang - M ỤC LỤ C MỤC LỤC Danh mục thuật ngữ ký hiệu viết tắt Luận văn Danh mục bảng Luận văn Danh mục hình vẽ Luận văn MỞ ĐẦU 10 phần i së lý thuyÕt 13 CHƯƠNG - TỔNG QUAN VỀ XỬ LÝ VĂN BẢN 14 1.1 Khai phá phát tri thức liệu 15 1.1.1 Dữ liệu, Thông tin Tri thức 15 1.1.2 Khai phá liệu phát tri thức 15 1.2 Text Mining - Góc nhìn nhận quan trọng Data Mining 18 1.3 Các khái niệm xử lý văn 19 1.3.1 Từ khóa, Thuật ngữ Khái niệm 19 1.3.2 Từ dừng ( StopW ords ) .20 1.3.3 Trọng số thuật ngữ 20 1.3.4 Độ liên quan văn 21 1.4 Các toán xử lý văn 21 Ret et etri ri rieva eva evall ) 21 1.4.1 Tìm kiếm văn (Tex t R extt Categor Categoriza iza ization, tion, Tex Textt Classification 1.4.2 Phân lớp văn (Tex 1.4.3 Phân nhóm văn ( ) 22 Tex t Clu Clust st steri eri erinn g ) 22 Sum m m ariza arization tion ) 23 1.4.4 Tóm tắt văn ( Tex t Su 1.4.5 Dẫn đường văn ( Tex t Routing ) 23 1.5 Các phương pháp biểu diễn văn 24 1.5.1 Mơ hình khơng gian vector ( Vec Vectt or S Spa pa pace ce M od odel el - VSM ) 24 1.5.1.1 Mơ hình Boolean 25 Đinh Thị Phơng Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hà Nội 11/2004 - Trang 1.5.1.2 Mơ hình tần số .26 1.5.1.3 Phương pháp xử lý véc tơ thưa 27 1.5.2 Phương pháp biểu diễn văn dựa khái niệm mờ 29 1.6 Kết chương 30 CHƯƠNG PHÂN NHĨM - PHƯƠNG PHÁP HỌC KHƠNG GIÁM SÁT 31 2.1 Giới thiệu tốn phân nhóm 32 2.1.1 Phân nhóm liệu 32 2.1.2 Bài tốn “Phân nhóm văn bản” 32 2.2 Các yêu cầu kĩ thuật phân nhóm 32 2.3 Các thuật tốn Phân nhóm 33 artition ition itionnin nin ningg Alg Algorith orith orithm m s ) 34 2.3.1 Các phương pháp phân chia ( P art Densit y - B ased as ed ) 34 2.3.2 Phương pháp phân nhóm dựa hàm mật độ ( Density Grid Based M etho d ) 35 2.3.3 Phương pháp phân nhóm dựa lưới ( Grid 2.3.4 Phân nhóm dựa thuật ngữ xuất thường xuyên ( Frequent I tem set ) 36 2.3.4.1 Các giải thuật xác định tập thuật ngữ xuất thường xuyên 36 2.3.4.2 Các giải thuật phân nhóm dựa thuật ngữ xuất thường xuyên 39 2.4 Đánh giá hiệu suất phân nhóm 45 2.5 Kết chương 45 CHƯƠNG PHÂN LỚP - PHƯƠNG PHÁP HỌC CÓ GIÁM SÁT 46 3.1 Giới thiệu toán 47 3.2 Các thuật toán Phân lớp văn 47 Tree ree ) 48 3.2.1 Thuật toán định (Decision T 3.2.1.1 Mô tả định 48 3.2.1.2 Ví dụ minh họa định 48 3.2.1.3 Xây dựng định 51 earestt N Nei ei eigh gh ghbb or ) 54 3.2.2 Thuật toán k-NN ( k - N eares 3.3 Đánh giá hiệu suất phân lớp văn 57 3.4 Kết chương 58 Đinh Thị Phơng Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hà Néi 11/2004 - Trang - CHƯƠNG VẤN ĐỀ NGHIÊN CỨU CỦA LUẬN VĂN - BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT 59 4.1 Khai phá liệu văn tiếng Việt 60 4.2 Các đặc trưng tiếng Việt 60 4.2.1 Các đơn vị tiếng Việt .61 4.2.2 Các đặc điểm tả văn tiếng Việt 61 4.2.3 Từ tiếng Việt .62 4.2.4 Các chuẩn Font tiếng Việt sử dụng 63 4.3 Bài toán phân lớp văn tiếng Việt 64 4.4 Kết chương 65 phÇn iI thiÕt kÕ híng tiÕp cËn 66 CHƯƠNG - ĐỀ XUẤT VÀ LỰA CHỌN GIẢI PHÁP TIẾP CẬN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT 67 5.1 Đề xuất hai hướng tiếp cận toán 68 5.1.1 Hướng tiếp cận theo phương pháp học khơng giám sát học có giám sát .68 5.1.2 Hướng tiếp cận theo đề xuất cải tiến công thức đánh giá độ liên quan hai văn mơ hình vector 69 5.2 Lựa chọn giải pháp tiếp cận 71 5.2.1 Tiếp cận theo phương pháp học không giám sát học có giám sát 71 5.2.1.1 Tiền xử lý văn 72 5.2.1.2 Biểu diễn văn mô hình vector 74 5.2.1.3 Phân nhóm lớp văn mẫu 77 5.2.1.4 Phân lớp văn dựa tiếp cận phân nhóm 78 5.2.2 Tiếp cận theo đề xuất cải tiến công thức đánh giá độ liên quan hai văn mơ hình vector 80 5.2.2.1 Mơ hình tiếp cận 80 5.2.2.2 Tiền xử lý vector hóa văn 81 5.2.2.3 Quản lý độ liên quan term văn mẫu 81 5.2.2.4 Phân lớp văn với công thức cải tiến đề xuất 82 5.3 Kết chương 83 Đinh Thị Phơng Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hà Nội 11/2004 - Trang - CHƯƠNG - THIẾT KẾ XÂY DỰNG HỆ THỐNG THỬ NGHIỆM 84 6.1 Xác định yêu cầu 85 6.2 Thiết kế xây dựng hệ thống thử nghiệm 85 6.2.1 Thiết kế tổng thể 85 6.2.2 Chức phân lớp văn 86 6.2.2.1 Hướng tiếp cận học không giám sát 86 6.2.2.2 Hướng tiếp cận theo đề xuất cải tiến công thức 88 6.2.3 Chức vector hóa văn 89 6.2.4 Chức phân nhóm lớp văn mẫu 91 6.2.5 Chức xác định trước độ liên quan term từ điển với tập văn mẫu .93 6.2.6 Chức Quản lý tập mẫu .94 StopW pW ords 95 6.2.7 Chức quản lý từ điển/ Sto 6.3 Kết chương 95 phần iii cài đặt mô hình kiểm thử kết 96 CHƯƠNG – CÀI ĐẶT MƠ HÌNH VÀ KIỂM THỬ KẾT QUẢ 97 7.1 Cài đặt chương trình 98 7.1.1 Lựa chọn công nghệ môi trường cài đặt 98 7.1.2 Giao diện chương trình Demo 98 7.1.2.1 Giao diện hướng tiếp cận học không giám sát học có giám sát 98 7.1.2.2 Giao diện hướng tiếp cận theo công thức cải tiến 100 7.2 Cơ sở liệu thử nghiệm 102 7.3 Kết thử nghiệm 102 7.3.1 Kết phân tách thuật ngữ 103 7.3.1.1 Đánh giá tốc độ phân tách thuật ngữ 103 7.3.1.2 Đánh giá hiệu phân tách thuật ngữ 104 7.3.2 Kết phân lớp văn 105 7.3.2.1 Kết thử nghiệm phân lớp tập mẫu VnExpress .105 7.3.2.2 Kết thử nghiệm phân lớp tập mẫu VietNamNet 107 §inh Thị Phơng Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hà Nội 11/2004 - Trang 7.4 Đánh giá thử nghiệm 109 7.5 Kết chương 109 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 110 TÀI LIỆU THAM KHẢO 112 phÇn phơ lơc 115 PHỤ LỤC - Tập từ dừng (Stopwords) tiếng Việt 116 PHỤ LỤC - Kết thử nghiệm phân lớp tập liệu VnExpress121 PHỤ LỤC - Hướng dẫn cài đặt sử dụng chương trình 129 PHỤ LỤC - Mô tả nội dung đĩa CD kèm theo 130 Đinh Thị Phơng Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hà Nội 11/2004 - Trang - Danh mục thuật ngữ ký hiệu viết tắt Luận văn Từ STT Nghĩa Ca Một nhóm văn Cluster Nhóm (nhóm liệu, nhóm văn bản) concept khái niệm d Một văn D Tập văn Decision Tree Cây định Document vector Vector văn Feature vector Vector thuộc tính đặc trưng FIHC Hierarchical Frequent Item Based Clustering - Phân nhóm có phân cấp dựa thuật ngữ xuất thường xuyên 10 Frequent itemset Tập thuật ngữ xuất thường xuyên văn 11 GFI Global frequent item - Một thuật ngữ thường xuyên toàn cục 12 GFS Global frequent itemset -Tập thuật ngữ thường xuyên toàn cục 13 GS Global support - Phần trăm tài liệu chứa tập thuật ngữ 14 hash-table bảng băm 15 HTML HyperText Markup Language - Ngôn ngữ đánh dấu siêu văn 16 ICS inter-cluster similarity - Độ tương tự nhóm 17 KDD Knowledge Discovery in Database - Tiến trình khai phá liệu phát tri thức 18 keyword từ khóa 19 k-itemset tập thuật ngữ gồm k phần tử 20 k-NN k-Nearest Neighbor - Thut toỏn k lỏng ging gn nht Đinh Thị Phơng Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hà Nội 11/2004 - Trang 21 Machine Learning học máy 22 membership hàm thuộc function μA(x) 23 postpruning Tỉa sau 24 precision Độ xác phân lớp 25 prepruning Tỉa trước 26 recall Độ hồi tưởng (trong phân lớp) 27 Semi-structured Dạng bán cấu trúc 28 Sim(C a←C b), Similarity- Độ tương tự hai nhóm văn Ca Cb 29 Stop word Từ dừng 30 supervised learning Học có giám sát method 31 term thuật ngữ 32 Test set Tập liệu kiểm thử 33 Text Catergorization Phân lớp văn 34 Text Classification Phân lớp văn 35 Text Clustering Phân nhóm văn 36 Text Mining Khai phá liệu văn 37 TF × IDF Phương pháp biểu diễn văn dựa tần số thuật ngữ TF nghịch đảo tần số văn IDF 38 Training set Tập liệu huấn luyện 39 unstructured Dạng phi cấu trúc 40 unsupervised Học không giám sát learning method 41 VSM Đinh Thị Phơng Thu - Vector Space Model - Mụ hỡnh khụng gian vector Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hà Nội 11/2004 - Trang - Danh mục bảng Luận văn Bảng 1.1 Ví dụ văn biểu diễn theo từ khóa tần số xuất 25 Bảng 1.2 Ví dụ biểu diễn vector thưa _ 28 Bảng 2.1 Dữ liệu đầu vào để xây dựng FP 38 Bảng 3.1 Các mẫu huấn luyện dùng cho định class LÚA 49 Bảng 3.2 Ví dụ gán nhãn theo số đơng _ 56 Bảng 3.3 Ví dụ gán nhãn theo số đơng _ 57 Bảng 7.1 Thông tin mô tả số thông số tập liệu huấn luyện 102 Bảng 7.2 Kết thử nghiệm phân lớp 80 văn tập mẫu VnExpress 105 Bảng 7.3 Kết thử nghiệm phân lớp 35 văn tập mẫu VietNamNet _ 107 Đinh Thị Phơng Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hà Néi 11/2004