Tiếp cận học không giám sát trong học có giám sát với bài toán phân lớp văn bản tiếng việt và đề xuất cải tiến công thức tính độ liên quan giữa hai văn bản trong mô hình véctơ

132 33 0
Tiếp cận học không giám sát trong học có giám sát với bài toán phân lớp văn bản tiếng việt và đề xuất cải tiến công thức tính độ liên quan giữa hai văn bản trong mô hình véctơ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

đinh thị phương thu Bộ giáo dục đào tạo Trường đại học bách khoa Hà Nội -*** - Đinh Thị Phương Thu tiếp cận học không giám sát học có giám sát ngành công nghệ thông tin với toán phân lớp văn tiếng việt & đề xuất cải tiến công thức tính độ liên quan hai văn mô hình vector luận văn thạc sĩ công nghệ thông tin khoá 2002 - 2004 Hà nội - Năm 2004 giáo dục đào tạo trường đại học bách khoa hµ néi *** Đinh Thị Phương Thu tiếp cận học không giám sát học có giám sát với toán phân lớp văn tiếng việt & đề xuất cải tiến công thức tính độ liên quan hai văn mô hình vector Chuyên ngành: Công nghệ thông tin luận văn thạc sĩ công nghệ thông tin người hướng dẫn khoa học TS Huỳnh Quyết Thắng Hà nội - 11/2004 - Trang - MỤC LỤC MỤC LỤC Danh mục thuật ngữ ký hiệu viết tắt Luận văn Danh mục bảng Luận văn Danh mục hình vẽ Luận văn MỞ ĐẦU 10 phÇn i c¬ së lý thuyÕt 13 CHƯƠNG - TỔNG QUAN VỀ XỬ LÝ VĂN BẢN 14 1.1 Khai phá phát tri thức liệu 15 1.1.1 Dữ liệu, Thông tin Tri thức 15 1.1.2 Khai phá liệu phát tri thức 15 1.2 Text Mining - Góc nhìn nhận quan trọng Data Mining 18 1.3 Các khái niệm xử lý văn 19 1.3.1 Từ khóa, Thuật ngữ Khái niệm 19 1.3.2 Từ dừng (StopW ords ) .20 1.3.3 Trọng số thuật ngữ 20 1.3.4 Độ liên quan văn 21 1.4 Các toán xử lý văn 21 1.4.1 Tìm kiếm văn (Tex t Retrieval ) 21 1.4.2 Phân lớp văn (Tex t Categorization, Tex t Classification ) 22 1.4.3 Phân nhóm văn (Tex t Clustering ) 22 1.4.4 Tóm tắt văn (Tex t Sum m arization ) 23 1.4.5 Dẫn đường văn (Tex t Routing ) 23 1.5 Các phương pháp biểu diễn văn 24 1.5.1 Mơ hình khơng gian vector (Vector Space M odel - VSM ) 24 1.5.1.1 Mơ hình Boolean 25 Đinh Thị Phương Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hµ Néi 11/2004 - Trang 1.5.1.2 Mơ hình tần số 26 1.5.1.3 Phương pháp xử lý véc tơ thưa 27 1.5.2 Phương pháp biểu diễn văn dựa khái niệm mờ 29 1.6 Kết chương 30 CHƯƠNG PHÂN NHĨM - PHƯƠNG PHÁP HỌC KHƠNG GIÁM SÁT 31 2.1 Giới thiệu tốn phân nhóm 32 2.1.1 Phân nhóm liệu 32 2.1.2 Bài tốn “Phân nhóm văn bản” 32 2.2 Các yêu cầu kĩ thuật phân nhóm 32 2.3 Các thuật tốn Phân nhóm 33 2.3.1 Các phương pháp phân chia (P artitionning Algorithm s ) 34 2.3.2 Phương pháp phân nhóm dựa hàm mật độ (Density-Based ) 34 2.3.3 Phương pháp phân nhóm dựa lưới (Grid-Based M ethod ) 35 2.3.4 Phân nhóm dựa thuật ngữ xuất thường xuyên (Frequent I tem set ) 36 2.3.4.1 Các giải thuật xác định tập thuật ngữ xuất thường xuyên 36 2.3.4.2 Các giải thuật phân nhóm dựa thuật ngữ xuất thường xuyên 39 2.4 Đánh giá hiệu suất phân nhóm 45 2.5 Kết chương 45 CHƯƠNG PHÂN LỚP - PHƯƠNG PHÁP HỌC CÓ GIÁM SÁT 46 3.1 Giới thiệu toán 47 3.2 Các thuật toán Phân lớp văn 47 3.2.1 Thuật toán định (Decision Tree ) 48 3.2.1.1 Mô tả định 48 3.2.1.2 Ví dụ minh họa định 48 3.2.1.3 Xây dựng định 51 3.2.2 Thuật toán k-NN (k-Nearest Neighbor ) 54 3.3 Đánh giá hiệu suất phân lớp văn 57 3.4 Kết chương 58 Đinh Thị Phương Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hà Nội 11/2004 - Trang - CHNG VẤN ĐỀ NGHIÊN CỨU CỦA LUẬN VĂN - BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT 59 4.1 Khai phá liệu văn tiếng Việt 60 4.2 Các đặc trưng tiếng Việt 60 4.2.1 Các đơn vị tiếng Việt 61 4.2.2 Các đặc điểm tả văn tiếng Việt 61 4.2.3 Từ tiếng Việt .62 4.2.4 Các chuẩn Font tiếng Việt sử dụng 63 4.3 Bài toán phân lớp văn tiếng Việt 64 4.4 Kết chương 65 phÇn iI thiÕt kÕ h­íng tiÕp cËn 66 CHƯƠNG - ĐỀ XUẤT VÀ LỰA CHỌN GIẢI PHÁP TIẾP CẬN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT 67 5.1 Đề xuất hai hướng tiếp cận toán 68 5.1.1 Hướng tiếp cận theo phương pháp học không giám sát học có giám sát .68 5.1.2 Hướng tiếp cận theo đề xuất cải tiến công thức đánh giá độ liên quan hai văn mơ hình vector 69 5.2 Lựa chọn giải pháp tiếp cận 71 5.2.1 Tiếp cận theo phương pháp học không giám sát học có giám sát 71 5.2.1.1 Tiền xử lý văn 72 5.2.1.2 Biểu diễn văn mơ hình vector 74 5.2.1.3 Phân nhóm lớp văn mẫu 77 5.2.1.4 Phân lớp văn dựa tiếp cận phân nhóm 78 5.2.2 Tiếp cận theo đề xuất cải tiến công thức đánh giá độ liên quan hai văn mô hình vector 80 5.2.2.1 Mơ hình tiếp cận 80 5.2.2.2 Tiền xử lý vector hóa văn 81 5.2.2.3 Quản lý độ liên quan term văn mẫu 81 5.2.2.4 Phân lớp văn với công thức cải tiến đề xuất 82 5.3 Kết chương 83 Đinh Thị Phương Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hµ Néi 11/2004 - Trang - CHƯƠNG - THIẾT KẾ XÂY DỰNG HỆ THỐNG THỬ NGHIỆM 84 6.1 Xác định yêu cầu 85 6.2 Thiết kế xây dựng hệ thống thử nghiệm 85 6.2.1 Thiết kế tổng thể 85 6.2.2 Chức phân lớp văn 86 6.2.2.1 Hướng tiếp cận học không giám sát 86 6.2.2.2 Hướng tiếp cận theo đề xuất cải tiến công thức 88 6.2.3 Chức vector hóa văn 89 6.2.4 Chức phân nhóm lớp văn mẫu 91 6.2.5 Chức xác định trước độ liên quan term từ điển với tập văn mẫu .93 6.2.6 Chức Quản lý tập mẫu .94 6.2.7 Chức quản lý từ điển/ StopW ords 95 6.3 Kết chương 95 phần iii cài đặt mô hình kiĨm thư kÕt qu¶ 96 CHƯƠNG – CÀI ĐẶT MƠ HÌNH VÀ KIỂM THỬ KẾT QUẢ 97 7.1 Cài đặt chương trình 98 7.1.1 Lựa chọn công nghệ môi trường cài đặt 98 7.1.2 Giao diện chương trình Demo 98 7.1.2.1 Giao diện hướng tiếp cận học khơng giám sát học có giám sát 98 7.1.2.2 Giao diện hướng tiếp cận theo công thức cải tiến 100 7.2 Cơ sở liệu thử nghiệm 102 7.3 Kết thử nghiệm 102 7.3.1 Kết phân tách thuật ngữ 103 7.3.1.1 Đánh giá tốc độ phân tách thuật ngữ 103 7.3.1.2 Đánh giá hiệu phân tách thuật ngữ 104 7.3.2 Kết phân lớp văn 105 7.3.2.1 Kết thử nghiệm phân lớp tập mẫu VnExpress 105 7.3.2.2 Kết thử nghiệm phân lớp tập mu VietNamNet 107 Đinh Thị Phương Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hà Nội 11/2004 - Trang 7.4 Đánh giá thử nghiệm 109 7.5 Kết chương 109 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 110 TÀI LIỆU THAM KHẢO 112 phÇn phơ lơc 115 PHỤ LỤC - Tập từ dừng (Stopwords) tiếng Việt 116 PHỤ LỤC - Kết thử nghiệm phân lớp tập liệu VnExpress121 PHỤ LỤC - Hướng dẫn cài đặt sử dụng chương trình 129 PHỤ LỤC - Mô tả nội dung đĩa CD kèm theo 130 Đinh Thị Phương Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hµ Néi 11/2004 - Trang - Danh mục thuật ngữ ký hiệu viết tắt Luận văn STT Từ Nghĩa Ca Một nhóm văn Cluster Nhóm (nhóm liệu, nhóm văn bản) concept khái niệm d Một văn D Tập văn Decision Tree Cây định Document vector Vector văn Feature vector Vector thuộc tính đặc trưng FIHC Hierarchical Frequent Item Based Clustering - Phân nhóm có phân cấp dựa thuật ngữ xuất thường xuyên 10 Frequent itemset Tập thuật ngữ xuất thường xuyên văn 11 GFI Global frequent item - Một thuật ngữ thường xuyên toàn cục 12 GFS Global frequent itemset -Tập thuật ngữ thường xuyên toàn cục 13 GS Global support - Phần trăm tài liệu chứa tập thuật ngữ 14 hash-table bảng băm 15 HTML HyperText Markup Language - Ngôn ngữ đánh dấu siêu văn 16 ICS inter-cluster similarity - Độ tương tự nhóm 17 KDD Knowledge Discovery in Database - Tiến trình khai phá liệu phát tri thức 18 keyword từ khóa 19 k-itemset tập thuật ngữ gồm k phần tử 20 k-NN k-Nearest Neighbor - Thuật toỏn k lỏng ging gn nht Đinh Thị Phương Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hà Nội 11/2004 - Trang 21 Machine Learning học máy 22 membership hàm thuộc function μA(x) 23 postpruning Tỉa sau 24 precision Độ xác phân lớp 25 prepruning Tỉa trước 26 recall Độ hồi tưởng (trong phân lớp) 27 Semi-structured Dạng bán cấu trúc 28 Sim(Ca←Cb), Similarity- Độ tương tự hai nhóm văn Ca Cb 29 Stop word Từ dừng 30 supervised learning Học có giám sát method 31 term thuật ngữ 32 Test set Tập liệu kiểm thử 33 Text Catergorization Phân lớp văn 34 Text Classification Phân lớp văn 35 Text Clustering Phân nhóm văn 36 Text Mining Khai phá liệu văn 37 TF × IDF Phương pháp biểu diễn văn dựa tần số thuật ngữ TF nghịch đảo tần số văn IDF 38 Training set Tập liệu huấn luyện 39 unstructured Dạng phi cấu trúc 40 unsupervised Hc khụng giỏm sỏt learning method 41 VSM Đinh Thị Ph­¬ng Thu - Vector Space Model - Mơ hình khơng gian vector Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hà Nội 11/2004 - Trang - Danh mục bảng Luận văn Bảng 1.1 Ví dụ văn biểu diễn theo từ khóa tần số xuất 25 Bảng 1.2 Ví dụ biểu diễn vector thưa _ 28 Bảng 2.1 Dữ liệu đầu vào để xây dựng FP 38 Bảng 3.1 Các mẫu huấn luyện dùng cho định class LÚA 49 Bảng 3.2 Ví dụ gán nhãn theo số đông _ 56 Bảng 3.3 Ví dụ gán nhãn theo số đông _ 57 Bảng 7.1 Thông tin mô tả số thông số tập liệu huấn luyện 102 Bảng 7.2 Kết thử nghiệm phân lớp 80 văn tập mẫu VnExpress 105 Bảng 7.3 Kết thử nghiệm phân lớp 35 văn tập mẫu VietNamNet _ 107 §inh Thị Phương Thu - Luận văn Thạc sĩ CNTT - Đại học Bách Khoa Hà Nội 11/2004 ... đại học bách khoa hµ néi *** Đinh Thị Phương Thu tiếp cận học không giám sát học có giám sát với toán phân lớp văn tiếng việt & đề xuất cải tiến công thức tính độ liên quan hai văn mô hình. .. - ĐỀ XUẤT VÀ LỰA CHỌN GIẢI PHÁP TIẾP CẬN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT 67 5.1 Đề xuất hai hướng tiếp cận toán 68 5.1.1 Hướng tiếp cận theo phương pháp học không giám sát học. .. 77 5.2.1.4 Phân lớp văn dựa tiếp cận phân nhóm 78 5.2.2 Tiếp cận theo đề xuất cải tiến công thức đánh giá độ liên quan hai văn mơ hình vector 80 5.2.2.1 Mơ hình tiếp cận

Ngày đăng: 22/01/2021, 09:16

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • MỞ ĐẦU

  • CHƯƠNG 1 - TỔNG QUAN VỀ XỬ LÝ VĂN BẢN

  • CHƯƠNG 2 PHÂN NHÓM-PHƯƠNG PHÁP HỌC KHÔNG GIÁM SÁT

  • CHƯƠNG 3 PHÂN LỚP VĂN BẢN-PHƯƠNG PHÁP HỌC CÓ GIÁM SÁT

  • CHƯƠNG 4 VẤN ĐỀ NGHIÊN CỨU CỦA LUẬN VĂN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT

  • CHƯƠNG 5 ĐỀ XUẤT VÀ LỰA CHỌN GIẢI PHÁP TIẾP CẬN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT

  • CHƯƠNG 6 - THIẾT KẾ XÂY DỰNG HỆ THỐNG THỬ NGHIỆM

  • CHƯƠNG 7 – CÀI ĐẶT MÔ HÌNH VÀ KIỂM THỬ KẾT QUẢ

  • KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN

  • TÀI LIỆU THAM KHẢO

  • PHỤ LỤC 1 - Tập các từ dừng (Stopwords) tiếng Việt

  • PHỤ LỤC 2 - Kết quả thử nghiệm phân lớp trên tập dữ liệu VnExpress

  • PHỤ LỤC 3 - Hướng dẫn cài đặt và sử dụng chương trình

  • PHỤ LỤC 4 - Mô tả nội dung đĩa CD kèm theo

Tài liệu cùng người dùng

Tài liệu liên quan