Xử lý văn bản tiếng việt theo mô hình tập thô dung sai

Trần quang giáo dục đào tạo trờng đại học bách khoa hà nội - luận văn thạc sĩ khoa học công nghệ thông tin ngành : công nghệ thông tin Xử lý văn tiếng việt Theo mô hình tập thô dung sai Trần quang 2007 - 2009 Hµ Néi 2010 Hµ Néi 2010 Xử lý văn tiếng Việt theo mơ hình tập thơ dung sai bé giáo dục đào tạo trờng đại học bách khoa hµ néi - luận văn thạc sĩ khoa học Xử Lý VĂN BảN TIếNG VIệT THEO MÔ HìNH TậP THÔ DUNG SAI ngành : công nghệ THÔNG TIN m số:23.04.3898 TRầN QUANG Người hướng dẫn khoa học : PGS TS NguyÔn ngọc bình Hà Nội 2010 Hc viờn thc hin: Trn Quang – Lớp CH CNTT 2007-2009 1/117 Xử lý văn tiếng Việt theo mơ hình tập thơ dung sai LỜI CAM ĐOAN Tôi – Trần Quang – cam đoan Luận văn cơng trình nghiên cứu thân tơi hướng dẫn PGS.TS.Nguyễn Ngọc Bình Các kết nêu Luận văn trung thực, khơng phải chép tồn văn cơng trình khác Hà Nội, ngày tháng năm Tác giả Luận văn Trần Quang Học viên thực hiện: Trần Quang – Lớp CH CNTT 2007-2009 2/117 Xử lý văn tiếng Việt theo mơ hình tập thơ dung sai MỤC LỤC DANH MỤC CÁC THUẬT NGỮ DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH LỜI NÓI ĐẦU Chương Tổng quan khai phá liệu 1.1 Khai phá liệu – Data Mining 1.2 Tiền xử lý liệu 12 1.3 Phân lớp dự báo – Classification and Prediction 12 1.3.1 Giới thiệu 12 1.3.2 Support Vector Machines 15 1.3.2.1 SVMs với liệu khả tách tuyến tính (linearly separable) 16 1.3.2.2 SVMs với liệu khơng khả tách tuyến tính (linearly inseparable) 20 1.4 Phân nhóm liệu 22 1.4.1 Giới thiệu 22 1.4.2 Phân loại phương pháp Clustering 24 1.4.3 Một số phương pháp Clustering 27 1.5 Các ứng dụng xu hướng khai phá liệu 31 Chương Tập thô ứng dụng 34 2.1 Lý thuyết tập thô 34 2.1.1 Hệ thông tin 35 2.1.2 Quan hệ bất khả phân 37 2.1.3 Xấp xỉ tập hợp 38 2.1.4 Thành viên thô – Rough Membership 42 2.1.5 Phụ thuộc thuộc tính 43 2.1.6 Rút gọn thuộc tính 44 2.1.7 Ma trận phân biệt hàm phân biệt 50 2.1.8 Sự quan trọng thuộc tính rút gọn xấp xỉ 53 2.2 Các ứng dụng tập thô 56 2.3 Mơ hình tập thơ dung sai 57 Chương Một số kỹ thuật khai phá liệu văn 60 3.1 Các mơ hình biểu diễn văn 60 3.1.1 Mơ hình khơng gian vector – Vector Space Model 60 3.1.1.1 Document Indexing 61 3.1.1.2 Feature Weighting 63 3.1.1.3 Similarity Coefficients .64 3.1.2 Mơ hình tập mờ - Fuzzy Set Model 65 3.1.2.1 Lý thuyết tập mờ 65 3.1.2.2 Biểu diễn văn dựa khái niệm mờ .66 3.1.3 Mơ hình xác suất – Probabilistic Model 68 3.2 Công thức xác định hiệu xử lý văn 71 3.3 Phân nhóm văn – Text Clustering 72 3.3.1 Giới thiệu 72 3.3.2 Các ứng dụng lập nhóm văn 73 3.4 Phân loại văn – Text Classification 73 3.4.1 Giới thiệu toán phân loại văn 73 3.4.1.1 Tổng quan phân loại văn 73 3.4.1.2 Nền tảng học máy toán phân loại văn .74 3.4.2 Một số phương pháp phân loại văn 76 3.4.2.1 Decision Tree 76 3.4.2.2 K - Nearnest Neighbor .76 Học viên thực hiện: Trần Quang – Lớp CH CNTT 2007-2009 3/117 Xử lý văn tiếng Việt theo mơ hình tập thơ dung sai 3.4.2.3 Nạve Bayes .78 3.4.2.4 Support Vector Machines 80 3.5 Tóm tắt văn – Text Summarization 81 3.6 Phát xu hướng văn – Text Trend Detection 81 3.7 Tìm kiếm văn – Text Retrieval 81 Chương Mơ hình tập thơ dung sai xử lý sở liệu văn 83 4.1 Bộ khung hệ thống khai phá liệu văn dựa mơ hình TRSM 83 4.2 Xử lý văn tiếng Anh 85 4.2.1 Mơ hình tập thơ dung sai biểu diễn văn 85 4.2.2 Nonhierarchical Document Clustering dựa mơ hình tập thơ dung sai 87 4.2.2.1 Giải thuật 87 4.2.2.2 Biểu diễn cluster – cluster representation 88 4.2.2.3 Độ tương tự tài liệu biểu diễn cluster 90 4.2.3 Hierarchical Document Clustering dựa mơ hình tập thơ dung sai 91 4.3 Xử lý văn tiếng Việt 92 4.3.1 Một số vấn đề chung xử lý văn Tiếng Việt 92 4.3.1.1 Một số đặc trưng Tiếng Việt .92 4.3.1.2 Các bước tiền xử lý văn 94 4.3.1.3 Một số phương pháp tách thuật ngữ văn Tiếng Việt 95 4.3.1.4 Một số kỹ thuật giảm chiều văn 98 4.3.1.4.1 Loại bỏ từ dừng .98 4.3.1.4.2 Lựa chọn tập đặc trưng cho không gian văn 99 4.3.2 Áp dụng mơ hình TRSM để xử lý vấn đề đồng nghĩa, trái nghĩa Tiếng Việt 100 4.3.2.1 Đặt vấn đề 100 4.3.2.2 Đặc trưng tần suất thuật ngữ lân cận 101 4.3.2.3 Cài đặt thử nghiệm 102 Chương Kết luận hướng phát triển 110 TÀI LIỆU THAM KHẢO 114 TÓM TẮT LUẬN VĂN 116 ABSTRACT OF THESIS 117 Học viên thực hiện: Trần Quang – Lớp CH CNTT 2007-2009 4/117 Xử lý văn tiếng Việt theo mơ hình tập thơ dung sai DANH MỤC CÁC THUẬT NGỮ STT Từ viết tắt Thuật ngữ Tiếng Anh DM Data Mining Khai phá liệu DT Decision Tree Cây định EM Expectation Maximization Một phương pháp clustering ERSM Equivalence Rough Sets Model Mơ hình tập thơ tương đương IDF Inverse Document Frequency Mơ hình nghịch đảo tần số văn KDD KE K-NN ML 10 Knowledge Discovery Thuật ngữ Tiếng Việt in Databases Khai phá tri thức sở liệu Keyword Extraction Bài toán trích trọn từ khố K- Nearest Neighbour K láng giềng gần Machine Learning Học máy MMH Maximum Marginal Hyperplane Siêu phẳng lề cực đại 11 RSM Rough Sets Model Mơ hình tập thơ 12 SVMs Support Vector Machines Máy vector hỗ trợ 13 TF Term Frequency Mơ hình tần số thuật ngữ 14 TRSM Tolerance Rough Sets Model Mô hình tập thơ dung sai 15 TSR Term Space Reduction Giảm không gian thuật ngữ 16 VSM Vector Space Model Mơ hình khơng gian vector Học viên thực hiện: Trần Quang – Lớp CH CNTT 2007-2009 5/117 Xử lý văn tiếng Việt theo mơ hình tập thơ dung sai DANH MỤC CÁC BẢNG Bảng 2.1: ví dụ hệ thông tin 36 Bảng 2.2: Walk – ví dụ bảng định .36 Bảng 2.3: Ví dụ bảng thơng tin có thuộc tính dư thừa .44 Bảng 2.4: Bảng liệu thu cách loại bỏ cột thuộc tính Muscle-pain 47 Bảng 2.5: Bảng liệu thu cách loại bỏ cột thuộc tính Headache 48 Bảng 2.6: đơn giản hóa Bảng 2.4 .49 Bảng 2.7: Đơn giản hóa bảng 2.5 .49 Bảng 3.1: Ví dụ phân loại theo số đông .77 Bảng 3.2: Ví dụ lỗi phân loại theo số đông 78 Bảng 4.1: Một số hàm tính giá trị ước lượng thông tin thuật ngữ .100 Học viên thực hiện: Trần Quang – Lớp CH CNTT 2007-2009 6/117 Xử lý văn tiếng Việt theo mơ hình tập thơ dung sai DANH MỤC CÁC HÌNH Hình 1.1: Data mining – tìm kiếm tri thức liệu .9 Hình 1.2: Data mining bước trình phát tri thức 10 Hình 1.3: Dữ liệu 2-D khả tách tuyến tính 16 Hình 1.4: Ví dụ siêu phẳng với lề tương ứng .17 Hình 1.5: Support vectors 18 Hình 1.6: Dữ liệu khơng khả tách tuyến tính .20 Hình 1.7: Clustering dựa giải thuật k-means 28 Hình 1.8: Mỗi cluster biểu diễn phân bố xác suất 29 Hình 2.1: Minh họa tập xấp xỉ trên, xấp xỉ 39 Hình 2.2: Xấp xỉ tập đối tượng thuộc tính điều kiện Age LEMS 40 Hình 2.3: Lớp từ phủ lên 58 Hình 3.1: Ma trận tài liệu-thuật ngữ 62 Hình 3.2: Minh họa cách tính precision recall 71 Hình 3.3: Minh hoạ giải thuật KNN láng giềng gần với K = 77 Hình 4.1: Bộ khung hệ thống khai phá liệu dựa mơ hình TRSM 83 Hình 4.2: Giải thuật hierarchical agglomerative clustering dựa mơ hình TRSM .91 Hình 4.5: Ví dụ tình nhập nhằng đồ thị phân tách câu 97 Hình 4.6: Các bước chương trình 103 Học viên thực hiện: Trần Quang – Lớp CH CNTT 2007-2009 7/117 Xử lý văn tiếng Việt theo mô hình tập thơ dung sai LỜI NĨI ĐẦU Hàng ngày tiếp xúc với nhiều loại liệu khác nhau: âm thanh, hình ảnh, liệu số, liệu lưu dạng tài liệu… Các liệu nhiều ẩn chứa bên phần tri thức mà ta chưa biết Khi liệu trở nên nhiều mà ta khơng thể kiểm sốt dạng liệt kê ẩn chứa lượng tri thức lớn cần có phương pháp để tự động nhận biết quy luật, tri thức ẩn chứa để phục vụ cho lợi ích Khai phá liệu tốn tìm tri thức ẩn chứa bên tập liệu lớn có nhiều phương pháp, nhiều hướng tiếp cận khác cho toán này, chẳng hạn sử dụng lý thuyết tập thô, lý thuyết tập mờ, lý thuyết xác suất, học máy… Trong luận văn tác giả sử dụng hướng tiếp cận mơ hình tập thơ dung sai cho tốn khai phá liệu văn nhằm giải vấn đề đồng nghĩa, trái nghĩa văn tiếng Việt Trong trình nghiên cứu, tác giả nhận thấy hướng tiếp cận có nhiều ứng dụng thiết thực khác số vấn đề lý thuyết liên quan khác Tuy nhiên, hạn chế mặt thời gian, tác giả nêu ứng dụng, toán liên quan hướng phát triển khả thi mà Về mặt bố cục, luận văn gồm năm chương với nội dung sau: Chương 1: Trình bày tổng quan lĩnh vực phát tri thức khai phá liệu toán, phương pháp điển hình thường sử dụng Các ứng dụng xu hướng lĩnh vực Chương 2: Trình bày lý thuyết tập thơ ứng dụng nó, đặc biệt lĩnh vực khai phá liệu trình bày chương Mơ hình tập thơ dung sai (TRSM) trình bày đây, mơ hình biểu diễn văn sử dụng Chương Chương 3: Trình bày số kỹ thuật xử lý văn mơ hình biểu diễn văn Các tốn, phương pháp trình bày tổng quan chương sử dụng với liệu cụ thể liệu văn Chương 4: Mơ hình tập thơ dung sai xử lý sở liệu văn nói chung văn tiếng Việt nói riêng Áp dụng thực tế để xử lý vấn đề đông nghĩa, trái nghĩa tiếng Việt Chương 5: Trình bày kết luận, hạn chế luận văn đề xuất hướng phát triển tương lai Học viên thực hiện: Trần Quang – Lớp CH CNTT 2007-2009 8/117 Xử lý văn tiếng Việt theo mơ hình tập thơ dung sai Chương Tổng quan khai phá liệu Nội dung trình bày: • Các khái niệm khai phá liệu • Một số kỹ thuật khai phá liệu • Các ứng dụng xu hướng khai phá liệu 1.1 Khai phá liệu – Data Mining Khai phá liệu[1] trình trích rút thơng tin ẩn chứa kho liệu lớn, đơi cịn gọi khai phá tri thức từ liệu (knowledge mining from data) Có nhiều thuật ngữ khác có nghĩa tương đồng khác biệt đôi chút với thuật ngữ Data Mining, chẳng hạn knowledge mining from data, knowledge extraction, data/pattern analysis, data archaeology, data dredging Hình 1.1: Data mining – tìm kiếm tri thức liệu Học viên thực hiện: Trần Quang – Lớp CH CNTT 2007-2009 9/117 Xử lý văn tiếng Việt theo mơ hình tập thơ dung sai Tiền xử lý văn Tạo lớp dung sai cho thuật ngữ Tính xấp xỉ trên, xấp xỉ cho tài liệu Xây dựng mô tả cho tài liệu Clustering Xử lý đồng nghĩa, trái nghĩa Hình 4.4: Các bước chương trình Chi tiết bước giải thích sau: • Bước tiền xử lý văn bản: Các văn đầu vào tập hợp lại thư mục đĩa cứng, sau đo thực trình tách thuật ngữ cho văn bản, tác giả luận văn sử dụng chương trình vnTokenizer viết tác giả Lê Hơng Phương, chương trình tách thuật ngữ tiếng Việt tương đối tốt Trước tách từ, văn chuyển dạng chữ in thường, thuật ngữ tách Học viên thực hiện: Trần Quang – Lớp CH CNTT 2007-2009 103/117 Xử lý văn tiếng Việt theo mơ hình tập thô dung sai chữ thường Các từ dừng tiếng Việt loại bỏ Khi kết thúc bước này, ta có ma trận tần số- tài liệu dùng để biểu diễn số lần xuất thuật ngữ tài liệu, ký ma trận TF • Tính lớp dung sai thuật ngữ: Với ngưỡng θ cho trước, ta tính lớp dung sai cho thuật ngữ Kết thúc trình ta thu ma trận nhị phân để biểu diễn lớp dung sai thuật ngữ; ma trận kích thước N × N với N tổng số thuật ngữ, phần tử (i, j) =1 nói lên thuật ngữ j thuộc lớp dung sai thuật ngữ i, ngược lại, ký hiệu ma trận TOL • Tính xấp xỉ trên, xấp xỉ tài liệu: Dựa vào ma trận tần suất ma trận biểu diễn lớp dung sai thuật ngữ thu từ bước trên, ta tiến hành tính xấp xỉ xấp xỉ cho tài liệu Kết thúc bước ta có ma trận nhị phân kích thước N × M với N tổng số thuật ngữ, M tổng số tài liệu, ký hiệu ma trận UPPER, phần tử UPPER[i, j] = có nghĩa thuật ngữ i thuộc xấp xỉ tài liệu j, ngược lại UPPER[i, j] = Tương tự, ta có LOWER ma trận nhị phân để biểu diễn xấp xỉ cho tài liệu • Xây dựng mơ tả cho tài liệu: Căn vào kết có bước trên, ta biểu diễn văn theo mơ hình TRSM, kết thúc bươc ta có ma trận trọng số, ký hiệu WEIGHT Mỗi phần tử WEIGHT[i, j] cho biết trọng số thuật ngữ i tài liệu j • Clustering: Ở ta áp dụng số giải thuật clustering (chẳng hạn Non-hierarchical clustering) để phân nhóm tập M văn ban đầu thành K lớp Kết thức bước này, ta có K cluster • Xác định đồng nghĩa, trái nghĩa: Vấn đề đồng nghĩa, trái nghĩa xem xét thông qua khái niệm co-occurrence đề cập Nếu thuật ngữ đồng nghĩa với chúng phải xuất tài liệu, ngược lại trái nghĩa Vấn đề đồng nghĩa, trái nghĩa cịn xem xét thơng qua việc phân tích cluster tạo bước Học viên thực hiện: Trần Quang – Lớp CH CNTT 2007-2009 104/117 Xử lý văn tiếng Việt theo mô hình tập thơ dung sai Các cluster thường chứa văn thuộc chủ đề, thuật ngữ dùng biểu diễn cluster có khả đồng nghĩa cao thuật ngữ biểu diễn cluster khác Ở ta gặp lại khái niệm co-occurrence xem xét thuật ngữ biểu diễn cluster Để giải quyêt vấn đề đồng nghĩa ta cần dựa vào độ đo tương tự thuật ngữ trình bày phần 4.3.2.2 giá trị ngưỡng dùng để định độ tương tự, ký hiệu ngưỡng ω Ta nhận thấy sau trình clustering văn đầu vào ta thu cluster mà biểu diễn cluster có đặc điểm: thứ nhất, tài liệu cluster có số nhiều thuật ngữ chung với biểu diễn cluster; thứ hai, thuật ngữ biểu diễn cluster thuộc số lượng lớn tài liệu cluster; thứ ba, khơng có thuật ngữ biểu diễn cluster phải thuộc tất tài liệu cluster Như ta tính độ tương tự hai thuật ngữ thông qua cluster biểu diễn cluster Ta đến độ đo sau: COSINE(X, Y) = DICE(X, Y) = TANIMOTO(X, Y) = F ( X ,Y ) , F ( X ) × F (Y ) × F ( X ,Y ) , F ( X ) + F (Y ) F ( X ,Y ) F ( X ) + F (Y ) − F ( X , Y ) Trong đó: - F(X) số cluster chứa thuật ngữ X, - F(Y) số cluster chứa thuật ngữ Y, - F(X, Y) số cluster chứa đồng thời hai thuật ngữ X Y Với ngưỡng ω cho trước áp dụng độ đo tương ứng để đánh giá mức độ đồng nghĩa hai thuật ngữ X Y, độ tương tự lớn ngưỡng ω , coi hai thuật ngữ có khả đồng nghĩa, ngược lại, chúng có khả trái nghĩa Chương trình có lớp sau: Học viên thực hiện: Trần Quang – Lớp CH CNTT 2007-2009 105/117 Xử lý văn tiếng Việt theo mơ hình tập thơ dung sai • Lớp IndexTerm dùng để lưu trữ thuật ngữ, lớp có member để lưu lại danh sách tài liệu chứa thuật ngữ với đặc trưng thống kê khác chẳng hạn số lần xuất thuật ngữ tài liệu hay trọng số thuật ngữ tài liệu class IndexTerm { public: IndexTerm(const std::wstring&); ~IndexTerm(void); // Toan tu so sanh thuat ngu bool operator == (const std::wstring&); bool operator == (const IndexTerm&); // Toan tu lay ve so cua thuat ngu tai lieu // nIndex double& operator [](int nIndex); // Phuong thuc lay so lan xuat hien cua thuat ngu tai // lieu int GetNumOccurrence(int iDocIndex); public: // Tong so thuat ngu static int N; // Index cua thuat ngu int m_nIndex; // Thuat ngu std::wstring m_sTerm; // Danh sach cac tai lieu chua thuat ngu cung cac dac // trung thong ke khac std::vector m_vDocList; // Lop dung sai cua thuat ngu std::vector m_vToleranceClass; }; • Lớp Document: Dùng để lưu trữ tài liệu, có thuộc tính để lưu trữ tất thuật ngữ xuất tài liệu, mặt khác có thành viên để lưu trữ xấp xỉ xấp xỉ tài liệu class Document { public: Document(const std::string& strFileName); ~Document(void); // Toan tu tinh so lan xuat hien cua thuat ngu pTerm // tai lieu int operator [] (IndexTermPtr_t pTerm); // Dua them mot thuat ngu vao danh sach void AddTerm(IndexTermPtr_t pTerm); public: // Tong so tai lieu thu thap duoc static int M; // Chi so cua tai lieu int m_nIndex; Học viên thực hiện: Trần Quang – Lớp CH CNTT 2007-2009 106/117 Xử lý văn tiếng Việt theo mơ hình tập thô dung sai }; // Ten file tuong ung voi tai lieu std::string m_sFileName; // Danh sach thuat ngu xuat hien tai lieu std::vector m_vTerms; // Xap xi tren cua tai lieu std::vector m_vUpperApproximation; // Xap xi duoi cua tai lieu std::vector m_vLowerApproximation; • Lớp DocCollection: Dùng để lưu trữ toàn tập văn đầu vào, có phương thức để tính tốn lớp dung sai, tính giá trị cho ma trận tần suất, ma trận trọng số tài liệu-thuật ngữ class DocCollection { public: DocCollection(const std::string& sPath); DocCollection(std::string sPath, int iThreshold); ~DocCollection(void); // Doc thu muc chua tap cac van ban dau vao, trich xuat noi // dung cac file void Init(); // Tach cac thuat ngu chuoi std::vector ExtractTerms(std::wstring wStr); // Ghi stream friend std::wofstream& operator

Định dạng
Số trang	118
Dung lượng	2,72 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Jiawei Han, Michiline Kamber. Data Ming: Concepts and Techniques, Second Edition. Morgan Kaufmann, 2006	Khác
[2] Jan Komorowski, Lech Polkowsli, Andrzej Skowron. Rough Sets: A Tutorial	Khác
[3] Zdzislaw Pawlak. Some Issuses on Rough Sets. Transactions on Rough Sets I, 2004, pp. 11-41	Khác
[5] Ho Tu Bao, Nguyen Ngoc Binh. Nonhierarchical document clustering based on a tolerance rough set model. International Journal of Intelligent Systems	Khác
[6] Ho Tu Bao, Nguyen Ngoc Binh, Saori Kawasaki. Hierarchical document clustering based on tolerance rough set model. In Principles of Data Mining and Knowledge Discovery, 4 th European Conference, PKDD 2000, Lyon, France 2000	Khác
[7] Ngo Chi Lang. A tolerance rough set approach to clustering web search results. Master thesis in Computer Science. December 2003	Khác
[8] Dawid Weiss. Descriptive Clustering as a method for exploring text collections. A dissertation submitted to the Council of the Faculty of Computer Science and Management in partial fulfillment of the requirements for the degree of Doctor of Philosophy, 2006	Khác
[9] Nguyễn Thị Kim Ngân. Phân loại văn bản Tiếng Việt bằng phương pháp Support Vector Machines. Luận văn Thạc Sỹ ngành CNTT, ĐHBK HN, 2004	Khác
[10] Nello Cristianini, John Shawe-Taylor. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press	Khác
[11] Shusaku Tsumoto, Roman Slowinski, Jan Komorowski, Jerry W.Grzymala- Busse. Rough Sets and Current Trend in Computing. 4 th International Conference, RSCTC 2004, Uppsala, Sweden, June 2004, Springer	Khác
[12] Walter Daelemans, Bart Goethals, Katharina Morik. Machine Learning and Knowledge Discovery in Databases. European Conference, ECML PKDD 2008, Part II	Khác
[13] Rough Sets, Fuzzy Sets, Data Mining and Granular Computing: 11th International Conference, RSFDGrC 2007, Toronto, Canada, May 14-16, 2007 (Lecture Notes in Computer Science)	Khác
[14] Helen J. Peat and Peter Willett. Journal of the American Society for Information Science. pp. 378-383, June 199	Khác