Sự bùng nổ thông tin trong thời đại ngày nay khiến thông tin tìm kiếm tài liệu bị trùng lặp, dễ lẫn lộn khiến ta khó có thể phân loại được tài liệu có nội dung tương tự hay tài liệu thuộc một chủ đề nào đó. Thực tiễn tại Trung tâm Thông tin thư viện Trường Đại học Đồng Nai có hàng ngàn tài liệu chưa được khai phá hay phân loại mà chưa có một biện pháp nào thực hiện công việc đó. Vấn đề do nhu cầu cấp bách đặt ra cần có một công cụ để hỗ trợ tra cứu tài liệu có nội dung tương tự nhanh chóng. Luận văn này tôi tập trung xây dựng công cụ hỗ trợ tra cứu tài liệu có nội dung tương tự dựa trên thuật toán mạng Kohonen để giải quyết vấn đề. Trên cơ sở sử dụng dữ liệu văn bản dạng text tóm tắt các tài liệu tại trung tâm thông tin thư viện trường đại học Đồng Nai, tôi có sử dụng một số công cụ tách từ vănm bản đã được kiểm nghiệm thực tế như phần mềm vnTokenizer 6, thuật toán huấn luyện mạng Kohonen, truy vấn thông tin lớp ra Kohonen, phụ lục các tài liệu, phụ lục từ dừng trong tiếng việt, phục lục các từ phân biệt có trong hệ thống. Tác giả đã thực hiện một số thực nghiệm thực tế, sử dụng một số chỉ số đánh giá như Precision, Recall và Fmeasure giữa hai cụm trong hệ thống để đánh giá thử nghiệm hệ thống.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG LÊ TRỌNG VŨ XÂY DỰNG CÔNG CỤ HỖ TRỢ TRA CỨU TÀI LIỆU CÓ NỘI DUNG TƯƠNG TỰ NHAU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG LÊ TRỌNG VŨ XÂY DỰNG CÔNG CỤ HỖ TRỢ TRA CỨU TÀI LIỆU CÓ NỘI DUNG TƯƠNG TỰ NHAU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Mã số: 60.48.02.01 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS ĐỖ PHÚC Đồng Nai, năm 2016 LỜI CẢM ƠN Đầu tiên, xin chân thành cảm ơn sâu sắc đến Thầy PGS TS Đỗ Phúc người nhiệt tình hướng dẫn tơi hồn thành luận văn Trong thời gian hướng dẫn Thầy quan tâm, bảo kịp thời nguồn động viên quý báu để xây dựng hồn thành luận văn Tiếp theo, tơi chân thành gửi đến Thầy cô công tác khoa Công nghệ thông tin khoa Sau Đại học, Thầy trực tiếp giảng dạy lớp CNTT cao học khóa cung cấp kiến thức tảng để áp dụng vào luận văn Cuối cảm ơn gia đình, đồng nghiệp, bạn bè Ban Giám hiệu trường Đại học Đồng Nai giúp đỡ tạo điều kiện thuận lợi cho học tập, nghiên cứu để hoàn thành luận văn Đồng Nai, Ngày 26 tháng 09 năm 2016 Học viên Lê Trọng Vũ LỜI CAM ĐOAN Tôi xin cam đoan luận văn cá nhân tơi hồn tồn thực được, tài liệu tham khảo trích dẫn rõ ràng nguồn gốc khoa học mang tính hợp pháp Tơi xin hồn tồn chịu trách nhiệm hình thức kỷ luật theo quy định theo lời cam đoan Đồng Nai, Ngày 26 tháng 09 năm 2016 Học viên Lê Trọng Vũ TĨM TẮT LUẬN VĂN Sự bùng nổ thơng tin thời đại ngày khiến thơng tin tìm kiếm tài liệu bị trùng lặp, dễ lẫn lộn khiến ta khó phân loại tài liệu có nội dung tương tự hay tài liệu thuộc chủ đề Thực tiễn trung tâm thơng tin thư viện trường đại học Đồng Nai có hàng ngàn tài liệu chưa khai phá hay phân loại mà chưa có biện pháp thực cơng việc Vấn đề nhu cầu cấp bách đặt cần có công cụ để hỗ trợ tra cứu tài liệu có nội dung tương tự nhanh chóng Luận văn tập trung xây dựng công cụ hỗ trợ tra cứu tài liệu có nội dung tương tự dựa thuật toán mạng Kohonen để giải vấn đề Trên sở sử dụng liệu văn dạng text tóm tắt tài liệu trung tâm thơng tin thư viện trường đại học Đồng Nai, tơi có sử dụng số công cụ tách từ văn kiểm nghiệm thực tế phần mềm vnTokenizer [6], thuật tốn huấn luyện mạng Kohonen, truy vấn thơng tin lớp Kohonen, phụ lục tài liệu, phụ lục từ dừng tiếng việt, phục lục từ phân biệt có hệ thống Tác giả thực số thực nghiệm thực tế, sử dụng số số đánh Precision, Recall F-measure hai cụm hệ thống để đánh giá thử nghiệm hệ thống MỤC LỤC LỜI CẢM ƠN .3 LỜI CAM ĐOAN DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT MỞ ĐẦU .1 CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1.1 Khai phá liệu khám phá tri thức 1.1.2 Quy trình khám phá tri thức 1.1.3 Các phương pháp áp dụng khai phá liệu 1.1.4 Tổng quan kỹ thuật khai phá liệu 1.2 Gom cụm khai phá liệu 1.2.1 Khái niệm mục tiêu gom cụm liệu 1.2.1.1 Gom cụm liệu: .9 1.2.1.2 Các mục tiêu gom cụm liệu 10 1.2.2 Các ứng dụng gom cụm liệu .12 CHƯƠNG 2: GOM CỤM VĂN BẢN 13 2.1 Tổng quan toán 13 2.2 Đặc điểm ngôn ngữ tiếng Việt 17 2.2.1 Cấu tạo từ tiếng Việt .17 2.2.2 Đặc điểm tả 18 2.2.3 Tách từ 19 2.3 Hướng tiếp cận cho toán .22 2.3.1 Tiền xử lý văn tiếng Việt .22 2.3.1.2 Loại bỏ hư từ - từ dừng 22 2.3.1.3 Loại bỏ từ có tần số thấp 22 2.3.2 Tính độ tương đồng văn 23 2.3.3 Hướng giải toán .23 2.4 Độ tương đồng 24 2.4.1 Khái niệm độ tương đồng .24 2.4.2 Độ tương đồng 25 2.4.3 Các phương pháp tính độ tương đồng 25 2.4.3.1 Phương pháp tính độ tương đồng sử dụng độ đo Cosine .25 2.4.3.2 Phương pháp tính độ tương đồng dựa vào độ đo khoảng cách Euclide 26 2.5 Gom cụm mạng Kohonen 26 2.5.1 Kiến trúc cụm phẳng .27 2.5.2 Mạng Kohonen 27 2.5.3 Gom cụm từ lớp Kohonen 27 2.5.4 Thuật giải huấn luyện mạng Kohonen 28 2.5.5.1 Dựa vùng lân cận nơron chiến thắng 28 2.5.5.2 Đặc trưng cụm lớp Kohonen .29 CHƯƠNG 3: KHẢO SÁT NGUỒN THÔNG TIN TẠI THƯ VIỆN TRƯỜNG ĐẠI HỌC ĐỒNG NAI VÀ PHÂN TÍCH HỆ THỐNG TRA CỨU NỘI DUNG TƯƠNG TỰ .31 3.1 Giới thiệu thư viện trường Đại học Đồng Nai 31 3.2 Phân tích hệ thống, cơng cụ để xây dựng phần mềm tra cứu .32 3.2.1 Xử lý liệu 33 3.2.1.1 Tách từ tiếng Việt tập tin đầu vào 33 3.2.1.2 Loại bỏ từ dừng, hư từ 33 3.2.1.3 Đặc trưng văn 33 3.2.1.4 Biểu diễn văn 34 3.2.2 Huấn luyện mạng Kohonen – Gom cụm tài liệu 34 3.2.3 Truy vấn tương tự qua lớp Kohonen 35 CHƯƠNG 4: CÀI ĐẶT, THỬ NGHIỆM, SO SÁNH 37 4.1 Kết thực nghiệm 37 4.1.1 Môi trường thực nghiệm .37 4.1.2 Công cụ 37 4.1.3 Dữ liệu 38 4.2 Kết thực nghiệm 39 4.2.1 Chức 1: Hiện thị tập tin 39 4.2.2 Chức 2: Huấn luyện Kohonen 45 4.2.3 Chức 3: Truy vấn Lớp Kohonen 48 4.3 Đánh giá kết gom cụm 51 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54 5.1 Kết đạt luận văn 54 5.2 Hướng phát triển luận văn 54 TÀI LIỆU THAM KHẢO 56 PHỤ LỤC TỪ DỪNG 58 PHỤ LỤC TỪ PHÂN BIỆT .59 DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT Từ cụm từ Từ viết tắt Từ tiếng Anh Cơ sở liệu CSDL Database Gom cụm liệu GCDL Data Clustering Khai phá liệu KPDL Data mining Khai phá tri thức KPTT Knowledge Mining Khai phá tri thức KDD Knowledge Discovery sở liệu In database DANH MỤC BẢNG Bảng 1.1 Nguồn lực thông tin tài liệu Bảng 4.1 Cấu hình hệ thống 37 Bảng 4.2 Công cụ vnTokenizer 37 Bảng 4.3 Kết F-measure 53 46 - Khi chạy “Gom cụm Kohonen” ta có kết hình 4.10 rõ tập tin nằm cụm có tọa độ Ví dụ : Tập tin 001.txt nằm tọa độ (0 4) Tập tin 002.txt nằm tọa độ (2 4) Tập tin 003.txt nằm tọa độ (0 4) Tập tin 004.txt nằm tọa độ (0 4) Tập tin 005.txt nằm tọa độ (0 4) Tập tin 006.txt nằm tọa độ (0 4) Tập tin 007.txt nằm tọa độ (0 7) Tập tin 008.txt nằm tọa độ (0 7) Tập tin 009.txt nằm tọa độ (0 7) Tập tin 011.txt nằm tọa độ (0 0) Tập tin 012.txt nằm tọa độ (7 0) Hình 4.10 Kết lớp Kohonen - Chức “Lọc từ đặc trưng cho cụm” , ta chọn ngưỡng 47 Xác định ngưỡng chuyển văn sang vector ta có hình 4.11 Hình 4.11 Lọc từ đặc trưng Ví dụ khác ta chọn ngưỡng đặc trưng 3.5 ta hình 4.12 sau Hình 4.12 Gom cụm với ngưỡng đặc trưng 48 4.2.3 Chức 3: Truy vấn Lớp Kohonen Kết luận văn đạt thể hiển chức truy vấn thông tin Tất tài liệu thực nghiệm gom thành cụm, cụm có tài liệu tương tự Màn hình truy vấn hình 4.13 gồm có chức nằng vẽ lớp ra, truy vấn lớp Kohonen - Bên phải hình danh sách node tọa độ - Danh sách tập tin chọn combobox - Chọn tập tin để thị nội dung - Chọn ngưỡng từ đặc trưng hiển thị từ đặc trưng Hình 4.13 Giao diện lớp Kohonen Lớp Kohonen có kích thước 8x8 Mỗi lớp chứa tập tin có nội dung tương tự hình 4.14 Những có màu vàng khơng chứa tập tin tương tự Những cịn lại cụm chứa tập tin tương tự 49 Hình 4.14 Vẽ lớp Kohonen Ví dụ kết node (1 8) có chứa tập tin 001.txt, rõ đường dẫn tập tin nằm D:\Projects\Hetruyvantuongtu\Tachtuviet\Data\001.txt Khi dùng chuột click vào ô danh sách tập tin tương tự nằm ô hình 4.15 Màn hình bên tay phải dịng “danh sách tập tin node (1 5)”Ta dùng chức combo box để liệt kê tên tập tin này.Và xem nội dung tập tin chọn “Hiện thị nội dung file” 50 Hình 4.15 Cụm Kohonen - Chức năng: Chọn ngưỡng thị từ đặc trưng tập tin Ví dụ hình 4.16 ta chọn ngưỡng đặc trưng Hiển thị từ đặc trưng khung bên tay phải là: Luật, tố_tụng, đạo luật, thẩm_quyền, tòa_án, mở _rộng, thẩm_quyền…(xem phục lục thêm) Hình 4.16 Hiển thị cụm file tương tự 51 4.3 Đánh giá kết gom cụm Các hệ số Precision, Recall F-measure sử dụng để đánh giá kết gom cụm Chúng so sánh kết gom cụm tài liệu theo giải pháp đề xuất so sánh với kết gom cụm tài liệu tay (do người làm) Kết qủa gom cụm tài liệu tay chủ đề cụm Xét tập có n tài liệu, sau gom cụm tay ta có m cụm, sau gom cụm hệ thống phần mềm gom cụm văn có k cụm Trong quy trình thử nghiệm ta có m ≤ k Để đánh giá kết hệ thống, ta tiến hành xác định ba hệ số Precision, Recall F-measure hai cụm hai hệ thống Hình 4.17 Quan hệ hai cụm Gọi a=|A|, b=|B| c=|C|.Trong hình 4.17, cụm mi người tạo A∪B gồm có a+b văn bản, cụm ki hệ thống gom gồm A∪C có a + c văn Hai cụm có phần chung A gồm a văn Hệ số Precision hai cụm ký hiệu P (Precision) phản ánh độ xác truy vấn tính công thức: Hệ số Precision cho biết tỉ lệ số văn gom cụm Nếu P=1 văn cụm ki nằm văn cụm mi Hệ số Recall 52 hai cụm mi ki ký hiệu R (recall) tính cơng thức Nếu R =1 văn cụm mi thuộc văn nằm cụm ki Có thể kết hợp hai hệ số Precision Recall lại thành hệ số F-Measure Hệ số F-Measure tính cơng thức: Giá trị α cao tác động mạnh đến hệ số Recall, ngược lại giá trị α thấp tác động mạnh lên hệ số Presicion Thông thường hệ số α cơng thức chọn 0.5 Khi cơng thức (12) viết lại: Brew C [7] đề nghị cách đánh sau: Tương ứng với cụm kết gom cụm hệ thống ta tính giá trị độ đo F-measure với tất cụm gom tay Chọn giá trị F-measure cao loại cụm Tiếp tục cơng việc trên, cho cụm cịn lại Tổng giá trị F-measure cao hệ thống gom cụm xác Tập kết thử nghiệm gom cụm có 200 tài liệu thuộc 10 chủ đề khác nhau, chủ đề có 20 tài liệu Kích thước lớp Kohonen 8x8 53 Dưới kết F-measure với m=5 cụm k= cụm Kohonen(k)/ m1 m2 m3 m4 m5 k1 0.39 0.34 0.31 0.60 0.25 k2 0.51 0.56 0.00 0.34 0.43 k3 0.61 0.00 0.81 0.00 0.19 k4 0.19 0.17 0.55 0.21 0.26 k5 0.00 0.71 0.25 0.17 0.64 k6 0.83 0.16 0.19 0.23 0.54 Max 0.83 0.71 0.81 0.60 0.64 Bằng tay (m) Bảng 4.3 Kết F-measure Nhận xét: Tổng Max gom cụm Kohonen 0.83 + 0.71 +0.81 + 0.60 + 0.64 = 3.59 Giá trị tổng Max F- measure 3.59 Giá trị max đánh giá cao 3.59/5 ~ 71% chứng tỏ phương pháp đề xuất gom cụm tài liệu mạng Kohonen đạt hiệu cao Tỷ lệ xác 71% phụ thuộc nhiều vào phần mềm tách từ vnTokenizer, phần mềm trải qua nhiều lần cải tiến độ xác ngày cao, đạt 97% 54 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết đạt luận văn Luận văn tiến hành nghiên cứu giải tốn gom cụm văn tiếng Việt có nội dung tương tự dựa vào đặc trưng Bài toán tảng cho nhiều ứng dụng quan trọng thực tế lọc thư spam, rút trích văn bản, hệ thống khuyến cáo người dùng… Phương pháp giải luận văn tập trung vào quy trình phân tích đặc trưng văn cho liệu học máy biểu diễn văn dạng vector Xây dựng liệu đặc trưng cho thể loại Đưa sử dụng độ đo tương đồng để đánh giá gom cụm Một mơ hình phân loại đưa từ bước tiền xử lý đưa giá trị cuối đạt kết khả quan, cho thấy tính đắn việc lựa chọn kết hợp phương pháp Tuy bước đầu đạt số kết khả quan, tồn số vấn đề cần khắc phục: + Một văn đầu vào cần phân loại sau quy trình cho kết qủa thuộc vào thể loại + Hạn chế số lượng chất lượng kho liệu text ảnh hưởng đến chất lượng phân loại hệ thống + Cần xác định giá trị chuẩn để văn tài liệu thuộc vào nhiều thể loại, không thuộc thể loại 5.2 Hướng phát triển luận văn Đây đề tài sát với thực tế quan làm việc động lực nghiên cứu phát triển hệ thống gom cụm tài liệu nội dung tương tự Có hướng nghiên khai phá sau: - Phát triển mở rộng mơ hình phân loại văn cho văn khác ngồi văn dạng tóm tắt txt.Ví dụ: tài liệu thư viện: pdf, word ngôn ngữ tiếng Anh… 55 - Phát triển thêm kho ngữ liệu từ, cụm từ để tăng độ xác việc độ quan trọng văn - Cải tiến thuật toán để tăng tốc xử lý cho hệ thống - Khai phá theo hướng hình ảnh video - Khai phá kết hợp nội dung cấu trúc - So sánh với phương pháp gom cụm khác Cải tiến quy trình xử lý để tăng tốc cho hệ thống 56 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đỗ Phúc (2006), Giáo trình Khai thác liệu, Đại học quốc gia TP HCM, Đại học CNTT [2] Nguyễn Hồng Tú Anh Giáo trình “Khai thác liệu ứng dụng” 2009 (Đại học KHTN Tp Hồ Chí Minh) [3] Lê Quý Tài, “Nghiên cứu phương pháp xử lý tiếng Việt, ứng dụng cho tóm tắt văn bản”, Đại học Quốc gia Hà Nội, 2011 [4] Dương Thăng Long, “Nghiên cứu độ tương đồng văn tiếng Việt ứng dụng hỗ trợ đánh giá việc chép điện tử”, Viện Đại học Mở Hà Nội, 2014 [5] Đỗ Thị Thanh Nga, “Tính tốn độ tương tự ngữ nghĩa văn dựa vào độ tương tự từ với từ”, Đại học Công nghệ Đại học Quốc gia Hà Nội, 2010 Internet: [6] Hệ tách từ tiếng Việt, https://sourceforge.net/projects/vntokenizer/ [7] Brew C, Schulte im Walde Spectral Clustering for German Verbs, In Proc of the Confin Natural Language Proocessing, Philadenphia, PA, pp 117-124, (2002) [8] Dr Osmar R.Zaiane “Principles of knowledge discovery in databases” Fall 2001 (University of Alberta) [9] Rong Hu (2011) “Active Learning for Text Classification”, Doctoral Thesis, Dublin Institute of Technology [10] Thorsten Joachims, “Text Categorization with Support Vector Machines: Learning with Many Relevant Features”, University Dortmund [11] Fabrizio Sebastiani, “Text Categorization”, Dipartimento di Matematica Pura e Applicata, Universit`a di Padova [12] Tong Zhang and Frank J Oles, “Text Categorization Based on Regularized Linear Classifiacation Methods”, Mathematical Sciences Department IBM 57 [13] Tran Vu Pham, Le Nguyen Thach (2011) , “Social-Aware Document Similarity Computation for Recommender Systems”, Proceedings of the 2011 IEEE Ninth International Conference on Dependable, Autonomic and Secure Computing [14] Tran Vu Pham (2011), “Dynamic Profile Representation and Matching in Distributed Scientific Networks”, in Journal of Science and Technology Development, Vol 14, No K2 [15] Nguyễn Thị Thùy Linh (2006), “Phân lớp tài liệu Web độc lập ngôn ngữ”, luận văn tốt nghiệp đại học, trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội [16] Nguyễn Thế Quang, “Phát triển thuật toán gom cụm văn HTML ứng dụng” 58 PHỤ LỤC TỪ DỪNG bị có một_cách có_thể trước nên từ cần nhiều không sau vào lại so cho để lên nơi việc đến_nỗi lúc với chưa mà phải theo vừa chuyện điều qua Có_lẽ 59 PHỤ LỤC TỪ PHÂN BIỆT Sách việc niêm_yết Quốc_hội Báo_cáo kì thị_trường_chứng_khốn khóa tài_chính tương_lai Việt_Nam XIII Phân_tích xác_định nhằm kỳ dự_báo giá_trị nhanh_chóng họp định_giá 12 nắm_bắt thứ giúp chương kiến_thức 10 bạn_đọc áp_dụng ngày nhận_diện phần_lớn vào 25-11-2015 thơng_tin tình_huống thực_tiễn thay_thế ảnh_hưởng Vừa_qua năm mối từ Luật_Tố 2010 quan_hệ 01-7-2016 tụng hiệu_lực yếu_tố Đây hành_chính thi_hành 60 pháp_luật bảo_đảm xét_xử chính_xác Bình_luận Luật tính Tịa_án Nhằm khoa_học tố_tụng cơng_khai tạo nói_chung minh_bạch thuận_lợi người_làm Luật_gia ban_hành quyền cơng_tác Nguyễn_Ngọc_Điệp cơ_sở tranh_tụng người nói_riêng chun_gia kế_thừa mở_rộng khởi_kiện thuận_tiện kinh_nghiệm phát_triển thẩm_quyền pháp_lý tìm_hiểu biên_soạn quy_định bảo_đảm nghiên_cứu Với hướng tiến_hành 2015 cách bổ_sung diễn_đạt giải_quyết Nhà_xuất_bản bình_luận nhiều sát khiếu_kiện Lao_Động dễ theo tiếp_cận một_cách xuất_bản hiểu q_trình hồn_thiện phức_tạp ... chứa nhiều tài liệu văn điện tử - tài liệu số chưa khai phá chưa có công cụ phần mềm đáp ứng nhu cầu tra cứu tài liệu có nội dung tương tự Tôi cảm thấy cấp bách cần công cụ tra cứu tài liệu áp dụng... xuất cụm Mục tiêu luận văn - Luận văn đề xuất giải pháp vận dụng phương pháp tính độ tương tự từ với từ để tính độ tương đồng văn - Công cụ hỗ trợ tìm kiếm tài liệu có nội dung tương tự thành cụm... GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG LÊ TRỌNG VŨ XÂY DỰNG CÔNG CỤ HỖ TRỢ TRA CỨU TÀI LIỆU CÓ NỘI DUNG TƯƠNG TỰ NHAU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Mã số: 60.48.02.01 NGƯỜI HƯỚNG DẪN