http:123link.proV8C5Mục tiêu của đề tài: Đề xuất giải pháp vận dụng phương pháp tính độ tương tự giữa từ với từ để tính được độ tương đồng giữa các văn bản. Công cụ hỗ trợ tìm kiếm được những tài liệu có nội dung tương tự thành từng nhóm trong nguồn thông tin Trung tâm dữ liệu và công nghệ thông tin Cục Hải quan Đồng Nai Đồng Nai. Giảm thiểu số lượng đối tượng trong việc phân loại tài liệu. Tạo tiền đề phát triển các ứng dụng khác.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG LÊ TIẾN MẠNH XÂY DỰNG CÔNG CỤ PHÂN LOẠI VĂN BẢN TỰ ĐỘNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, Năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG LÊ TIẾN MẠNH XÂY DỰNG CÔNG CỤ PHÂN LOẠI VĂN BẢN TỰ ĐỘNG Chuyên ngành: Công Nghệ Thông Tin Mã số: 60480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN VĂN HOÀI Đồng Nai, Năm 2017 i LỜI CẢM ƠN Để hoàn thành luận văn này, tơi bày tỏ lòng biết ơn chân thành đến PGS.TS Trần Văn Hồi, Thầy tận tình hướng dẫn, giúp đỡ tạo điều kiện thuận lợi để tơi hồn thành tốt luận văn Tơi xin cảm ơn đến tất quý thầy cô trường Đại học Lạc Hồng dạy dỗ hướng dẫn tận tình trình học tập Trường Tất kiến thức mà lĩnh hội hành trang quý giá đường học tập, làm việc nghiên cứu sau Xin cảm ơn gia đình, bạn bè đồng nghiệp động viên, hỗ trợ giúp đỡ trình thực luận văn Tuy nhiên kiến thức thời gian có giới hạn nên đề tài khó tránh khỏi thiếu sót, kính mong q thầy bạn đóng góp thêm để đề tài hồn chỉnh hơn! Tôi xin chân thành cảm ơn! Đồng Nai, Ngày 09 tháng 09 năm 2017 Học viên Lê Tiến Mạnh ii LỜI CAM ĐOAN Tôi xin cam đoan : a Những nội dung luận văn thực hướng dẫn trực tiếp thầy PGS.TS Trần Văn Hoài b Mọi tham khảo dùng luận văn trích dẫn rõ ràng trung thực tên tác giả, tên cơng trình, thời gian, địa điểm công bố c Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, xin chịu hồn tồn trách nhiệm Tơi xin chịu trách nhiệm nghiên cứu mình! Đồng Nai, ngày 09 tháng 09 năm 2017 Học viên Lê Tiến Mạnh iii TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA SAU ĐẠI HỌC ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯ TÓM TẮT LUẬN VĂN (Dùng cho học viên người hướng dẫn) Đề tài: Xây dựng công cụ phân loại văn tự động Ngành: Công nghệ thông tin Mã số: 60.48.02.01 Học viên: Lê Tiến Mạnh Người hướng dẫn: PGS TS Trần Văn Hồi NỘI DUNG TĨM TẮT Cùng với xu hướng bùng nổ thông tin thời đại ngày nay, khơng năm ngồi xu hướng Cục Hải quan Đồng Nai nơi công tác gặp vấn đề bùng nổ thông tin khiến thơng tin tìm kiếm tài liệu bị trùng lặp, dễ lẫn lộn khiến ta khó phân loại tài liệu có nội dung tương tự hay tài liệu thuộc chủ đề Thực tiễn Trung tâm liệu công nghệ thông tin – Cục Hải quan Đồng Nai hàng ngày phát sinh hàng ngàn văn tài liệu trao đổi qua lại Cục Hải quan với đơn vị liên quan, đặc biệt với Doanh nghiệp ngược lại chưa có biện pháp để phân loại, hỗ trợ phận loại cho cán công chức Cục Hải quan Đồng Nai nhằm giảm thiểu nhân lực, thời gian, vật chất phục vụ công tác đạt hiệu cao Vấn đề nhu cầu cấp bách đặt cần có công cụ để hỗ trợ phân loại văn tự động nhằm giúp cho cán bộ, công chức Cục Hải quan Đồng Nai tiếp nhận văn phân loai tự động văn vào số lĩnh vực phát sinh thường xuyên - Tập trung xây dựng công cụ hỗ trợ phân loại văn tự động nhằm tra cứu văn có nội dung tương tự dựa thuật toán mạng Kohonen để giải vấn đề - Ngoài việc sử dụng liệu văn dạng text tóm tắt văn lưu trữ Trung tâm liệu công nghệ thông tin Cục Hải quan Đồng Nai, - Sử dụng số công cụ tách từ văn kiểm nghiệm thực tế phần mềm vnTokenizer iv - Thuật tốn huấn luyện mạng Kohonen, truy vấn thơng tin lớp Kohonen - Thực số thực nghiệm thực tế, sử dụng số số đánh Precision, Recall F-measure hai nhóm hệ thống để đánh giá thử nghiệm hệ thống - Tổng hợp đánh giá lần thử nghiệm trước đó, tiếp tục thưc đạt kết tốt - Giảm thiểu số lượng đối tượng việc phân loại tài liệu - Định hướng phát triển tích hợp vào ứng dụng vào thực tế Ngày 09 tháng 09 năm 2017 NGƯỜI HƯỚNG DẪN HỌC VIÊN PGS TS Trần Văn Hoài Lê Tiến Mạnh v MỤC LỤC LỜI CẢM ƠN .I LỜI CAM ĐOAN II TÓM TẮT LUẬN VĂN III DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT VIII DANH MỤC HÌNH ix MỞ ĐẦU 1 Lý thực đề tài: Mục tiêu luận văn Phạm vi đối tượng nghiên cứu Nội dung thực Ý nghĩa khoa học thực tiễn đề tài nghiên cứu Bố cục luận văn CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu 1.1.1 Khai phá liệu khám phá tri thức 1.1.2 Quy trình khám phá tri thức 1.1.3 Các phương pháp áp dụng khai phá liệu 1.2 Gom nhóm khai phá liệu 1.2.1 Khái niệm mục tiêu gom nhóm liệu 1.2.2 Các ứng dụng gom nhóm liệu 10 CHƯƠNG 2: GOM NHÓM VĂN BẢN 12 2.1 Tổng quan toán 12 2.2 Đặc điểm ngôn ngữ tiếng Việt 16 2.2.1 Cấu tạo từ tiếng Việt 16 2.3 Hướng tiếp cận cho toán 19 2.3.1 Tiền xử lý văn tiếng Việt 19 2.3.2 Tính độ tương đồng văn 20 2.3.3 Hướng giải toán 21 vi 2.4 Độ tương đồng 22 2.4.1 Khái niệm độ tương đồng 22 2.4.2 Độ tương đồng 22 2.4.3 Các phương pháp tính độ tương đồng 22 2.5 Gom nhóm mạng Kohonen 24 2.5.1 Kiến trúc cụm phẳng 24 2.5.2 Mạng Kohonen 24 2.5.3 Gom nhóm từ lớp Kohonen 25 2.5.4 Thuật giải huấn luyện mạng Kohonen 25 2.5.5 Cải tiến thuật giải huấn luyện mạng Kohonen 26 2.6 Mạng nơron đồ tự tổ chức: Error! Bookmark not defined CHƯƠNG 3: KHẢO SÁT NGUỒN THÔNG TIN TẠI TRUNG TÂM DỮ LIỆU & CÔNG NGHỆ THÔNG TIN CỤC HẢI QUAN ĐỒNG NAI VÀ PHÂN TÍCH HỆ THỐNG TRA CỨU NỘI DUNG TƯƠNG TỰ 29 3.1 Giới thiệu Trung tâm liệu công nghệ thông tin Cục Hải quan Đồng Nai29 3.2 Phân tích hệ thống, cơng cụ để xây dựng phần mềm tra cứu 30 3.2.1 Xử lý liệu 30 3.2.2 Huấn luyện mạng Kohonen – Gom nhóm tài liệu 31 3.2.3 Truy vấn tương tự qua lớp Kohonen 32 3.2.4.Đánh giá cải thiện 33 CHƯƠNG 4: CÀI ĐẶT, THỬ NGHIỆM, SO SÁNH 35 4.1 Kết thực nghiệm 35 4.1.1 Môi trường thực nghiệm 35 4.1.2 Công cụ 35 4.1.3 Dữ liệu 36 4.2 Kết thực nghiệm 36 4.2.1 Chức 1: Hiện thị tập tin 37 4.2.2 Chức 2: Huấn luyện Kohonen 41 4.2.3 Chức 3: Truy vấn Lớp Kohonen 44 4.3 Đánh giá kết gom nhóm 47 4.4 Tiếp tục gom nhóm có số lượng văn nhiều: 50 vii CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54 5.1 Kết đạt luận văn 54 5.2 Hướng phát triển luận văn 54 TÀI LIỆU THAM KHẢO 56 viii DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Từ nhóm từ Từ viết tắt Từ tiếng Anh Cơ sở liệu CSDL Database Gom nhóm liệu GCDL Data Clustering Khai phá liệu KPDL Data mining Khai phá tri thức KPTT Knowledge Mining Knowledge Discovery Khai phá tri thức KDD sở liệu Phân loại liệu PLDL Tổng cục Hải quan TCHQ Hải quan tỉnh Đồng Nai HQĐN In database Classification Việt Nam Customs Đồng Nai Customs 42 “Hiển thị tập tin” hiển thị tập tin hình 4.9 , tên tập tin InputtoKohonen nằm đường dẫn “ D:\Project\HeTruyVanTuongTu\Data” Hình 4.9 InputtoKohone - Khi chạy “Gom nhóm Kohonen” ta có kết hình 4.10 rõ tập tin nằm nhóm có tọa độ Ví dụ : Tập tin 001.txt nằm tọa độ (3 6) Tập tin 002.txt nằm tọa độ (3 6) Tập tin 003.txt nằm tọa độ (5 2) Tập tin 004.txt nằm tọa độ (1 8) Tập tin 005.txt nằm tọa độ (1 7) Tập tin 006.txt nằm tọa độ (1 1) Tập tin 007.txt nằm tọa độ (1 3) Tập tin 008.txt nằm tọa độ (1 3) Tập tin 009.txt nằm tọa độ (1 3) Tập tin 010.txt nằm tọa độ (1 3) Tập tin 011.txt nằm tọa độ (1 6) 43 Hình 4.10 Kết lớp Kohonen - Chức “Lọc từ đặc trưng cho nhóm” , ta chọn ngưỡng Xác định ngưỡng chuyển văn sang vector ta có hình 4.11 Hình 4.11 Lọc từ đặc trưng Ví dụ khác ta chọn ngưỡng đặc trưng 3.5 ta hình 4.12 sau 44 Hình 4.12 Gom nhóm với ngưỡng đặc trưng 4.2.3 Chức 3: Truy vấn Lớp Kohonen Kết luận văn đạt thể hiển chức truy vấn thông tin Tất tài liệu thực nghiệm gom thành nhóm, nhóm có tài liệu tương tự Màn hình truy vấn hình 4.13 gồm có chức nằng vẽ lớp ra, truy vấn lớp Kohonen - Bên phải hình danh sách node tọa độ - Danh sách tập tin chọn combobox - Chọn tập tin để thị nội dung - Chọn ngưỡng từ đặc trưng hiển thị từ đặc trưng 45 Hình 4.13 Giao diện lớp Kohonen Lớp Kohonen có kích thước 8x8 Mỗi ô lớp chứa tập tin có nội dung tương tự hình 4.14 Những ô có màu vàng không chứa tập tin tương tự Những lại nhóm chứa tập tin tương tự Hình 4.14 Vẽ lớp Kohonen Ví dụ kết node (1 8) có chứa tập tin 001.txt, rõ đường dẫn tập tin nằm C:\PhanCumKohonen\Tachtuviet\Data\001.txt 46 Khi dùng chuột click vào ô danh sách tập tin tương tự nằm hình 4.15 Màn hình bên tay phải dòng “danh sách tập tin node (1 5)”Ta dùng chức combo box để liệt kê tên tập tin này.Và xem nội dung tập tin chọn “Hiện thị nội dung file” Hình 4.15 Nhóm Kohonen - Chức năng: Chọn ngưỡng thị từ đặc trưng tập tin Ví dụ hình 4.16 ta chọn ngưỡng đặc trưng Hiển thị từ đặc trưng khung bên tay phải là: Luật, tố_tụng, đạo luật, thẩm_quyền, tòa_án, mở _rộng, thẩm_quyền…(xem phục lục thêm) 47 Hình 4.16 Hiển thị nhóm file tương tự 4.3 Đánh giá kết gom nhóm lần thứ Các hệ số Precision, Recall F-measure sử dụng để đánh giá kết gom nhóm Chúng tơi so sánh kết gom nhóm tài liệu theo giải pháp đề xuất so sánh với kết gom nhóm tài liệu tay (do người làm) Kết qủa gom nhóm tài liệu tay chủ đề nhóm Xét tập có n tài liệu, sau gom nhóm tay ta có m nhóm, sau gom nhóm hệ thống phần mềm gom nhóm văn có k nhóm Trong quy trình thử nghiệm ta có m ≤ k Để đánh giá kết hệ thống, ta tiến hành xác định ba hệ số Precision, Recall F-measure hai nhóm hai hệ thống Hình 4.17 Quan hệ hai nhóm 48 Gọi a=|A|, b=|B| c=|C|.Trong hình 4.17, nhóm mi người tạo A∪B gồm có a+b văn bản, nhóm ki hệ thống gom gồm A∪C có a + c văn Hai nhóm có phần chung A gồm a văn Hệ số Precision hai nhóm ký hiệu P (Precision) phản ánh độ xác truy vấn tính cơng thức: P a ac Hệ số Precision cho biết tỉ lệ số văn gom nhóm Nếu P=1 văn nhóm ki nằm văn nhóm mi Hệ số Recall hai nhóm mi ki ký hiệu R (recall) tính cơng thức Nếu R =1 văn nhóm mi thuộc văn nằm nhóm ki R a ab (11) Có thể kết hợp hai hệ số Precision Recall lại thành hệ số F-Measure Hệ số F-Measure tính cơng thức: F 1 (12) (1 ) P R Giá trị α cao tác động mạnh đến hệ số Recall, ngược lại giá trị α thấp động mạnh lên hệ số Presicion Thông thường hệ số α công thức chọn 0.5.Khi cơng thức (12) viết lại: F0.5 2PR PR (13) Brew C [7] đề nghị cách đánh sau: Tương ứng với nhóm kết gom nhóm hệ thống ta tính giá trị độ đo F-measure với tất nhóm gom tay Chọn giá trị F-measure cao 49 loại nhóm Tiếp tục cơng việc trên, cho nhóm lại Tổng giá trị F-measure cao hệ thống gom nhóm xác Tập kết thử nghiệm gom nhóm có 500 tài liệu thuộc 10 chủ đề khác nhau, chủ đề có 50 tài liệu Kích thước lớp Kohonen 8x8 Dưới kết F-measure với m=5 nhóm k= nhóm Kohonen(k)/ Bằng tay (m) m1 m2 m3 m4 m5 k1 0.39 0.34 0.31 0.60 0.25 k2 0.51 0.56 0.00 0.34 0.43 k3 0.61 0.00 0.81 0.00 0.19 k4 0.19 0.17 0.55 0.21 0.26 k5 0.00 0.71 0.25 0.17 0.64 k6 0.83 0.16 0.19 0.23 0.54 Max 0.83 0.71 0.81 0.60 0.64 Bảng 4.3 Kết F-measure Nhận xét: Tổng Max gom nhóm Kohonen 0.83 + 0.71 +0.81 + 0.60 + 0.64 = 3.59 Giá trị tổng Max F- measure 3.59 Giá trị max đánh giá cao 3.59/5 ~ 71% chứng tỏ phương pháp đề xuất gom nhóm tài liệu mạng Kohonen đạt hiệu cao Tỷ lệ xác 71% phụ thuộc nhiều vào phần mềm tách từ vnTokenizer, phần mềm trải qua nhiều lần cải tiến độ xác ngày cao, đạt 97% Mật Với liệu chuyên biệt, cụ thể văn lĩnh vực hải quản có tình trạng nhiều tập tin phân loại vào nhóm Như hình 4.22 biểu diễn mật độ văn phân bố sau gom nhóm lần thứ 50 Hình 4.22 Sơ đồ biểu diễn mật độ tài liệu văn Luận văn muốn phân tích sâu để tách nhóm văn 4.4 Tiếp tục gom nhóm có số lượng văn nhiều: Qua lần chạy thứ ta có kết nhóm vị trí (3,2) có 07 văn hình 4.18 phía Hình 4.18 Đánh giá kết Phân nhóm lần 51 Đánh giá việc kết lần thứ có nhiều văn gom vào nhóm việc phân nhóm với nhiều văn dẫn đến việc tìm kiếm văn trở nên khó khăn Chính cần phải phân nhóm Kohonen thêm lần để phân nhóm nhỏ theo ma trận 4x4 Bằng cách bấm vào nút Số lượng văn lần thứ hai sau: 015.txt 016.txt 018.txt 019.txt 012.txt 013.txt 014.txt Tiếp tục huấn luyện Kohonnen lần 2: Hình 4.19 Danh sách tập tin huấn luyện Kohonen lần 52 Hình 4.20 Kết chuyển văn bảng sang vector huấn luyện Kohonen lần Hình 4.21 Kết gom cụm huấn luyện Kohonen lần 53 Hình 4.21 Kết truy vấn huấn luyện Kohonen lần 54 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết đạt luận văn Luận văn tiến hành nghiên cứu giải tốn gom nhóm văn tiếng Việt có nội dung tương tự dựa vào đặc trưng Bài toán tảng cho nhiều ứng dụng quan trọng thực tế lọc thư spam, rút trích văn bản, hệ thống khuyến cáo người dùng… Phương pháp giải luận văn tập trung vào quy trình phân tích đặc trưng văn cho liệu học máy biểu diễn văn dạng vector Xây dựng liệu đặc trưng cho thể loại Đưa sử dụng độ đo tương đồng để đánh giá gom nhóm Một mơ hình phân loại đưa từ bước tiền xử lý đưa giá trị cuối đạt kết khả quan, cho thấy tính đắn việc lựa chọn kết hợp phương pháp Tuy bước đầu đạt số kết khả quan, tồn số vấn đề cần khắc phục: + Một văn đầu vào cần phân loại sau quy trình cho kết qủa thuộc vào nhóm + Chất lượng phân loại hệ thống hạn chế số lượng chất lượng kho liệu text + Cần xác định giá trị chuẩn để văn tài liệu thuộc vào nhiều thể loại, không thuộc thể loại 5.2 Hướng phát triển luận văn Đây đề tài sát với thực tế quan làm việc động lực nghiên cứu phát triển hệ thống gom nhóm tài liệu nội dung tương tự Có hướng nghiên khai phá sau: - Phát triển mở rộng mơ hình phân loại văn cho văn khác ngồi văn dạng tóm tắt txt.Ví dụ: tài liệu thư viện: pdf, word ngôn ngữ tiếng Anh… - Phát triển thêm kho ngữ liệu từ, nhóm từ để tăng độ xác việc độ quan trọng văn 55 - Cải tiến thuật toán để tăng tốc xử lý cho hệ thống - Khai phá theo hướng hình ảnh video - Khai phá kết hợp nội dung cấu trúc - So sánh với phương pháp gom nhóm khác - Phân tích cấu trúc văn đầu vào kết tốt - Cải tiến quy trình xử lý để tăng tốc cho hệ thống 56 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đỗ Phúc (2006), Giáo trình Khai thác liệu, Đại học quốc gia TP HCM, Đại học CNTT [2] Nguyễn Hồng Tú Anh Giáo trình “Khai thác liệu ứng dụng” 2009 (Đại học KHTN Tp Hồ Chí Minh) [3] Lê Quý Tài, “Nghiên cứu phương pháp xử lý tiếng Việt, ứng dụng cho tóm tắt văn bản”, Đại học Quốc gia Hà Nội, 2011 [4] Dương Thăng Long, “Nghiên cứu độ tương đồng văn tiếng Việt ứng dụng hỗ trợ đánh giá việc chép điện tử”, Viện Đại học Mở Hà Nội,2014 [5] Đỗ Thị Thanh Nga, “Tính tốn độ tương tự ngữ nghĩa văn dựa vào độ tương tự từ với từ”, Đại học Công nghệ Đại học Quốc gia Hà Nội, 2010 Internet: [6] Hệ tách từ tiếng Việt, https://sourceforge.net/projects/vntokenizer/ [7] Brew C, Schulte im Walde Spectral Clustering for German Verbs, In Proc of the Confin Natural Language Proocessing, Philadenphia, PA, pp 117-124, (2002) [8] Dr Osmar R.Zaiane “Principles of knowledge discovery in databases” Fall 2001 (University of Alberta) [9] Rong Hu (2011) “Active Learning for Text Classification”, Doctoral Thesis, Dublin Institute of Technology [10] Thorsten Joachims, “Text Categorization with Support Vector Machines: Learning with Many Relevant Features”, University Dortmund [11] Fabrizio Sebastiani, “Text Categorization”, Dipartimento di Matematica Pura e Applicata, Universit`a di Padova [12] Tran Vu Pham, Le Nguyen Thach (2011), “Social-Aware Document Similarity Computation for Recommender Systems”, Proceedings of the 2011 IEEE Ninth International Conference on Dependable, Autonomic and Secure Computing [13] T Kohonen (2001), Self-Organizing Maps, 3rd ed Springer-Verlag ... LÊ TIẾN MẠNH XÂY DỰNG CÔNG CỤ PHÂN LOẠI VĂN BẢN TỰ ĐỘNG Chuyên ngành: Công Nghệ Thông Tin Mã số: 60480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN VĂN HOÀI Đồng... trợ phân loại văn tự động nhằm giúp cho cán bộ, công chức Cục Hải quan Đồng Nai tiếp nhận văn phân loai tự động văn vào số lĩnh vực phát sinh thường xuyên - Tập trung xây dựng công cụ hỗ trợ phân. .. LUẬN VĂN (Dùng cho học viên người hướng dẫn) Đề tài: Xây dựng công cụ phân loại văn tự động Ngành: Công nghệ thông tin Mã số: 60.48.02.01 Học viên: Lê Tiến Mạnh Người hướng dẫn: PGS TS Trần Văn