Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
2,82 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ *** TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học Cán hướng dẫn chính: TS Bùi Quang Hưng Cán hướng dẫn phụ: PGS.TS Vũ Duy Lợi HÀ NỘI - 2016 LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm nghiên cứu, tìm hiểu riêng cá nhân tơi Trong tồn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 26 tháng 10 năm 2016 Ngƣời cam đoan Trần Thanh Tùng LỜI CẢM ƠN Tôi xin chân thành cảm ơn PGS.TS Vũ Duy Lợi, chuyên viên cao cấp Văn phòng Trung ương Đảng TS Bùi Quang Hưng, giảng viên trường Đại học Công nghệ, Đại học Quốc gia Hà Nội tận tình giúp đỡ tơi chuyên môn, định hướng phát triển suốt trình làm luận văn Tơi xin gửi lời cám ơn tới Thầy, Cô giáo Khoa Công nghệ thông tin, truyền dạy kiến thức bổ ích, đại lĩnh vực Hệ thống thông tin Tôi tiếp cận môi trường học thuật cao, hiểu vất vả thành đạt tham gia nghiên cứu khoa học Tôi xin cảm ơn bạn nhóm Data Mining thuộc Trung tâm Cơng nghệ tích hợp liên ngành giám sát trường (FIMO center), Đại học Công nghệ Hà Nội, TS Nguyễn Việt Anh Nhóm Giải pháp liệu, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Cơng nghệ Việt Nam Cuối cùng, với gia đình, tơi xin gửi lời biết ơn sâu sắc gia đình bên cạnh tôi, mang lại cho nguồn động viên tinh thần to lớn tạo điều kiện thuận lợi cho tơi q trình học tập hoàn thành luận văn Mặc dù cố gắng luận văn không tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp q báu Thầy, Cơ giáo bạn để luận văn hoàn thiện Xin trân trọng cảm ơn! MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU 10 CHƢƠNG 1: BÀI TỐN TỔNG HỢP Ý KIẾN GĨP Ý TRONG HỘI NGHỊ 14 Tổng quan tốn tổng hợp ý kiến góp ý Hội nghị 14 Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ Hội nghị Trung ƣơng 15 2.1 Quy trình tổng hợp ý kiến thảo luận 16 2.2 Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ 19 Xác định toán cần giải .23 CHƢƠNG 2: CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG CÂU 25 Khái niệm độ tƣơng đồng câu 25 Các phƣơng pháp tính độ tƣơng đồng câu .25 2.1 Phương pháp tính độ tương đồng câu dựa vào WordNet 25 2.2 Phương pháp tính độ tương đồng câu dựa vào Wikipedia 30 2.3 Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn (Latent Dirichlet Allocation) 34 2.4 Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis) 37 Đánh giá lựa chọn phƣơng pháp 45 CHƢƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 47 Đề xuất giải pháp phát nội dung giống phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ 47 Xử lý liệu 48 Thực nghiệm 48 3.1 Môi trường thực nghiệm 48 3.2 Chương trình phần mềm 49 3.3 Dữ liệu thực nghiệm 50 3.4 Giao diện chương trình thực nghiệm 50 Đánh giá kết thực nghiệm 52 KẾT LUẬN 53 Tài liệu tham khảo 55 BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu Diễn giải Tiếng Việt WCG Wikipedia Category Graph Đồ thị chủ đề Wikipedia SS Semantic similarity Tương đồng ngữ nghĩa SR Semantic relatedness Quan hệ ngữ nghĩa LDA Latent Dirichlet Allocation Phân bổ Dirichlet tiềm ẩn LSA Latent Semantic Analysis Phân tích ngữ nghĩa tiềm ẩn SVD Singular Value Decomposition Phân tích giá trị đơn IDF Inverse Document Frequency Tần số nghịch từ TF Term Frequency Tần sốvăn từ DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mơ tả nghiệp vụ tổng hợp giấy 18 Hình 1.2 Mơ hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến 21 Hình 1.3 Kết tổng hợp ý kiến góp ý Tổ 22 Hình 2.1 Sơ đồ phân cấp từ WordNet .26 Hình 2.2 Sơ đồ tính độ tương đồng câu 27 Hình 2.3 Đồ thị chủ đề Wikipedia .31 Hình 2.4 Mơ hình tính độ tương đồng hai từ dựa Wikipedia 32 Hình 2.5 Trích xuất tập từ dựa Wikipedia 33 Hình 2.6 Mơ hình tính độ tương đồng câu dựa vào chủ đề ẩn 35 Hình 2.7 Mơ hình LDA .36 Hình 2.8 SVD LSA 40 Hình 2.9 Ma trận biểu diễn, ô số lần xuất từ câu văn, từ xuất câu .41 Hình 2.10 Ma trận U 42 Hình 2.11 Ma trận giá trị đơn với k=2 42 Hình 2.12 Ma trận V 42 Hình 2.13 Ma trận xây dựng lại với k=2 43 Hình 3.1 Mơ hình phát nội dung trùng tổng hợp ý kiến 47 Hình 3.2 Giao diện khởi tạo LSA 50 Hình 3.3 Giao diện nhập đoạn văn để so sánh 51 Hình 3.4 Kết so sánh 51 DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 Cấu hình thiết bị mơi trường thực nghiệm 48 Bảng 3.2 Các thư viện sử dụng 49 10 MỞ ĐẦU Đặt vấn đề Những năm qua, việc ứng dụng công nghệ thông tin hoạt động quan, tổ chức Đảng, Nhà nước giúp cho công tác lãnh đạo, đạo, điều hành giải công việc hàng ngày nhanh chóng, chất lượng hơn, đồng thời giúp cho cơng tác cải cách hành ngày có hiệu Việc ứng dụng công nghệ thông tin giúp quan nâng cao lực quản lý, điều hành, giảm thời gian giải quyết, xử lý cơng việc, góp phần không nhỏ việc tinh giảm tổ chức máy, tiết kiệm chi phí tài Văn phịng Trung ương Đảng quan tham mưu Đảng, có chức tham mưu, giúp việc Ban Chấp hành Trung ương Đảng mà trực tiếp Bộ Chính trị, Ban Bí thư việc tổ chức, điều hành công việc lãnh đạo Đảng Trong nhiệm kỳ hoạt động, Ban Chấp hành Trung ương Đảng tổ chức Hội nghị Trung ương (thông thường Hội nghị/năm) Tại Hội nghị, có nhiều chủ trương quan trọng, có tầm ảnh hưởng lớn để lãnh đạo, đạo đất nước; nội dung, chuyên đề đưa bàn thảo, xin ý kiến Ủy viên Trung ương trước thơng qua thức Một nhiệm vụ quan trọng Văn phòng Trung ương Đảng chuẩn bị, tổ chức, phục vụ sở vật chất nội dung Hội nghị Trung ương Đảng Đội ngũ chuyên viên Văn phòng Trung ương Đảng giao nhiệm vụ ghi biên chi tiết tổng hợp tất ý kiến góp ý, thảo luận Ủy viên Trung ương Cơng việc địi hỏi tính xác, nhanh chóng, đầy đủ kịp thời, theo cán Văn phịng phải có khả tổng hợp, biên tập văn bản; đồng thời cần hỗ trợ công nghệ thông tin để thực tốt cơng việc Thơng thường, nội dung có nhiều ý kiến góp ý giống (trong luận văn sử dụng từ: tương đồng, trùng thừa) gây trùng lặp nội dung thông tin Điều gây khó khăn cho chuyên viên tổng hợp ý kiến, nhiều thời gian, công sức để đọc, lọc loại bỏ ý trùng thừa, 48 - Thông qua ma trận ngữ nghĩa xây dựng từ trước, câu (đoạn văn) tệp chứa liệu lựa chọn tệp chưa câu cần so sánh biểu diễn thành vector - Sử dụng thuật tốn tính độ tương đồng xác định tương đồng câu (đoạn văn) với câu lựa chọn Thiết lập ngưỡng độ tương đồng câu Kết thu câu có độ tương đồng vượt ngưỡng đánh dấu màu - Kết đánh dấu câu (đoạn văn) giống hiển thị ngược trở lại giao diện tổng hợp ý kiến thảo luận tổ, giúp cho chuyên viên tổng hợp theo dõi định lựa chọn loại bỏ ý kiến Xử lý liệu Trong bước xử lý liệu, liệu loại bỏ dấu câu dấu phẩy, dấu chấm, dấu chấm hỏi, dấu chấm than Đối với văn tiếng Việt xử dụng công cụ tách từ để xác định từ đơn, từ ghép cho văn Cuối liệu xử lý lưu thành tệp text Thực nghiệm 3.1 Mơi trường thực nghiệm Q trình thực nghiệm máy tính có cấu sau: Bảng 3.1 Cấu hình thiết bị mơi trường thực nghiệm Thành phần Chỉ số CPU Intel (R) Pentium 1,87 Ghz RAM GB HDD 320 GB OS Windows Home Basic 32 bits 49 3.2 Chương trình phần mềm Các thư viện sử dụng phần mềm (các packages ngôn ngữ lập trình R) Bảng 3.2 Các thư viện sử dụng STT Tên thư viện tm Mục đích Nguồn https://cran.r- Các hàm xử project.org/web/packages/tm/index.html lý text mining Lsa https://cran.r- Hàm xây project.org/web/packages/lsa/index.html dựng không gian ngữ nghĩa LSAfun https://cran.r- Hàm tính tốn project.org/web/packages/LSAfun/index độ html đồng tương câu JVnTextPro Jvntextpro.sourceforge.net Thư viện tách từ tiếng Việt Phần giao diện viết ngôn ngữ C#, có chức nhập vào đoạn văn so sánh với số đoạn văn khác sau với ngưỡng thiết lập, sau tơ đậm đoạn văn có độ tương đồng lớn ngưỡng cho với đoạn văn nhập vào 50 3.3 Dữ liệu thực nghiệm Dữ liệu để xây dựng ma trận ngữ nghĩa có kích thước 5092 từ 687 dịng nội dung khởi nghiệp (kích thước ma trận 5092 x 687) Dữ liệu để so sánh đoạn văn cần nhập vào (tương ứng với góp ý tổ) 13 đoạn văn khác (tương ứng 13 tổ cịn lại) có đề cập vấn đề khởi nghiệp 3.4 Giao diện chương trình thực nghiệm - Khởi tạo khơng gian ngữ nghĩa LSA Có chức tạo không gian ngữ nghĩa LSA từ liệu có (tạo SVD với k=50) Hình 3.2 Giao diện khởi tạo LSA - Giao diện để nhập đoạn văn để so sánh Phần input mang nghĩa đoạn văn lựa chọn để so sánh Các đoạn văn cịn lại hiển thị phía 51 Hình 3.3 Giao diện nhập đoạn văn để so sánh - Giao diện kết so sánh Hình 3.4 Kết so sánh Với liệu thực nghiệm trên, giả định với ngưỡng so sánh 0.7 (tự nhập vào từ bàn phím) đoạn văn có độ tương đồng với đoạn văn nhập vào cao ngưỡng tô đậm 52 Đánh giá kết thực nghiệm Trên sở kết thực nghiệm, nhận thấy việc giải toán phát nội dung giống tổng hợp ý kiến thảo luận tổ có tính khả thi Tuy cịn nhiều vấn đề cần nghiên cứu để giải (1) xác định giá trị ngưỡng cho tối ưu, (2) trường hợp vấn đề đưa xin ý kiến ma trận ban đầu xây dựng chưa có tài liệu đề cập tới vấn đề độ xác khơng cao, (3) chưa xử lý tình phủ định tiếng Việt, ví dụ “Đa số trí với phương án xin ý kiến” với “Đa số khơng trí với phương án xin ý kiến” hay “Chúng ta không vấn đề này” với “Chúng ta không vấn đề này” 53 KẾT LUẬN Đề tài luận văn nghiên cứu giải pháp tự động phân tích nội dung giống tổng hợp ý kiến thảo luận, góp ý Hội nghị Bài tốn xuất phát từ thực tế công tác tổng hợp ý kiến thảo luận tổ Hội nghị Ban Chấp hành Trung ương Hiện tại, Văn phòng Trung ương Đảng xây dựng đưa vào sử dụng phần mềm hỗ trợ tổng hợp ý kiến thảo luận tổ hội nghị Trung ương phục vụ công tác tổng hợp ý kiến Trung ương thảo luận tổ vấn đề, chủ trương quan trọng đất nước Phần mềm Hỗ trợ tổng hợp ý kiến góp phần nâng cao chất lượng, thời gian tổng hợp, giúp lãnh đạo Văn phịng Trung ương cán làm cơng tác tổng hợp xem xét, đánh giá lại kết tổng hợp, từ khơng ngừng nâng cao chất lượng biên tập, tổng hợp; đồng thời góp phần nâng cao hiệu hoạt động hệ thống công nghệ thông tin quan Một hạn chế phần mềm Hỗ trợ tổng hợp ý kiến chưa pháp nội dung trùng thừa tổng hợp Việc giải trùng thừa có ý nghĩa quan trọng việc hỗ trợ tổng hợp ý kiến thảo luận tổ hội nghị Trung ương Nó giúp việc tổng hợp nhanh chóng, xác từ khâu biên chi tiết, biên tổng hợp tổ biên tổng hợp tất tổ Luận văn vào nghiên cứu phương pháp tính độ tương đồng câu, đề xuất giải pháp nhằm phát nội dung trùng tổng hợp ý kiến góp ý phần mềm Hỗ trợ tổng hợp ý kiến dựa thuật tốn xử lý ngơn ngữ tự nhiên Luận văn xây dựng chương trình thực nghiệm cho kết tốt, chứng minh khả áp dụng giải pháp vào giải toán thực tế Luận văn đưa số định hướng nghiên cứu tiếp tục sau: - Tiếp tục nghiên cứu thuật tốn tính độ tương đồng câu để tăng độ xác, nghiên cứu để giải tốn phủ định tiếng Việt Kết hợp 54 toán tính độ tương đồng phủ định tiếng Việt để có giải pháp tối ưu giải vấn đề phát nội dung góp ý giống trình tổng hợp ý kiến góp ý Hội nghị - Trên sở đó, hồn thiện nghiên cứu áp dụng giải pháp kỹ thuật phát nội dung trùng thừa cho phần mềm Hỗ trợ tổng hợp ý kiến, phục vụ chuyên viên Văn phòng Trung ương Đảng làm nhiệm vụ tổng hợp Hội nghị Trung ương Trong trình thực hiện, chắn Luận văn cịn nhiều hạn chế thiếu sót Do vậy, tơi mong nhận góp ý thầy cô đồng nghiệp quan tâm đến đề tài Những ý kiến quý báu giúp Luận văn tơi hồn thiện mang tính thực tiễn cao để áp dụng vào thực tế cơng tác Văn phòng Trung ương Đảng 55 Tài liệu tham khảo Tiếng Việt Trần Cao Đệ (2011), Chỉ mục ngữ nghĩa tiềm ẩn ứng dụng, Kỷ yếu Hội nghị tổng kết năm nghiên cứu khoa học & đào tạo Khoa Công nghệ thông tin & truyền thông Đại học Cần Thơ, tr 49-56 Đào Quang Minh, Lê Đức Tùng, Lê Đức Hùng, Nguyễn Hữu Đức, Nguyễn Thanh Thủy ( 2011), Xây dựng dịch vụ so khớp tài liệu điện tử lưới liệu VNGRID, Chun san “Các cơng trình nghiên cứu, phát triển ứng dụng Công nghệ Thông tin Truyền thông”, tr 72 – 81 Phạm Văn Hà (2014), Hệ thống tự động tổng hợp ý kiến góp ý Hội nghị, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, tr 44 – 46 Trần Mai Vũ (2009), Tóm tắt đa văn dựa vào trích xuất câu, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội https://vi.wikipedia.org/wiki/Wikipedia:Giới_thiệu, năm 2016 Văn phòng Trung ương Đảng (2016), Dự án “Xây dựng phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ hội nghị Trung ương” Tiếng Anh David M.Blei, Andrew Y.Ng, Michael I.Jordan (2003), “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3, pp 993-1022 Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W and Harshman, R.A (1990), “Indexing by latent semantic analysis”, Journal of the Society for Information Science, 41(6), pp 391-407 56 Aminul Islam and Diana Inkpen (2008), “Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity”, ACM Transactions on Knowledge Discovery from Data, Vol 2, No.2, Article 10 10 Thomas K.Landauer, Susan T.Dumais (1997), A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge 11 Thomas K.Landauer, Danielle S.McNamara Simon Dennis and Walter Kintsch (2011), Hand book of Latent Semantic Analysis, pp 13-14 12 Yuhua Li, David McLean, Zuhair A.Bandar, James D.O’Shea, and Keeley Crockett (2006), “Sentence Similarity Based on Semantic Nets and Corpus Statistics”, IEEE transactions on knowledge and data engineering, VOL 18, NO 13 Rada Mihalcea and Courtney Corley, Carlo Strapparava, Corpusbased and Knowledge-based Measures of Text Semantic Similarity 14 Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo (2014), “VietNamese Sentence Similarity Based on Concept”, IFIP International Federation for Information Processing 2014 15 Tu C.Nguyen (2008), Hidden Topic discovery toward classification and clustering in Vietnamese web documents, Master Thesis, Universtiy of Engineering and Technology, Vietnam National University, Hanoi 16 Kenji TAKANO, Makoto NAKAMURA, Yoshiko OYAMA and Akira SHIMAZU (2010), Semantic Analysis of Paragraphs Consisting of Multipel Sentences 17 Nuno Seco, Tony Veale and Jer Hayes (2004), An Intrinic Information Content Metric for Semantic Similarity in WordNet 57 18 Sheetal A.Takale, Sushma S.Nandgaonkar (2010), “Measuring Semantic Similarity between Words Using Web Documents”, WWW2007: Track:Semantic Web 19 Torsten Zesch, Iryna Gurevych and Max Muhlhauser (2007), Comparing Wikipedia and German WordNet by Evaluating Semantic Relatedness on Multipe Datasets 20 TorstenZesch, IrynaGurevych (2007), Analys is of the Wikipedia Category Graph for NLP Applications 58 59 60 61 62 ... việc tổng hợp ý kiến góp ý mà hỗ trợ, gợi ý cịn việc định người trực tiếp thực Trong luận văn ? ?Hệ thống tự động tổng hợp ý kiến góp ý Hội nghị? ?? [3], tác giả có đưa mơ hình hệ thống tự động tổng hợp. .. GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GĨP Ý TRONG HỘI NGHỊ Ngành: Cơng nghệ thơng tin Chuyên ngành: Hệ thống. .. Chương Các phương pháp tính độ tương đồng câu - Chương Đề xuất giải pháp phát nội dung giống hệ thống tổng hợp ý kiến góp ý Hội nghị 14 CHƢƠNG BÀI TỐN TỔNG HỢP Ý KIẾN GĨP Ý TRONG HỘI NGHỊ Tổng