Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 16 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
16
Dung lượng
496,19 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ *** TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học Cán hướng dẫn chính: TS Bùi Quang Hưng Cán hướng dẫn phụ: PGS.TS Vũ Duy Lợi HÀ NỘI - 2016 LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm nghiên cứu, tìm hiểu riêng cá nhân tơi Trong tồn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 26 tháng 10 năm 2016 Ngƣời cam đoan Trần Thanh Tùng LỜI CẢM ƠN Tôi xin chân thành cảm ơn PGS.TS Vũ Duy Lợi, chuyên viên cao cấp Văn phòng Trung ương Đảng TS Bùi Quang Hưng, giảng viên trường Đại học Công nghệ, Đại học Quốc gia Hà Nội tận tình giúp đỡ tơi chuyên môn, định hướng phát triển suốt trình làm luận văn Tơi xin gửi lời cám ơn tới Thầy, Cô giáo Khoa Công nghệ thông tin, truyền dạy kiến thức bổ ích, đại lĩnh vực Hệ thống thông tin Tôi tiếp cận môi trường học thuật cao, hiểu vất vả thành đạt tham gia nghiên cứu khoa học Tôi xin cảm ơn bạn nhóm Data Mining thuộc Trung tâm Cơng nghệ tích hợp liên ngành giám sát trường (FIMO center), Đại học Công nghệ Hà Nội, TS Nguyễn Việt Anh Nhóm Giải pháp liệu, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Cơng nghệ Việt Nam Cuối cùng, với gia đình, tơi xin gửi lời biết ơn sâu sắc gia đình bên cạnh tôi, mang lại cho nguồn động viên tinh thần to lớn tạo điều kiện thuận lợi cho tơi q trình học tập hoàn thành luận văn Mặc dù cố gắng luận văn không tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp q báu Thầy, Cơ giáo bạn để luận văn hoàn thiện Xin trân trọng cảm ơn! MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU 10 CHƢƠNG 1: BÀI TỐN TỔNG HỢP Ý KIẾN GĨP Ý TRONG HỘI NGHỊ 14 Tổng quan tốn tổng hợp ý kiến góp ý Hội nghị 14 Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ Hội nghị Trung ƣơng 15 2.1 Quy trình tổng hợp ý kiến thảo luận 16 2.2 Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ 19 Xác định toán cần giải .23 CHƢƠNG 2: CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG CÂU 25 Khái niệm độ tƣơng đồng câu 25 Các phƣơng pháp tính độ tƣơng đồng câu .25 2.1 Phương pháp tính độ tương đồng câu dựa vào WordNet 25 2.2 Phương pháp tính độ tương đồng câu dựa vào Wikipedia 30 2.3 Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn (Latent Dirichlet Allocation) 34 2.4 Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis) 37 Đánh giá lựa chọn phƣơng pháp 45 CHƢƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 47 Đề xuất giải pháp phát nội dung giống phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ 47 Xử lý liệu 48 Thực nghiệm 48 3.1 Môi trường thực nghiệm 48 3.2 Chương trình phần mềm 49 3.3 Dữ liệu thực nghiệm 50 3.4 Giao diện chương trình thực nghiệm 50 Đánh giá kết thực nghiệm 52 KẾT LUẬN 53 Tài liệu tham khảo 55 BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu Diễn giải Tiếng Việt WCG Wikipedia Category Graph Đồ thị chủ đề Wikipedia SS Semantic similarity Tương đồng ngữ nghĩa SR Semantic relatedness Quan hệ ngữ nghĩa LDA Latent Dirichlet Allocation Phân bổ Dirichlet tiềm ẩn LSA Latent Semantic Analysis Phân tích ngữ nghĩa tiềm ẩn SVD Singular Value Decomposition Phân tích giá trị đơn IDF Inverse Document Frequency Tần số nghịch từ TF Term Frequency Tần sốvăn từ DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mơ tả nghiệp vụ tổng hợp giấy 18 Hình 1.2 Mơ hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến 21 Hình 1.3 Kết tổng hợp ý kiến góp ý Tổ 22 Hình 2.1 Sơ đồ phân cấp từ WordNet .26 Hình 2.2 Sơ đồ tính độ tương đồng câu 27 Hình 2.3 Đồ thị chủ đề Wikipedia .31 Hình 2.4 Mơ hình tính độ tương đồng hai từ dựa Wikipedia 32 Hình 2.5 Trích xuất tập từ dựa Wikipedia 33 Hình 2.6 Mơ hình tính độ tương đồng câu dựa vào chủ đề ẩn 35 Hình 2.7 Mơ hình LDA .36 Hình 2.8 SVD LSA 40 Hình 2.9 Ma trận biểu diễn, ô số lần xuất từ câu văn, từ xuất câu .41 Hình 2.10 Ma trận U 42 Hình 2.11 Ma trận giá trị đơn với k=2 42 Hình 2.12 Ma trận V 42 Hình 2.13 Ma trận xây dựng lại với k=2 43 Hình 3.1 Mơ hình phát nội dung trùng tổng hợp ý kiến 47 Hình 3.2 Giao diện khởi tạo LSA 50 Hình 3.3 Giao diện nhập đoạn văn để so sánh 51 Hình 3.4 Kết so sánh 51 DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 Cấu hình thiết bị mơi trường thực nghiệm 48 Bảng 3.2 Các thư viện sử dụng 49 10 MỞ ĐẦU Đặt vấn đề Những năm qua, việc ứng dụng công nghệ thông tin hoạt động quan, tổ chức Đảng, Nhà nước giúp cho công tác lãnh đạo, đạo, điều hành giải công việc hàng ngày nhanh chóng, chất lượng hơn, đồng thời giúp cho cơng tác cải cách hành ngày có hiệu Việc ứng dụng công nghệ thông tin giúp quan nâng cao lực quản lý, điều hành, giảm thời gian giải quyết, xử lý cơng việc, góp phần không nhỏ việc tinh giảm tổ chức máy, tiết kiệm chi phí tài Văn phịng Trung ương Đảng quan tham mưu Đảng, có chức tham mưu, giúp việc Ban Chấp hành Trung ương Đảng mà trực tiếp Bộ Chính trị, Ban Bí thư việc tổ chức, điều hành công việc lãnh đạo Đảng Trong nhiệm kỳ hoạt động, Ban Chấp hành Trung ương Đảng tổ chức Hội nghị Trung ương (thông thường Hội nghị/năm) Tại Hội nghị, có nhiều chủ trương quan trọng, có tầm ảnh hưởng lớn để lãnh đạo, đạo đất nước; nội dung, chuyên đề đưa bàn thảo, xin ý kiến Ủy viên Trung ương trước thơng qua thức Một nhiệm vụ quan trọng Văn phòng Trung ương Đảng chuẩn bị, tổ chức, phục vụ sở vật chất nội dung Hội nghị Trung ương Đảng Đội ngũ chuyên viên Văn phòng Trung ương Đảng giao nhiệm vụ ghi biên chi tiết tổng hợp tất ý kiến góp ý, thảo luận Ủy viên Trung ương Cơng việc địi hỏi tính xác, nhanh chóng, đầy đủ kịp thời, theo cán Văn phịng phải có khả tổng hợp, biên tập văn bản; đồng thời cần hỗ trợ công nghệ thông tin để thực tốt cơng việc Thơng thường, nội dung có nhiều ý kiến góp ý giống (trong luận văn sử dụng từ: tương đồng, trùng thừa) gây trùng lặp nội dung thông tin Điều gây khó khăn cho chuyên viên tổng hợp ý kiến, nhiều thời gian, công sức để đọc, lọc loại bỏ ý trùng thừa, 11 việc rà soát, đánh dấu để loại bỏ ý kiến khơng triệt để nên dễ dẫn đến tình trạng chất lượng, hiệu cơng việc chưa cao Hiện nay, Văn phòng Trung ương Đảng sử dụng phần mềm hỗ trợ tổng hợp ý kiến thảo luận tổ Hội nghị Trung ương Tuy nhiên, phần mềm chưa có chức phát hiện, đánh dấu ý kiến trùng lặp Với mong muốn áp dụng kiến thức học tập trường vào cải tiến, nâng cao chất lượng, rút ngắn thời gian tổng hợp ý kiến Hội nghị Ban Chấp hành Trung ương Đảng, lựa chọn nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên, data mining để đưa giải pháp nhằm giải vấn đề Qua đó, đề xuất xây dựng chức tự động phân tích, phát hiện, đánh dấu nội dung góp ý giống phần mềm hỗ trợ tổng hợp ý kiến Hội nghị Trung ương sử dụng quan Mục tiêu nhiệm vụ nghiên cứu luận văn * Mục tiêu: Với mục đích góp phần giúp chuyên viên nhanh chóng phát ý kiến thảo luận đề cập đến bỏ qua chúng trình tổng hợp ý kiến góp ý, mục tiêu luận văn là: Nghiên cứu phương pháp tính tốn độ tương đồng câu dựa thuật tốn xử lý ngơn ngữ tự nhiên Trên sở đó, đề xuất giải pháp xây dựng chức phát hiện, đánh dấu câu, đoạn văn giống ngữ nghĩa ý kiến góp ý vào nội dung chủ đề đưa bàn thảo Hội nghị Trung ương Đảng * Nhiệm vụ: Đây vấn đề có tính thực tiễn cao thật cần thiết hoạt động tổng hợp ý kiến góp ý Hội nghị Trung ương Tuy nhiên, vấn đề khó, cần có nhiều thời gian để nghiên cứu, thử nghiệm, đánh giá, tăng độ 12 xác để đưa vào sử dụng thực tế Do đó, nhiệm vụ đặt luận văn - Giới thiệu toán tổng hợp ý kiến hội nghị - Tìm hiểu phương pháp tính độ tương đồng câu - Đề xuất giải pháp phát nội dung giống hệ thống tổng hợp ý kiến góp ý Hội nghị Tổng quan nghiên cứu vấn đề Trên giới, cơng trình nghiên cứu tính tốn độ tương đồng từ, câu đoạn văn ngắn nghiên cứu rộng rãi Nhiều thuật tốn tính tốn độ tương đồng đưa ngày có cải thiện độ xác Tại Việt Nam, thuật tốn tính tốn độ tương đồng câu để áp dụng vào tốn tóm tắt văn nhiều tác giả tìm hiểu, nghiên cứu Tuy nhiên, việc áp dụng kết nghiên cứu khoa học vào thực tiễn chưa thực nhiều có hiệu tốt, nguyên nhân chưa phát xác nhu cầu sử dụng yêu cầu thực tiễn đặt Tổng hợp ý kiến góp ý Hội nghị cơng việc có tính chất đặc biệt thường diễn công ty, tổ chức lớn quan nhà nước Cơng việc cụ thể việc tổ chức Hội nghị với đông đảo người tham gia bàn thảo chủ đề cụ thể, sau tổng hợp ý kiến góp ý chủ đề để đưa kết luận, phương án giải Do cơng việc cụ thể lại khơng mang tính chất đại trà nên nghiên cứu áp dụng toán tin học vào vấn đề khơng có nhiều Đã có tác giả nghiên cứu tốn phân lớp ý kiến góp ý tổng hợp ý kiến Hội nghị [3] Tuy nhiên việc phát nội dung góp ý giống nội dung thảo luận để cảnh báo, lược bỏ chưa nghiên cứu áp dụng 13 Phạm vi nghiên cứu luận văn Với tính chất luận văn thạc sỹ, phạm vi nghiên cứu luận văn là: Nghiên cứu phương pháp thực nghiệm phương pháp tính toán độ tương đồng câu để phát nội dung tương đồng tổng hợp ý kiến góp ý kỳ Hội nghị Trung ương Đảng Phƣơng pháp nghiên cứu Để thực mục tiêu, nhiệm vụ luận văn, phương pháp nghiên cứu sử dụng sau: - Phương pháp khảo sát; - Phương pháp tổng hợp; - Phương pháp phân tích, đánh giá; - Phương pháp thực nghiệm Nội dung luận văn Ngoài phần mở đầu kết luận, luận văn bố cục thành chương: - Chương Bài tốn tổng hợp ý kiến góp ý hội nghị - Chương Các phương pháp tính độ tương đồng câu - Chương Đề xuất giải pháp phát nội dung giống hệ thống tổng hợp ý kiến góp ý Hội nghị 55 Tài liệu tham khảo Tiếng Việt Trần Cao Đệ (2011), Chỉ mục ngữ nghĩa tiềm ẩn ứng dụng, Kỷ yếu Hội nghị tổng kết năm nghiên cứu khoa học & đào tạo Khoa Công nghệ thông tin & truyền thông Đại học Cần Thơ, tr 49-56 Đào Quang Minh, Lê Đức Tùng, Lê Đức Hùng, Nguyễn Hữu Đức, Nguyễn Thanh Thủy ( 2011), Xây dựng dịch vụ so khớp tài liệu điện tử lưới liệu VNGRID, Chun san “Các cơng trình nghiên cứu, phát triển ứng dụng Công nghệ Thông tin Truyền thông”, tr 72 – 81 Phạm Văn Hà (2014), Hệ thống tự động tổng hợp ý kiến góp ý Hội nghị, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, tr 44 – 46 Trần Mai Vũ (2009), Tóm tắt đa văn dựa vào trích xuất câu, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội https://vi.wikipedia.org/wiki/Wikipedia:Giới_thiệu, năm 2016 Văn phòng Trung ương Đảng (2016), Dự án “Xây dựng phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ hội nghị Trung ương” Tiếng Anh David M.Blei, Andrew Y.Ng, Michael I.Jordan (2003), “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3, pp 993-1022 Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W and Harshman, R.A (1990), “Indexing by latent semantic analysis”, Journal of the Society for Information Science, 41(6), pp 391-407 56 Aminul Islam and Diana Inkpen (2008), “Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity”, ACM Transactions on Knowledge Discovery from Data, Vol 2, No.2, Article 10 10 Thomas K.Landauer, Susan T.Dumais (1997), A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge 11 Thomas K.Landauer, Danielle S.McNamara Simon Dennis and Walter Kintsch (2011), Hand book of Latent Semantic Analysis, pp 13-14 12 Yuhua Li, David McLean, Zuhair A.Bandar, James D.O’Shea, and Keeley Crockett (2006), “Sentence Similarity Based on Semantic Nets and Corpus Statistics”, IEEE transactions on knowledge and data engineering, VOL 18, NO 13 Rada Mihalcea and Courtney Corley, Carlo Strapparava, Corpusbased and Knowledge-based Measures of Text Semantic Similarity 14 Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo (2014), “VietNamese Sentence Similarity Based on Concept”, IFIP International Federation for Information Processing 2014 15 Tu C.Nguyen (2008), Hidden Topic discovery toward classification and clustering in Vietnamese web documents, Master Thesis, Universtiy of Engineering and Technology, Vietnam National University, Hanoi 16 Kenji TAKANO, Makoto NAKAMURA, Yoshiko OYAMA and Akira SHIMAZU (2010), Semantic Analysis of Paragraphs Consisting of Multipel Sentences 17 Nuno Seco, Tony Veale and Jer Hayes (2004), An Intrinic Information Content Metric for Semantic Similarity in WordNet 57 18 Sheetal A.Takale, Sushma S.Nandgaonkar (2010), “Measuring Semantic Similarity between Words Using Web Documents”, WWW2007: Track:Semantic Web 19 Torsten Zesch, Iryna Gurevych and Max Muhlhauser (2007), Comparing Wikipedia and German WordNet by Evaluating Semantic Relatedness on Multipe Datasets 20 TorstenZesch, IrynaGurevych (2007), Analys is of the Wikipedia Category Graph for NLP Applications ... GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GĨP Ý TRONG HỘI NGHỊ Ngành: Cơng nghệ thơng tin Chuyên ngành: Hệ thống. .. CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU 10 CHƢƠNG 1: BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 14 Tổng quan tốn tổng hợp ý kiến góp ý Hội. .. văn - Giới thiệu toán tổng hợp ý kiến hội nghị - Tìm hiểu phương pháp tính độ tương đồng câu - Đề xuất giải pháp phát nội dung giống hệ thống tổng hợp ý kiến góp ý Hội nghị Tổng quan nghiên cứu