1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths máy tính 60 48 01

62 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tự Động Phân Tích Các Nội Dung Giống Nhau Trong Hệ Thống Tổng Hợp Ý Kiến Góp Ý Trong Hội Nghị
Tác giả Trần Thanh Tùng
Người hướng dẫn TS. Bùi Quang Hưng, PGS.TS. Vũ Duy Lợi
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại luận văn
Năm xuất bản 2016
Thành phố Hà Nội
Định dạng
Số trang 62
Dung lượng 2,94 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ *** TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2016 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học Cán hướng dẫn chính: TS Bùi Quang Hưng Cán hướng dẫn phụ: PGS.TS Vũ Duy Lợi HÀ NỘI - 2016 TIEU LUAN MOI download : skknchat@gmail.com LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm nghiên cứu, tìm hiểu riêng cá nhân tơi Trong toàn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 26 tháng 10 năm 2016 Ngƣời cam đoan Trần Thanh Tùng TIEU LUAN MOI download : skknchat@gmail.com LỜI CẢM ƠN Tôi xin chân thành cảm ơn PGS.TS Vũ Duy Lợi, chuyên viên cao cấp Văn phòng Trung ương Đảng TS Bùi Quang Hưng, giảng viên trường Đại học Công nghệ, Đại học Quốc gia Hà Nội tận tình giúp đỡ tơi chun mơn, định hướng phát triển suốt q trình làm luận văn Tôi xin gửi lời cám ơn tới Thầy, Cơ giáo Khoa Cơng nghệ thơng tin, truyền dạy kiến thức bổ ích, đại lĩnh vực Hệ thống thông tin Tôi tiếp cận môi trường học thuật cao, hiểu vất vả thành đạt tham gia nghiên cứu khoa học Tôi xin cảm ơn bạn nhóm Data Mining thuộc Trung tâm Cơng nghệ tích hợp liên ngành giám sát trường (FIMO center), Đại học Công nghệ Hà Nội, TS Nguyễn Việt Anh Nhóm Giải pháp liệu, Viện Cơng nghệ thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam Cuối cùng, với gia đình, tơi xin gửi lời biết ơn sâu sắc gia đình ln bên cạnh tôi, mang lại cho nguồn động viên tinh thần to lớn tạo điều kiện thuận lợi cho tơi q trình học tập hoàn thành luận văn Mặc dù cố gắng luận văn không tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp quý báu Thầy, Cô giáo bạn để luận văn hoàn thiện Xin trân trọng cảm ơn! TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU 10 CHƢƠNG 1: BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 14 Tổng quan toán tổng hợp ý kiến góp ý Hội nghị 14 Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ Hội nghị Trung ƣơng 15 2.1 Quy trình tổng hợp ý kiến thảo luận 16 2.2 Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ 19 Xác định toán cần giải .23 CHƢƠNG 2: CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG CÂU 25 Khái niệm độ tƣơng đồng câu 25 Các phƣơng pháp tính độ tƣơng đồng câu .25 2.1 Phương pháp tính độ tương đồng câu dựa vào WordNet 25 2.2 Phương pháp tính độ tương đồng câu dựa vào Wikipedia 30 2.3 Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn (Latent Dirichlet Allocation) 34 2.4 Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis) 37 Đánh giá lựa chọn phƣơng pháp 45 TIEU LUAN MOI download : skknchat@gmail.com CHƢƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 47 Đề xuất giải pháp phát nội dung giống phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ 47 Xử lý liệu 48 Thực nghiệm 48 3.1 Môi trường thực nghiệm 48 3.2 Chương trình phần mềm 49 3.3 Dữ liệu thực nghiệm 50 3.4 Giao diện chương trình thực nghiệm 50 Đánh giá kết thực nghiệm 52 KẾT LUẬN 53 Tài liệu tham khảo 55 TIEU LUAN MOI download : skknchat@gmail.com BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu Diễn giải Tiếng Việt WCG Wikipedia Category Graph Đồ thị chủ đề Wikipedia SS Semantic similarity Tương đồng ngữ nghĩa SR Semantic relatedness Quan hệ ngữ nghĩa LDA Latent Dirichlet Allocation Phân bổ Dirichlet tiềm ẩn LSA Latent Semantic Analysis Phân tích ngữ nghĩa tiềm ẩn SVD Singular Value Decomposition Phân tích giá trị đơn IDF Inverse Document Frequency Tần số nghịch từ TF Term Frequency Tần sốvăn từ TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mơ tả nghiệp vụ tổng hợp giấy 18 Hình 1.2 Mơ hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến 21 Hình 1.3 Kết tổng hợp ý kiến góp ý Tổ 22 Hình 2.1 Sơ đồ phân cấp từ WordNet .26 Hình 2.2 Sơ đồ tính độ tương đồng câu 27 Hình 2.3 Đồ thị chủ đề Wikipedia .31 Hình 2.4 Mơ hình tính độ tương đồng hai từ dựa Wikipedia 32 Hình 2.5 Trích xuất tập từ dựa Wikipedia 33 Hình 2.6 Mơ hình tính độ tương đồng câu dựa vào chủ đề ẩn 35 Hình 2.7 Mơ hình LDA .36 Hình 2.8 SVD LSA 40 Hình 2.9 Ma trận biểu diễn, ô số lần xuất từ câu văn, từ xuất câu .41 Hình 2.10 Ma trận U 42 Hình 2.11 Ma trận giá trị đơn với k=2 42 Hình 2.12 Ma trận V 42 Hình 2.13 Ma trận xây dựng lại với k=2 43 Hình 3.1 Mơ hình phát nội dung trùng tổng hợp ý kiến 47 Hình 3.2 Giao diện khởi tạo LSA 50 Hình 3.3 Giao diện nhập đoạn văn để so sánh 51 Hình 3.4 Kết so sánh 51 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 Cấu hình thiết bị môi trường thực nghiệm 48 Bảng 3.2 Các thư viện sử dụng 49 TIEU LUAN MOI download : skknchat@gmail.com 10 MỞ ĐẦU Đặt vấn đề Những năm qua, việc ứng dụng công nghệ thông tin hoạt động quan, tổ chức Đảng, Nhà nước giúp cho công tác lãnh đạo, đạo, điều hành giải công việc hàng ngày nhanh chóng, chất lượng hơn, đồng thời giúp cho cơng tác cải cách hành ngày có hiệu Việc ứng dụng cơng nghệ thông tin giúp quan nâng cao lực quản lý, điều hành, giảm thời gian giải quyết, xử lý cơng việc, góp phần khơng nhỏ việc tinh giảm tổ chức máy, tiết kiệm chi phí tài Văn phịng Trung ương Đảng quan tham mưu Đảng, có chức tham mưu, giúp việc Ban Chấp hành Trung ương Đảng mà trực tiếp Bộ Chính trị, Ban Bí thư việc tổ chức, điều hành công việc lãnh đạo Đảng Trong nhiệm kỳ hoạt động, Ban Chấp hành Trung ương Đảng tổ chức Hội nghị Trung ương (thơng thường Hội nghị/năm) Tại Hội nghị, có nhiều chủ trương quan trọng, có tầm ảnh hưởng lớn để lãnh đạo, đạo đất nước; nội dung, chuyên đề đưa bàn thảo, xin ý kiến Ủy viên Trung ương trước thơng qua thức Một nhiệm vụ quan trọng Văn phòng Trung ương Đảng chuẩn bị, tổ chức, phục vụ sở vật chất nội dung Hội nghị Trung ương Đảng Đội ngũ chuyên viên Văn phòng Trung ương Đảng giao nhiệm vụ ghi biên chi tiết tổng hợp tất ý kiến góp ý, thảo luận Ủy viên Trung ương Cơng việc địi hỏi tính xác, nhanh chóng, đầy đủ kịp thời, theo cán Văn phịng phải có khả tổng hợp, biên tập văn bản; đồng thời cần hỗ trợ công nghệ thông tin để thực tốt công việc Thông thường, nội dung có nhiều ý kiến góp ý giống (trong luận văn sử dụng từ: tương đồng, trùng thừa) gây trùng lặp nội dung thơng tin Điều gây khó khăn cho chuyên viên tổng hợp ý kiến, nhiều thời gian, công sức để đọc, lọc loại bỏ ý trùng thừa, TIEU LUAN MOI download : skknchat@gmail.com 48 - Thông qua ma trận ngữ nghĩa xây dựng từ trước, câu (đoạn văn) tệp chứa liệu lựa chọn tệp chưa câu cần so sánh biểu diễn thành vector - Sử dụng thuật tốn tính độ tương đồng xác định tương đồng câu (đoạn văn) với câu lựa chọn Thiết lập ngưỡng độ tương đồng câu Kết thu câu có độ tương đồng vượt ngưỡng đánh dấu màu - Kết đánh dấu câu (đoạn văn) giống hiển thị ngược trở lại giao diện tổng hợp ý kiến thảo luận tổ, giúp cho chuyên viên tổng hợp theo dõi định lựa chọn loại bỏ ý kiến Xử lý liệu Trong bước xử lý liệu, liệu loại bỏ dấu câu dấu phẩy, dấu chấm, dấu chấm hỏi, dấu chấm than Đối với văn tiếng Việt xử dụng công cụ tách từ để xác định từ đơn, từ ghép cho văn Cuối liệu xử lý lưu thành tệp text Thực nghiệm 3.1 Mơi trường thực nghiệm Q trình thực nghiệm máy tính có cấu sau: Bảng 3.1 Cấu hình thiết bị mơi trường thực nghiệm Thành phần Chỉ số CPU Intel (R) Pentium 1,87 Ghz RAM GB HDD 320 GB OS Windows Home Basic 32 bits TIEU LUAN MOI download : skknchat@gmail.com 49 3.2 Chương trình phần mềm Các thư viện sử dụng phần mềm (các packages ngơn ngữ lập trình R) Bảng 3.2 Các thư viện sử dụng STT Tên thư viện tm Mục đích Nguồn https://cran.r- Các hàm xử project.org/web/packages/tm/index.html lý text mining Lsa https://cran.r- Hàm xây project.org/web/packages/lsa/index.html dựng khơng gian ngữ nghĩa LSAfun https://cran.r- Hàm tính tốn project.org/web/packages/LSAfun/index độ html đồng tương câu JVnTextPro Jvntextpro.sourceforge.net Thư viện tách từ tiếng Việt Phần giao diện viết ngơn ngữ C#, có chức nhập vào đoạn văn so sánh với số đoạn văn khác sau với ngưỡng thiết lập, sau tơ đậm đoạn văn có độ tương đồng lớn ngưỡng cho với đoạn văn nhập vào TIEU LUAN MOI download : skknchat@gmail.com 50 3.3 Dữ liệu thực nghiệm Dữ liệu để xây dựng ma trận ngữ nghĩa có kích thước 5092 từ 687 dịng nội dung khởi nghiệp (kích thước ma trận 5092 x 687) Dữ liệu để so sánh đoạn văn cần nhập vào (tương ứng với góp ý tổ) 13 đoạn văn khác (tương ứng 13 tổ cịn lại) có đề cập vấn đề khởi nghiệp 3.4 Giao diện chương trình thực nghiệm - Khởi tạo không gian ngữ nghĩa LSA Có chức tạo khơng gian ngữ nghĩa LSA từ liệu có (tạo SVD với k=50) Hình 3.2 Giao diện khởi tạo LSA - Giao diện để nhập đoạn văn để so sánh Phần input mang nghĩa đoạn văn lựa chọn để so sánh Các đoạn văn cịn lại hiển thị phía TIEU LUAN MOI download : skknchat@gmail.com 51 Hình 3.3 Giao diện nhập đoạn văn để so sánh - Giao diện kết so sánh Hình 3.4 Kết so sánh Với liệu thực nghiệm trên, giả định với ngưỡng so sánh 0.7 (tự nhập vào từ bàn phím) đoạn văn có độ tương đồng với đoạn văn nhập vào cao ngưỡng tô đậm TIEU LUAN MOI download : skknchat@gmail.com 52 Đánh giá kết thực nghiệm Trên sở kết thực nghiệm, nhận thấy việc giải toán phát nội dung giống tổng hợp ý kiến thảo luận tổ có tính khả thi Tuy cịn nhiều vấn đề cần nghiên cứu để giải (1) xác định giá trị ngưỡng cho tối ưu, (2) trường hợp vấn đề đưa xin ý kiến ma trận ban đầu xây dựng chưa có tài liệu đề cập tới vấn đề độ xác khơng cao, (3) chưa xử lý tình phủ định tiếng Việt, ví dụ “Đa số trí với phương án xin ý kiến” với “Đa số khơng trí với phương án xin ý kiến” hay “Chúng ta không vấn đề này” với “Chúng ta không vấn đề này” TIEU LUAN MOI download : skknchat@gmail.com 53 KẾT LUẬN Đề tài luận văn nghiên cứu giải pháp tự động phân tích nội dung giống tổng hợp ý kiến thảo luận, góp ý Hội nghị Bài toán xuất phát từ thực tế công tác tổng hợp ý kiến thảo luận tổ Hội nghị Ban Chấp hành Trung ương Hiện tại, Văn phòng Trung ương Đảng xây dựng đưa vào sử dụng phần mềm hỗ trợ tổng hợp ý kiến thảo luận tổ hội nghị Trung ương phục vụ công tác tổng hợp ý kiến Trung ương thảo luận tổ vấn đề, chủ trương quan trọng đất nước Phần mềm Hỗ trợ tổng hợp ý kiến góp phần nâng cao chất lượng, thời gian tổng hợp, giúp lãnh đạo Văn phòng Trung ương cán làm cơng tác tổng hợp xem xét, đánh giá lại kết tổng hợp, từ khơng ngừng nâng cao chất lượng biên tập, tổng hợp; đồng thời góp phần nâng cao hiệu hoạt động hệ thống công nghệ thông tin quan Một hạn chế phần mềm Hỗ trợ tổng hợp ý kiến chưa pháp nội dung trùng thừa tổng hợp Việc giải trùng thừa có ý nghĩa quan trọng việc hỗ trợ tổng hợp ý kiến thảo luận tổ hội nghị Trung ương Nó giúp việc tổng hợp nhanh chóng, xác từ khâu biên chi tiết, biên tổng hợp tổ biên tổng hợp tất tổ Luận văn vào nghiên cứu phương pháp tính độ tương đồng câu, đề xuất giải pháp nhằm phát nội dung trùng tổng hợp ý kiến góp ý phần mềm Hỗ trợ tổng hợp ý kiến dựa thuật toán xử lý ngôn ngữ tự nhiên Luận văn xây dựng chương trình thực nghiệm cho kết tốt, chứng minh khả áp dụng giải pháp vào giải toán thực tế Luận văn đưa số định hướng nghiên cứu tiếp tục sau: - Tiếp tục nghiên cứu thuật tốn tính độ tương đồng câu để tăng độ xác, nghiên cứu để giải toán phủ định tiếng Việt Kết hợp TIEU LUAN MOI download : skknchat@gmail.com 54 tốn tính độ tương đồng phủ định tiếng Việt để có giải pháp tối ưu giải vấn đề phát nội dung góp ý giống q trình tổng hợp ý kiến góp ý Hội nghị - Trên sở đó, hồn thiện nghiên cứu áp dụng giải pháp kỹ thuật phát nội dung trùng thừa cho phần mềm Hỗ trợ tổng hợp ý kiến, phục vụ chuyên viên Văn phòng Trung ương Đảng làm nhiệm vụ tổng hợp Hội nghị Trung ương Trong trình thực hiện, chắn Luận văn nhiều hạn chế thiếu sót Do vậy, tơi mong nhận góp ý thầy cô đồng nghiệp quan tâm đến đề tài Những ý kiến quý báu giúp Luận văn tơi hồn thiện mang tính thực tiễn cao để áp dụng vào thực tế cơng tác Văn phịng Trung ương Đảng TIEU LUAN MOI download : skknchat@gmail.com 55 Tài liệu tham khảo Tiếng Việt Trần Cao Đệ (2011), Chỉ mục ngữ nghĩa tiềm ẩn ứng dụng, Kỷ yếu Hội nghị tổng kết năm nghiên cứu khoa học & đào tạo Khoa Công nghệ thông tin & truyền thông Đại học Cần Thơ, tr 49-56 Đào Quang Minh, Lê Đức Tùng, Lê Đức Hùng, Nguyễn Hữu Đức, Nguyễn Thanh Thủy ( 2011), Xây dựng dịch vụ so khớp tài liệu điện tử lưới liệu VNGRID, Chuyên san “Các cơng trình nghiên cứu, phát triển ứng dụng Công nghệ Thông tin Truyền thông”, tr 72 – 81 Phạm Văn Hà (2014), Hệ thống tự động tổng hợp ý kiến góp ý Hội nghị, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, tr 44 – 46 Trần Mai Vũ (2009), Tóm tắt đa văn dựa vào trích xuất câu, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội https://vi.wikipedia.org/wiki/Wikipedia:Giới_thiệu, năm 2016 Văn phòng Trung ương Đảng (2016), Dự án “Xây dựng phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ hội nghị Trung ương” Tiếng Anh David M.Blei, Andrew Y.Ng, Michael I.Jordan (2003), “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3, pp 993-1022 Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W and Harshman, R.A (1990), “Indexing by latent semantic analysis”, Journal of the Society for Information Science, 41(6), pp 391-407 TIEU LUAN MOI download : skknchat@gmail.com 56 Aminul Islam and Diana Inkpen (2008), “Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity”, ACM Transactions on Knowledge Discovery from Data, Vol 2, No.2, Article 10 10 Thomas K.Landauer, Susan T.Dumais (1997), A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge 11 Thomas K.Landauer, Danielle S.McNamara Simon Dennis and Walter Kintsch (2011), Hand book of Latent Semantic Analysis, pp 13-14 12 Yuhua Li, David McLean, Zuhair A.Bandar, James D.O’Shea, and Keeley Crockett (2006), “Sentence Similarity Based on Semantic Nets and Corpus Statistics”, IEEE transactions on knowledge and data engineering, VOL 18, NO 13 Rada Mihalcea and Courtney Corley, Carlo Strapparava, Corpusbased and Knowledge-based Measures of Text Semantic Similarity 14 Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo (2014), “VietNamese Sentence Similarity Based on Concept”, IFIP International Federation for Information Processing 2014 15 Tu C.Nguyen (2008), Hidden Topic discovery toward classification and clustering in Vietnamese web documents, Master Thesis, Universtiy of Engineering and Technology, Vietnam National University, Hanoi 16 Kenji TAKANO, Makoto NAKAMURA, Yoshiko OYAMA and Akira SHIMAZU (2010), Semantic Analysis of Paragraphs Consisting of Multipel Sentences 17 Nuno Seco, Tony Veale and Jer Hayes (2004), An Intrinic Information Content Metric for Semantic Similarity in WordNet TIEU LUAN MOI download : skknchat@gmail.com 57 18 Sheetal A.Takale, Sushma S.Nandgaonkar (2010), “Measuring Semantic Similarity between Words Using Web Documents”, WWW2007: Track:Semantic Web 19 Torsten Zesch, Iryna Gurevych and Max Muhlhauser (2007), Comparing Wikipedia and German WordNet by Evaluating Semantic Relatedness on Multipe Datasets 20 TorstenZesch, IrynaGurevych (2007), Analys is of the Wikipedia Category Graph for NLP Applications TIEU LUAN MOI download : skknchat@gmail.com 58 TIEU LUAN MOI download : skknchat@gmail.com 59 TIEU LUAN MOI download : skknchat@gmail.com 60 TIEU LUAN MOI download : skknchat@gmail.com 61 TIEU LUAN MOI download : skknchat@gmail.com 62 TIEU LUAN MOI download : skknchat@gmail.com ... GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GĨP Ý TRONG HỘI NGHỊ Ngành: Cơng nghệ thơng tin Chuyên ngành: Hệ thống. .. PHÁT HIỆN NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 47 Đề xuất giải pháp phát nội dung giống phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ 47 Xử lý liệu ... vụ đặt luận văn - Giới thiệu toán tổng hợp ý kiến hội nghị - Tìm hiểu phương pháp tính độ tương đồng câu - Đề xuất giải pháp phát nội dung giống hệ thống tổng hợp ý kiến góp ý Hội nghị Tổng quan

Ngày đăng: 27/06/2022, 17:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Trần Cao Đệ (2011), Chỉ mục ngữ nghĩa tiềm ẩn và ứng dụng, Kỷ yếu Hội nghị tổng kết 5 năm nghiên cứu khoa học & đào tạo Khoa Công nghệ thông tin & truyền thông Đại học Cần Thơ, tr 49-56 Sách, tạp chí
Tiêu đề: Chỉ mục ngữ nghĩa tiềm ẩn và ứng dụng
Tác giả: Trần Cao Đệ
Năm: 2011
2. Đào Quang Minh, Lê Đức Tùng, Lê Đức Hùng, Nguyễn Hữu Đức, Nguyễn Thanh Thủy ( 2011), Xây dựng dịch vụ so khớp tài liệu điện tử trên lưới dữ liệu VNGRID, Chuyên san “Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông”, tr 72 – 81 Sách, tạp chí
Tiêu đề: Xây dựng dịch vụ so khớp tài liệu điện tử trên lưới dữ liệu VNGRID", Chuyên san “Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông
3. Phạm Văn Hà (2014), Hệ thống tự động tổng hợp ý kiến góp ý trong Hội nghị, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, tr 44 – 46 Sách, tạp chí
Tiêu đề: Hệ thống tự động tổng hợp ý kiến góp ý trong Hội nghị
Tác giả: Phạm Văn Hà
Năm: 2014
4. Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất câu, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Tóm tắt đa văn bản dựa vào trích xuất câu
Tác giả: Trần Mai Vũ
Năm: 2009
6. Văn phòng Trung ương Đảng (2016), Dự án “Xây dựng phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại các hội nghị Trung ương”.Tiếng Anh Sách, tạp chí
Tiêu đề: Xây dựng phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại các hội nghị Trung ương
Tác giả: Văn phòng Trung ương Đảng
Năm: 2016
7. David M.Blei, Andrew Y.Ng, Michael I.Jordan (2003), “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3, pp 993-1022 Sách, tạp chí
Tiêu đề: Latent Dirichlet Allocation”," Journal of Machine Learning Research 3
Tác giả: David M.Blei, Andrew Y.Ng, Michael I.Jordan
Năm: 2003
8. Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W. and Harshman, R.A. (1990), “Indexing by latent semantic analysis”, Journal of the Society for Information Science, 41(6), pp 391-407 Sách, tạp chí
Tiêu đề: Indexing by latent semantic analysis”, "Journal of the Society for Information Science, 41(6)
Tác giả: Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W. and Harshman, R.A
Năm: 1990
9. Aminul Islam and Diana Inkpen (2008), “Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity”, ACM Transactions on Knowledge Discovery from Data, Vol. 2, No.2, Article 10 Sách, tạp chí
Tiêu đề: Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity”
Tác giả: Aminul Islam and Diana Inkpen
Năm: 2008
11. Thomas K.Landauer, Danielle S.McNamara Simon Dennis and Walter Kintsch (2011), Hand book of Latent Semantic Analysis, pp 13-14 Sách, tạp chí
Tiêu đề: Hand book of Latent Semantic Analysis
Tác giả: Thomas K.Landauer, Danielle S.McNamara Simon Dennis and Walter Kintsch
Năm: 2011
12. Yuhua Li, David McLean, Zuhair A.Bandar, James D.O’Shea, and Keeley Crockett (2006), “Sentence Similarity Based on Semantic Nets and Corpus Statistics”, IEEE transactions on knowledge and data engineering, VOL.18, NO. 8 Sách, tạp chí
Tiêu đề: Sentence Similarity Based on Semantic Nets and Corpus Statistics”," IEEE transactions on knowledge and data engineering, VOL
Tác giả: Yuhua Li, David McLean, Zuhair A.Bandar, James D.O’Shea, and Keeley Crockett
Năm: 2006
14. Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo (2014), “VietNamese Sentence Similarity Based on Concept”, IFIP International Federation for Information Processing 2014 Sách, tạp chí
Tiêu đề: VietNamese Sentence Similarity Based on Concept”
Tác giả: Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo
Năm: 2014
15. Tu C.Nguyen (2008), Hidden Topic discovery toward classification and clustering in Vietnamese web documents, Master Thesis, Universtiy of Engineering and Technology, Vietnam National University, Hanoi Sách, tạp chí
Tiêu đề: Hidden Topic discovery toward classification and clustering in Vietnamese web documents
Tác giả: Tu C.Nguyen
Năm: 2008
18. Sheetal A.Takale, Sushma S.Nandgaonkar (2010), “Measuring Semantic Similarity between Words Using Web Documents”, WWW2007:Track:Semantic Web Sách, tạp chí
Tiêu đề: Measuring Semantic Similarity between Words Using Web Documents”," WWW2007
Tác giả: Sheetal A.Takale, Sushma S.Nandgaonkar
Năm: 2010
10. Thomas K.Landauer, Susan T.Dumais (1997), A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge Khác
13. Rada Mihalcea and Courtney Corley, Carlo Strapparava, Corpus- based and Knowledge-based Measures of Text Semantic Similarity Khác
16. Kenji TAKANO, Makoto NAKAMURA, Yoshiko OYAMA and Akira SHIMAZU (2010), Semantic Analysis of Paragraphs Consisting of Multipel Sentences Khác
17. Nuno Seco, Tony Veale and Jer Hayes (2004), An Intrinic Information Content Metric for Semantic Similarity in WordNet Khác
19. Torsten Zesch, Iryna Gurevych and Max Muhlhauser (2007), Comparing Wikipedia and German WordNet by Evaluating Semantic Relatedness on Multipe Datasets Khác
20. TorstenZesch, IrynaGurevych (2007), Analys is of the Wikipedia Category Graph for NLP Applications Khác

HÌNH ẢNH LIÊN QUAN

BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT (Trang 7)
Hình 1.1. Mô tả nghiệp vụ tổng hợp trên giấy - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 1.1. Mô tả nghiệp vụ tổng hợp trên giấy (Trang 18)
Hình 1.2. Mô hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến Về  cơ  bản, quy  trình  tổng  hợp ý  kiến khi  sử  dụng phần  mềm  Hỗ  trợ  tổng  hợp ý kiến là giống với quy trình tổng hợp trên giấy - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 1.2. Mô hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến Về cơ bản, quy trình tổng hợp ý kiến khi sử dụng phần mềm Hỗ trợ tổng hợp ý kiến là giống với quy trình tổng hợp trên giấy (Trang 21)
Hình 2.1. Sơ đồ phân cấp các từ trong WordNet Ví dụ:   - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.1. Sơ đồ phân cấp các từ trong WordNet Ví dụ: (Trang 26)
Hình 2.2. Sơ đồ tính độ tương đồng của câu Để tính độ tương đồng của hai câu cần thực hiện các bước sau  - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.2. Sơ đồ tính độ tương đồng của câu Để tính độ tương đồng của hai câu cần thực hiện các bước sau (Trang 27)
Hình 2.3. Đồ thị chủ đề Wikipedia - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.3. Đồ thị chủ đề Wikipedia (Trang 31)
Hình 2.4. Mô hình tính độ tương đồng giữa hai từ dựa trên Wikipedia Để tính độ tương đồng giữa hai từ, người ta dựa trên Wikipedia để trích  một  đoạn  văn  ngắn  có  liên  quan  đến  từ  đó  (Wiki  Snippet  Extraction) - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.4. Mô hình tính độ tương đồng giữa hai từ dựa trên Wikipedia Để tính độ tương đồng giữa hai từ, người ta dựa trên Wikipedia để trích một đoạn văn ngắn có liên quan đến từ đó (Wiki Snippet Extraction) (Trang 32)
Hình 2.5. Trích xuất tập các từ dựa trên Wikipedia - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.5. Trích xuất tập các từ dựa trên Wikipedia (Trang 33)
Hình 2.6. Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn Giải thích mô hình:  - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.6. Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn Giải thích mô hình: (Trang 35)
Thông qua mô hình LDA ta tính được trọng số của mỗi chủ đề trên tài liệu - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
h ông qua mô hình LDA ta tính được trọng số của mỗi chủ đề trên tài liệu (Trang 36)
Hình 2.7. Mô hình LDA - α tham số Dirichle  - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.7. Mô hình LDA - α tham số Dirichle (Trang 36)
Hình 2.8. SVD trong LSA - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.8. SVD trong LSA (Trang 40)
Hình 2.9. Ma trận biểu diễn, mỗi ô là số lần xuất hiện của từ trong câu văn, mỗi một từ xuất hiện ít nhất trong 2 câu  - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.9. Ma trận biểu diễn, mỗi ô là số lần xuất hiện của từ trong câu văn, mỗi một từ xuất hiện ít nhất trong 2 câu (Trang 41)
Hình 2.10. Ma trậ nU - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.10. Ma trậ nU (Trang 42)
Hình 2.13. Ma trận được xây dựng lại với k=2 - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.13. Ma trận được xây dựng lại với k=2 (Trang 43)
Hình 3.1. Mô hình phát hiện nội dung trùng trong tổng hợp ý kiến Qua tình hình thực tế sử dụng phần mềm Hỗ trợ tổng hợp ý kiến và những  kiến thức đã trình bày ở trên, tác giả đề xuất mô hình phát hiện nội dung trùng  trong bản tổng hợp ý kiến của các tổ  - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 3.1. Mô hình phát hiện nội dung trùng trong tổng hợp ý kiến Qua tình hình thực tế sử dụng phần mềm Hỗ trợ tổng hợp ý kiến và những kiến thức đã trình bày ở trên, tác giả đề xuất mô hình phát hiện nội dung trùng trong bản tổng hợp ý kiến của các tổ (Trang 47)
Quá trình thực nghiệm trên máy tính có cấu hình như sau: Bảng 3.1. Cấu hình thiết bị môi trường thực nghiệm  - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
u á trình thực nghiệm trên máy tính có cấu hình như sau: Bảng 3.1. Cấu hình thiết bị môi trường thực nghiệm (Trang 48)
Bảng 3.2. Các thư viện sử dụng - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Bảng 3.2. Các thư viện sử dụng (Trang 49)
Hình 3.2. Giao diện khởi tạo LSA - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 3.2. Giao diện khởi tạo LSA (Trang 50)
Hình 3.4. Kết quả so sánh - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 3.4. Kết quả so sánh (Trang 51)
Hình 3.3. Giao diện nhập đoạn văn để so sánh - (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 3.3. Giao diện nhập đoạn văn để so sánh (Trang 51)