1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths máy tính 60 48 01

62 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tự Động Phân Tích Các Nội Dung Giống Nhau Trong Hệ Thống Tổng Hợp Ý Kiến Góp Ý Trong Hội Nghị
Tác giả Trần Thanh Tùng
Người hướng dẫn TS. Bùi Quang Hưng, PGS.TS. Vũ Duy Lợi
Trường học Đại học quốc gia Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2016
Thành phố Hà Nội
Định dạng
Số trang 62
Dung lượng 2,94 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ *** TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2016 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thơng tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN Người hướng dẫn khoa học Cán hướng dẫn chính: TS Bùi Quang Hưng Cán hướng dẫn phụ: PGS.TS Vũ Duy Lợi HÀ NỘI - 2016 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm nghiên cứu, tìm hiểu riêng cá nhân tơi Trong tồn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 26 tháng 10 năm 2016 Ngƣời cam đoan Trần Thanh Tùng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Tôi xin chân thành cảm ơn PGS.TS Vũ Duy Lợi, chuyên viên cao cấp Văn phòng Trung ương Đảng TS Bùi Quang Hưng, giảng viên trường Đại học Công nghệ, Đại học Quốc gia Hà Nội tận tình giúp đỡ tơi chun mơn, định hướng phát triển suốt q trình làm luận văn Tơi xin gửi lời cám ơn tới Thầy, Cô giáo Khoa Cơng nghệ thơng tin, truyền dạy kiến thức bổ ích, đại lĩnh vực Hệ thống thông tin Tôi tiếp cận môi trường học thuật cao, hiểu vất vả thành đạt tham gia nghiên cứu khoa học Tơi xin cảm ơn bạn nhóm Data Mining thuộc Trung tâm Cơng nghệ tích hợp liên ngành giám sát trường (FIMO center), Đại học Công nghệ Hà Nội, TS Nguyễn Việt Anh Nhóm Giải pháp liệu, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam Cuối cùng, với gia đình, tơi xin gửi lời biết ơn sâu sắc gia đình ln bên cạnh tơi, mang lại cho nguồn động viên tinh thần to lớn tạo điều kiện thuận lợi cho q trình học tập hồn thành luận văn Mặc dù cố gắng luận văn khơng tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp q báu Thầy, Cơ giáo bạn để luận văn hoàn thiện Xin trân trọng cảm ơn! LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU 10 CHƢƠNG 1: BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 14 Tổng quan tốn tổng hợp ý kiến góp ý Hội nghị 14 Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ Hội nghị Trung ƣơng 15 2.1 Quy trình tổng hợp ý kiến thảo luận 16 2.2 Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ 19 Xác định toán cần giải .23 CHƢƠNG 2: CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG CÂU 25 Khái niệm độ tƣơng đồng câu 25 Các phƣơng pháp tính độ tƣơng đồng câu .25 2.1 Phương pháp tính độ tương đồng câu dựa vào WordNet 25 2.2 Phương pháp tính độ tương đồng câu dựa vào Wikipedia 30 2.3 Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn (Latent Dirichlet Allocation) 34 2.4 Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis) 37 Đánh giá lựa chọn phƣơng pháp 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƢƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 47 Đề xuất giải pháp phát nội dung giống phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ 47 Xử lý liệu 48 Thực nghiệm 48 3.1 Môi trường thực nghiệm 48 3.2 Chương trình phần mềm 49 3.3 Dữ liệu thực nghiệm 50 3.4 Giao diện chương trình thực nghiệm 50 Đánh giá kết thực nghiệm 52 KẾT LUẬN 53 Tài liệu tham khảo 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu Diễn giải Tiếng Việt WCG Wikipedia Category Graph Đồ thị chủ đề Wikipedia SS Semantic similarity Tương đồng ngữ nghĩa SR Semantic relatedness Quan hệ ngữ nghĩa LDA Latent Dirichlet Allocation Phân bổ Dirichlet tiềm ẩn LSA Latent Semantic Analysis Phân tích ngữ nghĩa tiềm ẩn SVD Singular Value Decomposition Phân tích giá trị đơn IDF Inverse Document Frequency Tần số nghịch từ TF Term Frequency Tần sốvăn từ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mô tả nghiệp vụ tổng hợp giấy 18 Hình 1.2 Mơ hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến 21 Hình 1.3 Kết tổng hợp ý kiến góp ý Tổ 22 Hình 2.1 Sơ đồ phân cấp từ WordNet .26 Hình 2.2 Sơ đồ tính độ tương đồng câu 27 Hình 2.3 Đồ thị chủ đề Wikipedia .31 Hình 2.4 Mơ hình tính độ tương đồng hai từ dựa Wikipedia 32 Hình 2.5 Trích xuất tập từ dựa Wikipedia 33 Hình 2.6 Mơ hình tính độ tương đồng câu dựa vào chủ đề ẩn 35 Hình 2.7 Mơ hình LDA .36 Hình 2.8 SVD LSA 40 Hình 2.9 Ma trận biểu diễn, ô số lần xuất từ câu văn, từ xuất câu .41 Hình 2.10 Ma trận U 42 Hình 2.11 Ma trận giá trị đơn với k=2 42 Hình 2.12 Ma trận V 42 Hình 2.13 Ma trận xây dựng lại với k=2 43 Hình 3.1 Mơ hình phát nội dung trùng tổng hợp ý kiến 47 Hình 3.2 Giao diện khởi tạo LSA 50 Hình 3.3 Giao diện nhập đoạn văn để so sánh 51 Hình 3.4 Kết so sánh 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 Cấu hình thiết bị mơi trường thực nghiệm 48 Bảng 3.2 Các thư viện sử dụng 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 MỞ ĐẦU Đặt vấn đề Những năm qua, việc ứng dụng công nghệ thông tin hoạt động quan, tổ chức Đảng, Nhà nước giúp cho công tác lãnh đạo, đạo, điều hành giải công việc hàng ngày nhanh chóng, chất lượng hơn, đồng thời giúp cho cơng tác cải cách hành ngày có hiệu Việc ứng dụng cơng nghệ thơng tin giúp quan nâng cao lực quản lý, điều hành, giảm thời gian giải quyết, xử lý công việc, góp phần khơng nhỏ việc tinh giảm tổ chức máy, tiết kiệm chi phí tài Văn phòng Trung ương Đảng quan tham mưu Đảng, có chức tham mưu, giúp việc Ban Chấp hành Trung ương Đảng mà trực tiếp Bộ Chính trị, Ban Bí thư việc tổ chức, điều hành công việc lãnh đạo Đảng Trong nhiệm kỳ hoạt động, Ban Chấp hành Trung ương Đảng tổ chức Hội nghị Trung ương (thông thường Hội nghị/năm) Tại Hội nghị, có nhiều chủ trương quan trọng, có tầm ảnh hưởng lớn để lãnh đạo, đạo đất nước; nội dung, chuyên đề đưa bàn thảo, xin ý kiến Ủy viên Trung ương trước thông qua thức Một nhiệm vụ quan trọng Văn phòng Trung ương Đảng chuẩn bị, tổ chức, phục vụ sở vật chất nội dung Hội nghị Trung ương Đảng Đội ngũ chuyên viên Văn phòng Trung ương Đảng giao nhiệm vụ ghi biên chi tiết tổng hợp tất ý kiến góp ý, thảo luận Ủy viên Trung ương Cơng việc địi hỏi tính xác, nhanh chóng, đầy đủ kịp thời, theo cán Văn phịng phải có khả tổng hợp, biên tập văn bản; đồng thời cần hỗ trợ công nghệ thông tin để thực tốt công việc Thông thường, nội dung có nhiều ý kiến góp ý giống (trong luận văn sử dụng từ: tương đồng, trùng thừa) gây trùng lặp nội dung thông tin Điều gây khó khăn cho chuyên viên tổng hợp ý kiến, nhiều thời gian, công sức để đọc, lọc loại bỏ ý trùng thừa, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 48 - Thông qua ma trận ngữ nghĩa xây dựng từ trước, câu (đoạn văn) tệp chứa liệu lựa chọn tệp chưa câu cần so sánh biểu diễn thành vector - Sử dụng thuật tốn tính độ tương đồng xác định tương đồng câu (đoạn văn) với câu lựa chọn Thiết lập ngưỡng độ tương đồng câu Kết thu câu có độ tương đồng vượt ngưỡng đánh dấu màu - Kết đánh dấu câu (đoạn văn) giống hiển thị ngược trở lại giao diện tổng hợp ý kiến thảo luận tổ, giúp cho chuyên viên tổng hợp theo dõi định lựa chọn loại bỏ ý kiến Xử lý liệu Trong bước xử lý liệu, liệu loại bỏ dấu câu dấu phẩy, dấu chấm, dấu chấm hỏi, dấu chấm than Đối với văn tiếng Việt xử dụng công cụ tách từ để xác định từ đơn, từ ghép cho văn Cuối liệu xử lý lưu thành tệp text Thực nghiệm 3.1 Mơi trường thực nghiệm Q trình thực nghiệm máy tính có cấu sau: Bảng 3.1 Cấu hình thiết bị mơi trường thực nghiệm Thành phần Chỉ số CPU Intel (R) Pentium 1,87 Ghz RAM GB HDD 320 GB OS Windows Home Basic 32 bits LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 49 3.2 Chương trình phần mềm Các thư viện sử dụng phần mềm (các packages ngơn ngữ lập trình R) Bảng 3.2 Các thư viện sử dụng STT Tên thư viện tm Mục đích Nguồn https://cran.r- Các hàm xử project.org/web/packages/tm/index.html lý text mining Lsa https://cran.r- Hàm xây project.org/web/packages/lsa/index.html dựng không gian ngữ nghĩa LSAfun https://cran.r- Hàm tính tốn project.org/web/packages/LSAfun/index độ html đồng tương câu JVnTextPro Jvntextpro.sourceforge.net Thư viện tách từ tiếng Việt Phần giao diện viết ngơn ngữ C#, có chức nhập vào đoạn văn so sánh với số đoạn văn khác sau với ngưỡng thiết lập, sau tơ đậm đoạn văn có độ tương đồng lớn ngưỡng cho với đoạn văn nhập vào LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 50 3.3 Dữ liệu thực nghiệm Dữ liệu để xây dựng ma trận ngữ nghĩa có kích thước 5092 từ 687 dịng nội dung khởi nghiệp (kích thước ma trận 5092 x 687) Dữ liệu để so sánh đoạn văn cần nhập vào (tương ứng với góp ý tổ) 13 đoạn văn khác (tương ứng 13 tổ cịn lại) có đề cập vấn đề khởi nghiệp 3.4 Giao diện chương trình thực nghiệm - Khởi tạo khơng gian ngữ nghĩa LSA Có chức tạo khơng gian ngữ nghĩa LSA từ liệu có (tạo SVD với k=50) Hình 3.2 Giao diện khởi tạo LSA - Giao diện để nhập đoạn văn để so sánh Phần input mang nghĩa đoạn văn lựa chọn để so sánh Các đoạn văn lại hiển thị phía LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 51 Hình 3.3 Giao diện nhập đoạn văn để so sánh - Giao diện kết so sánh Hình 3.4 Kết so sánh Với liệu thực nghiệm trên, giả định với ngưỡng so sánh 0.7 (tự nhập vào từ bàn phím) đoạn văn có độ tương đồng với đoạn văn nhập vào cao ngưỡng tô đậm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 52 Đánh giá kết thực nghiệm Trên sở kết thực nghiệm, nhận thấy việc giải toán phát nội dung giống tổng hợp ý kiến thảo luận tổ có tính khả thi Tuy cịn nhiều vấn đề cần nghiên cứu để giải (1) xác định giá trị ngưỡng cho tối ưu, (2) trường hợp vấn đề đưa xin ý kiến ma trận ban đầu xây dựng chưa có tài liệu đề cập tới vấn đề độ xác khơng cao, (3) chưa xử lý tình phủ định tiếng Việt, ví dụ “Đa số trí với phương án xin ý kiến” với “Đa số khơng trí với phương án xin ý kiến” hay “Chúng ta không vấn đề này” với “Chúng ta không vấn đề này” LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 53 KẾT LUẬN Đề tài luận văn nghiên cứu giải pháp tự động phân tích nội dung giống tổng hợp ý kiến thảo luận, góp ý Hội nghị Bài toán xuất phát từ thực tế công tác tổng hợp ý kiến thảo luận tổ Hội nghị Ban Chấp hành Trung ương Hiện tại, Văn phòng Trung ương Đảng xây dựng đưa vào sử dụng phần mềm hỗ trợ tổng hợp ý kiến thảo luận tổ hội nghị Trung ương phục vụ công tác tổng hợp ý kiến Trung ương thảo luận tổ vấn đề, chủ trương quan trọng đất nước Phần mềm Hỗ trợ tổng hợp ý kiến góp phần nâng cao chất lượng, thời gian tổng hợp, giúp lãnh đạo Văn phòng Trung ương cán làm cơng tác tổng hợp xem xét, đánh giá lại kết tổng hợp, từ khơng ngừng nâng cao chất lượng biên tập, tổng hợp; đồng thời góp phần nâng cao hiệu hoạt động hệ thống công nghệ thông tin quan Một hạn chế phần mềm Hỗ trợ tổng hợp ý kiến chưa pháp nội dung trùng thừa tổng hợp Việc giải trùng thừa có ý nghĩa quan trọng việc hỗ trợ tổng hợp ý kiến thảo luận tổ hội nghị Trung ương Nó giúp việc tổng hợp nhanh chóng, xác từ khâu biên chi tiết, biên tổng hợp tổ biên tổng hợp tất tổ Luận văn vào nghiên cứu phương pháp tính độ tương đồng câu, đề xuất giải pháp nhằm phát nội dung trùng tổng hợp ý kiến góp ý phần mềm Hỗ trợ tổng hợp ý kiến dựa thuật toán xử lý ngôn ngữ tự nhiên Luận văn xây dựng chương trình thực nghiệm cho kết tốt, chứng minh khả áp dụng giải pháp vào giải toán thực tế Luận văn đưa số định hướng nghiên cứu tiếp tục sau: - Tiếp tục nghiên cứu thuật tốn tính độ tương đồng câu để tăng độ xác, nghiên cứu để giải toán phủ định tiếng Việt Kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 54 tốn tính độ tương đồng phủ định tiếng Việt để có giải pháp tối ưu giải vấn đề phát nội dung góp ý giống q trình tổng hợp ý kiến góp ý Hội nghị - Trên sở đó, hoàn thiện nghiên cứu áp dụng giải pháp kỹ thuật phát nội dung trùng thừa cho phần mềm Hỗ trợ tổng hợp ý kiến, phục vụ chuyên viên Văn phòng Trung ương Đảng làm nhiệm vụ tổng hợp Hội nghị Trung ương Trong trình thực hiện, chắn Luận văn nhiều hạn chế thiếu sót Do vậy, tơi mong nhận góp ý thầy đồng nghiệp quan tâm đến đề tài Những ý kiến quý báu giúp Luận văn tơi hồn thiện mang tính thực tiễn cao để áp dụng vào thực tế cơng tác Văn phịng Trung ương Đảng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 55 Tài liệu tham khảo Tiếng Việt Trần Cao Đệ (2011), Chỉ mục ngữ nghĩa tiềm ẩn ứng dụng, Kỷ yếu Hội nghị tổng kết năm nghiên cứu khoa học & đào tạo Khoa Công nghệ thông tin & truyền thông Đại học Cần Thơ, tr 49-56 Đào Quang Minh, Lê Đức Tùng, Lê Đức Hùng, Nguyễn Hữu Đức, Nguyễn Thanh Thủy ( 2011), Xây dựng dịch vụ so khớp tài liệu điện tử lưới liệu VNGRID, Chun san “Các cơng trình nghiên cứu, phát triển ứng dụng Công nghệ Thông tin Truyền thông”, tr 72 – 81 Phạm Văn Hà (2014), Hệ thống tự động tổng hợp ý kiến góp ý Hội nghị, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, tr 44 – 46 Trần Mai Vũ (2009), Tóm tắt đa văn dựa vào trích xuất câu, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội https://vi.wikipedia.org/wiki/Wikipedia:Giới_thiệu, năm 2016 Văn phòng Trung ương Đảng (2016), Dự án “Xây dựng phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ hội nghị Trung ương” Tiếng Anh David M.Blei, Andrew Y.Ng, Michael I.Jordan (2003), “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3, pp 993-1022 Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W and Harshman, R.A (1990), “Indexing by latent semantic analysis”, Journal of the Society for Information Science, 41(6), pp 391-407 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 56 Aminul Islam and Diana Inkpen (2008), “Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity”, ACM Transactions on Knowledge Discovery from Data, Vol 2, No.2, Article 10 10 Thomas K.Landauer, Susan T.Dumais (1997), A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge 11 Thomas K.Landauer, Danielle S.McNamara Simon Dennis and Walter Kintsch (2011), Hand book of Latent Semantic Analysis, pp 13-14 12 Yuhua Li, David McLean, Zuhair A.Bandar, James D.O’Shea, and Keeley Crockett (2006), “Sentence Similarity Based on Semantic Nets and Corpus Statistics”, IEEE transactions on knowledge and data engineering, VOL 18, NO 13 Rada Mihalcea and Courtney Corley, Carlo Strapparava, Corpusbased and Knowledge-based Measures of Text Semantic Similarity 14 Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo (2014), “VietNamese Sentence Similarity Based on Concept”, IFIP International Federation for Information Processing 2014 15 Tu C.Nguyen (2008), Hidden Topic discovery toward classification and clustering in Vietnamese web documents, Master Thesis, Universtiy of Engineering and Technology, Vietnam National University, Hanoi 16 Kenji TAKANO, Makoto NAKAMURA, Yoshiko OYAMA and Akira SHIMAZU (2010), Semantic Analysis of Paragraphs Consisting of Multipel Sentences 17 Nuno Seco, Tony Veale and Jer Hayes (2004), An Intrinic Information Content Metric for Semantic Similarity in WordNet LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 57 18 Sheetal A.Takale, Sushma S.Nandgaonkar (2010), “Measuring Semantic Similarity between Words Using Web Documents”, WWW2007: Track:Semantic Web 19 Torsten Zesch, Iryna Gurevych and Max Muhlhauser (2007), Comparing Wikipedia and German WordNet by Evaluating Semantic Relatedness on Multipe Datasets 20 TorstenZesch, IrynaGurevych (2007), Analys is of the Wikipedia Category Graph for NLP Applications LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 58 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 60 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 61 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 62 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... thực Trong luận văn ? ?Hệ thống tự động tổng hợp ý kiến góp ý Hội nghị? ?? [3], tác giả có đưa mơ hình hệ thống tự động tổng hợp ý kiến Tuy nhiên, mô hình thực tế giải tốn phân lớp ý kiến tổng hợp Qua... NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ Đề xuất giải pháp phát nội dung giống phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ Hình 3.1 Mơ hình phát nội dung trùng tổng hợp ý kiến. .. GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GĨP Ý TRONG HỘI NGHỊ Ngành: Cơng nghệ thơng tin Chuyên ngành: Hệ thống

Ngày đăng: 05/12/2022, 18:01

HÌNH ẢNH LIÊN QUAN

BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT (Trang 7)
Hình 1.1. Mơ tả nghiệp vụ tổng hợp trên giấy - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 1.1. Mơ tả nghiệp vụ tổng hợp trên giấy (Trang 18)
Hình 1.2. Mơ hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến Về  cơ  bản, quy  trình  tổng  hợp ý  kiến khi  sử  dụng phần  mềm  Hỗ  trợ  tổng  hợp ý kiến là giống với quy trình tổng hợp trên giấy - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 1.2. Mơ hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến Về cơ bản, quy trình tổng hợp ý kiến khi sử dụng phần mềm Hỗ trợ tổng hợp ý kiến là giống với quy trình tổng hợp trên giấy (Trang 21)
Hình 2.1. Sơ đồ phân cấp các từ trong WordNet Ví dụ:   - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.1. Sơ đồ phân cấp các từ trong WordNet Ví dụ: (Trang 26)
Hình 2.2. Sơ đồ tính độ tương đồng của câu Để tính độ tương đồng của hai câu cần thực hiện các bước sau  - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.2. Sơ đồ tính độ tương đồng của câu Để tính độ tương đồng của hai câu cần thực hiện các bước sau (Trang 27)
Hình 2.3. Đồ thị chủ đề Wikipedia - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.3. Đồ thị chủ đề Wikipedia (Trang 31)
Hình 2.4. Mơ hình tính độ tương đồng giữa hai từ dựa trên Wikipedia Để tính độ tương đồng giữa hai từ, người ta dựa trên Wikipedia để trích  một  đoạn  văn  ngắn  có  liên  quan  đến  từ  đó  (Wiki  Snippet  Extraction) - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.4. Mơ hình tính độ tương đồng giữa hai từ dựa trên Wikipedia Để tính độ tương đồng giữa hai từ, người ta dựa trên Wikipedia để trích một đoạn văn ngắn có liên quan đến từ đó (Wiki Snippet Extraction) (Trang 32)
Hình 2.5. Trích xuất tập các từ dựa trên Wikipedia - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.5. Trích xuất tập các từ dựa trên Wikipedia (Trang 33)
Hình 2.6. Mơ hình tính độ tương đồng câu dựa vào chủ đề ẩn Giải thích mơ hình:  - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.6. Mơ hình tính độ tương đồng câu dựa vào chủ đề ẩn Giải thích mơ hình: (Trang 35)
Thông qua mơ hình LDA ta tính được trọng số của mỗi chủ đề trên tài liệu - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
h ông qua mơ hình LDA ta tính được trọng số của mỗi chủ đề trên tài liệu (Trang 36)
Hình 2.7. Mơ hình LDA - α tham số Dirichle  - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.7. Mơ hình LDA - α tham số Dirichle (Trang 36)
Hình 2.8. SVD trong LSA - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.8. SVD trong LSA (Trang 40)
Hình 2.9. Ma trận biểu diễn, mỗi ô là số lần xuất hiện của từ trong câu văn, mỗi một từ xuất hiện ít nhất trong 2 câu  - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.9. Ma trận biểu diễn, mỗi ô là số lần xuất hiện của từ trong câu văn, mỗi một từ xuất hiện ít nhất trong 2 câu (Trang 41)
Hình 2.10. Ma trậ nU - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.10. Ma trậ nU (Trang 42)
Hình 2.13. Ma trận được xây dựng lại với k=2 - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 2.13. Ma trận được xây dựng lại với k=2 (Trang 43)
Hình 3.1. Mơ hình phát hiện nội dung trùng trong tổng hợp ý kiến Qua tình hình thực tế sử dụng phần mềm Hỗ trợ tổng hợp ý kiến và những  kiến thức đã trình bày ở trên, tác giả đề xuất mơ hình phát hiện nội dung trùng  trong bản tổng hợp ý kiến của các tổ  - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 3.1. Mơ hình phát hiện nội dung trùng trong tổng hợp ý kiến Qua tình hình thực tế sử dụng phần mềm Hỗ trợ tổng hợp ý kiến và những kiến thức đã trình bày ở trên, tác giả đề xuất mơ hình phát hiện nội dung trùng trong bản tổng hợp ý kiến của các tổ (Trang 47)
Quá trình thực nghiệm trên máy tính có cấu hình như sau: Bảng 3.1. Cấu hình thiết bị mơi trường thực nghiệm  - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
u á trình thực nghiệm trên máy tính có cấu hình như sau: Bảng 3.1. Cấu hình thiết bị mơi trường thực nghiệm (Trang 48)
Bảng 3.2. Các thư viện sử dụng - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Bảng 3.2. Các thư viện sử dụng (Trang 49)
Hình 3.2. Giao diện khởi tạo LSA - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 3.2. Giao diện khởi tạo LSA (Trang 50)
Hình 3.4. Kết quả so sánh - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 3.4. Kết quả so sánh (Trang 51)
Hình 3.3. Giao diện nhập đoạn văn để so sánh - Luận văn thạc sĩ VNU UET tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths  máy tính 60 48 01
Hình 3.3. Giao diện nhập đoạn văn để so sánh (Trang 51)