Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị có bố cục thành 3 chương: Chương 1. Bài toán tổng hợp ý kiến góp ý trong hội nghị, chương 2. Các phương pháp tính độ tương đồng câu, Chương 3. Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong Hội nghị.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ *** TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2016 MỤC LỤC MỤC LỤC…………………………………………………………….1 MỞ ĐẦU………………………………………………………………2 CHƢƠNG 1: BÀI TỐN TỔNG HỢP Ý KIẾN GĨP Ý TRONG HỘI NGHỊ…………………………………………………………………… Tổng quan toán tổng hợp ý kiến góp ý Hội nghị……4 Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ Hội nghị Trung ƣơng………………………………………………………4 Xác định toán cần giải quyết…………………………….6 CHƢƠNG 2: CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG CÂU……………………………………………………………………7 Khái niệm độ tƣơng đồng câu……………………………… Các phƣơng pháp tính độ tƣơng đồng câu………………….7 Đánh giá lựa chọn phƣơng pháp……………………… 17 CHƢƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ…………………………………………….17 Đề xuất giải pháp phát nội dung giống phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ………………………18 Xử lý liệu………………………………………………….18 Thực nghiệm…………………………………………………19 Đánh giá kết thực nghiệm………………………………21 KẾT LUẬN………………………………………………22 Tài liệu tham khảo……………………………………….23 MỞ ĐẦU Đặt vấn đề Trong nhiệm kỳ hoạt động, Ban Chấp hành Trung ương Đảng tổ chức Hội nghị Trung ương với nhiều nội dung quan trọng đưa bàn thảo, xin ý kiến Ủy viên Trung ương trước thơng qua thức Những nhiệm vụ quan trọng Văn phòng Trung ương Đảng chuẩn bị, tổ chức, phục vụ sở vật chất nội dung, tổng hợp tất ý kiến góp ý Hội nghị Trung ương Đảng Hiện nay, Văn phòng Trung ương Đảng sử dụng phần mềm hỗ trợ tổng hợp ý kiến thảo luận tổ Hội nghị Trung ương Nhưng phần mềm chưa có chức phát hiện, đánh dấu ý kiến giống Với mong muốn nâng cao chất lượng phần mềm, luận văn nghiên cứu giải pháp nhằm giải vấn đề Mục tiêu nhiệm vụ nghiên cứu luận văn * Mục tiêu: Nghiên cứu phương pháp tính tốn độ tương đồng câu Trên sở đó, đề xuất giải pháp xây dựng chức phát hiện, đánh dấu câu, đoạn văn giống ngữ nghĩa ý kiến góp ý vào nội dung chủ đề đưa bàn thảo Hội nghị Trung ương Đảng * Nhiệm vụ: - Giới thiệu toán tổng hợp ý kiến hội nghị - Tìm hiểu phương pháp tính độ tương đồng câu - Đề xuất giải pháp phát nội dung giống hệ thống tổng hợp ý kiến góp ý Hội nghị Tổng quan nghiên cứu vấn đề Trên giới, cơng trình nghiên cứu tính tốn độ tương đồng từ, câu đoạn văn ngắn nghiên cứu rộng rãi Tại Việt Nam, thuật tốn tính tốn độ tương đồng câu để áp dụng vào tốn tóm tắt văn nhiều tác giả tìm hiểu, nghiên cứu Đã có tác giả nghiên cứu tốn phân lớp ý kiến góp ý tổng hợp ý kiến Hội nghị [3] Tuy nhiên việc phát nội dung góp ý giống nội dung thảo luận để cảnh báo, lược bỏ chưa nghiên cứu áp dụng Phƣơng pháp nghiên cứu Các phương pháp nghiên cứu: phương pháp khảo sát; tổng hợp; phân tích, đánh giá; thực nghiệm Nội dung luận văn Ngoài phần mở đầu kết luận, luận văn bố cục thành chương: - Chương Bài tốn tổng hợp ý kiến góp ý hội nghị - Chương Các phương pháp tính độ tương đồng câu - Chương Đề xuất giải pháp phát nội dung giống hệ thống tổng hợp ý kiến góp ý Hội nghị CHƢƠNG BÀI TỐN TỔNG HỢP Ý KIẾN GĨP Ý TRONG HỘI NGHỊ Tổng quan toán tổng hợp ý kiến góp ý Hội nghị Trong luận văn, cụm từ “tổng hợp ý kiến” hiểu theo khía cạnh tập hợp ý kiến góp ý riêng lẻ để thể xu hướng đại biểu góp ý vào nội dung vấn đề Ví dụ như: Đa số ý kiến cho rằng…, Một số ý kiến cho rằng…, Có ý kiến cho rằng… Có toán hiểu tương tự toán tổng hợp ý kiến theo khía cạnh đó: Bài tốn “khai phá quan điểm”, Bài tốn Tóm tắt văn Trong luận văn “Hệ thống tự động tổng hợp ý kiến góp ý Hội nghị” [3], tác giả có đưa mơ hình phân lớp ý kiến tổng hợp Nhu cầu đặt cần xây dựng hệ thống hỗ trợ tổng hợp ý kiến có chức tập hợp ý kiến góp ý, có tính giúp cho người sử dụng tổng hợp nhanh việc phát hiện, đánh dấu nội dung giống để qua người sử dụng định việc tổng hợp ý kiến Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ Hội nghị Trung ƣơng Hiện Văn phòng Trung ương Đảng sử dụng phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ Hội nghị Trung ương Phầm mềm sử dụng có chức từ tổng hợp ý kiến thảo luận Trung ương tổ, phần mềm gộp ý kiến theo nội dung Kết phần mềm giúp cho chuyên viên tránh tổng hợp thiếu, sót ý kiến trình tổng hợp 2.1 Quy trình tổng hợp ý kiến thảo luận Tại kỳ họp Hội nghị Trung ương, ủy viên Trung ương chia thành tổ để bàn nội dung Hội nghị Để ghi chép biên tổng hợp ý kiến góp ý tổ, Văn phịng Trung ương Đảng bố trí : Các tổ thư ký tương ứng với tổ thảo luận Trung ương Đảng nhóm tổng hợp chung cho chủ đề thảo luận Dựa biên chi tiết tổng hợp tổ thư ký, nhóm tổng hợp chung tổng hợp ý kiến góp ý Hội nghị 2.2 Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ Trên sở khảo sát, nghiên cứu quy trình tổng hợp ý kiến giấy, Văn phòng Trung ương Đảng xây dựng áp dụng phần mềm Hỗ trợ tổng hợp ý kiến với tiến trình sau: Hình 1.2 Mơ hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến Kết phần mềm tổng hợp ý kiến góp ý tổ Hình 1.3 Kết tổng hợp ý kiến góp ý Tổ * Đánh giá chung: Giúp cho việc tổng hợp ý kiến có chất lượng hơn, tránh tình trạng tổng hợp thiếu ý kiến đại biểu Giúp cho chuyên viên tổng hợp chung hạn chế tối đa việc “bỏ sót” ý kiến thảo luận tổ Một số hạn chế: phần mềm mang tính tập hợp ý kiến tổ theo khung mục cho trước mà chưa hỗ trợ đánh dấu, phát ý giống tổng hợp tổ tổng hợp chung hiệu hỗ trợ chưa cao Xác định toán cần giải Để hỗ trợ tốt việc tổng hợp ý kiến thảo luận Tổ Hội nghị Trung ương, cần thiết phải giải toán phát hiện, đánh dấu nội dung giống ý kiến góp ý vào vấn đề Qua đó, giúp chuyên viên nhanh chóng nhận biết, lược bỏ ý kiến giống tổng hợp trước Yêu cầu cần đáp ứng giải toán khơng địi hỏi phát xác nội dung giống (chỉ cần gần giống tương tự) giải pháp kỹ thuật không phức tạp Người sử dụng định trùng lặp nội dung định có lược bỏ hay khơng Vì vậy, u cầu độ xác giải pháp đảm bảo nhu cầu sử dụng CHƢƠNG CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG CÂU Khái niệm độ tƣơng đồng câu Sự tương đồng đại lượng (con số) phản ánh cường độ mối quan hệ hai đối tượng hai đặc trưng Đại lượng thường phạm vi từ đến Phát biểu tốn độ tính tương đồng câu luận văn sau: Xét tài liệu d gồm có n câu: d = s1, s2, …, sn Mục tiêu tốn tìm giá trị hàm S(si, sj) với S϶ (0,1), i, j = 1, , n Hàm S(si, sj) gọi độ đo tương đồng hai câu si sj Giá trị cao giống nghĩa hai câu nhiều Các phƣơng pháp tính độ tƣơng đồng câu 2.1 Phương pháp tính độ tương đồng câu dựa vào WordNet Ý tưởng phương pháp thơng qua tập ngữ nghĩa (WordNet) để tính tốn độ tương đồng từ câu, qua tính độ tương đồng câu Ngoài để tăng thêm phần xác cịn có kết hợp tính tương đồng vị trí xuất từ câu.[12] Giới thiệu WordNet: WordNet kho liệu tiếng Anh, từ tiếng Anh nhóm thành từ đồng nghĩa gọi synset, cung cấp định nghĩa chung ngắn gọn, đồng thời ghi lại giá trị quan hệ ngữ nghĩa đồng nghĩa Phương pháp tính độ tương đồng từ dựa vào độ dài ngắn sơ đồ phân cấp Hình 2.1 Sơ đồ phân cấp từ WordNet Các bƣớc tính độ tƣơng đồng câu Hình 2.2 Sơ đồ tính độ tương đồng câu - Bước 1: Tiền xử lý liệu - Bước 2: Tính độ tương đồng hai từ (dựa vào WordNet) - Bước 3: Tính độ tương đồng ngữ nghĩa hai câu - Bước 4: Tính độ tương đồng thứ tự từ hai câu - Bước 5: Tính độ tương đồng hai câu (kết bước 3, bước 4) 2.2 Phương pháp tính độ tương đồng câu dựa vào Wikipedia Giới thiệu mạng ngữ nghĩa Wikipedia: Wikipedia bách khoa toàn thư nội dung mở, kết cộng tác người đọc từ khắp nơi giới Wikipedia tiếng Việt thành lập vào tháng 10 năm 2003 Hiện có 1.149.101 viết tiếng Việt với 3.234.593 trang [5] Kiến trúc mạng Wikipedia: Các viết Wikipedia tổ chức dạng mạng khái niệm liên quan với mặt ngữ nghĩa Các mục chủ đề (category) tổ chức cấu trúc phân cấp (taxonomy) gọi đồ thị chủ đề Wikipedia (Wikipedia Category Graph - WCG)[20] Hình 2.3 Đồ thị chủ đề Wikipedia Tính độ tƣơng đồng hai từ Wikipedia: Có hai phương pháp tiếp cận để tính tốn độ tương đồng dựa Wikipedia (1) Phương pháp tiếp cận Semantic similarity: Phương pháp sử dụng thuật tốn xử lý ngơn ngữ tự nhiên để tính tốn mối quan hệ từ cần xác định độ tương đồng Một thuật tốn đưa sau[18] Hình 2.4 Mơ hình tính độ tương đồng hai từ dựa Wikipedia Để tính độ tương đồng hai từ, người ta dựa Wikipedia để trích đoạn văn ngắn có liên quan đến từ (Wiki Snippet 11 Ý tưởng phương pháp tính độ tương đồng câu dựa mơ hình phân tích chủ đề ẩn LDA (Latent Dirichlet Allocation) [2,15] Mơ hình tính độ tương đồng câu dựa vào chủ đề ẩn sau: Hình 2.6 Mơ hình tính độ tương đồng câu dựa vào chủ đề ẩn Giải thích mơ hình: + Chọn tập “universal dataset” phân tích chủ đề cho (q trình ước lượng tham số theo mơ hình LDA) + Kết lấy chủ đề tập “universal dataset”, chủ đề gọi chủ đề ẩn + Đầu vào văn đơn, sau bước tiền xử lý văn thu danh sách câu + Suy luận chủ đề cho câu qua tiền xử lý, kết thu danh sách câu thêm chủ đề ẩn Mơ hình LDA dựa ý tưởng giả thuyết tài liệu tổ hợp tập chủ đề (topic) ẩn k với trọng số p(k|d) (là xác suất xuất chủ đề k tài liệu d), chủ đề lại tổ hợp tập từ vựng xuất tài liệu với trọng số p(w|k) (là xác suất xuất từ vựng w chủ đề k) Khi đó, dựa thông tin chủ đề tài liệu, cụ thể p(k|d) tính độ tương đồng tài liệu 12 Hình 2.7 Mơ hình LDA α tham số Dirichle; β tham số Dirichle; θd phân phối chủ đề tài liệu thứ d; Zd,n topic index (từ n tài liệu d); Wd,n từ n tài liệu d Zd,n; ɸk (phi) phân phối từ sinh topic Zd,n; K: số chủ đề (topic); D: số tài liệu; N: số lượng từ tập tài liệu D; Trong LDA chia làm ba mức: mức tập tài liệu, mức tài liệu, mức từ Các tham số (α,β ) tham số mức tập tài liệu, biến θd biến mức tài liệu biến Wd,n biến mức từ xác định với từ tài liệu Thông qua mơ hình LDA ta tính trọng số chủ đề tài liệu d ,k d ,k K 1 d , k Khi vector tương ứng với tài liệu d có dạng sau: Sd={θ1,θ2,…,θK} Với hai tài liệu (hai câu) thứ d thứ p sử dụng độ đo cosine để tính độ tương đồng chúng Sim ( d , p ) K k 1 K k 1 ( dk ) dk pk K k 1 ( pk ) 2.4 Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis) 13 Phân tích ngữ nghĩa tiềm ẩn thuật tốn phương pháp trích xuất đại diện nội dung ngữ nghĩa sử dụng tính tốn thống kê với tập văn lớn (Landauer Dumais, 1997) Ý tưởng lấy tập hợp từ tập văn bản, đưa từ xuất không xuất văn thuộc tập văn đó, sau tính tốn tương đồng từ với từ khác tập từ với tập từ khác [10] LSA giả định từ có ngữ nghĩa gần thường xuất ngữ cảnh Xuất phát từ bảng liệu D kích thước m n , hàng tượng trưng cho ký tự, cột tượng trưng cho đoạn văn bản, ô chứa tần suất mà từ dòng ma trận xuất đoạn văn biểu diễn cột ma trận Sau đó, LSA sử dụng kỹ thuật phân tích giá trị đơn (Singular Value Decomposition - SVD) rút trích mối tương quan ngữ nghĩa từ tập văn bản, giảm số cột (chiều) k đặc trưng tiềm ẩn bảng liệu, thu bảng R kích thước m k giữ cấu trúc tương tự dòng bảng R Phân tích giá trị đơn (SVD) LSA Trong LSA ma trận biểu diễn mối quan hệ từ văn ma trận Amxn ma trận thưa có kích thước lớn Để giảm số chiều ma trận người ta thường tìm cách xấp xỉ ma trận A (có hạng r) ma trận Ak có hạng k nhỏ nhiều Ma trận xấp xỉ A Ak=UkƩkVkT 14 Hình 2.8 SVD LSA Việc xấp xỉ xem chuyển không gian xét (r chiều) không gian k chiều, với k