Tổng hợp quan điểm không dựa trên khía cạnh bao gồm tất cả các loại tổng hợp ý kiến khác, chúng không phân chia các văn bản đầu vào thành các khía cạnh và chủ đề nhỏ. Phƣơng pháp này giả định các văn bản ý kiến đã đƣợc phân chia theo các khía cạnh hoặc đơn giản chỉ là cung cấp một bản tổng quát mà không cần xem xét đến các khía cạnh [9].
Tổng hợp cơ ản 2.5.1.
Sử dụng kết quả dự đoán từ phân loại cảm xúc, tổng hợp quan điểm cơ bản có thể đƣợc tạo ra. Phân loại tình cảm quyết định chiều hƣớng cảm xúc của đầu vào văn bản trên một đơn vị phân loại (câu, tài liệu, ...). B ng cách đếm và báo cáo số ý kiến tích cực và ý kiến tiêu cực, chúng ta có thể d dàng tạo ra một bản tổng hợp ý kiến thống kê đơn giản.
Bản tóm tắt này thể hiện sự phân bố ý kiến tổng thể của dữ liệu đầu vào mà không có bƣớc xác định khía cạnh. Tuy nhiên, loại hình này của tổng chỉ có thể hiển thị kết quả phân tích tâm lý tại một mức độ rất thô. Trong khi định dạng đƣợc sử dụng
trong phân loại ý kiến đơn giản đã đƣợc áp dụng rộng rãi, nhƣ một bản tóm tắt có thể không đủ để giúp mọi ngƣời hiểu các chi tiết cụ thể trong ý kiến. Điều này thúc đẩy các nghiên cứu tổng hợp quan điểm dựa trên khía cạnh.
Tổng hợp văn ản 2.5.2.
2.5.2.1. Hội nhập quan điểm
Lu và Zhai [14] sử dụng chiến lƣợc khác nhau để xử lý văn bản tùy thuộc vào các loại nguồn khác nhau. Hình 2.8 mô tả một ví dụ về phƣơng pháp tổng hợp này.
Hình 2.8. Ví dụ v hội nhập quan iểm
Họ phân chia văn bản ý kiến thành hai loại, ý kiến chuyên gia và dùng thử bình thƣờng. kiến chuyên gia là bài báo mà thƣờng là cũng có cấu trúc và d dàng để tìm thấy tính năng. Ví dụ, chuyên gia bình luận CNET hay các bài viết trên Wikipedia là những bài viết ý kiến chuyên gia. Mặc dù ý kiến chuyên gia là khá đầy đủ nhƣng không đƣợc cập nhật thƣờng xuyên, do đó chúng thƣờng không phải là những nhận xét mới. Các ý kiến thông thƣờng là các bài viết không có cấu trúc khác. Hầu hết các bài viết trên blog cá nhân và đánh giá của ngƣời dùng đƣợc coi là ý kiến bình thƣờng. Họ có thể có thông tin không quan trọng, nhƣng họ có xu hƣớng phải đƣợc cập nhật thƣờng xuyên hơn, do đó, chúng phản ánh tin tức gần đây rất tốt.
Hội nhập quan điểm là để kết hợp hai nguồn ý kiến và cho ra một bản tổng hợp hoàn thiện. Đầu tiên, họ trích xuất thông tin cấu trúc (dữ liệu đặc trƣng) từ ý kiến của chuyên gia để phân cụm các tài liệu chung. B ng cách sử dụng một mô hình chủ đề bán giám sát sử dụng kỹ thuật PLSA, họ tận dụng lợi thế của hai nguồn dữ liệu khác nhau. Các đặc trƣng trích xuất từ ý kiến chuyên gia đƣợc dùng nhƣ tri thức tiền
nghiệm cho bƣớc thứ hai là phân tích các quan điểm thông thƣờng. kiến tƣơng tự đƣợc tích hợp vào ý kiến chuyên gia, và thông tin về mỗi đặc trƣng không có trong ý kiến chuyên gia đƣợc thêm vào bản tổng hợp nhƣ là các ý kiến bổ sung. Thêm vào đó, các thông tin từ các ý kiến thông thƣờng về các đặc trƣng đƣợc thêm vào trên các đặc trƣng mới thêm. Bởi vì có thể chèn thêm bất kỳ loại ý kiến chuyên gia nào, nghiên cứu này có thể áp dụng cho bất kỳ lĩnh vực nào [9].
Phƣơng pháp đã đề xuất sử dụng một kiểu ý kiến chuyên gia làm dữ liệu đầu vào. Tuy nhiên, có thể có mâu thuẫn giữa các ý kiến chuyên gia với các cấu trúc đặc trƣng khác nhau. Việc làm sạch dữ liệu và phƣơng pháp liên kết có thể hữu ích cho việc phân tích và kết hợp các cấu trúc của các nguồn ý kiến chuyên gia khác nhau. Vì vậy, chúng ta có thể có danh sách đặc trƣng hoàn thiện hơn.
2.5.2.2. Tổng hợp tƣơng phản
Các phƣơng pháp tổng hợp ý kiến hiện tại thƣờng sinh ra hai tập câu: Tích cực và tiêu cực. Các phƣơng pháp dựa trên đặc trƣng thƣờng chia các câu dựa trên các đặc trƣng con. Tuy nhiên, ngƣời dùng vẫn cần chia theo từng câu để hiểu ý kiến một cách chi tiết hơn. Đặc biệt, có thể có các câu có chiều hƣớng quan điểm lẫn lộn rất khó để phân lớp rõ ràng.
Ví dụ: Cho hai câu “Tuổi của pin thì dài trong khi chúng tôi ít khi sử dụng nút bấm” và “tuổi của pin thì ngắn trong khi chúng tôi sử dụng nút bấm rất nhiều” sẽ đƣợc phân lớp tích cực và tiêu cực riêng, tuy nhiên họ đang nói cùng một sự việc.
Kim và Zhai [8] đề xuất một phƣơng pháp cho phép hiện thị ý kiến tƣơng phản (COS) rất hiệu quả. Tổng hợp tƣơng phản tiếp tục tổng hợp đầu ra của bản tổng hợp đã tồn tại. Đƣa các câu tích cực và tiêu cực làm đầu vào, phƣơng pháp này sinh ra cặp câu tƣơng phản. Để có một tổng hợp tƣơng phản, các cặp câu phải biểu di n các câu đầu vào tƣơng phản tốt để cho thấy hiệu quả hơn. Họ tập hợp các vấn đề thành một nền tảng tối ƣu và đề xuất hai phƣơng pháp xấp xỉ để biểu di n cặp câu so sánh. Phƣơng pháp thứ nhất phân cụm mỗi câu tích cực và tiêu cực thành k cụm và tìm ra các cặp tƣơng phản. Phƣơng pháp này tìm ra cặp tƣơng phản trƣớc tiên và lựa chọn cặp đại diện trong số đó. Họ chủ yếu sử dụng các hàm tƣơng đồng từ và cũng thực nghiệm với phƣơng pháp tƣơng đồng ngữ nghĩa giữa các từ.
Nghiên cứu này đề xuất vấn đề tổng hợp mới, tổng hợp ý kiến tƣơng phản. B ng việc tổng hợp các câu đã phân lớp, nó giảm đƣợc khối lƣợng dữ liệu mà ngƣời dùng nên đọc. Thêm vào đó, b ng cách thể hiện các cặp tƣơng phản, chúng ta sẽ nắm đƣợc các điểm quan trọng và so sánh hiệu quả hơn. Tuy nhiên, các kỹ thuật cơ bản sử dụng trong COS rất đơn giản. Họ đa phần sử dụng độ tƣơng đồng từ. B ng cách sử dụng các kỹ thuật NLP tinh vi, độ chính xác của giải thuật đƣợc cải thiện. Ví dụ, độ đo khoảng cách liên kết cây có thể sử dụng cho các kỹ thuật tƣơng đồng câu. Ngoài ra, họ
có thể chọn các từ quan điểm cẩn thận hơn là chỉ chọn các tính từ và các từ phù định cho độ đo tƣơng đồng.
2.5.2.3. Tổng hợp văn ản trừu tƣợng
Bởi vì khó khăn trong việc sinh ra văn bản tổng hợp, tổng hợp trừu tƣợng ít phổ biến trong tổng hợp văn bản. Phần lớn các kỹ thuật thƣờng sử dụng trích xuất từ khóa cụm từ đơn giản hoặc lựa chọn trích xuất câu.
Không giống các nghiên cứu về tổng hợp ý kiến khác, Ganesan và cộng sự [6] đề xuất một phƣơng pháp tổng hợp ý kiến trừu tƣợng dựa trên phƣơng pháp đồ thị. Do bản chất của ý kiến (dƣ thừa và phân tán), phƣơng pháp tƣơng phản có thể không bao quát hết các ý kiến chính nếu chọn sai tập hợp câu. Điều này trở nên đặc biệt quan trọng khi kích thƣớc của bản tóm tắt đƣợc giới hạn, chỉ một lƣợng nhỏ các câu đƣợc chọn. Trong trƣờng hợp này, rất khó để thu đƣợc các câu mà tổng hợp tất cả các ý kiến. Ngoài ra, phƣơng pháp tƣơng phản có xu hƣớng khá dài và có thể không phù hợp với một tập nhỏ.
Trong nghiên cứu của Ganesan [6], bƣớc đầu tiên là sinh ra một đồ thị từ trong văn bản của dữ liệu đầu vào, mỗi nút biểu di n một từ, một cạnh biểu di n kết nối giữa hai từ. Sử dụng ba thuộc tính ràng buộc của cấu trúc dữ liệu đồ thị (ràng buộc dƣ thừa, các cấu trúc xếp chồng, khoảng cách khe), các thành phần trong đồ thị mà thực thi nhƣ các bản tổng hợp đại diện đƣợc tính điểm và đƣa vào danh sách. Bản đại diện đứng đầu sau đó đƣợc dụng để sinh ra bản tổng hợp cuối cùng.
Ngƣời ta thấy r ng với cách tiếp cận này có thể tạo ra một bản tổng hợp ý kiến xúc tích và d đọc, không dƣ thừa dữ liệu. Vì phƣơng pháp này độc lập với miền ứng dụng, dựa trên cú pháp, và không cần tập ngữ liệu học nên phƣơng pháp này rất thực tế và bao quát. Tuy nhiên, do sự phụ thuộc vào thứ tự các từ trong văn bản, sự tƣơng đồng ngữ nghĩa giữa các câu là khó đề cập đƣợc. Ví dụ: “very good battery life” và “fantastic battery life” có thể coi là hai câu riêng biệt với nghĩa khác nhau. Nâng cao hơn nữa, việc hiểu ngôn ngữ tự nhiên ở một mức sâu hơn là rất cần thiết.
2.5.2.4. Tổng hợp đa ngôn ngữ
Theo một cách nhìn khác, Balahur và Montoyo giới thiệu tổng hợp ý kiến trong dịch máy. Bƣớc tiền xử lý giống với các kỹ thuật tổng hợp ý kiến chung. Sau khi phân tích đặc trƣng từ văn bản tiếng Anh, họ đối sánh các khái niệm với tiếng Tây Ban Nha sử dụng EuroWordNet.
Kỹ thuật này hoàn toàn phụ thuộc vào EuroWordNet, vì vậy hiệu suất của hệ thống hoàn toàn phụ thuộc vào hiệu suất của WordNet. Bởi vì WordNet không chứa tất cả các từ và có thể có lỗi, kết nối từ b ng các thông tin trên web có thể là môt giải pháp khả thi.
Mô hình hóa 2.5.3.
Trong khi phần lớn các công trình đã giới thiệu trƣớc đây thể hiện tổng hợp nhƣ một bảng tổng hợp thống kê với các đoạn văn bản đại diện hay các câu, cũng có những nghiên cứu khác tìm cách hiển thị kết quả theo một cách khác để trực quan với ngƣời đọc hơn.
Chen và cộng sự [9] biểu di n quan điểm trong một chủ đề với các cấu trúc đồ thị khác nhau. Họ phân cụm với thông tin phân cực, phối hợp từ, biểu di n ý kiến dựa trên cây quyết định.
Mishne và cộng sự xây dựng MoodViews [16] là một công cụ trực quan hóa cho phân tích cảm xúc trong blog. Có ba ứng dụng nhỏ, Moodgrapher, Moodteller và Moodsignals. Moodgrapher biểu di n tổng hợp mức độ tâm trạng dựa trên các th tâm trạng theo từng ngƣời. Moodteller là một công cụ tƣơng tự sử dụng xử lý ngôn ngữ tự nhiên để tìm kiếm tâm trạng. MoodSignal tìm kiếm lý do của một sự kiện đặc biệt mà biểu di n nhƣ là một đầu trong đồ thị tâm trạng.
Một loạt các khía cạnh phân tích có thể giúp hiểu đƣợc phân phối của ý kiến. Ví dụ, ngƣời dùng có thể nói cho dù những ý kiến tích cực nhiều hơn những ý kiến tiêu cực hay không. Trực quan hóa không chỉ hữu ích cho ngƣời dùng chung, ngƣời muốn hiểu đƣợc quan điểm mà còn cho các nhà nghiên cứu, ngƣời cần có bản tổng hợp kết quả trực quan hơn. Ví dụ, biểu đồ phân cực của Chen và cộng sự [9] biểu di n một sự thay đổi lớn trong các quan điểm tiêu cực. B ng cách phân tích hiện tƣợng, các nhà nghiên cứu có thể tìm ra r ng có nhiều giải thích cụ thể hơn cho các bài nhận xét trong các quan điểm tiêu cực, kết quả là hiệu suất phân lớp có thể khác nhau giữa ý kiến tích cực và tiêu cực.
Tổng hợp dựa trên thực thể 2.5.4.
Stoyanov và Cardie [18] đã giới thiệu một loại tổng hợp khác. Tổng hợp dựa trên thực thể cho thấy các thực thể trong văn bản và mối quan hệ của chúng với chiều hƣớng của quan điểm. Tóm tắt đƣợc bao gồm nguồn ý kiến, mục tiêu, và ý kiến của các nguồn mục tiêu.
Ví dụ: Hình 2.9 có ba câu "Tom thích táo”, “Jane ghét táo”, “Tom yêu Jane”. Đối với câu đầu tiên “Tom” là một nguồn, “táo” là một mục tiêu, và “like” cho thấy ý kiến của “Tom” với “táo”.
Hình 2.9. Ví dụ tổng hợp dựa trên thực thể
Đối với các thực thể dựa trên bản tóm tắt, tìm kiếm và quản lý các thực thể là một vấn đề quan trọng bởi vì các thực thể đƣợc sử dụng nhƣ là nguồn và đích chính. Trong các văn bản thực tế, bởi vì nhiều thực thể đƣợc tham chiếu nhƣ một đại từ, vấn đề là tìm kiếm tham chiếu đúng, đó là giải quyết đồng tham chiếu đƣợc nghiên cứu ở bƣớc đầu tiên. Stoyanov và Caride [18] đề xuất kỹ thuật đồng tham chiếu để kết nối các nguồn cùng đề cập tới một thực thể. Họ sử dụng các luật sở hữu cho tập dữ liệu ý kiến và kỹ thuật đồng tham chiếu các cụm danh từ chung để nhận diện chủ đề.
Tổng hợp thực thể đƣợc đề xuất nhƣng chỉ có giải pháp đồng tham chiếu đƣợc nghiên cứu nhiều. Để có bản tổng hợp hoàn chỉnh, cần phải có các kỹ thuật khác cho các bƣớc tiếp theo nhƣ là xác định quan điểm, xác định chiều hƣớng và xếp hạng quan điểm.
2.6. Tóm tắt Chƣơng hai
Trong chƣơng này, luận văn đã giới thiệu các phƣơng pháp tổng hợp ý kiến của các tác giả đã đề xuất trong thời gian gần đây. Trong chƣơng tiếp theo, luận văn đi vào giới thiệu bài toán, đƣa ra mô hình đề xuất cho việc Tổng hợp ý kiến trong hội nghị.
Chƣơng 3. BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ
3.1. Bài toán
Hình 3.1. Tiến trình tổng hợp ý iến trong hội nghị
Luận văn này đề xuất bài toán tổng hợp ý kiến góp ý trong hội nghị qua việc phân tích một tình huống cụ thể là các hội nghị của Ban chấp Hành Trung ƣơng Đảng. Trong các hội quy mô lớn có các chủ đề đƣợc đƣa ra để bàn luận. Mỗi chủ đề lớn sẽ có một loạt các tiêu chí cho trƣớc làm căn cứ đề các đại biểu thảo luận và đƣa ra ý kiến. Một hội nghị sẽ có rất nhiều các đại biểu tham gia họp vì vậy sẽ đƣợc chia thành nhiều nhóm thảo luận riêng biệt, mỗi nhóm sẽ có một thƣ ký có nhiệm vụ ghi lại ý kiến thảo luận của các đại biểu trong nhóm. Tập hợp các thƣ ký từ các nhóm đƣợc gọi là ban thƣ ký. Ban thƣ ký có nhiệm vụ tổng hợp các ý kiến từ các nhóm để đƣa ra bản tổng hợp cuối cùng của toàn hội nghị. Vì số lƣợng các đại biểu tham gia hội nghị là rất lớn nên rất khó khăn cho ban thƣ ký tổng hợp ý kiến về các chủ đề dựa trên bộ tiêu chí cho trƣớc của từng chủ đề. Tiến trình tổng hợp ý kiến của ban thƣ ký đƣợc mô tả nhƣ hình 3.1.
Vì vậy, luận văn muốn xây dựng một hệ thống tự động tổng hợp ý kiến trong hội nghị với số lƣợng lớn các đại biểu tham gia thảo luận. Hệ thống này sẽ giúp cho ban thƣ ký thu thập, tự động tổng hợp ý kiến và tạo ra một bản tổng hợp thô theo các tiêu chí. Bản tổng hợp thô này sẽ đƣợc ban thƣ ký tiếp tục duyệt lại để đƣa ra một bản tổng hợp ý kiến cuối cùng.
3.2. Chức năng mong muốn của hệ thống
Hình 3.2. Chức năng của hệ thống tổng hợp ý iến
Quá trình tổng hợp ý kiến có sự hỗ trợ của Hệ thống tổng hợp ý kiến đƣợc mô tả nhƣ hình 3.2. Hệ thống tự động tổng hợp ý kiến trong hội nghị sau khi xây dựng sẽ hỗ trợ một số công việc chính là thu thập ý kiến, tổng hợp ý kiến và gợi ý cho ban thƣ ký.
Thu thập ý kiến 3.2.1.
Thay vì phải ghi chép lại từng ý kiến của các đại biểu b ng tay, sau đó các thƣ ký lại nhập các ý kiến một cách thủ công thì hệ thống sẽ hỗ trợ ban thƣ ký làm giảm thời gian, công sức trong nhiệm vụ này. Hệ thống sẽ cho phép các thƣ ký nhập ý kiến theo một trong hai cách: Nhập riêng l từng ý kiến của các đại biểu hoặc nhập một bản bao gồm tất cả các ý kiến. Form nhập ý kiến đƣợc mô tả nhƣ Hình 3.3.
Hình 3.3. M tả form nhập ý iến
Trong trƣờng hợp nhập riêng l từng ý kiến, tên đại biểu và chủ đề góp ý có thể đƣợc lựa chọn từ danh sách, tiêu đề có thể có hoặc không. Trong trƣờng hợp nhập