Mô hình phát hiện nội dung trùng trong tổng hợp ý kiến

Một phần của tài liệu (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths máy tính 60 48 01 (Trang 47 - 50)

Qua tình hình thực tế sử dụng phần mềm Hỗ trợ tổng hợp ý kiến và những kiến thức đã trình bày ở trên, tác giả đề xuất mô hình phát hiện nội dung trùng trong bản tổng hợp ý kiến của các tổ tại Hội nghị như sau:

- Các dữ liệu của các Hội nghị trước và các tài liệu liên quan đến vấn đề xin ý kiến được số hóa, qua bước xử lý dữ liệu bao gồm tách từ tiếng Việt, loại bỏ các dấu câu các dữ liệu này được lưu ra một tệp text.

- Sử dụng phương pháp LSA tệp dữ liệu này được xây dựng thành ma trận ngữ nghĩa.

- Thông qua phần mềm Hỗ trợ tổng hợp ý kiến kết quả thu được là bản tổng hợp ý kiến góp ý của các tổ. Người sử dụng lựa chọn câu (đoạn văn) để so sánh với các câu (đoạn văn) khác cùng một mục.

- Qua bước xử lý dữ liệu câu (đoạn văn) được lựa chọn và các câu còn lại được loại bỏ các dấu câu và lưu thành tệp các text.

- Thông qua ma trận ngữ nghĩa đã được xây dựng từ trước, các câu (đoạn văn) trong tệp chứa dữ liệu được lựa chọn và trong tệp chưa các câu cần so sánh được biểu diễn thành các vector.

- Sử dụng thuật toán tính độ tương đồng xác định sự tương đồng của từng câu (đoạn văn) với câu được lựa chọn. Thiết lập một ngưỡng về độ tương đồng giữa các câu. Kết quả thu được là các câu có độ tương đồng vượt ngưỡng được đánh dấu màu.

- Kết quả đánh dấu các câu (đoạn văn) giống nhau được hiển thị ngược trở lại giao diện của bản tổng hợp ý kiến thảo luận tổ, giúp cho chuyên viên tổng hợp theo dõi và ra quyết định lựa chọn hoặc loại bỏ ý kiến.

2. Xử lý dữ liệu

Trong bước xử lý dữ liệu, dữ liệu được loại bỏ những dấu câu như dấu phẩy, dấu chấm, dấu chấm hỏi, dấu chấm than. Đối với văn bản là tiếng Việt xử dụng công cụ tách từ để xác định các từ đơn, từ ghép cho trong văn bản. Cuối cùng dữ liệu được xử lý được lưu thành các tệp text.

3. Thực nghiệm

3.1. Môi trường thực nghiệm

Quá trình thực nghiệm trên máy tính có cấu hình như sau: Bảng 3.1. Cấu hình thiết bị môi trường thực nghiệm

Thành phần Chỉ số

CPU Intel (R) Pentium 1,87 Ghz

RAM 2 GB

HDD 320 GB

3.2. Chương trình phần mềm

Các thư viện sử dụng trong phần mềm (các packages của ngôn ngữ lập trình R) Bảng 3.2. Các thư viện sử dụng STT Tên thư viện Nguồn Mục đích 1 tm https://cran.r- project.org/web/packages/tm/index.html Các hàm xử lý về text mining 2 Lsa https://cran.r- project.org/web/packages/lsa/index.html Hàm xây dựng không gian ngữ nghĩa 3 LSAfun https://cran.r- project.org/web/packages/LSAfun/index. html Hàm tính toán độ tương đồng của các câu

4 JVnTextPro Jvntextpro.sourceforge.net Thư viện tách

từ tiếng Việt

Phần giao diện được viết trên ngôn ngữ C#, có chức năng nhập vào một đoạn văn bản và so sánh với một số đoạn văn bản khác sau với một ngưỡng được thiết lập, sau đó tô đậm đoạn văn nào có độ tương đồng lớn hơn hoặc bằng ngưỡng đã cho với đoạn văn nhập vào.

3.3. Dữ liệu thực nghiệm

Dữ liệu để xây dựng ma trận ngữ nghĩa có kích thước 5092 từ và 687 dòng về nội dung khởi nghiệp (kích thước ma trận 5092 x 687). Dữ liệu để so sánh là một đoạn văn cần nhập vào (tương ứng với góp ý của một tổ) và 13 đoạn văn khác (tương ứng của 13 tổ còn lại) có đề cập vấn đề khởi nghiệp.

3.4. Giao diện chương trình thực nghiệm

- Khởi tạo không gian ngữ nghĩa LSA

Có chức năng tạo không gian ngữ nghĩa LSA từ dữ liệu đã có (tạo SVD với k=50)

Một phần của tài liệu (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths máy tính 60 48 01 (Trang 47 - 50)

Tải bản đầy đủ (PDF)

(62 trang)