Ma trận được xây dựng lại với k=2

Một phần của tài liệu (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths máy tính 60 48 01 (Trang 43 - 47)

Qua ví dụ trên, thấy rằng tại ma trận được xây dựng lại mối quan hệ giữa các từ trong câu đã thay đổi do việc tính toán liên quan đến các từ trong tập văn bản. Ví dụ từ “survey” với câu m4 ban đầu là 1, qua biến đổi giá trị 0.42; từ “trees” với câu m4 ban đầu là 0, qua biến đổi giá trị 0.66. Sự thay đổi này được chứng minh là chính xác hơn so với mối quan hệ ban đầu.

Để tăng tính chính xác khi xây dựng ma trận biểu diễn trong mô hình LSA người ta sử dụng kỹ thuật tf–idf (term frequency – inverse document frequency).

Tf-idf của một từ là một con số thu được qua hể hiện mức độ quan trọng của từ này trong một văn bản, mà bản thân văn bản đang xét nằm trong một tập hợp các văn bản.

tf(t,d)=f(t,d)/max{f(w,d):w∈d}

- Thương của số lần xuất hiện 1 từ trong văn bản và số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn bản đó. (giá trị sẽ thuộc khoảng [0, 1])

- f(t,d) - số lần xuất hiện từ t trong văn bản d.

- max{f(w,d):wd} - số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn bản.

IDFinverse document frequency. Tần số nghịch của 1 từ trong tập văn bản (corpus).

Tính IDF để giảm giá trị của những từ phổ biến. Mỗi từ chỉ có 1 giá trị IDF

duy nhất trong tập văn bản.

idf(t,D)=log|D||{dD:td}| - |D|: - tổng số văn bản trong tập D

- |{dD:td}|: - số văn bản chứa từ nhất định, với điều kiện t appears (i.e., tf(t,d)≠0). Nếu từ đó không xuất hiện ở bất cứ 1 văn bản nào trong tập thì mẫu số sẽ bằng 0 => phép chia cho không không hợp lệ, vì thế người ta thường thay bằng mẫu thức 1+|{d∈D:t∈d}|.

Cơ số logarit trong công thức này không thay đổi giá trị của 1 từ mà chỉ thu hẹp khoảng giá trị của từ đó. Vì thay đổi cơ số sẽ dẫn đến việc giá trị của các từ thay đổi bởi 1 số nhất định và tỷ lệ giữa các trọng lượng với nhau sẽ không thay đổi. (nói cách khác, thay đổi cơ số sẽ không ảnh hưởng đến tỷ lệ giữa các giá trị IDF). Tuy nhiên việc thay đổi khoảng giá trị sẽ giúp tỷ lệ giữa IDF và TF tương đồng để dùng cho công thức TF-IDF như bên dưới.

Giá trị TF-IDF:

Những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản này, và xuất hiện ít trong các văn bản khác. Việc này giúp lọc ra những từ phổ biến và giữ lại những từ có giá trị cao (từ khoá của văn bản đó).

Vector ngữ nghĩa của câu được biểu diễn trong mô hình LSA như sau:

Trong LSA ngữ nghĩa của câu, đoạn văn là tổng ngữ nghĩa của các từ trong câu, đoạn văn đó.

Meaning passage = Ʃ(mword1, mword2,…mwordn) [11]

Trong đó mỗi một từ được biểu diễn bởi một hàng ngang của ma trận không gian ngữ nghĩa.

Tính độ tương đồng giữa các câu

Để tính độ tương đồng giữa hai từ, hai câu trong LSA sử dụng độ đo Cosine giữa các vector.

|| || . || || . 2 1 2 1 s s s s ssĐặc điểm - Trực quan, dễ hiểu

- Cần bộ dữ liệu để tạo ma trận ngữ nghĩa ban đầu nhưng không đòi hỏi bộ dữ liệu quá lớn.

- Độ chính xác tăng cao khi dữ liệu đưa vào tạo ma trận ngữ nghĩa cùng ngữ cảnh với dữ liệu cần so sánh.

- Nếu một vấn đề mới được đưa ra, có thể có những từ quan trọng lại chưa được xây dựng trong không gian ngữ nghĩa gây ra độ chính xác khi so sánh thấp.

3. Đánh giá và lựa chọn phƣơng pháp

Để xây dựng chức năng phát hiện, đánh dấu nội dung giống nhau trong tổng hợp ý kiến thảo luận tổ nhằm hỗ trợ chuyên viên trong quá trình tổng hợp,

tiêu chí lựa chọn phương pháp thực hiện là độ chính xác thuật toán đảm bảo xác định tính tương đồng, đặc biệt là khả thi trong điều kiện hiện tại của cơ quan. Qua nghiên cứu các phương pháp tính toán độ tương đồng câu trên, có một số đánh giá và đề xuất lựa chọn phương pháp thực hiện bài toán như sau:

- Phương pháp tính độ tương đồng câu dựa vào WordNet đòi hỏi xây dựng kho ngữ liệu tiếng Việt, cần rất nhiều công sức và người có chuyên môn cao về ngôn ngữ để thực hiện. Điều này không phù hợp với điều kiện của cơ quan.

- Phương pháp tính độ tương đồng câu dựa vào Wikipedia cần tải bộ dữ liệu Wikipedia tiếng Việt làm cơ sở để so sánh. Tuy nhiên do là từ điển mở nên độ chính xác của dữ liệu phụ thuộc hoàn toàn vào người đăng tin trên Internet. Các từ có thể có nhiều định nghĩa khác nhau tùy theo vấn đề nghiên cứu nên ảnh hướng đến độ chính xác của thuật toán.

- Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn cần một tập dữ liệu lớn, đa dạng về lĩnh vực để phân tích chủ đề. Trong trường hợp số lượng chủ đề đưa vào lớn, độ phức tạp của thuật toán NP-hard.

- Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn cần bộ dữ liệu để tạo ma trận ngữ nghĩa ban đầu nhưng không đòi hỏi bộ dữ liệu quá lớn. Độ chính xác tăng cao khi dữ liệu đưa vào tạo ma trận ngữ nghĩa cùng ngữ cảnh với dữ liệu cần so sánh.

Từ đánh giá trên, để giải quyết bài toán phát hiện nội dung giống nhau trong tổng hợp ý kiến thảo luận tổ, trong luận văn lựa chọn sử dụng phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn. Lý do chính để lựa chọn phương pháp là việc xây dựng không gian ngữ nghĩa dựa trên các dữ liệu của các Hội nghị trước được lưu trữ lại. Phương pháp này đáp ứng được yêu cầu đã xác định ở mục 3 của Chương I.

CHƢƠNG 3

ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ

1. Đề xuất giải pháp phát hiện nội dung giống nhau trong phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ Hỗ trợ tổng hợp ý kiến thảo luận tổ

Một phần của tài liệu (LUẬN văn THẠC sĩ) tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị luận văn ths máy tính 60 48 01 (Trang 43 - 47)

Tải bản đầy đủ (PDF)

(62 trang)