Kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh LSTM xếp chồng cho bỏi tõn phõt

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 86 - 88)

Đĩy lỏ lý do chợnh khiến độ chợnh xõc của hệ thống đề xuất giảm.

3.5 Kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh LSTM xếp chồng cho bỏi tõn phõt hiện đoạn sao chờp đoạn sao chờp

Như đọ trớnh bỏy trong phần 3.4.2 về việc đõnh giõ hiệu của giải phõp sử dụng mừ hớnh chủ đề cho bỏi tõn phõt hiện sao chờp, luận õn nhận thấy kết quả đoạn sao chờp cún dư thừa một số cĩu hoặc từ ở hai đầu đoạn. Đĩy lỏ nguyởn nhĩn lỏm giảm độ chợnh xõc của thuật tõn. Để khắc phục vấn đề nởu trởn, luận õn đề xuất một quy trớnh phõt hiện đoạn sao chờp gồm 2 pha: pha đoạn vỏ pha từ.

Bởn cạnh đụ, phần 3.3 luận õn đọ phĩn tợch ưu điểm vỏ hạn chế của một số đề xuất gần đĩy cho bỏi tõn phõt hiện đoạn sao chờp vỏ đõnh giõ khả năng õp dụng của kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh LSTM xếp chồng để giải quyết bỏi tõn nỏy. Khõc với cơ chế tự động trợch rỷt đặc trưng từ mừ hớnh học sĩu, việc xõc định cõc đặc trưng lỏm đầu vỏo cho mừ hớnh học sĩu đúi hỏi phải cụ sự xem xờt, đõnh giõ vỏ đưa ra cõc nhận định một cõch đầy đủ vỏ chợnh xõc mới cụ thể xĩy dựng được cõc đặc trưng hiệu quả. Luận õn định nghĩa về độ tương đồng lớn nhất vỏ nởu ra cõc nhận định lỏm cơ sở để đề xuất cõc đặc trưng ở pha đoạn vỏ pha từ.

Định nghĩa 3.1: Độ tương đồng lớn nhất của một vờc tơ u trởn một tập vờc tơ V = (v1, v2,…,vn) với u V lỏ giõ trị lớn nhất độ tương đồng Cosin của vờc tơ u

vỏ mỗi phần tử trong tập V.

Ở pha đoạn, luận õn đưa ra một số đõnh giõ trởn phạm vi toỏn tỏi liệu. Giả sử đoạn văn bản V thuộc tỏi liệu nguồn bị sao chờp bởi đoạn văn bản U thuộc tỏi liệu nghi ngờ sao chờp; u U vỏ v ∈ 𝑉 lỏ cõc cĩu nằm trong đoạn tương ứng. Khi đụ:

1. Tồn tại cặp cĩu (ui,vj) cụ giõ trị độ đo Cosin lớn hơn độ đo Cosin của bất kỳ cặp cĩu nằm ngoỏi đoạn U,V. Trong trường hợp sao chờp nguyởn văn, giõ trị nỏy cụ thể đạt giõ trị 1, cõc trường hợp sao chờp cụ sự biến đổi giõ trị nỏy cụ thể

thấp hơn nhưng vẫn đạt mức cao so với cõc cĩu nằm ngoỏi đoạn sao chờp.

2. Số lượng từ cỳng xuất hiện trong cặp cĩu (u,v) lớn hơn số lượng từ cỳng xuất hiện của cõc cặp cĩu khõc nằm ngoỏi đoạn U,V. Trong trường hợp sao chờp nguyởn văn, cõc từ thuộc hai cĩu đạt tỉ lệ trỳng khớp 100%, cõc trường hợp sao chờp cụ sự thay đổi thớ tỉ lệ nỏy vẫn đạt giõ trị cao hơn so với cõc cĩu nằm ngoỏi đoạn sao chờp.

3. Giõ trị trọng số TF-ISF [10] về độ quan trọng của cĩu u trong tỏi liệu nguồn cụ liởn quan với giõ trị trọng số độ quan trọng cĩu v trong tỏi liệu sao chờp. Mục tiởu đặt ra ở mức từ lỏ loại bỏ đi cõc phần văn bản (cõc từ hoặc cĩu) dư thừa của cặp đoạn (đoạn văn bản nguồn vỏ đoạn văn bản sao chờp) nhận được từ pha đoạn. Cõc phần văn bản dư thừa cụ cõc đặc điểm sau:

1. Với cõc từ dư thừa: cụ độ tương đồng lớn nhất thấp hơn so với cõc từ trong đoạn kết quả.

2. Với cõc cĩu dư thừa: cụ giõ trị trung bớnh độ tương đồng lớn nhất thấp hơn cõc cĩu nằm trong đoạn kết quả. Giõ trị trung bớnh độ tương đồng cĩu được xõc định bằng tổng giõ trị độ tương đồng lớn nhất của cõc từ trong cĩu chia cho số lượng từ trong cĩu đụ.

3. Với trường hợp sao chờp cụ sự biến đổi sẽ tồn tại cõc từ nằm trong đoạn dư thừa nhưng cụ độ tương đồng lớn nhất cao. Nguyởn nhĩn của vấn đề nỏy lỏ do cõc từ nỏy trỳng hoặc đồng nghĩa với một từ trong đoạn kết quả. Tương tự, trường hợp sao chờp cụ sự biến đổi cụ thể dẫn đến việc tồn tại cõc từ nằm trong đoạn kết quả cụ độ tương đồng lớn nhất thấp hơn hẳn so với cõc từ xung quanh.

Trởn cơ sở cõc nhận định trởn, luận õn đọ đề xuất một bộ đặc trưng ở mỗi pha lỏm đầu vỏo cho mừ hớnh học sĩu LSTM xếp chồng. Quy trớnh phõt hiện đoạn sao chờp bao gồm bước tiền xử lý vỏ hai pha xử lý chợnh được mừ tả trong Hớnh 3.2. Trong đụ:

- Tiền xử lý: loại bỏ cõc thừng tin khừng cần thiết vỏ xĩy dựng tập đoạn đầu vỏo cho pha đoạn.

nguồn vỏ tỏi liệu nghi ngờ sao chờp

- Pha từ: gồm cõc bước xử lý nhằm loại bỏ cõc từ dư thừa trong kết quả của pha đoạn nhằm thu được chợnh xõc đoạn sao chờp.

1. Tiền xử Trợch rỷt đặc trưng Mừ hớnh LSTM xếp chồng 2. Pha đoạn Lựa chọn đoạn ứng cử Trợch rỷt đặc trưng Mừ hớnh LSTM xếp chồng 3. Pha từ Chọn cặp đoạn sao chờp Tỏi liệu nghi

ngờ sao chờp Tỏi liệu nguồn Cặp đoạn sao chờp ứng cử Cặp đoạn sao chờp Cõc cặp đoạn

Hớnh 3.2. Quy trớnh phõt hiện đoạn sao chờp

Tiếp theo, luận õn mừ tả mừ hớnh đề xuất ở mỗi pha vỏ kết quả thử nghiệm.

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 86 - 88)

Tải bản đầy đủ (PDF)

(173 trang)