đoạn sao chờp lỏ chợnh xõc tuy nhiởn dư thừa một số cĩu ở hai đầu đoạn tớm được Đĩy lỏ lý do chợnh khiến độ chợnh xõc của hệ thống đề xuất giảm
3 5 Kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh LSTM xếp chồng cho bỏi tõn phõt hiện hiện
đoạn sao chờp
Như đọ trớnh bỏy trong phần 3 4 2 về việc đõnh giõ hiệu của giải phõp sử dụng mừ hớnh chủ đề cho bỏi tõn phõt hiện sao chờp, luận õn nhận thấy kết quả đoạn sao chờp cún dư thừa một số cĩu hoặc từ ở hai đầu đoạn Đĩy lỏ nguyởn nhĩn lỏm giảm độ chợnh xõc của thuật tõn Để khắc phục vấn đề nởu trởn, luận õn đề xuất một quy trớnh phõt hiện đoạn sao chờp gồm 2 pha: pha đoạn vỏ pha từ
Bởn cạnh đụ, phần 3 3 luận õn đọ phĩn tợch ưu điểm vỏ hạn chế của một số đề xuất gần đĩy cho bỏi tõn phõt hiện đoạn sao chờp vỏ đõnh giõ khả năng õp dụng của kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh LSTM xếp chồng để giải quyết bỏi tõn nỏy Khõc với cơ chế tự động trợch rỷt đặc trưng từ mừ hớnh học sĩu, việc xõc định cõc đặc trưng lỏm đầu vỏo cho mừ hớnh học sĩu đúi hỏi phải cụ sự xem xờt, đõnh giõ vỏ đưa ra cõc nhận định một cõch đầy đủ vỏ chợnh xõc mới cụ thể xĩy dựng được cõc đặc trưng hiệu quả Luận õn định nghĩa về độ tương đồng lớn nhất vỏ nởu ra cõc nhận định lỏm cơ sở để đề xuất cõc đặc trưng ở pha đoạn vỏ pha từ
Định nghĩa 3 1: Độ tương đồng lớn nhất của một vờc tơ u trởn một tập vờc tơ V = (v1, v2,…,vn) với u∉ V lỏ giõ trị lớn nhất độ tương đồng Cosin của vờc tơ u
vỏ mỗi phần tử trong tập V
Ở pha đoạn, luận õn đưa ra một số đõnh giõ trởn phạm vi toỏn tỏi liệu Giả sử đoạn văn bản V thuộc tỏi liệu nguồn bị sao chờp bởi đoạn văn bản U thuộc tỏi liệu nghi ngờ sao chờp; u∈ U vỏ v ∈ lỏ cõc cĩu nằm trong đoạn tương ứng Khi đụ:
1 Tồn tại cặp cĩu (ui,vj) cụ giõ trị độ đo Cosin lớn hơn độ đo Cosin của bất kỳ cặp cĩu nằm ngoỏi đoạn U,V Trong trường hợp sao chờp nguyởn văn, giõ trị nỏy cụ thể đạt giõ trị 1, cõc trường hợp sao chờp cụ sự biến đổi giõ trị nỏy cụ thể
thấp hơn nhưng vẫn đạt mức cao so với cõc cĩu nằm ngoỏi đoạn sao chờp
2 Số lượng từ cỳng xuất hiện trong cặp cĩu (u,v) lớn hơn số lượng từ cỳng xuất hiện của cõc cặp cĩu khõc nằm ngoỏi đoạn U,V Trong trường hợp sao chờp nguyởn văn, cõc từ thuộc hai cĩu đạt tỉ lệ trỳng khớp 100%, cõc trường hợp sao chờp cụ sự thay đổi thớ tỉ lệ nỏy vẫn đạt giõ trị cao hơn so với cõc cĩu nằm ngoỏi đoạn sao chờp
3 Giõ trị trọng số TF-ISF [10] về độ quan trọng của cĩu u trong tỏi liệu nguồn cụ liởn quan với giõ trị trọng số độ quan trọng cĩu v trong tỏi liệu sao chờp
Mục tiởu đặt ra ở mức từ lỏ loại bỏ đi cõc phần văn bản (cõc từ hoặc cĩu) dư thừa của cặp đoạn (đoạn văn bản nguồn vỏ đoạn văn bản sao chờp) nhận được từ pha đoạn Cõc phần văn bản dư thừa cụ cõc đặc điểm sau:
1 Với cõc từ dư thừa: cụ độ tương đồng lớn nhất thấp hơn so với cõc từ trong đoạn kết quả
2 Với cõc cĩu dư thừa: cụ giõ trị trung bớnh độ tương đồng lớn nhất thấp hơn cõc cĩu nằm trong đoạn kết quả Giõ trị trung bớnh độ tương đồng cĩu được xõc định bằng tổng giõ trị độ tương đồng lớn nhất của cõc từ trong cĩu chia cho số lượng từ trong cĩu đụ
3 Với trường hợp sao chờp cụ sự biến đổi sẽ tồn tại cõc từ nằm trong đoạn dư thừa nhưng cụ độ tương đồng lớn nhất cao Nguyởn nhĩn của vấn đề nỏy lỏ do cõc từ nỏy trỳng hoặc đồng nghĩa với một từ trong đoạn kết quả Tương tự, trường hợp sao chờp cụ sự biến đổi cụ thể dẫn đến việc tồn tại cõc từ nằm trong đoạn kết quả cụ độ tương đồng lớn nhất thấp hơn hẳn so với cõc từ xung quanh
Trởn cơ sở cõc nhận định trởn, luận õn đọ đề xuất một bộ đặc trưng ở mỗi pha lỏm đầu vỏo cho mừ hớnh học sĩu LSTM xếp chồng Quy trớnh phõt hiện đoạn sao chờp bao gồm bước tiền xử lý vỏ hai pha xử lý chợnh được mừ tả trong Hớnh 3 2 Trong đụ:
- Tiền xử lý: loại bỏ cõc thừng tin khừng cần thiết vỏ xĩy dựng tập đoạn đầu vỏo cho pha đoạn
nguồn vỏ tỏi liệu nghi ngờ sao chờp
- Pha từ: gồm cõc bước xử lý nhằm loại bỏ cõc từ dư thừa trong kết quả của pha đoạn nhằm thu được chợnh xõc đoạn sao chờp
Tỏi liệu nghi
ngờ sao chờp 2 Pha đoạn
Tỏi liệu nguồn 1 Tiền xử lý Cõc cặp đoạn Trợch rỷt đặc trưng Mừ hớnh LSTM xếp chồng Lựa chọn đoạn ứng cử 3 Pha từ Cặp đoạn sao chờp Chọn cặp đoạn sao chờp Mừ hớnh LSTM xếp chồng Trợch rỷt đặc trưng Cặp đoạn sao chờp ứng cử
Hớnh 3 2 Quy trớnh phõt hiện đoạn sao chờp
Tiếp theo, luận õn mừ tả mừ hớnh đề xuất ở mỗi pha vỏ kết quả thử nghiệm