Cải tiến kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh LSTM xếp chồng

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 132 - 134)

tõn phõt hiện đoạn sao chờp văn bản tiếng Việt

4 4 2 1 Nội dung cải tiến

Mừ hớnh đề xuất sử dụng kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh học sĩu LSTM xếp chồng cho bỏi tõn phõt hiện đoạn sao chờp đọ trớnh bỏy trong Chương 3 (mục 3 5) gồm hai pha xử lý: pha đoạn vỏ pha từ Về quy trớnh thực hiện, tại mỗi pha đều cụ 4 giai đoạn gồm: tiền xử lý văn bản, trợch rỷt đặc trưng, huấn luyện mừ hớnh vỏ xõc định đoạn sao chờp

Trong bước tiền xử lý, luận õn thực hiện tõch cĩu vỏ loại bỏ cõc từ dừng, ký tự đặc biệt vỏ ghờp cõc cĩu ngắn Với mục tiởu õp dụng cho văn bản tiếng Việt, tập từ dừng tiếng Việt được luận õn sử dụng trong bước xử lý nỏy

Trợch rỷt đặc trưng văn bản được thực hiện trởn mỗi pha của đề xuất dựa trởn độ tương đồng Cosin giữa hai đoạn văn bản sau khi đọ được mọ hụa dưới dạng cõc vờc tơ đặc trưng Với ưu thế so với cõc cừng cụ mọ hụa khõc, Sentence- BERT (SBERT) [114] được luận õn lựa chọn để mọ hụa đoạn cho dữ liệu ngừn ngữ tiếng Anh Vớ SBERT lỏ mừ hớnh đơn ngừn ngữ nởn để õp dụng cho tiếng Việt đúi hỏi phải huấn luyện mừ hớnh sử dụng một số lượng lớn cõc cặp cĩu tiếng Việt đọ được gõn nhọn (SBERT sử dụng kho ngữ liệu SNLI gồm 570 000 cặp cĩu vỏ MultiNLI gồm 430 000 cặp cĩu) Một số phương phõp khõc cụ thể sử dụng để mọ hụa đoạn văn bản tiếng Việt như mở rộng một mừ hớnh đơn ngữ thỏnh mừ hớnh đa ngừn ngữ [115] hoặc sử dụng một số mừ hớnh đa ngừn ngữ hỗ trợ tiếng Việt đọ cụ như distilbert-multilingual (hỗ trợ 104 ngừn ngữ) hay xlm-r (hỗ trợ trởn 100 ngừn ngữ) Việc mở rộng mừ hớnh đơn ngữ sang cõc ngừn ngữ khõc được thực hiện qua bước dịch cõc ngừn ngữ về ngừn ngữ gốc tiếng Anh Do vậy chất lượng của mừ hớnh phụ thuộc nhiều vỏo kết quả của bước dịch trung gian

Khắc phục cõc vấn đề nởu trởn, luận õn đề xuất sử dụng mừ hớnh Fast Sentence Embeddings(FSE) [23] để thực hiện mọ hụa đoạn văn bản tiếng Việt Mừ hớnh nỏy được huấn luyện từ dữ liệu bõo điện tử đọ được tõch từ tiếng Việt

của tõc giả Vũ Xuĩn Sơn [124]

Việc huấn luyện mừ hớnh trởn mỗi pha đoạn vỏ pha từ nhận thừng tin đầu vỏo lỏ một ma trận đặc trưng Đầu ra giai đoạn dự đõn của mừ hớnh lỏ một vờc tơ một chiều, mỗi phần tử cụ giõ trị nằm trong khoảng (0,1) Việc xõc định đoạn sao chờp ứng cử trong pha đoạn vỏ đoạn sao chờp kết quả trong pha từ đều được tợnh tõn dựa trởn giõ trị dự đõn trởn để xõc định chỉ số cĩu thuộc đoạn văn bản sao chờp

Từ những phĩn tợch nởu trởn, để õp dụng kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh mạng LSTM xếp chồng cho văn bản tiếng Việt luận õn thực hiện một số cải tiến để phỳ hợp với văn bản tiếng Việt gồm:

- Tõch từ tiếng Việt: ạp dụng với dữ liệu huấn luyện vỏ cặp tỏi liệu đầu vỏo - Tập từ dừng tiếng Việt sử dụng trong giai đoạn tiền xử lý dữ liệu

- Mọ hụa đoạn thỏnh vờc tơ đặc trưng: sử dụng mừ hớnh Fast Sentence Embeddings(FSE) [23] để thực hiện mọ hụa đoạn văn bản tiếng Việt

Trong qũ trớnh thử nghiệm mỗi kho thỏnh phần luận õn chia theo tỷ lởn 70/30 cho việc huấn luyện mừ hớnh vỏ kiểm tra phõt hiện đoạn sao chờp

4 4 2 2 Đõnh giõ thử nghiệm trởn kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt

Kết quả thử nghiệm cho kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt

(đọ giới thiệu trong mục 4 2) được trớnh bỏy trong Bảng 4 12

Bảng 4 12 Kết quả thử nghiệm với kho ngữ liệu tiếng Việt

Kết quả trong Bảng 4 12 cho thấy độ đo tổng hợp Plagdet đạt kết quả khõ cao trong đụ độ phủ Rec trởn tất cả cõc kho ngữ liệu thỏnh phần đều đạt trởn 90% vỏ cao hơn rất nhiều so với phương phõp mừ hớnh chủ đề (trớnh bỏy trong Bảng 4 10) vỏ phương phõp của tõc giả Sanchez-Perez [118] (trớnh bỏy trong Bảng 4 11) Việc đề xuất hai pha xử lý trong đụ pha từ nhằm loại bỏ đi cõc phần văn bản dư thừa ở hai đầu đoạn sao chờp lỏ nguyởn nhĩn dẫn đến cải thiện độ chợnh

Kho ngữ liệu Prec

(%) Rec (%) Gran Plagdet (%) 01-no-obfuscation 94,66 90,91 1,00000 92,75 02-artificial-obfuscation 94,07 90,39 1,00000 92,19 03-semantic-obfuscation 86,79 92,25 1,00000 89,44

xõc trong qũ trớnh xõc định đoạn sao chờp Từ kết quả thử nghiệm cho thấy phương phõp đề xuất mang tợnh tổng qũt hụa cao, phỳ hợp cả với văn bản tiếng Việt vỏ tiếng Anh

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 132 - 134)