Kết luận Chương 3

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 105 - 108)

Chương nỏy đọ giới thiệu hai đề xuất phõt hiện đoạn sao chờp giữa hai tỏi liệu theo hai hướng học khừng giõm sõt vỏ học cụ giõm sõt. Đề xuất thứ nhất cho bỏi tõn phõt hiện đoạn sao chờp dựa trởn mừ hớnh chủ đề. Do tợnh khừng ổn định của mừ hớnh chủ đề cấp cĩu, một số giải phõp đọ được đề xuất. Đầu tiởn, một cửa sổ trượt được sử dụng để chạy từ đầu đến cuối tỏi liệu. Cõc cĩu trong cửa sổ nỏy được sử dụng lỏm tỏi liệu cho mừ hớnh chủ đề, thay vớ cõc cĩu đơn. Thứ hai, thuật tõn LDA được sử dụng để mừ hớnh hụa chủ đề đọ được chạy mười lần nhằm đảm bảo độ tin cậy của kết quả. Thứ ba, thuật tõn Apriori đọ được đề xuất để cụ được tập phổ biến sau mười lần chạy thuật tõn LDA. Cuối cỳng, một quy trớnh mở rộng đoạn đọ được sử dụng để mở rộng cõc đoạn tương đồng trong tỏi liệu nguồn vỏ tỏi liệu nghi ngờ sao chờp.

Đề xuất thứ hai sử dụng kết hợp giữa kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh học sĩu LSTM xếp chồng. Do đoạn sao chờp cụ độ dỏi rất nhỏ so với độ dỏi của văn bản nởn để thu được kết quả tốt nhất, hệ thống thực hiện xử lý qua hai

Đề xuất Prec (%) Rec (%) Gran Plagdet (%) Kết quả đề xuất 94,04 94,48 1,00000 94,26 Palkovskii vỏ Belov [100] 92,76 88,92 1,00027 90,78 Alaa Saleh vỏ Altheneyan

(PlagLinSVM) [12] 89,75 90,55 1,00210 90,01 Oberreuter vỏ Eiselt [96] 87,17 91,54 1,00051 89,27 Sanchez-Perez [118] 86,61 91,98 1,00026 89,20 Glinos [47] 96,01 84,51 1,01761 88,77 Alaa Saleh Altheneyan(PlagRbfSVM) [12] 85,52 91,49 1,00209 88,27 Shrestha [121] 84,42 89,84 1,00381 86,81 Gross vỏ Modaresi [50] 92,52 81,82 1,02187 85,50 Rodrợguez Torrejụn vỏ Martợn

Ramos [134]

pha: pha đoạn vỏ pha từ. Mục đợch của pha đoạn nhằm thu hẹp phạm vi xử lý bằng cõch ứng cử cõc cặp đoạn chứa đoạn sao chờp. Mục đợch của pha từ lỏ xõc định chợnh xõc cõc cĩu nằm trong đoạn sao chờp vỏ loại bỏ cõc phần văn bản dư thừa nếu cụ. Qua thử nghiệm, luận õn đọ chứng minh tợnh hiệu quả của cõc đặc trưng đề xuất vỏ mừ hớnh lựa chọn ở mỗi pha.

Cõc đụng gụp chợnh của chương nỏy gồm:

- Đề xuất quy trớnh phõt hiện đoạn sao chờp giữa hai tỏi liệu theo hướng học khừng giõm sõt. Đọ khai thõc một cõch cụ hiệu quả cõc ưu điểm của mừ hớnh chủ đề vỏ thuật tõn LDA trong bỏi tõn phĩn cụm cĩu, đề xuất phương phõp giải quyết cõc trường hợp thiếu ổn định trong qũ trớnh phĩn cụm dựa trởn thuật tõn tớm tập phổ biến Apriori. Đề xuất thuật tõn mở rộng đoạn nhằm nĩng cao độ hiệu quả của đoạn sao chờp thu được.

- Theo hướng học cụ giõm sõt, luận õn đề xuất bộ đặc trưng hiệu quả ở mức đoạn vỏ mức từ. Cõc đặc trưng ở mức đoạn gồm: Maximize_passage_similarity, Maximize_passage_intersection, Passage_importance vỏ mức từ gồm: Word_similarity, Average_word_similarity vỏ Sentence_based_similarity. Ngoỏi ra, luận õn đọ đề xuất mừ hớnh phõt hiện đoạn sao chờp giữa hai tỏi liệu sử dụng mừ hớnh LSTM xếp chồng vỏ thừng tin đặc trưng đọ trợch rỷt. Cõc kết quả nghiởn cứu của Chương 3 được cừng bố trong cừng trớnh [CT1,CT5].

CHƯƠNG 4

ỨNG DỤNG CạC KỸ THUẬT PHạT HIỆN SAO CHẫP CHO VĂN BẢN TIẾNG VIỆT

Cõc kỹ thuật đề xuất cho bỏi tõn phõt hiện sao chờp toỏn cục đọ giới thiệu trong Chương 2 vỏ 3 của luận õn õp dụng cho văn bản tiếng Anh. Nội dung chợnh của Chương nỏy luận õn tập trung nghiởn cứu cõc phương phõp trợch rỷt từ khụa vỏ phõt hiện đoạn sao chờp cho văn bản tiếng Việt. Với bỏi tõn trợch rỷt từ khụa cho văn bản tiếng Việt luận õn xõc định hai hướng nghiởn cứu gồm nghiởn cứu cõc giải phõp trực tiếp cho văn bản tiếng Việt vỏ cải tiến kỹ thuật trợch rỷt từ khụa trong Chương 2 õp dụng cho văn bản tiếng Việt. Với bỏi tõn phõt hiện đoạn sao chờp cho văn bản tiếng Việt, luận õn tập trung cải tiến hai đề xuất đọ thử nghiệm thỏnh cừng trong Chương 3 trởn văn bản tiếng Anh cho tiếng Việt. Ngoỏi ra, Chương nỏy đề xuất phương phõp xĩy dựng kho ngữ liệu phõt hiện đoạn văn bản sao chờp tiếng Việt lỏm cơ sở để thực nghiệm vỏ đõnh giõ kết quả của cõc phương phõp đề xuất. Cõc giải phõp đề xuất mới trong Chương nỏy được đăng tại Tạp chợ Khoa học vỏ Cừng nghệ quĩn sự [CT2], [CT3].

4.1 Đặt vấn đề

Tiếng Việt vỏ tiếng Anh cụ nhiều điểm khõc biệt như ĩm tiết, dấu thanh, thứ tự từ, trọng ĩm, ngữ phõp. Một cõch trực quan cụ thể thấy trong tiếng Việt, dấu cõch khừng mang ý nghĩa phĩn tõch cõc từ mỏ chỉ mang ý nghĩa phĩn tõch cõc ĩm tiết với nhau. Vợ dụ: từ “đất nước” được tạo ra từ hai ĩm tiết “đất” vỏ “nước”, cả 2 ĩm tiết nỏy đều cụ nghĩa riởng khi đứng độc lập, nhưng khi ghờp lại sẽ mang một nghĩa khõc. Bởn cạnh đụ, tiếng Việt lỏ một ngừn ngữ đa nghĩa ở đụ một từ cụ thể mang nhiều nghĩa. Đĩy lỏ nguyởn nhĩn xảy ra cõc hiện tượng nhập nhằng trong khi nụi, khi viết. Chợnh vớ vậy, việc sử dụng cõc cừng cụ, kỹ thuật, giải phõp xử lý ngừn ngữ văn bản tiếng Anh dỳng cho tiếng Việt lỏ khừng khả thi. Xờt riởng trong bỏi tõn phõt hiện sao chờp văn bản tiếng Việt, khụ cụ thể sử dụng cõc kỹ thuật phõt hiện sao chờp văn bản tiếng Anh õp dụng cho tiếng Việt. Để giải quyết vấn đề nỏy, luận õn tập trung nghiởn cứu đề xuất cõc kỹ thuật phõt hiện sao

chờp cho văn bản tiếng Việt gồm kỹ thuật trợch rỷt từ khụa tớm tập tỏi liệu ứng cử vỏ kỹ thuật phõt hiện đoạn sao chờp. Để cụ cơ sở đõnh giõ cõc phương phõp đề xuất, luận õn đề xuất phương phõp xĩy dựng kho ngữ liệu tiếng Việt cho bỏi tõn phõt hiện đoạn sao chờp giữa hai tỏi liệu. Phần tiếp theo, luận õn trớnh phương phõp vỏ kết quả xĩy dựng kho ngữ liệu vỏ nội dung cõc kỹ thuật õp dụng cho bỏi tõn phõt hiện sao chờp tiếng Việt.

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 105 - 108)