trong mục 1.2.1) nởn việc cải tiến cõc phương phõp trởn phỳ hợp với tiếng Việt lỏ
cần thiết.
4.4.1 Cải tiến mừ hớnh chủ đề cho bỏi tõn phõt hiện đoạn sao chờp văn bảntiếng Việt tiếng Việt
4.4.1.1 Nội dung cải tiến
Như đọ trớnh bỏy chi tiết trong Chương 3 (mục 3.4.1), phương phõp phõt hiện đoạn sao chờp dựa trởn mừ hớnh chủ đề được thực hiện qua 4 bước gồm (1) tiền xử lý dữ liệu, (2) phĩn cụm, (3) xõc định đoạn sao chờp, (4) mở rộng đoạn.
Luận õn thực hiện đõnh giõ sự ảnh hưởng của ngừn ngữ văn bản trong mỗi bước xử lý để từ đụ đề xuất cõc nội dung cải tiến. Cụ thể:
Tiền xử lý dữ liệu: Trong bước nỏy luận õn thực hiện tõch cĩu, tõch từ, loại bỏ từ dừng vỏ cõc ký tự đặc biệt trong cặp tỏi liệu đầu vỏo. Khõc với tiếng Anh, trong tiếng Việt dấu cõch khừng mang ý nghĩa phĩn tõch cõc từ mỏ chỉ mang ý nghĩa phĩn tõch cõc ĩm tiết với nhau. Do đụ, cõc phương phõp tõch từ tiếng Anh khừng thể õp dụng cho văn bản tiếng Việt. Bởn cạnh đụ, mỗi ngừn ngữ cụ một tập từ dừng đặc trưng của ngừn ngữ đụ. Vớ vậy, tõch từ vỏ sử dụng tập từ dừng tiếng Việt lỏ cõc nội dung cần thực hiện trong bước xử lý nỏy.
Trong phương phõp đề xuất, phĩn cụm cĩu sử dụng thuật tõn LDA lỏ bước tiếp theo được luận õn đề xuất sử dụng. Để đõnh giõ sự ảnh hưởng của yếu tố ngừn ngữ trong bước nỏy cần căn cứ vỏo hoạt động của mừ hớnh thuật tõn LDA. Như đọ giới thiệu trong Chương 1 (mục 1.2.2) về cơ sở lý thuyết của thuật tõn LDA, LDA hoạt động dựa trởn mừ hớnh sinh cho phờp xõc định một tợp hợp cõc chủ đề ẩn mỏ mỗi chủ đề sẽ được biểu diễn bởi tập hợp cõc từ. Mục tiởu của LDA lỏ tham chiếu toỏn bộ cõc văn bản sang cõc chủ đề tương ứng sao cho cõc từ trong mỗi một văn bản sẽ thể hiện những chủ đề ẩn đụ. Theo lý thuyết về mừ hớnh, từ lỏ đơn vị cơ bản nhất vỏ một văn bản lỏ một tập hợp từ. Ngoỏi ra, thứ tự xuất hiện vỏ thừng tin từ loại của từ khừng tham gia vỏo qũ trớnh phĩn bổ chủ đề trong mừ
hớnh. Như vậy, yếu tố ngừn ngữ văn bản trong bước phĩn cụm chỉ phục thuộc vỏo việc tõch từ văn bản tiếng Việt.
Thuật tõn tớm tập phổ biến lớn nhất Apriori được sử dụng trong bước thứ ba của đề xuất nhằm xõc định đoạn sao chờp. Thuật tõn Apriori nhận đầu vỏo lỏ CSDL giao dịch trong đụ mỗi phần tử trong CSDL lỏ chỉ số của cõc cĩu trong cỳng một chủ đề mỏ khừng liởn quan đến nội dung của tỏi liệu đầu vỏo. Hay nụi cõch khõc, yếu tố ngừn ngữ văn bản khừng cụ sự ảnh hưởng đến hoạt động của thuật tõn sử dụng.
Mở rộng đoạn lỏ bước cuối cỳng trong phương phõp đề xuất sử dụng mừ hớnh chủ đề để xõc định đoạn sao chờp giữa hai tỏi liệu. Thuật tõn đề xuất (thuật tõn 3.1) thực hiện trộn cõc đoạn trong cỳng tập phổ biến hoặc khõc tập phổ biến dựa trởn khoảng cõch chỉ số của cĩu. Do vậy, yếu tố ngừn ngữ văn bản khừng tham gia vỏo qũ trớnh thực hiện của thuật tõn.
Qua cõc phĩn tợch nởu trởn, luận õn nhận thấy để õp dụng mừ hớnh chủ đề xõc định đoạn sao chờp giữa hai tỏi liệu cho văn bản tiếng Việt luận õn cần thực hiện một số thay đổi trong thiết kế gồm:
- Tõch từ tiếng Việt: ạp dụng đối với cặp tỏi liệu đầu vỏo.
- Tập từ dừng tiếng Việt sử dụng trong giai đoạn tiền xử lý dữ liệu.
4.4.1.2 Đõnh giõ thử nghiệm trởn kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt
Kết quả thử nghiệm trởn kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt
(đọ giới thiệu trong mục 4.2) được trớnh bỏy trong Bảng 4.10.
Bảng 4.10. Kết quả thử nghiệm với kho ngữ liệu tiếng Việt
Kho ngữ liệu Prec
(%) Rec (%) Gran Plagdet (%) 01-no-obfuscation 53,58 82,42 1,05959 62,30 02-artificial-obfuscation 55,91 80,57 1,05418 63,65 03-semantic-obfuscation 57,37 78,89 1,06008 63,71
Kết quả trong Bảng 4.10 cho thấy độ phủ lớn nhất đạt 82,42% trong khi độ chợnh xõc lớn nhất chỉ đạt 57,37%. Điều nỏy chứng tỏ phương phõp đề xuất cụ thể phõt hiện được cõc trường hợp sao chờp. Tuy nhiởn, độ chợnh xõc khõ thấp do kết quả phõt hiện dư thừa nhiều cĩu hoặc từ ở hai đầu đoạn kết quả. Bởn cạnh đụ,
kho ngữ liệu tiếng Việt được trợch xuất từ cõc bỏi bõo khoa học bao gồm cõc ký tự sử dụng cho cõc cừng thức tõn học ảnh hưởng đến độ chợnh xõc của cõc phương õn đề xuất. Vợ dụ cụ thể, một trường hợp sao chờp nguyởn văn trong trường hợp sao chờp suspicious-document11074-source-document069.xml với đoạn sao chờp lỏ:
1.7 - Bis( 4-hydroxyphenyl) - heptane - 3,5 - dione( 6): 75%; Cừng_thức phĩn_tử: C19H20O4; đnc: 101-103 0C; iR( KBr); V( cm ’ 1): 3428( OH); 1727( C= O); 1560; 1506; 1467; 1258; 1132; 1027. 1H - NMR( CDCI3, 500 MHz), s( ppm): 15,5( br, s, 0,5 H, - OH enol); 6,90 - 6,87( m, 4 H, J = 9,0 Hz, 3,0 Hz, Ar - H); 6,64 - 6,61( m, 4 H, J = 9,0 Hz, 3,0 Hz, Ar - H); 5,7( s, 0,5 H, H - enol); 3,65( s, 1 H); 2,73 - 2,47( m, 8 H, - CH2). 13C-NMR( CDCI3, 125 MHz), s( ppm): 194,4( Cc, Ce); 155,4( C - 4); 130,6( C - 1 ’); 129,1( C - 6 ’, C2 ’); 115,1( C - 3 ’, C - 5 ’); 99,1( Cd); 44,7( Cb, Cf); 29,9( Ca, Cg)
Nội dung chợnh của đoạn sao chờp trởn lỏ cõc cừng thức hụa học vỏ cõc giõ trị số. Sau khi tiền xử lý đoạn văn bản trởn sẽ thu được đoạn văn bản:
bis hydroxyphenyl heptane dione cừng_thức phĩn_tử đnc ir kbr cm oh nmr cdci mhz ppm br oh enol hz hz ar hz hz ar enol ch nmr cdci mhz ppm cc ce cd cb cf ca cg
Vớ chủ đề của cĩu được xõc định trởn phĩn bố chủ đề của cõc từ trong cĩu nởn với đoạn văn bản như trởn với 02 từ cụ nghĩa trong số 37 từ sẽ rất khụ cụ thể xõc định chợnh xõc chủ đề cĩu vỏ đụ lỏ nguyởn nhĩn hệ thống khừng xõc định chợnh xõc đoạn văn bản sao chờp.
Luận õn sử dụng mọ nguồn của tõc giả Sanchez-Perez [118] chạy trởn kho dữ liệu phõt hiện sao chờp tiếng Việt với 1.222 trường hợp sao chờp. Kết quả đõnh giõ được tụm tắt trong Bảng 4.11.
Bảng 4.11. Kết quả thử nghiệm của tõc giả Sanchez-Perez
Kho ngữ liệu Prec
(%) Rec (%) Gran Plagdet (%) 01-no-obfuscation 65,90 86,78 1,0 74,91 02-artificial-obfuscation 78,20 83,20 1,0 80,62 03-semantic-obfuscation 81,17 79,21 1,0 80,18
So sõnh kết quả đề xuất với kết quả của tõc giả Sanchez-Perez [118] chạy trởn cỳng kho ngữ liệu tiếng Việt cho thấy độ phủ của phương phõp đề xuất xấp xỉ với kết quả của Sanchez-Perez, tuy nhiởn độ chợnh xõc của phương phõp đề xuất chưa đạt kết quả tốt do xõc định thừa một số cĩu ở hai đầu đoạn văn bản. Để
khắc phục vấn đề nỏy luận õn đề xuất kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh LSTM xếp chồng cho văn bản tiếng Việt sẽ trớnh bỏy trong mục 4.4.2 dưới đĩy. 4.4.2 Cải tiến kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh LSTM xếp chồng cho bỏi tõn phõt hiện đoạn sao chờp văn bản tiếng Việt
4.4.2.1 Nội dung cải tiến
Mừ hớnh đề xuất sử dụng kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh học sĩu LSTM xếp chồng cho bỏi tõn phõt hiện đoạn sao chờp đọ trớnh bỏy trong Chương 3 (mục 3.5) gồm hai pha xử lý: pha đoạn vỏ pha từ. Về quy trớnh thực hiện, tại mỗi pha đều cụ 4 giai đoạn gồm: tiền xử lý văn bản, trợch rỷt đặc trưng, huấn luyện mừ hớnh vỏ xõc định đoạn sao chờp.
Trong bước tiền xử lý, luận õn thực hiện tõch cĩu vỏ loại bỏ cõc từ dừng, ký tự đặc biệt vỏ ghờp cõc cĩu ngắn. Với mục tiởu õp dụng cho văn bản tiếng Việt, tập từ dừng tiếng Việt được luận õn sử dụng trong bước xử lý nỏy.
Trợch rỷt đặc trưng văn bản được thực hiện trởn mỗi pha của đề xuất dựa trởn độ tương đồng Cosin giữa hai đoạn văn bản sau khi đọ được mọ hụa dưới dạng cõc vờc tơ đặc trưng. Với ưu thế so với cõc cừng cụ mọ hụa khõc, Sentence- BERT (SBERT) [114] được luận õn lựa chọn để mọ hụa đoạn cho dữ liệu ngừn ngữ tiếng Anh. Vớ SBERT lỏ mừ hớnh đơn ngừn ngữ nởn để õp dụng cho tiếng Việt đúi hỏi phải huấn luyện mừ hớnh sử dụng một số lượng lớn cõc cặp cĩu tiếng Việt đọ được gõn nhọn (SBERT sử dụng kho ngữ liệu SNLI gồm
570.000 cặp cĩu vỏ MultiNLI gồm 430.000 cặp cĩu). Một số phương phõp khõc
cụ thể sử dụng để mọ hụa đoạn văn bản tiếng Việt như mở rộng một mừ hớnh đơn ngữ thỏnh mừ hớnh đa ngừn ngữ [115] hoặc sử dụng một số mừ hớnh đa ngừn ngữ hỗ trợ tiếng Việt đọ cụ như distilbert-multilingual (hỗ trợ 104 ngừn ngữ) hay xlm-r (hỗ trợ trởn 100 ngừn ngữ). Việc mở rộng mừ hớnh đơn ngữ sang cõc ngừn ngữ khõc được thực hiện qua bước dịch cõc ngừn ngữ về ngừn ngữ gốc tiếng Anh. Do vậy chất lượng của mừ hớnh phụ thuộc nhiều vỏo kết quả của bước dịch trung gian.
Khắc phục cõc vấn đề nởu trởn, luận õn đề xuất sử dụng mừ hớnh Fast Sentence Embeddings(FSE) [23] để thực hiện mọ hụa đoạn văn bản tiếng Việt.
của tõc giả Vũ Xuĩn Sơn [124].
Việc huấn luyện mừ hớnh trởn mỗi pha đoạn vỏ pha từ nhận thừng tin đầu vỏo lỏ một ma trận đặc trưng. Đầu ra giai đoạn dự đõn của mừ hớnh lỏ một vờc tơ một chiều, mỗi phần tử cụ giõ trị nằm trong khoảng (0,1). Việc xõc định đoạn sao chờp ứng cử trong pha đoạn vỏ đoạn sao chờp kết quả trong pha từ đều được tợnh tõn dựa trởn giõ trị dự đõn trởn để xõc định chỉ số cĩu thuộc đoạn văn bản sao chờp.
Từ những phĩn tợch nởu trởn, để õp dụng kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh mạng LSTM xếp chồng cho văn bản tiếng Việt luận õn thực hiện một số cải tiến để phỳ hợp với văn bản tiếng Việt gồm:
- Tõch từ tiếng Việt: ạp dụng với dữ liệu huấn luyện vỏ cặp tỏi liệu đầu vỏo. - Tập từ dừng tiếng Việt sử dụng trong giai đoạn tiền xử lý dữ liệu
- Mọ hụa đoạn thỏnh vờc tơ đặc trưng: sử dụng mừ hớnh Fast Sentence
Embeddings(FSE) [23] để thực hiện mọ hụa đoạn văn bản tiếng Việt.
Trong qũ trớnh thử nghiệm mỗi kho thỏnh phần luận õn chia theo tỷ lởn 70/30 cho việc huấn luyện mừ hớnh vỏ kiểm tra phõt hiện đoạn sao chờp.
4.4.2.2 Đõnh giõ thử nghiệm trởn kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt
Kết quả thử nghiệm cho kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt
(đọ giới thiệu trong mục 4.2) được trớnh bỏy trong Bảng 4.12.
Bảng 4.12. Kết quả thử nghiệm với kho ngữ liệu tiếng Việt
Kho ngữ liệu Prec
(%) Rec (%) Gran Plagdet (%) 01-no-obfuscation 94,66 90,91 1,00000 92,75 02-artificial-obfuscation 94,07 90,39 1,00000 92,19 03-semantic-obfuscation 86,79 92,25 1,00000 89,44 Kết quả trong Bảng 4.12 cho thấy độ đo tổng hợp Plagdet đạt kết quả khõ cao trong đụ độ phủ Rec trởn tất cả cõc kho ngữ liệu thỏnh phần đều đạt trởn 90% vỏ cao hơn rất nhiều so với phương phõp mừ hớnh chủ đề (trớnh bỏy trong Bảng 4.10) vỏ phương phõp của tõc giả Sanchez-Perez [118] (trớnh bỏy trong Bảng 4.11). Việc đề xuất hai pha xử lý trong đụ pha từ nhằm loại bỏ đi cõc phần
văn bản dư thừa ở hai đầu đoạn sao chờp lỏ nguyởn nhĩn dẫn đến cải thiện độ chợnh
xõc trong qũ trớnh xõc định đoạn sao chờp. Từ kết quả thử nghiệm cho thấy phương phõp đề xuất mang tợnh tổng qũt hụa cao, phỳ hợp cả với văn bản tiếng Việt vỏ tiếng Anh.
4.5Kết luận Chương 4
Chương 4 tập trung nghiởn cứu đề xuất vỏ cải tiến cõc kỹ thuật phõt hiện sao chờp õp dụng cho văn bản tiếng Việt bao gồm hai đề xuất mới vỏ cải tiến ba kỹ thuật đọ đề xuất trong Chương 2 vỏ Chương 3 của luận õn. Đề xuất thứ nhất trớnh bỏy phương phõp xĩy dựng kho ngữ liệu tiếng Việt được sử dụng thử nghiệm, đõnh giõ cõc thuật tõn phõt hiện đoạn sao chờp cho văn bản tiếng Việt. Đề xuất thứ hai trớnh bỏy kỹ thuật trợch rỷt từ khụa dựa trởn trọng số TF-IDF cụ xem xờt yếu tố từ loại õp dụng cho văn bản dỏi tiếng Việt. Để cụ cơ sở cải tiến cõc kỹ thuật phõt hiện sao chờp văn bản tiếng Anh õp dụng cho tiếng Việt, luận õn đọ phĩn tợch sự ảnh hưởng của yếu tố ngừn ngữ trong mỗi bước xử lý từ đụ đề xuất cõc nội dung cải tiến cho kỹ thuật trợch rỷt từ khụa tớm tập ứng cử vỏ 02 kỹ thuật phõt hiện đoạn sao chờp.
Cõc đụng gụp chợnh của chương nỏy gồm:
- Đề xuất giải phõp vỏ quy trớnh xĩy dựng kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt phục vụ thử nghiệm, đõnh giõ cõc thuật tõn phõt hiện đoạn sao chờp văn bản tiếng Việt.
-Đề xuất phương phõp trợch rỷt từ khụa cho văn bản dỏi tiếng Việt dựa trởn trọng số TF-IDF ở mức tỏi liệu vỏ mức đoạn kết hợp với yếu tố từ loại.
-Đề xuất cõc nội dung cải tiến cõc kỹ thuật trợch rỷt từ khụa vỏ phõt hiện đoạn sao chờp ứng dụng cho văn bản tiếng Việt dựa trởn phĩn tợch sự ảnh hưởng của yếu tố ngừn ngữ trong mỗi giao đoạn xử lý.
KẾT LUẬN
1. Cõc kết quả nghiởn cứu của luận õn
Việc nghiởn cứu cõc kỹ thuật phõt hiện sao chờp thu hỷt được nhiều sự quan tĩm của cõc nhỏ nghiởn cứu trong vỏ ngoỏi nước. Do vậy, luận õn đọ đề xuất hướng nghiởn cứu liởn quan đến lớp bỏi tõn nỏy. Qua thời gian nghiởn cứu, thấy rằng cõc đề xuất liởn quan đến bỏi tõn phõt hiện sao chờp vẫn cún một số hạn chế như: cõc đề xuất giải quyết cõc trường hợp sao chờp cụ sự thay đổi chưa thực sự hiệu quả vỏ vấn đề ứng dụng cõc kỹ thuật phõt hiện sao chờp cho văn bản tiếng Việt cún nhiều hạn chế. Chợnh vớ vậy, hướng nghiởn cứu của luận õn lỏ cần thiết. Luận õn đọ đạt được mục tiởu lỏ đề xuất cõc kỹ thuật liởn quan đến bỏi tõn phõt hiện sao chờp toỏn cục, xĩy dựng cõc kho ngữ liệu tiếng Việt vỏ cải tiến cõc kỹ thuật đọ đề xuất thử nghiệm trởn kho ngữ liệu nỏy gụp phần khắc phục cõc hạn chế đọ nởu.
Cõc kết quả của luận õn đạt được lỏ:
- Nghiởn cứu về bỏi tõn phõt hiện sao chờp toỏn cục; phĩn tợch, đõnh giõ ưu nhược điểm của cõc hướng nghiởn cứu liởn quan đến hai bỏi tõn thỏnh phần gồm bỏi tõn trợch rỷt từ khụa tớm tập tỏi liệu ứng cử vỏ bỏi tõn phõt hiện đoạn sao chờp.
- Đọ đề xuất phương phõp trợch rỷt từ khụa tớm tập tỏi liệu ứng cử vỏ hai phương phõp phõt hiện đoạn sao chờp cho văn bản tiếng Anh. Thực hiện thực nghiệm, so sõnh vỏ đõnh giõ hiệu quả của cõc phương phõp đề xuất so với cõc tiếp cận trởn thế giới liởn quan đến mỗi bỏi tõn.
- Đọ đề xuất phương phõp trợch rỷt từ khụa cho văn bản dỏi tiếng Việt. Cải tiến cõc kỹ thuật đọ đề xuất cho văn bản tiếng Anh ứng dụng cho văn bản tiếng Việt.
- Đọ đề xuất giải phõp vỏ quy trớnh xĩy dựng kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt phục vụ thử nghiệm, đõnh giõ cõc thuật tõn phõt hiện sao chờp cho văn bản tiếng Việt.
bỏi bõo vỏ kho ngữ liệu ĐATN sử dụng cho bỏi tõn trợch rỷt từ khụa tiếng Việt. 2. Những đụng gụp mới của luận õn
-Đề xuất 2 kỹ thuật trợch rỷt từ khõ dựa trởn trọng số if-idf kết hợp với từ loại, vỏ dựa trởn kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh mạng nơ ron truyền thẳng FFNN.
- Đề xuất 2 kỹ thuật phõt hiện đoạn sao chờp dựa trởn thuật tõn LDA kết hợp với thuật tõn tớm tập phổ biến Apriori vỏ kỹ thuật sử dụng mạng nơ ron học sĩu