Cải tiến mừ hớnh chủ đề cho bỏi tõn phõt hiện đoạn sao chờp văn

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 127 - 130)

1.2.1) nởn việc cải tiến cõc phương phõp trởn phỳ hợp với tiếng Việt lỏ cần thiết.

4.4.1 Cải tiến mừ hớnh chủ đề cho bỏi tõn phõt hiện đoạn sao chờp văn bản tiếng Việt tiếng Việt

4.4.1.1 Nội dung cải tiến

Như đọ trớnh bỏy chi tiết trong Chương 3 (mục 3.4.1), phương phõp phõt hiện đoạn sao chờp dựa trởn mừ hớnh chủ đề được thực hiện qua 4 bước gồm (1) tiền xử lý dữ liệu, (2) phĩn cụm, (3) xõc định đoạn sao chờp, (4) mở rộng đoạn. Luận õn thực hiện đõnh giõ sự ảnh hưởng của ngừn ngữ văn bản trong mỗi bước xử lý để từ đụ đề xuất cõc nội dung cải tiến. Cụ thể:

Tiền xử lý dữ liệu: Trong bước nỏy luận õn thực hiện tõch cĩu, tõch từ, loại bỏ từ dừng vỏ cõc ký tự đặc biệt trong cặp tỏi liệu đầu vỏo. Khõc với tiếng Anh, trong tiếng Việt dấu cõch khừng mang ý nghĩa phĩn tõch cõc từ mỏ chỉ mang ý nghĩa phĩn tõch cõc ĩm tiết với nhau. Do đụ, cõc phương phõp tõch từ tiếng Anh khừng thể õp dụng cho văn bản tiếng Việt. Bởn cạnh đụ, mỗi ngừn ngữ cụ một tập từ dừng đặc trưng của ngừn ngữ đụ. Vớ vậy, tõch từ vỏ sử dụng tập từ dừng tiếng Việt lỏ cõc nội dung cần thực hiện trong bước xử lý nỏy.

Trong phương phõp đề xuất, phĩn cụm cĩu sử dụng thuật tõn LDA lỏ bước tiếp theo được luận õn đề xuất sử dụng. Để đõnh giõ sự ảnh hưởng của yếu tố ngừn ngữ trong bước nỏy cần căn cứ vỏo hoạt động của mừ hớnh thuật tõn LDA. Như đọ giới thiệu trong Chương 1 (mục 1.2.2) về cơ sở lý thuyết của thuật tõn LDA, LDA hoạt động dựa trởn mừ hớnh sinh cho phờp xõc định một tợp hợp cõc chủ đề ẩn mỏ mỗi chủ đề sẽ được biểu diễn bởi tập hợp cõc từ. Mục tiởu của LDA lỏ tham chiếu toỏn bộ cõc văn bản sang cõc chủ đề tương ứng sao cho cõc từ trong mỗi một văn bản sẽ thể hiện những chủ đề ẩn đụ. Theo lý thuyết về mừ hớnh, từ lỏ đơn vị cơ bản nhất vỏ một văn bản lỏ một tập hợp từ. Ngoỏi ra, thứ tự xuất hiện vỏ thừng tin từ loại của từ khừng tham gia vỏo qũ trớnh phĩn bổ chủ đề trong mừ

hớnh. Như vậy, yếu tố ngừn ngữ văn bản trong bước phĩn cụm chỉ phục thuộc vỏo việc tõch từ văn bản tiếng Việt.

Thuật tõn tớm tập phổ biến lớn nhất Apriori được sử dụng trong bước thứ ba của đề xuất nhằm xõc định đoạn sao chờp. Thuật tõn Apriori nhận đầu vỏo lỏ CSDL giao dịch trong đụ mỗi phần tử trong CSDL lỏ chỉ số của cõc cĩu trong cỳng một chủ đề mỏ khừng liởn quan đến nội dung của tỏi liệu đầu vỏo. Hay nụi cõch khõc, yếu tố ngừn ngữ văn bản khừng cụ sự ảnh hưởng đến hoạt động của thuật tõn sử dụng.

Mở rộng đoạn lỏ bước cuối cỳng trong phương phõp đề xuất sử dụng mừ hớnh chủ đề để xõc định đoạn sao chờp giữa hai tỏi liệu. Thuật tõn đề xuất (thuật tõn 3.1) thực hiện trộn cõc đoạn trong cỳng tập phổ biến hoặc khõc tập phổ biến dựa trởn khoảng cõch chỉ số của cĩu. Do vậy, yếu tố ngừn ngữ văn bản khừng tham gia vỏo qũ trớnh thực hiện của thuật tõn.

Qua cõc phĩn tợch nởu trởn, luận õn nhận thấy để õp dụng mừ hớnh chủ đề xõc định đoạn sao chờp giữa hai tỏi liệu cho văn bản tiếng Việt luận õn cần thực hiện một số thay đổi trong thiết kế gồm:

- Tõch từ tiếng Việt: ạp dụng đối với cặp tỏi liệu đầu vỏo.

- Tập từ dừng tiếng Việt sử dụng trong giai đoạn tiền xử lý dữ liệu.

4.4.1.2 Đõnh giõ thử nghiệm trởn kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt

Kết quả thử nghiệm trởn kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt

(đọ giới thiệu trong mục 4.2) được trớnh bỏy trong Bảng 4.10. Bảng 4.10. Kết quả thử nghiệm với kho ngữ liệu tiếng Việt

Kết quả trong Bảng 4.10 cho thấy độ phủ lớn nhất đạt 82,42% trong khi độ chợnh xõc lớn nhất chỉ đạt 57,37%. Điều nỏy chứng tỏ phương phõp đề xuất cụ thể phõt hiện được cõc trường hợp sao chờp. Tuy nhiởn, độ chợnh xõc khõ thấp do kết quả phõt hiện dư thừa nhiều cĩu hoặc từ ở hai đầu đoạn kết quả. Bởn cạnh đụ,

Kho ngữ liệu Prec (%) Rec (%) Gran Plagdet (%) 01-no-obfuscation 53,58 82,42 1,05959 62,30 02-artificial-obfuscation 55,91 80,57 1,05418 63,65 03-semantic-obfuscation 57,37 78,89 1,06008 63,71

kho ngữ liệu tiếng Việt được trợch xuất từ cõc bỏi bõo khoa học bao gồm cõc ký tự sử dụng cho cõc cừng thức tõn học ảnh hưởng đến độ chợnh xõc của cõc phương õn đề xuất. Vợ dụ cụ thể, một trường hợp sao chờp nguyởn văn trong trường hợp sao chờp suspicious-document11074-source-document069.xml với đoạn sao chờp lỏ:

1.7 - Bis( 4-hydroxyphenyl) - heptane - 3,5 - dione( 6): 75%; Cừng_thức phĩn_tử: C19H20O4; đnc: 101-103 0C; iR( KBr); V( cm ’ 1): 3428( OH); 1727( C= O); 1560; 1506; 1467; 1258; 1132; 1027. 1H - NMR( CDCI3, 500 MHz), s( ppm): 15,5( br, s, 0,5 H, - OH enol); 6,90 - 6,87( m, 4 H, J = 9,0 Hz, 3,0 Hz, Ar - H); 6,64 - 6,61( m, 4 H, J = 9,0 Hz, 3,0 Hz, Ar - H); 5,7( s, 0,5 H, H - enol); 3,65( s, 1 H); 2,73 - 2,47( m, 8 H, - CH2). 13C-NMR( CDCI3, 125 MHz), s( ppm): 194,4( Cc, Ce); 155,4( C - 4); 130,6( C - 1 ’); 129,1( C - 6 ’, C2 ’); 115,1( C - 3 ’, C - 5 ’); 99,1( Cd); 44,7( Cb, Cf); 29,9( Ca, Cg)

Nội dung chợnh của đoạn sao chờp trởn lỏ cõc cừng thức hụa học vỏ cõc giõ trị số. Sau khi tiền xử lý đoạn văn bản trởn sẽ thu được đoạn văn bản:

bis hydroxyphenyl heptane dione cừng_thức phĩn_tử đnc ir kbr cm oh nmr cdci mhz ppm br oh enol hz hz ar hz hz ar enol ch nmr cdci mhz ppm cc ce cd cb cf ca cg

Vớ chủ đề của cĩu được xõc định trởn phĩn bố chủ đề của cõc từ trong cĩu nởn với đoạn văn bản như trởn với 02 từ cụ nghĩa trong số 37 từ sẽ rất khụ cụ thể xõc định chợnh xõc chủ đề cĩu vỏ đụ lỏ nguyởn nhĩn hệ thống khừng xõc định chợnh xõc đoạn văn bản sao chờp.

Luận õn sử dụng mọ nguồn của tõc giả Sanchez-Perez [118] chạy trởn kho dữ liệu phõt hiện sao chờp tiếng Việt với 1.222 trường hợp sao chờp. Kết quả đõnh giõ được tụm tắt trong Bảng 4.11.

Bảng 4.11. Kết quả thử nghiệm của tõc giả Sanchez-Perez

So sõnh kết quả đề xuất với kết quả của tõc giả Sanchez-Perez [118] chạy trởn cỳng kho ngữ liệu tiếng Việt cho thấy độ phủ của phương phõp đề xuất xấp xỉ với kết quả của Sanchez-Perez, tuy nhiởn độ chợnh xõc của phương phõp đề xuất chưa đạt kết quả tốt do xõc định thừa một số cĩu ở hai đầu đoạn văn bản. Để

Kho ngữ liệu Prec (%) Rec (%) Gran Plagdet (%) 01-no-obfuscation 65,90 86,78 1,0 74,91 02-artificial-obfuscation 78,20 83,20 1,0 80,62 03-semantic-obfuscation 81,17 79,21 1,0 80,18

khắc phục vấn đề nỏy luận õn đề xuất kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh LSTM xếp chồng cho văn bản tiếng Việt sẽ trớnh bỏy trong mục 4.4.2 dưới đĩy.

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 127 - 130)