Kho ngữ liệu thử nghiệm

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 46 - 49)

Tiếp cận phương phõp phõt hiện đoạn sao chờp với tiếng Việt, cõc cừng bố của cõc tõc giả Việt Nam [33],[68],[94],[133] sử dụng hai loại dữ liệu: dữ liệu tiếng Việt vỏ dữ liệu tiếng Anh. Dữ liệu tiếng Việt được xĩy dựng thủ cừng trong qũ trớnh thử nghiệm [33],[68],[94],[133]. Dữ liệu tiếng Anh sử dụng kho ngữ liệu PAN [33],[133].

Với mục tiởu đặt ra lỏ ứng dụng kỹ thuật phõt hiện sao chờp cho văn bản tiếng Việt nởn cõc đề xuất cần thực hiện thử nghiệm qua hai kho ngữ liệu tiếng Việt vỏ tiếng Anh. Cụ thể:

- Để so sõnh với cõc kết quả trởn thế giới, luận õn sử dụng cõc bộ ngữ liệu quốc tế phổ biến hiện nay.

- Để thử nghiệm với tiếng Việt, do chưa cụ bộ ngữ liệu nỏo được cừng bố cho cõc bỏi tõn nỏy, vớ vậy luận õn tự xĩy dựng cõc bộ ngữ liệu tiếng Việt vỏ thực hiện thử nghiệm trởn bộ ngữ liệu nỏy.

1.5.1.1 Kho ngữ liệu thử nghiệm cho bỏi tõn trợch rỷt từ khụa

Trởn thế giới, bỏi tõn trợch rỷt từ khụa đọ được nghiởn cứu cho nhiều ngừn ngữ. Do đụ, nhiều kho ngữ liệu đọ được xĩy dựng cho mục đợch đõnh giõ độ chợnh xõc của hệ thống. Việc đõnh giõ cõc đề xuất trợch rỷt từ khụa trong luận õn dựa trởn hai kho ngữ liệu thử nghiệm gồm kho ngữ liệu quốc tế vỏ kho ngữ liệu tiếng Việt. Kho ngữ liệu quốc tế, được mừ tả tụm tắt trong Bảng 1.2 [27], bao gồm cõc kho ngữ liệu phổ biến sử dụng để đõnh giõ cõc đề xuất trợch rỷt từ khụa cho cõc cừng bố quốc tế gần đĩy.

Bảng 1.2. Tụm tắt thừng tin kho ngữ liệu thử nghiệm trợch rỷt từ khụa

Kho ngữ liệu Ngừn ngữ Kiểu

Số văn bản #Gold Keys (trung bớnh) Số từ trung bớnh 110-PT-BN-KP] [72] Tiếng Bồ Đỏo Nha Tin tức 110 2.610 (23,73) 304 500N-KPCrowd- v1.1 [73]

Tiếng Anh Tin tức 500 24.459

(48,92)

408,33

Inspec [56] Tiếng Anh Tụm tắt bỏi

bõo

2.000 29.230

(14,62)

128,2

Krapivin2009 [64] Tiếng Anh Bỏi bõo 2.304 14.599 (6,34) 8.040,74

Nguyen2007 [95] Tiếng Anh Bỏi bõo 209 2.369 (11,33) 5.201,09

PubMed [16] Tiếng Anh Bỏi bõo 500 7.620 (15,24) 3.992,78

Schutz2008 [120] Tiếng Anh Bỏi bõo 1.231 55.013(44,69) 3.901,31

SemEval2010 [62] Tiếng Anh Bỏi bõo 243 4.002 (16,47) 8.332,34

SemEval2017 [17],[18]

Tiếng Anh Đoạn văn bản 493 8.969 (18,19) 178,22

WikiNews [24] Tiếng Anh Tin tức 100 1.177 (11,77) 293,52

Cacic [15] Tiếng Anh Bỏi bõo 888 4.282 (4,82) 3.985,84

Citeulike180 [75] Tiếng Tĩy Ban

Nha

Bỏi bõo 183 3.370 (18,42) 4.796,08

Fao30 [77] Tiếng Anh Bỏi bõo 30 997 (33,23) 4.777,7

Fao780 [77] Tiếng Anh Bỏi bõo 779 6.990 (8,97) 4.971,79

Kdd [48] Tiếng Anh Bỏi bõo 755 3.831 (5,07) 75,97

Pak2018 [27] Tiếng Ba Lan Tụm tắt bỏi

bõo

50 232 (4,64) 97,36

1.5.1.2 Kho ngữ liệu thử nghiệm cho bỏi tõn phõt hiện đoạn sao chờp

Bỏi tõn phõt hiện sao chờp lỏ nhiệm vụ trọng tĩm trong cuộc thi PAN. Trong chuỗi sự kiện nỏy, một số kho ngữ liệu đọ được cung cấp phục vụ đõnh giõ hệ thống với hai kho ngữ liệu chợnh lỏ PAN 2013 , PAN 2014 [106].

Kho ngữ liệu huấn luyện PAN 2013 gồm 3.230 tệp dữ liệu nguồn vỏ 1.827 tệp dữ liệu nghi ngờ sao chờp. Kho ngữ liệu kiểm tra cụ 3.169 tệp dữ liệu nguồn vỏ 1.826 tệp dữ liệu nghi ngờ sao chờp. Kho ngữ liệu PAN 2014 gồm 3.385 tệp dữ liệu nguồn vỏ 498 tệp dữ liệu nghi ngờ sao chờp.

Ngoỏi ra cún cụ cõc kho ngữ liệu tiếng Anh khõc phục vụ bỏi tõn nỏy như cõc kho Cheema vỏ Alvi [13]. Kho ngữ liệu Cheema bao gồm cõc bỏi luận của sinh viởn với 248 tệp dữ liệu nguồn vỏ 248 tệp dữ liệu nghi ngờ sao chờp. Kho ngữ liệu Alvi gồm 70 tệp dữ liệu nguồn vỏ 90 tệp dữ liệu nghi ngờ sao chờp được dịch sang tiếng Anh từ truyện cổ Grimm.

Để tạo ra cõc tỏi liệu nghi ngờ sao chờp, cõc đoạn văn bản được trợch xuất từ tỏi liệu nguồn sau đụ được biến đổi cỷ phõp hoặc ngữ nghĩa vỏ chộn vỏo văn bản nghi ngờ sao chờp. Mỗi kho ngữ liệu PAN bao gồm 4 kho ngữ liệu thỏnh phần, cụ thể:

- Kho sao chờp nguyởn văn (None Obfuscation): tạo ra cõc trường hợp sao chờp bằng cõch sao chờp nguyởn văn một đoạn từ văn bản nguồn sang vỏ chộn vỏo văn bản sao chờp

- Kho sao chờp ngẫu nhiởn (Random Obfuscation): tạo ra trường hợp sao chờp bằng cõch chộn, xụa, thay đổi trật tự từ một đoạn của văn bản nguồn vỏ chộn vỏo văn bản sao chờp.

- Kho sao chờp dựa trởn dịch đoạn văn bản (Translation Obfuscation): Thực hiện dịch một đoạn trong văn bản nguồn sang một ngừn ngữ khõc sau đụ

Kho ngữ liệu Ngừn ngữ Kiểu

Số văn bản #Gold Keys (trung bớnh) Số từ trung bớnh

Wicc [15] Tiếng Tĩy Ban

Nha

Bỏi bõo 1.640 7.498 (4,57) 1.955,56

Wiki20 [78] Tiếng Anh Bõo cõo 20 730 (36,50) 6.177,65

dịch về ngừn ngữ tiếng Anh vỏ chộn vỏo văn bản sao chờp

- Kho sao chờp dựa trởn tụm tắt đoạn văn bản (Summary Obfuscation): Tạo ra trường hợp sao chờp bằng cõch tụm tắt đoạn văn bản nguồn vỏ chộn vỏo văn bản sao chờp.

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 46 - 49)