Đõnh giõ thử nghiệm trởn kho ngữ liệu PAN- 123docz.net

3.4.2.1 Mừi trường thử nghiệm vỏ cõc thiết lập a. Mừi trường thử nghiệm:

Để cỏi đặt giải phõp đề xuất, luận õn sử dụng mừi trường lập trớnh Visual Studio, ngừn ngữ lập trớnh C# vỏ thư viện mọ nguồn mở cho XLNNTN OpenNLP.

Để tăng tốc độ xử lý trởn toỏn bộ kho ngữ liệu, mọ nguồn được cỏi đặt trởn mừi trường đa luồng (Multithreading), mỗi luồng độc lập xử lý phõt hiện đoạn văn bản sao chờp trởn một cặp văn bản đầu vỏo.

Qũ trớnh thử nghiệm được thực hiện trởn mõy tợnh cõ nhĩn với hệ điều hỏnh Windows 10 64 bit cụ cấu hớnh: chip Intel Core i7, 4GB Ram.

b. Cõc thiết lập

Luận õn sử dụng cừng cụ jLDADMM [90] được xĩy dựng bằng ngừn ngữ java để thực hiện thuật tõn LDA. Cỷ phõp lệnh như sau:

$ java [-Xmx1G] -jar jar/jLDADMM.jar –model <LDA_or_DMM> -corpus <Input_corpus_file_path> [-ntopics <int>] [-alpha <double>] [-beta

seed <int>]

Cõc tham số trong dấu “[]” lỏ tỳy chọn, cụ thể sử dụng giõ trị mặc định. Theo tõc giả Nguyễn Quốc Đạt [90], cõc giõ trị mặc định đọ được thử nghiệm, đõnh giõ vỏ được xem lỏ cõc giõ trị tối ưu. Một số tham số chợnh gồm:

-model: Mừ hớnh sử dụng LDA hoặc DMM (Dirichlet Multinomial Mixture). Trong luận õn sử dụng mừ hớnh LDA

-corpus: Đường dẫn tệp dữ liệu đầu vỏo.

-ntopics <int>: Số chủ đề cần trợch rỷt. Giõ trị mặc định lỏ 20. Qua thử nghiệm luận õn sử dụng một giõ trị tỳy biến khõc nhau tỳy thuộc vỏo kho ngữ liệu cho kết quả tốt hơn giõ trị mặc định.

-alpha <double>: giõ trị bằng 0.1. -beta <double>: giõ trị bằng 0.1.

-niters <int>: Số vúng lặp của thuật tõn lấy mẫu Gibbs, sử dụng giõ trị mặc định 2000.

Trong qũ trớnh thử nghiệm, jLDADMM đọ được thử nghiệm với số lượng vúng lặp Gibbs lần lượt lỏ 1.000, 2.000, 5.000, 10.000 vỏ 100.000 nhận thấy với vúng lặp bằng 2.000 cho kết quả đầu ra đủ tốt cho việc xử lý tiếp theo. Cõc vúng lặp lớn hơn khừng cải thiện độ chợnh xõc của đầu ra.

Thử nghiệm với cấu hớnh jLDADMM với cõc giõ trị: α = 0,1; β = 0,1, model=LDA. Với mỗi kho ngữ liệu thử nghiệm với cõc giõ trị số chủ đề khõc nhau. Thiết lập ntopic=10 với kho ngữ liệu “Summary” trong Cheema. Thiết lập

ntopic=30 với kho ngữ liệu Alvi. Cõc kho cún lại lấy giõ trị ntopic=20. Kợch thước cửa sổ trượt đặt mặc định bằng 3.

b. Cừng cụ sử dụng

Ngoỏi cừng cụ jLDADMM, luận õn sử dụng thư viện OpenNLP tợch hợp với ngừn ngữ lập trớnh C#. OpenNLP bao gồm cõc thư viện hỗ trợ xử lý văn bản như tõch cĩu, tõch từ, gõn nhọn từ loại.

3.4.2.2 Kho ngữ liệu thử nghiệm

Để cụ cơ sở so sõnh với cõc nghiởn cứu trước, luận õn sử dụng kho ngữ liệu PAN 2013, Cheema vỏ Alvi đọ mừ tả tụm tắt trong phần 1.5.1.2

3.4.2.3 Kết quả thử nghiệm vỏ so sõnh a. Kết quả thử nghiệm

Qua nội dung trớnh bỏy cõc bước xử lý chợnh, luận õn đọ xĩy dựng cõc module xử lý chạy trởn mừi trường đa luồng (Multithreading) giỷp tăng tốc độ xử lý trong qũ trớnh xõc định cặp đoạn sao chờp. Để kiểm tra kết quả của thuật tõn đề xuất, luận õn sử dụng độ đo gồm độ chợnh xõc (Prec), độ phủ (Rec) vỏ độ đo toỏn bộ hệ thống Plagdet.

Kết quả thử nghiệm được thể hiện trong Bảng 3.1. Trong bảng dưới, dúng “Entire” lỏ kết quả chạy dữ liệu trong toỏn bộ kho (4 tập dữ liệu trong kho Cheema vỏ 2 tập dữ liệu trong kho Alvi).

Bảng 3.1. Kết quả thử nghiệm

Với kết quả thể hiện trong Bảng 3.1 cho thấy giõ trị Gran=1 trởn toỏn bộ cõc kho ngữ liệu thử nghiệm chứng tỏ hệ thống đọ xõc định chợnh xõc cõc đoạn sao chờp thuộc tỏi liệu nguồn vỏ tỏi liệu sao chờp. Tuy nhiởn, xem xờt trởn mỗi kho ngữ liệu thử nghiệm cụ thể nhận thấy:

- Với kho ngữ liệu PAN 2013 cho độ chợnh xõc vỏ độ phủ cao (Prec = 83,44 vỏ Rec = 77,22) thể hiện hệ thống xõc định chợnh xõc đoạn văn bản sao chờp. Tuy nhiởn, đoạn văn bản tớm được xuất hiện sự dư thừa ở hai đầu đoạn.

Kho ngữ liệu Prec

(%) Rec (%) Gran Plagdet (%) PAN 2013 “summary” - Training corpus 80,15 77,22 1,0 78,66 “summary” - Testing corpus 83,44 77,01 1,0 80,10 Cheema 02-undergrad-in- progress 46,30 87,02 1,0 60,44 03-undergrad 44,07 74,27 1,0 55,30 04-masters 57,87 80,00 1,0 67,16 05-phd 36,96 88,72 1,0 52,18 Entire 44,57 82,81 1,0 57,95 Alvi 02-human-retelling 57,69 84,46 1,0 68,56 03-synonym- replacement 55,13 83,04 1,0 66,27 Entire 60,17 81,94 1,0 69,39

- Với hai kho ngữ liệu Cheema vỏ Alvi cho giõ trị độ phủ Rec cao xấp xỉ 80% nhưng độ chợnh xõc Prec khừng qũ 60%. Độ chợnh xõc Pre cỏng giảm thể hiện mức độ dư thừa ở hai đầu đoạn văn bản tớm được cỏng lớn.

b. So sõnh với cõc nghiởn cứu khõc

Để đõnh giõ mức độ hiệu quả trong kỹ thuật đề xuất, luận õn thực hiện so sõnh với cõc tiếp cận khõc trong cỳng lĩnh vực. Vớ trong cõc năm 2015 vỏ 2016 khừng cụ cừng bố liởn quan nởn luận õn thực hiện so sõnh với cõc kết quả cừng bố của PAN 2014. Kết quả được thể hiện trong Bảng 3.2 [118].

Bảng 3.2. Kết quả đọ cừng bố của Sanchez-Perez

Kết quả trong cõc bảng trởn cho thấy độ chợnh xõc rất cao nhưng độ phủ khõ thấp cho thấy trong giải phõp đề xuất của Sanchez-Perez đọ thực hiện loại bỏ phần lớn cõc cĩu nghi ngờ ở hai đầu đoạn (do đụ độ chợnh Pre xõc tăng) dẫn đến phõt hiện thiếu đoạn sao chờp (lỏ nguyởn nhĩn độ phủ Rec giảm). Trong phương phõp đề xuất của luận õn độ phủ Rec của phương phõp đề xuất cao hơn của tõc giả Sanchez-Perez nhưng độ chợnh xõc Pre thấp hơn, tuy nhiởn giõ trị Plagdet của kỹ thuật đề xuất cao hơn trong sõu trởn mười trường hợp của Sanchez-Perez. Điều nỏy cho thấy rằng giải phõp đề xuất phõt hiện hầu hết cõc trường hợp sao chờp vỏ

Kho ngữ liệu Prec

(%) Rec (%) Gran Plagdet (%) PAN 2013 “summary” - Training corpus 99,41 42,35 1,0435 57,61 “summary” - Testing corpus 99,90 41,58 1,0585 56,38 Cheema 02-undergrad-in- progress 84,40 64,91 1,0 73,38 03-undergrad 86,33 29,76 1,0 44,26 04-masters 99,61 25,95 1,0 41,17 05-phd 89,34 16,38 1,0 27,69 Entire 86,44 33,48 1,0 48,26 Alvi 02-human- retelling 94,99 59,61 1,0 73,25 03-synonym- replacement 96,86 85,95 1,0 91,08 Entire 96,07 72,78 1,0 82,82

sự cĩn đối giữa độ chợnh xõc vỏ độ phủ tốt hơn so với giải phõp của Sanchez- Perez. Kiểm tra đầu ra của hệ thống cho thấy, mặc dỳ một số kết quả phõt hiện

Đõnh giõ thử nghiệm trởn kho ngữ liệu PAN

Giới thiệu mạng nơ ron hồi quy RNN

Giới thiệu mạng LSTM xếp chồng