Để đõnh giõ hiệu quả của cõc đề xuất vỏ so sõnh hiệu quả với cõc cừng trớnh nghiởn cứu tương tự, luận õn sử dụng phương phõp đõnh giõ đang được nhiều tõc giả sử dụng cho hai bỏi tõn thỏnh phần. Cõc độ đo sử dụng trong bỏi tõn trợch rỷt từ khụa vỏ xõc định đoạn văn bản sao chờp gồm độ chợnh xõc (Precision), độ phủ (Recall), vỏ độ đo tổng hợp (F-score). Ngoỏi cõc độ đo trởn, cuộc thi PAN về đạo văn lần thứ nhất [39] đọ đề xuất thởm hai độ đo lỏ độ chợnh xõc đoạn văn bản tớm được (Granularity) vỏ độ đo toỏn bộ hệ thống (Plagdet) đểđõnh giõ hiệu quả của cõc đề xuất phõt hiện đoạn văn bản sao chờp.
1.5.2.1 Đõnh giõ độ chợnh xõc của hệ thống trợch rỷt từ khụa
Để kiểm tra kết quả trợch rỷt từ khụa cho một tỏi liệu luận õn sử dụng cõc phờp đo tợnh tõn hiệu năng như: Precision, Recall, F-score.
Giả sử gọi S vỏ D lần lượt lỏ tập từ khụa thu được từ mừ hớnh dự đõn vỏ tập từ khụa thực tế. Mối quan hệ giữa S vỏ D thể hiện như Hớnh 1.8.
Hớnh 1.8. Mối quan hệ giữa S vỏ D
Như vậy, cõc từ khụa nằm trong cả hai tập hợp sẽ lỏ Ѕ ∩ D. Cõc độ đo cơ bản để đõnh giõ hiệu năng được tợnh như sau [79]:
- Độ chợnh xõc (Precision) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = |𝑆 ∩ 𝐷| |𝑆| (1.8) D S S vỏ D Kho văn bản
- Độ phủ (Recall)
𝑅𝑒𝑐𝑎𝑙𝑙 = |𝑆 ∩ 𝐷|
|𝐷| (1.9)
Để cĩn đối giữa hai độ đo Precision vỏ Recall, cụ một độ đo khõc cũng thường được sử dụng lỏ F-score được xĩy dựng dựa trởn hai độ đo Precision vỏ
Recall.
𝐹 − 𝑠𝑐𝑜𝑟𝑒 = 2 ∗𝑟𝑒𝑐𝑎𝑙𝑙 Ứ 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
𝑟𝑒𝑐𝑎𝑙𝑙 + 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (1.10)
Khi đõnh giõ độ chợnh xõc của hệ thống trởn toỏn bộ kho ngữ liệu thử nghiệm, cõc giõ trị Precision, Recall vỏ F-score với toỏn bộ kho bằng giõ trị trung bớnh của mỗi hệ số tương ứng.
1.5.2.2 Đõnh giõ độ chợnh xõc của hệ thống phõt hiện đoạn sao chờp
Để đõnh giõ độ chợnh xõc của hệ thống phõt hiện đoạn sao chờp, luận õn tiếp tục sử dụng cõc độ đo do PAN đề xuất gồm Precision, Recall vỏ F-measure
(tương tự như F-score). Ngoỏi ra, PAN đọ đề xuất thởm hai độ đo lỏ Granularity
vỏ Plagdet. Độ đo Granularity thực hiện ở mức đoạn để đõnh giõ độ chợnh xõc của cõc đoạn tớm được. Plagdet lỏ độ đo quan trọng nhất để đõnh giõ hiệu quả của toỏn bộ hệ thống. Plagdet được xõc định dựa trởn sự kết hợp độ đo Granularity vỏ F-measure.
Một trường hợp sao chờp được định nghĩa bởi một bộ 4 tham số chứa vị trợ đầu vỏ cuối của hai đoạn, một đoạn nằm trong tỏi liệu nghi ngờ dplg vỏ một đoạn nằm trong tỏi liệu nguồn dscr, như sau:
𝑠 = < 𝑠𝑝𝑙𝑔, 𝑑𝑝𝑙𝑔, 𝑠𝑠𝑐𝑟, 𝑑𝑠𝑐𝑟 > (1.11) Cho tập S, R lần lượt lỏ tập cõc trường hợp hợp sao chờp theo thực tế vỏ tập cõc trường hợp sao chờp do hệ thống phõt hiện. s, r lỏ một trường hợp sao chờp theo thực tế vỏ một trường hợp sao chờp do hệ thống phõt hiện được. Khi đụ cõc độ đo được xõc định như sau:
𝑝𝑟𝑒𝑐(𝑆, 𝑅) = 1 |𝑅|Ứ ∑ | ∪𝑠∈𝑆 (𝑠 ∩ 𝑟)| |𝑟| 𝑟∈𝑅 (1.12)
𝑟𝑒𝑐(𝑆, 𝑅) = 1 |𝑆|Ứ ∑ | ∪𝑟∈𝑅 (𝑠 ∩ 𝑟)| |𝑠| 𝑠∈𝑆 (1.13) 𝑔𝑟𝑎𝑛(𝑆, 𝑅) = 1 |𝑆𝑅|Ứ ∑ |𝑅𝑆| 𝑠∈𝑆𝑅 (1.14) Trong đụ:
- SR S lỏ cõc trường hợp sao chờp được phõt hiện bởi cõc trường hợp trong
R, vỏ RS R lỏ cõc trường hợp sao chờp được phõt hiện bởi mỗi trường hợp s. - 𝑠 ∩ 𝑟: phần văn bản chung nhau giữa hai đoạn
Plagdet vỏ F-measure được xõc định theo cừng thức 1.15, 1.16 như sau:
𝑃𝑙𝑎𝑔𝑑𝑒𝑡(𝑆, 𝑅) = 2 Ứ 𝑝𝑟𝑒𝑐 Ứ 𝑟𝑒𝑐 𝑝𝑟𝑒𝑐 + 𝑟𝑒𝑐 Ứ 1 𝑙𝑜𝑔2(1 + 𝑔𝑟𝑎𝑛(𝑆, 𝑅)) (1.15) 𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 = 2 Ứ 𝑝𝑟𝑒𝑐 Ứ 𝑟𝑒𝑐 𝑝𝑟𝑒𝑐 + 𝑟𝑒𝑐 (1.16)