Để đõnh giõ hiệu quả của cõc đề xuất vỏ so sõnh hiệu quả với cõc cừng trớnh nghiởn cứu tương tự, luận õn sử dụng phương phõp đõnh giõ đang được nhiều tõc giả sử dụng cho hai bỏi tõn thỏnh phần Cõc độ đo sử dụng trong bỏi tõn trợch rỷt từ khụa vỏ xõc định đoạn văn bản sao chờp gồm độ chợnh xõc (Precision), độ phủ (Recall), vỏ độ đo tổng hợp (F-score) Ngoỏi cõc độ đo trởn, cuộc thi PAN về đạo văn lần thứ nhất [39] đọ đề xuất thởm hai độ đo lỏ độ chợnh xõc đoạn văn bản tớm được (Granularity) vỏ độ đo toỏn bộ hệ thống (Plagdet) để đõnh giõ hiệu quả của cõc đề xuất phõt hiện đoạn văn bản sao chờp
1 5 2 1 Đõnh giõ độ chợnh xõc của hệ thống trợch rỷt từ khụa
Để kiểm tra kết quả trợch rỷt từ khụa cho một tỏi liệu luận õn sử dụng cõc phờp đo tợnh tõn hiệu năng như: Precision, Recall, F-score
Giả sử gọi S vỏ D lần lượt lỏ tập từ khụa thu được từ mừ hớnh dự đõn vỏ tập từ khụa thực tế Mối quan hệ giữa S vỏ D thể hiện như Hớnh 1 8
S S vỏ D D
Kho văn bản
Hớnh 1 8 Mối quan hệ giữa S vỏ D
Như vậy, cõc từ khụa nằm trong cả hai tập hợp sẽ lỏ ∩ DЅ Cõc độ đo cơ bản để đõnh giõ hiệu năng được tợnh như sau [79]:
- Độ chợnh xõc (Precision)
- Độ phủ (Recall)
������ = | �| ∩ |� | (1 9)
Để cĩn đối giữa hai độ đo Precision vỏ Recall, cụ một độ đo khõc cũng thường được sử dụng lỏ F-score được xĩy dựng dựa trởn hai độ đo Precision vỏ
Recall
� − ����� = 2 ∗ ����� � Ứ ������ ���
+ (1 10)
Khi đõnh giõ độ chợnh xõc của hệ thống trởn toỏn bộ kho ngữ liệu thử nghiệm, cõc giõ trị Precision, Recall vỏ F-score với toỏn bộ kho bằng giõ trị trung bớnh của mỗi hệ số tương ứng
1 5 2 2 Đõnh giõ độ chợnh xõc của hệ thống phõt hiện đoạn sao chờp
Để đõnh giõ độ chợnh xõc của hệ thống phõt hiện đoạn sao chờp, luận õn tiếp tục sử dụng cõc độ đo do PAN đề xuất gồm Precision, Recall vỏ F-measure
(tương tự như F-score) Ngoỏi ra, PAN đọ đề xuất thởm hai độ đo lỏ Granularity
vỏ Plagdet Độ đo Granularity thực hiện ở mức đoạn để đõnh giõ độ chợnh xõc của cõc đoạn tớm được Plagdet lỏ độ đo quan trọng nhất để đõnh giõ hiệu quả của toỏn bộ hệ thống Plagdet được xõc định dựa trởn sự kết hợp độ đo Granularity vỏ F-measure
Một trường hợp sao chờp được định nghĩa bởi một bộ 4 tham số chứa vị trợ đầu vỏ cuối của hai đoạn, một đoạn nằm trong tỏi liệu nghi ngờ dplg vỏ một đoạn nằm trong tỏi liệu nguồn dscr, như sau:
� = < ��� , � , ��� , > (1 11) Cho tập S, R lần lượt lỏ tập cõc trường hợp hợp sao chờp theo thực tế vỏ tập cõc trường hợp sao chờp do hệ thống phõt hiện s, r lỏ một trường hợp sao chờp theo thực tế vỏ một trường hợp sao chờp do hệ thống phõt hiện được Khi đụ cõc độ đo được xõc định như sau:
����(�, �) = |�1| Ứ∑
�∈�
| ∪
�∈ � ( ∩ )|
���(, ) = |�1| Ứ∑ ∈ | ∪ ∈ ( ∩ )| || (1 13) Trong đụ: (, ) = 1 | | Ứ ∑ | | ∈ (1 14)
- SR ⊆ S lỏ cõc trường hợp sao chờp được phõt hiện bởi cõc trường hợp trong
R, vỏ RS ⊆ R lỏ cõc trường hợp sao chờp được phõt hiện bởi mỗi trường hợp s
- ∩ : phần văn bản chung nhau giữa hai đoạn
Plagdet vỏ F-measure được xõc định theo cừng thức 1 15, 1 16 như sau:
2 Ứ Ứ 1 (, ) = Ứ + 2(1 + (, )) 2 Ứ Ứ − = + (1 15) (1 16)