Kết quả, đõnh giõ kho ngữ liệu

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 118 - 119)

4 2 3 1 Kết quả

Sau bước tiền xử lý dữ liệu thu được 440 tỏi liệu thuần thuộc 14 lĩnh vực Qua bước phĩn cụm thứ nhất thu được 14 cụm tỏi liệu Tiếp tục thực hiện phĩn cụm với cõc cụm cụ nhiều hơn 15 tỏi liệu luận õn thu được tổng số 54 cụm tỏi liệu Bảng 4 4 mừ tả kết quả thu được

Bảng 4 4 Thống kở kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt

Thống kở theo tỏi liệu

Tổng số tỏi liệu thu thập được: 440

Số tỏi liệu nguồn (để lấy cõc đoạn phục vụ sao chờp): 227

Số tỏi liệu sao chờp được tạo ra: 3 666

Thống kở theo trường hợp sao chờp

Số trường hợp sao chờp:

- Sao chờp nguyởn văn: 1 222

- Thay thế từ đồng nghĩa: 1 222

- Dịch Việt-Anh, Anh-Việt: 1 222

Thống kở theo độ dỏi đoạn sao chờp

Số đoạn sao chờp ngắn: 64 %

Số đoạn sao chờp trung bớnh: 22 %

Kho ngữ liệu xĩy dựng trong chương nỏy được sử dụng để đõnh giõ cõc phương phõp phõt hiện đoạn sao chờp tiếng Việt Nội dung thực nghiệm kho ngữ liệu cho cõc thuật tõn phõt hiện đoạn sao chờp văn bản tiếng Việt được trớnh bỏy trong mục 4 4 của luận õn

4 2 3 2 Đõnh giõ

Kho ngữ liệu tiếng Việt tạo ra gồm 1 222 trường hợp sao chờp trởn mỗi kho tương đương hoặc lớn hơn cõc kho ngữ liệu thử nghiệm phổ biến hiện nay (PAN 2013 cụ 1 000 trường hợp sao chờp trởn mỗi kho, PAN 2014 cụ 1 600 trường hợp sao chờp trởn mỗi kho) Bởn cạnh đụ, cõc bước trong quy trớnh tạo kho ngữ liệu được lập trớnh bằng cõc mừ đun phần mềm nởn cụ khả năng tỳy biến vỏ bổ sung thởm cõc trường hợp sao chờp một cõch dễ dỏng Việc lựa chọn đoạn văn bản nguồn vỏ vị trợ chộn đoạn trong văn bản sao chờp một cõch ngẫu nhiởn sẽ tạo ra cõc trường hợp sao chờp khừng bị trỳng lặp sau mỗi lần chạy, vỏ do đụ, tạo ra cõc kho ngữ liệu khõc nhau sau mỗi lần chạy thuật tõn

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 118 - 119)