4.2.3.1 Kết quả
Sau bước tiền xử lý dữ liệu thu được 440 tỏi liệu thuần thuộc 14 lĩnh vực. Qua bước phĩn cụm thứ nhất thu được 14 cụm tỏi liệu. Tiếp tục thực hiện phĩn cụm với cõc cụm cụ nhiều hơn 15 tỏi liệu luận õn thu được tổng số 54 cụm tỏi liệu. Bảng 4.4 mừ tả kết quả thu được.
Bảng 4.4. Thống kở kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt
Thống kở theo tỏi liệu
Tổng số tỏi liệu thu thập được: 440
Số tỏi liệu nguồn (để lấy cõc đoạn phục vụ sao chờp): 227
Số tỏi liệu sao chờp được tạo ra: 3.666
Thống kở theo trường hợp sao chờp
Số trường hợp sao chờp:
- Sao chờp nguyởn văn: 1.222
- Thay thế từ đồng nghĩa: 1.222
- Dịch Việt-Anh, Anh-Việt: 1.222
Thống kở theo độ dỏi đoạn sao chờp
Số đoạn sao chờp ngắn: 64 %
Số đoạn sao chờp trung bớnh: 22 %
Kho ngữ liệu xĩy dựng trong chương nỏy được sử dụng để đõnh giõ cõc phương phõp phõt hiện đoạn sao chờp tiếng Việt. Nội dung thực nghiệm kho ngữ liệu cho cõc thuật tõn phõt hiện đoạn sao chờp văn bản tiếng Việt được trớnh bỏy trong mục 4.4 của luận õn.
4.2.3.2 Đõnh giõ
Kho ngữ liệu tiếng Việt tạo ra gồm 1.222 trường hợp sao chờp trởn mỗi kho tương đương hoặc lớn hơn cõc kho ngữ liệu thử nghiệm phổ biến hiện nay
(PAN 2013 cụ 1.000 trường hợp sao chờp trởn mỗi kho, PAN 2014 cụ 1.600 trường hợp sao chờp trởn mỗi kho). Bởn cạnh đụ, cõc bước trong quy trớnh tạo
kho ngữ liệu được lập trớnh bằng cõc mừ đun phần mềm nởn cụ khả năng tỳy biến vỏ bổ sung thởm cõc trường hợp sao chờp một cõch dễ dỏng. Việc lựa chọn đoạn văn bản nguồn vỏ vị trợ chộn đoạn trong văn bản sao chờp một cõch ngẫu nhiởn sẽ tạo ra cõc trường hợp sao chờp khừng bị trỳng lặp sau mỗi lần chạy, vỏ do đụ, tạo ra cõc kho ngữ liệu khõc nhau sau mỗi lần chạy thuật tõn.