4.2.1 Đề xuất ý tưởng
Trong thực tế, để phõt huy hiệu quả phõt hiện sao chờp hầu hết cõc cõc hệ thống phõt hiện sao chờp trởn thế giới đều tập trung vỏo việc xĩy dựng một CSDL lớn. Vợ dụ như cơ sở dữ liệu của phần mềm Turnitin bao gồm hơn 70 tỷ trang web, 47 nghớn tạp chợ, 69 triệu bỏi bõo, liởn kết với hơn 1,7 nghớn tạp chợ trởn thế giới (nguồn: https://www.turnitin.com/about/content). Với một tỏi liệu đầu vỏo cần kiểm tra, cõc hệ thống sẽ thực hiện truy vấn trong CSDL vỏ chỉ ra cõc đoạn cụ khả năng sao chờp vỏ tỷ lệ sao chờp từ mỗi nguồn (sao chờp từ Internet, bỏi bõo, luận văn, đồ õn tốt nghiệp,…). Hay nụi cõch khõc, hiệu quả của việc phõt hiện sao chờp phụ thuộc rất nhiều vỏo độ lớn của CSDL mỏ chỷng tham chiếu tới.
Trong mừi trường học thuật, cõc nhỏ nghiởn cứu quan tĩm nhiều hơn đến hiệu quả của cõc thuật tõn phõt hiện sao chờp thể hiện ở cõc độ đo như độ chợnh xõc (precision), độ phủ (recall) hay thời gian tợnh tõn của cõc đề xuất. Như đọ trớnh bỏy trong mục 1.5.2.2, để xõc định được cõc độ đo nỏy cõc kho ngữ liệu thử nghiệm phải chứa thừng tin dữ liệu mẫu lỏ cõc cặp đoạn sao chờp vỏ sử dụng thừng tin nỏy so sõnh với kết quả sao chờp thu được từ cõc thuật tõn.
Thế giới đọ cụ nhiều kho ngữ liệu phục vụ cho cõc bỏi tõn phõt hiện sao chờp. Năm 2001, Gaizauskas vỏ cộng sự [44] đọ xĩy dựng thủ cừng kho ngữ liệu phõt hiện đoạn sao chờp từ 1.716 tỏi liệu. Trong phương phõp nỏy tõc giả thực hiện phĩn tợch từng tỏi liệu vỏ xõc định một tỏi liệu bị sao chờp theo ba cấp độ: sao chờp hoỏn toỏn, sao chờp một phần vỏ khừng sao chờp. Zu Eissen vỏ cộng sự [148] đọ xĩy dựng kho ngữ liệu phõt hiện đoạn sao chờp từ cõc bỏi bõo khoa học bằng cõch
chộn cõc đoạn từ tỏi liệu nguồn vỏo tỏi liệu sao chờp để tạo ra một trường hợp sao chờp. Cải tiến phương phõp của Zu Eissen, năm 2009, Potthast vỏ cộng sự [39] đọ cừng bố phương phõp xĩy dựng kho ngữ liệu phõt hiện đoạn sao chờp phục vụ cho cuộc thi PAN lần thứ nhất. Trong đề xuất nỏy tõc giả đọ thực hiện một số sự biến đổi đoạn văn bản nguồn như thay đổi vị trợ cõc từ, xụa hoặc thay thế cõc từ bằng cõc từ đồng nghĩa hoặc dịch từ một ngừn ngữ khõc trước khi chộn vỏo văn bản sao chờp. Phục vụ cho việc sao chờp ở mức cĩu, Dolan vỏ cộng sự [36] đọ xĩy dựng kho ngữ liệu gồm 6.000 cặp cĩu được thu thập từ nguồn Internet. Mỗi cặp cĩu sẽ được gõn một trong hai trạng thõi lỏ paraphrase/none-paraphrase (paraphrase lỏ cõch viết lại một cĩu hay một đoạn văn bằng cõch sử dụng những từ ngữ khõc nhưng vẫn phải giữ được ý nghĩa gốc của cĩu hay đoạn văn [159]).
Việc sao chờp nguyởn văn cụ thể dễ dỏng nhận ra bằng mắt thường hoặc cõc thuật tõn so khớp chuỗi đơn giản. Tuy nhiởn, trong thực tế việc sao chờp cụ sự biến đổi xảy ra thường xuyởn hơn vỏ rất khụ phõt hiện bằng phương phõp thủ cừng hay cõc thuật tõn so khớp chuỗi. Phương phõp đề xuất của tõc giả Gaizauskas [44] cụ hạn chế lỏ khừng tạo ra được cõc trường hợp sao chờp một cõch tường minh mỏ dựa trởn nhận định của người phĩn tợch. Phương phõp đề xuất của Potthast [39] tạo ra cõc trường hợp sao chờp sõt với thực tế hơn, tuy nhiởn sẽ thiếu tợnh logic nếu chộn đoạn văn bản sao chờp vỏo vị trợ bất kỳ trong tỏi liệu nghi ngờ sao chờp dẫn đến việc một cĩu hay một từ bị cắt đừi. Sử dụng kỹ thuật
paraphrase cho phờp tạo ra một đoạn văn bản đồng nghĩa với văn bản đầu vỏo. Đĩy được xem lỏ một giải phõp khả thi để tạo ra đoạn văn bản sao chờp sõt với cõc tớnh huống sao chờp trong thực tế. Tuy nhiởn, khi tạo một kho ngữ liệu lớn bằng paraphrase thủ cừng sẽ yởu cầu chi phợ lớn về mặt thời gian vỏ nhĩn lực.
Hiện nay, chưa cụ cừng bố nỏo về kho ngữ liệu sử dụng cho bỏi tõn phõt hiện sao chờp văn bản tiếng Việt. Việc thu thập cõc tỏi liệu sao chờp từ cõc nguồn khõc vỏ cõc nguồn bị tỏi liệu đụ sao chờp lỏ rất khụ vỏ khừng khả thi. Vớ vậy, để đạt được cõc mục tiởu đặt ra của luận õn một nhiệm vụ quan trọng lỏ xĩy dựng kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt. Nội dung đề xuất được trớnh bỏy
trong mục 4.2.2.