Cõc hướng tiếp cận phõt hiện sao chờp trong nước

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 45 - 46)

Ở Việt Nam chưa cụ nhiều cừng bố về bỏi tõn phõt hiện sao chờp. Một số ợt cừng trớnh nghiởn cứu liởn quan đến bỏi tõn nỏy gồm:

Nghiởn cứu của Nguyễn Lương Hiền vỏ Nguyễn Thị Oanh [68] đề xuất phương phõp phõt hiện sao chờp từng phần của tỏi liệu dựa trởn cõc phương phõp dỳng trong SCAM vỏ PPCHECKER. Theo cõc tõc giả, phương phõp đề xuất cụ tốc độ nhanh hơn PPCHECKER 16 lần vỏ phõt hiện cõc trường hợp sao chờp từng phần tốt hơn. Tuy nhiởn, nghiởn cứu nỏy vẫn nằm trong phạm vi thử nghiệm, chỉ sử dụng tập dữ liệu nhỏ lỏ cõc bỏi tập lớn của mừn Xử lý ảnh.

Học viện An ninh Nhĩn dĩn đọ tự xĩy dựng phần mềm Phõt hiện sao chờp đề tỏi khoa học, luận văn, triển khai từ 1/2016, sử dụng thuật tõn so khớp từ để tớm cõc tỏi liệu tương đồng. Phần mềm nỏy sử dụng kho ngữ liệu của Khoa đỏo tạo Sau đại học với 2.500 tởn đề tỏi vỏ 900 dữ liệu toỏn văn. Hiện nay, Học viện An ninh Nhĩn dĩn tiếp tục nĩng cấp phần mềm vỏ bổ sung CSDL phục vụ để hỗ trợ cừng tõc quản lý ĐATN vỏ luận văn cao học. Trong một thời điểm chỉ cụ một người cụ thể truy cập hệ thống. Khi cụ một tỏi liệu đầu vỏo, hệ thống sẽ so khớp cõc n-gram của tỏi liệu đụ với tất cả cõc tỏi liệu lưu trong hệ thống để tớm ra cõc tỏi liệu giống nhất. Cõch lỏm nỏy khừng khả thi khi số lượng tỏi liệu lưu trữ trong hệ thống lớn vỏ lượng truy cập lớn. Khi kiểm tra xong, hệ thống trả về giao diện gồm tỏi liệu hiện tại đi kộm tỏi liệu giống nhất, nhưng khừng lưu trữ lại kết quả cho mục đợch tham khảo lại sau nỏy.

Nhụm tõc giả Trần Cao Đệ vỏ cõc cộng sự [33] đọ xĩy dựng phần mềm phõt hiện sao chờp dựa trởn kết quả nghiởn cứu của Kasprzak [61] vỏ cơ chế xử lý song song JPPF (Java Parallel Processing Framework) nhằm giảm thời gian xử lý. Cõch tiếp cận sử dụng so khớp từ để tớm cõc đoạn sao chờp. CSDL sử dụng trong hệ thống gồm 3.000 tỏi liệu của trường Đại học Cần Thơ.

Mừ đul Kiểm tra trỳng lặp văn bản trong Hệ thống hỗ trợ nĩng cao chất lượng tỏi liệu của Đại học Cừng nghệ (doIT) [157] thực hiện kiểm trỳng văn bản

ở mức cĩu. Cơ sở dữ liệu của hệ thống gồm trởn 2 triệu trang web vỏ 20.000 tỏi liệu khoa học lỏ cõc ĐATN, luận văn, luận õn.

Trong những năm gần đĩy, việc sử dụng mạng nơ ron học sĩu giải quyết một số bỏi tõn tiếng Việt như tụm tắt văn bản, trợch rỷt thừng tin đang được nhiều nhỏ khoa học trong nước quan tĩm nghiởn cứu. Tõc giả Lưu Minh Tuấn vỏ cộng sự [3],[69] đọ đề xuất mừ hớnh mạng nơ ron tợch chập CNN kết hợp với kỹ thuật học tăng cường vỏ mừ hớnh BERT cho bỏi tõn tụm tắt văn bản hướng trợch rỷt. Tõc giả Nguyễn Quốc Việt vỏ cộng sự [111] sử dụng mừ hớnh mạng nơ ron học sĩu LSTM cho bỏi tõn tụm tắt văn bản dỏi tiếng Việt.

Nhận xờt: Số lượng cõc cừng trớnh nghiởn cứu cho bỏi tõn phõt hiện sao chờp tiếng Việt chưa nhiều. Bởn cạnh đụ, xu hướng sử dụng cõc mừ hớnh học sĩu cho bỏi tõn xử lý văn bản tiếng Việt đang nhận được nhiều sự quan tĩm của cõc nhỏ nghiởn cứu trong nước.

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 45 - 46)

Tải bản đầy đủ (PDF)

(173 trang)