Trong bài viết này, trình bày một giải pháp xây dựng phần mềm để phát hiện đạo văn tiếng Việt dựa trên các bài toán xử lý ngôn ngữ tự nhiên tiếng Việt như tách câu, tách từ, gán nhãn từ loại, sinh tập từ khóa phục vụ cho việc phát hiện sự trùng lặp về nội dung, sản phẩm nghiên cứu phục vụ công tác quản lý đề tài khoa học quân sự.
Thông tin khoa học công nghệ Giải pháp xây dựng phần mềm phát đạo văn tiếng Việt đề tài nghiên cứu khoa học quân Hà Trung Hải1*, Trần Ngọc Anh2, Nguyễn Nhật An3, Lê Mạnh Cường4 Viện Công nghệ Thông tin, Viện Khoa học Công nghệ quân sự; Ban Khoa học quân sự, BTL 86; Viện Vật lý Y sinh học, Viện Khoa học Công nghệ quân sự; Cục Khoa học quân *Email: hatrunghai1982@gmail.com Nhận ngày 30/11/2022; Hoàn thiện ngày 10/01/2022; Chấp nhận đăng ngày 10/4/2022 DOI: https://doi.org/10.54939/1859-1043.j.mst.78.2022.166-169 TÓM TẮT Đạo văn vấn nạn môi trường nghiên cứu khoa học giáo dục đào tạo Với phát triển nhanh chóng Internet thiết bị Công nghệ thông tin, việc chép nội dung từ tài liệu khác vơ dễ dàng Người vi phạm có nhiều phương tiện để tìm kiếm ăn cắp nội dung hay ý tưởng người khác nghiên cứu ý tưởng gần có sẵn không gian mạng chia sẻ thư viện số, tạp chí Trong báo này, chúng tơi trình bày giải pháp xây dựng phần mềm để phát đạo văn tiếng Việt dựa tốn xử lý ngơn ngữ tự nhiên tiếng Việt tách câu, tách từ, gán nhãn từ loại, sinh tập từ khóa phục vụ cho việc phát trùng lặp nội dung, sản phẩm nghiên cứu phục vụ công tác quản lý đề tài khoa học quân Từ khóa: Đạo văn; Hệ thống chép; Xử lý ngôn ngữ tự nhiên tiếng Việt ĐẶT VẤN ĐỀ Hiện công tác quản lý nghiên cứu khoa học quân đội có quy định, chế tài nghiêm ngặt việc chép nội dung nghiên cứu khoa học, nhiên, để nâng cao chất lượng cơng tác nghiên cứu cần có cơng cụ hiệu để đánh giá, ngăn chặn hình thức đạo văn Qua nghiên cứu tìm hiểu thị trường có số phần mềm phát đạo văn ngôn ngữ thông dụng giới đặc biệt tiếng Anh Phần mềm kiểm tra đạo văn Plagiarism-checker.me [1], phần mềm Turnitin [2], cịn có số hệ thống phát đạo văn khác áp dụng thực tế iThenticate, Viper, Dupli checker, Copy leaks, Paperrater, Plagium, Plagiarisma, Plagscan [3, 4] Trong nước có số nhóm xây dựng triển khai phần mềm phát đạo văn cho văn tiếng việt như: Nhóm tác giả Trần Cao Đệ cộng [5] thuộc Đại học Cần Thơ xây dựng hệ thống phát đạo văn với sở liệu ban đầu 3.000 tài liệu; Sản phẩm Trường Đại học Công nghệ, Đại học quốc gia với tên gọi DoIT (Document improvement Tool)[6]; Phần mềm Coopy[7] Viện công nghệ thông tin Truyền thông/Đại học Bách khoa Hà Nội Tuy nhiên, phần mềm nước bên cạnh mức giá cao chưa có minh chứng làm việc tốt tiếng Việt, sản phẩm nước phải dùng trực tuyến việc thực kiểm tra chép tài liệu từ kho tài liệu internet, tức kiểm tra với tài liệu nguồn từ internet Trong đó, liệu cần kiểm tra đơn vị Quân đội kho liệu đóng nhóm tác giả trình bày phương pháp để xây dựng phần mềm phát đạo văn tiếng Việt sử dụng nguồn liệu đóng ứng dụng đơn vị quản lý đề tài Quân đội GIẢI PHÁP XÂY DỰNG PHẦN MỀM PHÁT HIỆN ĐẠO VĂN TIẾNG VIỆT Phần mềm xây dựng với mục đích kiểm tra phát đạo văn chép phát đạo văn ý tưởng Với liệu đầu vào file định dạng pdf định dạng word, hệ thống tự động kiểm tra kho sở liệu đóng phát tài liệu bị chép, hiển thị kết lên cho người dùng 166 H T Hải, …, L M Cường, “Giải pháp xây dựng phần mềm phát … khoa học quân sự.” Thông tin khoa học công nghệ 2.1 Kiến trúc thành phần hệ thống phần mềm MÁY CHỦ CSDL Người dùng Hệ thống phần mềm phát đạo văn Dịch vụ XLNNTN tiếng việt Kho ngữ liệu tiếng việt Web browse Hình Kiến trúc thành phần hệ thống phần mềm Hệ thống phần mềm phát đạo văn bao gồm thành phần sau: - Cơ sở liệu: Bao gồm sở liệu lưu toàn thông tin hệ thống phần mềm phát đạo văn liệu người dùng phép khai thác phần mềm; liệu tài liệu đề tài nhiệm vụ khoa học - Kho ngữ liệu tiếng Việt: Chính kho ngữ liệu tri thức văn tiếng Việt, từ điển tiếng Việt xử lý phục vụ cho lớp dịch vụ xử lý ngôn ngữ tự nhiên - Hệ thống phần mềm: gồm chức cho phép người dùng mở rộng kho liệu đóng, chức kiểm tra phát đạo văn - Dịch vụ xử lý ngôn ngữ tự nhiên tiếng Việt: Là lớp dịch vụ chạy ngầm cung cấp module XLNN phục vụ cho việc tiền xử lý liệu, phát đạo văn chép, đạo văn ý tưởng 2.2 Quy trình tiền xử lý liệu tạo lập kho sở liệu Phần chúng tơi trình bày chi tiết bước thực để xây dựng kho liệu, liệu lưu trữ tiền xử lý để tăng tốc độ tìm kiếm phát đạo văn Hình Quy trình tiền xử lý tạo lập kho sở liệu Ngoài liệu chung file tài liệu Tên đề tài (tiêu đề), tác giả, ngày tháng năm công bố tài liệu, lĩnh vực đề tài, mục tiêu đề tài, nội dung nghiên cứu đề tài cần lưu trữ liệu tiền xử lý phục vụ cho toán phát đạo văn Dữ liệu lưu kho bao gồm danh sách câu, văn gán nhãn từ loại loại bỏ hư từ, tập từ khóa văn véc tơ thực từ Tạp chí Nghiên cứu KH&CN quân sự, Số 78, - 2022 167 Thông tin khoa học cơng nghệ 2.3 Quy trình xây dựng chức phát đạo văn Phần chúng tơi trình bày bước để tiến hành phát đạo văn chép đạo văn ý tưởng Hình Quy trình phát đạo văn Giải thích quy trình: + File tài liệu cần kiểm tra trích rút liệu văn bản/ dạng text làm đầu vào cho lớp tiền xử lý liệu để kết đầu gồm: (1) tập từ khóa tài liệu (2) danh sách câu tài liệu (3) véc tơ thực từ tài liệu + Tập từ khóa tài liệu sử dụng để thu hẹp phạm vi tìm kiếm kho sở liệu, dựa tập từ khóa tài liệu tiền xử lý kho sở liệu + Danh sách câu tài liệu sử dụng để đối sánh với tài liệu danh sách tài liệu gốc (đã thu hẹp phạm vi tìm kiếm) để phát đạo văn chép + Vecto thực từ tài liệu sử dụng để đánh giá với véc tơ thực từ tài liệu danh sách tài liệu gốc (đã thu hẹp phạm vi tìm kiếm) để phát đạo văn ý tưởng 2.4 Giao diện số chức phần mềm Người dùng chọn file liệu đầu vào thuộc đề xuất, thuyết minh hay kết nghiên cứu Sau liệu trích rút dạng văn tự động đưa vào trường liệu, tiền xử lý liệu vào lưu vào kho sở liệu Kết hiển thị phía bên trái file liệu cần kiểm tra; bên phải danh sách tài liệu có phát bị đạo văn độ đạo văn Khi người dùng chọn đến tài liệu nguồn tài liệu kiểm tra bơi màu vàng đoạn văn có phát đạo văn Hình Giao diện chức xây dựng kho sở liệu 168 H T Hải, …, L M Cường, “Giải pháp xây dựng phần mềm phát … khoa học quân sự.” Thông tin khoa học cơng nghệ Hình Giao diện chức kiểm tra đạo văn KẾT LUẬN Bài báo trình bày phương pháp tiếp cận để phát triển hệ thống phần mềm phát đạo văn gồm đạo văn chép đạo văn ý tưởng sử dụng tốn xử lý ngơn ngữ tự nhiên chuyên sâu tách câu, tách từ, gán nhãn từ loại, loại bỏ hư từ, tạo véc tơ thực từ để tiền xử lý liệu, thu hẹp phạm vi tìm kiếm qua tăng tốc độ tìm kiếm Phần mềm đưa vào chạy thử nghiệm Cục khoa học Quân sự/Bộ Quốc phòng TÀI LIỆU THAM KHẢO [1] Plagiarism-checker, Website https://Plagiarism-checker.me [2] Turnitin, https://www.turnitin.com/ [3] Naik, Ramesh R., Maheshkumar B Landge, and C Namrata Mahender "A review on plagiarism detection tools." International Journal of Computer Applications 125.11 (2015) [4] Ali, Asim M El Tahir, Hussam M Dahwa Abdulla, and Vaclav Snasel "Overview and Comparison of Plagiarism Detection Tools." Dateso 2011 [5] De, T C "Developing plagiarism detection system for Vietnamese University." 12th Vietnam—Japan International Joint Symposium, Can Tho 2014 [6] DoIt, http://doit.uet.vnu.edu.vn/ [7] Coopy, http://coopy.soict.ai/ ABSTRACT Solutions building software detecting Vietnamese plagiarism in military science research topics Plagiarism is currently one of the problems in scientific research, education, and the training environment With the rapid development of the Internet and Information Technology devices, it is effortless to copy content from other documents Violators have many means to find and steal other people's content or ideas because the research and ideas are almost readily available in data warehouses, libraries, etc In this paper, we will present a model to build software to detect Vietnamese plagiarism based on Vietnamese natural language processing problems such as sentence separation, word separation, word classification, generation of words, etc serve to detect duplication of research content and products for the management of military science topics Keywords: Plagiarism; Natural language Vietnamese processing Tạp chí Nghiên cứu KH&CN quân sự, Số 78, - 2022 169 ... M Cường, ? ?Giải pháp xây dựng phần mềm phát … khoa học quân sự. ” Thông tin khoa học cơng nghệ Hình Giao diện chức kiểm tra đạo văn KẾT LUẬN Bài báo trình bày phương pháp tiếp cận để phát triển... chí Nghiên cứu KH&CN quân sự, Số 78, - 2022 167 Thông tin khoa học công nghệ 2.3 Quy trình xây dựng chức phát đạo văn Phần chúng tơi trình bày bước để tiến hành phát đạo văn chép đạo văn ý tưởng... thành phần hệ thống phần mềm Hệ thống phần mềm phát đạo văn bao gồm thành phần sau: - Cơ sở liệu: Bao gồm sở liệu lưu toàn thông tin hệ thống phần mềm phát đạo văn liệu người dùng phép khai thác phần