GH N ,D HQ DoIT - HỆ TH́NG KIỂM TRA TRÙNG LẶP VĂN BẢN, NÂNG CAO CHẤT LƯỢNG TÀI LIỆU HỌC TẬP VÀ NGHIÊN CỨU CHO CÁC TRƯỜNG ĐẠI HỌC VIỆT NAM ien Võ Đình Hiếu* Lê Bá Lâm** tin Th uv Tóm tắt: Bài báo giới thiệu DoIT - hệ thống hỗ trợ nâng cao chất lượng tài liệu tiếng Việt Hai chức DoIT kiểm lỗi tả phát trùng lặp văn So với phần mềm nước ngoài, DoIT có số ưu điểm, đặc biệt liên quan đến xử lý tiếng Việt DoIT hệ thống triển khai số đơn vị đào tạo có phản hồi tích cực Từ khóa: Tiếng Việt; Đạo văn; Chính tả ng Giới thiệu Th o Sự phát triển công nghệ thông tin mang lại nhiều đột phá sống người Trong lĩnh vực giáo dục, máy tính Internet giúp cho người dạy người học tiếp cận nhiều nguồn thông tin, nhiều công cụ phục vụ cho việc dạy học Tr un gt am Hiện nay, nhiều trường đại học giới sử dụng hệ thống ứng dụng để hỗ trợ cho việc kiểm tra đánh giá văn tạo người học (bao gồm tập lớn đồ án, khóa luận, luận văn,…) Những hệ thống thường có chức kiểm tra lỗi tả, ngữ pháp, định dạng văn chức kiểm tra xem nội dung văn có trùng với nội dung tài liệu cơng bố trước hay khơng (chống chép) Ví dụ, * Tiến sĩ, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội ** Thạc sĩ, Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội thư viện thông minh 4.0 công nghệ - liệu - người 208 GH N cho hệ thống bao gồm TurnItIn*1 Unicheck**2 Tuy nhiên, hệ thống chủ yếu phục vụ cho tài liệu viết tiếng Anh có thu phí sử dụng cao uv ien ,D HQ Trong nước, vấn đề chất lượng khóa luận, luận văn luận án đề cập nhiều thời gian vừa qua, đặc biệt vấn đề đạo văn (Thảo, 2018a, 2018b) Với mục đích nâng cao chất lượng đồ án, khóa luận, luận văn người học nói riêng chất lượng giáo dục đào tạo nói chung, nhóm tác giả Trường Đại học Công nghệ, ĐHQGHN xây dựng hệ thống trực tuyến DoIT (Document Improvement Tool)***hỗ trợ kiểm tra lỗi tả kiểm tra trùng lặp văn Hệ thống triển khai số đơn vị đào tạo nhận nhiều phản hồi tích cực tin Th Bài nghiên cứu giới thiệu tổng quan hệ thống DoIT Phần giới thiệu kiến trúc chức hệ thống Tiếp đó, báo trình bày phương án hệ thống triển khai trước nêu lên ưu điểm DoIT Kiến trúc hệ thống Giao diện Web Th o ng 2.1 Kiến trúc un Tr Crawler Kiểm lỗi tả Kiểm tra trùng lặp Tiền xử lý Hậu xử lý gt am Quản lý hệ thống Dịch vụ Web Đánh mục Apache Solr Database Hình 1: Kiến trúc hệ thống https://www.turnitin.com/ https://unicheck.com/ http://doit.lic.vnu.edu.vn/ doIT - HỆ THốNg KIỂM TRA TRÙNg LẶp VĂN BảN, NÂNg CAo CHẤT LƯợNg TÀI LIỆu HỌC TẬp 209 tin Th uv ien ,D HQ GH N Hình mơ tả kiến trúc hệ thống xây dựng Người dùng cuối sử dụng hệ thống thơng qua trình duyệt Web Mô đun dịch vụ Web cung cấp API để phần ứng dụng Web sử dụng chức hệ thống Việc xây dựng chức dạng dịch vụ Web làm cho hệ thống dễ dàng có loại phần mềm khác cho phép hệ thống khác kết nối đến Hai mơ đun quan trọng hệ thống kiểm lỗi tả kiểm tra trùng lặp Mơ đun tiền xử lý nhận ile văn với định dạng khác (pdf, doc, docx, ppt, ) phân tích trích xuất thơng tin nội dung, bố cục siêu liệu (Ví dụ như: tác giả, tên luận văn ) để chuẩn bị cho việc kiểm lỗi tả kiểm tra trùng lặp Mơ đun hậu xử lý tổng hợp kết quả, chuẩn bị thông tin hướng dẫn/khuyến cáo cho người dùng sau việc kiểm lỗi tả, kiểm tra trùng lặp thực xong Crawler mô đun thu thập liệu từ Internet Các website thu thập đánh mục vào Apache Solr Mô đun Quản lý hệ thống cung cấp chức liên quan đến khía cạnh chung hệ thống tài khoản người dùng, văn bản, quản lý cấu hình Apache Solr chức khác 2.2 Các bước xử lý Tr un gt am Th o ng Các bước xử lý tài liệu người dùng gửi lên hệ thống mơ tả Hình Khi người dùng tải lên hệ thống tài liệu để kiểm tra trùng lặp lỗi tả, tài liệu chuyển thành dạng PDF nhằm thống cách xử lý sau Tài liệu định dạng PDF phân tích để trích xuất từ, câu, trang (khối Trích xuất thơng tin) Thơng tin trích xuất bao gồm định dạng từ tọa độ vị trí phần tử Dựa liệu này, meta-data tài liệu (gồm tác giả, tiêu đề, số thông tin khác) trích xuất Khối trích xuất cấu trúc tách đánh dấu khối nội dung khác tài liệu Sau bước xử lý này, biết khối trang tiêu đề, mục lục, đề mục, đoạn nội dung Trong bước tiếp theo, danh sách câu xem nội dung tài liệu trích xuất thực kiểm tra tả tương đồng Kết kiểm tra sử dụng để đánh dấu chuẩn bị cho việc hiển thị cho người dùng thư viện thông minh 4.0 Chuyển sang định dạng PDF Tài liệu PDF Trích xuất thơng tin Thơng tin trang, câu từ ,D HQ Tài liệu GH N công nghệ - liệu - người 210 Trích xuất cấu trúc tài liệu ien Các vùng thông tin tài liệu Xác định câu cần kiểm tra uv Danh sách câu Kiểm tra lỗi tả tin Th Tìm kiếm câu tương đồng Kết ng Hình Các bước xử lý Th o Các chức 3.1 Kiểm lỗi tả Tr un gt am Chức kiểm lỗi tả chia thành hai chức phát lỗi gợi ý sửa lỗi Chức phát lỗi tìm kiếm âm tiết bị lỗi tả văn Chức sửa lỗi đưa gợi ý sửa chữa tự động lựa chọn phương án hợp lý Lỗi tả tiếng Việt chia thành hai loại chính: âm tiết sai tả không tồn Từ điển tiếng Việt âm tiết sai tả ngữ cảnh Trong mơ đun này, chủ yếu tập trung vào phần âm tiết sai tả ngữ cảnh Những âm tiết tồn Từ điển tiếng Việt không phù hợp với văn (Ví dụ: câu “Cuốn xách hay”, từ “xách” mang ý nghĩ mang, vác theo bị dùng sai, từ xác cần dùng từ “sách”) doIT - HỆ THốNg KIỂM TRA TRÙNg LẶp VĂN BảN, NÂNg CAo CHẤT LƯợNg TÀI LIỆu HỌC TẬp 211 ,D HQ GH N Trong hệ thống DoIT, sử dụng mơ hình ngơn ngữ N-gram làm hướng tiếp cận Đồng thời, phân đoạn từ (word segmentation) khoảng cách Levenstein sử dụng để hỗ trợ đánh giá ứng viên tốt Hình mơ tả mơ đun phân hệ kiểm lỗi tả Tiền xử lý ien Câu đầu vào Th uv Sinh tập nhầm lẫn âm tiết Đánh giá ứng viên tin Mơ hình ngơn ngữ Tr un gt am Th o ng Hình 3: Phân hệ kiểm lỗi tả Hình 4: Giao diện kiểm lỗi tả Từ lỗi gợi ý thư viện thông minh 4.0 công nghệ - liệu - người 212 GH N 3.2 Phát tr̀ng lặp ,D HQ Hệ thống DoIT dùng hai nguồn liệu để kiểm tra trùng lặp: liệu từ Internet liệu nội sinh Mô đun thập liệu từ Internet xây dựng dựa Scrapy(“Scrapy,” 2018) Hệ thống sử dụng thuật tốn xử lý ngơn ngữ tự nhiên trích xuất thơng tin để lấy liệu văn từ nguồn Internet Hệ thống cho phép người dùng nhập thêm vào website để tự động phân tích lấy liệu phục vụ cho việc kiểm tra trùng lặp Th o ng tin Th uv ien Dữ liệu nội sinh khóa luận, luận văn, luận án, tài liệu khác tạo giảng viên người học đơn vị đào tạo Những tài liệu thường không công bố Internet Đây nguồn liệu quan trọng việc kiểm tra trùng lặp Các tài liệu thường lưu định dạng doc, docx, PDF Số tài liệu đánh mục để phục vụ cho kiểm tra trùng lặp Trong trường hợp tài liệu dạng ảnh (pdf ảnh), hệ thống áp dụng kỹ thuật nhận dạng quang học (OCR) để chuyển sang định dạng văn trước đánh mục Với tài liệu theo định dạng cho trước, hệ thống tự động trích xuất siêu liệu (metadata) chia thành thành phần tiêu đề, mục lục, nội dung chương, trước lưu vào sở liệu Tr un gt am DoIT sử dụng Apache Solr (Foundation, 2018), thư viện quản lý sở liệu tìm kiếm hiệu suất cao viết Java - để kiểm tra tương đồng câu (một cách xác kiểm tra tương đồng câu tài liệu kiểm tra câu CSDL) Khi nhận chuỗi ký tự lớn để tìm kiếm, Apache Solr tiến hành phân tích chuỗi thành câu tìm kiếm câu tương tự câu Kết Apache Solr trả danh sách câu với độ tương đồng giảm dần Những câu tiếp tục đánh giá độ đo Cosine chọn câu có độ tương đồng cao (Hình 5) Các câu tương đồng Câu cần kiểm tra Câu tương đồng cao Đánh giá Cosine ,D HQ Apache Solr Dữ liệu từ Internet 213 GH N doIT - HỆ THốNg KIỂM TRA TRÙNg LẶp VĂN BảN, NÂNg CAo CHẤT LƯợNg TÀI LIỆu HỌC TẬp Dữ liệu nội sinh Hình 5: Phân hệ đánh giá trùng lặp gt am Th o ng tin Th uv ien Phương pháp độ đo Cosine đánh giá tương đồng hai chuỗi ký tự việc vector hóa hai chuỗi ký tự thành hai vector khơng gian tính tốn cosine góc hai vector Sau đó, giá trị tổng hợp thành độ tương đồng đoạn văn bản, chương văn cuối tổng hợp cho tồn văn Hình 6: Giao diện kiểm tra trùng lặp Tr un Độ đo tương tự Cosine có hạn chế độ đo không quan tâm đến thứ tự từ hai chuỗi ký tự Vì vậy, hai chuỗi ký tự kiểm tra chứa từ giống hệt khác thứ tự độ đo Cosine cho kết điểm tương tự lớn Ví dụ, với hai chuỗi “Tơi nghiên cứu kĩ trước thực hành” “Tôi thực thư viện thông minh 4.0 công nghệ - liệu - người 214 ,D HQ GH N hành kĩ trước nghiên cứu” hai câu có nghĩa khác độ đo cosine lại cho điểm tương tự Vì để giải vấn đề này, xét độ đo tương đồng cosine hai chuỗi dựa mơ hình N-Gram (2-gram 3-gram) Việc có nghĩa hai chuỗi vector hóa dựa tần suất xuất N từ (2 từ từ) liên tiếp câu thay từ riêng lẻ ien Đơn vị sử dụng để tính tốn độ trùng lặp câu Trong trường hợp có trùng lặp câu liền nhau, câu nối với để thể mức độ tương đồng cao hai văn uv Kết trùng lặp thể tài tài liệu kiểm tra (giữ nguyên định dạng) Mức độ trùng lặp thể gam màu khác Màu đỏ đậm, đỏ nhạt, da cam theo thứ tự thể mức độ trùng lặp cao, trung bình, thấp tin Th Người sử dụng xuất báo cáo (định dạng pdf) kết kiểm tra trùng lặp Báo cáo ghi rõ thời điểm kiểm tra, điểm trùng lặp chung cho tài liệu điểm trùng lặp câu kiểm tra Các phương án triển khai ng 4.1 Với ngừi d̀ng cá nhân Th o Người dùng riêng lẻ đăng ký mua theo số lượt sử dụng theo thời gian tuần/tháng/năm website hệ thống*1 Hiện nay, hệ thống cho phép dùng thử (3 tài liệu cho người dùng với email bất kỳ, tài liệu cho người dùng đến từ đơn vị nghiên cứu, đào tạo) gt am 4.2 Với đơn vị đào tạo Theo dạng phần mềm dịch vụ Tr un Triển khai DoIT dạng ứng dụng Web theo tên miền đơn vị sử dụng Phía đơn vị sử dụng khơng cần chuẩn bị sở hạ tầng Chi phí sử dụng tính theo năm dựa số lượng tài khoản đăng ký đơn vị Với mơ hình triển khai này, đơn vị sử dụng trì máy chủ chứa liệu nội sinh riêng http://doit.lic.vnu.edu.vn/ http://doit.uet.vnu.edu.vn/ doIT - HỆ THốNg KIỂM TRA TRÙNg LẶp VĂN BảN, NÂNg CAo CHẤT LƯợNg TÀI LIỆu HỌC TẬp GH N Theo dạng cài đặt riêng 215 ,D HQ Triển khai hệ thống riêng cho đơn vị đào tạo có nhu cầu bảo mật liệu muốn tích hợp vào hệ thống quản trị đào tạo đơn vị Các đơn vị đào tạo phải trả phí triển khai chi phí bảo trì hàng năm Một số điểm mạnh DoIT Th o Kết luận ng tin Th uv ien Khi so sánh với phần mềm nước (các phần mềm phát trùng lặp TurnItin Unicheck), DoIT hạn chế về số khía cạnh chức phụ, tốc độ xử lý, quy mô liệu nói chung Tuy nhiên, DoIT lại có lợi khác Được phát triển chuyên gia xử lý tiếng Việt phần mềm tập trung cho tài liệu tiếng Việt nên bước xử lý khía cạnh ngơn ngữ (tiếng Việt) xác DoIT triển khai linh hoạt, phù hợp với nhu cầu đơn vị sử dụng Ngoài ra, DoIT cung cấp chế để đơn vị sử dụng chia sẻ liệu nội sinh để nâng cao kết chức phát trùng lặp Về khía cạnh liệu, DoIT có sở liệu tiếng Việt chất lượng cao cập nhật (hệ thống trọng vào tiếng Việt) Công cụ đánh mục DoIT cho phép đưa vào CSDL tìm kiếm tài liệu ảnh pdf Tr un gt am Trong báo cáo này, giới thiệu DoIT, hệ thống hỗ trợ nâng cao chất lượng tài liệu, đặc biệt khía cạnh phát trùng lặp, chống đạo văn DoIT triển khai số đơn vị đào tạo lớn nước nhận nhiều phản hồi tích cực Hệ thống triển khai máy chủ đơn vị sử dụng theo dạng phần mềm dịch vụ chạy Internet Trong thời gian tới, hệ thống trang bị thêm chức so sánh nhóm tài liệu kiểm tra định dạng tài liệu Dựa ý kiến phản hồi, hệ thống cải tiến chức kiểm lỗi tả, khả loại trừ phần tài liệu không cần kiểm tra trùng lặp (các tiêu đề, mục lục, trích dẫn tường minh) thư viện thông minh 4.0 công nghệ - liệu - người 216 GH N Tài liệu tham khảo Foundation, A S (2018) Apache Solr Retrieved from http://lucene.apache org/solr/ Scrapy (2018) Retrieved from https://scrapy.org/ ,D HQ Thảo, N (2018a, 14/3/2018) “Đạo văn Việt Nam: Đã đến lúc nói chuyện nghiêm túc!” Vietnamnet Retrieved from http://vietnamnet.vn/vn/giao-duc/ nguoi-thay/dao-van-o-viet-nam-da-den-luc-noi-chuyen-nghiem-tuc-435312 html Tr un gt am Th o ng tin Th uv ien Thảo, N (2018b, 12/03/2018) “Sinh viên Việt Nam: Ý thức chống đạo văn gần 0” Vietnamnet Retrieved from http://vietnamnet.vn/vn/ giao-duc/khoa-hoc/sinh-vien-viet-nam-y-thuc-chong-dao-van-gan-nhubang-0-435116.html ... http:/ /doit. lic.vnu.edu.vn/ http:/ /doit. uet.vnu.edu.vn/ doIT - HỆ THốNg KIỂM TRA TRÙNg LẶp VĂN BảN, NÂNg CAo CHẤT LƯợNg TÀI LIỆu HỌC TẬp GH N Theo dạng cài đặt riêng 215 ,D HQ Triển khai hệ thống riêng cho đơn vị... Hình 1: Kiến trúc hệ thống https://www.turnitin.com/ https://unicheck.com/ http:/ /doit. lic.vnu.edu.vn/ doIT - HỆ THốNg KIỂM TRA TRÙNg LẶp VĂN BảN, NÂNg CAo CHẤT LƯợNg TÀI LIỆu HỌC TẬp 209 tin Th... sẻ liệu nội sinh để nâng cao kết chức phát trùng lặp Về khía cạnh liệu, DoIT có sở liệu tiếng Việt chất lượng cao cập nhật (hệ thống trọng vào tiếng Việt) Công cụ đánh mục DoIT cho phép đưa vào