(Tiểu luận) công trình hệ thống hỗ trợ phát hiện đạo văn

ĐỒN THANH NIÊN CỘNG SẢN HỒ CHÍ MINH BAN CHẤP HÀNH TP HỒ CHÍ MINH CƠNG TRÌNH DỰ THI GIẢI THƯỞNG SINH VIÊN NGHIÊN CỨU KHOA HỌC EURÉKA LẦN THỨ 24 NĂM 2022 TÊN CÔNG TRÌNH: HỆ THỐNG HỖ TRỢ PHÁT HIỆN ĐẠO VĂN LĨNH VỰC NGHIÊN CỨU: Cơng nghệ thơng tin CHUN NGÀNH: Trí tuệ nhân tạo Mã số cơng trình: (Phần BTC Giải thưởng ghi) h TĨM TẮT Cơng trình nhóm nhằm xây dựng phát triển hệ thống phát đạo văn nhằm mục đích phát đưa chứng đạo văn tài liệu văn tiếng Anh tiếng Việt Hệ thống nhóm đưa chứng đạo văn tập tài liệu có sẵn trang web online Nhóm sử dụng kỹ thuật đại xử lý ngôn ngữ tự nhiên NLP tích hợp với cơng nghệ trí tuệ nhân tạo AI Đồng thời nhóm tự xây dựng mơ hình học sâu Deep Learning việc phát tương đồng cấu trúc ngữ pháp, ngữ nghĩa câu, từ đưa kết luận đạo văn Quy trình phát đạo văn chia thành giai đoạn: giai đoạn tiền xử lý, giai đoạn thu thập tài liệu ứng viên, giai đoạn so sánh phân tích chi tiết, giai đoạn hậu xử lý Đối với giai đoạn tiền xử lý, nhóm áp dụng kỹ thuật xử lý ngôn ngữ tự nhiên nhằm xử lý văn tài liệu đầu vào Đối với giai đoạn thu thập tài liệu ứng viên, nhóm xây dựng mơ hình học máy phương pháp paragrapgh vector dựa mơ hình Doc2Vec, kết hợp với mơ hình FAISS nhằm tăng tốc độ tìm kiếm tương đồng Kết thu với độ xác 95.06% văn tiếng Anh 96.47% văn tiếng Việt Đối với giai đoạn so sánh phân tích chi tiết, nhóm sử dụng mơ hình Vietnamese Sentence-BERT nhóm phát triển dựa mơ hình SBERT nhằm phát tương đồng văn tiếng Việt mơ hình all-distilroberta-v1 nhằm phát tương đồng văn tiếng Anh Mơ hình Vietnamese Sentence-BERT nhóm đạt độ xác 95.33%, vượt trội so với mơ hình tương tự Ngồi ra, nhóm thực số phương pháp dựa chuỗi (string), phương pháp cổ điển việc tính tốn mức độ tương động văn Đối với giai đoạn hậu xử lý, nhóm tổng hợp lại kết từ giai đoạn trước, từ đưa kết luận đạo văn Từ khóa: phát đạo văn, phân loại đạo văn, quy trình phát đạo văn, Sentence-BERT, SBERT, PhoBERT, Vietnamese Sentence-BERT sentence embeddings, Vietnamese, pre-trained model, sentence transformer, paraphrase, exact-copy, near-copy, vector space model, n-gram string matching, FAISS, paragraph vector, Doc2Vec h ĐẶT VẤN ĐỀ Một kiến thức sinh đòi hỏi phương thức học tập nghiên cứu nghiêm ngặt Một yếu tố quan trọng tính trung thực, trực nghiên cứu Hiện tổ chức giáo dục, cụ thể trường đại học giới áp dụng sách nhằm đảm bảo yếu tố Tuy nhiên thực trạng yếu tố bị vi phạm, phổ biến vấn đề đạo văn (Plagiarism) Các nguyên nhân dẫn đến thực trạng đạo văn liệt kê sau: Sự phát triển công nghệ, đặc biệt Internet, làm tăng khả tiếp nhận thông tin từ khắp nơi nhiều nguồn khác Sự lỏng lẻo việc quản lý số trường đại học làm tăng tần suất đạo văn sinh viên Sinh viên thường đạo văn họ thường khơng bị phạt trích Mà cho dù có bị phạt trích mức độ hình phạt chưa đủ nặng để răn đe Sự thiếu đổi việc đề tập, đề tài nghiên cứu, nguyên nhân quan trọng dẫn đến đạo văn Đạo văn đến từ thân sinh viên, bao gồm: ý thức nghiên cứu, tìm tịi kém; nhận thức đạo văn kém; kỹ viết kém; trích nguồn sai; mềm yếu trước áp lực, cám dỗ điểm số sinh viên Ngoài ra, xuất cơng cụ paraphrasing vơ tình khiến sinh viên có phương pháp để tránh phát công cụ phát đạo văn UGC (University Grants Commission) Relations 2018 đưa sách phịng chống đạo văn Trong đó, nội dung sách nhắc đến việc sử dụng hệ thống phát đạo văn, khẳng định vai trò chúng, bao gồm Turnitin, ithenticate URKUND Vai trò chủ đạo hệ thống phát đạo văn giúp sinh viên có ý thức có trách nhiệm sản phẩm thân Những hiểu biết hệ thống phát đạo văn giúp giảm tỉ lệ xuất đạo văn, giúp nâng cao kỹ viết sinh viên Sự tồn hệ thống phát đạo văn có vai trị người “giám sát viên”, từ giảm tỷ lệ sinh viên đạo văn viết Khi sinh viên biết làm bị kiểm tra đạo văn, họ cố gắng sửa lại nội dung, hạn chế nội dung bị lặp, cho không bị coi đạo văn Hiện nay, có nhiều hệ thống phát đạo văn sử dụng trường đại học nhà xuất bản, bao gồm hệ thống online, offline, thương mại cung cấp dịch vụ API Tuy nhiên, chúng mang số hạn chế nhược điểm Nhiều nghiên cứu hầu hết công cụ kiểm tra việc h đạo văn sử dụng phương thức “Intelligent” diễn dịch (paraphrasing), tóm tắt (summarizing) sử dụng công cụ dịch lại (translation) Các phần mềm phát đạo văn phân biệt đạo văn với câu thường gặp, tên tổ chức, tham khảo, v.v Các hạn chế, nhược điểm công cụ kiểm tra đạo văn liệt kê sau: Phải bỏ chi phí tiền bạc để sử dụng đầy đủ tính cơng cụ Phiên miễn phí có hạn chế như: giới hạn kích thước tập tin đưa vào, giới hạn số lượt sử dụng, độ xác giảm xuống, Mức độ phát đạo văn chưa tốt trường hợp đạo văn phức tạp Kết phân tích chưa đủ sâu, cịn chung chung, chưa đưa phân tích phương thức đạo văn, kỹ thuật đạo văn, Qua khảo sát sinh viên trường Đại học Bách Khoa cơng cụ đạo văn, nhóm nhận thấy hạn chế lớn mà sinh viên gặp phải hỏi: công cụ không hỗ trợ tiếng Việt, khơng có kho liệu Tiếng Việt cụ thể Từ nhu cầu thực tế, với phổ biến vấn đề đạo văn hạn chế công cụ phát đạo văn, nhóm xây dựng phát triển hệ thống phát đạo văn, hỗ trợ việc phát đạo văn văn tiếng Việt, với kho liệu tiếng Việt sử dụng Hệ thống hy vọng giải số hạn chế mặt kỹ thuật mà công cụ gặp phải, có vai trị người bạn đồng hành giúp đỡ bạn sinh viên việc nâng cao hiểu biết, ý thức đạo văn, có trách nhiệm với sản phẩm nghiên cứu, làm TỔNG QUAN TÀI LIỆU 2.1 Quy trình phát đạo văn đề xuất Theo Vani Deepa, 2016, quy trình phát đạo văn thường chia hình thức bản: Extrinsic detection: Tài liệu nghi ngờ so sánh với tài liệu khác kho nguồn Intrinsic detection: Tài liệu nghi ngờ phân tích cách đơn lẻ mà không so sánh với nguồn khác Có thể phong cách viết tác giả, phân bố cấu trúc, mức độ phong phú vốn từ h Hệ thống tập trung vào hình thức Extrinsic PDS với việc thực kỹ thuật giúp phát phương đạo văn khác Hệ thống xử lý đưa kết phát đạo văn đầu vào so sánh với nguồn liệu xây dựng từ trước hệ thống, nguồn liệu từ Internet Kiến trúc chung Extrinsic PDS thể sau: Hình 1: Quy trình phát đạo văn 2.1.1 Giai đoạn tiền xử lý (Pre-processing) Quy trình phát đạo văn thường chia thành hướng tiếp cận (Vani, Deepa, 2016), Extrinsic detection: Tài liệu nghi ngờ so sánh với tài liệu khác Intrinsic detection: Tài liệu nghi ngờ phân tích cách đơn lẻ mà không so sánh với nguồn khác Có thể phong cách viết tác giả, phân bố cấu trúc, mức độ phong phú vốn từ kho nguồn Nhóm xây dựng quy trình theo hướng Extrinsic detection, hệ thống xử lý đưa kết phát đạo văn đầu vào so sánh với nguồn liệu xây dựng từ trước hệ thống, nguồn liệu từ internet h Chong (2013) đề xuất kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) tiền xử lý khác nhau, nhằm áp dụng dành cho trường hợp khác trình phát đạo văn, bao gồm nhóm kỹ thuật chính: Text-Preprocessing, Deep NLP Shallow NLP 2.1.2 Giai đoạn thu thập tập liệu ứng viên (Candidate Retrieval) Bước kiến trúc tìm kiếm nguồn tài liệu ứng viên (Candidate Retrieval) Nguồn tài liệu ứng viên (candidate documents) nguồn tài liệu thu giảm từ nguồn liệu ban đầu, xác định liên quan đến tài liệu đạo văn đem so sánh, đối chiếu cách chi tiết với tài liệu nghi ngờ đạo văn Candidate Retrieval làm giảm khơng gian tìm kiếm, đưa tài liệu ứng viên để sử dụng kỹ thuật phát đạo văn phức tạp thực giai đoạn sau Ưu điểm giai đoạn Candidate Retrieval mang lại cho hệ thống phát đạo văn: ● Tăng mức độ hiệu thời gian Việc tìm kiếm tồn nguồn tài liệu, sau lựa chọn tài liệu nghi ngờ tài liệu gốc để thực kỹ thuật kiểm tra đạo văn, nhanh so với việc kiểm tra đạo văn tồn nguồn tài liệu ● Tăng độ xác phát đạo văn Việc kiểm tra đạo văn tiến hành tài liệu nghi ngờ tài liệu gốc, giúp tăng độ xác phát đạo văn kỹ thuật kiểm tra phức tạp áp dụng Việc tìm kiếm ban đầu có vai trị lọc, lọc tài liệu không liên quan khỏi tập liệu tập trung tài nguyên vào tài liệu đáng nghi Giai đoạn xử lý hai loại nguồn liệu: ● Offline database: Tài liệu đáng ngờ so sánh mức độ tài liệu (Document level) với tài liệu có sẵn database hệ thống So sánh mức độ tài liệu phương thức document retrieval (như kỹ thuật vector space model mức độ tài liệu) phân tích độ tương đồng (Similarity Analysis) ● Online sources: Đối với nguồn online tìm kiếm, trích xuất từ có ý nghĩa chủ đề văn bản, từ sử dụng vài xử lý truy vấn, từ dùng search engine để tìm nguồn tài liệu ứng viên 2.1.3 Giai đoạn phân tích so sánh chi tiết (Exhaustive Comparison and Analysis) Trong giai đoạn này, tài liệu nghi ngờ so sánh với tập liệu ứng viên thu sau bước Candidate Retrieval cách áp dụng kỹ thuật phát đạo văn khác h nhau, tùy theo mức độ muốn phát Từ phân mảnh, phần đạo văn phát với mức độ tương đồng tương ứng với nguồn đối chiếu Các tác giả Vani Deepa đưa phân loại theo kỹ thuật phát đạo văn: string based, vector space model, semantic based, syntax based, structure based citation based Hình 2: Các kỹ thuật phát đạo văn 2.1.4 Giai đoạn hậu xử lý - Post Processing Việc thực so sánh văn nghi ngờ văn nguồn kỹ thuật so sánh chuyên sâu cho kết mức độ tương đồng câu tài liệu nghi ngờ câu tài liệu nguồn Sau đó, giai đoạn Post-processing thực việc tìm kiếm vị trí câu tài liệu gốc, để hiển thị trực quan chứng cho hành vi đạo văn tài liệu nghi ngờ Cũng từ tính tốn phần trăm đạo văn tài liệu nghi ngờ so với tài liệu nguồn nguồn, tổng phần trăm đạo văn toàn tài liệu nghi ngờ Những kết kết hợp với sách đạo văn để kết luận liệu tài liệu nghi ngờ xem đạo văn hay không Cuối hệ thống phát đạo văn đánh giá dựa tập liệu, hiệu suất hệ thống đánh giá đo lường tiêu chuẩn Tập liệu PAN phương pháp đánh giá phổ biến sử dụng rộng rãi việc đánh giá hiệu hệ thống phát đạo văn 2.2 Các cơng trình nghiên cứu liên quan đến hệ số tương đồng (Similarity Metric) Similarity metrics (SM) hệ số nhằm xác định mức độ tương đồng mặt hình thức văn Mỗi SM sử dụng theo mục đích cấp độ phát đạo văn mà hệ thống sử dụng h 2.2.1 Hệ số mức độ tương đồng sử dụng n-gram matching Phương pháp n-gram string matching gom cụm n từ câu theo mơ hình n-gram Hình 3: Phương pháp sử dụng giải thuật N-gram matching Ở phương pháp này, hệ số Jaccard biến thể sử dụng h Trong đó, S(A, n) tập hợp n-gram có A, S(B, n) tập hợp n-gram có B n số lượng từ gram Biến thể hệ số Jaccard phù hợp với trường hợp kích thước văn đạo văn A nhỏ văn nguồn B Biến thể hệ số Jaccard phù hợp kích thước văn đạo văn A B văn nguồn B thường xuyên thay đổi 2.2.2 Hệ số mức độ tương đồng sử dụng mơ hình ngơn ngữ - language model Một mơ hình Chong đề xuất mơ hình n-gram việc tính mức độ phân bố từ văn Tác giả cho văn có xác suất phân bố n-gram tương tự có khả hai văn có nội dung gần giống Bằng cách xây dựng mơ hình xác suất bigram dựa văn nguồn, ta áp dụng mơ hình văn đạo văn để xác định văn nguồn văn Trong wk từ nằm văn nghi ngờ đạo văn Ý nghĩa mơ hình ngơn ngữ bigram xác suất để từ w(k) xuất sau chuỗi ký tự w(k−1), w(k−2), , w(k−n) Việc tính xác suất phải tính dựa nguồn liệu có sẵn, từ xấp xỉ xác suất xuất từ dựa theo tần suất xuất từ nguồn liệu Một biến thể mơ hình nhằm chuẩn hóa xác suất xác suất tính phụ thuộc vào số lượng từ có văn nghi ngờ đạo văn Trong trường hợp đặc biệt, xác suất OOV (out-of-vocabulary, tức từ chưa xuất nguồn liệu) tính cách đếm từ chưa xuất văn nghi ngờ đạo văn Phương pháp phù hợp với việc xác định khả xuất từ sau chuỗi từ biết, hỗ trợ việc phát đạo văn cách thay số từ ngữ h 2.2.3 Phương pháp sử dụng giải thuật tìm chuỗi chung dài - Longest Common Sequence (LCS) Phương pháp sử dụng giải thuật LCS Wise(1993) đề xuất với hệ số SM sau: Trong đó, A B văn nghi ngờ văn gốc Tập LCS(A,B) độ dài chuỗi chung dài hai văn A B Phương pháp đánh giá phức tạp phụ thuộc nhiều vào tài liệu nguồn 2.2.4 Phương pháp sử dụng tổng quát hoá từ vựng - Lexical generalization Wordnet mạng liệu tổ chức theo dạng cây, đó, node bao gồm từ gọi lemma (tạm dịch “nguyên mẫu”) từ đồng nghĩa với gọi synset Lexical generalization phương pháp so sánh từ với nhau, thay so sánh cặp từ gốc, ta tiến hành việc so sánh synset cặp từ SM phương pháp tính theo biến thể hệ số Jaccard Trong ta chọn n = (tức 1-gram) Phương pháp phù hợp việc phát đạo văn cách thay số từ từ đồng nghĩa Như so với ba phương pháp trên, phương pháp có độ xác cao hơn, nhiên đánh đổi thời gian thực thi số lượng phép so sánh tăng lên việc so sánh từ với 2.2.5 Các phương pháp khác Có nhiều phương pháp tính tốn SM khác Một số phương pháp kể đến Syntactic constituent extraction, Dependency relation extraction, Predicate extraction, Predicate generalisation, Named entity recognition, Word alignment, Đây phương pháp sử dụng NLP việc phát độ tương đồng h 25 Alvations Đây tập ngữ liệu thu thập từ nội dung trang web Wikipedia tiếng Anh chủ đề liên quan đến khoa Sau nhóm tiền xử lý lọc lại, nhóm thu 204.899 đoạn văn Đối với tập corpus tiếng Anh, bao gồm 13.753 đoạn văn Còn tiếng Việt, tập corpus bao gồm 31.164 đoạn văn Sau đó, nhóm thực nghiệm cho việc training model Doc2Vec theo sở lý thuyết phương pháp Paragraph Vector sử dụng thư viện Gensim cho tập liệu tiếng Anh tiếng Việt Tập liệu (corpus) để training lấy từ tất đoạn văn sau tiền xử lý cấp độ đoạn văn tất tài liệu chia theo ngơn ngữ Hiện thực mơ hình tìm kiếm khơng gian vector Nhóm áp dụng mơ hình FAISS nhằm tăng tốc độ tìm kiếm tương đồng không gian vector Việc triển khai FAISS GPU giúp hỗ trợ tốt cho việc tìm kiếm, nhiên hạn chế mặt phần cứng, nhóm sử dụng tìm kiếm dựa sức mạnh CPU Quy trình xây dựng mơ hình tìm kiếm tương đồng FAISS trình bày thành bước sau: − Bước 1: Thu thập tất vector từ đoạn tài liệu lưu database MongoDB mà tạo thành từ model Doc2Vec − Bước 2: Chuyển kiểu liệu embedded vector thành kiểu float32 − Bước 3: Tạo Index đánh mục đoạn văn quy định hàm khoảng cách nhằm tìm kiếm vector tương đồng Nhóm lựa chọn hàm nhân tích vơ hường hai vector, sau chuẩn hóa cách chia độ dài vector nhằm đưa điểm tương đồng cosine (cosine similarity) − Bước 4: Khởi tạo danh sách mục training model dựa danh sách vector đoạn thu thập từ MongoDB 3.2.3.1 Thu thập tài liệu ứng viên online h 26 Hình: Quy trình thu thập tài liệu ứng viên online source Với đầu vào tài liệu nghi ngờ, nhóm sử dụng vài kỹ thuật đơn giản để tách tài liệu tìm đoạn văn (paragraph) yếu Các tiêu đề, footnote, v.v dịng ngắn, có số lượng ký tự nhỏ 200 bỏ Việc tìm kiếm online source văn người dùng đưa vào nhóm thực qua bước phần kiến thức tản Hình 10: Biểu diễn trình Chunking Keyphrase Extraction Hình 11: Biểu diễn trình Query Formulation Search Control Chunking Từ đoạn văn yếu thu sau đọc xử lý file pdf người dùng đưa lên, nhóm phân đoạn (chunking) từ đoạn văn (paragraph) thành h 27 nhiều chunk, với chunk quy định từ đến câu (sentence), câu đoạn văn có câu Sau đó, ta kết hợp câu chunk thành chuỗi string , loại bỏ chunk có 100 ký tự Keyphrase extraction Để thực việc chiết xuất keyphrases, cần tiền xử lý chunk thành token từ loại bỏ stopword punctuation Sau đó, nhóm áp dụng mơ hình TF-IDF vào chunk này, xem tập corpus danh sách chunk, thu kết danh sách từ chunk xếp hạng theo điểm tf-idf giảm dần Từ kết này, ta áp dụng để thực trình Query formulation Query formulation Search control Đối với Query formulation, nhóm chúng tơi thực chiến thuật search, search kết hợp 20 từ theo thứ tự từ sau preprocessing, việc giữ thứ tự từ câu, cách hai sử dụng top-k tf-idf ranked terms, với k 20 search kết hợp top 20 từ có điểm tf-idf cao Đối với Search control, có nhiều search engine như: Google, Bing, ChatNoir, DuckDuckGo, , nhiên công cụ khơng cung cấp API miễn phí Việc sử dụng search API cung cấp bên thứ có nhiều nhược điểm, hầu hết tính phí cho dùng thử, cịn miễn phí bị giới hạn số lần gọi (như serapi giới hạn 100 lần gọi / tháng) Do nhóm thực search thơng qua URL request phương thức GET Sau lấy kết link url kết thu từ file html trả Đối với search Google, kết search query có 20 từ nhanh nhất, nhiên việc search nhiều lần liên tiếp bị hệ thống anti-bot google dễ dàng phát ngăn chặn Đối với search engine cịn lại khơng nhanh google search nhiều lần liên tiếp mà không bị chặn hệ thống anti-bot Trong đó, nhóm chúng tơi nhận thấy Bing cơng cụ có kết tìm kiếm tốt với tiếng Việt tiếng Anh, đồng thời cho kết nhanh Vì lý trên, nhóm chúng tơi định áp dụng hướng search URL qua phương thức GET thông qua Bing Download filtering Để thực bước Download filtering, nhóm qua bước remove duplicate checking based on snippet Ở bước remove duplicate, ta đơn giản xóa bỏ đường dẫn trùng lặp danh sách kết tìm kiếm từ bước Search control phương pháp so sánh n-grams Nguyên nhân nhóm sử dụng phương pháp thay so trùng chuỗi thơng qua thực nghiệm, nhóm nhận thấy có số trang web có tiêu đề khác phần nhỏ thêm tên trang web vào đầu tiêu đề hay thêm số ký tự tiêu đề, nhiên nội dung tồn trang web giống hoàn toàn Bằng việc sử dụng n-grams, số phương pháp tiền xử lý, nhóm loại bỏ trang web có nội dung trùng lặp h 28 Ở bước kiểm tra dựa snippet, ta thực tiền xử lý phân chia n-grams tài liệu nghi ngờ snippet kết tìm kiếm Nhóm sử dụng hệ số phân chia 3-grams cho hai tiến hành so sánh overlap chúng Đồng thời xác định ngưỡng, tức số gram bị overlap Qua thực nghiệm, nhóm nhận thấy số n-grams cho đoạn text, cho file, đồng thời cho số ngưỡng n-grams trùng đạt kết lọc tốt 3.2.4 Giai đoạn Phân tích, so sánh chi tiết Hệ thống phát đạo văn nhóm tập trung vào việc phát đạo văn phương thức: exact-copy, near-copy paraphrasing Để phát ba phương thức đạo văn trên, đồng thời đưa chứng đạo văn câu văn đầu vào, nhóm thực quy trình dành cho giai đoạn so sánh phân tích chi tiết Với đầu vào giai đoạn nội dung văn đầu vào danh sách đoạn văn nghi ngờ tài liệu nguồn xác định từ bước thu thập tài liệu ứng viên, kết giai đoạn bao gồm danh sách câu chứng đạo văn kèm với câu Các chứng chứa tên nguồn đạo văn, nội dung câu bị đạo văn tài liệu nguồn đó, phương thức đạo văn số tương đồng Chỉ số tương đồng với nguồn bao gồm số nhỏ, số nhỏ ứng với phần trăm sử dụng phương thức đạo văn Bên cạnh chứng cịn có thơng tin phụ vị trí câu đạo văn đoạn, hay vị trí đoạn để hỗ trợ cho bước hiển thị ứng dụng web sau 3.2.4.1 Phát đạo văn sử dụng phương thức Exact Copy Near Copy Nhóm sử dụng phương pháp dựa chuỗi (String Based) để tiến hành phát đạo văn sử dụng phương thức Exact Copy Near Copy Nhóm thực đánh giá nhằm lựa chọn phương pháp tốt dành cho hệ thống Đầu vào bao gồm thành phần: ● Văn đạo văn Nhóm lựa chọn tập liệu, sau chỉnh sửa số nội dung tài liệu để làm tài liệu đạo văn ● Danh sách tài liệu nghi ngờ tài liệu nguồn đạo văn tài liệu đầu vào Danh sách chứa 17 tài liệu văn nhóm lựa chọn ngẫu nhiên tập liệu, tương đương khoảng 1000 đoạn văn Trong đó, có tài liệu tài liệu nguồn văn đạo văn Phương pháp n-gram matching lựa chọn độ xác ổn định so với phương pháp khác phương pháp chuỗi chung dài (LCS), tổng quát tự h 29 vựng (lexical generalization), Quy trình phát đạo văn sử dụng phương thức Exact Copy Near Copy thực sau: Tiền xử lý Ta áp dụng quy trình tiền xử lý cấp độ câu, bỏ qua kỹ thuật thay số (number replacement) nhằm giữ thông tin số quan trọng q trình phân tích Tách n-grams Dựa vào số lượng token, số n gram định Câu có số token lớn số n lớn Tính toán mức độ tương đồng phương pháp n-gram matching Mỗi câu tài liệu đầu vào đem so sánh với câu đoạn văn nghi ngờ Nhóm lựa chọn sử dụng phương pháp n-gram matching với hệ số Jaccard biến thể từ phân tích đánh giá phương pháp hệ số tương đồng khác hệ số Cosine, hệ số Jaccard, hệ số Jaccard biến thể 1, độ xác linh động Lọc kết Mỗi câu tài liệu đoạn văn đưa số tương đồng Nhóm xuất trích cặp câu có mức độ tương đồng lớn ngưỡng phù hợp để coi exact copy Theo mức độ nghiêm trọng tham khảo sách đạo văn , nhóm đề xuất sử dụng ngưỡng dành cho phương thức exact-copy 95% ngưỡng dành cho phương thức near-copy 90% với hệ số Jaccard Những cặp câu có độ tương đồng bé ngưỡng kết luận đạo văn phương thức paraphrasing 3.2.4.2.* Mơ hình phát tương đồng ngữ nghĩa cấp độ câu Đo lường mức độ tương đồng ngữ nghĩa hai văn (Semantic Textual Similarity) nhiệm vụ quan trọng NLP Đã có nhiều phát triển kỹ thuật để giải toán như: kỹ thuật dựa chuỗi (String-based), kỹ thuật sử dụng mơ hình khơng gian vector (VSM), … Và đặc biệt ngày thời đại Pretrained Language Model, mơ hình transformers ngày phát triển BERT, PhoBERT dành cho tiếng Việt Các mơ hình Pretrained Language Model Fine Tuning để phù hợp cho nhiện vụ khác Năm 2019, Nils Reimers Iryna Gurevych giới thiệu Sentence-BERT (SBERT), tận dụng khả BERT sử dụng kiến trúc Siamese Neural Network (SNN) mạng ba (Triplet Network) để tạo vector câu (sentence embedding) mang nhiều ý nghĩa mặt ngữ nghĩa Các mơ hình SBERT sử dụng để đo mức độ tương đồng ngữ nghĩa hai văn sau sử dụng phép tính Các mơ hình SBERT giảm đáng kể độ phức tạp thời gian để tìm câu tương tự so với việc sử dụng mơ hình BERT h 30 truyền thống, độ xác trì Hơn nữa, SBERT linh hoạt, giúp nhà nghiên cứu dễ dàng tạo mơ hình họ với thành phần tùy chỉnh Từ nhóm định tiến hành thử nghiệm mơ hình Sentence BERT cho đơn ngơn ngữ (Monolingual SBERT) kết hợp với PhoBERT sử dụng kho ngữ liệu tiếng Việt để xử lý toán phát tương đồng ngữ nghĩa hai câu Kiến trúc mơ hình Sentence BERT nhóm cho tiếng Việt , dựa mơ hình SBERT ban đầu, bao gồm hai lớp: transformer pooling Kiến trúc mơ hình mơ tả hình sau: Hình 12: Kiến trúc mơ hình SBERT-Vietnamese Để huấn luyện mơ hình, nhóm sử dụng cặp câu tiếng Việt gắn nhãn ứng với loại ngữ liệu tương ứng (bao gồm liệu NLI - Natural Language Inference STS - Semantic Textual Similarity) Để dánh giá mơ hình nhóm sử dụng tập liệu VnPara Bach cộng tác vụ nhận dạng paraphrasing (diễn giải) tiếng Việt Mơ hình SBERT-Vietnamese nhóm phát triển đạt kết tốt đến so với mơ hình gần liệu với độ xác 95.33% điểm F1-Score 95.42% 3.2.4.3 Quy trình so sánh phân tích chi tiết Quy trình so sánh phân tích chi tiết thực sau: Tiền xử lý văn đầu vào đoạn văn tập tài liệu ứng viên Lưu ý, việc tiền xử lý giai đoạn khác với giai đoạn tiền xử lý giai đoạn tìm kiếm 86 liệu ứng viên quy trình phát đạo văn Ở giai đoạn này, việc tiền xử lý thực cấp độ câu, giai đoạn trước, việc tiền xử lý thực cấp độ đoạn Để đảm bảo độ xác cao, câu văn có từ trở lên kiểm tra đạo văn, câu ngắn thường không đủ thông tin để kiểm tra đạo văn Kết trả bao gồm tập hợp h 31 câu văn tài liệu nguồn đoạn tập tài liệu ứng viên tiền xử lý Thực word embedding cho toàn câu Ở bước này, nhóm sử dụng mơ hình SBERT mà nhóm thực để tiến hành word embedding cho câu Mỗi câu biểu diễn thành sentence vector Kiểm tra đạo văn phương thức paraphrsing Ở bước này, vector câu văn đầu vào tính tốn mức độ tương đồng sử dụng hệ số cosine similarity Nếu hệ số tương đồng lớn ngưỡng cho trước, câu tương ứng với cặp vector so sánh coi đạo văn theo phương thức paraphrasing Đối với việc lựa chọn ngưỡng, nhóm tiến hành đánh giá kết phần thực model SBERT định lựa chọn ngưỡng mặc định cho đạo văn paraphrasing 0.7 theo hệ số cosine similarity Những cặp câu không vượt ngưỡng coi không đạo văn theo phương thức Kiểm tra đạo văn phương thức Near Copy Exact Copy Các cặp câu sau phát đạo văn theo phương thức paraphrasing tiếp tục kiểm tra đạo văn theo phương thức Near Copy Exact Copy Các vector khơng sử dụng nữa, thay ta kiểm tra dựa phương pháp dựa chuỗi (String Based), câu văn ban đầu đưa vào trình kiểm tra Phương pháp mà nhóm lựa chọn phương pháp tính tốn mức độ tương đồng giải thuật n-gram matching Đối với giai đoạn tiền xử lý quy trình trên, tùy thuộc vào tài liệu đầu vào tài liệu tiếng Anh tiếng Việt mà quy trình lựa chọn module tiền xử lý tiếng Anh tiếng Việt để thực tương ứng Ngoài ra, tùy thuộc vào trình thu thập tài liệu ứng viên giai đoạn trước gì, quy trình có sai khác nhỏ Nếu trình thu thập tài liệu ứng viên local database, quy trình khơng có thay đổi Nếu q trình thu thập tài liệu ứng viên nguồn online, quy trình có sai khác trình tiền xử lý, đầu vào khơng cịn danh sách đoạn văn nghi ngờ Đầu vào lúc trở thành tồn nội dung tài liệu nguồn tìm thực quy trình tiền xử lý cấp độ đoạn văn để trả danh sách đoạn văn có tài liệu Đối với giai đoạn kiểm tra đạo văn phương thức paraphrasing, việc thực xây dựng model SBERT ảnh hưởng quan trọng đến toàn kết trình so sánh phân tích chi tiết h 32 3.2.5 Giai đoạn hậu xử lý Việc thực so sánh văn nghi ngờ văn nguồn kỹ thuật so sánh chuyên sâu cho kết mức độ tương đồng câu tài liệu nghi ngờ câu tài liệu nguồn Sau đó, giai đoạn Post-processing thực việc tổng hợp lại chứng đạo văn tìm liệu gốc, để hiển thị trực quan chứng cho hành vi đạo văn Cũng từ tính tốn phần trăm đạo văn tài liệu nghi ngờ so với tài liệu nguồn nguồn, tổng phần trăm đạo văn toàn tài liệu nghi ngờ 3.2.6 Kiến trúc mơ hình phát đọa văn 3.2.6.1 Quy trình xây dựng local database Hình 12: Mơ hình lưu liệu vào database Các tài liệu đàu vào dạng file đọc nội dung thông qua module Reader, sau nhóm sử dụng module Database để đưa nội dung đọc vào local database h 33 3.2.7.2 Quy trình phát đạo văn hai văn đầu vào Hình 13: Quy trình phát đạo văn Giai đoạn tiền xử lý Trước hết nhóm trích lấy nội dung tài liệu đạo văn tài liệu nguồn Nếu tài liệu đầu vào có định dạng file, nhóm sử dụng module Reader để trích xuất nội dung có file Nội dung văn sau module Pre-processing Giai đoạn so sánh phân tích chi tiết hậu xử lý Nội dung tài liệu sau tiền xử lý đưa vào module Exhaustive Analysis để trả chứng đạo văn câu tài liệu đầu vào Các chứng thơng qua module Post-Processing để tổng hợp, tính tốn để trả kết cuối h 34 KẾT QUẢ - THẢO LUẬN Xây dựng thành công mơ hình SBERT nhóm áp dụng việc phát diễn giải ngữ nghĩa cấp độ câu dành cho tiếng Việt (semantic paraphrasing) Mơ hình nghiên cứu nhóm sử dụng để hồn thành báo khoa học hội nghị The First International Conference on Intelligence of Things (ICIT 2022) Hà Nội chấp nhận Nội dung báo trích phần Phụ lục Xây dựng áp dụng thành công mô hình Doc2Vec trình tìm kiếm tài liệu ứng viên, đặc biệt tài liệu tiếng Việt Tìm kiếm thu thập tài liệu cho local database hệ thống, bao gồm tài liệu tiếng Anh tiếng Việt phương pháp tìm kiếm tương đồng khơng gian vector Tìm kiếm thu thập tài liệu ứng viên từ nguồn Internet, áp dụng kỹ thuật trích xuất keyphrase, tạo câu truy vấn, tích hợp kiểm sốt q trình tìm kiếm Bing lọc kết tìm kiếm Xây dựng áp dụng thành công kỹ thuật phân tích chuỗi cho việc phân tích chuyên sâu, phát đạo văn cấp độ câu Áp dụng thành công kỹ thuật cho quy trình phát đạo văn, đặc biệt văn tiếng Việt, ứng dụng kỹ thuật Machine Learning, Deep Learning, NLP Xây dựng thành cơng trang web để sử dụng hệ thống dành cho cấp độ người dùng sinh viên, giảng viên, người quản lý KẾT LUẬN - ĐỀ NGHỊ 5.1 Những đóng góp hệ thống Là số hệ thống phát đạo văn miễn phí dành riêng cho sinh viên Việt Nam nói chung sinh viên Đại học Bách Khoa nói riêng Hệ thống tập trung vào việt phát đạo văn dành cho văn tiếng Việt, đa số hệ thống phổ biến khác tập trung vào phát đạo văn cho văn tiếng Anh Nâng cao nhận thức sinh viên vấn đề đạo văn hỗ trợ sinh viên việc hạn chế đạo văn học tập h 35 Đề xuất, xây dựng áp dụng thành công kỹ thuật quy trình phát đạo văn 5.2 Những hạn chế tồn Thời gian thực thi việc kiểm tra đạo văn nguồn Internet lớn, phụ thuộc vào tốc độ đường truyền độ phức tạp nội dung văn kiểm tra Quá trình tìm kiếm tài liệu online cần cải thiện kết tìm kiếm Quá trình tiền xử lý văn chưa xử lý số trường hợp đặc biệt văn đầu vào số trang, mục, trích dẫn, Hệ thống chưa hỗ trợ giao diện người dùng mobile 5.3 Hướng phát triển hệ thống Bổ sung làm giàu tập liệu có local database, từ phát triển mơ hình Doc2Vec Đối với trình tiền xử lý, kỹ thuật NLP áp dụng để nâng cao khả phát đạo văn lexical generalisation, predicate generalisation, Syntactic constituent extraction, Dependency relation extraction, Mở rộng khả tìm kiếm nguồn tài liệu đạo văn nhiều yếu tố quan trọng văn cấu trúc văn bản, trích dẫn, Mở rộng khả phát phương thức đạo văn phức tạp Cải thiện thời gian thực thi kiểm tra kỹ thuật áp dụng tính tốn song song, giảm độ phức tạp thời gian giải thuật sử dụng, TÀI LIỆU KHAM KHẢO [1] Shipra Awasthi and Manorama Tripathi Use of text-matching software in education and research: a review of select literature, Annals of Library and Information Studies Vol 68, June 2021, pp 178-189 [2] Starovoytova D and Namango S S Viewpoint of undergraduate engineering students on plagiarism Journal of Education and Practice, 7(31) (2016) 48-65 h 36 [3] Husain F M, Al-Shaibani G K S and Mahfoodh O H A, Perceptions of and attitudes toward plagiarism and factors contributing to plagiarism: a review of studies Journal of Academic Ethics, 15 (2) (2017) 167-195 [4] Chankova M Dealing with Students’ Plagiarism pre-emptively through teaching proper information exploitation International Journal for the Scholarship of Teaching and Learning, 11 (2) (2017) [5] UGC Promotion of Academic Integrity and Prevention of Plagiarism in Higher Educational Institutions Regulations (2018), Plagiarism Policy [6] Memon A R and Mavrinac M, Knowledge, attitudes, and practices of plagiarism as reported by participants completing the AuthorAID MOOC on research writing, Science and Engineering Ethics, 26 (2020) 1067-1088 [7] Vani K and Deepa Gupta, Study on Extrinsic Text Plagiarism Detection Techniques and Tools, Journal of Engineering Science and Technology Review, October 2016 DOI: 10.25103/jestr.095.02 [8] Weber-Wulff D, Plagiarism detectors are a crutch, and a problem, Nature, 567 (7749) (2019) 435 Doi: 10.1038/ d41586-019-00893-5 [9] Merriam-Webster Dictionary (2016) Simple Definition of Plagiarism http://www.merriam-webster.com/dictionary/plagiarism [10] Cambridge University Press (2018) Meaning of “plagiarize” in the English Dictionary http://dictionary.cambridge.org/ dictionary/english/plagiarize?q=plagiarism [11] Man Yan Miranda Chong, A Study on Plagiarism Detection and Plagiarism Direction Identification Using Natural Language Processing Techniques, https://wlv.openrepository.com/handle/2436/298219, 2013 [12] Oxford Dictionary (2018) Definition of plagiarism http://www.oxforddictionaries.com/definition/english/ plagiarism in English [13] Alzahrani, S M., Salim, N., Abraham, A (2012) Understanding Plagiarism Linguistic Patterns, Textual Features, and Detection Methods IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 42(2), 133–149 https://doi.org/10.1109/TSMCC.2011.2134847 h 37 [14] Michael Wise Running karp-rabin matching and greedy string tiling Technical Report 463, Basser Department of Computer Science, University of Sydney, Sydney, Australia, 1993 [15] Quoc Le, Tomas Mikolov: Distributed Representations of Sentences and Documents, 2014, arXiv:1405.4053v2 [cs.CL] [16] Matthias Hagen, Martin Potthast, and Benno Stein Source Retrieval for Plagiarism Detection from Large Web Corpora: Recent Approaches Linda Cappellato and Nicola Ferro and Gareth Jones and Eric San Juan (eds.): CLEF 2015 Labs and Workshops, Notebook Papers, 8-11 September, Toulouse, France CEUR Workshop Proceedings ISSN 1613-0073, http://ceur-ws.org/Vol-1391/, 2015 [17] Suchomel, Šimon., Brandejs, M.: Improving Synoptic Quering for Source Retrieval—Notebook for PAN at CLEF 2015 In: [2] [18] Liu, Zhiyuan & Lin, Yankai & Sun, Maosong Document Representation 10.1007/978-981-15-5573-2_5, 2020 [19] Han, Y.: Submission to the 7th International Competition on Plagiarism Detection http://www.uni-weimar.de/medien/webis/events/pan-15 (2015), http://www.clef-initiative.eu/publication/working-notes, From the Heilongjiang Institute of Technology [20] Nils Reimers, Iryna Gurevych: Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks In: EMNLP 2019 arXiv:1908.10084, 2019 [21] Xuan Bach, Ngo & Tran, Oanh & Hai, Nguyen & Phuong, Tu.: Paraphrase Identification in Vietnamese Documents In: 2015 IEEE International Conference on Knowledge and Systems Engineering, KSE 2015 2015, pp 174 179 ISBN: 9781467380133 DOI: 10.1109/KSE 2015.37 [22] Dien Dinh, Nguyen Le Thanh: Vietnamese Sentence Paraphrase Identification using Pre-trained Model and Linguistic Knowledge In (IJACSA) International Journal of Advanced Computer Science and Applications, Vol 12, No 8, 2021 [23] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, Illia Polosukhin (2017) Attention is All you Need, Advances in Neural Information Processing Systems 30 (NIPS 2017) [24] Kong, L., Lu, Z., Han, Y., Qi, H., Han, Z., Wang, Q., Hao, Z., Zhang, J.: Source Retrieval and Text Alignment Corpus Construction for Plagiarism Detection— Notebook for PAN at CLEF 2015 In: [2] h 38 [31] Vani,K., and Gupta,D Investigating the Impact of Combined Similarity Metrics and POS tagging in Extrinsic Text Plagiarism Detection System Proc of Int Conf on Advances in Computing,Communication and Informatics, Kochi, India, 1578-1584(2015) [32] Alzahrani,S.M., and N Salim Fuzzy semantic-based string similarity for extrinsic plagiarism detection- lab report for PAN at CLEF 2010 Proc of 2nd Int Workshop PAN-10, Padua, Italy(2010) [33] Alzahrani, S.M., Salim, N., and Palade, V Uncovering highly obfuscated plagiarism cases using fuzzy semantic-based similarity model Journal of King Saud University – Computer and Information Sciences, 27(3), 248-268 doi: 10.1016/j.jksuci.2014.12.001.(2015) [34] Gupta, D., Vani, K., and Singh, C.K Using Natural Language Processing techniques and fuzzy-semantic similarity for automatic external plagiarism detection Proc of Int Conf on Advances in Computing, Communication and Informatics, Noida, 2694-269(2014) [35] Osman, A.H., Salim,N., Binwahlanc,M.S., Alteebd,R., and Abuobieda,A An improved plagiarism detection scheme based on semantic role labelling Journal of Applied Soft Computing, 12, 1493–1502(2012) [36] Kalleberg and Rune Borge Towards Detecting Textual Plagiarism Using Machine Learning Methods, Master thesis, University of Agder (2015) [37] Zdenek Ceska, Chris Fox The Influence of Text Pre-processing on Plagiarism Detection International Conference RANLP 2009 - Borovets, Bulgaria, pages 55–59 [38] Osman, A.H., Salim,N., and Binwahlanc,M.S Plagiarism Detection Using Graph-Based Representation Journal of Computing, 2(4) (2010) [39] Meuschke, N., Gipp, B., and Breitinger, C CitePlag: A citationbased plagiarism detection system prototype Proc of the 5th Int.Plagiarism Conf., Newcastle upon Tyne, UK2012 [40] Alzahrani, S.M., Palade, V., Salim, N., and Abraham,A Using structural Information and Citation Evidence to Detect Significant Plagiarism cases in Scientific Publications Journal of the American Society for Information Science and Technology, 63(2), 217- 430(2011) h 39 [41] Zechner, M., Muhr,M., Kern,R., and Granitzer,M External and intrinsic plagiarism detection using vector space models Proc of SEPLN, Spain, 47–55 (2009) [42] John Ousterhout A Philosophy of Software Design (2018) Yaknyam Press; 1st edition (April 6, 2018), ISBN-13: 978-1732102200 [43] Serdar Yegulalp NoSQL standouts: The best document databases (2018) URL: https://www.infoworld.com/article/3201884/nosql-standouts-the-bestdocument-databa ses.html [44] PostgreSQL vs MySQL: What is the Difference? https://www.guru99.com/postgresql-vs-mysql-difference.html [45] Open-source Vietnamese Natural Language https://github.com/undertheseanlp/underthesea (2022) [46] Getting Started with Redux https://reduxtoolkit.js.org/introduction/getting-started Toolkit (2021), Process (2021) URL: Toolkit, URL: [47] Vietnamese Stopwords: https://github.com/stopwords/vietnamese-stopwords [48] What is Continuous Machine Learning? https://levity.ai/blog/whatis-continuous-machine-learning (2021) URL: [49] Overview of the 6th International Competition on Plagiarism Detection (2014) URL: https://pan.webis.de/ [50] Dat Quoc Nguyen, Anh Tuan Nguyen PhoBERT: Pre-trained language models for Vietnamese Findings of the Association for Computational Linguistics: EMNLP (2020) [51] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding arXiv:1810.04805 (2018) [52] SQuAD2.0 The Stanford Question Answering Dataset, https://rajpurkar.github io/SQuAD-explorer/ [53] Vietnamese NLI Dataset, Dat Quoc Nguyen, https://github.com/DatCanCode/ sentence-transformers/tree/master/DataNLI [54] Semantic Textual Similarity Wiki, http:// ixa2.si.ehu.eus/ stswiki h

Định dạng
Số trang	40
Dung lượng	1,23 MB