Công trình hệ thống hỗ trợ phát hiện đạo văn

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	40
Dung lượng	520,61 KB

Nội dung

ĐOÀN THANH NIÊN CỘNG SẢN HỒ CHÍ MINH BAN CHẤP HÀNH TP HỒ CHÍ MINH CÔNG TRÌNH DỰ THI GIẢI THƯỞNG SINH VIÊN NGHIÊN CỨU KHOA HỌC EURÉKA LẦN THỨ 24 NĂM 2022 TÊN CÔNG TRÌNH HỆ THỐNG HỖ TRỢ PHÁT HIỆN ĐẠO VĂ[.]

ĐỒN THANH NIÊN CỘNG SẢN HỒ CHÍ MINH BAN CHẤP HÀNH TP HỒ CHÍ MINH CƠNG TRÌNH DỰ THI GIẢI THƯỞNG SINH VIÊN NGHIÊN CỨU KHOA HỌC EURÉKA LẦN THỨ 24 NĂM 2022 TÊN CÔNG TRÌNH: HỆ THỐNG HỖ TRỢ PHÁT HIỆN ĐẠO VĂN LĨNH VỰC NGHIÊN CỨU: Cơng nghệ thơng tin CHUN NGÀNH: Trí tuệ nhân tạo Mã số cơng trình: (Phần BTC Giải thưởng ghi) TÓM TẮT Cơng trình nhóm nhằm xây dựng phát triển hệ thống phát đạo văn nhằm mục đích phát đưa chứng đạo văn tài liệu văn tiếng Anh tiếng Việt Hệ thống nhóm đưa chứng đạo văn tập tài liệu có sẵn trang web online Nhóm sử dụng kỹ thuật đại xử lý ngôn ngữ tự nhiên NLP tích hợp với cơng nghệ trí tuệ nhân tạo AI Đồng thời nhóm tự xây dựng mơ hình học sâu Deep Learning việc phát tương đồng cấu trúc ngữ pháp, ngữ nghĩa câu, từ đưa kết luận đạo văn Quy trình phát đạo văn chia thành giai đoạn: giai đoạn tiền xử lý, giai đoạn thu thập tài liệu ứng viên, giai đoạn so sánh phân tích chi tiết, giai đoạn hậu xử lý Đối với giai đoạn tiền xử lý, nhóm áp dụng kỹ thuật xử lý ngôn ngữ tự nhiên nhằm xử lý văn tài liệu đầu vào Đối với giai đoạn thu thập tài liệu ứng viên, nhóm xây dựng mơ hình học máy phương pháp paragrapgh vector dựa mơ hình Doc2Vec, kết hợp với mơ hình FAISS nhằm tăng tốc độ tìm kiếm tương đồng Kết thu với độ xác 95.06% văn tiếng Anh 96.47% văn tiếng Việt Đối với giai đoạn so sánh phân tích chi tiết, nhóm sử dụng mơ hình Vietnamese SentenceBERT nhóm phát triển dựa mơ hình SBERT nhằm phát tương đồng văn tiếng Việt mơ hình all-distilroberta-v1 nhằm phát tương đồng văn tiếng Anh Mơ hình Vietnamese Sentence-BERT nhóm đạt độ xác 95.33%, vượt trội so với mơ hình tương tự Ngồi ra, nhóm thực số phương pháp dựa chuỗi (string), phương pháp cổ điển việc tính toán mức độ tương động văn Đối với giai đoạn hậu xử lý, nhóm tổng hợp lại kết từ giai đoạn trước, từ đưa kết luận đạo văn Từ khóa: phát đạo văn, phân loại đạo văn, quy trình phát đạo văn, Sentence-BERT, SBERT, PhoBERT, Vietnamese Sentence-BERT sentence embeddings, Vietnamese, pre-trained model, sentence transformer, paraphrase, exact-copy, near-copy, vector space model, n-gram string matching, FAISS, paragraph vector, Doc2Vec ĐẶT VẤN ĐỀ Một kiến thức sinh đòi hỏi phương thức học tập nghiên cứu nghiêm ngặt Một yếu tố quan trọng tính trung thực, trực nghiên cứu Hiện tổ chức giáo dục, cụ thể trường đại học giới áp dụng sách nhằm đảm bảo yếu tố Tuy nhiên thực trạng yếu tố bị vi phạm, phổ biến vấn đề đạo văn (Plagiarism) Các nguyên nhân dẫn đến thực trạng đạo văn liệt kê sau: Sự phát triển công nghệ, đặc biệt Internet, làm tăng khả tiếp nhận thông tin từ khắp nơi nhiều nguồn khác Sự lỏng lẻo việc quản lý số trường đại học làm tăng tần suất đạo văn sinh viên Sinh viên thường đạo văn họ thường khơng bị phạt trích Mà cho dù có bị phạt trích mức độ hình phạt chưa đủ nặng để răn đe Sự thiếu đổi việc đề tập, đề tài nghiên cứu, nguyên nhân quan trọng dẫn đến đạo văn Đạo văn đến từ thân sinh viên, bao gồm: ý thức nghiên cứu, tìm tịi kém; nhận thức đạo văn kém; kỹ viết kém; trích nguồn sai; mềm yếu trước áp lực, cám dỗ điểm số sinh viên Ngồi ra, xuất cơng cụ paraphrasing vơ tình khiến sinh viên có phương pháp để tránh phát công cụ phát đạo văn UGC (University Grants Commission) Relations 2018 đưa sách phịng chống đạo văn Trong đó, nội dung sách nhắc đến việc sử dụng hệ thống phát đạo văn, khẳng định vai trò chúng, bao gồm Turnitin, ithenticate URKUND Vai trò chủ đạo hệ thống phát đạo văn giúp sinh viên có ý thức có trách nhiệm sản phẩm thân Những hiểu biết hệ thống phát đạo văn giúp giảm tỉ lệ xuất đạo văn, giúp nâng cao kỹ viết sinh viên Sự tồn hệ thống phát đạo văn có vai trị người “giám sát viên”, từ giảm tỷ lệ sinh viên đạo văn viết Khi sinh viên biết làm bị kiểm tra đạo văn, họ cố gắng sửa lại nội dung, hạn chế nội dung bị lặp, cho khơng bị coi đạo văn Hiện nay, có nhiều hệ thống phát đạo văn sử dụng trường đại học nhà xuất bản, bao gồm hệ thống online, offline, thương mại cung cấp dịch vụ API Tuy nhiên, chúng mang số hạn chế nhược điểm Nhiều nghiên cứu hầu hết công cụ kiểm tra việc đạo văn sử dụng phương thức “Intelligent” diễn dịch (paraphrasing), tóm tắt (summarizing) sử dụng cơng cụ dịch lại (translation) Các phần mềm phát đạo văn phân biệt đạo văn với câu thường gặp, tên tổ chức, tham khảo, v.v Các hạn chế, nhược điểm công cụ kiểm tra đạo văn liệt kê sau: Phải bỏ chi phí tiền bạc để sử dụng đầy đủ tính cơng cụ Phiên miễn phí có hạn chế như: giới hạn kích thước tập tin đưa vào, giới hạn số lượt sử dụng, độ xác giảm xuống, Mức độ phát đạo văn chưa tốt trường hợp đạo văn phức tạp Kết phân tích chưa đủ sâu, cịn chung chung, chưa đưa phân tích phương thức đạo văn, kỹ thuật đạo văn, Qua khảo sát sinh viên trường Đại học Bách Khoa cơng cụ đạo văn, nhóm nhận thấy hạn chế lớn mà sinh viên gặp phải hỏi: công cụ không hỗ trợ tiếng Việt, khơng có kho liệu Tiếng Việt cụ thể Từ nhu cầu thực tế, với phổ biến vấn đề đạo văn hạn chế cơng cụ phát đạo văn, nhóm xây dựng phát triển hệ thống phát đạo văn, hỗ trợ việc phát đạo văn văn tiếng Việt, với kho liệu tiếng Việt sử dụng Hệ thống hy vọng giải số hạn chế mặt kỹ thuật mà công cụ gặp phải, có vai trò người bạn đồng hành giúp đỡ bạn sinh viên việc nâng cao hiểu biết, ý thức đạo văn, có trách nhiệm với sản phẩm nghiên cứu, làm TỔNG QUAN TÀI LIỆU 2.1 Quy trình phát đạo văn đề xuất Theo Vani Deepa, 2016, quy trình phát đạo văn thường chia hình thức bản: Extrinsic detection: Tài liệu nghi ngờ so sánh với tài liệu khác kho nguồn Intrinsic detection: Tài liệu nghi ngờ phân tích cách đơn lẻ mà không so sánh với nguồn khác Có thể phong cách viết tác giả, phân bố cấu trúc, mức độ phong phú vốn từ Hệ thống tập trung vào hình thức Extrinsic PDS với việc thực kỹ thuật giúp phát phương đạo văn khác Hệ thống xử lý đưa kết phát đạo văn đầu vào so sánh với nguồn liệu xây dựng từ trước hệ thống, nguồn liệu từ Internet Kiến trúc chung Extrinsic PDS thể sau: Hình 1: Quy trình phát đạo văn 2.1.1 Giai đoạn tiền xử lý (Pre-processing) Quy trình phát đạo văn thường chia thành hướng tiếp cận (Vani, Deepa, 2016), Extrinsic detection: Tài liệu nghi ngờ so sánh với tài liệu khác Intrinsic detection: Tài liệu nghi ngờ phân tích cách đơn lẻ mà không so sánh với nguồn khác Có thể phong cách viết tác giả, phân bố cấu trúc, mức độ phong phú vốn từ kho nguồn Nhóm xây dựng quy trình theo hướng Extrinsic detection, hệ thống xử lý đưa kết phát đạo văn đầu vào so sánh với nguồn liệu xây dựng từ trước hệ thống, nguồn liệu từ internet Chong (2013) đề xuất kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) tiền xử lý khác nhau, nhằm áp dụng dành cho trường hợp khác trình phát đạo văn, bao gồm nhóm kỹ thuật chính: Text-Preprocessing, Deep NLP Shallow NLP 2.1.2 Giai đoạn thu thập tập liệu ứng viên (Candidate Retrieval) Bước kiến trúc tìm kiếm nguồn tài liệu ứng viên (Candidate Retrieval) Nguồn tài liệu ứng viên (candidate documents) nguồn tài liệu thu giảm từ nguồn liệu ban đầu, xác định liên quan đến tài liệu đạo văn đem so sánh, đối chiếu cách chi tiết với tài liệu nghi ngờ đạo văn Candidate Retrieval làm giảm không gian tìm kiếm, đưa tài liệu ứng viên để sử dụng kỹ thuật phát đạo văn phức tạp thực giai đoạn sau Ưu điểm giai đoạn Candidate Retrieval mang lại cho hệ thống phát đạo văn: ● Tăng mức độ hiệu thời gian Việc tìm kiếm tồn nguồn tài liệu, sau lựa chọn tài liệu nghi ngờ tài liệu gốc để thực kỹ thuật kiểm tra đạo văn, nhanh so với việc kiểm tra đạo văn toàn nguồn tài liệu ● Tăng độ xác phát đạo văn Việc kiểm tra đạo văn tiến hành tài liệu nghi ngờ tài liệu gốc, giúp tăng độ xác phát đạo văn kỹ thuật kiểm tra phức tạp áp dụng Việc tìm kiếm ban đầu có vai trị lọc, lọc tài liệu không liên quan khỏi tập liệu tập trung tài nguyên vào tài liệu đáng nghi Giai đoạn xử lý hai loại nguồn liệu: ● Offline database: Tài liệu đáng ngờ so sánh mức độ tài liệu (Document level) với tài liệu có sẵn database hệ thống So sánh mức độ tài liệu phương thức document retrieval (như kỹ thuật vector space model mức độ tài liệu) phân tích độ tương đồng (Similarity Analysis) ● Online sources: Đối với nguồn online tìm kiếm, trích xuất từ có ý nghĩa chủ đề văn bản, từ sử dụng vài xử lý truy vấn, từ dùng search engine để tìm nguồn tài liệu ứng viên 2.1.3 Giai đoạn phân tích so sánh chi tiết (Exhaustive Comparison and Analysis) Trong giai đoạn này, tài liệu nghi ngờ so sánh với tập liệu ứng viên thu sau bước Candidate Retrieval cách áp dụng kỹ thuật phát đạo văn khác nhau, tùy theo mức độ muốn phát Từ phân mảnh, phần đạo văn phát với mức độ tương đồng tương ứng với nguồn đối chiếu Các tác giả Vani Deepa đưa phân loại theo kỹ thuật phát đạo văn: string based, vector space model, semantic based, syntax based, structure based citation based Hình 2: Các kỹ thuật phát đạo văn 2.1.4 Giai đoạn hậu xử lý - Post Processing Việc thực so sánh văn nghi ngờ văn nguồn kỹ thuật so sánh chuyên sâu cho kết mức độ tương đồng câu tài liệu nghi ngờ câu tài liệu nguồn Sau đó, giai đoạn Postprocessing thực việc tìm kiếm vị trí câu tài liệu gốc, để hiển thị trực quan chứng cho hành vi đạo văn tài liệu nghi ngờ Cũng từ tính tốn phần trăm đạo văn tài liệu nghi ngờ so với tài liệu nguồn nguồn, tổng phần trăm đạo văn toàn tài liệu nghi ngờ Những kết kết hợp với sách đạo văn để kết luận liệu tài liệu nghi ngờ xem đạo văn hay khơng Cuối hệ thống phát đạo văn đánh giá dựa tập liệu, hiệu suất hệ thống đánh giá đo lường tiêu chuẩn Tập liệu PAN phương pháp đánh giá phổ biến sử dụng rộng rãi việc đánh giá hiệu hệ thống phát đạo văn 2.2 Các cơng trình nghiên cứu liên quan đến hệ số tương đồng (Similarity Metric) Similarity metrics (SM) hệ số nhằm xác định mức độ tương đồng mặt hình thức văn Mỗi SM sử dụng theo mục đích cấp độ phát đạo văn mà hệ thống sử dụng 2.2.1 Hệ số mức độ tương đồng sử dụng n-gram matching Phương pháp n-gram string matching gom cụm n từ câu theo mơ hình ngram Hình 3: Phương pháp sử dụng giải thuật N-gram matching Ở phương pháp này, hệ số Jaccard biến thể sử dụng Trong đó, S(A, n) tập hợp n-gram có A, S(B, n) tập hợp n-gram có B n số lượng từ gram Biến thể hệ số Jaccard phù hợp với trường hợp kích thước văn đạo văn A nhỏ văn nguồn B Biến thể hệ số Jaccard phù hợp kích thước văn đạo văn A B văn nguồn B thường xuyên thay đổi 2.2.2 Hệ số mức độ tương đồng sử dụng mô hình ngơn ngữ - language model Một mơ hình Chong đề xuất mơ hình n-gram việc tính mức độ phân bố từ văn Tác giả cho văn có xác suất phân bố n-gram tương tự có khả hai văn có nội dung gần giống Bằng cách xây dựng mơ hình xác suất bigram dựa văn nguồn, ta áp dụng mơ hình văn đạo văn để xác định văn nguồn văn Trong wk từ nằm văn nghi ngờ đạo văn Ý nghĩa mơ hình ngơn ngữ bigram xác suất để từ w(k) xuất sau chuỗi ký tự w(k−1), w(k−2), , w(k−n) Việc tính xác suất phải tính dựa nguồn liệu có sẵn, từ xấp xỉ xác suất xuất từ dựa theo tần suất xuất từ nguồn liệu Một biến thể mơ hình nhằm chuẩn hóa xác suất xác suất tính phụ thuộc vào số lượng từ có văn nghi ngờ đạo văn Trong trường hợp đặc biệt, xác suất OOV (out-of-vocabulary, tức từ chưa xuất nguồn liệu) tính cách đếm từ chưa xuất văn nghi ngờ đạo văn Phương pháp phù hợp với việc xác định khả xuất từ sau chuỗi từ biết, hỗ trợ việc phát đạo văn cách thay số từ ngữ 2.2.3 Phương pháp sử dụng giải thuật tìm chuỗi chung dài - Longest Common Sequence (LCS) Phương pháp sử dụng giải thuật LCS Wise(1993) đề xuất với hệ số SM sau: Trong đó, A B văn nghi ngờ văn gốc Tập LCS(A,B) độ dài chuỗi chung dài hai văn A B Phương pháp đánh giá phức tạp phụ thuộc nhiều vào tài liệu nguồn 2.2.4 Phương pháp sử dụng tổng quát hoá từ vựng - Lexical generalization Wordnet mạng liệu tổ chức theo dạng cây, đó, node bao gồm từ gọi lemma (tạm dịch “nguyên mẫu”) từ đồng nghĩa với gọi synset Lexical generalization phương pháp so sánh từ với nhau, thay so sánh cặp từ gốc, ta tiến hành việc so sánh synset cặp từ SM phương pháp tính theo biến thể hệ số Jaccard Trong ta chọn n = (tức 1-gram) Phương pháp phù hợp việc phát đạo văn cách thay số từ từ đồng nghĩa Như so với ba phương pháp trên, phương pháp có độ xác cao hơn, nhiên đánh đổi thời gian thực thi số lượng phép so sánh tăng lên việc so sánh từ với 2.2.5 Các phương pháp khác Có nhiều phương pháp tính tốn SM khác Một số phương pháp kể đến Syntactic constituent extraction, Dependency relation extraction, Predicate extraction, Predicate generalisation, Named entity recognition, Word alignment, Đây phương pháp sử dụng NLP việc phát độ tương đồng

Ngày đăng: 25/04/2023, 09:39