Bài viết trình bày một phương pháp phát hiện ra tập tiềm năng có sử dụng thuật toán tách giá trị đơn (SVD [7]) theo mô hình lập trình song song. Các cài đặt và thử nghiệm của chúng tôi cho thấy có thể áp dụng phương pháp để phát hiện ra các tập tiềm năng bị sao chép và sắp xếp (ranking) chúng, từ đó có thể hạn chế số lượng tập tin cần phân tích, so sánh để phát hiện ra các đoạn bị sao chép.
TRAO ĐỔI THÔNG TIN KHOA HỌC Xây dựng ứng dụng phát đạo văn TRONG NGHIÊN CỨU KHOA HỌC Đinh Thái Sơn, Nguyễn Thị Hảo Bộ môn CNPM, Khoa Kỹ thuật–Cơng nghệ, Trường Đại học Hùng Vương TĨM TẮT N gày nay, có nhiều tài liệu văn truy xuất dễ dàng dạng tài liệu kỹ thuật số người ta truy cập chép dễ dàng Vấn đề đạo văn nói chung chép luận văn, đồ án nói riêng nói mặt tiêu cực phổ biến cần phát ngăn chặn Trong báo này, chúng tơi trình bày phương pháp phát tập tiềm có sử dụng thuật toán tách giá trị đơn (SVD [7]) theo mơ hình lập trình song song Các cài đặt thử nghiệm chúng tơi cho thấy áp dụng phương pháp để phát tập tiềm bị chép xếp (ranking) chúng, từ hạn chế số lượng tập tin cần phân tích, so sánh để phát đoạn bị chép Từ khóa: Đạo văn, hội thảo khám phá đạo văn, tác quyền lạm dụng phần mềm xã hội, tính tốn song song, … Đặt vấn đề 1.1 Vấn nạn đạo văn Vấn đề (hay vấn nạn) chép tài liệu (đạo văn) ngày vấn đề nghiêm trọng môi trường giáo dục Với phát triển mạnh mẽ công nghệ thông tin kỹ thuật lưu trữ cơng cụ tìm kiếm Google, Bing,… việc chép thực cách dễ dàng Sự chép ngày phổ biến cấp độ: từ đồ án, tiểu luận, luận văn tốt nghiệp đại học luận văn tiến sĩ Nhiều chép khác giáo trình, giảng cịn phổ biến Có nhiều viết báo có uy tín cơng khai tình trạng chép bừa bãi luận văn Ngày nay, có nhiều phần mềm hỗ trợ cho việc phát đạo văn Đa phần phần mềm thực kiểm tra chép tài liệu từ “kho tài liệu” internet, tức kiểm tra với tài liệu nguồn từ internet Các phần mềm có ưu điểm kiểm tra với nguồn phong phú Tuy vậy, nước ta khơng có nhiều phần mềm biết rõ hỗ trợ kiểm tra sở liệu đóng tổ chức, ví dụ thư viện trường hay kho luận văn trường 1.2 Các hình thức đạo văn Meuschke Gipp (Meuschke and Gipp, 2013) [3] phân loại hình thức đạo văn học sau: Tạp chí Khoa học & Cơng nghệ số (8) – 2017 87 TRAO ĐỔI THÔNG TIN KHOA HỌC • Đạo văn hồn tồn: mơ tả loại chép gần không thay đổi so với tài liệu nguồn Nó bao gồm hình thức “sao chép dán” (Maurer, Kappe et al., 2006); “trộn dán” (Weber-Wulff, 2010) “Sao chép dán” hình thức phép hồn tồn nội dung mà khơng có thay đổi “Trộn dán” hình thức chép có vài thay đổi nhỏ so với tài liệu nguồn • Giả tạo đạo văn: mô tả loại diễn giải, ngụy trang kỹ thuật, hay dịch từ ngôn ngữ sang ngôn ngữ khác • Đạo văn cấu trúc ý tưởng: đề cập đến hình thức sử dụng cấu trúc người khác, khái niệm rộng mà khơng đưa trích dẫn nguồn phù hợp • Tự đạo văn: đề cập đến loại tái sử dụng câu hay đoạn văn riêng mà khơng ghi nguồn phù hợp Theo quan sát chúng tôi, đạo văn theo dạng “sao chép dán” xảy phổ biến Đây loại đạo văn xảy hai chương trình đại học sau đại học Nghiêm trọng hơn, có số trường hợp sinh viên chép số chương, hay chí tồn nội dung luận văn người khác Các loại khác đạo văn phát ghi nhận Điều khơng có nghĩa khơng xảy Việt Nam Phương pháp nghiên cứu 2.1 Phát chép theo giải pháp PAN Từ năm 2009 đến nay, hàng năm hội thảo khám phá đạo văn, tác quyền lạm dụng phần mềm xã hội (Uncovering Plagiarism, Authorship and Social Software Misuse 88 Tạp chí Khoa học & Công nghệ số (8) – 2017 Workshop) gọi tắt PAN Workshop (http:// pan.webis.de) tổ chức tranh tài quốc tế phát chép văn (International Competition on Plagiarism Detection) Cuộc thi thu hút nhiều nhà nghiên cứu từ nhiều lĩnh vực liên quan đến phát chép văn tự động Để đánh giá giải pháp dự thi, PAN phát triển lớp thư viện (framework) đánh giá bao gồm sở liệu mẫu lớn gồm Dq, D S Dq tập hợp tài liệu nghi ngờ có đạo văn, D tập hợp tài liệu gốc S tập hợp ghi trường hợp chép Dq D Ngoài ra, lớp thư viện đề độ đo hiệu suất phát (detection performance measure) để so sánh độ xác giải thuật phát đạo văn Một cách tổng quát, hệ thống phát chép thông thường cài đặt ba bước xử lý bản: ■■ Thứ nhất, từ tài liệu kiểm tra d kho liệu tài liệu nguồn D, hệ thống tìm tập tài liệu tiềm Dd ⊂ D xác định cho Dd nhỏ chứa nhiều tài liệu nguồn xác mà d chép ■■ Thứ hai, tài liệu tiềm so sánh với d, trích xuất tất đoạn văn có mức độ tương tự cao ■■ Thứ ba, cặp đoạn văn phát lọc lại dựa quy tắc biểu diễn trực quan cho người dùng Ví dụ cho bước xử lý gồm có loại bỏ phát ngắn, chồng chéo gộp phát liền kề thành phát nhất, Qua việc tìm hiểu giải pháp đề xuất hội thảo PAN, thấy giải pháp đề xuất PAN năm 2010 TRAO ĐỔI THÔNG TIN KHOA HỌC [2] làm mơ hình tham khảo sở cho nghiên cứu Các bước giải pháp: ■■ Tiền xử lý văn bản: • Các tập tin văn tách từ đơn, loại bỏ từ phổ biến, chung chung (stopword) • Các tài liệu nguồn phân tích lưu trữ dạng mục đảo ngược Cách phổ biến hội thảo PAN tách thành cụm 4-gram lập mục 4-gram ■■ Tìm kiếm tài liệu nguồn tiềm năng: • Vì số lượng tập tài liệu nguồn thường lớn nên trước hết phải có giải thuật “lọc” để giới hạn việc so sánh phát chép tập nhỏ tài liệu tiềm Cách thức lọc giải pháp đưa PAN “có 20 4-gram chung” Các tập tin tài liệu nguồn có từ 20 4-gram chung với tài liệu kiểm tra coi “tiềm năng” giữ lại để thực việc phân tích so sánh kỹ • Số lượng tài liệu nguồn tiềm cho tài liệu kiểm tra giới hạn (ví dụ 100 tài liệu chẳng hạn) cách xếp giảm dần theo số lượng từ 4-gram chung chọn từ cao xuống thấp Con số 20 4-gram chung số mang tính thực nghiệm ■■ So sánh chi tiết cặp tài liệu: Đối với tài liệu kiểm tra, sau tìm tập tài liệu nguồn tiềm năng, tiến hành so sánh chi tiết cặp tài liệu để xác định đoạn văn giống ■■ Tinh lọc kết quả: Các đoạn văn hợp lệ xem đoạn văn chép Bước cuối bao gồm việc loại bỏ phát chồng chéo sau biểu diễn cho người dùng 2.2 Mơ hình phát chép tích hợp giải thuật tách giá trị đơn 2.2.1.Mơ hình đề xuất Mặc dù giải pháp [3] PAN Workshop đánh giá cao tồn số vấn đề cần giải Theo giải pháp PAN trình bày phần trên, nhược điểm giải pháp xảy giai đoạn tìm tập tài liệu tiềm Thứ số 20 4-gram chung [3] đề xuất hay tổng quát n 4-gram chung dựa vào kinh nghiệm, khơng có hiệu nhiều trường hợp, thư viện đóng với chủ đề gần nhau, hạn kho luận văn ngành cơng nghệ thơng tin Sau tìm tập tài liệu có số n 4-gram chung Nếu tập lớn để ưu tiên xét tập tiềm nhất? Khơng có sở để xếp (ranking) giảm dần theo số 4-gram chung ấn định số lượng giới hạn tập tiềm Ví dụ xếp giảm dần theo số 4-gram chung lấy 100 tài liệu làm tập tiềm Chứng tỏ khơng phải nhiều 4-gram chung có khả bị chép cao Xuất phát từ sở trên, báo đề giải pháp cải tiến cho giai đoạn tìm tập tài liệu tiềm Đề xuất sử dụng việc phân tích Singular Value Decomposition (SVD) [7] kết hợp với không gian vector để áp dụng cho giai đoạn tìm tập tài liệu tiềm Bước đầu sử dụng mơ hình khơng gian vector: tài liệu tập tài liệu nguồn mơ hình hóa thành vector đặc trưng Và tài liệu kiểm tra sau qua bước tiền xử lý tách từ, loại Tạp chí Khoa học & Cơng nghệ số (8) – 2017 89 TRAO ĐỔI THÔNG TIN KHOA HỌC bỏ stop-word, lập thành ma trận từ– tài liệu Ma trận có số chiều lớn, áp dụng giải thuật SVD để làm giảm số chiều, loại bỏ giá trị nhiễu, giữ lại giá trị đặc trưng làm tăng hiệu Tiếp theo, tài liệu đo độ tương đồng theo độ đo cosin sở để trích lọc tập tài liệu tiềm Nói cách khác tài liệu thư viện tính độ tương đồng (độ đo cosin) với tài liệu kiểm tra dựa theo độ tương đồng xếp (ranking) ấn định ngưỡng xem xét theo độ tương đồng không theo số lượng tập tin Điều tự nhiên hơn, tập tin kiểm tra bị chép từ nhiều tập có nhiều tập tiềm năng, khơng bị chép số lượng tập tiềm nhỏ Các bước để phân tích tài liệu tiềm phát chép giải pháp PAN Vấn đề phát sinh việc tính tốn SVD thời gian ma trận từ–tài liệu cho 4-gram lớn Để khắc phục điểm này, chúng tơi đề xuất sử dụng việc phân tích SVD tính tốn song song Do vậy, đề xuất bao gồm xây dựng giải pháp song song, máy (hay cụm máy) đảm nhận công việc riêng biệt, tăng hiệu suất tối đa xử lý Do báo chúng tơi đề xuất việc dựa mơ hình tổng thể PAN để xây dựng ứng dụng đề xuất dùng SVD tính tốn song song phân tán, mặt tận dụng ưu điểm PAN đưa mặt khác cải tiến mơ hình nhằm cải thiện hiệu xử lý hệ thống, hỗ trợ cho việc dị tìm phát chép thực cách nhanh 90 Tạp chí Khoa học & Cơng nghệ số (8) – 2017 2.2.2 Mơ hình khơng gian vector (Vector Space Model) Mơ hình khơng gian vector đề xuất năm 1975 Salton cộng Mơ hình không gian vector làm nhiệm vụ đưa tất văn tập văn mô tả tập từ khố hay cịn gọi từ mục (index terms) sau loại bỏ từ có ý nghĩa (stop-word) Mỗi văn d biểu diễn vector chiều từ mục d = (t1, t2,…, tn) với ti từ mục thứ i (1 ≤ i ≤ n) văn d Tương tự tài liệu truy vấn biểu diễn vector q = (q1, q2,…,qn) Lúc độ đo tương tự văn d tài liệu truy vấn q độ đo cosin chúng Hình Góc vector truy vấn vector văn 2.2.3 Giải thuật tách giá trị đơn (Singular Value Decomposition – SVD) Giải thuật SVD Golub Kahan giới thiệu năm 1965 [7], cơng cụ phân rã ma trận hiệu sử dụng để giảm hạng (hay số chiều) ma trận Kỹ thuật áp dụng vào nhiều toán xử lý văn khác tóm tắt văn bản, phát chép, lập mục truy vấn SVD cho phép phân tích ma trận phức tạp thành ba ma trận thành phần Mục đích nhằm đưa việc giải tốn liên quan TRAO ĐỔI THƠNG TIN KHOA HỌC đến ma trận lớn, phức tạp toán nhỏ A= USVT Trong đó: • U ma trận trực giao cấp m × r (m số từ mục)—các vector dòng U vector từ mc ã S l ma trn ng chộo cp r ì r có giá trị suy biến (singular value) σ1 ≥σ2 ≥…≥σr với r= rank(A) • V ma trận trực giao cấp r × n (n số văn tập văn bản)—các vector cột V vector văn • Hạng ma trận A số dương đường chéo ma trận S Giả sử hạng ma trận A r hay rank(A) = r số Frobenius A A = ∑ σ Ta sử dụng SVD để xấp xỉ ma trận U k S kVkT A với n giá trị đơn: A ≈ Ak = Ma trận xấp xỉ Ak = U k SkVkT có hạng k với k