1. Trang chủ
  2. » Công Nghệ Thông Tin

Ứng dụng giải thuật Singular Value Decomposition trên nền hệ thống phân tán vào bài toán phát hiện sao chép

10 69 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Bài viết tiến hành đề xuất một phương pháp phát hiện ra tập tiềm năng có sử dụng thuật toán tách giá trị đơn theo mô hình lập trình song song. Các cài đặt và thử nghiệm của chúng tôi đã cho thấy có thể áp dụng phương pháp để phát hiện ra các tập tiềm năng bị sao chép và sắp xếp (ranking) chúng, từ đó có thể hạn chế số lượng tập tin cần phân tích, so sánh để phát hiện ra các đoạn bị sao chép. Đồng thời phương pháp được đề xuất cũng có thể song song hóa để chạy trên một cụm máy tính, nhờ đó có thể áp dụng trên các tập dữ liệu có dung lượng lớn như là một thư viện điện tử thực thụ.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00094 ỨNG DỤNG GIẢI THUẬT SINGULAR VALUE DECOMPOSITION TRÊN NỀN HỆ THỐNG PHÂN TÁN VÀO BÀI TOÁN PHÁT HIỆN SAO CHÉP Nguyễn Võ Thông Thái 1, Bùi Võ Quốc Bảo2, Huỳnh Phụng Tồn2, Trần Cao Đệ2 Trung tâm Cơng nghệ phần mềm, Đại học Cần Thơ Khoa Công nghệ thông tin & Truyền thông, Đại học Cần Thơ nvtthai@ctu.edu.vn, bvqbao@ctu.edu.vn, hptoan@ctu.edu.vn, tcde@ctu.edu.vn TĨM TẮT— Ngày nay, có nhiều tài liệu văn truy xuất dễ dàng dạng tài liệu kỹ thuật số người ta truy cập chép dễ dàng Vấn đề đạo văn nói chung chép luận văn, đồ án nói riêng nói mặt tiêu cực phổ biến cần phát ngăn chặn Các phương phát phát chép tài liệu công bố Hội thảo PAN Workshop vừa qua thường dựa lập mục nghịch đảo cho cụm từ (4-gram) Việc xác định tập hợp tài liệu tiềm (có thể bị chép) dựa ngưỡng số 4-gram chung cho thấy số hạn chế tập tiềm lớn khơng thể xếp độ ưu tiên theo số lượng 4-gram chung nên dẫn đến việc tìm kiếm chép lâu Trong báo này, đề xuất phương pháp phát tập tiềm có sử dụng thuật tốn tách giá trị đơn theo mơ hình lập trình song song Các cài đặt thử nghiệm chúng tơi cho thấy áp dụng phương pháp để phát tập tiềm bị chép xếp (ranking) chúng, từ hạn chế số lượng tập tin cần phân tích, so sánh để phát đoạn bị chép Đồng thời phương pháp đề xuất song song hóa để chạy cụm máy tính, nhờ áp dụng tập liệu có dung lượng lớn thư viện điện tử thực thụ Từ khóa— Đạo văn, tách giá trị đơn, xử lý phân tán, tính tốn song song I GIỚI THIỆU Vấn đề (hay vấn nạn) chép tài liệu (đạo văn) ngày vấn đề nghiêm trọng môi trường giáo dục, Với phát triển mạnh mẽ công nghệ thông tin kỹ thuật lưu trữ, tìm kiếm Google, Bing, … việc chép thực dễ dàng Sự chép ngày phổ biến cấp độ từ đồ án, tiểu luận, luận văn tốt nghiệp đại học luận văn tiến sĩ Nhiều chép khác giáo trình, giảng cịn phổ biến Có nhiều viết báo có uy tín cơng khai tình trạng chép bừa bãi luận văn 1, Ngày nay, có nhiều phần mềm hỗ trợ cho việc phát đạo văn Đa phần phần mềm thực kiểm tra chép tài liệu từ “kho tài liệu” internet, tức kiểm tra với tài liệu nguồn từ internet Các phần mềm có ưu điểm kiểm tra với nguồn phong phú Tuy vậy, nước ta khơng có nhiều phần mềm biết rõ hỗ trợ kiểm tra CSDL đóng tổ chức, ví dụ thư viện trường hay kho luận văn trường Trong báo xây dựng ứng dụng cho phép kiểm tra phát chép CSDL đóng tổ chức báo tiếp cận theo giải pháp trình bày hội thảo PAN Workshop [18] đề xuất thêm cải tiến với tích hợp giải thuật tách giá trị đơn để rút ngắn thời gian phát chép cách hạn chế số lượng tập tin tiềm song song hóa II PHÁT HIỆN SAO CHÉP THEO GIẢI PHÁP PAN Phát chép theo PAN Workshop Theo Meuschke Gipp [1], chép việc sử dụng suy nghĩ, ý tưởng, phát biểu người khác [2, 3] trình bày tác phẩm gốc mà khơng thích, trích dẫn phù hợp Ta định nghĩa trường hợp chép s = {ssc, dsc, sng, dng}, đoạn văn ssc tài liệu dsc chép từ đoạn văn sng tài liệu dng Với tài liệu dsc cho trước, nhiệm vụ hệ thống phát chép phát s cách trường hợp chép r = {r sc, dsc, rng, d’ng}, bao gồm đoạn văn cho chép rsc tài liệu dsc đoạn văn nguồn rng d’ng xấp xỉ với s Chúng ta kết luận r phát s ssc ∩ rsc ≠ ∅, sng ∩ rng ≠ ∅và dng = d’ng Meuschke and Gipp [1] phân loại hệ thống phát đạo văn theo hai hướng sau : so sánh độ tương tự đoạn văn bản, hai so sánh độ tương tự văn Trong báo tập trung vào phương pháp thứ để kiểm tra việc chép Với phương pháp ta phát s cách tìm kiếm tài liệu d’ ng từ tập tài liệu D (ví dụ kho luận văn số hóa trường) trích xuất rng rsc từ hai tài liệu d’ng dsc dựa việc so sánh chi tiết hai tài liệu http://dantri.com.vn/giao-duc-khuyen-hoc/loan-sao-chep-trong-truong-dh-436609.html http://vietnamnet.vn/vn/giao-duc/143621/tien-si-dao-van-bi-thu-hoi-bang.html ỨNG DỤNG GIẢI THUẬT SINGULAR VALUE DECOMPOSITION TRÊN NỀN HỆ THỐNG PHÂN TÁN 762 Giải pháp tốn chép theo PAN Hình bước xử lý hệ thống phát chép [4, 5] Một cách tổng quát, hệ thống phát chép thông thường cài đặt ba bước xử lý  Thứ nhất, từ tài liệu kiểm tra d kho liệu tài liệu nguồn D, hệ thống tìm tập tài liệu tiềm Dd ⊂ D xác định cho Dd nhỏ chứa nhiều tài liệu nguồn xác mà d chép  Thứ hai, phân tích so sánh d với t  Dd, để tìm đoạn bị “sao chép”  Thứ ba, cặp đoạn văn phát lọc lại dựa quy tắc biểu diễn trực quan cho người dùng Ví dụ cho bước xử lý gồm có loại bỏ phát ngắn, chồng chéo gộp phát liền kề thành phát nhất, Hình Các bước q trình phát chép Qua việc tìm hiểu giải pháp đề xuất PAN Workshop, thấy giải pháp đề xuất PAN Workshop năm 2010 [6] làm mơ hình tham khảo sở cho nghiên cứu Các bước giải pháp  Tiền xử lý văn bản: o Các tập tin văn tách từ đơn, loại bỏ stopword o Các tài liệu nguồn phân tích lưu trữ dạng mục đảo ngược Cách phổ biến hội thảo PAN tách thành cụm 4-gram lập mục 4-gram  Tìm kiếm tài liệu nguồn tiềm năng: o Vì số lượng tập tài liệu nguồn thường lớn nên trước hết phải có giải thuật “lọc” để giới hạn việc so sánh phát chép tập nhỏ tài liệu tiềm Cách thức lọc giải pháp đưa PAN “có 20 4-gram chung” Các tập tin tài liệu nguồn có từ 20 4-gram chung với tài liệu kiểm tra coi “tiềm năng” giữ lại để thực việc phân tích so sánh kỹ o Số lượng tài liệu nguồn tiềm cho tài liệu kiểm tra giới hạn (ví dụ 100 tài liệu chẳng hạn) cách xếp giảm dần theo số lượng từ 4-gram chung chọn từ cao xuống thấp Con số 20 4-gram chung số mang tính thực nghiệm  So sánh chi tiết cặp tài liệu: Đối với tài liệu kiểm tra, sau tìm tập tài liệu nguồn tiềm năng, tiến hành so sánh chi tiết cặp tài liệu để xác định đoạn văn giống  Tinh lọc kết quả: Các đoạn văn hợp lệ xem đoạn văn chép Bước cuối bao gồm việc loại bỏ phát chồng chép sau biểu diễn cho người dùng III MƠ HÌNH PHÁT HIỆN SAO CHÉP TÍCH HỢP GIẢI THUẬT SVD Mơ hình đề xuất Mặc dù giải pháp [6] PAN Workshop đánh giá cao tồn số vấn đề cần giải Theo giải pháp PAN trình bày phần trên, nhược điểm giải pháp xảy giai đoạn tìm tập tài liệu tiềm  Thứ số 20 4-gram chung [6] đề xuất hay tổng quát n 4-gram chung dựa vào kinh nghiệm, khơng có hiệu nhiều trường hợp, thư viện đóng với chủ đề gần nhau, hạn kho luận văn ngành công nghệ thông tin  Sau tìm tập tài liệu có số n 4-gram chung Nếu tập lớn ưu tiên xét tập tiềm nhất? Nếu xếp (ranking) giảm dần theo số 4-gram chung ấn định số lượng giới hạn tập tiềm khơng có sở, ví dụ xếp giảm dần theo số 4-gram chung lấy 100 tài liệu làm tập tiềm Rõ ràng nhiều 4-gram chung có khả bị chép cao Xuất phát từ sở báo để giải pháp cải tiến cho giai đoạn tìm tập tài liệu tiềm Nguyễn Võ Thông Thái, Bùi Võ Quốc Bảo, Huỳnh Phụng Toàn, Trần Cao Đệ 763  Đề xuất sử dụng việc phân tích Singular Value Decomposition (SVD) [7] kết hợp với không gian vector để áp dụng cho giai đoạn tìm tập tài liệu tiềm o Sử dụng mơ hình khơng gian vector Mỗi tài liệu tập tài liệu nguồn mơ hình hóa thành vector đặc trưng Và tài liệu kiểm tra sau qua bước tiền xử lý tách từ loại bỏ stopword lập thành ma trận từ - tài liệu Ma trận có số chiều lớn áp dụng giải thuật SVD áp dụng để làm giảm số chiều, loại bỏ giá trị nhiễu, giữ lại giá trị đặc trưng làm tăng hiệu o Tiếp theo tài liệu đo độ tương đồng theo độ đo cosin sở để trích lọc tập tài liệu tiềm Nói cách khác tài liệu thư viện tính độ tương đồng (độ đo cosin) với tài liệu kiểm tra dựa theo độ tương đồng xếp (ranking) ấn định ngưỡng xem xét theo độ tương đồng không theo số lượng tập tin Điều tự nhiên hơn, tập tin kiểm tra bị chép từ nhiều tập có nhiều tập tiềm năng, khơng bị chép số lượng tập tiềm nhỏ o Các bước để phân tích tài liệu tiềm phát chép giải pháp PAN  Vấn đề phát sinh việc tính tốn SVD lâu ma trận từ - tài liệu cho 4-gram lớn để khắc phục điểm đề xuất sử dụng việc phân tích SVD tính tốn song song Do vậy, đề xuất bao gồm xây dựng giải pháp song song, máy (hay cụm máy) đảm nhận công việc riêng biệt, tăng hiệu suất tối đa xử lý Do báo chúng tơi đề xuất việc dựa mơ hình tổng thể PAN để xây dựng ứng dụng đề xuất dùng SVD tính tốn song song phân tán, mặt tận dụng ưu điểm PAN đưa mặt khác cải tiến mơ hình nhằm cải thiện hiệu xử lý hệ thống, hỗ trợ cho việc dị tìm phát chép thực cách nhanh Mơ hình khơng gian vector (Vector Space Model) Mơ hình khơng gian vector đề xuất năm 1975 Salton cộng Mơ hình khơng gian vector làm nhiệm vụ đưa tất văn tập văn mơ tả tập từ khố hay gọi từ mục (index terms) sau loại bỏ từ có ý nghĩa (stop word) Mỗi văn d biểu diễn vector chiều từ mục ⃗ = (t1, t2,…, tn) với ti từ mục thứ i (1 ≤ i ≤ n) văn d Tương tự tài liệu truy vấn biểu diễn vector ⃗ = (q1, q2,…, qn) Lúc độ đo tương tự văn d tài liệu truy vấn q độ đo cosin chúng d q θ Hình Góc vector truy vấn vector văn Singular Value Decomposition (SVD) Giải thuật SVD Golub Kahan giới thiệu năm 1965 [7], cơng cụ phân rã ma trận hiệu sử dụng để giảm hạng (hay số chiều) ma trận Kỹ thuật áp dụng vào nhiều toán xử lý văn khác tóm tắt văn bản, phát chép, lập mục truy vấn SVD cho phép phân tích ma trận phức tạp thành ba ma trận thành phần Mục đích nhằm đưa việc giải toán liên quan đến ma trận lớn, phức tạp toán nhỏ (1) Trong  U ma trận trực giao cấp m x r (m số từ mục) vector dòng U vector từ mục  S ma trận đường chéo cấp r x r có giá trị suy biến (singular value)        r , với r = rank(A)  V ma trận trực giao cấp r x n (n số văn tập văn bản) - vector cột V vector văn  Hạng ma trận A số dương đường chéo ma trận S Giả sử hạng ma trận A r hay rank(A) = r số Frobenius A ‖ ‖ √∑ ỨNG DỤNG GIẢI THUẬT SINGULAR VALUE DECOMPOSITION TRÊN NỀN HỆ THỐNG PHÂN TÁN 764 Ta sử dụng SVD để xấp xỉ ma trận A với n giá trị đơn: (2) Ma trận xấp xỉ     có hạng k với k

Ngày đăng: 26/11/2020, 00:07

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN