Phương pháp mã hóa văn bản thành chuỗi số DNA để đánh giá mức độ giống nhau của văn bản

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	3,62 MB

Nội dung

Bài báo này trình bày phương pháp mã hóa văn bản thành các chuỗi số duy nhất, được gọi tên là chuỗi DNA nhằm giải quyết bài toán đánh giá mức độ giống nhau của một văn bản với tập văn bản khác có trong kho dữ liệu để ứng dụng trong phát hiện sao chép văn bản.

Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh Võ Trung Hùng 223 Phương pháp mã hóa văn thành chuỗi số DNA để đánh giá mức độ giống văn Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh Võ Trung Hùng The University of Danang, 41 Leduan St., Danang City, Vietnam hophanhieu@ac.udn.vn, ngocanhnt@ued.udn.vn, vthung@dut.udn.vn Tóm tắt Trong báo này, chúng tơi trình bày phương pháp mã hóa văn thành chuỗi số nhất, gọi tên chuỗi DNA nhằm giải toán đánh giá mức độ giống văn với tập văn khác có kho liệu để ứng dụng phát chép văn Chúng thực nghiệm liệu PAN với mức ngưỡng từ ε = 10-5 đến ε = 10-10 cho thấy lựa chọn ngưỡng ε = 10-10 cho kết có độ xác prec 98% rec gần 97% việc phát giống văn Kết thực nghiệm cho thấy phương pháp đề xuất có độ xác cao triển khai vào thực tế Đại học Đà Nẵng Từ khóa: Mã hóa văn bản, chuỗi DNA, độ tương đồng, phát chép Giới thiệu Trên giới, kết nghiên cứu đánh giá độ tương đồng (mức độ giống nhau) văn tiếng Anh có nhiều cơng trình nghiên cứu nhiều ứng dụng hữu ích, có tốn phát “sao chép” hay “đạo văn” [1-3] Tuy nhiên, vấn đề nhiều thách thức cần nghiên cứu Tuy có nhiều nghiên cứu hệ thống phát chép văn bản, đến chưa có sở chung để đánh giá hiệu chúng Trong đó, Việt Nam bắt đầu có nhóm nghiên cứu lĩnh vực [4, 5] có nhóm xây dựng hệ thống ứng dụng vào thực tiễn thương mại hóa Bên cạnh đó, vấn đề xử lý ngôn ngữ tự nhiên, tìm kiếm so khớp nội dung tài liệu văn lĩnh vực cộng đồng khoa học nước quan tâm Đối với toán xử lý văn bản, việc biểu diễn văn bước tiền xử lý quan trọng Mô hình biểu diễn văn truyền thống mơ hình túi từ khơng gian vectơ mơ hình sử dụng phổ biến [6, 7] Qua nghiên cứu, thực nghiệm phương pháp đánh trọng số biểu diễn văn dựa mơ hình vector ứng dụng toán phát chép văn [8, 9] Mặc dù, phương pháp dựa mơ hình vector ứng dụng để phát chép văn Tuy nhiên, phương pháp biểu diễn theo vector hạn chế số chiều biểu diễn cho tập văn lớn nên tốn không gian lưu trữ, độ phức tạp thuật toán so sánh tăng làm giảm tốc độ tính tốn Chính vậy, chúng tơi nghiên cứu đề giải pháp để giải tốn tối ưu hơn, chuyển từ văn sang chuỗi số để tận dụng ưu điểm số xử lý liệu lớn, tìm kiếm nhanh độ xác cao Chúng tơi đề xuất hướng giải toán dựa phép biến đổi Wavelet rời rạc (DWT) sử dụng lọc Haar [10, 11] Trong báo này, tập trung trình bày cách mã hóa văn thành chuỗi số riêng biệt, gọi tên chuỗi DNA thực nghiệm liệu thực tế PAN với mức ngưỡng lựa chọn ε = 10-5 đến ε = 10-10 đánh giá kết đạt ứng dụng để phát triển hệ thống thử nghiệm 224 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Cơ sở lý thuyết liên quan 2.1 Biến đổi Wavelet rời rạc (DWT) Phương pháp biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT) mã hóa đơn giản nhanh nên sử dụng hiệu xử lý tín hiệu số DWT cho tín hiệu chiều mơ tả sơ lược sau: Tín hiệu chia thành hai phần, phần tần số cao phần tần số thấp; thành phần tần số thấp lại chia tiếp thành hai phần có tần số cao thấp; bước gọi lấy mẫu giảm xuống Bên cạnh đó, độ phức tạp mã hóa tuyến tính hỗ trợ nhiều mức phân giải Phân tích đa phân giải sử dụng kỹ thuật lọc tín hiệu số q trình phân tích để lọc nhiễu xác định tín hiệu bất thường [12, 13] Phân tích đa phân giải có khả hai lọc tín hiệu, tín hiệu phân tích thành hai thành phần gồm: Thành phần xấp xỉ A tương ứng với thành phần tần số thấp thành phần chi tiết D tương ứng với thành phần tần số cao, thông qua hai lọc thông thấp sử dụng hàm tỉ lệ Φ(x) lọc thông cao sử dụng hàm Wavelet ψ(x) Mối quan hệ hàm tỉ lệ hàm Wavelet cho bởi: N 1  Ck  (2x  k ) (1)  (1)k Ck  (2x + k  N  1) (2)  ( x)  k 0  ( x)  N 1 k 0 đó, Ck số vô hướng nhằm xác định hệ số tỷ lệ Các phép lọc tiến hành với nhiều tầng khác để giảm khối lượng tính tốn, qua lọc, tín hiệu lấy mẫu giảm xuống hai lần Ứng với tầng, tín hiệu có độ phân giải khác nên DWT gọi phân tích đa phân giải Tại tầng, biểu thức phép lọc cho công thức sau: (3) y (n)  S (n).g (2k  n) high y low  n (n)   S (n).h(2k  n) (4) n đó, S(n) tín hiệu; h(n) đáp ứng xung lọc thông thấp tương ứng với hàm tỉ lệ Φ(n); g(n) đáp ứng xung lọc thông cao tương ứng với hàm Wavelet ψ(n) Hai lọc liên hệ theo hệ thức: n h( N   n)  (1) g (n) (5) đó: N số mẫu tín hiệu Với ưu điểm phương pháp DWT, ứng dụng để mã hố văn hồn tồn giữ ngun thơng tin từ mã hố 2.2 Bộ lọc Haar Trong biến đổi Wavelet rời rạc, đường Haar Wavalet hay gọi lọc Haar sử dụng phổ biến khai phá liệu chuỗi thời gian lập mục Đường Haar Wavalet ví dụ chuyển đổi Wavelet dạng sóng nhỏ trực giao [14] Đường Haar Wavalet có hai hàm hàm tỉ lệ hàm Wavelet định nghĩa theo công thức sau: j (6)  j   (2 j x  i ) i  0, ,  i  víi  t  0.5  (7) víi  (t )    víi 0.5  t với trường hợp khác  Do ưu điểm đặc tính khả tính toán thấp, lọc Haar sử dụng chủ yếu để nhận dạng mẫu, xử lý ảnh, xử lý tín hiệu số,… Tốc độ vận hành lọc Haar hoạt động nhanh tất sóng Wavelet hệ số hàm Haar nhận -1 Bộ lọc Haar phân rã tín hiệu Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh Võ Trung Hùng 225 thành thành phần khác miền tần số Sự biến đổi Wavelet rời rạc chiều (1-D DWT) phân tách dãy tín hiệu đầu vào thành hai thành phần (đó thành phần trung bình thành phần chi tiết) phép tính với lọc thông thấp lọc thông cao [15] Với liệu đầu vào chuỗi số, sau biến đổi qua lọc Haar tạo thành dãy giá trị riêng biệt gọi DNA 2.3 Chuỗi DNA DNA (DeoxyriboNucleic Acid) thuật ngữ sinh học, phân tử mang thơng tin di truyền mã hóa cho hoạt động sinh trưởng phát triển dạng sống bao gồm virus DNA lĩnh vực tin sinh học bao gồm kỹ thuật lưu trữ, khai phá liệu, tìm kiếm thao tác với liệu sinh học Các kỹ thuật mang đến ứng dụng rộng rãi ngành khoa học máy tính, đặc biệt thuật tốn tìm kiếm chuỗi, học máy lý thuyết sở liệu Trong đó, thuật tốn tìm kiếm chuỗi hay so khớp để tìm xuất dãy ký tự dãy ký tự lớn ứng dụng nhiều giải tốt toán xử lý liệu lớn tin sinh học [16] Chuỗi DNA đại diện cho riêng biệt, nghiên cứu mình, mô tả chuỗi số mang thông tin đặc trưng phân biệt mức độ khác chúng gọi chuỗi DNA Phương pháp đề xuất Qua nghiên cứu DWT lọc Haar, đề xuất ý tưởng nhằm chuyển đổi nội dung văn thành dạng chuỗi thời gian thực (thơng qua số hóa) sử dụng lọc Haar DWT để phát mẫu bất thường, liệu văn chuyển đổi biểu diễn thành dãy số thực DNA biểu diễn x = [ x1 x2 xN ] Để đánh giá mức độ giống văn bản, chúng tơi đề xuất phương pháp hồn toàn để phát giống văn dựa DWT Phương pháp thực qua bước như: (1) Chuyển tài liệu gốc sẵn có thành tập chuỗi tín hiệu số gọi DNA nguồn; (2) Văn cần kiểm tra tạo thành DNA tính tốn khoảng cách Euclid nhỏ từ DNA đến DNA nguồn; (3) So sánh với mức ngưỡng thích hợp để đưa giống văn kiểm tra với văn nguồn kho liệu 3.1 Quy trình mã hóa văn thành DNA Dữ liệu văn chuyển đổi biểu diễn thành dãy số thực (T = t 1, t2,…, tn) Để xác định mức độ giống hai chuỗi số X = x1, x2,…, xn Y = y1, y2,…, yn cần tính độ tương tự Sim (X, Y) hai chuỗi số thực Chúng đề xuất quy trình mã hóa văn thành chuỗi DNA Hình Hình Quy trình mã hóa văn thành chuỗi DNA Trong báo này, chúng tơi tập trung trình bày nội dung mã hóa liệu văn thành DNA phục vụ đánh giá mức độ giống văn Trước tiên, tài liệu sẵn có thu thập lại, đồng thời trình tiền xử lý loại bỏ dấu câu, ký tự đặc biệt lưu trữ dạng liệu thơ Để thuận tiện cho q trình xử lý chính, giai đoạn tiền xử lý, văn thu thập phân đoạn lấy mẫu cho mẫu có độ dài Sau đó, phân đoạn lưu trữ liệu thơ nhằm mục đích trích xuất đoạn văn giống (nếu có) đầu kết đánh giá Trong giai đoạn xử lý chính, văn số hóa thành tập chuỗi số cho qua lọc Haar để thu liệu cho chuỗi số DNA 226 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Thuật tốn: Quy trình mã hóa văn thành chuỗi DNA Input: Văn Output: Chuỗi số DNA 1: Mã hóa văn thành chuỗi tín hiệu số 2: Tiền xử lý (loại bỏ dấu câu, ký tự đặc biệt, đánh mục lưu trữ liệu thơ,…) 3: Số hóa nhằm chuyển liệu thô thành dạng chuỗi số 4: Xử lý qua lọc Haar để mã hóa thành DNA Tổ chức liệu cho DNA nguồn: Sau thực bước quy trình số hóa cho tập văn kho liệu, có DNA nguồn Chúng tơi xếp DNA theo giá trị (gọi giá trị khóa) DNA theo thứ tự tăng dần Mục đích việc xếp để hệ thống thực việc tìm kiếm nhị phân để xác định DNA giống với DNA mẫu thuộc phân đoạn văn đánh giá Điều cho phép cải thiện độ phức tạp thuật tốn đánh giá văn Vì vậy, vị trí khóa giá trị hai mẫu DNA (một mẫu thuộc văn nguồn mẫu văn đánh giá) giống hai mẫu văn tương ứng với hai DNA giống 3.2 Tính khoảng cách Euclid để đánh giá mức độ giống Sau thực quy trình mã hóa văn đánh trình bày phần trên, chúng tơi so sánh nhóm DNA phân đoạn với DNA nguồn lưu trữ sẵn Đối với mẫu DNA nhóm DNA đưa vào khâu so sánh, chúng tơi tìm kiếm nhị phân kho liệu để xác định DNA nguồn có giá trị giống với DNA xét Tiếp theo, khoảng cách Euclid hai DNA tính đơn giản theo công thức sau: d  x, y   x  y 2 (8) đó, x  1 N y  1N vector DNA nguồn vector DNA xét Khoảng cách Euclid so sánh với mức ngưỡng ε Nếu d(x, y)< ε, hai DNA xem giống vị trí tương ứng với DNA xét đánh dấu lại để hệ thống đưa định sau tổng hợp tất mẫu DNA phân đoạn 3.3 So sánh với mức ngưỡng khác Để kiểm tra kết giải thuật đề xuất, sử dụng phép đo PAN [17] để tính giá trị prec rec Một cách cụ thể, gọi tập chuỗi ký tự bị chép tập chuỗi ký tự phát sau: (9) S  S  D   D (10) đó, S D chuỗi văn nguồn bị chép chuỗi văn đánh giá phát giống với chuỗi văn nguồn; với việc tính S D nhằm đưa tỉ lệ giống văn đánh giá so với văn nguồn bị chép Các giá trị prec rec xác định cơng thức theo [17], là:   D  S  SS  (11) prec   D DD D rec  đó,  | S | SS S   D   DD  S (12) S D số phần tử tập hợp S D , S D độ dài chuỗi S S D  D Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh Võ Trung Hùng 227 Kết thực nghiệm Chúng thực nghiệm liệu huấn luyện PAN 2009 với lần đánh giá 100 văn nghi ngờ hoàn toàn khác với văn kho liệu, lựa chọn giá trị ngưỡng từ ε = 10-5 đến ε = 1010 để đánh giá độ xác dựa kết prec rec Dưới kết đạt hai giá trị prec rec với ngưỡng khác Percentage (%) Giá trị prec rec qua mức ngưỡng khác 100 98 96 94 92 90 88 86 K = -5 prec rec -6 -7 -8 Ngưỡng ε = -9 -10 10K Hình Giá trị prec rec qua mức ngưỡng khác Chúng ta nhận thấy, với kết đạt mức ngưỡng ε = 10-7 đến ε = 10-10 cho thấy giá trị prec rec đạt cao ổn định mức xấp xỉ từ 97% đến 98% Bảng kết qua 10 lần thử nghiệm với mức ngưỡng ε = 10-10 Bảng Kết qua 10 lần thử nghiệm với ngưỡng ε = 10-10 Lần thử nghiệm S D prec (%) rec (%) 10 Giá trị trung bình 6066 5385 9372 6578 8143 6998 6543 5661 6581 6100 6742.7 5999 5310 9304 6447 8029 6957 6453 5593 6502 6000 6659.4 98.25 98.14 98.25 98.15 97.93 97.77 97.95 98.25 98.09 98.17 98.10 97.16 96.77 97.54 96.20 96.56 97.20 96.61 97.07 96.92 96.56 96.86 Với kết đạt qua lần thử nghiệm mức ngưỡng lựa chọn ε = 10-10 trên, thấy với số lượng phần tử hai tập S D khác (từ 5310 đến 9372 phần tử), thuật tốn chúng tơi đề xuất cho kết với độ xác cao, prec 98% rec gần 97% 228 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Tỉ lệ giống (%) Kết thực nghiệm với ngưỡng ε = 10-10 100 99 98 97 96 prec rec 95 94 10 Lần thử nghiệm Giá trị trung bình Hình Kết giá trị prec rec đạt với ngưỡng ε = 10-10 Hình Một kết đạt với ngưỡng ε = 10-10 So sánh với kết PAN 2009: Nhiệm vụ phát chép tài liệu văn cách tìm tương đồng với tài liệu khác kho liệu (External Plagiarism Detection EPD) đề tài bàn luận, nghiên cứu triển khai thông qua thi PAN 2009 Phần lớn hệ thống tham gia thi sử dụng kỹ thuật so khớp Brute-Force, n-gram để phát giống kết đạt hệ thống qua đánh giá thi lần cao theo độ đo prec 74.73% rec 69.67% [17] Với phương pháp đề xuất chúng tơi cho thấy hiệu độ xác đạt cao nhiều so với phương pháp khác PAN Việc thực nghiệm liệu chuẩn PAN nhiều nhóm nghiên cứu phịng thí nghiệm giới sử dụng để đánh giá phương pháp phát chép sử dụng độ đo dùng để đánh giá thi PAN cho thấy kết đạt hoàn toàn tin cậy để đánh giá thuật toán, hướng tiếp cận thuật tốn chúng tơi đề xuất Kết luận Trong báo này, chúng tơi đề xuất thuật tốn để chuyển đổi văn thành dạng tín hiệu số chuỗi số thực DNA, đảm bảo tính tồn vẹn thơng tin Với phương pháp đề xuất này, xây dựng module xử lý, có mã hóa văn nguồn thành DNA nguồn tổ chức lưu trữ theo lớp thông qua giá trị khóa nên tốc độ tính tốn hệ thống nhanh độ xác cao Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh Võ Trung Hùng 229 Trong thời gian đến, tiếp tục nghiên cứu để xếp lưu trữ liệu tối ưu phát triển hệ thống phát chép văn hồn chỉnh ứng dụng vào thực tiễn để góp phần nâng cao chất lượng đào tạo nghiên cứu khoa học Lời cảm ơn Nghiên cứu tài trợ Quỹ Phát triển KHCN Đại học Đà Nẵng đề tài mã số B2017ĐN01-07 Tài liệu tham khảo Meuschke, N., Gipp, B.: State-of-the-art in detecting academic plagiarism International Journal for Educational Integrity 9(1), 50-71 (2013) Gomaa, W.H and A.A Fahmy: A survey of text similarity approaches International Journal of Computer Applications 68(13), 13-18 (2013) Hourrane, O., Benlahmar, E H.: Survey of Plagiarism Detection Approaches and Big data Techniques related to Plagiarism Candidate Retrieval In: Proceedings of the 2nd International Conference on Big Data, Cloud and Applications, ACM (2017) T C De, et al: Developing Plagiarism Detection System for Vietnamese University, 12th Vietnam - Japan International Joint Symposium, Can tho (2014) L T Nguyen, N X Toan, D Dien: Vietnamese plagiarism detection method In: Proceedings of the 7th Symposium on Information and Communication Technology, 44-51 (2016) Hourrane, Oumaima, and El Habib Benlahmar: Survey of Plagiarism Detection Approaches and Big data Techniques related to Plagiarism Candidate Retrieval Proceedings of the 2nd international Conference on Big Data, Cloud and Applications ACM (2017) Raghavan, V.V and S.M Wong: A critical analysis of vector space model for information retrieval Journal of the American Society for information Science 37(5), 279-187, (1986) Hung Vo Trung, Ngoc Anh Nguyen, Hieu Ho Phan, Thi Dung Dang: Comparison of the Documents Based On Vector Model: A Case Study of Vietnamese Documents American Journal of Engineering Research (AJER) 6(7), 251-256 (2017) Hồ Phan Hiếu, Võ Trung Hùng, Nguyễn Thị Ngọc Anh: Một số phương pháp tính độ tương đồng văn dựa mơ hình vector Tạp chí Khoa học Công nghệ ĐHĐN 11(120), 112-117 (2017) 10 Phan Hieu Ho, Ngoc Anh Thi Nguyen and Trung Hung Vo: DNA Sequences Representation Derived from Discrete Wavelet Transformation for Text Similarity Recognition In Springer SCI Book, Modern Approaches for Intelligent Information and Database Systems, 75-85 (2018) 11 Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh, Nguyễn Văn Hiếu, Đặng Thiên Bình, Võ Trung Hùng: Một cách tiếp cận để phát giống văn dựa phép biến đổi wavelet rời rạc Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ X (Fair’10), lĩnh vực Nghiên cứu ứng dụng Công nghệ thông tin, pp 479487 (2017) 12 D J D P Taufin M Jeeralbhavi, Shivananda V Seeri: Text Extraction and Localization From Captured Images International Journal on Recent and Innovation Trends in Computing and Communication (IJRITCC) 4, 119-121 (2016) 13 S G Mallat: A theory for multiresolution signal decomposition: the wavelet representation IEEE transactions on pattern analysis and machine intelligence 11, 674-693 (1989) 14 R S Stanković and B J Falkowski: The Haar wavelet transform: its status and achievements Computers & Electrical Engineering 29, 25-44 (2003) 15 C.-W Liang and P.-Y Chen: DWT based text localization International Journal of Applied Science and Engineering 2, 105-116 (2004) 16 P Baldi and S Brunak: Bioinformatics: the machine learning approach, MIT press (2001) 17 Potthast, M., et al: Overview of the 1st International Competition on Plagiarism Detection In Stein, B., et al (Ed), PAN’09, 1-9 (2009) ... tốn đánh giá văn Vì vậy, vị trí khóa giá trị hai mẫu DNA (một mẫu thuộc văn nguồn mẫu văn đánh giá) giống hai mẫu văn tương ứng với hai DNA giống 3.2 Tính khoảng cách Euclid để đánh giá mức độ giống. .. trình mã hóa văn thành chuỗi DNA Input: Văn Output: Chuỗi số DNA 1: Mã hóa văn thành chuỗi tín hiệu số 2: Tiền xử lý (loại bỏ dấu câu, ký tự đặc biệt, đánh mục lưu trữ liệu thơ,…) 3: Số hóa nhằm... qua số hóa) sử dụng lọc Haar DWT để phát mẫu bất thường, liệu văn chuyển đổi biểu diễn thành dãy số thực DNA biểu diễn x = [ x1 x2 xN ] Để đánh giá mức độ giống văn bản, đề xuất phương pháp

Ngày đăng: 17/12/2021, 09:00