1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một số phương pháp tính độ tương đồng văn bản dựa trên mô hình vec-tơ

6 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 582,96 KB

Nội dung

Bài viết Một số phương pháp tính độ tương đồng văn bản dựa trên mô hình vec-tơ trình bày các kết quả nghiên cứu liên quan đến việc biểu diễn văn bản theo mô hình vec-tơ, sau đó ứng dụng các độ đo để tính khoảng cách giữa hai vec-tơ để biết được độ tương đồng của hai văn bản và độ tương đồng của văn bản truy vấn so với tập văn bản mẫu

112 Hồ Phan Hiếu, Võ Trung Hùng, Nguyễn Thị Ngọc Anh MỘT SỐ PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN DỰA TRÊN MƠ HÌNH VEC-TƠ SIMILARITY MEASUREMENTS OF TEXTUAL DOCUMENTS BASED ON VECTOR MODEL Hồ Phan Hiếu, Võ Trung Hùng, Nguyễn Thị Ngọc Anh Đại học Đà Nẵng; hophanhieu@ac.udn.vn, vthung@dut.udn.vn, ngocanhnt@ued.udn.vn Tóm tắt - Trong báo, nhóm tác giả trình bày kết nghiên cứu liên quan đến việc biểu diễn văn theo mơ hình vec-tơ, sau ứng dụng độ đo để tính khoảng cách hai vec-tơ để biết độ tương đồng hai văn độ tương đồng văn truy vấn so với tập văn mẫu Phương pháp nhóm tác giả đề xuất chuyển văn thành vec-tơ Mỗi phần tử vectơ trọng số tương ứng với từ mục xuất văn Việc so sánh mức độ giống hai văn chuyển tính khoảng cách hai vec-tơ qua độ đo Cosine, Jaccard, Matthanan, Levenshtein Kết cho biết mức độ giống hai văn Nhóm tác giả phát triển công cụ phục vụ so sánh hai văn văn với tập n văn cho trước Kết đạt phản ánh mức độ giống văn so với giá trị ước lượng tập văn mẫu Abstract - In this paper, we first present the research results related to the representation of text in vector model, then apply some measurements to calculate the distance between two vectors to define the similarity of the two test textual documents and the similarity of the testing text documents versus the sample text dataset Our proposed method is to convert text-based documents into vectors Each element of the vector is the weight corresponding to the index text Comparison of the two texts is shifted to the calculation of the distance between two vectors via the Cosine, Jaccard, Matthanan, Levenshtein measures Consequently, those results denote the similarity between the two texts We have developed a tool for comparing two texts or a abitrary document with a given document The achieved results accurately reflect the similarity of the text versus the estimated value of the sample text set Từ khóa - độ tương đồng; mơ hình vec-tơ; so khớp văn bản; đo khoảng cách vec-tơ; phát chép Key words - similarity measurement; vector model; document comparison; distance formula vectors; copy detection Giới thiệu Ngày nay, tài liệu văn công khai mạng Internet ngày nhiều Người sử dụng tìm thấy tài liệu cần thiết cách nhanh chóng dễ dàng Tuy nhiên, bên cạnh ưu điểm cung cấp nguồn tài liệu tham khảo phong phú tình trạng chép trở thành vấn nạn Giải toán phát chép cần có nghiên cứu liên quan đến tính tốn độ tương đồng để đánh giá mức độ giống văn Hiện nay, có nhiều cơng trình nghiên cứu tính tốn độ tương đồng văn bản, ứng dụng hữu ích nhiều lĩnh vực tìm kiếm, dịch tự động, trích chọn thơng tin, tóm tắt văn bản, khai phá văn bản, web ngữ nghĩa, học máy, phát chép văn bản, … [1-2] Giải toán tính tốn độ tương đồng văn thường dựa mơ hình vec-tơ Trong báo này, nhóm tác giả tập trung nghiên cứu cách biểu diễn văn theo mơ hình vec-tơ, sau ứng dụng độ đo như: Cosine, Jaccard, Matthanan, Levenshtein để tính khoảng cách hai vec-tơ để biết độ tương đồng hai văn Bằng cách tương tự, nhóm tác giả tính độ tương đồng văn cần kiểm tra với tập văn có kho liệu Qua kết nghiên cứu thực nghiệm, thấy mơ hình vec-tơ phương pháp phù hợp để biểu diễn văn tính tốn độ tương đồng văn Văn trước mơ hình hóa, tức trước sử dụng, cần phải tiền xử lý Quá trình tiền xử lý giúp nâng cao hiệu suất giảm độ phức tạp sử dụng phương pháp tính độ tương đồng Tùy vào mục đích khai thác mà có phương pháp tiền xử lý văn khác như: chuyển hẳn chữ thường; loại bỏ ký tự đặc biệt, chữ số, phép toán số học; tách văn thành câu từ riêng lẻ để sử dụng cho mục đích tính tốn sau này; loại bỏ từ dừng (stopword); lưu câu từ vào cấu trúc liệu phù hợp;… Nói cách khác, văn dạng thô (dạng chuỗi) cần chuyển sang mơ hình khác để tạo thuận lợi cho việc biểu diễn tính tốn Tùy thuộc vào thuật tốn xử lý khác mà chọn mơ hình biểu diễn phù hợp Trong sở liệu văn bản, mơ hình vec-tơ mơ hình biểu diễn văn sử dụng phổ biến Mối quan hệ tập văn thực thơng qua việc tính tốn vec-tơ biểu diễn nên đem lại hiệu cao Theo mơ hình này, văn biểu diễn thành vec-tơ Mỗi thành phần vec-tơ từ khóa riêng biệt tập văn gốc gán giá trị hàm f, mật độ xuất từ (hay từ khóa) văn [3] Trong nghiên cứu này, nhóm tác giả đề xuất cách biểu diễn văn theo mơ hình vec-tơ với ma trận trọng số từ (hay từ khóa)/tài liệu theo từ n-gram từ sử dụng số độ đo để tính toán, đo khoảng cách vec-tơ để đưa độ tương đồng văn 2.2 Mơ hình vec-tơ Mơ hình vec-tơ mơ hình đại số thông dụng đơn giản, thường dùng để biểu diễn văn Sau tiền xử lý, văn mô tả tập từ hay cụm từ (gọi từ mục) Tập từ mục xác định Một số nghiên cứu liên quan 2.1 Phương pháp biểu diễn văn Trong xử lý văn có nhiều phương pháp có cách tính tốn khác nhau, nhìn cách tổng quan phương pháp thường khơng tương tác trực tiếp tập liệu thô ban đầu, mà thường thực số bước tiền xử lý văn mơ hình hóa văn ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(120).2017 - Quyển không gian mà từ mục tượng trưng cho chiều khơng gian Các từ mục từ chứa nội dung tập văn bản, từ mục gán trọng số [4] Để tính tốn độ đo tương đồng văn truy vấn văn mẫu, sử dụng phép tốn mơ hình vec-tơ Với văn d biểu diễn dạng ⃗𝑑 với ⃗𝑑 ∈ 𝑅𝑚 vec-tơ m chiều Trong ⃗ = {𝑤1 , 𝑤2 , … , 𝑤𝑚 } m số chiều vec-tơ văn 𝑑 d, chiều tương ứng với từ tập hợp từ, wi trọng số đặc trưng thứ i (với 1≤ i ≤ m) Độ tương tự hai văn thường định nghĩa khoảng cách điểm góc vec-tơ không gian, minh họa Hình Hình Ví dụ góc tạo hai vec-tơ 𝑑1 , 𝑑2 với 𝑞 2.3 So khớp chuỗi Với tốn so khớp văn bản, giải thơng qua việc so khớp chuỗi Bài tốn so khớp chuỗi phát biểu sau: Cho trước chuỗi văn có độ dài n mẫu có độ dài m, tìm xuất mẫu văn Để tìm xuất tất mẫu văn bản, thực cách quét qua toàn văn cách Bài tốn “so khớp” có đặc trưng tốn tìm kiếm, mẫu xem khóa Một số thuật tốn để giải toán so khớp chuỗi như: Brute-Force, Morris-Pratt, KnuthMorris-Pratt (KMP), Boyer-Moore, Karp-Rabin, Horspool, … [5-6] Những thuật toán tập trung vào vấn đề so sánh hai chuỗi ký tự phát giống chúng Trong số trường hợp, việc đo độ tương đồng hai đoạn văn sử dụng so khớp từ đơn giản tạo điểm tương tự số đơn vị từ vựng xảy hai đoạn văn đầu vào Việc loại bỏ từ dừng, gán nhãn từ loại, so khớp tập dài nhất, gán trọng số, … tích hợp để mang lại hiệu cho phương pháp so khớp văn Qua trình khảo sát, nhóm tác giả nghiên cứu thuật tốn so khớp chuỗi để ứng dụng tốn tính độ tương đồng văn 2.4 Các độ đo tương đồng Sự tương đồng hai văn giống nội dung hai văn Do đó, hai văn gần giống có nội dung giống nhiều, hay “độ tương đồng” hai văn cao Độ tương đồng nằm khoảng 1, độ tương đồng 113 gần khả văn gần giống cao, ngược lại Do đó, để xét xem văn có phải gần giống hay khơng ta phải tính độ tương đồng chúng [7] Một số phương pháp tính độ tương đồng văn có kết khả quan tiếng Anh sử dụng tập liệu chuẩn ngơn ngữ để tìm mối quan hệ từ kho liệu như: Wordnet, Brown Corpus, Penn TreeBank, … Phương pháp dựa tập liệu dựa tri thức xác định giống mặt ngữ nghĩa từ, phương pháp dựa chuỗi xác định giống mặt từ vựng Trong đó, phương pháp thao tác chuỗi xác định giống chuỗi dựa vào thành phần cấu tạo nên chuỗi tách thành hai phương pháp dựa ký tự (character-based) dựa từ (term-based) Một số thuật toán dựa ký tự như: chuỗi chung dài (LCS), Damerau-Levenshtein, Jaro, Jaro-Winkler, Needleman-Wunsch, Smith-Waterman, n-gram thuật toán dựa từ như: khoảng cách Manhattan, Cosine Similarity, hệ số Dice, khoảng cách Euclid, Jaccard Similarity, hệ số Matching hệ số Overlap [8] Trong nghiên cứu này, nhóm tác giả nghiên cứu, cài đặt thực nghiệm dựa bốn độ đo Cosine, Jaccard, Matthanan, Levenshtein để tính toán mức độ giống văn tiếng Việt Giải pháp đề xuất Trong phần này, nhóm tác giả trình bày giải pháp để thực mơ hình hóa văn thành vec-tơ tính tốn độ tương tự cách đo khoảng cách vec-tơ hiển thị kết tỉ lệ giống hai văn văn với tập văn kho liệu 3.1 Mơ hình tổng quát Quá trình so sánh hai văn bản: Với hai văn đầu vào, qua trình tiền xử lý, tiếp đến vectơ hóa để biểu diễn văn thành dạng vectơ, sau thực so khớp hai vectơ kết độ tương đồng hai văn [6] Các trình thực theo mơ hình đề xuất sau: Hình Mơ hình so sánh hai văn Q trình so sánh văn với tập văn nguồn: Nhóm tác giả đề xuất theo mơ hình đây, tập văn nguồn phải xử lý vec-tơ hóa để lưu trữ Sau đó, văn cần so sánh với văn nguồn xử lý, vec-tơ hóa so sánh với liệu lưu trữ để phát mức độ giống từ văn truy vấn với tập văn nguồn 114 Hồ Phan Hiếu, Võ Trung Hùng, Nguyễn Thị Ngọc Anh Hình Mơ hình so sánh văn với tập văn nguồn 3.2 Mơ hình vec-tơ hóa Trong q trình so sánh, bước xử lý vec-tơ hóa nhằm mục đích biểu diễn văn dạng vec-tơ để phục vụ cho việc so sánh sau Việc vec-tơ hóa thực dựa đơn vị xử lý từ (mỗi phần tử vec-tơ từ) hay n-gram từ Quy trình vec-tơ hóa theo từ thực sau: 3.3.1 Độ đo Cosine Tính độ tương đồng văn dựa độ đo Cosine phương pháp tương đối đơn giản cho kết với độ xác cao Các văn biểu diễn theo mơ hình túi từ (bag-of-words) Trong mơ hình này, văn thể túi từ nó, khơng theo ngữ pháp thứ tự từ Mỗi văn được tách thành từ hay cụm từ (n-gram từ), sau bỏ vào túi Mỗi từ hay cụm từ tính tổng số lần xuất tạo thành vec-tơ n chiều, n số phần tử danh sách chung từ hay cụm từ khác văn Sau chuyển hai văn thành vec-tơ 𝑎 𝑏⃗, ta sử dụng độ đo Cosine để tính tốn độ tương đồng văn [3] Công thức tính độ tương đồng Cosine là: SimC (a, b)  a*b (1) a b Bảng Thuật tốn tính độ tương đồng Cosine Thuật tốn 1: Tính độ tương đồng Cosine Đầu vào: văn A B Xử lý: Thực qua bước sau: - Tiền xử lý (tách từ, tạo danh sách từ vựng, …) - Xây dựng tập từ vựng chung T = {t1, t2….} - Mơ hình hóa văn thành vec-tơ: Dựa vào T ta tạo vec-tơ tần số từ A B 𝑎 𝑏⃗ (bằng cách tính TF*IDF) Từ vec-tơ tần số từ tương ứng với văn bản, tính 6: cos góc vec-tơ cách sử dụng cơng thức tính độ tương đồng Cosine theo (1) Đầu ra: Độ tương đồng văn A B 7: 1: 2: 3: 4: 5: Hình Q trình véc-tơ hóa theo đơn vị từ Để tính giá trị đặc trưng cho văn bản, nhóm tác giả thực phương pháp TF*IDF qua bước sau: + Bước - Tính fij: Số lần xuất từ mục thứ i văn j + Bước - Tính trọng số cục bộ: 1  log  TF     f ij nÕu f 0 ij nÕu f 0 ij + Bước - Tính trọng số toàn cục: IDF   log  N n  i 3.3.2 Độ đo khoảng cách Manhattan Khoảng cách Manhattan dạng khoảng cách hai điểm không gian Euclid với hệ tọa độ Descartes Đại lượng tính tổng chiều dài hình chiếu đường thẳng nối hai điểm hệ trục tọa độ Descartes Khi hai văn đươc biểu diễn thành hai vec-tơ đặc trưng 𝑎 𝑏⃗ ta có công thức Manhattan [9, 10] là: n D(a, b)    bi D(𝑎,𝑏⃗) nằm khoảng 1, mức độ tương đồng vec-tơ tính tốn cơng thức sau: n     + Bước - Tính trọng số từ mục: Wij=TF*IDF 3.3 Các phương pháp đo độ tương đồng Trong phần này, nhóm tác giả giới thiệu, nêu ý tưởng thuật toán bước thực để tính độ tương đồng văn thơng qua bốn độ đo tương đồng Cosine, Jaccard, Matthanan, Levenshtein Các mục nội dung đầu đề cập đến việc tính độ tương đồng hai văn Phần sau, cách tương tự tính độ tương đồng văn truy vấn với tập văn nguồn có kho liệu (2) i 1 Sim M (a, b)    a b i 1 i i n (3) Bảng Thuật tốn tính độ tương đồng Manhattan 1: 2: 3: 4: 5: Thuật toán 2: Tính độ tương đồng Manhattan Đầu vào: văn A B Xử lý: Thực qua bước sau: - Tiền xử lý (tách từ, tạo danh sách từ vựng, …) - Xây dựng tập từ vựng chung T = {t1, t2….} - Mơ hình hóa văn thành vec-tơ: Dựa vào T ta tạo vec-tơ tần số từ A B 𝑎 𝑏⃗ (bằng cách tính TF*IDF) ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(120).2017 - Quyển 6: 7: SimL  A, B    - Áp dụng công thức tính hệ số Manhattan theo (3) Đầu ra: Độ tương đồng văn A B 3.3.3 Độ đo sử dụng hệ số Jaccard Các chuỗi đầu vào văn chuyển thành tập hợp n-gram Cho hai tập hợp n-gram tương ứng với hai văn cần so sánh A B Sau chuyển hai văn thành vec-tơ 𝑎 𝑏⃗, hệ số Jaccard tính cơng thức sau [3], [11]: Sim J (a, b)  ab ab (4) Bảng Thuật tốn tính độ tương đồng Jaccard Thuật tốn 3: Tính độ tương đồng Jaccard 1: Đầu vào: văn A B 2: Xử lý: Thực qua bước sau: 3: - Tiền xử lý (tách từ, tạo danh sách từ vựng, …) 4: - Mơ hình hóa văn thành vec-tơ: Sử dụng n-gram để tạo vec-tơ tần số từ A B 𝑎 𝑏⃗ (bằng cách tính TF*IDF) 5: - Áp dụng cơng thức tính hệ số Jaccard theo (4) Đầu ra: Độ tương đồng văn A B 6: 3.3.4 Độ đo khoảng cách Levenshtein Khoảng cách Levenshtein thể khoảng cách khác biệt hai chuỗi ký tự Khoảng cách Levenshtein chuỗi A chuỗi B số bước nhỏ để biến đổi chuỗi A thành chuỗi B thông qua ba phép biến đổi là: xóa ký tự, thêm ký tự thay ký tự thành ký tự khác Để tính tốn khoảng cách Levenshtein, sử dụng thuật tốn quy hoạch động, tính tốn mảng chiều (n+1)*(m+1), với n m độ dài chuỗi A B Thuật toán chi tiết sau [12]: d [m, n] s 115 (5) Bảng Thuật tốn tính độ tương đồng Levenshtein Thuật tốn 4: Tính độ tương đồng Levenshtein 1: Đầu vào: văn A B 2: Xử lý: Thực qua bước sau: 3: - Tiền xử lý (tách từ, tạo danh sách từ vựng, …) 4: - Xây dựng tập từ vựng chung T = {t1, t2….} 5: - Mơ hình hóa văn thành vec-tơ: Dựa vào T ta tạo vec-tơ tần số từ A B 𝑎 𝑏⃗ (bằng cách tính TF*IDF) Tính khoảng cách Levenshtein theo thuật tốn 6: Xác định độ dài chuỗi dài s 7: 8: - Áp dụng cơng thức tính độ tương tự theo (5) Đầu ra: Độ tương đồng văn A B 9: Kiểm tra tài liệu so với kho liệu: Tương tự quy trình kiểm tra độ tương đồng hai tài liệu, việc kiểm tra tài liệu so với kho liệu nhóm tác giả thực bước tương tự Về tài liệu kho liệu, nhóm tác giả thực tiền xử lý, mơ hình hóa văn thành vec-tơ, đánh mục lưu vào sở liệu để phục vụ tìm kiếm, so khớp trích xuất thơng tin tài liệu Trong phần thực nghiệm, nhóm tác giả kiểm tra tài liệu đầu vào so với tài liệu kho liệu kết thực nghiệm trùng khớp với việc kiểm tra độ tương đồng hai tài liệu 3.4 Phương pháp xây dựng hệ thống Hệ thống xây dựng với chức là: So sánh hai tài liệu mở rộng so sánh tài liệu (văn truy vấn) kho liệu (tập văn nguồn) Dưới mơ hình kiến trúc hệ thống: Bảng Thuật tốn tính khoảng cách Levenshtein LevenshteinDistance (A[1, 2,…, n], B[1, 2,…, m]): 1: Khởi tạo: d[0…m, 0…n] // m+1 hàng, n+1 cột 2: For i:= 0 m 3: d[i, 0]:= i 4: For j:= 0 n 5: d[0, j]:= j 6: For i:= 1 m 7: For j:= 1 n { 8: If A[i] = B[j] then cost:= 9: else cost:= 10: d[i, j]:= min( 11: d[i−1, j] + 1, // trường hợp xóa 12: d[i, j−1] + 1, // trường hợp 13: thêm 14: d[i−1, j−1] + cost // trường hợp thay 15: ) 16: } Return d[n, m] Khoảng cách Levenshtein khoảng cách hai chuỗi ký tự có giá trị d[m, n], với s độ dài chuỗi dài Độ đo tương tự tính theo cơng thức sau: Hình Mơ hình kiến trúc hệ thống Thử nghiệm đánh giá 4.1 Tập liệu thử nghiệm Để thử nghiệm, nhóm tác giả xây dựng ứng dụng với chức như: tiền xử lý văn bản, vec-tơ hóa văn bản, so khớp, hiển thị kết vẽ biểu đồ Nhóm tác giả tạo liệu mẫu gồm văn tiếng Việt cách tạo hai tài liệu A B với nội dung hoàn toàn khác Mỗi 116 Hồ Phan Hiếu, Võ Trung Hùng, Nguyễn Thị Ngọc Anh tài liệu có 1.000 từ riêng biệt (khơng kể từ dừng) Sau đó, chọn ngẫu nhiên vài câu tài liệu A có 200 từ (chiếm 20% tổng số từ tài liệu) để thay cho vài câu tài liệu B có 200 từ chọn ngẫu nhiên Như vậy, ước lượng xác tỉ lệ giống chúng 20% Tương tự, nhóm tác giả tạo tài liệu có tỉ lệ giống 40%, 60%, 80% 100% Để kiểm tra tính xác thuật toán, so sánh tài liệu với tài liệu (Doc_1.docx) kết tính tốn thuật tốn so sánh với giá trị ước lượng Dưới bảng mô tả trường hợp thử nghiệm Bảng Tổng hợp kết phương pháp so với trường hợp thử nghiệm kết ước lượng (với trigram) Kết thử nghiệm tính theo độ đo (%) Ước Trường lượng hợp Cosine Jaccard Manhattan Levenshtein (%) TH1 0 26,86 TH2 20 11,01 11,11 41,72 20 TH3 40 24,91 25 56,12 40 TH4 60 42,78 42,86 70,26 60 TH5 80 66,61 66,67 85,14 80 TH6 100 100 100 100 100 Bảng Các tài liệu mẫu để so với giá trị ước lượng Trường hợp thử nghiệm Tài liệu Ước lượng tỷ lệ giống (%) TH1 Doc_2.docx TH2 Doc_3.docx 20 TH3 Doc_4.docx 40 TH4 Doc_5.docx 60 TH5 Doc_6.docx 80 TH6 Doc_7.docx 100 4.2 Kết thực nghiệm Kết thực nghiệm xử lý liệu để phục vụ cho trình so sánh văn bản, tỉ lệ so khớp có chênh lệch phương pháp so với trường hợp ước lượng khơng lớn Các thuật tốn cho kết so sánh có giá trị 100% hai văn giống hoàn toàn kết là 0% hai văn khác hoàn tồn Trong trường hợp cịn lại, kết thuật tốn so với giá trị ước lượng có độ chênh lệch tương đối, cụ thể là: - Phương pháp Cosine: Thuật toán sử dụng phương pháp tần số từ, liệu thử nghiệm lựa chọn theo chuẩn đặt với độ xác tuyệt đối giá trị ước lượng nên kết hồn tồn xác Chính vậy, phương pháp so sánh độ tương đồng văn dựa độ đo Cosine đem lại hiệu phát chép văn so sánh theo từ vựng - Phương pháp Jaccard Manhattan: Mặc dù hai phương pháp có cơng thức tính độ tương tự khác sử dụng tách từ đơn (n-gram 1) cho hai kết hoàn toàn giống Nếu tách từ sử dụng bigram trigram (hoặc n lớn hơn) cho hai kết khác dù chênh lệch không nhiều - Phương pháp Levenshtein có ưu điểm dùng để đo khoảng cách hai chuỗi dựa vào ký tự, trường hợp hai tài liệu khác hoàn toàn từ giống ký tự khoảng trắng, nên độ đo tương tự hai tài liệu khác hoàn toàn lớn 0% Vì vậy, phương pháp sử dụng đo độ tương tự văn không hiệu Thời gian dung lượng tiêu tốn cho trình so khớp phụ thuộc vào độ dài văn so khớp (tức số lượng từ vựng có văn bản) Dưới bảng tổng hợp kết ghi phương pháp so với trường hợp thử nghiệm kết ước lượng Hình Biểu đồ so sánh kết thuật tốn với tập tài liệu Trong thử nghiệm tập tài liệu mẫu này, kết phương pháp Jaccard Manhattan gần nên đường hiển thị gần bị trùng Hình Kết so sánh văn phương pháp có độ chênh lệch thấp Hình Kết so sánh tỉ lệ giống văn với tập văn mẫu Với kết trên, cho thấy nhóm tác giả nghiên cứu cách biểu diễn văn theo mô hình vec-tơ, sử dụng độ đo để tính độ tương đồng văn xây dựng hệ thống thực nghiệm Tuy nhiên, hệ thống so khớp thử nghiệm việc so sánh với bốn độ đo khác văn doc docx kho liệu nhỏ ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(120).2017 - Quyển Kết luận Trong báo này, nhóm tác giả sử dụng số kỹ thuật xử lý ngôn ngữ tự nhiên để xử lý văn bản, sau sử dụng mơ hình vec-tơ để biểu diễn văn bản; nghiên cứu ứng dụng thuật tốn so khớp mẫu, phương pháp tính độ tương đồng để thực nghiên cứu thử nghiệm đánh giá giống văn Nhóm tác giả phát triển cơng cụ thử nghiệm để phát chép văn thông qua việc sử dụng mơ hình vec-tơ Cơng cụ cho phép kiểm tra hai văn bất kỳ, văn với nhiều văn có sẵn kho liệu có chép với hay khơng Ứng dụng triển khai liệu thử nghiệm hồn tồn mở rộng, cập nhật thêm tài liệu vào kho liệu để phục vụ việc đánh giá so khớp Thời gian xử lý thuật toán tương đối nhanh, với độ phức tạp tính tốn khơng lớn, tập liệu mẫu khơng nhiều Nhóm tác giả thử nghiệm quan tâm đến kiểm tra độ xác thuật tốn đưa số nhận xét dựa kết thực nghiệm Phương pháp dựa vec-tơ thông thường xử lý hiệu liệu nhỏ, không phức tạp Hướng phát triển tiếp theo, nhóm tác giả nghiên cứu cách biểu diễn văn sử dụng thuật tốn so khớp phù hợp với mơ hình liệu để giải tốn liệu lớn Nhóm tác giả tiếp tục nghiên cứu liên quan để cải tiến mơ hình vec-tơ nhằm hạn chế số lượng chiều cho văn vec-tơ hóa, phát triển tích hợp cơng cụ hỗ trợ xử lý văn vào ứng dụng, nghiên cứu giải pháp lĩnh vực mã hóa, xử lý chuỗi số thực, xử lý liệu lớn, xử lý ngôn ngữ tiếng Việt, để đem lại hiệu so khớp văn tiếng Việt Lời cảm ơn Nghiên cứu tài trợ Quỹ Phát triển KHCN Đại học Đà Nẵng đề tài mã số B2017-ĐN01- 07 117 TÀI LIỆU THAM KHẢO [1] Meuschke, N and B Gipp, “State-of-the-art in detecting academic plagiarism”, International Journal for Educational Integrity, 9(1), 2013, pp 50-71 [2] Rubini, P and M.S Leela, “A survey on plagiarism detection in text mining”, International Journal of Research in Computer Applications and Robotics, Vol.1, Issue 9, 2013, pp 117-119 [3] Huang, Anna, Similarity measures for text document clustering, in Proceedings of the sixth New Zealand Computer Science Research Student Conference (NZCSRSC2008), Christchurch, New Zealand, 2008, pp 49-56 [4] G Salton, A Wong, C S Yang, “A vector space model for automatic indexing”, Commun ACM, Vol 18, Issue 11, 1975, pp 613-620 [5] Singla, Nimisha, and Deepak Garg, “String matching algorithms and their applicability in various applications”, International Journal of Soft Computing and Engineering, I(6), 2012, pp 218-222 [6] Hung Vo Trung, Ngoc Anh Nguyen, Hieu Ho Phan, Thi Dung Dang, “Comparison of the Documents Based On Vector Model: A Case Study of Vietnamese Documents”, American Journal of Engineering Research (AJER), 2017, pp 251-256 [7] Reddy, G Suresh, T V Rajinikanth, and A Ananda Rao, “Clustering and Classification of Text Documents Using Improved Similarity Measure”, International Journal of Computer Science and Information Security, Vol 14, 2016, pp 39-54 [8] Gomaa, W.H and A.A Fahmy, “A survey of text similarity approaches”, International Journal of Computer Applications, 68(13), 2013, pp 13-18 [9] Khatibsyarbini, M., et al., “A hybrid weight-based and string distances using particle swarm optimization for prioritizing test cases”, Journal of Theoretical & Applied Information Technology, Vol 95, Issue 12, 2017, pp 2723-2732 [10] Ledru, Yves, et al, “Prioritizing test cases with string distances”, Automated Software Engineering, Vol 19, Issue 1, 2012, pp 65-95 [11] Niwattanakul, Suphakit, et al, Using of Jaccard coefficient for keywords similarity, in Proceedings of the International MultiConference of Engineers and Computer Scientists, 2013 [12] Su, Zhan, et al., Plagiarism detection using the Levenshtein distance and Smith-Waterman algorithm, Innovative Computing Information and Control, 2008 (ICICIC'08), 3rd International Conference on IEEE, 2008 (BBT nhận bài: 10/10/2017, hoàn tất thủ tục phản biện: 22/10/2017) ... tính độ tương đồng văn thông qua bốn độ đo tương đồng Cosine, Jaccard, Matthanan, Levenshtein Các mục nội dung đầu đề cập đến việc tính độ tương đồng hai văn Phần sau, cách tương tự tính độ tương. .. Mơ hình hóa văn thành vec-tơ: Dựa vào T ta tạo vec-tơ tần số từ A B

Ngày đăng: 23/11/2022, 03:41