1. Trang chủ
  2. » Luận Văn - Báo Cáo

So sánh văn bản dựa trên mô hình véc-tơ

1 2 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

SO SÁNH VĂN BẢN DỰA TRÊN MÔ HÌNH VÉC TƠ COMPARISON OF THE DOCUMENTS BASED ON VECTOR MODEL Tác giả Võ Trung Hùng, Nguyễn Thị Ngọc Anh, Hồ Phan Hiếu, Nguyễn Ngọc Huyền Trân, Võ Duy Thanh Đại học Đà Nẵng[.]

SO SÁNH VĂN BẢN DỰA TRÊN MƠ HÌNH VÉC-TƠ COMPARISON OF THE DOCUMENTS BASED ON VECTOR MODEL Tác giả: Võ Trung Hùng, Nguyễn Thị Ngọc Anh, Hồ Phan Hiếu, Nguyễn Ngọc Huyền Trân, Võ Duy Thanh Đại học Đà Nẵng; vthung@dut.udn.vn, ntnanh@ued.udn.vn, hophanhieu@ac.udn.vn Trường Cao đẳng CNTT Hữu nghị Việt - Hàn; nguyenngochuyentran84@gmail.com, thanhvd59@gmail.com Tóm tắt: Trong báo này, chúng tơi trình bày kết nghiên cứu liên quan đến việc so sánh mức độ giống hai văn Việc so sánh phục vụ mục đích xác định mức độ giống văn với văn khác Phương pháp đề xuất chuyển văn thành véc-tơ Mỗi phần tử véc-tơ trọng số tương ứng với từ mục xuất văn Việc so sánh mức độ giống hai văn chuyển tính góc tạo hai véc-tơ Góc đặc trưng cho mức độ giống/khác hai văn Chúng phát triển công cụ phục vụ so sánh hai văn văn với tập n văn cho trước Kết đạt phản ánh mức độ giống/khác đáp ứng mục tiêu đặt Từ khóa: Mơ hình véc-tơ; So sánh văn bản; Phát chép; Độ đo; Véc-tơ hóa Abstract: In this paper, we present the result of the study related to the comparability of two documents This comparison aims to determine the similarity of a text/document with an other one Our method is converting a document into a vector Each element of vector is a weight corresponding to the index term that appears in the text The similarity comparison of the two texts are transformed into angles created by two vectors This angle represents the similarity/difference between the two documents We have developed a tool that compares a document with two or a set of documents The results reflect exactly the similarity/difference and the achievement of the objectives Key words: Vector model; Document comparison; Copy detection; Measurement; Vectorization

Ngày đăng: 20/04/2023, 20:49

Xem thêm:

w