1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Trang 5 d XUT PHNG PHAP SO SANH VAN

9 5 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 498,66 KB

Nội dung

TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 13, SỐ K1 - 2010 ĐỀ XUẤT PHƯƠNG PHÁP SO SÁNH VĂN BẢN DỰA TRÊN MỨC TƯƠNG QUAN VỊ TRÍ CỦA CÁC TỪ KHĨA Phan Hiền, Thái Kim Phụng Trường Đại học Kinh tế TP.HCM TÓM TẮT: Đa số phương pháp so sánh để xác định mức độ tương tự nội dung dạng văn với văn gốc thường quan tâm nhiều vai trị từ khóa tần suất xuất chúng Tuy nhiên, nhận thấy thiếu quan tâm đến vai trò vị trí từ khóa (chính xác tương quan vị trí từ khóa) Tương quan vị trí từ khóa giúp hình thành cấu trúc tương đối vị trí từ khóa thể cho cấu trúc nội dung dựa từ khóa Chính thế, chúng tơi phát triển phương pháp so sánh để xếp hạng mức độ tương tự văn so với văn gốc dựa mức tương quan vị trí từ khóa, nhằm phục vụ số nội dung dạng văn thơng điệp, bình luận trang mạng Từ khóa: tương quan vị trí từ khóa, độ tương tự, so sánh văn bản, xếp hạng văn GIỚI THIỆU Việc xác định mức độ tương tự văn tài liệu đóng vai rị quan trọng nhiều lĩnh vực rút trích thơng tin, phân loại tài liệu, chấm điểm văn tự động, máy dịch ứng dụng tổng hợp tài liệu khác [7] Sự tương tự văn bản, tài liệu khái niệm phức tạp thảo luận rộng rãi cộng đồng nghiên cứu ngôn ngữ học, triết học khoa học thông tin Các văn xem tương tự chúng đề cập đến khái niệm, đối tượng hành động chung [5] Vì vậy, để xác định mức độ tương tự văn bản, nghiên cứu thường tập trung vào từ vựng (lexical similarity) ngữ nghĩa (semantic similarity) [3] Theo tổng hợp [3; 7], có ba phương pháp xác định độ tương tự hai văn bản: dựa chuỗi (String-based), dựa Corpus (Corpus-based) dựa tri thức (Knowledgebased) Tuy nhiên, hầu hết phương pháp xác định mức độ tương tự dựa từ khóa mà quan tâm đến vai trị tương quan vị trí Trong viết này, muốn đề xuất phương pháp so sánh văn dựa tương quan vị trí từ khóa (hoặc cụm từ khóa) để xác định mức độ tương tự nội dung dạng văn bản, cách tiếp cận khác cho ứng dụng liên quan đến khai thác văn (text mining) CÁC PHƯƠNG PHÁP XÁC ĐỊNH ĐỘ TƯƠNG TỰ GIỮA CÁC VĂN BẢN 2.1 Phương pháp dựa chuỗi Độ tương tự dựa chuỗi khoảng cách hai chuỗi văn dùng cho mục đích so khớp đối sánh văn Độ tương tự dựa chuỗi chia thành hai loại độ tương tự dựa ký tự (Character-Based Similarity) độ tương tự dựa từ khóa (Term-based Similarity) Độ tương tự dựa ký tự: bao gồm thuật toán: Longest Common SubString (LCS) tính tốn chiều dài dãy liên tiếp ký tự xuất hai chuỗi, DamerauLevenshtein định nghĩa khoảng cách hai chuỗi cách đếm số lượng tối thiểu thao tác cần thiết để biến chuỗi thành chuỗi lại [4], Jaro dựa số lượng thứ tự ký tự chung hai chuỗi [6], Jaro-Winkler mở rộng Jaro, sử dụng độ đo tiền tố (prefix scale) để xếp hạng thuận tiện [8], N-gram so sánh n-gram từ ký tự từ hai chuỗi Khoảng cách tính cách chia số lượng n-gram tương tự cho số lượng n-gram lơn [1] Độ tương tự dựa từ khóa, bao gồm thuật tốn: Hệ số Cosine [3] tính cosine góc vector từ khóa (thuật ngữ) hai chuỗi, Hệ số Dice tính hai lần số lượng từ khóa chung chia cho tổng số từ khóa Trang Science & Technology Development, Vol 13, No.K1 - 2010 hai chuỗi [2], Khoảng cách Euclidean bậc tổng bình phương khác biệt phần tử tương ứng hai vector từ khóa, Độ đo Jaccard số lượng từ khóa chung tổng số từ khóa riêng hai chuỗi [3] 2.2 Phương pháp dựa Corpus Độ tương tự dựa Corpus độ tương tự ngữ nghĩa từ dựa vào thơng tin có từ Corpus (là tập hợp lớn văn bản, tiếng nói dùng nghiên cứu ngơn ngữ) Bao gồm phương pháp: Hyperspace Analogue to Language (HAL), Latent Semantic Analysis (LSA), Generalized Latent Semantic Analysis (GLSA), Explicit Semantic Analysis (ESA), The cross-language explicit semantic analysis (CLESA), Pointwise Mutual Information –Information Retrieval (PMI-IR), Second-order co-occurrence pointwise mutual information (SCO-PMI) Normalized Google Distance (NGD) [3] 2.3 Phương pháp dựa tri thức Độ tương tự dựa tri thức độ tương tự ngữ nghĩa cách dựa vào thơng tin có từ mạng ngữ nghĩa (semantic networks) WordNet mạng ngữ nghĩa phổ biến dùng để đo độ tương tự từ Độ tương tự dựa tri thức chia làm nhóm: đo mức độ tương tự (similarity) ngữ nghĩa đo mức độ quan hệ (relatedness) ngữ nghĩa [3] Một số thuật toán đo mức độ tương tự ngữ nghĩa bao gồm: Resnik (res), Lin (lin) Jiang & Conrath (jcn), Leacock & Chodorow (lch), Wu & Palmer (wup) Path Length (path) Một số thuật toán đo mức độ quan hệ ngữ nghĩa bao gồm: St.Onge (hso), Lesk (lesk) vector pairs (vector) Nhận thấy hầu hết phương pháp xem xét mức độ tương tự văn nguồn so với văn cần xem xét mà dựa từ khóa quan tâm đến vai trị tương quan vị trí từ khóa Chúng tơi quan tâm đến điều mô tả cấu trúc tương đối tương quan vị trí từ khóa văn cần xem xét với văn nguồn sử dụng cấu trúc để xếp thứ tự văn nguồn so với văn cần Trang xem xét Các văn nguồn có thứ tự xếp cao mang ý nghĩa có mức độ tương tự với văn cần xem xét cao PHƯƠNG PHÁP SO SÁNH VĂN BẢN DƯA TRÊN VỊ TRÍ TƯƠNG QUAN 3.1 Phát biểu tốn Giả sử có tập văn 𝐷 = {𝑑} Cho văn 𝑑𝑥 không thuộc 𝐷, xếp thứ tự văn 𝑑 𝐷 theo chiều hướng giảm dần mức độ tương tự 𝑑𝑥 Chúng đưa số định nghĩa để xếp hạng mức độ tương tự văn 𝑑 với văn 𝑑𝑥 Từ khóa: Tập từ khóa đoạn xem từ quan trọng để hình thành nên ngữ nghĩa văn Một từ khóa gắn với tập từ đồng nghĩa Từ khóa chung: Tập từ khóa chung hai văn tập từ khóa giống (hay giống ngữ nghĩa) hai văn Mức độ tương tự: Dựa vào chiếm lĩnh mức chênh lệch từ khóa văn Chúng đưa giải thuật so sánh xếp thứ tự ma trận (chỉ cấu trúc tương đối tương quan vị trí từ khóa) Các tham số: Chúng đưa số quy ước sau: • Ngưỡng Φ: Để định có nên xác định mức độ giống văn 𝑑 so với 𝑑𝑥 hay không, đưa ngưỡng Φ giới hạn tỉ lệ tổng số từ khóa chung 𝑑, 𝑑𝑥 tổng số từ khóa văn 𝑑𝑥 • Biên Δ: Được xem biên độ mở rộng mức độ chênh lệch (dùng để so sánh ma trận cấu trúc tương đối tương quan vị trí từ khóa) Ta có điều kiện Δ ≥ • Ngưỡng Ω: Có giá trị người dùng xem mức chênh lệch có giá trị khơng quan trọng thay vào quan trọng vào nhóm mức chênh lệch theo biên độ Δ Tuy nhiên ngưỡng có trị khác 0, TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 13, SỐ K1 - 2010 người dùng quan trọng đến mức chênh lệch có giá trị Vậy biên độ mở rộng cho so sánh Δ giá trị ngưỡng Ω Φ giá trị mang tính định tính nhiều Giá trị cung cấp người có kinh nghiệm hay theo quan điểm 3.2 Phương pháp đề xuất Để xếp hạng mức độ tương tự văn tập {𝑑} so với văn bản, chúng tơi đề xuất quy trình bao gồm bước lớn sau: Bước 1: Xác định ma trận phần trăm tần suất mức chênh lệch tương quan vị trí cặp từ khoá chung văn 𝑑𝑥 so với văn tập {𝑑} minh hoạ qua hình Xác định tập từ khóa chung văn 𝑑𝑥, 𝑑 ký hiệu 𝑇𝐾 = {𝑡𝑘}, tập từ khóa văn 𝑑𝑥 ký hiệu 𝑇𝐾𝑑𝑥 Chúng tiếp tục xét mức độ tương tự văn 𝑑 so với |𝑇𝐾| 𝑑𝑥 |𝑇𝐾 | ≥ Φ 𝑑𝑥 Chúng xác định tập vị trí từ khóa chung 𝑽𝑻𝑻𝑲 = {(𝒕𝒌, 𝒗𝒕𝒅𝒙, 𝒗𝒕𝒅 ) | ∀𝒊, 𝒋 = 𝟏, … , |𝐕𝐓𝐓𝐊| 𝒊 ≤ 𝒋 → 𝒗𝒕𝒅𝒙𝒊 ≤ 𝒗𝒕𝒅𝒙𝒋 } (1) Trong 𝑡𝑘 ∈ 𝑇𝐾 Trong 𝑣𝑡𝑑𝑥 vị trí xuất 𝑡𝑘 văn 𝑑𝑥, 𝑣𝑡𝑑 vị trí xuất 𝑡𝑘 văn 𝑑 lần tìm thấy 𝑡𝑘 lần 𝑡𝑘 tìm thấy văn Trong 𝑣𝑡𝑑𝑥 vị trí xuất 𝑡𝑘 văn 𝑑𝑥, 𝑣𝑡𝑑 vị trí xuất 𝑡𝑘 lần cuối văn 𝑑 lần tìm thấy 𝑡𝑘 lần 𝑡𝑘 tìm thấy 𝑑𝑥 Và ngược lại 𝑑𝑥 Xác định tập từ khoá chung 𝑇𝐾 𝑇𝐾 Xác định tâp vị trí từ khố chung 𝑑𝑥 𝑑 𝑉𝑇𝑇𝐾 𝑑 𝑉𝑇𝑇𝐾 Xác định ma trận phần trăm tần suất 𝑃𝐶𝐿𝑑𝑥,𝑑 𝐶𝐿𝑑𝑥,𝑑 Xác định ma trận mức chênh lệch 𝐶𝐿𝑑𝑥,𝑑 Hình 2: Quy trình bước Các phần tử thuộc tập vị trí từ khóa chung Với 𝑣𝑡𝑑𝑥𝑖 , 𝑣𝑡𝑑𝑖 giá trị 𝑣𝑡𝑑𝑥 , 𝑣𝑡𝑑 xếp tăng dựa vào 𝑣𝑡𝑑𝑥 (𝑡𝑘, 𝑣𝑡𝑑𝑥 , 𝑣𝑡𝑑 )𝑖 ∈ 𝑉𝑇𝑇𝐾 Tiếp đến, định nghĩa ma trận mức Cuối cùng, định nghĩa ma trận phần chênh lệch tập hợp mức chênh lệch trăm tần suất tập hợp phần trăm tần suất các tương quan vị trí cặp từ khoá chung mức chênh lệch từ ma trận mức chênh lệch của văn 𝑑𝑥 𝑑 sau: văn 𝑑𝑥 với 𝑑 sau: 𝑪𝑳𝒅𝒙,𝒅 = [𝒄𝒍𝒊𝒋 ] = [ | |𝒗𝒕𝒅𝒙𝒋 − 𝒗𝒕𝒅𝒙𝒊 | − |𝒗𝒕𝒅𝒋 − 𝒗𝒕𝒅𝒊 | | ] |𝒊, 𝒋 = 𝟏, , |𝑽𝑻𝑻𝑲| (2) 𝑷𝑪𝑳𝒅𝒙,𝒅 = [𝒑𝒄𝒍𝒅𝒙,𝒅 𝒌 ] = [ 𝑭𝑹𝑬𝑪𝑳𝒅𝒙,𝒅 (𝒌) (𝒗∗ 𝒗−𝟏 ) 𝟐 ] |𝒌 = 𝟎, , 𝒘 (3) Trang Science & Technology Development, Vol 13, No.K1 - 2010 Trong đó: • 𝑤 giá trị lớn ma trận 𝐶𝐿𝑑𝑥,𝑑 • 𝑣 = |𝑉𝑇𝑇𝐾|, độ lớn tập vị trí từ khóa chung 𝑉𝑇𝑇𝐾 • 𝑘 đại diện cho mức chênh lệch ma trận 𝐶𝐿𝑑𝑥,𝑑 • 𝐹𝑅𝐸𝐶𝐿𝑑𝑥,𝑑 (𝑘) tổng số lần xuất mức chênh lệch 𝑘 ma trận 𝑑1 𝑑2 𝑑3 𝐶𝐿𝑑𝑥,𝑑 mà tính phần tử 𝑐𝑙𝑖𝑗 ∈ 𝐶𝐿𝑑𝑥,𝑑 thỏa điều kiện 𝑗 > 𝑖 Bước 2: Xếp hạng mức độ tương tự với văn 𝑑𝑥 văn tập {𝑑1 , 𝑑2 , … , 𝑑𝑛 } Chúng đề nghị phương pháp minh hoạ qua Hình 3: 𝑑𝑛 𝑑𝑥 Xác định ma trận phần trăm tần suất mức chênh lệch 𝑃𝐶𝐿𝑑𝑥,𝑑1 𝑃𝐶𝐿𝑑𝑥,𝑑2 𝑃𝐶𝐿𝑑𝑥,𝑑3 𝑃𝐶𝐿𝑑𝑥,𝑑𝑛 Xếp hạng đoạn 𝑑1 , 𝑑2 , 𝑑3 , … , 𝑑𝑛 dựa vào mức độ giống với 𝑑𝑥 thứ tự đoạn 𝑑1 , 𝑑2 , 𝑑3 , … , 𝑑𝑛 Hình 3: Quy trình bước nhanh,…) Đồng thời bên thuật toán Với tập văn {𝑑} ta cần xếp thứ hạng xếp thứ tự ln có phần thuật tốn để 𝑑𝑖 ∈ {𝑑} dựa vào mức độ tương tự so sánh cặp 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 , 𝑃𝐶𝐿𝑑𝑥,𝑑𝑗 Ở 𝑑𝑖 với 𝑑𝑥 Chúng đề nghị tính ma trận phần trăm tần suất 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 theo công thức số so sánh ma trận với nhau, chúng (3), sau so sánh 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 với đề xuất thuật toán so sánh phần từ 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 để xác định thứ tự văn 𝑑𝑖 theo 𝑃𝐶𝐿𝑑𝑥,𝑑𝑗 sau: mức độ tươmg tự 𝑑𝑥 Nếu ngưỡng Ω ≠ chúng tơi làm Để làm việc so sánh này, sử từ bước Đây mang ý nghĩa việc so sánh coi dụng biên Δ cho thuật toán so sánh ngưỡng Ω trọng mức chênh lệch có giá trị để định yếu tố mức chênh lệch có giá trị Nếu ngưỡng Ω = chúng tơi bắt quan trọng hay khơng Biên độ Δ ngưỡng Ω đầu xét nhóm mức chênh lệch từ mức giá trị mang tính định tính nhiều chênh lệch = sử dụng biên độ Δ (điều Giá trị cung cấp thể phương pháp làm từ bước với người có kinh nghiệm hay theo quan điểm 𝑘 = 0) Đây mang ý nghĩa việc so sánh coi trọng nhóm chênh lệch Để xếp hạng thứ tự tập văn Chúng tơi trình bày thuật tốn so sánh/xếp {𝑑1 , 𝑑2 , … , 𝑑𝑛 } , xếp hạng đoạn mức độ tương tự văn so với văn việc xếp hạng 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 với khác dựa mức chênh lệch sau: Chúng tơi sử dụng thuật tốn xếp phổ thông (như Bước 1: chèn, bọt hay dùng phương pháp xếp Trang TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 13, SỐ K1 - 2010 Nếu 𝑝𝑐𝑙𝑑𝑥,𝑑𝑖 > 𝑝𝑐𝑙𝑑𝑥,𝑑𝑗 𝑘+Δ Nếu ∑𝑘+Δ 𝑟=𝑘 𝑝𝑐𝑙𝑑𝑥,𝑑𝑖 = ∑𝑟=𝑘 𝑝𝑐𝑙𝑑𝑥,𝑑𝑗 𝑟 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 ≻ 𝑃𝐶𝐿𝑑𝑥,𝑑𝑗 kết thúc Nếu 𝑝𝑐𝑙𝑑𝑥,𝑑𝑖 < 𝑝𝑐𝑙𝑑𝑥,𝑑𝑗 0 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 ≺ 𝑃𝐶𝐿𝑑𝑥,𝑑𝑗 kết thúc Nếu 𝑝𝑐𝑙𝑑𝑥,𝑑𝑖 = 𝑝𝑐𝑙𝑑𝑥,𝑑𝑗 Trong 𝑚𝑎𝑥𝐶𝐿 mức chênh lệch lớn ma trận mức chênh lệch 𝐶𝐿𝑑𝑥,𝑑𝑖 , 𝐶𝐿𝑑𝑥,𝑑𝑗 ta thực bước với 𝑘 = Bước 2: Nếu 𝑘 ≤ 𝑚𝑎𝑥𝐶𝐿 𝑘+Δ Nếu ∑𝑘+Δ 𝑟=𝑘 𝑝𝑐𝑙𝑑𝑥,𝑑𝑖 > ∑𝑟=𝑘 𝑝𝑐𝑙𝑑𝑥,𝑑𝑗 𝑟 Sau chúng tơi tiến hành xếp thứ tự văn tập {𝑑} dựa mức tương tự chúng với văn 𝑑𝑥 3.3 Minh họa Nhóm chúng tơi cho văn với từ đại diện ký tự sau: 𝑟 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 ≻ 𝑃𝐶𝐿𝑑𝑥,𝑑𝑗 kết thúc 𝑘+Δ Nếu ∑𝑘+Δ 𝑟=𝑘 𝑝𝑐𝑙𝑑𝑥,𝑑𝑖 < ∑𝑟=𝑘 𝑝𝑐𝑙𝑑𝑥,𝑑𝑗 𝑟 𝑟 làm lại bước với 𝑘 = 𝑘 + Δ + Ngược lại 𝑘 > 𝑚𝑎𝑥𝐶𝐿 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 ≈ 𝑃𝐶𝐿𝑑𝑥,𝑑𝑗 kết thúc 𝑟 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 ≺ 𝑃𝐶𝐿𝑑𝑥,𝑑𝑗 kết thúc Bảng Dữ liệu Tên văn Nội dung Từ khoá 𝑎 EFABBBABEFAEAEBB A;B;F; A B 𝑐 ABBABEFABEFBE A;B; A B Văn cần so sánh ABBDABCDEABECCBEBCD A; B; A B 𝑥 Chúng tơi tính cho cặp văn 𝑎 𝑥: • B2: Tính tập vị trí từ khố chung văn 𝑥 văn 𝑎 thể • B1: Từ khóa chung văn 𝑎 𝑥: Bảng A; B; A B (quan tâm ngưỡng Φ) Bảng 1: Kết tập vị trí từ khố chung Từ khóa chung A AB B B A AB B A A AB B B B 𝑣𝑡𝑥 0 8 10 18 18 18 20 28 32 𝑣𝑡𝑎 4 12 12 10 20 24 12 14 28 30 Bảng 3: Ma trận mức chênh lệch 0 0 0 2 10 10 0 0 0 2 10 10 0 0 0 2 10 10 0 0 0 2 10 10 0 0 0 2 10 10 0 0 0 2 10 10 4 4 4 6 2 2 2 2 8 Trang Science & Technology Development, Vol 13, No.K1 - 2010 2 2 2 12 12 10 10 10 10 10 10 12 0 10 10 10 10 10 10 12 0 4 4 4 6 6 6 6 4 Bảng 4: Ma trận phần trăm tần suất mức chênh lệch Mức chênh lệch 10 11 12 𝑃𝐶𝐿𝑥,𝑎 0.2179 0.2051 0.2051 0.1538 0.0384 0.1538 0.0256 𝑃𝐶𝐿𝑥,𝑐 0.1818 0.3636 0.2424 0.1060 0.0454 0.0606 0 Nhận thấy vị trí từ khóa A B văn 𝑎 ghi lại hai lần giá trị lần tìm thấy cuối (vì từ khóa A B xuất văn 𝑥 đến lần xuất văn 𝑎 lần) Tương tự với từ khóa A Xét từ khóa B xuất lần đầu từ khóa A B xuất lần thứ Bảng 2, ta có Trên văn 𝑥: cặp từ khóa (A B; B) lệch 16 = 18 – Trên văn 𝑎: cặp từ khóa (A B; B) lệch = 12 – Chênh lệch tương quan vị trí cặp từ khóa (A B; B) văn 𝑎 𝑥 10 =|16 - 6| Dựng ma trận mức chênh lệch văn 𝑎 𝑥, ký hiệu 𝐶𝐿𝑥,𝑎 (thể Bảng 3) Sau đó, chúng tơi tính ma trận phần trăm tần suất văn 𝑎 𝑥; tương tự làm lại từ đầu cho văn 𝑐 𝑥 Chúng tơi có ma trận thể Bảng Việc so sánh hai ma trận này, đề nghị cách so từ mức chênh lệch thấp nhất, sau xét đến mức chênh lệch lớn (quan tâm đến Δ Ω) Từ đó, chúng tơi xếp thứ tự văn 𝑎 𝑐 Trường hợp: Người đánh giá không quan trọng mức không lệch đánh đồng với mức chênh lệch biên độ Δ Vậy chọn Φ = 0.5, Δ = Ω = ta có văn 𝑥 giống văn 𝑐 Trang nhiều hơn, hay nói cách khác thứ tự văn 𝑎 𝑐 theo mức độ giống văn 𝑥 [𝑐, 𝑎] (ý nói văn 𝑐 giống văn 𝑥 nhất) Vậy chọn Φ = 0.5, Δ = Ω = ta có văn 𝑥 giống văn 𝑎 nhiều hơn, hay nói cách khác thứ tự văn 𝑎 𝑐 theo mức độ giống văn 𝑥 [𝑎, 𝑐] (ý nói văn 𝑎 giống văn 𝑥 nhất) Ở nhóm thể biên độ khác cho thái độ người đánh giá thoáng hay nghiêm trọng việc xét giống mức chênh lệch Trường hợp: Người đánh giá coi trọng mức không lệch, mức khơng lệch giống quan tâm đến mức chênh lệch biên độ Δ Vậy chọn Φ = 0.5, Δ = Ω = ta có văn 𝑥 giống văn 𝑎 nhiều hơn, hay nói cách khác thứ tự văn 𝑎 𝑐 theo mức độ giống văn 𝑥 [𝑎, 𝑐] KẾT LUẬN Bài viết trình bày phương pháp việc xem xét mức độ tương tự văn dựa chênh lệch tương quan vị trí từ khóa văn Phương pháp tìm tương đồng cấu trúc bố trí tương đối từ khóa văn mở giải pháp cho việc tìm thấy tương đồng từ khóa thay từ khác mà coi đồng TAÏP CHÍ PHÁT TRIỂN KH&CN, TẬP 13, SỐ K1 - 2010 nghĩa Để xây dựng tập từ đồng nghĩa, nhóm chúng tơi sử dụng nguồn WordNet để lấy tập từ đồng nghĩa Qua đây, muốn đề xuất phương pháp ứng dụng liên quan đến so sánh nội dung dạng văn Trong nghiên cứu tiếp theo, tiến hành thực nghiệm để đánh giá tính hiệu so với phương pháp truyền thống việc đề xuất phương pháp thuyết phục Trang Science & Technology Development, Vol 13, No.K1 - 2010 A PROPOSED METHOD FOR TEXT SIMILARITY BASED ON KEYWORDS’S POSITIONAL CORRELATION Phan Hien, Thai Kim Phung University of Economics Ho Chi Minh City ABSTRACT: The majority of methods for determining the similarity between textual content and original text are more concerned with the role and frequency of keywords However, there is a lack of interest in the role of keywords’s position Positional correlation of keywords help shape the relative structure of the position of the keywords It represents a keyword-based content structure In this paper, we developed a method for ranking the similarity of texts based on keywords’s positional correlation, in order to serve in textual content comparison Keywords: keywords’s positional correlation, similarity, text comparison, text ranking REFERENCES [1] Alberto B, Paolo R, Eneko A, and Gorka L, Plagiarism Detection across Distant Language Pairs, In Proceedings of the 23rd International Conference on Computational Linguistics, pp.37–45, (2010) [2] Dice LR, Measures of the amount of ecologic association between species, Ecology 26(3), pp 297-302, (1945) [3] Gomaa WH, Fahmy AA, A survey of text similarity approaches, International Journal of Computer Applications 68(13), pp.13-18, (2013) [4] Hall PAV, Dowling GR, Approximate string matching, Comput Surveys, pp 381-402, (1980) [5] Hatzivassiloglou V, Klavans JL, and Eskin E, Detecting text similarity over short passages: Exploring linguistic feature combinations via machine learning, In Proceedings of the 1999 joint sigdat conference on empirical methods in natural language processing and very large corpora, pp 203-212, (1999) [6] Jaro MA, Advances in record-linkage methodology as applied to matching the 1985 census of Tampa, Florida, Journal Trang 10 of the American Statistical Association 84(406), pp.414-420, (1989) [7] Vijaymeena MK, Kavitha K, A survey on similarity measures in text mining, Machine Learning and Applications: An International Journal (MLAIJ), (2016) [8] Winkler W E, String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage, Proceedings of the Section on Survey Research Methods, American Statistical Association, pp 354–359, (1990) TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 13, SOÁ K1 - 2010 Trang

Ngày đăng: 15/01/2022, 08:27

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w