Nghiên cứu các phương pháp đánh giá độ tương đồng của văn bản

63 980 12
Nghiên cứu các phương pháp đánh giá độ tương đồng của văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC QUẢNG BÌNH KHOA KỸ THUẬT - CƠNG NGHỆ THƠNG TIN -  - KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC NGHIÊN CỨU CÁC PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ TƯƠNG ĐỒNG CỦA VĂN BẢN Họ tên sinh viên: Trương Thanh Đồng Mã số sinh viên: DQB04140022 Chuyên ngành: Công nghệ thông tin Giảng viên hướng dẫn: TS Trần Văn Cường QUẢNG BÌNH, 2018 LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu độc lập riêng cá nhân, cơng thức, thuật tốn, số liệu kết nghiên cứu sử dụng đề tài nghiên cứu khóa luận chân thực Nghiên cứu chưa cơng bố cơng trình khác Những tài liệu thu thập tác giả khác sử dụng khóa luận có trích dẫn tài liệu tham khảo thích có nguồn gốc Sinh viên Trương Thanh Đồng NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… Xác nhận giảng viên hướng dẫn TS Trần Văn Cường LỜI CẢM ƠN Tôi xin gửi lời cảm ơn biết ơn sâu sắc tới TS Trần Văn Cường Người bảo hướng dẫn tận tình cho tơi suốt q trình nghiên cứu thực khố luận Tơi chân thành cảm ơn thầy, cô tạo cho điều kiện thuận lợi để học tập nghiên cứu trường Đại học Quảng Bình Tơi xin gửi lời cảm ơn tới bạn sinh viên lớp động viên tơi q trình học tập, nghiên cứu làm khố luận Đặc biệt, tơi xin cảm ơn thầy cô khoa Kỹ thuật - Công nghệ thông tin, thầy cô trường giảng dạy, dìu dắt tơi suốt năm học Cuối cùng, muốn gửi lời cảm ơn biết ơn vơ hạn tới gia đình, bạn bè tất người thân yêu Xin chân thành cảm ơn ! MỤC LỤC TỔNG QUAN ĐỀ TÀI 1 Lý chọn đề tài Mục đích đề tài Đối tượng Phương pháp nghiên cứu Nội dung nghiên cứu NỘI DUNG CHƯƠNG I: TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ ỨNG DỤNG 1.1 Xử lý ngôn ngữ tự nhiên 1.2 Một số ứng dụng xử lý ngôn ngữ tự nhiên (NLP) 1.3 Vấn đề độ tương tự văn 1.4 Vấn đề chép, đạo văn văn CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT 11 2.1 Phát biểu toán so sánh văn 11 2.2 Một số kết đạt Xử lý văn tiếng Việt 11 2.3 Đặc điểm ngôn ngữ tiếng Việt 12 2.3.1 Cấu tạo từ tiếng Việt 12 2.3.2 Biến hình từ tiếng Việt 13 2.3.3 Từ đồng âm khác nghĩa 13 2.3.4 Từ đồng nghĩa 14 2.3.5 Đặc điểm tả 14 2.3.6 Bảng mã tiếng Việt máy tính 15 2.4 Bài toán so sánh văn 16 2.4.1 Tiền xử lý văn 16 2.4.2 Biểu diễn văn 21 2.4.3 Phương pháp tính độ tương đồng văn 21 CHƯƠNG III: MƠ HÌNH BIỂU DIỄN VĂN BẢN 22 3.1 Mơ hình biểu diễn văn truyền thống 22 3.1.1 Mơ hình túi từ ngữ (Bag-of-Word) 22 3.1.2 Mơ hình logic 23 3.1.3 Mô hình phân tích cú pháp 24 3.1.4 Mơ hình vector 25 3.2 Mơ hình đồ thị biểu diễn văn 28 3.2.1 Mơ hình đồ thị khái niệm (Conceptual Graphs - CGs) 29 3.2.2 Mơ hình đồ thị hình 30 3.2.3 Mơ hình đồ thị vô hướng sử dụng tần số xuất 31 3.2.4 Mơ hình đồ thị có hướng, cạnh khơng gán nhãn 31 3.2.5 Mơ hình đồ thị có hướng, cạnh không gán nhãn, cạnh khoảng cách n hai từ văn 32 3.3 Mơ hình word2vec văn 33 3.4 Mơ hình doc2vec văn 34 CHƯƠNG IV: 36 PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN 36 4.1 Khái niệm độ tương đồng 36 4.2 Độ tương đồng văn dựa tập từ chung 36 4.2.1 Khoảng cách Jaro 36 4.2.2 Mơ hình tương phản (Contrast model) 37 4.2.3 Hệ số Jaccard 37 4.3 Độ tương đồng văn dựa vector biểu diễn 37 4.3.1 Độ tương đồng Cosine 37 4.3.2 Độ tương đồng dựa vào khoảng cách Euclide 38 4.3.3 Độ tương đồng dựa vào khoảng cách Manhattan 38 4.4 Độ tương đồng văn tiếng Việt 38 4.4.1 Độ tương tự ngữ nghĩa từ - từ 39 4.4.2 Độ tương tự ngữ nghĩa văn 41 4.4.3 Độ tương tự thứ tự từ câu 42 4.4.3.1 Tính độ tương đồng theo hệ số cosin 42 4.4.3.2 Độ tương tự thứ tự từ câu 42 4.4.3.3 Tính độ tương đồng cho tồn câu 43 4.4.4 Tính tốn độ tương đồng cho tồn văn 44 4.4.4.1 Một số phương pháp tìm độ tương đồng hai văn 44 4.4.4.2 Phương pháp tính độ tương đồng cơng thức trung bình 45 CHƯƠNG V: XÂY DỰNG MƠ HÌNH SÁNH VĂN BẢN 46 5.1 Mơ hình hệ thống 46 5.2 Các công đoạn xử lý hệ thống 47 5.2.1 Tiền xử lý 47 5.2.2 Tách từ, câu văn 47 5.2.3 Loại bỏ từ dừng 47 5.2.4 Vector hóa văn 47 5.2.5 Tính độ tương tự văn 49 5.3 Thực hóa chương trình 50 5.3.1 Lựa chọn công cụ tiền xử lý 50 5.3.2 Chương trình ứng dụng 50 CHƯƠNG VI: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 51 TÀI LIỆU THAM KHẢO 53 DANH MỤC HÌNH ẢNH Hình 2.1: Các hướng tiếp cận việc tách từ 17 Hình 3.1: Mơ hình Bag-of-Word 23 Hình 3.2: Mơ hình vector biểu diễn văn 25 Hình 3.3: Ví dụ mơ hình đồ thị khái niệm 30 Hình 3.4: Ví dụ mơ hình đồ thị hình 30 Hình 3.5: Ví dụ mơ hình đồ thị vơ hướng sử dụng tần số xuất 31 Hình 3.6: Ví dụ mơ hình đồ thị đơn giản 32 Hình 3.7: Ví dụ mơ hình đồ thị khoảng cách n đơn giản 32 Hình 3.8: Mơ hình Cbow Skip-gram 33 Hình 3.9: Mơ hình túi từ phân tán vectơ đoạn 34 Hình 3.10: Mơ hình nhớ phân tán 35 Hình 3.11: Mơ hình nhớ phân tán cho việc học vector đoạn 35 Hình 5.1: Mơ hình hệ thống so sánh văn 46 DANH MỤC BẢNG Bảng 3.1: Biểu diễn văn mơ hình Logic 24 Bảng 3.2: Vector biểu diễn văn 26 TỔNG QUAN ĐỀ TÀI Lý chọn đề tài Ngày nay, với phát triển mạnh mẽ khoa học cơng nghệ đặc biệt máy tính mạng Internet thơng tin dạng liệu văn trở nên phong phú nội dung tăng nhanh số lượng Chỉ vài thao tác tìm kiếm thơng tin đơn giản, ta nhận khối lượng khổng lồ trang web tài liệu điện tử liên quan đến nội dung tìm kiếm Chính dễ dàng mang đến cho nhiều khó khăn việc tìm thơng tin hữu ích số tài liệu Xử lý ngôn ngữ tự nhiên (Natural Language Processing) lĩnh vực nghiên cứu thường có kết hợp công nghệ thông tin ngôn ngữ học Trong đó, vai trò cơng nghệ thơng tin ngày chứng tỏ sức mạnh tầm quan trọng nghiên cứu kết ứng dụng Cho đến có nhiều kết nghiên cứu triển khai ứng dụng đem lại hiệu lớn cho xã hội Trong đó, nghiên cứu phổ biến xử lý ngôn ngữ tiếng Anh với tốn điển tóm tắt văn bản, trích chọn từ khóa, dịch tự động,… đặc biệt toán đánh giá độ tương đồng văn nhiều tác giả quan tâm nghiên cứu với hy vọng đem lại lợi ích to lớn ứng dụng thực tiễn [2] Tuy nhiên, văn tiếng Việt việc nghiên cứu khai thác thông tin chưa có nhiều, hầu hết sử dụng phương pháp đề xuất cho tiếng Anh để áp dụng sang tiếng Việt Do đặc điểm ngôn ngữ tiếng Việt có nhiều điểm khác so với ngơn ngữ tiếng Anh nên việc áp dụng phương pháp nhiều hạn chế [1] Đã có nhiều cơng trình nghiên cứu cải tiến nghiên cứu cho văn tiếng Anh để áp dụng cho tiếng Việt đạt thành cơng bước đầu Hiện nay, tình trạng chép văn bản, vi phạm quyền tác giả đạo văn diễn thường xuyên gây khó khăn việc kiểm sốt, xác minh thơng tin Với thực tế đó, đề tài “Nghiên cứu phương pháp đánh giá độ tương đồng văn bản” nghiên cứu để tìm phương pháp đánh giá mức độ tương đồng văn đề xuất mơ hình việc áp dụng học máy vào so sánh văn Nghiên cứu sở cho việc xây dựng ứng dụng việc hỗ trợ đánh giá độ tương đồng văn bản, ứng dụng nhằm hạn chế tránh lặp, đạo văn PMI đưa Turney 2001 độ đo không giám sát để đánh giá độ tương tự ngữ nghĩa từ Nó phương pháp đo quan hệ sử dụng nghiên cứu thống kê, MI kết trung bình khả xảy việc mà ta xét tới PMI sử dụng mơ hình thống kê, tính điểm cho đối tượng (ở hai từ) đem so sánh Thông tin tương hỗ theo điểm PMI hai từ x y so sánh khả quan sát hai từ với để xác suất quan sát x y độc lập (xác suất xảy ngẫu nhiên): Các xác suất tính xấp xỉ sau: Trong đó: C số lần xuất từ Corpus, N tổng số từ tập ngữ liệu - Áp dụng thuật tốn PMI vào việc tính độ tương tự từ với từ: Để tìm số đánh giá tương đồng ngữ nghĩa hai từ văn bản, ta tìm số thơng tin chung PMI hai từ Để tìm số ta tính số lần từ xuất hiển tổng số từ tập Corpus số lần hai từ xuất văn bản, sau tính giá trị PMI theo logarit số theo cơng thức Ví dụ: Có từ w1 w2 tập Corpus có khoảng 1000000 từ Ta cần tìm độ tương đồng ngữ nghĩa hai từ Ta thấy số lượng từ có khoảng 200000 từ w1, 250000 từ w2 số lần w2 xuất với w1 văn khoảng 150000 lần Như tìm PMI(w1,w2) sau PMI(w1,w2) = = 0.547 b) LSA (Latent Semantic Analysis) – phân tích ngữ nghĩa ẩn - Xây dựng ma trận T (ma trận từ – tài liệu) thể tập ngữ liệu - Giảm số chiều SVD 40 SVD xem cách khắc phúc số hạn chế mơ hình khơng gian vector chuẩn số chiều cao, giúp cho LSA tính với số chiều thấp mối quan hệ từ - văn khai thác Độ tương tự không gian kết đo độ tương tự Cosine Ngoài ra, LSA sinh mơ hình khơng gian vector thể đồng từ, cụm từ văn 4.4.2 Độ tương tự ngữ nghĩa văn Đánh giá độ tương tự ngữ nghĩa từ dùng để tạo vector đặc trưng ngữ nghĩa văn Việc đánh giá độ tương tự ngữ nghĩa hai văn đa số nghiên cứu sử dụng vector đặc trưng cho ngữ nghĩa văn Mỗi thành phần vector thiết lập từ việc tính độ tương tự từ văn với từ văn lại, trọng số thành phần độ đo tương tự lớn Giả sử cho hai văn (đã tách từ vựng) sau: T1 = { w11, w12, …, w1m1 } T2 = { w21, w22, …, w2m2 } Trong đó: o wij từ thứ j văn di (i=1,2) o mi số lượng từ vựng tách văn Ti Tập từ không giống hai văn là, T = T1 ∪ T2 = { w1, w2, …, wm } Véc-tơ đặc trưng ngữ nghĩa cho văn T1, ký hiệu V1 = (v11, v12, …, v1m) xây dựng sau:  Xét từ wi ∈ T, tính độ tương tự ngữ nghĩa với từ T1, độ đo tương tự lớn đưa vào thành phần v1i tương ứng V1 v1i = max{ sim(wi, w1j) | j =1 m1 }, với i=1 m  Độ tượng tự ngữ nghĩa hai văn tính dựa hai véc-tơ đặc trưng ngữ nghĩa tương ứng Hệ số cosin độ đo hay sử dụng để tính độ tương tự này: Để tính tốn độ tương tự (sim) hai từ, tiếng Anh người ta dựa vào mạng từ WordNet, nhiên với tiếng Việt mạng từ chưa xây dựng đầy 41 đủ nên phương án sử dụng công cụ dịch từ tiếng Việt tiếng Anh, sau đánh giá độ tương tự cặp từ tiếng Anh mạng WordNet đề tài tác giả Dương Thăng Long Một số nghiên cứu khác sử dụng phương pháp phân tích ngữ nghĩa ẩn LSA hay PMI để đo độ tương tự từ dựa tập ngữ liệu [3] 4.4.3 Độ tương tự thứ tự từ câu 4.4.3.1 Tính độ tương đồng theo hệ số cosin Sau tính độ tương tự từ, ta đưa vector ngữ nghĩa si cho câu Giá trị thành phần có vector giá trị độ tương tự từ từ câu với tập từ chung Sự giống ngữ nghĩa câu hệ số cosin góc vector: Sims 4.4.3.2 Độ tương tự thứ tự từ câu Mục tiêu phần từ hai câu input, đưa vector thứ tự từ cho câu Độ tương tự thứ tự từ yếu tố quan trọng ảnh hưởng đến độ tương tự văn Các văn chứa tập từ vựng giống khác vị trí có ý nghĩa hồn tồn khác Ví dụ cho hai câu: T1 = { con_gà, rượt, con_ngan } T2 = { con_ngan, rượt, con_gà } Hai câu chứa tập từ giống gần giống thứ tự từ, sai khác thứ tự cặp từ “con_gà” “con_ngan” Nếu dựa độ tương tự ngữ nghĩa câu hai câu chứa tập từ giống cho kết hồn tồn giống nhau, có nghĩa sim(T1,T2)=1 Tuy nhiên, hai câu có ý nghĩa khơng giống nhau, khác hai câu sai khác vị trí từ câu Tác giả Dương Thăng Long đề tài “Nghiên cứu độ tương đồng văn tiếng Việt ứng dụng hỗ trợ đánh giá việc chép điện tử” [2] đưa phương pháp đánh giá độ tương tự văn dựa thứ tự từ sau:  Với cặp câu T1 T2, xác định tập từ vựng phân biệt hai câu  T = T ∪ T2 42  Vector đặc trưng thứ tự từ hai câu, kí hiệu R1 = (r11, r12, …, r1m) R2 = (r21, r22, …, r2m), tính dựa tập T Vector thứ tự từ biểu diễn thứ tự từ thuộc T nằm vị trí câu tương ứng Với từ wi ∈ T, tìm từ gần nghĩa T1 để xác định trọng số cho phần tử r1i R1 theo ba trường hợp sau: Nếu từ wi có T1 r1i số thứ tự từ T1 Tìm từ T1 gần nghĩa với wi, sử dụng phương pháp đo độ tương tự ngữ nghĩa hai từ Nếu độ đo vượt ngưỡng θ cho trước r1i số thứ tự từ T1 Nếu khơng tìm thấy độ tương tự từ T1 wi khơng vượt ngưỡng đặt r1i Vector đặc trưng thứ tự từ biểu diễn thông tin cấu trúc từ văn Mức độ giống cấu trúc câu tính tốn dựa vector đặc trưng thứ tự từ cơng thức sau: 4.4.3.3 Tính độ tương đồng cho toàn câu Sự giống toàn câu định nghĩa kết hơp độ tương tự mặt ngữ nghĩa thứ tự từ câu Sim(S1, S2) = Sims + Simr Để làm rõ phương pháp tính độ tương đồng hai câu, ta xét ví dụ sau: Giả sử có câu sau: S1: Khóa luận tốt nghiệp tơi thực với giúp đỡ giảng viên hướng dẫn S1: Giảng viên tích cực hướng dẫn sinh viên khoa thực báo Sau tách từ loại bỏ stop-word, ta có tập từ hai câu sau: Tập từ S1: W1 = {Khóa_luận, tốt_nghiệp, tôi, thực_hiện, sự, giúp_đỡ, giảng_viên, hướng_dẫn } Tập từ S2: W2 = {Giảng_ viên, tích_cực, hướng_dẫn, sinh_viên, khoa, thực_hiện, bài_báo} 43 Tập từ chung Wc = {Khóa_luận, tốt_nghiệp, thực_hiện, giảng_ viên, hướng_dẫn} Gọi r vector thứ tự từ câu Với hai câu S1 S2 ta có hai vector r1 r2 tương ứng sau: r1 = { 5} r2 = { 0} Ta tìm vector S1, S2 độ tương tự từ từ hai câu với tập từ chung Áp dụng cách tính độ tương tự từ từ cơng thức PMI để ta tìm độ giống lớn mặt ngữ nghĩa mà từ câu S1 S2 giống với tập từ chung Ta tìm S1, S2 sau: S1 = {0.97 0.98 0.1 0.86 0.2 0.87 0.925} S2 = {0.96 0.21 0.87 0.112 0.91 0.94 0.1} Sims = = = 0.512 Tương tự dựa vào cơng thức để ta tính Simr Vậy độ tương đồng ngữ nghĩa hai câu Sim(S1,S2) = Sims + Simr 4.4.4 Tính tốn độ tương đồng cho toàn văn 4.4.4.1 Một số phương pháp tìm độ tương đồng hai văn Trong nhiều trường hợp, độ tương tự hai đoạn văn xác định dựa so khớp từ đơn giản, điểm tương tự xác định dựa số đơn vị từ vựng xuất hai đoạn văn đầu vào Tuy nhiên, phương pháp khẳng định độ tương tự ngữ nghĩa văn chưa quan tâm tới tượng đồng nghĩa từ, tầm quan trọng từ tần suất xuất hiện, vị trí xuất từ câu văn Các phương pháp đánh giá độ tương tự văn chủ yếu dựa hai yếu tố: độ tương tự ngữ nghĩa từ độ tương tự theo trật tự từ văn [3] 44 4.4.4.2 Phương pháp tính độ tương đồng cơng thức trung bình Trong nghiên cứu Phạm Văn Tú đề tài “Đối sánh tương đồng hai văn bản” phương pháp đánh giá độ tương đồng hai văn dựa độ tương tự câu thành phần tính phần trước Thực xác định độ tương tự ngữ nghĩa hai đoạn văn D1 D2 cách sử dụng phương pháp kết hợp độ tương tự ngữ nghĩa câu văn câu văn Đầu tiên, với câu Si văn D1 ta tìm tổng độ tương đồng với câu văn D2 sau chia cho số câu D2 để lấy kết trung bình Với câu D1 ta có độ tương tự ngữ nghĩa với câu D2, từ đây, để tính độ tương tự ngữ nghĩa D1 với D2 ta lại lấy giá trị trung bình câu D1 Giả sử D1 có n câu D1 = {S1, S2,…Sn} Giả sử D2 có m câu D2 = {S1, S2,…Sm} Với câu Si D1 ta tính độ tương đồng ngữ nghĩa với D2 sau Sim(Si,D2| Si thuộc D1) = (Với m số câu D2, Sj thuộc D2) Sau tính Sim(Si, D2) độ tương đồng câu D1 với D2 ta tính độ tương đồng hai văn trung bình cộng giá trị Sim(D1,D2) = [5] 45 CHƯƠNG V: XÂY DỰNG MƠ HÌNH SÁNH VĂN BẢN 5.1 Mơ hình hệ thống Kho ngữ liệu Tiền xử lý văn Tách từ, câu văn Loại bỏ từ dừng Văn đối sánh Xây dựng vector đặc trưng Vector đặc trưng Các vector đặc trưng cho văn Đo độ tương đồng Các văn tương đồng Hình 5.1: Mơ hình hệ thống so sánh văn Trong mơ hình có pha: pha huấn luyện pha kiểm tra Để làm sở cho việc so sánh, lượng lớn văn (kho ngữ liệu) đóng vai trò tập liệu làm sở cho việc đối sánh Với tất văn hệ thống thực công đoạn tiền xử lý biểu diễn văn dạng vector đặc trưng Đối với vector đặc trưng kho văn lưu trữ hệ thống so sánh văn Riêng vector đặc trưng văn cần đối sánh so sánh trực tiếp với tập vector đặc trưng văn có kho ngữ liệu Những vector đặc trưng văn so sánh có trùng khớp nhiều với vector đặc trưng văn kho ngữ liệu độ tương đồng cao ngược lại Sau so sánh, hệ thống đưa danh sách văn tương tự với văn so sánh 46 5.2 Các công đoạn xử lý hệ thống 5.2.1 Tiền xử lý Tiền xử lý: bước thực loại bỏ từ nhiễu có văn ví dụ thẻ hyperlink, hình ảnh văn bản, biểu tượng, dấu câu Mục đích tiền xử lý loại bỏ thành phần không cần thiết, có giá trị văn nhằm làm tăng hiệu so sánh văn 5.2.2 Tách từ, câu văn Giai đoạn có nhiệm vụ tách văn từ câu Văn sau tiền xử lý tách thành từ, câu Đối với tiền xử lý, tách câu, từ văn tiếng Việt có nhiều công cụ hỗ trợ tách từ JvnTextPro, vnTokenizer nghiên cứu đề tài lựa chọn sử dụng công cụ vnTokenizer cho việc tiền xử lý tách câu từ 5.2.3 Loại bỏ từ dừng Loại bỏ từ dừng: Sau tách xong văn loại bỏ từ dừng, từ có tần số thấp, từ có ý nghĩa văn dựa từ điển từ dừng có trước Sau bước này, văn tập hợp từ sàng lọc văn Để xác định từ đồng nghĩa với từ câu đối chiếu với từ điển từ đồng nghĩa để lập danh sách từ đồng nghĩa Đầu vào giai đoạn tập tin văn thêm dấu phân tách từ bước 5.2.4 Vector hóa văn Giai đoạn có nhiệm vụ xây dựng vector biểu diễn văn gồm vector đặc trưng ngữ nghĩa vector thứ tự từ, sử dụng danh sách câu từ xử lý Thơng thường việc vector hố áp dụng theo câu khơng phải đoạn Vì vector hoá theo đoạn văn dài dẫn đến vector nhiều chiều dẫn đến khó xác biểu diễn từ so sánh văn [15] Đối với vector biểu biễn văn kho ngữ liệu sau biểu diễn vector mã hóa, phân loại theo chủ đề ví dụ văn học, khoa học công nghệ lưu lại kho liệu vector hệ thống so sánh Tập vector văn tác giả gán nhãn theo tác giả 47 Đối với vector văn cần so sánh sau biểu diễn vector đặc trưng so sánh trực tiếp với vector có kho vector hệ thống Hệ thống dựa vào vector đặc trưng từ văn cần so sánh để dự đốn, xác định thuộc lĩnh vực để tiến hành so sánh với tập vector văn lĩnh vực nhằm đưa kết nhanh chóng, xác đạt hiểu so sánh cao Để xây dựng vector biểu diễn văn ta cần thực bước sau: Tính độ tương đồng ngữ nghĩa cho từ văn bản, cụ thể câu, đưa vector ngữ nghĩa cho câu văn Kết hợp độ tương tự ngữ nghĩa với tần suất đặc trưng từ để tính lại trọng số vector ngữ nghĩa nhằm tăng độ phủ từ Kĩ thuật tính tần suất đặc trưng dựa tần số từ khóa tần số văn đảo ngược tf*idf cho phép nhấn mạnh vai trò từ/cụm từ ngữ nghĩa, nội dung văn Tìm vị trí từ đưa vector thứ tự từ câu văn Vector đặc trưng ngữ nghĩa: Duyệt qua từ văn bản, tính trọng số độ tương tự ngữ nghĩa từ tính Tf*idf cho từ, dựa vào giá trị Tf*idf để loại bỏ từ không mang nhiều ý nghĩa khỏi văn WordList Có thể chọn ngưỡng đó, thường chọn ngưỡng = 0.2 Giả sử văn gồm n câu đánh số sent1, sent2, … sentn m từ t1, t2, … tm, gọi nij số lần xuất từ ti câu sentj Thành phần thứ i vector văn sentj tính bằng: 𝑠𝑒𝑛𝑡𝑗𝑖 = 𝑡𝑓(𝑡𝑖,𝑠𝑒𝑛𝑡𝑗)∗𝑖𝑑𝑓(𝑡𝑖) Trong đó:  i = m, j = n  Giá trị tf(ti, sentj) tính nhiều cách dựa tổng số lần xuất từ tài liệu số lần xuất lớn từ, ln số lần xuất số từ Trong so sánh văn bản, tf(ti,sentj) tính dựa vào ln số lần xuất từ theo công thức: 48  Với từ ti, giá trị idf(ti) tính bẳng tỉ lệ câu xuất từ ti với tổng số câu có Gọi S tập hợp câu 𝑆𝑡𝑖 tập câu có chứa từ ti 𝑛 𝑆 = ⋃𝑠𝑒𝑛𝑡𝑗 𝑆𝑡𝑖 = {𝑠𝑒𝑛𝑡𝑗|𝑛𝑖𝑗 > 0} Giá trị idf(ti) tính bằnghàm logarit sau: 5.2.5 Tính độ tương tự văn Độ tương tự cho hai văn kết hợp so sánh độ tương tự vector ngữ nghĩa vector thứ tự biểu diễn câu hai văn Các độ đo Cosine, Jaccard… thường lựa chọn để xác định độ tương đồng vector biểu diễn câu Đề tài sử dụng cơng thức tính độ tương tự Cosine để tính độ tương tự vector đặc trưng văn cần so sánh với vector đặc trưng văn kho vector với Sau so sánh kết trả trùng lặp vector biểu diễn đặc trưng hai văn cao hai vănđộ tương đồng cao ngược lại Hệ số tương đồng hai văn nằm khoảng từ đến 5.2.5.1 Độ tương tự ngữ nghĩa 5.2.5.2 Độ tương tự thứ tự từ 5.2.5.3 Ma trận liên kết Ma trận liên kết biểu thị mối quan hệ câu văn biểu diễn sau: 49 Với threshold ngưỡng cho trước tính tốn thực nghiệm loại văn khác [1] Trong cài đặt, qua tham khảo đề tài xử lý tiếng Việt threshold sử dụng 0.2 5.3 Thực hóa chương trình 5.3.1 Lựa chọn cơng cụ tiền xử lý Phần mềm vnTokenizer nhằm thực tách từ văn Từ điển từ dừng: gồm 807 từ website xulyngonngu.com cung cấp Từ điển đồng nghĩa: Từ điển đồng nghĩa sử dụng đề tài dựa “Từ điển đồng nghĩa trái nghĩa tiếng Việt dành cho học sinh”, tác giả Trần Trọng Dương, Nguyễn Quốc Khánh, 2008 gồm 603 mục từ với tổng cộng 2867 từ đồng nghĩa Tập văn kho văn gồm văn có nội dung với nhiều lĩnh vực khác lấy từ nguồn luận văn, khóa luận tác giả 5.3.2 Chương trình ứng dụng Dựa vào mơ hình đề xuất thuật tốn nghiên cứu để thực hóa code, lập trình xây dựng chương trình so sánh văn thử nghiệm, cho phép nhập trực tiếp hai đoạn văn cần đánh giá chọn từ tệp, sau tiến hành thực so sánh văn cho kết 50 CHƯƠNG VI: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong đề tài “Nghiên cứu phương pháp đánh giá độ tương đồng văn bản” có nghiên cứu tổng quan phương pháp biểu diễn văn bản, bước tiền xử lý văn thuật toán để so sánh văn từ áp dụng xây dựng mơ hình hệ thống so sánh độ tương đồng văn tiếng Việt dựa kết hợp yếu tố độ tương tự ngữ nghĩa độ tương tự thứ tự từ Các kết đạt đề tài: Nghiên cứu tổng quan xử lý ngôn ngữ tự nhiên ứng dụng Nghiên cứu tổng quan đặc điểm ngôn ngữ tiếng Việt phương pháp xử lý sử dụng tách từ, từ điển từ đồng nghĩa, từ điển từ dừng Nghiên cứu phương pháp tính độ tương đồng văn bản, vector hóa đặc trưng ngữ nghĩa cấu trúc thứ tự từ văn Các kết nghiên cứu áp dụng vào xây dựng mơ hình hệ thống so sánh độ tương đồng văn Những nội dung quan trọng nghiên cứu bao gồm: Nhờ việc sử dụng tách từ phân biệt xác từ đơn từ ghép nên ngữ nghĩa văn phần đảm bảo Tần số xuất từ kết hợp biểu diễn vector đặc trưng ngữ nghĩa văn Đây độ đo hữu dụng sử dụng phần lớn cơng trình nghiên cứu xử lý văn để đánh giá tầm quan trọng từ Độ tương tự văn tính dựa vào kết hợp yếu tố độ tương tự ngữ nghĩa từ độ tương tự thứ tự từ Độ tương tự ngữ nghĩa từ tính dựa đặc điểm tập ngữ liệu so sánh, không phụ thuộc vào việc sử dụng từ điển dịch từ tiếng Việt sang tiếng Anh hay mạng ngữ nghĩa Độ tương tự văn có nhiều ứng dụng toán khác nhau, từ mức độ thấp đến cao trích chọn thơng tin, tóm tắt văn bản, phân lớp văn bản… đặc biệt toán chống chép, đạo văn Do nghiên cứu thời gian ngắn kĩ thuật hạn chế nên đề tài dừng mức độ nghiên cứu lý thuyết đề xuất mơ hình so sánh văn 51 Hướng phát triển đề tài tiếp tục nghiên cứu hồn thiện để xây dựng ứng dụng so sánh văn với mơ hình đề xuất tập liệu thực áp dụng so sánh văn tiếng Việt 52 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Th.S Nguyễn Kim Anh, “Nghiên cứu kỹ thuật đánh giá độ tương đồng văn ứng dụng so sánh văn tiếng Việt”, Đại học Hàng Hải, 2016 [2] TS Dương Thăng Long, “Nghiên cứu độ tương đồng văn tiếng Việt ứng dụng hỗ trợ đánh giá việc chép điện tử”, Viện Đại học Mở Hà Nội, 2014 [3] Đỗ Thị Thanh Nga, “Tính tốn độ tương tự ngữ nghĩa văn dựa vào độ tương tự từ với từ”, Đại học Công nghệ Đại học Quốc gia Hà Nội, 2010 [4] Nguyễn Văn Quý, “Nghiên cứu phương pháp chuẩn hóa chữ viết tắt văn tiếng Việt”, Đại học Bách khoa, Đại học Đà Nẵng, 2017 [5] Phạm Văn Tú, “Đối sánh tương đồng hai văn bản”, Đại học Bách khoa Hà Nội, 2016 Tiếng Anh [6] Paul Jaccard, “Etude comparative de la distribution orale dans une portion des Alpes et des Jura” In Bulletin del la Socit Vaudoise des Sciences Naturelles, volume 37, pages 547-579 [7] Peter D.Turney, Mining The Web for Synonyms: PMI-IR versus LSA on TOEFL [8] Winkler, W E., “String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage”, 1990 Các trang web tham khảo: [9] https://tech.fpt.com.vn/xu-li-ngon-ngu-tu-nhien-nhung-dieu-can-biet/ [10]http://www.vjsonline.org/career/%C4%91%E1%BA%A1o-v%C4%83nplagiarism-v%C3%A0-vi%E1%BB%87c-tr%C3%ADch-d%E1%BA%ABnt%C3%A0i-li%E1%BB%87u-tham-kh%E1%BA%A3o [11] https://websrv1.ctu.edu.vn/coursewares/supham/csnnhoc_chinh/chuong3.htm [12] https://tech.fpt.com.vn/van-de-tach-tu-trong-van-ban-tieng-viet-phan-1/ [13] http://www.jfsowa.com/cg/cgexampw.htm [14] http://tieuhoc.daytot.vn/thuat-ngu/Lop-5/TU-DONG-NGHIA-20.html 53 [15] https://vietnamlab.vn/blog/2018/01/24/ban-ve-cong-doan-tien-xu-ly-trong-xuly-ngon-ngu-tu-nhien/ [16] https://quyv.wordpress.com/2016/07/24/bag-of-word-model/ [17] https://techblog.vn/tf-idf-term-frequency-inverse-document-frequency [18] https://quyv.wordpress.com/2016/07/30/bag-of-words-tf-idf/ [19] https://quyv.wordpress.com/2016/08/24/word2vec-the-amazing-power-ofword-vectors/ [20] https://blog.duyet.net/2017/10/doc2vec-trong-sentimentanalysis.html#.WsdXYi5ubIU [21] https://vi.wikipedia.org/wiki/xử_lí_ngơn_ngữ_tự _nhiên [22] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/nlp-la-gi [23] https://xulyngonngu.com 54 ... văn Đối tượng - Các toán so sánh văn bản, mơ hình biểu diễn văn phương pháp đánh giá độ tương đồng văn - Các mơ hình tính tốn xác định độ đo tương đồng văn cú pháp ngữ nghĩa, mức tương đồng văn. .. Phổ biến phương pháp biểu diễn văn vector 2.4.3 Phương pháp tính độ tương đồng văn Trong nghiên cứu Nguyễn Kim Anh đề tài Nghiên cứu kỹ thuật đánh giá độ tương đồng văn ứng dụng so sánh văn tiếng... đạo văn diễn thường xun gây khó khăn việc kiểm sốt, xác minh thơng tin Với thực tế đó, đề tài Nghiên cứu phương pháp đánh giá độ tương đồng văn bản nghiên cứu để tìm phương pháp đánh giá mức độ

Ngày đăng: 06/06/2018, 15:58

Từ khóa liên quan

Mục lục

  • LỜI CAM ĐOAN

  • LỜI CẢM ƠN

  • MỤC LỤC

  • DANH MỤC HÌNH ẢNH

  • DANH MỤC BẢNG

  • TỔNG QUAN ĐỀ TÀI

    • 1. Lý do chọn đề tài

    • 2. Mục đích đề tài

    • 3. Đối tượng

    • 4. Phương pháp nghiên cứu

    • 5. Nội dung nghiên cứu

  • NỘI DUNG

  • CHƯƠNG I: TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ ỨNG DỤNG

    • 1.1. Xử lý ngôn ngữ tự nhiên

    • 1.2. Một số ứng dụng của xử lý ngôn ngữ tự nhiên (NLP)

    • 1.3. Vấn đề về độ tương tự trong văn bản

    • 1.4. Vấn đề về sự sao chép, đạo văn trong văn bản

  • CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT

    • 2.1. Phát biểu về bài toán so sánh văn bản.

    • 2.2. Một số kết quả đã đạt được trong Xử lý văn bản tiếng Việt

    • 2.3. Đặc điểm ngôn ngữ tiếng Việt

      • 2.3.1. Cấu tạo từ tiếng Việt

      • 2.3.2. Biến hình từ tiếng Việt

      • 2.3.3. Từ đồng âm khác nghĩa

      • 2.3.4. Từ đồng nghĩa

      • 2.3.5. Đặc điểm chính tả

      • 2.3.6. Bảng mã tiếng Việt trên máy tính

    • 2.4. Bài toán so sánh văn bản

      • 2.4.1. Tiền xử lý văn bản

        • 2.4.1.1. Tách từ

  • Hình 2.1: Các hướng tiếp cận cơ bản trong việc tách từ

    • 2.4.1.2. Loại bỏ từ dừng (stopwords)

    • 2.4.1.3. Loại bỏ từ có tần số thấp

    • 2.4.1.4. Xác định từ đồng nghĩa

    • 2.4.2. Biểu diễn văn bản

    • 2.4.3. Phương pháp tính độ tương đồng giữa các văn bản

  • CHƯƠNG III: MÔ HÌNH BIỂU DIỄN VĂN BẢN

    • 3.1. Mô hình biểu diễn văn bản truyền thống

      • 3.1.1. Mô hình túi từ ngữ (Bag-of-Word)

  • Hình 3.1: Mô hình Bag-of-Word

    • 3.1.2. Mô hình logic

  • Bảng 3.1: Biểu diễn văn bản trong mô hình Logic

    • 3.1.3. Mô hình phân tích cú pháp

    • 3.1.4. Mô hình vector

  • Hình 3.2: Mô hình vector biểu diễn văn

  • Bảng 3.2: Vector biểu diễn văn bản

    • 3.2. Mô hình đồ thị biểu diễn văn bản

      • 3.2.1. Mô hình đồ thị khái niệm (Conceptual Graphs - CGs)

  • Hình 3.3: Ví dụ mô hình đồ thị khái niệm

    • 3.2.2. Mô hình đồ thị hình sao

  • Hình 3.4: Ví dụ mô hình đồ thị hình sao

    • 3.2.3. Mô hình đồ thị vô hướng sử dụng tần số xuất hiện

  • Hình 3.5: Ví dụ mô hình đồ thị vô hướng sử dụng tần số xuất hiện

    • 3.2.4. Mô hình đồ thị có hướng, cạnh không gán nhãn

  • Hình 3.6: Ví dụ mô hình đồ thị đơn giản

    • 3.2.5. Mô hình đồ thị có hướng, cạnh không gán nhãn, cạnh là khoảng cách n giữa hai từ trong văn bản

  • Hình 3.7: Ví dụ mô hình đồ thị khoảng cách n đơn giản

    • 3.3. Mô hình word2vec văn bản

  • Hình 3.8: Mô hình Cbow và Skip-gram

    • 3.4. Mô hình doc2vec văn bản

  • Hình 3.9: Mô hình túi từ phân tán của vectơ đoạn

  • Hình 3.10: Mô hình bộ nhớ phân tán

  • Hình 3.11: Mô hình bộ nhớ phân tán cho việc học vector đoạn

  • CHƯƠNG IV:

  • PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN

    • 4.1. Khái niệm độ tương đồng

    • 4.2. Độ tương đồng văn bản dựa trên tập từ chung

      • 4.2.1. Khoảng cách Jaro

      • 4.2.2. Mô hình tương phản (Contrast model)

      • 4.2.3. Hệ số Jaccard

    • 4.3. Độ tương đồng văn bản dựa trên vector biểu diễn

      • 4.3.1. Độ tương đồng Cosine

      • 4.3.2. Độ tương đồng dựa vào khoảng cách Euclide

      • 4.3.3. Độ tương đồng dựa vào khoảng cách Manhattan

    • 4.4. Độ tương đồng văn bản trong tiếng Việt

      • 4.4.1. Độ tương tự ngữ nghĩa từ - từ

        • 4.4.1.1. Độ tương tự ngữ nghĩa từ - từ dựa trên WordNet

        • 4.4.1.2. Độ tương tự ngữ nghĩa từ - từ dựa trên ngữ liệu

      • 4.4.2. Độ tương tự ngữ nghĩa của văn bản

      • 4.4.3. Độ tương tự về thứ tự của từ trong câu

      • 4.4.3.1. Tính độ tương đồng theo hệ số cosin

      • 4.4.3.2. Độ tương tự về thứ tự của từ trong câu

      • 4.4.3.3. Tính độ tương đồng cho toàn bộ câu

      • 4.4.4. Tính toán độ tương đồng cho toàn văn bản

      • 4.4.4.1. Một số phương pháp tìm độ tương đồng giữa hai văn bản

      • 4.4.4.2. Phương pháp tính độ tương đồng bằng công thức trung bình

  • CHƯƠNG V: XÂY DỰNG MÔ HÌNH SÁNH VĂN BẢN

    • 5.1. Mô hình hệ thống

  • Hình 5.1: Mô hình hệ thống so sánh văn bản

    • 5.2. Các công đoạn xử lý trong hệ thống

      • 5.2.1. Tiền xử lý

    • 5.2.2. Tách từ, câu trong văn bản

      • 5.2.3. Loại bỏ từ dừng

      • 5.2.4. Vector hóa văn bản

        • Vector đặc trưng ngữ nghĩa:

      • 5.2.5. Tính độ tương tự văn bản

        • 5.2.5.1. Độ tương tự ngữ nghĩa

        • 5.2.5.2. Độ tương tự thứ tự từ

        • 5.2.5.3. Ma trận liên kết

    • 5.3. Thực hiện hóa bằng chương trình

      • 5.3.1. Lựa chọn công cụ tiền xử lý

      • 5.3.2. Chương trình ứng dụng

  • CHƯƠNG VI: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

  • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan