Đề tài nghiên cứu khoa học cấp trường: Nghiên cứu kĩ thuật đánh giá độ tương đồng văn bản ứng dụng trong so sánh văn bản Tiếng Việt

40 3 0
Đề tài nghiên cứu khoa học cấp trường: Nghiên cứu kĩ thuật đánh giá độ tương đồng văn bản ứng dụng trong so sánh văn bản Tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục tiêu của đề tài là nghiên cứu mô hình biểu diễn văn bản tiếng Việt, các kỹ thuật tính độ tương đồng nhằm cải tiến các phép đo tương đồng và ứng dụng vào thiết kế, xây dựng thử nghiệm một số phần chức năng của hệ thống so sánh trên văn bản tiếng Việt. Đề tài Hoàn thiện công tác quản trị nhân sự tại Công ty TNHH Mộc Khải Tuyên được nghiên cứu nhằm giúp công ty TNHH Mộc Khải Tuyên làm rõ được thực trạng công tác quản trị nhân sự trong công ty như thế nào từ đó đề ra các giải pháp giúp công ty hoàn thiện công tác quản trị nhân sự tốt hơn trong thời gian tới.

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN THUYẾT MINH ĐỀ TÀI NCKH CẤP TRƯỜNG ĐỀ TÀI NGHIÊN CỨU KĨ THUẬT ĐÁNH GIÁ ĐỘ TƯƠNG ĐỒNG VĂN BẢN ỨNG DỤNG TRONG SO SÁNH VĂN BẢN TIẾNG VIỆT Chủ nhiệm đề tài: Thành viên tham gia: Th.S NGUYỄN KIM ANH Th.S TRỊNH THỊ NGỌC HƯƠNG Hải Phòng, tháng 05/2016 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 MỤC LỤC MỤC LỤC DANH SÁCH HÌNH ẢNH DANH SÁCH BẢNG BIỂU MỞ ĐẦU CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Lý chọn đề tài 1.2 Mục đích nghiên cứu 1.3 Đối tượng nghiên cứu 1.4 Phương pháp nghiên cứu CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT 2.1 Bài toán so sánh văn 2.2 Đặc điểm ngôn ngữ tiếng Việt 10 2.2.1 Cấu tạo từ tiếng Việt 10 2.2.2 Biến hình từ tiếng Việt 11 2.2.3 Từ đồng nghĩa 11 2.2.4 Đặc điểm tả 12 2.2.5 Bảng mã tiếng Việt máy tính .12 2.3 Hướng tiếp cận cho toán so sánh văn tiếng Việt 13 2.3.1 Tiền xử lý văn tiếng Việt 13 2.3.2 Phương pháp tính độ tương đồng văn 14 2.3.3 Hướng tiếp cận cho toán so sánh văn tiếng Việt 16 CHƯƠNG III: MƠ HÌNH BIỂU DIỄN VĂN BẢN TIẾNG VIỆT 18 3.1 Mơ hình biểu diễn văn truyền thống 18 3.1.1 Mơ hình logic 18 3.1.2 Mơ hình vector 19 3.2 Mơ hình đồ thị biểu diễn văn 22 3.2.1 Mơ hình đồ thị khái niệm 22 3.2.2 Mơ hình đồ thị hình 23 3.2.3 Mơ hình đồ thị vơ hướng sử dụng tần số xuất 23 3.2.4 Mô hình đồ thị có hướng, cạnh khơng gán nhãn 24 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 3.3.5 Mơ hình đồ thị có hướng, cạnh khơng gán nhãn, cạnh khoảng cách n hai từ văn 24 CHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN 26 4.1 Khái niệm độ tương đồng 26 4.2 Độ tương đồng văn dựa tập từ chung 26 4.2.1 Khoảng cách Jaro 26 4.2.2 Mơ hình tương phản (Contrast model) 27 4.2.3 Hệ số Jaccard .27 4.3 Độ tương đồng văn dựa vector biểu diễn 27 4.3.1 Độ tương đồng Cosine 27 4.3.2 Độ tương đồng dựa vào khoảng cách Euclide 28 4.3.3 Độ tương đồng dựa vào khoảng cách Manhattan .28 4.4 Độ tương đồng văn tiếng Việt 29 4.4.1 Độ tương tự ngữ nghĩa từ - từ 29 4.4.2 Độ tương tự ngữ nghĩa văn 30 4.4.3 Độ tương tự thứ tự từ văn 31 4.4.4 Kết hợp độ đo để đánh giá độ tương tự hai văn 32 CHƯƠNG V: ỨNG DỤNG MƠ HÌNH ĐỒ THỊ 33 5.1 Mơ hình hệ thống 33 5.1.1 Tiền xử lý 33 5.1.2 Xử lý từ .33 5.1.3 * Vector hóa văn .35 5.1.4 *Tính độ tương tự văn 36 5.2 Mơ hình thực nghiệm 38 5.2.1 Môi trường thực nghiệm 38 5.2.2 *Chương trình ứng dụng thử nghiệm 38 5.2.3 *Kết thử nghiệm 38 KẾT LUẬN 39 TÀI LIỆU THAM KHẢO 40 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 DANH SÁCH HÌNH ẢNH Hình 1: Mơ hình vector biểu diễn văn 19 Hình 2: Ví dụ mơ hình đồ thị khái niệm 22 Hình 3: Ví dụ mơ hình đồ thị hình 23 Hình 4: Ví dụ mơ hình đồ thị vơ hướng sử dụng tần số xuất 24 Hình 5: Ví dụ mơ hình đồ thị đơn giản 24 Hình 6: Ví dụ mơ hình đồ thị khoảng cách n đơn giản 25 Hình 7: Mơ hình hệ thống so sánh văn tiếng Việt 33 Hình 8: Chương trình thử nghiệm so sánh độ tương tự văn 38 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 DANH SÁCH BẢNG BIỂU Bảng 1: Tần suất xuất độ dài từ tiếng Việt vdict.com 11 Bảng 2: Biểu diễn văn mơ hình Logic 18 Bảng 3: Vector biểu diễn văn 20 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 MỞ ĐẦU Hiện nay, với phát triển bùng nổ ứng dụng Internet, liệu văn tăng nhanh số lượng nội dung Trong kho liệu ấy, lượng lớn văn tiếng Việt Tuy nhiên, nghiên cứu khai thác thông tin văn tiếng Việt lại chưa nhiều so với tiếng Anh, hầu hết sử dụng phương pháp đề xuất cho tiếng Anh để áp dụng sang tiếng Việt Do đặc điểm ngơn ngữ tiếng Việt có nhiều điểm khác so với ngôn ngữ tiếng Anh nên việc áp dụng phương pháp nhiều hạn chế Mục tiêu đề tài nghiên cứu mơ hình biểu diễn văn tiếng Việt, kỹ thuật tính độ tương đồng nhằm cải tiến phép đo tương đồng ứng dụng vào thiết kế, xây dựng thử nghiệm số phần chức hệ thống so sánh văn tiếng Việt Nội dung báo cáo gồm:  Chương 1: giới thiệu tổng quan đề tài, mục đích nội dung nghiên cứu  Chương 2: trình bày đặc điểm ngôn ngữ tiếng Việt phương pháp cho toán so sánh văn tiếng Việt  Chương 3: trình bày mơ hình biểu diễn văn truyền thống mơ hình đồ thị, ứng dụng mơ hình biểu diễn văn tiếng Việt  Chương 4: trình bày phương pháp tính độ tương tự cải tiến văn tiếng Việt  Chương 5: trình bày thiết kế hệ thống so sánh độ tương tự văn tiếng Việt Cuối đề tài đưa số kết luận kết thực đề xuất hướng nghiên cứu tương lai 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKH CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Lý chọn đề tài Trong loại liệu liệu văn dạng phổ biến Ngày nay, với phát triển mạnh mẽ Internet, liệu văn trở nên phong phú nội dung tăng nhanh số lượng Chỉ vài thao tác đơn giản, đâu, thời điểm nào, ta nhận khối lượng khổng lồ trang web tài liệu điện tử liên quan đến nội dung tìm kiếm Chính dễ dàng mang đến cho nhiều khó khăn việc chắt lọc thông tin coi mới, riêng, hữu ích tài liệu Cho đến thời điểm tại, khai phá liệu văn tiếng Anh có nhiều cơng trình nghiên cứu đạt nhiều kết Nhìn cách tổng quan, hầu hết nghiên cứu dựa vào mơ hình biểu diễn văn dạng vector tính tốn dựa xác suất thống kê thông tin trọng số từ văn Do đặc điểm tiếng Việt khác với tiếng Anh, phương pháp có nhược điểm chưa quan tâm tới vấn đề ngữ nghĩa văn mối quan hệ từ/cụm từ, tần số, vị trí từ … 1.2 Mục đích nghiên cứu Nghiên cứu tổng quan vấn đề xử lý văn số phương pháp so sánh độ tương đồng câu áp dụng thu kết khả quan phương pháp tính độ tương đồng sử dụng độ đo Cosine, độ đo khoảng cách Euclide… Nghiên cứu đặc điểm văn tiếng Việt, xây dựng mơ hình biểu diễn văn tiếng Việt nhằm cải tiến phép đo tương đồng ứng dụng vào thiết kế, xây dựng thử nghiệm số phần chức hệ thống so sánh văn tiếng Việt 1.3 - - - 1.4 Đối tượng nghiên cứu Nghiên cứu số mơ hình tính toán độ tương đồng văn cú pháp ngữ nghĩa, xác định mức tương đồng văn cấp độ từ, câu, đoạn văn hay toàn văn ứng dụng tiếng Việt Nghiên cứu phương pháp biểu diễn văn tiếng Việt xây dựng đồ thị liên kết biểu diễn văn bản, tính độ tương tự văn dựa mô hình biểu diễn Xây dựng ứng dụng thử nghiệm so sánh văn tiếng Việt, hỗ trợ đánh giá việc chép điện tử Phương pháp nghiên cứu Tìm hiểu, khảo sát hệ thống hóa kết nghiên cứu có vấn đề độ tương đồng văn ứng dụng tiếng Việt 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKH CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI Nghiên cứu lý thuyết mô hình tính độ tương đồng văn bản, mơ hình biểu diễn văn ứng dụng mơ hình vào thiết kế, xây dựng thử nghiệm hệ thống so sánh độ tương đồng văn tiếng Việt Thực nghiệm liệu mẫu để đánh giá hệ thống 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKH CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT CHƯƠNG II: BÀI TỐN SO SÁNH VĂN BẢN TIẾNG VIỆT 2.1 Bài tốn so sánh văn Hiện nay, tình trạng chép, vi phạm quyền gian dối, chống đối kết học tập, nghiên cứu diễn sơi khó kiểm sốt Đặc biệt lĩnh vực giáo dục – đào tạo, việc người học tham khảo chép phổ biến, làm giảm khả tư chất lượng nghiên cứu, học tập Vấn đề đặt làm để xác định phép đo độ giống văn bản, sở đưa kết luận việc chép điện tử, làm để phân loại đánh giá kết luận, nghiên cứu người học Thực tế có số nghiên cứu đề xuất phương pháp khác đề xác định xem đoạn văn tài liệu có nằm tài liệu khác không Các phương pháp chủ yếu dựa tìm kiếm so khớp chuỗi, nhiên so khớp chuỗi có hiệu việc chép “nguyên văn” Việc chép có sửa đổi thay số từ từ đồng nghĩa hay thay đổi thứ tự câu văn cần phương pháp khác hiệu Trong xử lý ngơn ngữ tự nhiên, cơng trình nghiên cứu đánh giá độ tương tự văn tiếng Anh diễn sôi Nhiều công trình nghiên cứu nhiều ứng dụng hữu ích thu kết việc phát vi phạm quyền tác giả viết Plagiarism-Detector Personal, Turnitin… Đối với xử lý ngôn ngữ tiếng Việt, bắt đầu xuất nghiên cứu so sánh văn tiếng Việt song chiếm tỉ lệ khiêm tốn Trong tiếng Anh, kho ngữ liệu hay mạng từ tiếng Anh phát triển tốt nên hiệu hệ thống so sánh cài đặt cao Do đặc điểm từ tiếng Việt có nhiều điểm khác với tiếng Anh, việc xử lý văn xây dựng kho ngữ liệu chuẩn đầy đủ vấn đề lớn Các phương pháp đánh giá độ tương tự văn tiếng Việt dựa kho ngữ liệu nghiên cứu phát triển Một số phần mềm so sánh văn bản:  Download Compare My Docs: chương trình so sánh văn cho phép người dùng so sánh lúc nhiều văn với để tìm khác biệt nội dung chúng Nhờ mà ta biết văn tài liệu có bị trùng với văn hay không? Phần mềm hỗ trợ văn tiếng việt theo bảng mã Unicode  Download UltraCompare: phần mềm so sánh file văn Chương trình thực so sách nội dung tài liệu đưa tỷ lệ trùng, đánh dấu nội dung trùng cách xác Ngồi chương trình cịn cho phép người dùng tìm kiếm, đồng liệu tìm kiếm thư mục để thuận việc tìm kiếm, so sánh trở lên nhanh chóng 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKH CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT  Plagiarism-Detector Personal: phần mềm phát đoạn văn chép Đây ứng dụng độc đáo với cơng cụ hữu ích nhằm hỗ trợ người sử dụng phát đoạn văn hay văn chép từ nguồn khác cách xác  Turnitin: hệ thống hỗ trợ kiểm tra, đánh giá việc chép điện tử triển khai FPT Polytechnic Hệ thống làm việc với nhiều trường đại học hàng đầu giới trung tâm nghiên cứu lớn, vài tổ chức phủ nhằm cung cấp công cụ hiệu phát vay mượn, chép 2.2 Đặc điểm ngôn ngữ tiếng Việt 2.2.1 Cấu tạo từ tiếng Việt Tiếng Việt ngơn ngữ khơng biến hình từ âm tiết tính, tức âm tiết (tiếng) phát âm tách rời thể từ [4] Hai đặc trưng chi phối toàn toàn tổ chức hệ thống ngôn ngữ tiếng Việt a) Tiếng Tiếng đơn vị sở để cấu tạo lên từ Tiếng đơn vị nhỏ có nội dung thể Xét mặt ý nghĩa, tiếng chia thành loại sau [1]: - - Tiếng tự thân có ý nghĩa, thường quy chiếu vào đối tượng, khái niệm Ví dụ: trời, đất, nước, cây, cỏ… Tiếng tự thân khơng có ý nghĩa, khơng quy chiếu vào đối tượng, khái niệm mà chúng thường với tiếng khác có nghĩa làm thay đổi sắc thái tiếng đó, ví dụ như: (xanh) lè, (đường) xá, (nắng) nơi… Tiếng tự thân khơng có ý nghĩa ghép với để tạo thành từ có nghĩa, thường xuyên gặp từ mượn phéc-mơ-tuya, a-pa-tít, mì-chính Trong tiếng Việt tiếng thuộc nhóm chiếm đa số, tiếng thuộc hai nhóm sau thường chiếm số ít, đặc biệt nhóm thứ 3, chúng thường gọi tiếng vô nghĩa b) Từ, cụm từ Từ cấu tạo từ nhiều tiếng Từ cấu tạo từ tiếng gọi từ đơn, ví dụ: tơi, bạn, nhà, hoa… Từ cấu tạo nhiều tiếng từ ghép, tiếng có mối quan hệ nghĩa Từ ghép phân thành từ ghép đẳng lập từ ghép phụ Đối với từ ghép đẳng lập thành phần cấu tạo từ có mối quan hệ bình đẳng với nghĩa, 10 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN CHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN Các phép đo độ tương tự văn văn quan tâm nghiên cứu từ lâu ứng dụng xử lý ngôn ngữ tự nhiên lĩnh vực liên quan Một ứng dụng sớm độ tương tự văn tìm kiếm thơng tin, tài liệu có liên quan tới câu truy vấn xếp hạng theo thứ tự độ tương tự Ngồi ra, độ tương tự văn cịn dùng cho phân lớp văn bản, trích chọn hay tóm tắt văn bản, phương pháp cho đánh giá dịch máy tự động hay đánh giá tính chặt chẽ văn Nội dung chương trình bày số phép tính độ tương đồng văn điển hình phương pháp để xác định độ tương đồng văn tiếng Việt 4.1 Khái niệm độ tương đồng Độ tương đồng đại lượng dùng để so sánh hai hay nhiều đối tượng với nhau, phản ánh cường độ mối quan hệ đối tượng với Ví dụ: xét câu “Tôi nam” “Tôi nữ”, ta nhận thấy hai câu có tương đồng cao Phát biểu tốn tính độ tương đồng sau: Xét văn di dj Mục tiêu tìm giá trị S(di,dj), S (0,1), thể độ tương đồng văn di dj Giá trị cao giống nghĩa hai văn nhiều Ví dụ mơ hình khơng gian vector, ta sử dụng độ đo Cosine để tính độ tương đồng hai văn bản, văn biểu diễn vector Độ tương tự ngữ nghĩa khái niệm thể tỷ lệ dựa giống nội dung ý nghĩa tập tài liệu thuật ngữ danh sách thuật ngữ [6] Độ tương đồng ngữ nghĩa phản ánh mối quan hệ ngữ nghĩa câu, tài liệu văn 4.2 Độ tương đồng văn dựa tập từ chung 4.2.1 Khoảng cách Jaro Khoảng cách Jaro định nghĩa độ đo tương tự hai chuỗi Cho hai câu s1 s2, khoảng cách Jaro d s1 s2 tính sau (Winkler, W E., “String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage”, 1990): 𝑑= 𝑚 𝑚 𝑚−𝑡 ( ) + + |𝑠1 | |𝑠2 | 𝑚 26 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN Trong m số từ giống nhau, t ½ số bước chuyển Phép chuyển vị trí thực hai từ giống hai câu s1 s2 có khoảng cách không lớn giá trị: ⌊ max(|𝑠1 |, |𝑠2 |) ⌋−1 Mỗi từ câu s1 so sánh với tất từ s2 Số bước chuyển định nghĩa số lượng từ giống hai câu (nhưng thứ tự chuỗi khác nhau) chia cho 4.2.2 Mơ hình tương phản (Contrast model) Mơ hình tương phản Tversky đề xuất (“Features of similarity”, Psychological Review, 1977) để tính độ tương tự hai câu A B sau: 𝑆𝑖𝑚(𝐴, 𝐵) =∝∗ 𝑔(𝐴 ∩ 𝐵 ) − 𝛽 ∗ 𝑔(𝐴 − 𝐵) − 𝛾 ∗ 𝑔(𝐵 − 𝐴) Trong g(A∩B) biểu diễn cho từ chung A B, g(A-B) biểu diễn cho từ riêng A g(B-A) biểu diễn cho từ riêng B Hệ số ∝, 𝛽, 𝛾 xác định trình thử nghiệm thuật toán 4.2.3 Hệ số Jaccard Hệ số Jaccard độ đo tương tự tập hợp dựa phương pháp thống kê Theo đó, độ tương tự hai câu A B sau (Paul Jaccard, “Etude comparative de la distribution orale dans une portion des Alpes et des Jura” In Bulletin del la Socit Vaudoise des Sciences Naturelles, volume 37, pages 547-579): 𝑆𝑖𝑚 (𝐴, 𝐵) = 4.3 |𝐴 ∩ 𝐵| |𝐴 ∪ 𝐵| Độ tương đồng văn dựa vector biểu diễn 4.3.1 Độ tương đồng Cosine Trong phương pháp này, văn biểu diễn theo mơ hình khơng gian vector, thành phần vector đến từ tương ứng danh sách mục từ thu từ trình tiền xử lý văn đầu Khơng gian vector hay số chiều vector có kích thước số mục từ danh sách mục từ Giá trị phần tử vector độ quan trọng mục từ câu Độ quan trọng từ tính theo phương pháp trình bày trên, phần mơ hình vector biểu diễn văn bản, ví dụ: 𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 √∑𝑗 𝑡𝑓𝑖𝑗 với tfij tần số xuất từ i câu j Giả sử vector biểu diễn cho hai văn có dạng: 27 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN Di = với wit trọng số từ thứ t không gian vector i Dj = với wjt trọng số từ thứ t không gian vector j Độ đo tương đồng tính Cosine góc hai vector biểu diễn cho hai văn Di Dj Độ tương tự chúng tính theo cơng thức [2]: 𝑆𝑖𝑚(𝐷𝑖𝑗 ) = ∑𝑡𝑘=1 𝑤 𝑖 𝑘 𝑤 𝑗 𝑘 √∑𝑡𝑘=1(𝑤 𝑖 𝑘 )2 ∗ ∑𝑡𝑘=1(𝑤 𝑗 𝑘 )2 Nhận xét: vector biểu diễn cho câu chưa quan tâm đến mối quan hệ ngữ nghĩa từ mục, từ đồng nghĩa khơng phát hiện, kết tín độ tương tự chưa cao 4.3.2 Độ tương đồng dựa vào khoảng cách Euclide Khoảng cách Euclide phương pháp phổ biến để xác định mức độ tương đồng vector đặc trưng hai văn bản[2] Cho hai vector 𝑣 a 𝑣 b, khoảng cách Euclide định nghĩa sau: 𝑛 𝐸_𝑑𝑖𝑠𝑡(𝑣⃗𝑎 ,𝑣⃗𝑏 ) = √∑(𝑤𝑎𝑖 − 𝑤𝑏𝑖 )2 𝑖=1 Mức độ tương đồng hai vector xác định công thức: 𝑛 𝐸_𝑠𝑖𝑚(𝑣⃗𝑎 ,𝑣⃗𝑏 ) 𝐸_𝑑𝑖𝑠𝑡(𝑣⃗𝑎 ,𝑣⃗𝑏 ) =1− = − √∑(𝑤𝑎𝑖 − 𝑤𝑏𝑖 )2 𝑛 𝑛 𝑖=1 4.3.3 Độ tương đồng dựa vào khoảng cách Manhattan Khoảng cách Manhattan phương pháp tính độ tương đồng vector đặc trưng biểu diễn cho hai văn [2] Cho hai vector 𝑣 a 𝑣 b, khoảng cách Manhattan định nghĩa sau: 𝑛 𝑚𝑎𝑛_𝑑𝑖𝑠𝑡(𝑣⃗𝑎 ,𝑣⃗𝑏 ) = ∑ |𝑤𝑎𝑖 − 𝑤𝑏𝑖 | 𝑖=1 Mức độ tương đồng hai vector xác định công thức: 𝑛 𝑚𝑎𝑛_𝑑𝑖𝑠𝑡(𝑣⃗𝑎 ,𝑣⃗𝑏 ) 𝑚𝑎𝑛_𝑠𝑖𝑚 = − = − ∑ |𝑤𝑎𝑖 − 𝑤𝑏𝑖 | 𝑛 𝑛 𝑖=1 28 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN 4.4 Độ tương đồng văn tiếng Việt Thông thường đánh giá độ tương tự văn bản, cần phân tích văn thành đơn vị nhỏ thực đánh giá dựa đơn vị Việc xử lý văn tách từ vựng đề cập chương 2, phương pháp cho toán so tự sánh văn tiếng Việt Một số công cụ tách từ tiếng Việt vnTokenizer, JvnTextPro xây dựng cho kết khả quan sử dụng làm bước tiền xử lý cho hệ thống so sánh văn Sau tách từ, văn Ti biểu diễn vector từ có dạng: 𝑇𝑖 = {𝑤1 , 𝑤2 , … , 𝑤𝑛𝑖 } với ni số từ tách Ti Trong nhiều trường hợp, độ tương tự hai đoạn văn xác định dựa so khớp từ đơn giản, điểm tương tự xác định dựa số đơn vị từ vựng xuất hai đoạn văn đầu vào Tuy nhiên, phương pháp khẳng định độ tương tự ngữ nghĩa văn chưa quan tâm tới tượng đồng nghĩa từ, tầm quan trọng từ tần suất xuất hiện, vị trí xuất từ câu văn Các phương pháp đánh giá độ tương tự văn chủ yếu dựa hai yếu tố: độ tương tự ngữ nghĩa từ độ tương tự theo trật tự từ văn  Đánh giá độ tương tự ngữ nghĩa từ: số phương pháp sử dụng mạng từ (WordNet), số khác dựa kho ngữ liệu Web dựa phân tích ngữ nghĩa ẩn  Đánh giá độ tương tự theo trật tự từ văn Đánh giá độ tương tự ngữ nghĩa từ dùng để tạo vector đặc trưng ngữ nghĩa văn Vector đặc trưng sử dụng công thức mục 4.2 cho ta phép đo độ tương tự hai văn tương ứng 4.4.1 Độ tương tự ngữ nghĩa từ - từ 4.4.1.1 *Độ tương tự ngữ nghĩa từ - từ dựa WordNet Wordnet sở liệu tri thức từ vựng thiết kế dựa lý thuyết ngôn ngữ tâm lý theo cách liên tưởng từ ngữ người [6] WordNet tổ chức dựa theo quan hệ ngữ nghĩa Một quan hệ ngữ nghĩa quan hệ nghĩa Một từ có nghiều nghĩa nghĩa thuộc vào tập đồng nghĩa khác Ngược lại, tập đồng nghĩa lại chứa nhiều từ khác Khi quan hệ ngữ nghĩa xem trỏ tập đồng nghĩa 4.4.1.2 Độ tương tự ngữ nghĩa từ - từ dựa ngữ liệu Độ tương tự ngữ nghĩa dựa tập ngữ liệu (corpus) xác định mức độ tương tự mặt ngữ nghĩa từ sử dụng thông tin xuất phát từ tập ngữ liệu lớn Một số phương pháp xác định sau: 29 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN a) PMI (Pointwise Mutual Information) – thông tin chung dựa điểm PMI đưa Turney 2001 độ đo không giám sát để đánh giá độ tương tự ngữ nghĩa từ PMI sử dụng liệu tập hợp từ việc tìm kiếm thơng tin (PMI-IR), dựa tượng đồng xảy từ tập ngữ liệu lớn để xác định độ tương tự cho từ w1 w2 sau: 𝑃𝑀𝐼 (𝑤1 , 𝑤2 ) = 𝑙𝑜𝑔2 𝑝(𝑤1 , 𝑤2 ) 𝑝(𝑤1 ) ∗ 𝑝(𝑤2 ) b) *LSA (Latent Semantic Analysis) – phân tích ngữ nghĩa ẩn - Xây dựng ma trận T (ma trận từ – tài liệu) thể tập ngữ liệu - Giảm số chiều SVD SVD xem cách khắc phúc số hạn chế mô hình khơng gian vecto chuẩn số chiều cao, giúp cho LSA tính với số chiều thấp mối quan hệ từ - văn khai thác Độ tương tự không gian kết đo độ tương tự Cosine Ngoài ra, LSA sinh mơ hình khơng gian vector thể đồng từ, cụm từ văn 4.4.2 Độ tương tự ngữ nghĩa văn Việc đánh giá độ tương tự ngữ nghĩa hai văn đa số nghiên cứu sử dụng vector đặc trưng cho ngữ nghĩa văn Mỗi thành phần vector thiết lập từ việc tính độ tương tự từ văn với từ văn lại, trọng số thành phần độ đo tương tự lớn Giả sử cho hai văn (đã tách từ vựng) sau: T1 = { w11, w12, …, w1m1 } T2 = { w21, w22, …, w2m2 } Trong đó: o wij từ thứ j văn di (i=1,2) o mi số lượng từ vựng tách văn Ti Tập từ không giống hai văn là, T = T1 ∪ T2 = { w1, w2, …, wm } Véc-tơ đặc trưng ngữ nghĩa cho văn T1, ký hiệu V1 = (v11, v12, …, v1m) xây dựng sau:  Xét từ wi ∈ T, tính độ tương tự ngữ nghĩa với từ T1, độ đo tương tự lớn đưa vào thành phần v1i tương ứng V1 v1i = max{ sim(wi, w1j) | j =1 m1 }, với i=1 m 30 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN  Độ tượng tự ngữ nghĩa hai văn tính dựa hai véc-tơ đặc trưng ngữ nghĩa tương ứng Hệ số cosin độ đo hay sử dụng để tính độ tương tự này: ∑𝑚 𝑉1 𝑉2 𝑖=1 𝑣1𝑖 𝑣2𝑖 𝑠𝑖𝑚𝑆(𝑇1 , 𝑇2 ) = = 𝑚 2 |𝑉1 | |𝑉2 | √∑𝑚 𝑖=1 𝑣1𝑖 √∑𝑖=1 𝑣2𝑖 Để tính tốn độ tương tự (sim) hai từ, tiếng Anh người ta dựa vào mạng từ WordNet, nhiên với tiếng Việt mạng từ chưa xây dựng đầy đủ nên phương án sử dụng công cụ dịch từ tiếng Việt tiếng Anh, sau đánh giá độ tương tự cặp từ tiếng Anh mạng WordNet đề tài tác giả Dương Thăng Long [5] Một số nghiên cứu khác sử dụng phương pháp phân tích ngữ nghĩa ẩn LSA hay PMI để đo độ tương tự từ dựa tập ngữ liệu 4.4.3 Độ tương tự thứ tự từ văn Độ tương tự thứ tự từ yếu tố quan trọng ảnh hưởng đến độ tương tự văn Các văn chứa tập từ vựng giống khác vị trí có ý nghĩa hồn tồn khác Ví dụ cho hai câu: T1 = { con_chó, cắn, con_mèo } T2 = { con_mèo, cắn, con_chó } Hai câu chứa tập từ giống gần giống thứ tự từ, sai khác thứ tự cặp từ “con_mèo” “con_chó” Nếu dựa độ tương tự ngữ nghĩa văn hai văn chứa tập từ giống cho kết hoàn tồn giống nhau, có nghĩa sim(T1,T2)=1 Tuy nhiên, hai câu có ý nghĩa khơng giống nhau, khác hai câu sai khác vị trí từ câu Tác giả Dương Thăng Long đề tài nghiên cứu [5] đưa phương pháp đánh giá độ tương tự văn dựa thứ tự từ sau:  Với cặp văn T1 T2, xác định tập từ vựng phân biệt hai văn T = T1 ∪ T2  Vector đặc trưng thứ tự từ hai văn bản, kí hiệu R1 = (r11, r12, …, r1m) R2 = (r21, r22, …, r2m), tính dựa tập T o Vector thứ tự từ biểu diễn thứ tự từ thuộc T nằm vị trí văn tương ứng o Với từ wi ∈ T, tìm từ gần nghĩa T1 để xác định trọng số cho phần tử r1i R1 theo ba trường hợp sau:  Nếu từ wi có T1 r1i số thứ tự từ T1 31 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN  Tìm từ T1 gần nghĩa với wi, sử dụng phương pháp đo độ tương tự ngữ nghĩa hai từ Nếu độ đo vượt ngưỡng θ cho trước r1i số thứ tự từ T1  Nếu khơng tìm thấy độ tương tự từ T1 wi khơng vượt ngưỡng đặt r1i Vector đặc trưng thứ tự từ biểu diễn thông tin cấu trúc từ văn Mức độ giống cấu trúc hai văn tính tốn dựa vector đặc trưng thứ tự từ công thức sau: 𝑠𝑖𝑚𝑅 = − |𝑅1 − 𝑅2 | √∑𝑚 𝑖=1(𝑟1𝑖 − 𝑟2𝑖 ) =1− |𝑅1 + 𝑅2 | √∑𝑚 𝑖=1(𝑟1𝑖 + 𝑟2𝑖 ) 4.4.4 Kết hợp độ đo để đánh giá độ tương tự hai văn Trong phân tích trên, độ tương tự ngữ nghĩa thể phép đo dựa nghĩa từ vựng, độ tương tự cấu trúc từ thể mối quan hệ thứ tự từ, từ đứng trước sau từ khác Cả hai độ tương tự có vai trị quan trọng xác định độ tương tự văn Do đó, để đo tương tự văn cần phải kết hợp hai loại độ đo trên, độ tương tự ngữ nghĩa độ tương tự thứ tự từ văn Biểu thức kết hợp hai độ đo có dạng 𝑠𝑖𝑚 = 𝑎 ∗ 𝑠𝑖𝑚𝑆 + 𝑏 ∗ 𝑠𝑖𝑚𝑅 với a+ b = Việc xác định trọng số độ đo tương tự (a,b) chưa có cơng thức chung nào, sử dụng phương pháp quan sát thử nghiệm qua liệu thực tế để có lựa chọn tốt cho hệ thống Phương án cân tiêu chí lựa chọn, trọng số tiêu chí kết hợp có giá trị giống nhau, tức a = 0.5 b = 0.5 32 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKH CHƯƠNG V: ỨNG DỤNG MƠ HÌNH ĐỒ THỊ CHƯƠNG V: ỨNG DỤNG MƠ HÌNH ĐỒ THỊ VÀO SO SÁNH VĂN BẢN TIẾNG VIỆT 5.1 Mơ hình hệ thống Nội dung văn đầu vào lưu trữ file text Sau thực tiền xử lý văn ta thu file: file chứa từ tách (các từ phân cách dấu “|”) file chứa câu, đầu câu có chứa số thứ tự câu đặt cặp dấu “[ ]” Tiền xử lý - Tách câu - Tách từ Xử lý từ - Loại bỏ từ dừng - Xử lý từ đồng nghĩa Văn gốc Tính độ tương đồng văn Vector hóa văn Hình 7: Mơ hình hệ thống so sánh văn tiếng Việt Trong mơ hình này, đầu vào văn tiếng Việt Các văn xử lý qua giai đoạn: 5.1.1 Tiền xử lý Giai đoạn có nhiệm vụ tách văn từ câu Do việc xây dựng tách từ phức tạp nằm phạm vi nghiên cứu nên đề tài sử dụng tách từ WordSegForTV viết sẵn để thực bước tiền xử lý văn Nội dung văn đầu vào lưu trữ file txt, doc Sau thực tiền xử lý văn ta thu file: file chứa từ tách (các từ phân cách dấu “|”) file chứa câu, đầu câu có chứa số thứ tự câu đặt cặp dấu “[ ]” 5.1.2 Xử lý từ Giai đoạn nhằm mục đích loại bỏ từ dừng dựa từ điển từ dừng có trước, sau với từ câu, dựa vào từ điển từ đồng nghĩa để lập danh sách từ đồng nghĩa Đầu vào giai đoạn tập tin văn thêm dấu phân tách từ bước Thuật toán thực việc chọn từ, câu, từ đồng nghĩa loại bỏ từ dừng mô tả sau: 33 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKH CHƯƠNG V: ỨNG DỤNG MƠ HÌNH ĐỒ THỊ Input: Tệp văn tách từ Output: Tập từ Words, tập câu Sents Mở tệp văn ST=Nội dung file //Tách câu n=0; //đếm số lượng câu k=1; while k 0} Giá trị idf(ti) tính hàm logarit sau: 𝑖𝑑𝑓 (𝑡𝑖 ) = 𝑙𝑜𝑔 + |𝑆| |𝑆𝑡𝑖 | 5.3.1.2 Vector thứ tự từ 5.1.4 *Tính độ tương tự văn Độ tương tự cho toán câu kết hợp độ tương tự vector ngữ nghĩa vector thứ tự biểu diễn hai câu Các độ đo Cosine, Jaccard… thường lựa chọn để xác định độ tương đồng vector biểu diễn câu Trong thử nghiệm, đề tài sử dụng công thức tính độ tương tự Cosine  Độ tương tự ngữ nghĩa 𝑠𝑖𝑚(𝑠𝑒𝑛𝑡𝑖 , 𝑠𝑒𝑛𝑡𝑗 ) = 𝑘 𝑙 ∑𝑚 𝑘,𝑙=1 𝑠𝑒𝑛𝑡𝑖 𝑠𝑒𝑛𝑡𝑗 𝑘 𝑚 𝑙 √∑𝑚 𝑘=1 𝑠𝑒𝑛𝑡𝑖 √∑𝑙=1 𝑠𝑒𝑛𝑡𝑖  Độ tương tự thứ tự từ 5.1.4.1 Ma trận liên kết Ma trận liên kết biểu thị mối quan hệ câu văn biểu diễn sau: 𝐷(𝑠𝑒𝑛𝑡𝑖 , 𝑠𝑒𝑛𝑡𝑗 ) = { 𝑖𝑓 𝑠𝑖𝑚(𝑠𝑒𝑛𝑡𝑖 , 𝑠𝑒𝑛𝑡𝑗 ) < 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 𝑠𝑖𝑚(𝑠𝑒𝑛𝑡𝑖 , 𝑠𝑒𝑛𝑡𝑗 ) 𝑖𝑓 𝑠𝑖𝑚(𝑠𝑒𝑛𝑡𝑖 , 𝑠𝑒𝑛𝑡𝑗 ) ≥ 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 36 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKH CHƯƠNG V: ỨNG DỤNG MÔ HÌNH ĐỒ THỊ Với threshold ngưỡng cho trước tính tốn thực nghiệm loại văn khác Trong cài đặt, qua tham khảo số đề tài xử lý tiếng Việt, đề tài sử dụng threshold = 0.2 5.1.4.2 Thuật toán xây dựng ma trận liên kết Input: Tập từ T, số lượng từ m, tập câu Sent, số lượng câu n, ngưỡng threshold Output: Đồ thị liên kết câu Dis(i,j), i=1 m, j=1 n {Sắp xếp tập từ T} HeapSort(T,m); {Tính tf-idf} for i = to m for j = to n if T(i)=T(j) then N(i,j) = N(i,j) + 1; {Tính tf} for i = to m for j = to n { tf(i,j) = 0; if N(i,j) > then tf(i,j) = + ln(1+ln(N(i,j))) } {Tính idf} for i = to m { count = 0; for j = to n if N(i,j) > then count = count + 1; idf(i) = ln((1+n)/count) } {Tính toán độ tương đồng} for i = to m for j = to n 37 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKH CHƯƠNG V: ỨNG DỤNG MƠ HÌNH ĐỒ THỊ { sim = cos(senti, sentj) if sim > threshold then Dis(i,j) = sim; } return Dis(i,j) 5.2 Mơ hình thực nghiệm 5.2.1 Mơi trường thực nghiệm Chương trình xây dựng thử nghiệm với hỗ trợ sau: - Phần mềm WordSegForTV nhằm thực tách từ văn Từ điển từ dừng: gồm 807 từ website xulyngonngu.com cung cấp Từ điển đồng nghĩa: gồm 603 mục từ với tổng cộng 2867 từ đồng nghĩa Tập văn thử nghiệm gồm văn có nội dung với nhiều lĩnh vực khác lấy từ hai trang http://vnexpress.net http://vietnamenet.vn 5.2.2 *Chương trình ứng dụng thử nghiệm Chương trình thử nghiệm xây dựng đơn giản, cho phép nhập trực tiếp hai đoạn văn cần đánh giá chọn từ tệp, sau so sánh hai văn Ngồi ra, chương trình cho phép chọn trọng số kết hợp nhằm đánh giá ảnh hưởng tiêu chí tham gia đo độ tương tự văn Các trọng số nên chọn ưu tiên cho yếu độ độ tương tự đặc trưng ngữ nghĩa câu nào, đoạn văn có tương tự ngữ nghĩa vượt ngưỡng cần quan tâm độ tương tự thứ tự từ Hình 8: Chương trình thử nghiệm so sánh độ tương tự văn 5.2.3 *Kết thử nghiệm 38 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 Thuyết minh ĐT NCKH KẾT LUẬN KẾT LUẬN Xử lý ngôn ngữ tự nhiên, phân loại so khớp nội dung tài liệu văn năm gần lĩnh vực quan tâm cộng đồng khoa học ngồi nước Mục đích đề tài nghiên cứu, xây dựng thử nghiệm hệ thống so sánh văn tiếng Việt dựa kết hợp yếu tố độ tương tự ngữ nghĩa độ tương tự thứ tự từ Các kết đạt đề tài:  Nghiên cứu tổng quan đặc điểm ngôn ngữ tiếng Việt phương pháp xử lý sử dụng tách từ, từ điển từ đồng nghĩa, từ điển từ dừng  Nghiên cứu phương pháp tính độ tương đồng văn bản, vector hóa đặc trưng ngữ nghĩa cấu trúc thứ tự từ văn  Các kết nghiên cứu áp dụng vào xây dựng thử nghiệm hệ thống so sánh độ tương đồng văn Những nội dung quan trọng nghiên cứu bao gồm: - - Nhờ việc sử dụng tách từ phân biệt xác từ đơn từ ghép nên ngữ nghĩa văn phần đảm bảo Tần số xuất từ kết hợp biểu diễn vector đặc trưng ngữ nghĩa văn Đây độ đo hữu dụng sử dụng phần lớn cơng trình nghiên cứu xử lý văn để đánh giá tầm quan trọng từ Độ tương tự văn tính dựa vào kết hợp yếu tố độ tương tự ngữ nghĩa từ độ tương tự thứ tự từ o Độ tương tự ngữ nghĩa từ tính dựa đặc điểm tập ngữ liệu so sánh, không phụ thuộc vào việc sử dụng từ điển dịch từ tiếng Việt sang tiếng Anh hay mạng ngữ nghĩa o Công thức Cosine sử dụng để đo độ tương tự vector biểu diễn công thức áp dụng đa số đề tài xử lý văn tiếng Anh Độ tương tự văn có nhiều ứng dụng toán khác nhau, từ mức độ thấp đến cao trích chọn thơng tin, tóm tắt văn bản, phân lớp văn bản… đặc biệt toán chống chép, đạo văn Do hạn chế mặt thời gian kĩ thuật nên hệ thống so sánh dừng việc so sánh văn đơn, chưa thể ứng dụng để quét văn so với tập liệu có trước Hướng phát triển đề tài tiếp tục nghiên cứu hồn thiện cơng đoạn xử lý tiếng Việt xử lý từ đồng nghĩa từ dừng, kết hợp từ/cụm từ… để làm tăng tính ngữ nghĩa cho vector biểu diễn văn bản, từ mở rộng phạm vi ứng dụng hệ thống so sánh để thực so sánh đa văn 39 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667 TÀI LIỆU THAM KHẢO Nguyễn Trung Kiên, “Phân đoạn tiếng Việt sử dụng mơ hình CRFs”, ĐH Quốc gia Hà Nội, 2006 Trần Ngọc Phúc, “Phân loại nội dung tài liệu Web”, Đại học Lạc Hồng, 2012 “Mơ hình biểu diễn văn thành đồ thị” – Đại học Khoa học Tự nhiên, 2008 Lê Quý Tài, “Nghiên cứu phương pháp xử lý tiếng Việt, ứng dụng cho tóm tắt văn bản”, Đại học Quốc gia Hà Nội, 2011 TS Dương Thăng Long, “Nghiên cứu độ tương đồng văn tiếng Việt ứng dụng hỗ trợ đánh giá việc chép điện tử”, Viện Đại học Mở Hà Nội, 2014 Đỗ Thị Thanh Nga, “Tính tốn độ tương tự ngữ nghĩa văn dựa vào độ tương tự từ với từ”, Đại học Công nghệ Đại học Quốc gia Hà Nội, 2010 9a3f31 93f39f8323 b7c7bda 5203 f0b7cfc8a c3 f0f81bf915 5a0f4ac5 d8ccf40c 9ad4424 f89 c65 43b7d34 d53 b38a2a3 9fe6 b66 c26 c305 fca4 9a3c4eb5 1abf55f8 0700b7a c6a4 5f9a c00a 0780 4c0e 4706 f58e f34 f4e 1d01 beb f4d539ab2fe7 2f5 b fb5225288a 8a06 f7fda9338 0380 3efb56b3d3a d4680 f23 e90abcc8a38 c23fcd2 51a0663 7b4 c4a20 104dc58 ee9e c3358 fa7d28b0 be58 c90a 6d7 d8a86 b865 52a6d 6e21c6e5ac96df3e c0e4 ba33 d28bbd1a 77d5 c8a2 275a70 1b94 bfae 8f4 720ff3 f 83ff16454 d0ff6fcfdbe1 f08 e06e5a 6cd3b1 d29 b9dca760 db7 f556 09c19b6825 5eb1ed 75b67ec4b3 b724ea 3df9a79ee fed 76173 5a128 1900e 0583 282baa 080ae f63 cf3 5b45 14a0 c2044 2ad20 8079 6f6 21eb 87ff30d3dbd7 f42b05b2 2642 df6a5 1542c8c8 9b7 d27 cd5 c6e4 6a36f0d7 fde f4a69a 3f4 f9e8 4338 c49 d5bb12 f0d7 2e 1dbd4e07a9 1c7 7d20 1f6 7f1 65a7 f0c61ad6 df3847e 1ccdb5b90 e55d132e2 0091 83b3df3 b9c9b0a b9a32e 9c3 1d17 42070 6f9 c33 be4 fc1ae 74a0 c925a c2abfb d9c b7f2 6ed3 145d0590e e1b3 7b30 baa4 f57b256 ce438 96e0 c368 7e01 f543 f03 e2b7 37e1d7 8ef3 d65a 0d2 dfe5 d520 d3a7 c33e4 8616 1c1 b19 c079aa f860 76df75 8aaf 4ae631e b7f0c1 86eaad2 c0e 6da48 ec1 0486 d93aa2 b8ee3 f47 e8aa258 5cf946 46 4eaf5 c63b2742 99306 4530 f7d12e f440 d783a0 6390 b97e c6 cc7 2bf3e9df7 f50 c c9a261 d2d34b1 efbbfb7384 77f7a47 c4a6a6 b238 d80 d82 c788 c191 9164 f6aa3 4f93 cd1 7a6554 3d1 803b33cb1b0aaac28 737ff67 eeb6 d176 38e03 7bfa 2d26 7d6 9bc7 1d71 3c1 5f4 b0e2e 94a1a2 6b9 c145 69b1 b468 87d5d0 c3ae4 db99 e612 dbf4e 60b7d9e7b725dd9 f50 c9d7 492d37c83dfeef4c1 3a54 c46ab8b8 b76d37b5 ba073 9b50b3a4b1 3035a 2090 fe268 5c6 f34 e2c6 8c7 22b2f8 1e8e30 3a5a41e e60e6 c3 d 3c4e9 c15 4862 b190e 839a2 4b65 f52 c9 c748 2d8b0cde295 0f8 cd2344a b0d0 1a3e c0436 79c9eb0 35f44646 e76db058 e3ab1 69e0 8b8 f6a7 f4f7a709 9cbf7e4 d9d18 48d75e 1a7b3 d5e3 d2e3 e3b9a d7e5a 4a3208ff 6a14 f2e1 cde7 6ae8ab3eb4e f91 651275 5a4512 dbfeaa8e0 c007 31b7 93c9fb06e3 bbf5451 b51 754a04 4cc62ae2 ff88a1cbdbcf9 e618 9f8 f6d2ceae 7271 0729 fae7 c225a c51 b4b0 8a6b1 d8d1a0f 5c1b3da8 b4d1 3cb1d8 42b0 31b0 c1 d4866 f33 06e49a 758 c5e1 f6d9b6 bcb0ab0 b7 e96c2 6ff6cf34 bb20 f31 2b5aa7 d385 b70e 5dc1dc9c7598 53e1a5 687a7 b87d7c7 e3e5c3 fe58 b4bb6fb04 0e9e1 7c5e 6d8 f65 d4d0a 892e cad7 550bb49 f5d5b15 853 fcb8 3a671 1d63 8f3 f9ee 7a6ce801 da406 40601 63f4cf649 89d3 f70 06a71 19c1e 60fc9a3568 5c2 f07a d8ae cc5 c6 c0b053 f5e51 0c5 2d72fb b8f78a8fc6 f6bb5a50 dd0 f7f2e735 dbb70b67e24 f8d49d37ef9b07 65fa4 2fc4a398 3b9 2f5 56098 3a26 77b722 c4 fae8b59b5 9d83 9de6 b1b2ffcf49e1 b8e68 7ef1 868 cb81 fa6 f59b8dc7 e0139ad11e2 f920 9375e 71ad4ec2 2d1 c08a6 0e5b9b10 bb1 f83 e3659 d02 06359 d b20c9a7bb9bfe635 b043 55e4 cc6 72273 d1d79b7276 bbf45a67 0bc6d24a 4c7 755 15e7a2 f607a4 f08 57e99 957e 98995fb 6a2727 f5a c8e5 8f9 1e92b4444 8e711 ec2 79b746 615a7 5776a7 2a0e7aa 3ff897afe 5a8c580 c38a7 69f8dd1 e477 0e2d52a4 1b9c74ab4a 2c2 99439 d6db85 3d45 2d8 bb4 b5db54f2dce47 c50e d23a3 56d7 c33 f8580 5c0 59f50a73 09dc4e33 c49 80aa85 b19 d0761 7ec0544aa4 2f0 632d8493 f2 b9a21a9 fc3a 5b6 b2908 cc6e38 f2b920 fc5 dbba 12c04c4ee52 b94b5fe7 353d7a7 d51760 f2 f3 c4b2 5b45 12c999b7db65c158dcba b7d2e5e8 8914a d13 f4f82856 55 70b476 6952 4967 472eb 9b1 1d0 d9534 8e65 b6fb150 e08e9 6375 cf24e2ffb d904 91b408 5421 d8efc3 c2b046fda430 d2c2a5da 83725 0e70 db16 8c7 71cd59a6 9aae c5fe8 3a106 f37 c8 f17fc4e 1e5c0e1 f29b0942 c58 c5 f6a131 7d6 c681 0a7be 6667

Ngày đăng: 26/12/2023, 00:11

Tài liệu cùng người dùng

Tài liệu liên quan