1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài khoa học và công nghệ cấp cơ sở: Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu

37 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Mục tiêu nghiên cứu đề tài là nghiên cứu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; kho ngữ liệu, các loại kho ngữ liệu. Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đó, có thể làm nguồn dữ liệu cho các phần mềm từ điển, có thể... Đề tài Hoàn thiện công tác quản trị nhân sự tại Công ty TNHH Mộc Khải Tuyên được nghiên cứu nhằm giúp công ty TNHH Mộc Khải Tuyên làm rõ được thực trạng công tác quản trị nhân sự trong công ty như thế nào từ đó đề ra các giải pháp giúp công ty hoàn thiện công tác quản trị nhân sự tốt hơn trong thời gian tới.

d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS Trần Thị Kiều Đà Nẵng, 12/2016 d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS Trần Thị Kiều Xác nhận quan chủ trì đề tài Đà Nẵng, 12/2016 Chủ nhiệm đề tài d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d MỤC LỤC MỞ ĐẦU 1 LÝ DO CHỌN ĐỀ TÀI MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 3.1 Đối tượng nghiên cứu 3.2 Phạm vi nghiên cứu BỐ CỤC CỦA BÁO CÁO CHƯƠNG 1.1 TỔNG QUAN CƠ SỞ LÝ THUYẾT 1.1.1 Tổng quan từ điển 1.1.2 Cơ sở liệu từ điển 1.1.3 Các chuẩn liệu từ điển 1.1.4 Kho ngữ liệu 1.1.5 Các phương pháp tách từ tiếng Việt 11 1.2 CÁC CƠNG TRÌNH NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN 11 1.3 TỔNG KẾT CHƯƠNG 12 CHƯƠNG ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN TỪ KHO NGỮ LIỆU 13 2.1 PHÁT BIỂU BÀI TOÁN 13 2.2 ĐỀ XUẤT GIẢI PHÁP 14 2.2.1 Mơ hình toán 14 2.2.2 Đặc tả mơ hình toán 15 2.3 LỰA CHỌN PHƯƠNG PHÁP, KỸ THUẬT 16 2.3.1 Phân đoạn từ tiếng Việt 16 2.3.2 Dịch máy thống kê 18 2.3.3 Định dạng liệu từ điển 20 2.4 TỔNG KẾT CHƯƠNG 20 d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d CHƯƠNG 3.1 TRIỂN KHAI XÂY DỰNG VÀ THỰC NGHIỆM 21 TRIỂN KHAI ỨNG DỤNG .21 3.1.1 Lựa chọn công nghệ 21 3.1.2 Chuẩn bị liệu 21 3.1.3 Kết đạt 21 3.1.4 Đánh giá kết 25 3.2 TỔNG KẾT CHƯƠNG 25 d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa HTML HyperText Markup Language CSDL Cơ sở liệu KDD Knowledge Discovery in Database KPDL Khai phá liệu LRMM Left Right Maximum Matching RLMM Right Left Maximum Matching MMSEG Maximum Matching Segmentation WFST Weighted finit–state Transducer d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d DANH MỤC CÁC HÌNH VẼ Hình 1.1: Định dạng dict.org Hình 1.2: Định dạng dict.org Hình1.3: Ví dụ tập tin có định dạng spdict Hình 2.1 :Phác thảo mơ hình tốn 14 Hình 2.2: Mơ phương pháp khớp tối đa 18 Hình 2.3: Ví dụ thống kê dựa vào cụm từ 20 Hình 3.1: Cấu trúc tập tin kho ngữ liệu Anh – Việt 22 Hình 3.2: Kết phân tích từ từ kho song ngữ 22 Hình 3.3: Kết sau tách từ tiếng Anh 23 Hình 3.4: Kết sau tách từ tiếng Việt 23 Hình 3.5: Lưu liệu từ điển theo định dạng dict.org 24 d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d DANH MỤC CÁC BẢNG Bảng 3.1: Kết thử nghiệm cơng cụ trích xuất liệu từ điển 25 d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d TÓM TẮT KẾT QUẢ NGHIÊN CỨU Tên đề tài: Nghiên cứu xây dựng sở liệu từ điển phương pháp trích rút từ kho ngữ liệu Mã số: Chủ nhiệm: ThS Trần Thị Kiều Điện thoại: 0905.433.387 E-mail: ttkieu@cit.udn.vn Cơ quan chủ trì: Trường Cao đẳng Công nghệ Thông tin Đơn vị thực hiện:  Trường Cao đẳng Công nghệ Thông tin Thời gian thực hiện: 12 tháng Mục tiêu: Mục tiêu đề tài là nghiên cứu xây dựng sở liệu từ điển phương pháp trích rút từ kho ngữ liệu:  Nghiên cứu từ điển, sở liệu từ điển, cấu trúc định dạng chuẩn liệu từ điển; kho ngữ liệu, loại kho ngữ liệu  Tìm giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu  Từ đó, làm nguồn liệu cho phần mềm từ điển, nguồn cho chương trình dịch tự động, trích rút thơng tin tự động, tóm tắt văn tự động,… Nội dung chính:  Nghiên cứu tổng quan từ điển, sở liệu từ điển, cấu trúc định dạng chuẩn liệu từ điển  Tìm giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu  Xây dựng công cụ xây dựng sở liệu từ điển từ kho ngữ liệu Kết đạt (khoa học, ứng dụng, đào tạo, kinh tế - xã hội): Kết đạt áp dụng nội dung thuyết minh, cụ thể sau: d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d  Đã công bố 01 bài báo đăng CITA 2016  Báo cáo tổng kết  Đã xây dựng công cụ xây dựng sở liệu từ điển từ kho ngữ liệu Cơ quan Chủ trì Chủ nhiệm đề tài (ký, họ tên, đóng dấu) (ký, họ tên) MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Người ta thường nói rằng: “Chúng ta sống thời đại công nghệ thông tin”, thực ra, sống thời đại liệu Lượng liệu khổng lồ tất lĩnh vực kỹ thuật, kinh tế, xã hội,…phần lớn tìm thấy thơng qua hệ thống mạng Internet Tuy nhiên, lượng thông tin mạng Internet chưa khai thác triệt để nhiều lý lý quan trọng là rào cản ngơn ngữ Để phá bỏ rào cản và giúp ta tiếp cận nhanh với thời đại công nghệ, giao lưu và làm việc với bạn bè quốc tế Và tất nhiên từ điển công cụ quan trọng và đắc lực phục vụ người học, người làm Hiện có nhiều phần mềm, nhiều trang web từ điển hỗ trợ có thực tế lượng liệu nguồn từ điển hữu hạn phần mềm trang web có lượng từ hoạt động lĩnh vực khác Có từ khơng tìm thấy trang web này tìm thấy trang web khác Điều làm cho người dùng phải sử dụng nhiều trang web, cài nhiều phần mềm,… bất tiện Hơn nữa, phần quan trọng ứng dụng từ điển là sở liệu, coi trái tim chương trình Qua khảo sát có nhiều cơng trình, nhiều báo nghiên cứu để tạo nên sở liệu từ: giải pháp hợp liệu để xây dựng từ điển đa ngữ [2], hay xây dựng từ điển dựa kho ngữ liệu song song [6], [9] Tuy nhiên, công trình nghiên cứu hợp sở liệu có sẵn chưa xử lý ngơn ngữ tiếng Việt Với thực trạng đó, tơi mong muốn nghiên cứu giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu Thay xây dựng từ điển, qui luật chuyển đổi tay tự động xây dựng từ điển, qui luật dựa kết thống kê có từ kho ngữ liệu Mục đích làm nguồn liệu cho phần mềm từ điển, liệu cập nhật từ thường xuyên từ kho ngữ d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 14 liệu; nguồn cho chương trình dịch tự động, trích rút thơng tin tự động, tóm tắt văn tự động,… 2.2 ĐỀ XUẤT GIẢI PHÁP 2.2.1 Mơ hình tốn Hình 2.1 :Phác thảo mơ hình tốn Trên là mơ hình bước xây dựng toán xây dựng sở liệu từ điển Từ kho song ngữ Anh – Việt, ta tiến hành trích xuất văn tiếng Anh, văn tiếng Việt Sau đó, ta tiền xử lý văn bản: tách dịng tách từ cho văn Bước gióng từ cho câu song ngữ Và cuối tao từ điển cho văn song ngữ Như mơ hình trên, tơi tóm tắt việc xây dựng sở liệu từ điển bước sau: d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 15  Bước 1: Chuẩn bị liệu  Bước 2: Trích xuất văn tiếng Anh, văn tiếng Việt  Bước 3: Tiền xử lý văn bản, tách từ tiếng Việt  Bước 4: Gióng từ song ngữ Anh – Việt  Bước 5: Tạo từ điển cho văn song ngữ  Bước 6: Làm mịn liệu 2.2.2 Đặc tả mơ hình tốn 2.2.2.1 Chuẩn bị liệu Đây là bước quan trọng Như phân tích liệu trái tim chương trình phần mềm từ điển người làm liệu từ điển phải tìm kho ngữ liệu chất lượng Chúng ta tìm kiếm kho ngữ liệu từ cá nhân, tổ chức nghiên cứu muốn chia sẻ Các nguồn ngữ liệu tồn nhiều định dạng khác Càng tìm kiếm nhiều kho ngữ liệu chất lượng việc tạo liệu từ điển tốt 2.2.2.2 Trích xuất văn tiếng Anh, văn tiếng Việt Vì kho ngữ liệu sau thu thập tồn nhiều định dạng khác nên phải phân tích kho ngữ liệu, đọc định dạng tiến hành trích xuất văn tiếng Anh, văn tiếng Việt từ kho song ngữ Đầu vào: kho song ngữ Anh – Việt Đầu ra: văn tiếng Anh, văn tiếng Việt 2.2.2.3 Tiền xử lý văn bản, tách từ tiếng Việt Từ văn tiếng Anh, văn tiếng Việt trích xuất bước 2, ta tiền xử lý văn bản: mã hóa, tách dịng, tách từ cho văn 2.2.2.4 Gióng từ Từ văn sau tiền xử lý, ta tiến hành gióng từ tương ứng cho câu văn d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 16 2.2.2.5 Tạo từ điển cho văn song ngữ Tạo từ điển gióng câu ví dụ từ kho ngữ liệu song ngữ 2.2.2.6 Làm mịn liệu Đây là công đoạn cuối chuỗi qui trình tạo liệu từ điển Sau hồn thành q trình tạo liệu từ điển có nhiều trường hợp liệu bị trùng lặp liệu kết hợp lại với chưa kết hợp, mục đích cơng đoạn làm giảm dư thừa liệu để làm cho chất lượng sở liệu tốt 2.3 LỰA CHỌN PHƯƠNG PHÁP, KỸ THUẬT 2.3.1 Phân đoạn từ tiếng Việt Các phương pháp phân loại ứng dụng vào ngôn ngữ khác cho hiệu khác [5] Nếu tiếng Anh từ có nghĩa tiếng Việt bên cạnh từ đơn cịn có từ phức, từ ghép nhiều từ đơn ghép lại mà tạo nên nghĩa Ví dụ: Ví dụ, câu nói “phân_đoạn từ tiếng_Việt bài_tốn quan_trọng”, thấy dấu cách trống dấu hiệu để nhận ranh giới từ Các phương pháp ứng dụng rộng rãi để tách từ tiếng Việt: MM Maximum Matching: forward / backward; LRMM: Left Right, RLMM: Right Left và phương pháp MMSEG: Maximum Matching Segmentation, là cách tách từ đơn giản nhanh sử dụng thuật toán khớp tối đa (Maximum Matching) Theo phương pháp LRMM để phân đoạn từ tiếng Việt ngữ/câu, ta từ trái sang phải chọn từ có nhiều âm tiết mà có mặt từ điển, tiếp tục cho từ hết câu Với cách này, ta dễ dàng tách xác ngữ/câu như: “hợp tác xã | mua bán”; “thành lập | nước | Việt Nam | dân chủ | cộng hoà”,… Phương pháp RLMM ngược lại, câu/ngữ, ta từ phải sang trái chọn từ có nhiều âm tiết mà có mặt từ điển, tiếp tục cho từ hết câu Phương pháp MMSEG là kết hợp hai phương pháp LRMM và RLMM, MMSEG cho kết tốt hai phương pháp d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 17 Trong đề tài chọn phương pháp MMSEG để tách từ tiếng việt có sử dụng từ điển Tiếng Việt  Phương pháp Maximum Matching cho bài toán tách từ tiếng Việt Với thuật toán khớp tối đa (Maximum Matching) có nhiều nghiên cứu với kết thực nghiệm khả quan Trong tiếng Trung, cách này đạt độ xác 98,41% [Chih-HaoTsai,2000] Hơn nữa, cách tách từ đơn giản, nhanh, cần dựa vào từ điển Trong phạm vi đề tài sử dụng thuật toán so khớp để tách từ tiếng Việt dựa vào từ điển tiếng Việt gồm 70880 từ đơn và từ ghép.; Phương pháp Maximum Matching trình bày sau: Phương pháp khớp tối đa (Maximum Matching) Theo phương pháp này, ta duyệt ngữ câu từ trái sang phải chọn từ có nhiều âm tiết có mặt từ điển, thể tiếp tục cho từ hết câu Thuật tốn trình bày [13] Dạng đơn giản dùng giải nhập nhằng từ đơn Giả sử có chuỗi ký tự (tương đương với chuỗi tiếng tiếng Việt) C1, C2 , Cn Ta đầu Đầu tiên kiểm tra xem C1, có phải từ hay khơng, sau kiểm tra xem C1C2 có phải từ hay khơng Tiếp tục tìm tìm từ dài Từ hợp lý từ dài Chọn từ đó, sau tìm tiếp cho từ cịn lại xác định tồn chuỗi từ Dạng phức tạp: quy tắc dạng này là phân đoạn hợp lý là đoạn ba từ với chiều dài tối đa Thuật toán bắt đầu dạng đơn giản Nếu phát cách tách từ gây nhập nhằng (ví dụ, C1 từ C1C2 là từ), ta xem chữ để tìm tất đoạn ba từ có bắt đầu với C1 C1C2 Ví dụ ta đoạn sau: C1 C2 C3 C4 C1C2 C3 C4 C5 C1C2 C3 C4 C5 C6 d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 18 Chuỗi dài chuỗi thứ ba Vậy từ chuỗi thứ ba (C1C2) chọn Thực lại bước chuỗi từ hồn chỉnh Hình 2.2: Mơ phương pháp khớp tối đa 2.3.2 Dịch máy thống kê Mục tiêu dịch văn từ ngôn ngữ nguồn sang ngôn ngữ đích Chúng ta có câu văn ngơn ngữ nguồn (“Tiếng Anh”) 𝑒1𝐼 = e1,…,ei, mà dịch thành câu văn ngơn ngữ đích (“Tiếng Việt”) 𝑣1𝐼 = v1,…,vi Trong tất câu có văn đích, chọn câu cho: 𝑣1𝐼 = argmax p|(𝑣1𝐼 |𝑒1𝐼 ) [4]  Ưu điểm phương pháp dịch thống kê [4] Cho trước từ ngôn ngữ nguồn, phải định chọn từ ngơn ngữ đích Vì vậy, tạo cho cảm giác giải định lý định thống kê Điếu dẫn đến cách tiếp cận thống kê đề xuất Mối quan hệ đối tượng ngôn ngữ từ, cụm từ cấu trúc ngữ pháp thường yếu và mơ hồ Để mơ hình hóa phụ thuộc này, cần cơng thức hóa đưa phân phối xác suất mà giải với vấn đề phụ thuộc lẫn d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 19 Để thực dịch máy, thiết phải kết hợp nhiều nguồn trí thức Trong dịch thống kê, dựa vào toán học để thực kết hợp tối ưu nguồn trí thức Trong dịch máy thống kê, trí thức dịch học cách tự động từ liệu huấn luyện Với kết vậy, việc phát triển hệ dịch dựa vào thống kê nhanh so với hệ dịch dựa vào luật Dịch máy thống kê phù hợp với ứng dụng nhúng mà dịch máy phần ứng dụng lớn Việc đưa khái niệm “chính xác” mối quan hệ ngữ pháp, ngữ nghĩa, văn phong khó khăn khơng nói khơng thể Vì vậy, việc hình thức hóa vấn đề xác tốt khơng thể dựa vào giằng buộc luật mô tả chúng Thay vào đó, cách tiếp cận thống kê, giả định mơ hình kiểm định thực nghiệm dựa vào liệu huấn luyện  Dịch máy thống kê dựa vào cụm từ (phrase-based) Trong dịch máy thống kê sở từ, đơn vị dịch từ ngôn ngữ tự nhiên Dịch máy thống kê sở từ không sử dụng rộng rãi ngày nay, thay vào là dịch máy thống kê sở cụm từ [4] Dịch máy thống kê sở cụm từ có mục đích là để giảm bớt hạn chế dịch máy thống kê sở từ cách dịch cụm từ, độ dài cụm từ nguồn cụm từ đích khác Các cụm từ kỹ thuật này thường không theo nghĩa ngôn ngữ học mà cụm từ tìm thấy cách sử dụng phương pháp thống kê để trích rút từ cặp câu Từ ngôn ngữ nguồn (Tiếng Anh) dựa vào thuật tốn tìm kiếm Beam dựa đặc trưng hệ dịch máy thống kê dựa cụm từ (mơ hình ngơn ngữ, mơ hình dịch, mơ hình đảo cụm,…) ngơn ngữ đích (Tiếng Việt) d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 20 Hình 2.3: Ví dụ thống kê dựa vào cụm từ Hầu hết hệ thống dựa cụm từ sử dụng Giza++ để gióng hàng câu, trích rút cặp câu song ngữ 2.3.3 Định dạng liệu từ điển Định dạng dict.tab file text, cấu trúc dễ hiểu Theo cách thông thường hướng dẫn chuẩn dict, để load danh sách nạp toàn danh sách từ vào listbox, thao tác với danh sách từ đơn giản listbox hỗ trợ hết, số lượng từ từ điển tương đối nhiều tốc độ truy cập khơng tối ưu.Vì người ta khơng dùng làm liệu từ điển, kết hợp với liệu từ điển theo định dạng Spdict làm tăng khả tra từ cho từ điển Định dạng Spdict tác giả Bùi Đức Tiến phát triển dựa định dạng dict.org khắc phục số hạn chế dict.org: thêm, sửa, xóa nghĩa từ Cấu trúc định dạng Spdict phức tạp, gần giống mảng trỏ Ở báo cáo chọn lưu liệu từ điển theo định dạng dict.org Định dạng dễ sử dụng và số cá nhân sử dụng để xây dựng từ điển lớn Hơn dễ dàng chuyển đổi qua lại định dạng liệu từ điển nên lưu liệu từ điển định dạng 2.4 TỔNG KẾT CHƯƠNG Giải pháp tổng thể toán xây dựng sở liệu từ điển; lựa chọn giải pháp kỹ thuật; nội dung phương pháp tách câu từ, tách từ cho tiếng Việt trình bày chương này Lúc ta xem có đầy đủ mặt sở lý thuyết giải pháp xây dựng liệu từ điển Bước ta hoàn tồn xây dựng triển khai thực nghiệm hệ thống Đó là nội dung trình bày chương d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 21 CHƯƠNG TRIỂN KHAI XÂY DỰNG VÀ THỰC NGHIỆM Sau tìm hiểu tổng quan lĩnh vực từ điển, sở liệu từ điển, cấu trúc định dạng chuẩn liệu từ điển; tổng quan kho ngữ liệu, loại kho ngữ liệu chương Và chương phân tích và trình bày đề xuất giải pháp lựa chọn mặt phương pháp, kỹ thuật Ta hoàn toàn có sở vững để triển khai xây dựng liệu từ điển Vì vậy, chương báo cáo trình bày nội dung triển khai thực nghiệm 3.1 TRIỂN KHAI ỨNG DỤNG 3.1.1 Lựa chọn công nghệ Ứng dụng sử dụng ngôn ngữ Python kết hợp thư viện NLTK 3.0 hệ điều hành Linux 3.1.2 Chuẩn bị liệu Kho ngữ liệu song ngữ Anh – Việt thu thập từ kho ngữ liệu tác giả Đinh Điền Kho song ngữ này đăng ký quyền tác giả Cục Bản quyền Tác giả 3.1.3 Kết đạt Phần làm việc chương trình gồm phần: Phần (1) trích xuất văn tiếng Anh, văn tiếng Việt; tiền xử lý liệu tách từ tiếng Việt Phần (2) gióng từ Anh –Việt Phần (3) lưu liệu từ điển theo định dạng dict.org  Phần (1) trích xuất văn tiếng Anh, văn tiếng Việt; tiền xử lý liệu tách từ tiếng Việt: Đầu vào: file song ngữ Anh – Việt Đa số kho ngữ liệu song song sử dụng XML để biểu diễn định dạng chúng XML cho phép tạo định dạng chuẩn mà dễ dàng lưu trữ và trao đổi tổ chức, hệ thống khác Vì vậy, kho song ngữ Anh – Việt sử dụng dạng chuẩn XML  E002905.xml : 300 câu song ngữ  E002906.xml: 300 câu song ngữ d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 22  E002907.xml: 244 câu song ngữ Hình 3.1: Cấu trúc tập tin kho ngữ liệu Anh – Việt Công cụ tiến hành trích xuất văn tiếng Anh, văn tiếng Việt; tiền xử lý liệu giai đoạn tách từ tiếng Việt tơi sử dụng cơng cụ tách từ tiếng Việt vnTokenizer tác giả Lê Hồng Phương Kết sau: Hình 3.2: Kết phân tích từ từ kho song ngữ d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 23 Đầu trình file chứa câu Anh – Việt sau xử lý tách từ o File source.tok: Hình 3.3: Kết sau tách từ tiếng Anh o File target.tok: Hình 3.4: Kết sau tách từ tiếng Việt Như từ file source.tok, target.tok ta thấy kết tách từ câu song ngữ Anh – Việt sau: They won against big artist like DBSK, Big_Bang, Lee_Hyori, and Rain making them the top girl group of the year Họ giành chiến_thắng trước nghệ_sĩ lớn DBSK, Big_Bang, Lee_Hyori Rain làm cho họ trở_thành nhóm nhạc nữ hàng_đầu năm d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 24  Phần (2) gióng từ Anh – Việt: phần tơi sử dụng tool GIZA++ Đầu vào: file source.tok, target.tok, tập tin chứa câu ngôn ngữ nguồn, tập tin chứa câu ngơn ngữ đích Mỗi câu nằm dòng Số câu tập tin phải tương ứng Đầu ra: file sau gióng từ song ngữ Anh – Việt # Sentence pair (1) source length 24 target length 26 họ giành chiến_thắng trước nghệ_sĩ lớn dbsk , big_bang , lee_hyori rain làm cho họ trở_thành nhóm nhạc nữ hàng_đầu năm NULL ({ 24 }) they ({ }) won ({ }) against ({ }) big ({ }) artist ({ }) like ({ }) dbsk ({ }) , ({ 10 }) big_bang ({ 11 }) , ({ 12 }) lee_hyori ({ 13 }) , ({ }) and ({ 14 }) rain ({ 15 }) making ({ 16 17 }) them ({ 18 }) the ({ }) top ({ 19 23 }) girl ({ 21 22 }) group ({ 20 }) of ({ }) the ({ }) year ({ 25 }) ({ 26 })  Phần (3) lưu vào file liệu từ điển theo định dạng dict.org Hình 3.5: Lưu liệu từ điển theo định dạng dict.org d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 25 3.1.4 Đánh giá kết Tôi tiến hành thử nghiệm trích xuất liệu từ điển từ kho ngữ liệu và kết sau: Lần thử Kho ngữ liệu E002905.xml E002906.xml E002907.xml Cặp câu song ngữ 300 300 244 Tổng số từ tách Tiếng Anh 6273 6707 4993 Tiếng Việt 6546 6816 5201 Số từ điển trích xuất 295 309 261 Bảng 3.1: Kết thử nghiệm cơng cụ trích xuất liệu từ điển Trên là đánh giá thử nghiệm kho ngữ liệu: E002905.xml, E002906.xml, E002907.xml Số từ điển trích xuất phụ thuộc nhiều trường hợp, chẳng hạn số lượng từ, cụm từ Anh – Việt lặp lặp lại, hay từ tiếngAnh dịch nhiều nghĩa tiếng Việt Nhìn chung, kết này khơng cao nhiên đạt hiệu định Hơn nữa, với phương pháp này ta tạo liệu từ điển từ kho ngữ liệu và có ngân hàng ví vụ cho từ điển từ kho song ngữ 3.2 TỔNG KẾT CHƯƠNG Chương triển khai thành công công cụ xây dựng sở liệu từ điển phương pháp trích rút từ kho ngữ liệu Từ đó, làm nguồn liệu cho phần mềm từ điển, liệu cập nhật từ thường xuyên từ kho ngữ liệu; nguồn cho chương trình dịch tự động, trích rút thơng tin tự động, tóm tắt văn tự động,… Bên cạnh đó, chương này trình bày đánh hạn chế chưa đạt và đề định hướng nghiên cứu tương lai 26 KẾT LUẬN Báo cáo trình bày nghiên cứu giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu Thay xây dựng từ điển, qui luật chuyển đổi tay tự động xây dựng từ điển, qui luật dựa kết thống kê có từ kho ngữ liệu Mục đích làm nguồn liệu cho phần mềm từ điển, liệu cập nhật từ thường xuyên từ kho ngữ liệu; nguồn cho chương trình dịch tự động, trích rút thơng tin tự động, tóm tắt văn tự động,… Báo cáo tiến hành thử nghiệm kho song ngữ Anh- Việt trích xuất liệu từ điển phương pháp trích rút từ kho ngữ liệu Kết không cao nhiên đạt hiệu định so với cơng trình nghiên cứu lĩnh vực xây dựng sở liệu từ điển Bên cạnh kết đạt được, dù cố gắng hữu hạn thời gian kiến thức, báo cáo số hạn chế: Chưa tiến hành so sánh phương pháp, kỹ thuật báo cáo chọn so với phương pháp khác hiệu nào Thay vào lựa chọn phương pháp, kỹ thuật dựa đánh giá nghiên cứu cơng trình tun bố trước Số lượng liệu từ điển trích xuất phụ thuộc vào chất lượng kho ngữ liệu Tuy nhiên, báo cáo chưa thử nghiệm nhiều kho ngữ liệu nhiều lĩnh vực khác kho ngữ liệu lớn Định hướng nghiên cứu tương lai: Tiến hành so sánh phương pháp, kỹ thuật luận văn chọn so với phương pháp khác hiệu Tiến hành thử nghiệm nhiều kho ngữ liệu lớn nhiều lĩnh vực khác nhau, đưa đánh giá cụ thể Cải thiện, cải tiến để triển khai hệ thống áp dụng thực tế d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 27 TÀI LIỆU THAM KHẢO [1] Đặng Đại Thọ, Huỳnh Công Pháp (2013), “Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa”, Tạp chí Khoa học Cơng nghệ, Đại học Đà Nẵng – Số 12 (73), Quyển II [2] Ngô Anh Vũ (2015), “Nghiên cứu giải pháp hợp liệu để xây dựng từ điển đa ngữ”, Luận văn Thạc Sĩ, Đại học Đà Nẵng [3] Đặng Đại Thọ (2014), “Xây dựng hệ thống mở rộng kho ngữ liệu dịch tự động”, Đề tài khoa học công nghệ - ĐHĐN, Mã số: Đ2013-07-06-BS [4] Đào Ngọc Tú (2012), “Nghiên cứu dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt, Luận văn Thạc Sĩ, Học viện Cơng nghệ Bưu Viễn thông [5] Trần Thị Kiều (2015), “Nghiên cứu xây dựng hệ thống hỗ trợ tư vấn việc làm”, Luận văn Thạc Sĩ, Đại học Đà Nẵng [6] Enikö Héja (2010), “Dictionary Building based on Parallel Corpora and Word Alignment”, Research Institute for Linguistics, HAS, Dept of Language Technology [7] Huynh C-P (2016), “Solutions of Creating Large Data Resources in Natural Language Processing”, ACIIDS_2016_submission [8] Huynh C-P (2010) Des suites de test pour la TA un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimédia PhD thesis-National Polytechnic Institute of Grenoble, 228 p [9] Adam Kilgarriff (2012), “Using corpora [and the web] as data sources for dictionaries” [10] Huynh C-P (2011),”New approach for collecting high quality parallel corpora from multilingual Websites”, iiWAS11 Conference Proceedings of the 13th International Conference on Information Integration and Web-based Applications & Services [11] Hong Phuong Le, Thi Minh Huyen Nguyen, Azim Roussanaly, Tuong Vinh Ho, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 2nd International Conference on Language and Automata Theory and Applications LATA 2008, Mar 2008, Tarragona, Spain [12] J Han and M Kamber, Data mining: concepts and techniques San Francisco: Morgan Kaufmann Publishers, 2006 [13] Chih-Hao Tsai, “MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm” d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d 28 [14] http://tech.fpt.com.vn/en/expert-opinion/vietnamese-word-segmentation-part-iind498054.html Truy cập ngày 15/12/2016 [15] http://www.statmt.org/moses/giza/GIZA++.html Truy cập ngày 15/12/2016 [16] http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer Truy cập ngày 15/12/2016 d7ab8e b82e b25 f771a 671e2 2eac3a57c81ccf10fbf2d5a d39c42dd8acfcf3e7 a3b2006 1742 0fc1db577 d1b1e 93fbdd0ab7 1b01 01f9f1 e124 c788 9b01 4208 558 42862e5 73af62d1 1a070 e4a1e6 16adfc8 d9d6 bba8 6091 70bf95 cbe6e 88dc2a8 53cf07 f646 b8c7339 c9bc5 c2a893 9633 c98 d993 4af9e 93a61a 3f7 58e77 bf2 8ae b585e4 c6 fc5 82399 8ad43 d515 95ae0 84789 9c4 c83 f8e 59ac3 f93 b72 418e4 0958 1e13c27bbdbb623 39b4a 6c1a 92ab4 b087 b9 f43e1 9cbdd2ef1 8735 b0a4e2 6a80 f 3c3b9e00a5 254b89e c7d9 4e5c66c6b2 b82e b06a2 4f1 75a896 44b0 e9c5398 f3 f1 4b5bc6a22 5fdff0 41df597 5d8 7500 b5865a d81 f6 f4d0 cb27cf3 f1b3 bbcf5a 9e7 325654e 7f4 d3a0 0975 d005a7 b55 0ef9 8d3 b3b7 e6a628 2e6e3 c0a4 2567 faa9c1c 049647 51b2 64f206 c364 bd75 9c1 31d9 64a9fdd5 2ab2a8 3f0 8075 e9f4714 f777 7e6c0 572a75 8f0 0c0 7a568e 4eb5 bc2b5 be222 3a3b9 f6 c0e1 1c56 d0 f87d13b5 04 180ac9 edf0d3 650 cbcc91 885db0e0 74ca 61a4 f6502 4b3 d16b9e005 49e5 6d2dc3 c7952 d3 c8baa0 9c2a 1c4 c631 3e5 f1c1471 f3a72 7a695 064ca 57e6 d7b65b0 57b9 1e04e04a 8992 7f6a c78 c86 d1e0 c2d175ad4fca 1fb6e36 521a34 4c3 9b3 f08 c331 cfed 7dd2ab0 d8e55 82df302 29a2b9eb3 f47 bb0 b317a 5b0 67abf16dc1 d1465 8d4 6c0c3e2bb9d54fb002 ebc95b823a11a b1 c12d09d4 d76a8 e2c083 cc4e fee4e f12 14e34d3b80 c3 dd69 5f8 9f0 6c2fba4 b08a b177 7a0b9 ba719ff 6d41 649 c7c39f3 4a49356 cd1 504 b41ac6b5 09f5a55d7d1e 0f7 34bd01b9f9 b418 306b079aa1 4b58 76c8 c235 4c6 d472 b9ba 67e47 c60a 45fe 16681 e6ab5 fc709e3 42c7d0fbd3a5df7 d15bea d4fc82e c67 40f6981 520a4 c275 1ef9 c52 e2ff5a7d195a4 76e05 fe65 012 aec9cfb 6aa3fde90ab9502aa0 11aa6a5 b6 f324 b3c8b6e 9c8 d6bc66 f121 4f2 82f bd4 c4bb166 f2f402e 7b7 f5d4 1a62 f16ae b3c4b79 2eb d8404a 58fb7 c62 f4a3d0d 72fbd58 b8d3 da629 cd15aa34 f047 0bfc4 c9d8 88b5 c22 89ee b55d15aeb c0 f747 aa95d9 c7988 7230 749a6a d6a6 f14b06a00 51c86fe2 186 f0a12a 9e6c2a4ef6661 2cf8da07 0f2 2943a2 5f7 1a1c0a867 c8 cf3 02b1 f11 bde4a 23e7 86be be180 10d4f e408373 6a892 76022 74e7 0c3 7d9d50ee0 258e 23c4 44e8 1ee032 d32 c44 b595e bf 8b9e5 f7e1 78ef067da 3bc8ed 3c5 bfcfde 88109 87c4baaab25b5 f5 b2f3c7 f34e 1b3cfe83 06969 dcd424fb6 05c081bd42 b333 9a88e0 f93 b11ff4 6486a bec9 8e8d

Ngày đăng: 26/12/2023, 16:05

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w