Ứng dụng phương pháp vét cạn kết hợp với độ tương hỗ âm tiết vào bài toán tách từ cho tiếng việt

46 9 0
Ứng dụng phương pháp vét cạn kết hợp với độ tương hỗ âm tiết vào bài toán tách từ cho tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH TRẦN MINH HÙNG ỨNG DỤNG PHƯƠNG PHÁP VÉT CẠN KẾT HỢP VỚI ĐỘ TƯƠNG HỖ ÂM TIẾT VÀO BÀI TOÁN TÁCH TỪ CHO TIẾNG VIỆT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Tháp, tháng 3/2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH TRẦN MINH HÙNG ỨNG DỤNG PHƯƠNG PHÁP VÉT CẠN KẾT HỢP VỚI ĐỘ TƯƠNG HỖ ÂM TIẾT VÀO BÀI TOÁN TÁCH TỪ CHO TIẾNG VIỆT Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60.48.02.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn: TS Trần Xuân Sang Đồng Tháp, tháng 3/2017 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thân Các số liệu, kết trình bày luận văn hồn toàn thật trung thực Những liệu sử dụng luận văn có nguồn gốc trích dẫn rõ ràng, đầy đủ Nếu có sai sót tơi xin hồn tồn chịu trách nhiệm Tác giả luận văn Trần Minh Hùng LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới TS Trần Xuân Sang tận tình hướng dẫn tơi suốt q trình thực luận văn Tôi xin chân thành cảm ơn thầy cô giáo Khoa CNTT - Trường Đại học Vinh truyền thụ kiến thức cho suốt q trình học tập vừa qua Tơi xin cảm ơn quan, bạn bè đồng nghiệp, gia đình người thân chia sẻ, giúp đỡ, động viên, tạo điều kiện thuận lợi để hoàn thành luận văn Cần Thơ, ngày 26 tháng 02 năm 2017 Học viên Trần Minh Hùng MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU Lý chọn đề tài Mục tiêu nghiên cứu 2.1 Mục tiêu tổng quát 2.2 Mục tiêu cụ thể Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu 3.2 Phạm vi nghiên cứu Nội dung nghiên cứu CHƯƠNG TỔNG QUAN 10 1.1 Cơ sở lý luận 10 1.2 Cơ sở thực tiễn 11 1.2.1 Các nghiên cứu nước 11 1.2.2 Các nghiên cứu nước 13 1.2.2.1 Các phương pháp dựa từ điển 13 1.2.2.2 Các phương pháp dựa thống kê 14 1.2.1.3 Các phương pháp kết hợp 15 1.2.1.4 Một số phương pháp sinh học 15 1.3 Mục tiêu luận văn 16 CHƯƠNG BÀI TOÁN TÁCH TỪ 17 2.1 Tổng quan toán tách từ 17 2.1.1 Phát biểu toán tách từ tiếng Việt 17 2.1.2 Đặc trưng đơn vị từ vựng tiếng Việt 18 2.1.2.1 Từ tiếng Việt 18 2.1.2.2 Ngữ cố định 19 2.2 Những vấn đề toán tách từ tiếng Việt 20 2.2.1 Vấn đề nhận diện từ 20 2.2.2 Vấn đề nhập nhằng ranh giới từ 21 2.3 Một số phương pháp tiếp cận toán tách từ tiếng Việt 21 2.3.1 Phương pháp tiếp cận dựa từ 21 2.3.1.1 Phương pháp dựa vào từ điển 22 2.3.1.2 Phương pháp dựa thống kê 22 2.3.1.3 Phương pháp kết hợp 23 2.3.2 Phương pháp tiếp cận dựa kí tự 23 CHƯƠNG PHƯƠNG PHÁP VÉT CẠN KẾT HỢP VỚI ĐỘ TƯƠNG HỖ ÂM TIẾT VÀO BÀI TOÁN TÁCH TỪ 24 3.1 Ý tưởng 24 3.2 Độ tương hỗ âm tiết MI (Mutual Information) 26 3.3 Độ tương hỗ âm tiết toán tách từ 30 CHƯƠNG CÀI ĐẶT CHƯƠNG TRÌNH THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ CỦA PHƯƠNG PHÁP 33 4.1 Chuẩn bị kho ngữ liệu từ điển tiếng Việt để tiến hành thử nghiệm 33 4.2 Cài đặt chương trình thử nghiệm 34 4.2.1 Cài đặt chương trình 34 4.2.2 Phân tích đánh giá kết 35 KẾT LUẬN VÀ KIẾN NGHỊ 42 TÀI LIỆU THAM KHẢO 43 DANH MỤC CÁC TỪ VIẾT TẮT STT Tên tắt Ý nghĩa HMM CRF ME SVM Support Vector Machine MM So khớp cực đại - Maximum Matching FMM So khớp cực đại tiến - Forward Maximum Matching BMM So khớp cực đại lùi - Backward Maximum Matching OA Overlap Ambiguities – Nhập nhằng chồng lắp NW New Words - Từ 10 MI Mutual Information - Độ thông tin tương hỗ 11 DLG 12 AV Accessor Variety - Độ AV 13 BE Boundary Entropy - Độ entropy ranh giới 14 GA Genetic Algorithms - Giải thuật di truyền 15 ACO Ant Colony Optimization - Tối ưu hóa đàn kiến 16 MEM Maximium Entropy Model - Mơ hình Entropy cực đại 17 MEMM 18 ANN Artificial Neural Network - Mạng nơ-ron nhân tạo 19 MDL Minimum Description Length - Độ dài mơ tả cực tiểu 20 nVBE Mơ hình Markov ẩn - Hidden Markov Model Conditional random fields – Trường ngẫu nhiên có điều kiện Maximum entropy – Cực đại entropy Description Length Gain - Độ lợi chiều dài mô tả Maximum Entropy Markov Model normalized Variation of Branching Entropy - Biến thể Entropy nhánh chuẩn hoá DANH MỤC CÁC BẢNG Bảng 3.1 Ví dụ liệt kê phương án tách từ 28 Bảng 3.2 Ví dụ liệt kê phương án tách từ 29 Bảng 4.1 Kết tách từ số câu tiếng Việt ngẫu nhiên 36 DANH MỤC CÁC HÌNH Hình 2.1 Phân loại từ tiếng Việt theo cấu tạo 18 Hình 3.1 Sơ đồ mô tả giải thuật tách từ phương pháp vét cạn kết hợp với độ tương hỗ âm tiết 25 Hình 3.2 Ví dụ phương án tách từ 29 Hình 3.3 Ví dụ phương án tách từ có âm tiết 30 Hình 4.1 Từ điển tiếng Việt 34 Hình 4.2 Chương trình thử nghiệm 35 MỞ ĐẦU Lý chọn đề tài Tách từ trình xử lý nhằm mục đích xác định ranh giới từ câu văn, hiểu đơn giản tách từ trình xác định từ đơn, từ ghép… có câu d Trong tiếng Việt, dấu cách (space) khơng sử dụng kí hiệu phân tách từ, có ý nghĩa phân tách âm tiết với Vì thế, để xử lý tiếng Việt, toán tách từ (word segmentation) toán quan trọng bậc Ngồi tiếng Việt, có nhiều ngơn ngữ châu Á khác cần bước tách từ, ví dụ như: tiếng Nhật, tiếng Trung, tiếng Hàn,… vấn đề nhận quan tâm rộng rãi có nhiều hướng tiếp cận khác Có số hướng để tiếp cận giải toán sử dụng phương pháp tích hợp, phương pháp sơ khớp cực đại, mơ hình Markov ẩn (HMM), trường ngẫu nhiên cực đại - Conditional random fields (CRF), cực đại entropy - Maximum entropy (ME), … Xuất phát từ nhu cầu nghiên cứu thử nghiệm phương pháp tách từ tiếng Việt, nên tơi chọn đề tài “Ứng dụng phương pháp vét cạn kết hợp với độ tương hỗ âm tiết vào toán tách từ cho tiếng Việt” Mục tiêu nghiên cứu 2.1 Mục tiêu tổng quát Nghiên cứu phương pháp vét cạn kết hợp với độ tương hỗ âm tiết vào toán tách từ cho tiếng Việt 2.2 Mục tiêu cụ thể Đề tài tập trung vào mục tiêu sau: (i) Nghiên cứu đặc trưng toán tách từ dựa theo phương pháp vét cạn kết hợp với độ tương hỗ âm tiết (ii) Nghiên cứu phương pháp vét cạn kết hợp với độ tương hỗ âm tiết để áp dụng vào toán tách từ cho tiếng Việt (iii) Cài đặt thuật toán cho toán tách từ phương pháp vét cạn kết hợp với độ tương hỗ âm tiết Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu (a) Nghiên cứu lý thuyết - Nghiên cứu tài liệu tốn tách từ cơng bố ngồi nước - Nghiên cứu phương pháp phương pháp vét cạn kết hợp với độ tương hỗ âm tiết để xây dựng hệ thống tách từ từ điển tiếng Việt (b) Nghiên cứu thực nghiệm - Nghiên cứu ngôn lập trình hướng đối tượng C# cài đặt phương pháp cho toán tách từ - Đánh giá hiệu thuật toán 3.2 Phạm vi nghiên cứu Bài tốn tách từ thực thuật toán phương pháp khác phương pháp tích hợp, phương pháp sơ khớp cực đại, mơ 30 10 1001 |Ông | già nhanh | quá| 11 1010 |Ông | già | nhanh quá| 12 1011 |Ông | già | nhanh | quá| 13 1100 |Ông | già | nhanh quá| 14 1101 |Ông | già | nhanh | quá| 15 1110 |Ông | già | | nhanh quá| 16 1111 |Ông | già | | nhanh | quá| Hình 3.3 Ví dụ phương án tách từ có âm tiết 3.3 Độ tương hỗ âm tiết toán tách từ Âm tiết đơn vị cấu tạo nên phối hợp tiếng nói Ví dụ, từ La tinh kết hợp từ hai âm tiết: la tinh Một âm tiết từ điển cấu tạo từ nhân âm tiết Một từ gồm âm tiết (như nước tiếng Việt) gọi đơn âm tiết, từ gồm hai âm tiết trở lên, ví dụ tivi gọi đa âm tiết 31 Phương pháp vét cạn cho ta biết tất phương án tách từ có Tuy nhiên việc chọn phương án ta phải dựa vào độ đo Ở đề xuất độ đo độ tương hỗ âm tiết phương án tách, nghĩa phương án chọn phương án có tổng độ tương hỗ âm tiết lớn Quay trở lại với ví dụ phần 3.2 chương Để tách từ “Trời mưa to”, tiến hành tính độ tương hỗ sau: MI (Trời mưa to) = P(Trời mưa to) P(Trời) + P(𝑚ư𝑎) + P(𝑟ấ𝑡) + P(to) − P(Trời mưa to) 𝐶(Trời mưa to) 𝑁 = 𝐶(𝑇𝑟ờ𝑖) 𝐶(𝑚ư𝑎) 𝐶(𝑟ấ𝑡) 𝐶(𝑡𝑜) 𝐶(Trời mưa to) + + 𝑁 + 𝑁 − 𝑁 𝑁 𝑁 P (Trời mưa rất) MI (Trời mưa rất) = P(Trời) + P(mưa) + P(rất) − P(Trời mưa rất) 𝐶(Trời mưa ) 𝑁 = 𝐶(Trời) 𝐶(mưa) 𝐶(𝑟ấ𝑡) 𝐶(Trời mưa rất) + + 𝑁 − 𝑁 𝑁 𝑁 P(Trời mưa) MI (Trời mưa) = P(Trời) + P(mưa) − P (Trời mưa) 𝐶(Trời mưa ) 𝑁 = 𝐶(mưa) 𝐶(mưa) 𝐶(Trời mưa) + − 𝑁 𝑁 𝑁 𝐶(rất to) P(rất to) 𝑁 MI (rất to) = = 𝐶(to) 𝐶(rất to) P(rất) + P(to) − P (rất to) 𝐶(rất) 𝑁 + 𝑁 − 𝑁 P (mưa to) MI (mưa to) = P(mưa) + P(rất) + P(to) − P(mưa to) 𝐶(mưa to ) 𝑁 = 𝐶(mưa) 𝐶(rất) 𝐶(to) 𝐶(mưa to) + + 𝑁 𝑁 𝑁 − 𝑁 32 MI (mưa rất) = P(mưa rất) P(mưa) + P(rất) − P (mưa rất) 𝐶(mưa rất) 𝑁 = 𝐶(mưa) 𝐶(rất) 𝐶(mưa rất) + 𝑁 − 𝑁 𝑁 𝐶(trời) MI (trời) = 𝑁 𝐶(mưa) MI (mưa) = 𝑁 𝐶(rất) MI (rất) = 𝑁 𝐶(𝑡𝑜) MI (to) = 𝑁 * Giải thích: - N: tổng số từ kho ngữ liệu - C(Trời mưa to): tần suất số lần xuất từ "Trời mưa to" kho ngữ liệu - C(Trời mưa rất): tần suất số lần xuất từ "Trời mưa rất" kho ngữ liệu - C(Trời mưa): tần suất số lần xuất từ "Trời mưa" kho ngữ liệu - C(rất to): tần suất số lần xuất từ "rất to" kho ngữ liệu - C(mưa to): tần suất số lần xuất từ "mưa to" kho ngữ liệu - C(mưa rất): tần suất số lần xuất từ "mưa rất" kho ngữ liệu - C(trời): tần suất số lần xuất từ "trời" kho ngữ liệu - C(mưa): tần suất số lần xuất từ "mưa" kho ngữ liệu - C(rất): tần suất số lần xuất từ "rất" kho ngữ liệu - C(to): tần suất số lần xuất từ "to" kho ngữ liệu 33 CHƯƠNG CÀI ĐẶT CHƯƠNG TRÌNH THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ CỦA PHƯƠNG PHÁP 4.1 Chuẩn bị kho ngữ liệu từ điển tiếng Việt để tiến hành thử nghiệm Kho ngữ liệu tập hợp nhiều đoạn văn thuộc chủ đề khác nhau, báo, đoạn văn… Kho ngữ liệu bao gồm nhiều âm tiết chuẩn hóa theo tiêu chuẩn Trước hết, để biết độ xác q trình thử nghiệm cho toán tách từ phương pháp vét cạn kết hợp với độ tương hỗ %, ta cần phải có sẵn kho ngữ liệu từ điển tiếng Việt chuẩn hóa xong Theo [4], q trình chuẩn hóa kho ngữ liệu từ điển tiếng Việt phải nhiều thời gian, nên luận văn sử dụng số kho ngữ liệu chuẩn thu thập từ trang báo điện tử thuộc nhiều lĩnh vực khác tách từ xong Qua trình nghiên cứu tìm hiểu, tơi nhận thấy kho ngữ liệu chuẩn hóa theo bước sau: - Chuẩn hóa dạng kí tự: kí tự định dạng lại theo tiêu chuẩn hệ thống tiếng Việt Việt Nam (chuyển mã Unicode) - Loại bỏ câu giống ngữ liệu - Loại bỏ câu khơng có hệ thống từ điển tiếng Việt [3] Trong luận văn này, từ điển tiếng Việt đặt tên “Tudientiengviet.txt”, nội dung chủ yếu từ thường dùng sống ngày có ý nghĩa Mỗi từ từ điển lưu trữ dịng 34 Hình 4.1 Từ điển tiếng Việt 4.2 Cài đặt chương trình thử nghiệm 4.2.1 Cài đặt chương trình Chương trình thử nghiệm trình tách từ cho tiếng Việt dựa phương pháp vét cạn kết hợp với độ tương hỗ âm tiết viết ngơn ngữ lập trình C# Q trình tách từ tiến hành theo bước sau: - Bước 1: Nhập câu cần tách - Bước 2: Tiến hành tách từ dựa vào khoảng trống âm tiết - Bước 3: Liệt kê phương án tách, phương án > âm tiết khơng có từ điển → loại bỏ - Bước 4: Tiến hành tính độ tương hỗ Phương án có tổng độ tương hỗ lớn → kết Các câu cần tách lấy ngẫu nhiên từ báo điện tử câu nói thường dùng sống ngày Trước hết, lựa chọn mẫu ví dụ khoảng 75 câu tách thủ công tay, chọn phương án tách làm phương án mẫu Phương án mẫu câu so sánh với phương án 35 máy tách phương pháp vét cạn kết hợp với độ tương hỗ âm tiết Xem thử độ xác % Hình 4.2 Chương trình thử nghiệm 4.2.2 Phân tích đánh giá kết Sau tiến hành tách từ thủ công tách từ chương trình thử nghiệm, tiến hành so sánh phương án tách Đếm tổng số từ mà hai tách giống Thực đánh giá cho câu theo công thức: Tỷ lệ= Số từ đúng/Tống số từ câu 36 Bảng 4.1 Kết tách từ số câu tiếng Việt ngẫu nhiên Câu tách ST T Câu chưa tách Câu tách thủ công phương pháp vét cạn (phương án chuẩn) kết hợp với độ tương hỗ Tỷ lệ âm tiểt Con đường xưa em Con đường | xưa | em | Con đường | xưa | em | 4/4 Trời mưa to | trời | mưa | | to | trời | mưa | | to | 4/4 Đề án tổ chức quản Đề án |về | tổ chức | quản Đề | án | | tổ | chức | lý lý quản lý | thành phố tổ chức thành phố | | tổ | chức | thành | phố | | tổ | chức dạy nghề dạy nghề | dạy nghề | Bác Hồ tim Bác Hồ | |trong | tim Bác | Hồ | | | |chúng ta tim | | Hơm trời có mưa Hơm | trời | có | mưa Tơi nghe điện Tôi | | nghe | điện Tôi | | nghe | điện thoại thoại thoại | Hiệu trưởng trao quà Hiệu trưởng | trao | quà | Hiệu | trưởng | trao | quà | cho học sinh nghèo cho | học sinh | nghèo cho | học | sinh | nghèo MU thắng trận MU | | thắng trận MU | | thắng trận 10 Tùng học chăm Tùng | học | | chăm 11 Tôi thích uống cà phê 12 Bài hát hay 13 Quan hệ tình dục sớm 14 15 Hơm | trời | có | mưa | Tùng | học | | chăm | 2/4 4/5 4/5 4/4 4/4 4/6 3/3 3/4 Tơi | thích | uống | cà | Tơi | thích | uống | cà | phê phê Bài hát | | hay Bài hát | | hay | 3/3 Quan hệ | tình dục | sớm Quan hệ | tình dục | sớm 3/3 Mang thai ý Mang thai | | ý | Mang | thai | | ý | muốn muốn muốn Chuyên viên tư vấn Lê Chuyên viên | tư vấn | Lê Chuyên viên | tư vấn | Lê 5/5 3/4 3/3 37 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Minh Nga Minh Nga Minh Nga Trung tâm tư vấn tâm Trung tâm | tư vấn | tâm Trung tâm | tư vấn | tâm lý giáo dục lý | giáo dục lý | giáo dục Anh trai Anh trai | | | | Anh trai | | | nghiên cứu sinh nghiên cứu | sinh nghiên cứu | sinh | Tôi nghe điện Tôi | | nghe | điện Tôi | | nghe | điện thoại thoại thoại | Cô lấy chồng Cô | | lấy | chồng Cô | | | lấy chồng | Tơi chìa tay nắm tay Tơi | chìa | tay | | nắm Tơi | chìa | tay | | nắm tay | cô tay | cô | Cô đứng trước mặt Cô | đứng | trước | mặt | Cô | đứng | trước | mặt | mỉm cười | | mỉm cười | | mỉm cười | Gió thổi yếu Gió | thổi | yếu | Gió | thổi | yếu | | Học sinh học sinh học Học sinh | học | sinh học | Học sinh | học sinh | học | giỏi | giỏi | giỏi Khám xét nhà Lê Khám xét | nhà | | Lê Khám xét | nhà | | Lê Văn Luyện Văn Luyện Văn Luyện Ngày tới bảo vệ Ngày | | tới | | bảo Ngày | | tới | | bảo luận văn vệ | luận văn vệ | luận văn Xe bổ nhào Xe | | | bổ | nhào | Xe | | | bổ nhào | xuống lề đường xuống | lề đường | | xuống | lề đường | | bất tỉnh | bất tỉnh | bất tỉnh Đứt thắng , xe tải Đứt | thắng | | xe tải | Đứt | thắng | | xe tải | rơi xuống vực rơi | xuống | vực rơi | xuống | vực Tại quan an ninh Tại | quan | an ninh | Tại | quan | an ninh | điều tra điều tra điều tra Ca sĩ Đan Trường hát Ca sĩ | Đan Trường | hát | Ca | sĩ | Đan Trường | hát hay hay | hay Kỷ niệm Cách mạng Kỷ niệm | Cách mạng Kỷ niệm | Cách mạng Tháng Tám Quốc Tháng Tám | | Quốc Tháng Tám | | Quốc khánh 2/9 khánh 2/9 | khánh 2/9 | 4/4 4/6 4/4 3/4 6/6 7/7 4/4 3/5 4/4 6/6 8/10 7/7 4/4 4/4 4/4 38 31 32 33 34 35 36 37 38 39 Theo giám đốc Chi Theo | giám đốc | Chi Theo | giám đốc | Chi nhánh Cấp nước Gia nhánh | Cấp nước | Gia nhánh | Cấp nước | Gia Định Lại Văn Đang Định | Lại Văn Đang Định | Lại Văn Đang Dự án hệ thống cấp Dự án | hệ thống | cấp Dự án | hệ thống | cấp | nước sơng sài gịn nước | sơng | sài gịn nước | sơng | sài gòn Thủ tướng Nguyễn Tấn Thủ tướng | Nguyễn Tấn Thủ tướng | Nguyễn Tấn Dũng trao Giải thưởng Dũng | trao |Giải thưởng | Dũng | trao | Giải thưởng Hồ Chí Minh Hồ Chí Minh | Hồ Chí Minh Nhà | bà | Liên | | Nhà | bà | Liên | | không | | bóng | khơng | | bóng | người người Chiều cuối đông Hà Chiều | cuối | đông | Hà Chiều | cuối | đông | Hà Nội rét buốt Nội | rét | buốt Nội | rét | buốt Khơng có q Khơng | có | | q | Khơng có | quý | | độc lập tự | độc lập | tự độc lập | tự Nhà bà Liên khơng bóng người Thành phố Hồ Chí Minh mãi tự hào | mãi | tự hào | mãi | tự hào Làng Hữu Nghị Làng Hữu Nghị | | Làng | Hữu Nghị | | đời đời đời Con đường có Con đường | | | có Con | đường | | | thể lại biến thành đống | thể | lại | biến | thành | | lại | biến | thành | rác đống | rác đống | rác UBND | quận | | | đề UBND | quận | | | đề nghị | đơn vị | thi công nghị | đơn vị | thi công tháo dỡ | hai | | nhà | tháo dỡ | hai | | nhà | này Các huấn luyện viên Các | huấn luyện viên | Các | huấn luyện viên | lựa chọn đội hình | lựa chọn | đội hình | lựa chọn | đội hình thi đấu thức | thi đấu | thức | thi | đấu | thức UBND quận đề 40 nghị đơn vị thi công tháo dỡ hai nhà 41 42 Thành phố | Hồ Chí Minh Thành phố | Hồ Chí Minh Cơng nhân khơng trả lương Công nhân | không | Công nhân | không | trả lương trả | lương 6/6 4/5 5/5 8/8 6/6 4/7 4/4 2/3 7/10 12/12 6/7 3/4 39 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 Cán thi hành án Cán bộ| thi hành | án | Cán bộ| thi hành | án | quận Bình Thạnh quận Bình Thạnh quận | Bình Thạnh Hội thảo chiến lược Hội thảo | | chiến lược Hội thảo | | chiến lược gia đình VN | gia đình | Việt Nam | gia đình | Việt Nam Một kế hoạch lớn tổ Một | kế hoạch | lớn | | Một | kế hoạch | lớn | | chức dịch vụ tổ chức | | dịch vụ tổ chức | | dịch vụ Con chó tơi bỏ Con chó | | tơi | | Con chó | | | | bỏ | bỏ | Tôi nghe điện Tôi | | nghe | điện Tôi | | nghe | điện thoại thoại thoại Anh ta mua Anh | ta | | mua | Anh | ta | | mua | ô tô | | ô tô | | ô | tô Đường phố đông đúc Đường phố | đông đúc | Đường phố | đông đúc | vào buổi sớm vào | buổi sớm vào | buổi sớm Tôi sinh viên ngành Tôi | | sinh viên | ngành Tôi | | sinh viên | ngành kỹ thuật | kỹ thuật | kỹ thuật Con thằn lằn Con thằn lằn | | | Con thằn lằn | | | tường nhà | tường | nhà | tường | nhà Sở giao thông vận tải Sở giao thông vận tải | Sở | giao thông | vận tải | dùng ngân sách để | dùng | ngân sách | để | | dùng | ngân sách | để | đào tạo miễn phí đào tạo | miễn phí đào tạo | miễn phí Cơ | chưa | lập | gia Cô | | chưa | lập | gia đình đình Lý Nhã Kỳ khoe dáng Lý Nhã Kỳ | khoe | dáng | Lý Nhã Kỳ | khoe | dáng | Quảng Châu | Quảng Châu | Quảng Châu Con trai Ngọc Ngoan Con trai | Ngọc Ngoan | Con trai | Ngọc Ngoan | chào đời ngày Quốc chào đời | ngày Quốc chào đời | ngày Quốc Khánh Khánh Khánh Mẹ giám đốc Mẹ | | giám đốc | Mẹ | | giám đốc | ngân hàng ngân hàng ngân hàng Chúng nói Chúng | | nói Chúng | | | nói | Cơ chưa lập gia đình 3/4 5/5 7/7 5/5 4/4 6/7 4/4 5/5 6/6 6/7 3/4 5/5 4/4 4/4 5/7 40 58 59 60 61 62 63 64 chuyện với chuyện | với | | chuyện | với | | thời tiết thời tiết thời | tiết Cát trắng sóng biển Cát trắng | | sóng biển | cát trắng | | sóng | biển Trường Sa thấm Trường Sa | | thấm | trường | sa | | thấm | máu chiến sĩ máu | chiến sĩ máu | | chiến | sĩ San hô khai thác trái San hô | khai thác | trái San hô | khai thác | trái phép bị thu giữ phép | bị thu giữ phép | bị | thu giữ Công việc mang lại cho Công việc | mang | lại | Công việc | mang | lại | chị nguồn thu nhập ổn cho | chị | nguồn |thu cho | chị | nguồn |thu định nhập | ổn định nhập | ổn định Công nhân phát Công nhân | phát | Công nhân | phát | thi công | | thi công | | thi công Xây dựng hệ thống Xây dựng | hệ thống | Xây dựng | hệ thống | cống thoát nước mưa cống | thoát | nước | mưa cống | thoát | nước | mưa Hội Chữ thập đỏ Thuỵ Hội Chữ thập đỏ | Thuỵ Hội Chữ thập đỏ | Thuỵ Sĩ hỗ trợ toàn kinh Sĩ | hỗ trợ | toàn | | Sĩ | hỗ trợ | toàn | kinh phí phẫu thuật kinh phí | phẫu thuật phí | phẫu thuật Chúng tơi khơng muốn Chúng | không | muốn Chúng | không | muốn đường bị | đường | | | | | đường | | biến thành chợ 65 66 67 68 69 70 bị | biến | thành | chợ 5/7 3/4 8/8 5/5 6/6 5/6 9/10 | bị | biến | thành | chợ Tin học môn học Tin học | | môn học | |Tin | học | | môn học | hay | hay hay Mọi cố gắng Mọi | cố gắng | | | Mọi | cố gắng | | | vô vọ | vơ | vọng | vơ | vọng Chị khóc kể chuyện Chị | khóc | | kể Chị | khóc | | kể với tơi chuyện | với | chuyện | với | Hôm mệt mỏi Hơm | | mệt Hơm | | mệt mỏi | mỏi | Anh đứng dậy Anh | đứng | dậy | | | | Anh | đứng dậy | | | phía | phía | | phía | | Đơi mơi ả tơ son đỏ Đơi | môi | ả | tô | son | đỏ | đôi môi | ả | tô | son | đỏ 2/4 7/7 6/6 3/4 7/8 4/6 41 71 72 73 74 75 mọng mọng mọng | Kinh phí đầu tư Kinh phí | đầu tư | | Kinh phí | đầu tư | | duyệt 73 tỉ đồng duyệt | | 73 | tỉ | đồng duyệt | | 73 | tỉ | đồng Công ty Cấp nước Công ty Cấp nước | Công ty | Cấp | nước | không xúc tiến không | xúc tiến | | không | xúc tiến | | việc đầu tư tuyến ống việc | đầu tư | tuyến | ống việc | đầu tư | tuyến | ống nước | nước | nước Vụ trưởng Vụ Chính Vụ | trưởng | Vụ | Chính Vụ | trưởng | Vụ | Chính sách thuế Quách Đức sách | thuế | Quách Đức sách | thuế | Quách Đức Pháp Pháp Pháp Điều chỉnh lại mức Điều chỉnh | lại | mức | Điều | chỉnh | lại | mức | thuế suất thuế suất thuế | suất Vì ngày mai tươi Vì | | ngày mai | tươi Vì | | ngày mai | tươi sáng | sáng | sáng Đánh giá 8/8 8/9 6/6 2/4 5/5 ≈ 89% Qua bảng kết q trình tách thủ cơng tay trình tách thử nghiệm máy tổng số từ 75 câu tách máy 363 từ/408 từ tách tay Vì theo kết mà chương trình tiến hành thử nghiệm ngẫu nhiên câu tỷ lệ đánh giá xác khoảng 89% Điều chứng tỏ khả tách phương pháp vét cạn kết hợp với độ tương hỗ âm tiết cho toán tách từ tiếng Việt chấp nhận có độ xác cao 42 KẾT LUẬN VÀ KIẾN NGHỊ Tách từ q trình xử lý nhằm mục đích xác định ranh giới từ câu văn, hiểu đơn giản tách từ q trình xác định từ đơn, từ ghép… có câu Đối với xử lý ngôn ngữ tự nhiên, để xác định cấu trúc ngữ pháp câu, xác định từ loại từ câu, yêu cầu thiết đặt phải xác định đâu từ câu Đây toán đơn giản người mơ hình xử lý máy tính vấn đề phức tạp Trong luận văn này, thu kết sau: - Tổng quan tách từ tiếng Việt - Những vấn đề toán tách từ tiếng Việt - Một số phương pháp tiếp cận tốn tách từ tiếng Việt - Xây dựng chương trình minh họa cho toán tách từ tiếng Việt dựa theo phương pháp vét cạn kết hợp với độ tương hỗ âm tiết - So sánh đánh giá số câu mẫu tách thủ cơng chương trình tách Đơi phương án tách thủ cơng chưa xác, nên việc so sánh với chương trình sau thử nghiệm tương đối - Bộ ngữ liệu từ điển chưa phong phú đa dạng nhiều chủ đề nên hiệu tách từ tiếng Việt chưa cao - Do sử dụng phương pháp thống kê để vét cạn trường hợp kho ngữ liệu tương đối lớn Nên thời gian xử lý chương trình thử nghiệm chậm 43 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Dien Dinh, Kiem Hoang, Van Toan Nguyen (2001), "Vietnamese Word Segmentation" The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan, pp 749 -756 [2] Hoang Dan Diep Quang Ban (2000) Ngu phap tieng Viet NXB Giao Duc, Ha Noi [3] Đỗ Hữu Châu (2004), Giáo trình Từ vựng học tiếng Việt, NXB Đại học Sư phạm, Hà Nội [4] VLSP project, Vietnamese Language Processing, http://viet.jnlp.org/ [5] Lưu Tuấn Anh, Yamamoto Kazuhide - Ứng dụng phương pháp Pointwise vào toán tách từ cho tiếng Việt [6] Trần Ngọc Anh - Nghiên cứu phát triển số kỹ thuật tách từ tiếng Việt [7] Nguyễn Thị Vân Trang – Nghiên cứu số thuật tốn học máy có giám sát ứng dụng lọc thư rác Tiếng Anh: [8] Daniel Jurafsky and James H Martin (2009), Speech and Language Processing: An Introduction to Speech Recognition, Computational Linguistics and Natural Language Processing, Second Edition, Prentice Hall Edition [9] James H.Martin Daniel Jurafsky (1999), Speech and Language Processing Prentice Hall, Englewood Cliffs, New Jersey 07632 [10] Church, R.M., Miller, K.D., Meck, W.H., Gibbon, J., 1991 Symmetrical and 44 asymmetrical sources of variance in tem-poral generalization Anim Learn Behav 19, 207 – 214 [11] [Su et al 1991] K.-Y Su, Y.-L Hsu and C Sail- lard, 1991 "Constructing a Phrase Structure Grammar by Incorporating Linguistic Knowl- edge and Statistical Log-Likelihood Ratio," In Proceedings of ROCLING IV, Kenting, Taiwan, pp 257-275, Aug 18-20, 1991 ... pháp vét cạn kết hợp với độ tương hỗ âm tiết (ii) Nghiên cứu phương pháp vét cạn kết hợp với độ tương hỗ âm tiết để áp dụng vào toán tách từ cho tiếng Việt (iii) Cài đặt thuật toán cho toán tách. .. Nghiên cứu áp dụng phương pháp vét cạn kết hợp với độ tương hỗ âm tiết vào toán tách từ tiếng Việt 17 CHƯƠNG BÀI TỐN TÁCH TỪ 2.1 Tổng quan tốn tách từ 2.1.1 Phát biểu toán tách từ tiếng Việt Khi... CHƯƠNG PHƯƠNG PHÁP VÉT CẠN KẾT HỢP VỚI ĐỘ TƯƠNG HỖ ÂM TIẾT VÀO BÀI TOÁN TÁCH TỪ 24 3.1 Ý tưởng 24 3.2 Độ tương hỗ âm tiết MI (Mutual Information) 26 3.3 Độ tương hỗ âm tiết toán

Ngày đăng: 25/08/2021, 16:34

Tài liệu cùng người dùng

Tài liệu liên quan