Luận văn thạc sĩ phân đoạn từ tiếng việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ MINH HIẾU PHÂN ĐOẠN TỪ TIẾNG VIỆT LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành:60480201 TP HỒ CHÍ MINH, tháng 01 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ MINH HIẾU PHÂN ĐOẠN TỪ TIẾNG VIỆT LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành:60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC:TS.NGUYỄN CHÍ HIẾU CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học: TS.NGUYỄN CHÍ HIẾU (Ghi rõ họ, tên, học hàm, học vị chữ ký) TS Nguyễn Chí Hiếu Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày06 tháng 02năm2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng PGS.TS Lê Hoài Bắc Chủ tịch PGS.TS Quản Thành Thơ Phản biện TS Võ Đình Bảy Phản biện TS Lư Nhật Vinh Ủy viên TS Cao Tùng Anh Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận vănsau Luận văn đư ợc sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV PGS.TS Lê Hồi Bắc TRƯỜNG ĐH CƠNG NGHỆ TP HCM PHÒNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VI ỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày… tháng năm 20… NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LÊ MINH HIẾUGiới tính:NAM Ngày, tháng, năm sinh: 20/10/1985Nơi sinh:GIA LAI Chuyên ngành: CÔNG NGHỆ THÔNG TINMSHV:1241860004 I- Tên đề tài: Phân đoạn từ tiếng Việt II- Nhiệm vụ nội dung: - Nghiên cứu sở lý thuyết xử lý ngôn ngữ tự nhiên - Khảo sát nghiên cứu liên quan - Xây dựng mơ hình phân đoạn từ tiếng Việt - Chạy thực nghiệm đánh giá kết III- Ngày giao nhiệm vụ:(Ngày bắt đầu thực LV ghi QĐ giao đề tài) IV- Ngày hoàn thành nhiệm vụ:(Ngày bảo vệ LV) V- Cán hướng dẫn: TS.NGUYỄN CHÍ HIẾU CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) TS Nguyễn Chí Hiếu i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Lê Minh Hiếu ii LỜI CẢM ƠN Với tất lịng, tơi xin gửi lời cảm ơn sâu sắc đến thầy giáo TS.Nguyễn Chí Hiếu – người thầy tần tình hướng dẫn, bảo tạo điều kiện tốt giúp hồn thành luận văn Đồng thời tơi xin gửi lời cảm ơn chân thành đến toàn thể quý thầy trường Đại học Cơng nghệ Thành phố Hồ Chí Minh trang b ị cho kiến thức học tập nghiên cứu khoa học Tôi xin chân thành c ảm ơn thành viên đề tài “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt”, mã số KC01.01/06-10 cho phép sử dụng số liệu VietTreebank Vietnamese Lexicon q trình thực nghiệm Cuối cùng, tơi xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp động viên cho lời khun bổ ích suốt q trình thực luận văn Tp.Hồ Chí Minh, tháng 01 năm 2015 Lê Minh Hiếu iii TĨM TẮT Từ khóa Phân đoạn từ, phân giải nhập nhằng, nhận dạng danh từ riêng, thơng tin tương hỗ Tóm tắt Khơng giống tiếng Anh, phân đoạn từ ngôn ngữ tiếng Việt, hầu hết ngôn ngữ châu Á, cơng việc phức tạp.Vì thân ngơn ngữ khơng có dấu hiệu rõ ràng để phân cách từ với nhau, chẳng hạn khoảng trắng Đã có nhiều nghiên cứu với nhiều hướng tiếp cận khác công việc Tuy nhiên theo khảo sát, đại đa số nghiên cứu xuất phát từ ba hướng tiếp cận chính: hướng tiếp cận dựa từ điển, hướng tiếp cận dựa mô hình thống kê hướng tiếp cận lai Rất nhiều nghiên cứu chọn hướng tiếp cận dựa từ điển tính đơn giản Hướng tiếp cận thường sử dụng từ điển kết hợp với số thuật toán so khớp như: Maximum matching (MM), Longest matching (LM), v.v để phân đoạn từ Tuy nhiên hướng tiếp cận thường gây nhiều nhập nhằng phân đoạn phân đoạn cho từ khơng có từ điển Hướng tiếp cận dựa thống kê cần kho ngữ liệu đủ lớn, trải qua trình huấn luyện, kết hợp với thuật toán thống kê để phân đoạn từ Có thể kể đến số mơ hình theo hướng tiếp cận như: mơ hình thống kê N-gram, mơ hình cực đại hóa Entropy (ME), mơ hình Conditional Random Fields (CRFs), mơ hình định Ưu điểm hướng tiếp cận phát từ khơng có từ điển hạn chế nhập nhằng Hướng tiếp cận dựa mơ hình lai kết hợp nhiều phương pháp khác để phân đoạn từ Một số mơ hình phân đoạn từ theo mơ hình lai kể đến như: mơ hình so khớp Maximum matching kết hợp với SVMs, mơ hình phân đoạn từ sử dụng WFST mạng Neural, mô hình sử dụng thuật tốn Maximum matching N-gram, mơ hình kết hợp CRFs SVMs Hướng tiếp cận thường phức tạp mang lại hiệu cao Trong luận văn chúng tơi đề xuất mơ hình phân đo ạn từ dựa mơ hình lai Mơ hình chúng tơi sử dụng bốn luật phân giải nhập nhằng hệ thống MMSeg kết hợp vớitừ điển, thông tin huấn luyện N-gram, thông tin hỗ tươngvà biểu thức quy Thực nghiệm văn gồm 10,000 câu trích từVietTreebank cho kết Fmeasure đạt 91.74% iv ABSTRACT Keywords Vietnamese word segment, disambiguity, proper nouns identification, mutual information Abstract Unlike in English, word segmentation in Vietnamese, as well as in many other Asian languages, is more complex because the language does not have any explicit word boundary delimiters, such as a space, to separate between each word Many researchers with many approaches for the word segmentation task However, these approaches can be classified into major categories: dictionary-based, statisticsbased and hybrid-based Most studies use dictionary-based approaches because of their simplicity This approach type use dictionaries with matching methods as Maximum matching (MM), Longest matching (LM), ect for the word segmentation However, most of the dictionary based approaches often get many ambiguous cases and can not detects new words Statistical approaches need a very large annotated training corpus for word segmentation Some of studies based on this approaches are N-gram Language Model, Maximum Entropy (ME),Conditional Random Fields (CRFs), Decision Tree This approach is usefull for detects new words and disambiguous Hybrid approaches combine different approaches to make use of individual advantages and overcome disadvantages Some models are combination of Maximum matching and SVMs, WFST and Neural network, Maximum matching and Ngram language model, CRFs and SVMs This approache are often complex however it give a high accuracy In this thesis, we propose a hybrid method for Vietnamese word segmentation Our approach is base on four MMSegdisambiguity rules, dictionaries, ngram trained corpus, mutual information and regular expression Experiment on 10,000 sentences of VietTreebank corpus gives a result with an Fmeasure of 91.74% v MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT iv MỤC LỤC v DANH MỤC CÁC TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH VẼ ix GIỚI THIỆU .1 Đặt vấn đề Lý chọn đề tài .2 Mục tiêu phạm vi nghiên cứu .2 Bố cục luận văn CHƯƠNG TỔNG QUAN .4 CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Cơ sở lý thuyết ngôn ngữ .7 2.1.1 Phân loại ngôn ngữ 2.1.2 Đơn vị chủ yếu ngôn ngữ 10 2.1.3 Cấu trúc đơn vị từ tiếng Việt .15 2.1.4 Từ vựng tiếng Việt 19 2.1.5 Vấn đề nhập nhằng nghĩa từ 21 2.2 Cơ sở lý thuyết ngôn ngữ học thống kê .24 2.2.1 Tổng quan ngôn ngữ học thống kê 24 2.2.2 Một số lý thuyết xác suất thống kê xử lý ngôn ngữ .25 CHƯƠNG GIỚI THIỆU MƠ HÌNH MMSEG 33 3.1 Tổng quan MMSeg 33 vi 3.2 Áp dụng MMSeg vào tiếng Việt .35 3.3 Đánh giá MMSeg ngôn ngữ tiếng Việt 37 CHƯƠNG MƠ HÌNH ĐỀ XUẤT 39 4.1 Mơ hình phân đoạn từ .39 4.2 Thiết kế giải thuật 40 4.2.1 Giải thuật tiền xử lý văn 40 4.2.2 Giải thuật phân đoạn từ 42 4.2 Từ điển kho ngữ liệu 43 4.3 Thực nghiệm 47 CHƯƠNG KẾT LUẬN .51 5.1 Nhận xét chung .51 5.2 Kết đạt .52 5.3 Hạn chế đề tài 52 5.4 Hướng phát triển đề tài .53 TÀI LIỆU THAM KHẢO .54 42 Bảng 4.1 Danh sách số stop word tiếng Việt cịn hay khơng khơng khơng mà cịn nên giá song dầu dù dẫu cho làm mà mà có điều hồ 4.2.2 Giải thuật phân đoạn từ Input:danh sách cụm từ (ChunkingList), danh sách biểu thức quy, từ điển danh từ riêng, thơng tin tương hỗ, từ điển tiếng Việt Output:danh sách từ Giải thuật: 1.Open file BieuThucChinhQuy.txt as RegexRuleList for"Read" 2.Open file TuDienDanhTu.txt as ProperNounDic for"Read" 3.Open file ThongTinTuongHo.txt as MutualInforDic for"Read" 4.Open file TuDienTiengViet.txt asVNLexicon for"Read" WordList =[]// Chứa danh sách từ 6.for each (chunk in ChunkingList)do 7.wordsMatch1= DoMatchingRegex(chunk, RegexRuleList, ref chunk2) 8.wordsMatch2= DoMatchingProperNoun(chunk2, ProperNounDic, ref chunk3) 9.wordsMatch3= DoDetectNewWord(chunk3, MutualInforDic, ref chunk4) 10.wordsMatch4= DoDetectWord(chunk4, VNLexicon) 11.addwordsMatch1,wordsMatch2,wordsMatch3,wordsMatch4 toWordList 10.end 11.return WordList; Mô tả giải thuật 43 Đầu vào giải thuật danh sách cụm từ thông tin tham khảo, tiến hành tạo danh sách từ gợi ý theo bư ớc:  Bước 1: tạo danh sách từ gợi ý sử dụng phương pháp so trùng mẫu, với luật định nghĩa biểu thức quy  Bước 2: tạo danh sách từ gợi ý sử dụng từ điển danh từ riêng  Bước 3: tạo danh sách từ gợi ý sử dụng từ điển từ vựng  Bước 4: tạo danh sách từ gợi ý sử dụng thông tin tương hỗ dựa ngữ liệu huấn luyện N-Gram, giúp xác định từ Đầu giải thuật danh sách từ Danh sách dùng từ điển từ vựng phục vụ cho giải thuật phân giải nhập nhằng Phần chúng tơi trình bày trình thu thập xây dựng từ điển phục vụ cho thực nghiệm 4.2 Từ điển kho ngữ liệu Để thực nghiệm, tiến hành thu thập xây dựng từ điển từ vựng, từ điển danh từ riêng, kho ngữ liệu để huấn luyện N-Gram tập luật nhận dạng mẫu Sau kết thu được:  Từ điển từ vựng Từ điển từ vựng luận văn sử dụng từ điển tiếng Việt - Vietnamese Lexicon [16], sản phẩm dự án KC01.01/06-10, tùy bi ến lại cấu trúc cho phù hợp Phiên luận văn sử dụng có 3,1243 từ 44 Hình 4.2 Hình minh họa cấu trúc từ điển tiếng Việt  Từ điển danh từ riêng Theo khảo sát chúng tôi, khuôn khổ đề tài cấp nhà nước KC.01.21 – “Nghiên cứu kỹ thuật xây dựng khai thác thơng tin Web có ngữ nghĩa”, nhómtác giả Cao Hoàng Trụ xây d ựng sở tri thức lớn thực thể có tên tiếng Việt Dự án có tên VN-KIM [25] VN-KIM Ontology bao gồm 347 lớp thực thể 114 quan hệ thuộc tính Với khoảng 85,767 tên đối tượng VN-Kim thực phù hợp làm từ điển danh từ riêng mơ hình đ ề xuất Tuy nhiên, chưa thể liên hệ với tác giả để xin phép sử dụng liệu nên tự xây dựng từ điển danh từ riêng phục vụ cho việc thực nghiệm Từ điển có hai loại: tên người tên địa danh Dữ liệu thu thậptự động từ danh bạ điện thoại trực tuyến nhungtrangvang.com.vn bách khoa toàn thưvi.wikipedia.org Sau loại bỏ tên trùng nhau, tên không hợp lệ thu từ điển gồm 1,068,435 tên Cụ thể: 45 Bảng4.2 Bảng liệt kê số lượng têncủa từ điển danh từ riêng Loại tên Số lượng Tên người 1,065,613 Tên địa danh 2,822 Tổng cộng 1,068,435 Hình 4.3 Hình minh họa từ điển danh từ riêng  Ngữ liệu để huấn luyện N-Gram Ngữ liệu để huấn luyện cho mô hình N-Gram chúng tơi thu thập tự động từ báo điện tử trực tuyến như: vietnamnet.vn, vnexpress.net, dantri.com.vn, tuoitre.com.vn, vnthuquan.net, v.v Trước huấn luyện làm văn cách: bóc tách tồn html, giữ lại phần nội dung chính, xóa nội dung mang tính lặp lại như: menu, logo, quảng cáo, liên kết liên quan, Tổng dung lượng thu 26MB với 3356 báo Cụ thể: 46 Bảng4.3 Bảng liệt kê số lượng báo phục vụ cho việc huấn luyện liệu Loại báo Số lượng Đời sống 641 Giải trí 367 Kinh tế 340 Văn hóa 352 Xã hội 525 Cơng nghệ 231 Nghệ thuật 450 Thể thao 316 Sự kiện 134 Tổng cộng 3356 Sau huấn luyện thu tậpngữ liệu huấn luyện gồm có:  Uni-Gram: 16.340 mục  Bi-Gram: 571.821 mục  Tri-Gram: 1.769.290 mục Hình 4.4 Hình minh họa kết huấn luyện Uni-Gram 47 Hình 4.5 Hình minh họa kết huấn luyện Bi-Gram Hình 4.6 Hình minh họa kết huấn luyện Tri-Gram 4.3 Thực nghiệm Thực nghiệm tiến hành mẫu ngữ liệu dùng mục 5.2 với phương pháp đánh giá nhằm so sánh hai mơ hình Bảng 4.4 trình bày kết mơ hình chúng tơi đ ề xuất(VNS) so với mơ hình củaMMSeg(MMS)sau q trình chạy thực nghiệm: 48 Bảng 4.4 Bảng liệt kê kết thực nghiệm VNS so với MMS Lần thực nghiệm Số từ Số từ chuẩn tìm Số từ Precision(%) Recall(%) Fmeasure(%) VNS MMS VNS MMS VNS MMS VNS MMS VNS MMS 44,030 45,751 43,030 41,477 38,538 90.66 89.56 94.2 87.53 92.4 88.53 38,724 40,541 38,004 36,117 33,440 89.09 87.99 93.27 86.35 91.13 87.16 35,570 37,195 34,823 33,263 30,479 89.43 87.53 93.51 85.69 91.42 86.6 32,668 34,225 32,035 30,787 29,210 89.95 91.18 94.24 89.41 92.05 90.29 31,581 33,041 30,925 29,629 27,744 89.67 89.71 93.82 87.85 91.7 88.77 36,515 38,151 35,763 34,255 32,282 89.76 89.19 93.81 87.37 91.74 88.27 Trung bình Precision(%) VNS MMS 91.18 90.66 89.95 89.56 89.43 89.09 89.67 89.71 89.76 89.19 87.99 87.53 1st 2nd 3rd 4th 5th Average Hình4.7So sánhtham số Precision mơ hình VNS MMS 49 Recall(%) VNS 94.2 94.24 93.51 93.27 MMS 93.82 93.81 89.41 87.85 87.53 86.35 1st 2nd 87.37 85.69 3rd 4th 5th Average Hình 4.8 So sánh tham số Recall mơ hình VNS MMS F-measure(%) VNS 92.4 MMS 92.05 91.13 91.74 91.7 91.42 90.29 88.77 88.53 87.16 1st 2nd 88.27 86.6 3rd 4th 5th Average Hình 4.9 So sánh tham số F-Measure mơ hình VNS MMS 50 Kết sau năm lần thực nghiệm, tổng quancác tham số Precision, Recall F-measure trung bình mơ hình đ ề xuất VNS cao so với mơ hình củaMMS Tuy nhiên, xét riêng tham số Precision, có trường hợp độ xác Precision VNS thấp MMS Cụ thể lần thực nghiệm thứ 4: VNS: 89,95 – MMS: 91,18; lần thực nghiệm thứ 5: VNS: 89,67 – MMS: 89,71 Qua khảo sát liệu, nhận thấyVNS tỏ hiệu xử lý văn có chứa nhiều danh từ riêng, văn có chứa từ chưa có từ điển, có xuất thường xuyên tập huấn luyện, văn có chứa mẫu đặc biệt Từ phần thấy cải tiến mơ hình VNS so với mơ hình MMS có hiệu 51 CHƯƠNG KẾT LUẬN 5.1 Nhận xét chung Trong xử lý ngôn ngữ tự nhiên tiếng Việt, phân đoạn từ công việc quan trọng Do tính chất đặc biệt ngơn ngữ tiếng Việt, cơng việc có tính khó cao độ phức tạp lớn Giải tốt toán làm tiền đề vững cho toán lớn như: dịch máy tự động, tóm lược văn bản, xử lý ngữ nghĩa, v.v Đã có nhiều mơ hình phân đoạn từ đưa nhiều nhà nghiên cứu trước Mỗi phương pháp có ưu nhược điểm riêng.Nhìn chung việc phân đoạn từđều chưa thể đạt mức tyệt đối xác, người trực tiếp thực [21] Nguyên nhân phần khả xử lý ngơn ngữ máy tính người hạn chế, phần kháclà thân ngôn ngữ vận động phát triển khơng ngừng theo thời gian, địi hỏi người làm xử lý ngôn ngữ phải nghiên cứu cải tiến phương pháp Trong mơ hình phân đoạn từ mà luận văn tham khảo được, mơ hình sử dụng từ điển kết hợp với luật để phân giải nhập nhằng hệ thống MMSeg phù hợp với ngôn ngữ tiếng Việt nên chọn làm hướng tham khảo Tuy nhiên, áp dụng ngơn ngữ tiếng Việt, với đặc thù riêng, MMSeg khơng thực hiệu Qua q trình nghiên cứu thực nghiệm, luận văn xây dựng mơ hình phân đoạn từ mới, dựa mơ hình lai với sở bốn luật phân giải nhập nhằng hệ thống MMSeg kết hợp với phương pháp khác như: tự động phát từ mới, nhận dạng danh từ riêng, so trùng mẫu, phương pháp thống kê Kết thực nghiệm chứng tỏ mơ hình có đem lại số kết khả quan, động lực cho nghiên cứu 52 5.2 Kết đạt Trong khuôn khổ luận văn cao học ngành Công nghệ thông tin, luận văn nghiên cứu đưa mơ hình phân đoạn từ tiếng Việt Bước đầu luận văn thu số kết sau:  Xây dựng từ điển danh từ riêng với 1.068.435 tên Trong có 1,065,613 tên người 2,822 tên địa danh Việt Nam  Xây dựng kho ngữ liệu gồm có 3.356 báo chứa 26Mb liệu  Thực nghiệm đánh giá hệ thống MMSeg ngôn ngữ tiếng Việt với ngữ liệu gồm 10,000 câu trích từ VietTreebank  Xây dựng mơ hình phân đoạn từ cho tiếng Việtdựa mơ hình lai sử dụng nhiều phương pháp tích hợp: phương pháp dựa từ điển, phương pháp dựa thống kê, phương pháp so trùng mẫu phương pháp phân giải nhập nhằng dựa luật 5.3 Hạn chế đề tài Vì thời gian có hạn, nên đề tài cịn hạn chế số vấn đề sau:  Ngữ liệu huấn luyện cho mơ hình N-Gram cịn nhỏ, giới hạn số lĩnh vực định, không mang tính phổ quát, phần ảnh hưởng đến độ xác mơ hình  Từ điển danh từ riêng xây dựng phải bổ sung thêm nhiều  Số lần thực nghiệm liệu thực nghiệm cịn nên phần đánh giá cịn mang tính chủ quan Tuy nỗ lực thực hiện, chắn đề tài cịn nhiều thiếu sót, em mong tiếp tục nhận dẫn quý thầy cô 53 5.4 Hướng phát triển đề tài Qua q trình khảo sát thực nghiệm, chúng tơi nhận thấy bốn luật phân giải nhập nhằng hệ thống MMSeg mà mơ hình áp dụng chưa đủ cho ngôn ngữ tiếng Việt Các phân đoạn sai nhập nhằng nhiều phức tạp Các luật chủ yếu xử lý nhập nhằng dựa xác xuất từ cụm từ Trong tương lai, muốn tăng cường thêm luật phân giải nhập nhằng có xét đến khía cạnh ngữ nghĩa ng ữ pháp Cụ thể, nỗ lực tiếp theo, muốn áp dụng thêm phân tích cú pháp VietTreebank vào q trình phân giải nhập nhằng, nhằm nâng cao độ xác phân đoạn từ 54 TÀI LIỆU THAM KHẢO [1] Trần Ngọc Anh, Nguyễn Nhật An (2011) Lựa chọn tập gán nhãn ranh giới từ cho mơ hình Markov ẩn toán tách từ tiếng Việt [2] Luu Tuan Anh, Yamamoto Kazuhide (2012) A pointwise approach for Vietnamese Diacritics Restoration 2012 International Conference on Asian Language Processing, pp.189 – 192 [3] Ngoc Anh Tran, Thanh Tinh Dao, Phuong Thai Nguyen (2012) An effective context-based method forVietnamese-word segmentation IEEE 9th, pp.34-40 [4] Dương Hữu Biên (2010) Giáo trình s ngôn ngữ học, ĐH Đà Lạt [5] Nguyễn Tài Cẩn (1975) Ngữ pháp tiếng Việt, Tiếng - Từ ghép - Đoản ngữ, Nxb Khoa học xã hội, Hà Nội [6] Chih-Hao Tsai (1996) MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm.www.casper.beckman.uiuc.edu/~ctsai4/chinese/wordseg/mmseg.html [7] Mai Ngọc Chừ (1997) Cơ sở ngôn ngữ học tiếng Việt, Nxb Giáo dục, trang 91–105 [8] Mai Ngọc Chừ, Vũ Đức Nghiệu Hoàng Trọng Phiến (1997) Cơ sở ngôn ngữ học tiếng Việt Nxb Giáo dục, trang 142–152 [9] Nguyễn Đức Dân (1987) Lôgic ngữ nghĩa cú pháp NXB ĐH&TH chuyên nghiệp, Hà Nội [10] Đinh Điền, Hồ Bảo Quốc (2008) Vấn đề ranh giới từ ngữ liệu song ngữ Anh-Việt [11] Nguyễn Thiện Giáp (1998) Dẫn luận Ngôn ngữ học, Nxb Giáo dục, trang 298–305 [12] Cao Xuân Hạo (2003) Tiếng Việt - Mấy vấn đề Ngữ âm, Ngữ pháp, Ngữ nghĩa Nxb Khoa h ọc xã hội 55 [13] Lê Trung Hiếu, Lê Anh Vũ, Lê Trung Kiên (2013) Áp d ụng xác suất thống kê q trình máy tự học cho tốn phân tách từ văn tiếng Việt Tạp chí Khoa học & Công nghệ Đại học Duy Tân số 6, trang 32-38 [14] Hla Hla Htay, Kavi Narayana Murthy (2008) Myanmar Word Segmentation using Syllable level Longest Matching Proceedings of the 6th Workshop on Asian Language Resources, pp.41-48 [15] H P Lê, T M H Nguyen, A Roussanaly and T V Ho (2008) A hybrid approach to word segmentation of Vietnamese texts In 2nd International Conference on Language and Automata Theory and Applications, Tarragona, Spain, pp.240-249 [16] Thi Minh Huyen Nguyen, Laurent Romary, Mathias Rossignol, Xuan Luong Vu (2006) A lexicon for Vietnamese language processing Language Reseourse Evaluation - Volume 40, pp.291-309 [17] Nguyễn Thị Minh Huyền, Hoàng Thị Tuyền Linh, Vũ Xuân Lương (2009) Hướng dẫn nhận diện đơn vị từ văn tiếng Việt [18] Jin Kiat Low, Hwee Tou Ng and Wenyuan Guo (2005) A Maximum Entropy Approach to Chinese Word Segmentation In Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing, pp.161-164 [19] Jurafsky and Martin (2009) Speech and Language Processing: An Introduction to Speech Recognition Computational Linguistics and Natural Language Processing, SE, Prentice Hall, pp.934 [20] Masaaki Nagata (1997) A self-organizing Japanese word segmenter using heuristic word identication and re-estimation In Joe Zhou and Kenneth Church, editors, Proceedings of the Fifth Workshop on Very Large Corpora, pp.203-215 [21] Richard Sproat, Chilin Shih, William Gale, Nancy Chang (1994) A stochastic finite-state word-segmentation algorithm for Chinese ACL '94 Proceedings of the 32nd annual meeting on Association for Computational Linguistics, pp.66-73 56 [22] Phuong-Thai Nguyen, Xuan-Luong Vu, Thi-Minh-Huyen Nguyen, Van-Hiep Nguyen, Hong-Phuong Le (2009) Building a large syntactically-annotated corpus of Vietnamese Proceedings of the Third Linguistic Annotation Workshop, Suntec, Singapore, pp.182-185 [23] Nguyễn Kim Thản (1997) Nghiên cứu ngữ pháp tiếng Việt NXB GD, trang 28 [24] Theeramunkong, T., Usanavasin, S (2001) Non-dictionary-based Thai word segmentation using decision trees The first international conference on Human language technology research New Jersey, USA (2001), pp.1-5 [25] Truc-Vien T Nguyen., Tru H Cao (2007) VN-KIM IE: Automatic extraction of vietnamese named-entities on the web New Generation Computing May 2007, Volume 25, Issue 3, pp 277-292 [26] Trần Ngọc Tuấn (2002) Phân đoạn từ tiếng Việt dùng Corpus mô hình thống kê, luận văn thạc sỹ, Đại học Bách Khoa TP.Hồ Chí Minh ... xác phân đoạn từ Phạm vi đề tài tập trung nghiên cứu phân đoạn từ văn tiếng Việt Với đầu vào văn tiếng Việt, đầu văn tiếng Việt đư ợc phân đoạn thành từ Với mục tiêu nêu trên, luận văn tập trung... nghiên cứu phân đoạn từ tiếng Việt với kết khả quan Tuy nhiên vấn đề như: tượng phát sinh từ mới, nhập nhằng ngữ nghĩa, v.v ảnh hưởng khơng đến chất lượng phân đoạn từ Vì phân đoạn từ tiếng Việt chủ... Xây dựng mơ hình phân đoạn từ tiếng Việt cách kết hợp phương pháp: phương pháp phân đoạn từ có tham khảo từ điển từ vựng, phương pháp nhận dạng danh từ riêng sử dụng từ điển danh từ riêng, phương

Định dạng
Số trang	69
Dung lượng	1,04 MB