Đề tài : nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt

150 1.5K 5
Đề tài :  nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận án tiến sĩ năm 2013 Đề tài : nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt MỤC LỤC MỤC LỤC iii DANH MỤC HÌNH VẼ .vi DANH MỤC BẢNG .vii DANH MỤC CỤM TỪVIẾT TẮT .viii MỞ ĐẦU .x Đặt vấn đề x Mục tiêu và phạm vi nghiên cứu của luận án .xiii Kết quả đạt được .xiv Bốcục của luận án .xv CHƯƠNG 1. TỔNG QUAN VỀKHO NGỮLIỆU .1 1.1 Kho ngữliệu văn bản .1 1.2 Xây dựng, chuẩn hóa và khai thác kho ngữliệu 5 1.2.1 Thu thập kho ngữliệu văn bản 5 1.2.2 Chú giải ngôn ngữvà vấn đềchuẩn hóa 7 1.2.3 Khai thác kho ngữliệu .9 1.3 Kho ngữliệu tiếng Việt .13 1.3.1 Hiện trạng 13 1.3.2 Các vấn đề được nghiên cứu trong luận án 13 1.4 Kết chương .17 CHƯƠNG 2. XÂY DỰNG KHO NGỮLIỆU THÔ TỪINTERNET .18 2.1 Giới thiệu .18 2.2 Xây dựng kho ngữliệu thô tiếng Việt .18 2.2.1 Lựa chọn danh sách từhạt giống .19 2.2.2 Thu thập địa chỉURL 21 2.2.3 Lọc nội dung chính của các trang web (URLs) .23 2.2.4 Phát hiện sựtrùng lặp gần nhau .28 2.2.5 Xây dựng công cụvà kết quảthu thập kho ngữliệu .32 2.3 Kết chương .32 iv CHƯƠNG 3. CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG VIỆT 34 3.1 Giới thiệu .34 3.2 Mô hình MAF của ISO/TC 37/SC 4 34 3.3 Mô hình SynAF của ISO/TC 37/SC 4 .36 3.4 Chuẩn hóa theo mô hình MAF cho tiếng Việt .38 3.4.1 Xác định đơn vịcơsở(segment) .41 3.4.2 Hình thái từ(Wordform) 41 3.4.3 Nội dung hình thái cú pháp 42 3.5 Chuẩn hóa theo mô hình SynAF cho tiếng Việt 42 3.6 Kết chương .50 CHƯƠNG 4. KHAI THÁC KHO NGỮLIỆU THÔ CHO NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT 51 4.1 Giới thiệu .51 4.1.1 Nghiên cứu từvựng .51 4.1.2 Sketch Engine 52 4.1.3 Ngữliệu trong Sketch Engine 53 4.2 Xây dựng ngữliệu tiếng Việt cho Sketch Engine 56 4.2.1 Tách từvà gán nhãn từloại 56 4.2.2 Xây dựng bộquan hệngữpháp tiếng Việt 57 4.2.3 Triển khai hệthống Sketch Engine cho tiếng Việt 64 4.2.4 Đánh giá bộquan hệngữpháp tiếng Việt .67 4.3 Kết chương .67 CHƯƠNG 5. KHAI THÁC KHO NGỮLIỆU CÓ CHÚ GIẢI CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT 69 5.1 Giới thiệu .69 5.2 Văn phạm hình thức .70 5.2.1 Khái niệm chung vềvăn phạm 70 5.2.2 Văn phạm phi ngữcảnh (Context Free Grammar - CFG) .72 5.2.3 Văn phạm kết nối cây (Tree Adjoining Grammar – TAG) 74 5.3 Trích rút tự động văn phạm CFG cho tiếng Việt .77 v 5.3.1 Thuật toán trích rút từVietTreebank .77 5.3.2 Phân tích cú pháp tiếng Việt với văn phạm PCFG 86 5.3.3 Thửnghiệm và đánh giá 89 5.3.4 Nhược điểm của văn phạm PCFG trong phân tích ngữpháp 90 5.4 Trích rút tự động văn phạm LTAG cho tiếng Việt 90 5.4.1 Thuật toán trích rút từVietTreebank .90 5.4.2 Xây dựng thuật toán trích rút từtừ điển tiếng Việt 100 5.4.3 So sánh, đánh giá tập cây khởi tạo trích rút từVietTreebank và từ điển .105 5.5 Kết chương .107 KẾT LUẬN .109 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN QUAN ĐẾN LUẬN ÁN 112 TÀI LIỆU THAM KHẢO .113 PHỤLỤC 125

i LỜI CAM ĐOAN Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu rõ nguồn gốc một cách rõ ràng trong danh mục tài liệu tham khảo được đề cập ở phần sau của luận án. Những đóng góp trong luận án là kết quả nghiên cứu của tác giả đã được công bố trong các bài báo của tác giả ở phần sau của luận án chưa được công bố trong bất kỳ công trình khoa học nào khác. Tác giả luận án Phan Thị Hà ii Lời cảm ơn Trước tiên, tôi muốn gửi lời cảm ơn đến Thầy Cô giáo hướng dẫn của tôi, PGS.TS Trần Hồng Quân, TS Nguyễn Thị Minh Huyền. Thầy, Cô đã tận tình chỉ bảo tôi từ những việc tưởng chừng đơn giản như cách thức thu thập tài liệu tham khảo cho đến phương pháp nghiên cứu hoa học. Sự tận tình hướng dẫn, cộng với sự động viên, khích lệ thường xuyên của Th ầy Cô đã giúp tôi tự tin, say mê hơn trong con đường nghiên cứu khoa học. Tôi cảm thấy thực sự trưởng thành sau những năm được học tập nghiên cứu dưới sự hướng dẫn của Thầy cô, một lần nữa em xin được cảm ơn Thầy Cô kính chúc Thầy Cô luôn mạnh khỏe, hạnh phúc, thành công trên mọi lĩnh vực, đặc biệt là trên con đường khoa học. Mong rằng sẽ có nhiều lớp nghiên cứu sinh lại ti ếp tục được Thầy Cô hướng dẫn trong những năm tiếp theo. Tôi xin chân thành cảm ơn Tập đoàn Bưu Chính Viễn Thông, Ban lãnh đạo Học viện Công nghệ Bưu Chính Viễn Thông đã động viên tạo điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận án. Tôi cũng muốn bày tỏ lòng biết ơn đối với tập thể các Thầy Cô khoa Công nghệ Thông tin các Thầy Cô Khoa Đào tạo Sau Đạ i học, Học Viện Công nghệ Bưu Chính Viễn Thông, nơi tôi làm việc học tập trong những năm qua. Các Thầy Cô luôn tạo điều kiện để tôi hoàn thành tốt công việc của mình, sự dạy dỗ của Quí thầy cô đã giúp tôi trưởng thành. Xin bày tỏ lời cảm ơn của tôi đến các chuyên gia về xử ngôn ngữ tự nhiên, dự án KC01.01/06-10, trung tâm từ điển VietLex đã hỗ trợ việc thu thập tài liệ u các góp ý hữu ích về ý tưởng kỹ thuật phục vụ cho nghiên cứu của tôi. Cuối cùng, chân thành cảm ơn người thân, bạn bè luôn bên cạnh động viên, hỗ trợ về mặt tinh thần để tôi vượt qua khó khăn hoàn thành tốt luận án. iii MỤC LỤC MỤC LỤC iii DANH MỤC HÌNH VẼ vi DANH MỤC BẢNG vii DANH MỤC CỤM TỪ VIẾT TẮT viii MỞ ĐẦU x Đặt vấn đề x Mục tiêu phạm vi nghiên cứu của luận án xiii Kết quả đạt được xiv Bố cục của luận án xv CHƯƠNG 1. TỔNG QUAN VỀ KHO NGỮ LIỆU 1 1.1 Kho ngữ liệu văn bản 1 1.2 Xây dựng, chuẩn hóa khai thác kho ngữ liệu 5 1.2.1 Thu thập kho ngữ liệu văn bản 5 1.2.2 Chú giải ngôn ngữ vấn đề chuẩn hóa 7 1.2.3 Khai thác kho ngữ liệu 9 1.3 Kho ngữ liệu tiếng Việt 13 1.3.1 Hiện trạng 13 1.3.2 Các vấn đề được nghiên cứu trong luận án 13 1.4 Kết chương 17 CHƯƠNG 2. XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ INTERNET 18 2.1 Giới thiệu 18 2.2 Xây dựng kho ngữ liệu thô tiếng Việt 18 2.2.1 Lựa chọn danh sách từ hạt giống 19 2.2.2 Thu thập địa chỉ URL 21 2.2.3 Lọc nội dung chính của các trang web (URLs) 23 2.2.4 Phát hiện sự trùng lặp gần nhau 28 2.2.5 Xây dựng công cụ kết quả thu thập kho ngữ liệu 32 2.3 Kết chương 32 iv CHƯƠNG 3. CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG VIỆT 34 3.1 Giới thiệu 34 3.2 Mô hình MAF của ISO/TC 37/SC 4 34 3.3 Mô hình SynAF của ISO/TC 37/SC 4 36 3.4 Chuẩn hóa theo mô hình MAF cho tiếng Việt 38 3.4.1 Xác định đơn vị cơ sở (segment) 41 3.4.2 Hình thái từ (Wordform) 41 3.4.3 Nội dung hình thái cú pháp 42 3.5 Chuẩn hóa theo mô hình SynAF cho tiếng Việt 42 3.6 Kết chương 50 CHƯƠNG 4. KHAI THÁC KHO NGỮ LIỆU THÔ CHO NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT 51 4.1 Giới thiệu 51 4.1.1 Nghiên cứu từ vựng 51 4.1.2 Sketch Engine 52 4.1.3 Ngữ liệu trong Sketch Engine 53 4.2 Xây dựng ngữ liệu tiếng Việt cho Sketch Engine 56 4.2.1 Tách từ gán nhãn từ loại 56 4.2.2 Xây dựng bộ quan hệ ngữ pháp tiếng Việt 57 4.2.3 Triển khai hệ thống Sketch Engine cho tiếng Việt 64 4.2.4 Đánh giá bộ quan hệ ngữ pháp tiếng Việt 67 4.3 Kết chương 67 CHƯƠNG 5. KHAI THÁC KHO NGỮ LIỆU CÓ CHÚ GIẢI CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT 69 5.1 Giới thiệu 69 5.2 Văn phạm hình thức 70 5.2.1 Khái niệm chung về văn phạm 70 5.2.2 Văn phạm phi ngữ cảnh (Context Free Grammar - CFG) 72 5.2.3 Văn phạm kết nối cây (Tree Adjoining Grammar – TAG) 74 5.3 Trích rút tự động văn phạm CFG cho tiếng Việt 77 v 5.3.1 Thuật toán trích rút từ VietTreebank 77 5.3.2 Phân tích cú pháp tiếng Việt với văn phạm PCFG 86 5.3.3 Thử nghiệm đánh giá 89 5.3.4 Nhược điểm của văn phạm PCFG trong phân tích ngữ pháp 90 5.4 Trích rút tự động văn phạm LTAG cho tiếng Việt 90 5.4.1 Thuật toán trích rút từ VietTreebank 90 5.4.2 Xây dựng thuật toán trích rút từ từ điển tiếng Việt 100 5.4.3 So sánh, đánh giá tập cây khởi tạo trích rút từ VietTreebank từ điển 105 5.5 Kết chương 107 KẾT LUẬN 109 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN QUAN ĐẾN LUẬN ÁN 112 TÀI LIỆU THAM KHẢO 113 PHỤ LỤC 125 vi DANH MỤC HÌNH VẼ Hình 3. 1 Mô hình tổng quan của MAF [59] 35 Hình 3. 2. Mô hình SynAF [60] 38 Hình 4. 1 Danh sách tần suất tính trội của các từ lân cận với tính từ “đẹp” 65 Hình 4. 2. Phác thảo thông tin của 2 từ ”đẹp”, ”xinh” 66 Hình 4. 3. Một số danh sách các từ có quan hệ ngữ pháp với tính từ “đẹp” 67 Hình 5. 1 Biểu diễn văn phạm G dưới dạng cây 73 Hình 5. 2. Phép thay thế 75 Hình 5. 3. Phép kết nối 75 Hình 5. 4.Ví dụ về dẫn xuất với phép kết nối phép thế trong văn phạm TAG 76 Hình 5. 5. Xử các cụm từ bằng thuật toán 5.5 94 Hình 5. 6. Ví dụ minh họa việc xây dựng cây phân tích 94 Hình 5. 7. Cây phân tích cú pháp 95 Hình 5. 8. Cây phân tích của cây cú pháp trong hình 5.7 sau khi chèn thêm nút 95 Hình 5. 9.Các mẫu cây cơ sở spine (ứng với quan hệ đối–vị từ) phụ trợ (ứng với quan hệ phụ trợ hoặc đẳng lập) 96 Hình 5. 10. Các cây cơ bản 97 Hình 5. 11. Ghép các nút liên kết, đường đi trung tâm được đánh dấu bởi nét đôi 98 Hình 5. 12. Số mẫu cây tăng dần theo kích thước của Treebank: 100 Hình 5. 13. Sơ đồ so sánh tập cây cơ bản 105 Hình 5. 14. Một cây cơ bản không hợp lệ 106 vii DANH MỤC BẢNG Bảng 1. 1. Thống kê các kho ngữ liệu đơn ngữ tiếng Việt 13 Bảng 2. 1. Thống kê số URL thu được của thuật toán 2.1 21 Bảng 2. 2. Tỷ lệ văn bản thẻ xuất hiện trong phần nội dung chính của một số trang web tin tức Việt Nam 25 Bảng 2. 3. So sánh tỷ lệ “nội dung chính văn bản cần lấy/ toàn bộ nội dung văn bản trích rút được” 27 Bảng 2. 4. Kết quả thống kê thu thập tự động kho ngữ liệu từ web 32 Bảng 3. 1.Tập từ loại được đối sánh với danh mục phân loại dữ liệu chuẩn ISO 12620 40 Bảng 3. 2. Tập nhãn cú pháp thành phần, nhãn phân loại câu được đối sánh với danh mục phân loại dữ liệu chuẩn ISO 12620 44 Bảng 3. 3.Tập nhãn chức năng cú pháp đối sánh với danh mục phân loại dữ liệu chuẩn ISO 12620 45 Bảng 5. 1. Quá trình trích rút luật theo thuật toán 5.1 81 Bảng 5. 2 Số các luật thu được 89 Bảng 5. 3.Bảng thành phần trung tâm cho treebank tiếng Việt 92 Bảng 5. 4 Danh sách các đối 93 Bảng 5. 5. .Ghép một số nhãn cú pháp của VietTreebank thành một 98 Bảng 5. 6. Hai văn phạm G1, G2 được trích rút từ VietTreebank 100 Bảng 5. 7. Thống kê bộ cây cơ bản Spin từ từ điển so sánh với cây cơ bản của VietTreebank 105 viii DANH MỤC CỤM TỪ VIẾT TẮT Cụm từ viết tắt Cụm từ đầy đủ tiếng Anh Dich tiếng Việt ANC The American National Corpus Kho ngữ liệu Quốc gia Mỹ API Application Programming Interface Giao diện lập trình ứng dụng BNC The British National Corpus Kho ngữ liệu Anh ngữ BTE Body Text Extraction Trích văn bản phần thân CES Copus Encoding Standard Tiêu chuẩnhóa kho ngữ liệu COCA The Copus of Contemporary American English Kho ngữ liệu Anh Mỹ hiện đại CRF Conditional Random Field Trường ngẫu nhiên có điều kiện HMM Hidden Markov Model Mô hình Markov ẩn HTML HyperText Markup Language Ngôn ngữ đánh dấu siêu văn bản I/O Input/Output Đầu vào/ đầu ra ISO International Organization for Standardization Tổ chức tiêu chuẩn hóa Quốc tế LAF Linguistic Annotation Framework Khung chú giải ngôn ngữ học LDC Linguistic Data Consortium Tổ chức dữ liệu ngôn ngữ học MAF Morphosyntactic Annotation Framewor Khung chú giải hình thái cú pháp MD5 Message Digest 5 Tóm tắt thông điệp MDFA Minimal deterministic finite state automata Otomat hữu hạn trạng thái tối thiểu MEM Maximum Entropy Model Mô hình Entropy cực đại NLP Natural Language Processing Xử ngôn ngữ tự nhiên ix POS Part-Of-Speech Từ loại SGML Standard Generalized Markup Language Ngôn ngữ đánh dấu tổng quát hóa chuẩn SynAF Syntactic Annotation Framework Mô hình chú giải cú pháp URL Uniform Resource Locator Định vị tài nguyên đồng nhất WFST Weighted Finit State Transducer Máy chuyển hữu hạn trạng thái có trọng số WWW Worl Wide Web Mạng toàn cầu XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng CFG Context Free Grammar Văn phạm phi ngữ cảnh PCFG Probability Context Free Grammar Văn phạm phi ngữ cảnh kết hợp xác suất TAG Tree Adjoining Grammar Văn phạm kết nối cây LTAG Lexicalized Tree Adjoining Grammar Văn phạm kết nội cây từ vựng hóa CYK Cocke – Younger – Kasami algorithm Thuật toán CYK SSL Semi-supervised learning Học bán giám sát x MỞ ĐẦU Đặt vấn đề Những năm gần đây, xử ngôn ngữ tự nhiên (XLNNTN) đã trở thành một lĩnh vực khoa học công nghệ được coi là mũi nhọn, với một loạt ứng dụng liên quan đến Internet Web, như tìm kiếm trích chọn thông tin trên Web, khai phá văn bản, Web ngữ nghĩa, tóm tắt văn bản v.v. Các nghiên cứu ứng dụng về xử ngôn ngữ trên thế giới đã có một lịch sử lâu dài được chia thành các giai đoạ n chính như sau [41]: Thời kỳ đầu tiên, bắt đầu từ những năm 1940-1950 mô hình ôtomat các mô hình xác suất có ảnh hưởng sâu sắc đến xử ngôn ngữ. Giai đoạn tiếp theo (1957-1970) xử ngôn ngữ được chia thành hai nhánh tách biệt, nhánh hình thức tập trung vào các vấn đề thuộc lĩnh vực thuyết ngôn ngữ hình thức trí tuệ nhân tạo; kiểu ngẫu nhiên sử dụng trong nhận dạng như các phương pháp Bayes. Giai đoạn 1970-1983 xuất hiện bố n trường phái xử ngôn ngữ chính, đó là sử dụng phương pháp ngẫu nhiên; dựa vào logic; hiểu ngôn ngữ tự nhiên; mô hình hóa diễn ngôn. Giai đoạn 1983-1993 việc huấn luyện các mô hình trạng thái hữu hạn, các mô hình xác suất dựa vào dữ liệu đã xuất hiện hầu hết trong các nhiệm vụ của xử ngôn ngữ. Từ những năm 1990 trở lại đây, mô hình thống kê dựa vào dữ liệu đã chứng tỏ tính vượt trội của mình trong các công việc của xử ngôn ngữ [98, 99]. Công nghệ xử văn bản xử tiếng nói không còn cách biệt, công nghệ xử tiếng nói không chỉ dựa vào các kỹ thuật xử tín hiệu mà còn dựa vào cả việc hiểu ngôn ngữ. Tham số của mô hình thống kê hoặc mô hình trạng thái có thể huấn luyện từ các kho ngữ liệu lớn, nhiều mô hình gần đây được chứng tỏ có hiệu quả cao như Maximum Entropy Markov Model (MEMM), Conditional Random Fields (CRF) [70, 71] v.v. Vấn đề phân tích hiểu tự động văn bản là một vấn đề lớn phức tạp trong việc hiểu ngôn ngữ tự nhiên, được tích hợp trong hầu hết các ứng dụng xử văn bản tự động. Quá trình này thường được chia thành các mức cơ bản [41]: Mức [...]... thái cú pháp (MAF) chuẩn hóa mô hình chú giải cú pháp (VnSynAF) cho tiếng Việt Chương 4 Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng Việt: Nghiên cứu hệ thống truy vấn kho ngữ liệu có tên là Sketch Engine phục vụ cho nghiên cứu từ vựng, xây dựng ngữ liệu tiếng Việt cho hệ thống Sketch Engine Chương 5 Khai thác kho ngữ liệu có chú giải cho phân tích cú pháp tiếng Việt: Trong chương này... loại tiếng Việt, nhóm tác giả Nguyễn Thị Minh Huyền đã đề xuất nguyên tắc 15 tách từ cho tiếng Việt [8] Còn việc chuẩn hóa mô hình chú giải ngữ liệu MAF SynNaf chưa được ứng dụng cho tiếng Việt, nên trong luận án sẽ tập trung vào xây dựng mô hình MAF SynNaf cho tiếng Việt 1.3.2.3 Khai thác kho ngữ liệu thô tiếng Việt cho nghiên cứu từ vựng Để khai thác kho ngữ liệu thô thu thập từ Internet cho nghiên. .. cho tiếng Anh các thứ tiếng khác đã được xây dựng tự động từ Internet, chúng ta có thể học tập để xây dựng cho tiếng Việt Hơn nữa, để dễ dàng sử dụng, mở rộng đối sánh ngôn ngữ thì các kho ngữ liệu tiếng Việt cũng phải hướng tới vấn đề chuẩn hóa quốc tế Song song với nỗ lực của đề tài này, luận án đã tập trung vào chủ đề xây dựng, chuẩn hóa khai thác kho ngữ liệu từ nguồn Internet cho xử tiếng. .. rút từ VietTreebank 1.4 Kết chương Chương này trình bày tổng quan về kho ngữ liệu, một số kho ngữ liệu tiêu biểu trên thế giới, nghiên cứu việc xây dựng khai thác kho ngữ liệu chuẩn, mô hình chuẩn hóa kho ngữ liệu theo tiêu chí của tiểu ban kỹ thuật ISO/TC 37/SC 4 Trên cơ sở đó xác định mục tiêu cho việc xây dựng khai thác kho ngữ liệu từ Internet cho tiếng Việt 18 2 CHƯƠNG 2 XÂY DỰNG KHO NGỮ LIỆU... việc xây dựng khai thác kho ngữ liệu từ Internet cho tiếng Việt Chương 2 Xây dựng kho ngữ liệu thô từ Internet: Trong chương này trình bày cụ thể việc xây dựng kho ngữ liệu thô tiếng Việt từ Internet thông qua các trang Web xvi Chương 3 Chuẩn hóa mô hình chú giải tiếng Việt: Nghiên cúu mô hình chú giải MAF SynAF được phát triển bởi ISO/ TC 37/ SC 4, từ đó xây dựng triển khai chuẩn hóa mô hình... Anh -Việt, bắt buộc chúng ta đi qua các tầng của xử ngôn ngữ đã đề cập ở trên Mục tiêu mà luận án nhắm đến là xây dựng khai thác kho ngữ liệu tiếng Việt, cụ thể l : - Xây dựng kho ngữ liệu thô có kích thước lớn - Xây dựng chuẩn hóa mô hình chú giải tiếng Việt - Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng - Khai thác kho ngữ liệu đã chú giải cú pháp phục vụ bài toán phân tích cú pháp tiếng Việt. .. tại rất nhiều kho ngữ liệu cho các thứ tiếng khác nhau, đây chính là nguồn dữ liệu không thể thiếu được trong việc nghiên cứu 5 XLNNTN Công việc xây dựng, mở rộng kho ngữ liệu là vấn đề cần thiết đối với mọi ngôn ngữ, công việc này càng ngày càng được quan tâm phát triển bởi các nhà nghiên cứu xử ngôn ngữ 1.2 Xây dựng, chuẩn hóa khai thác kho ngữ liệu Việc xây dựng kho văn bản chú giải... [114] cho tiếng Việt phục vụ việc phân phối trao đổi ngữ liệu - Triển khai một hệ thống truy vấn kho ngữ liệu tiếng Việt để nghiên cứu ngữ cảnh hành vi của mỗi từ phục vụ cho nghiên cứu từ vựng Bên cạnh kho ngữ liệu có kích thước lớn, đã được chú giải (từ loại), công việc này còn đòi hỏi xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt được biểu diễn thông qua ngôn ngữ truy vấn kho ngữ liệu - Nghiên. .. thiết yếu cho xử văn bản tiếng Việt, nh : Từ điển tiếng Việt dùng cho máy tính, kho ngữ liệu tiếng Việt, kho ngữ liệu câu tiếng Anh -Việt phổ quát-chuyên ngành, hệ phân đoạn từ tiếng Việt, hệ phân cụm từ tiếng Việt, hệ phân tích câu tiếng Việt Phương pháp xây dựng kho ngữ liệu đề tài hướng tới là thủ công hoặc bán thủ công, kho ngữ liệu đã được chú giải ở mức từ loại cú pháp, có kích thước hạn... tế cho là không thể thiếu được cho xử ngôn ngữ Đây chính là mục tiêu của đề tài nhà nước KC01/06-10 [100] về xử ngôn ngữ tiếng nói Việt giai đoạn 2007-2009 Đề tài tập trung vào nghiên cứu phát triển một số sản phẩm thiết yếu về xử tiếng nói văn bản tiếng Việt Trong đó, nhánh đề tài xử văn bản tập trung vào mức hình thái mức cú pháp xây dựng một số sản phẩm thiết yếu cho xử . VỀ KHO NGỮ LIỆU 1 1.1 Kho ngữ liệu văn bản 1 1.2 Xây dựng, chuẩn hóa và khai thác kho ngữ liệu 5 1.2.1 Thu thập kho ngữ liệu văn bản 5 1.2.2 Chú giải ngôn ngữ và vấn đề chuẩn hóa 7 1.2.3 Khai. là xây dựng và khai thác kho ngữ liệu tiếng Việt, cụ thể là: - Xây dựng kho ngữ liệu thô có kích thước lớn - Xây dựng chuẩn hóa mô hình chú giải tiếng Việt. - Khai thác kho ngữ liệu thô cho. (VnSynAF) cho tiếng Việt. Chương 4. Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng Việt: Nghiên cứu hệ thống truy vấn kho ngữ liệu có tên là Sketch Engine phục vụ cho nghiên cứu từ vựng, xây

Ngày đăng: 03/04/2014, 15:19

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC HÌNH VẼ

  • DANH MỤC BẢNG

  • DANH MỤC CỤM TỪ VIẾT TẮT

  • MỞ ĐẦU

    • Đặt vấn đề

    • Mục tiêu và phạm vi nghiên cứu của luận án

    • Kết quả đạt được

    • Bố cục của luận án

    • CHƯƠNG 1. TỔNG QUAN VỀ KHO NGỮ LIỆU

      • 1.1 Kho ngữ liệu văn bản

      • 1.2 Xây dựng, chuẩn hóa và khai thác kho ngữ liệu

        • 1.2.1 Thu thập kho ngữ liệu văn bản

        • 1.2.2 Chú giải ngôn ngữ và vấn đề chuẩn hóa

          • 1.2.2.1. Chú giải ngôn ngữ

          • 1.2.2.2. Chuẩn hoá mô hình chú giải ngữ liệu

          • 1.2.3 Khai thác kho ngữ liệu

            • 1.2.3.1. Nghiên cứu từ vựng

            • 1.2.3.2. Chú giải ngôn ngữ

            • 1.2.3.3. Phân tích cú pháp

            • 1.3 Kho ngữ liệu tiếng Việt

              • 1.3.1 Hiện trạng

              • 1.3.2 Các vấn đề được nghiên cứu trong luận án

                • 1.3.2.1. Xây dựng kho ngữ liệu

                • 1.3.2.2. Mô hình chuẩn hóa

                • 1.3.2.3. Khai thác kho ngữ liệu thô tiếng Việt cho nghiên cứu từ vựng

                • 1.3.2.4. Khai thác kho ngữ liệu chú giải cho phân tích cú pháp tiếng Việt

Tài liệu cùng người dùng

Tài liệu liên quan