Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
477,79 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG PHAN THỊ HÀ NGHIÊN CỨU VIỆC XÂY DỰNG, CHUẨN HÓA VÀ KHAI THÁC KHO NGỮ LIỆU TỪ NGUỒN INTERNET CHO XỬ LÝ TIẾNG VIỆT Chun ngành: Hệ thống Thơng tin Mã số: 62.48.01.04 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà nội - 2013 Luận án hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS TS TRẦN HỒNG QUÂN TS NGUYỄN THỊ MINH HUYỀN Phản biện 1: PGS.TS Huỳnh Quyết Thắng Phản biện 2: PGS.TS Lương Chi Mai Phản biện 3: PGS TS Lê Anh Cường Luận án bảo vệ trước hội đồng chấm luận án cấp Học viện họp tại: Học viện Cơng ngệ Bưu Viễn thong, 122 Hồng Quốc Việt, Hà nội Vào hồi 00 ngày 14 tháng 12 năm 2013 Có thể tìm hiểu luận án thư viện: Học viện Công nghệ BCVT thư viện Quốc Gia DANH MỤC CÁC CƠNG TRÌNH [1] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Lưu Văn Tăng, Xây dựng sơ đồ mã hóa công cụ trợ giúp gán nhãn tiếng Việt, Proceedings of ICT.rda'08 Hanoi Aug 8-9, 2008 [2] Lê H.Phương, Ng.T.M Huyền, Nguyễn Phương Thái, Phan thị Hà, Trích rút tự động văn phạm LTAG cho tiếng Việt , Tạp chí Tin học Điều khiển học, Tập 26 số 2, 2010 [3] Phan Thị Hà, Nguyễn Thị Minh Huyền, Rút trích tự động văn phạm CFG từ VietTreebank cho phân tích câu tiếng Việt, Tạp chí Khoa học Cơng nghệ trường đại học, Số 80, 2011 [4] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Adam Kilgarriff, Siva Reddy, Nghiên cứu từ vựng tiếng Việt với hệ thống Sketch Engine, Tạp chí Tin học Và Điều khiển học, Tập 27 số 3, 2011 [5] Phan Thị Hà, Trịnh thị Vân Anh, Một số vấn đề phân tích tự động cú pháp tiếng Việt, Hội thảo Khoa học công nghệ, Học viện CNBCVT, Hà nội 16-9, 2011 [6] Phan Thị Hà, Hà Hải Nam, Automatic main text extraction from web pages, Tạp chí Khoa học Cơng nghệ, Viện Khoa Học Việt Nam, Tập 51, Số 1, 2013 PHẦN MỞ ĐẦU Những năm gần đây, xử lí ngơn ngữ tự nhiên trở thành lĩnh vực khoa học công nghệ coi mũi nhọn, với loạt ứng dụng liên quan đến Internet Web, tìm kiếm trích chọn thơng tin Web, khai phá văn bản, v.v Vấn đề phân tích hiểu tự động văn vấn đề lớn phức tạp việc hiểu ngôn ngữ tự nhiên, tích hợp hầu hết ứng dụng xử lí văn tự động Q trình thường chia thành mức bản: mức ngữ âm; mức hình thái; mức cú pháp; mức ngữ nghĩa, mức ngữ dụng mức diễn ngôn Để giải vấn đề trên, nhiều kho ngữ liệu lớn đời phục vụ cho việc huấn luyện mô hình xử lý ngơn ngữ Hiện liệu Internet nhiều mơ hình thống kê dựa liệu cho thấy tính vượt trội so với cách tiếp cận dựa luật Hiện tại, kho ngữ liệu lớn phục vụ cho tiếng Việt cịn Vì việc xây dựng, chuẩn hóa khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt cần thiết Mục tiêu Xây dựng, chuẩn hóa khai thác kho ngữ liệu tiếng Việt: - Xây dựng kho ngữ liệu thơ có kích thước lớn (hàng GB) từ Internet - Xây dựng chuẩn hóa mơ hình giải tiếng Việt - Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng - Khai thác kho ngữ liệu giải cú pháp phục vụ tốn phân tích cú pháp tiếng Việt Phạm vi nghiên cứu luận án Để đạt mục đích trên, phạm vi nghiên cứu luận án tập trung vào mức hình thái mức cú pháp, cụ thể là: - Nghiên cứu phương pháp thuật tốn xây dựng kho ngữ liệu thơ tiếng Việt từ Internet - Nghiên cứu xây dựng triển khai số chuẩn hóa mơ hình giải phát triển tiểu ban kỹ thuật ISO/TC 37/SC cho tiếng Việt phục vụ việc phân phối trao đổi ngữ liệu - Khai thác kho ngữ liệu thô xây dựng quan hệ ngữ pháp - Nghiên cứu phát triển thuật tốn trích rút tự động luật văn phạm từ kho ngữ liệu giải cú pháp phục vụ cho phân tích cú pháp sử dụng hệ hình thức văn phạm phi ngữ cảnh kết hợp xác suất (PCFG) văn phạm kết nối (TAG) Nghiên cứu xây dựng công cụ phân tích cú pháp tự động cho tiếng Việt Bố cục luận án: Luận án chia thành năm chương: Chương Tổng quan kho ngữ liệu; Chương Xây dựng kho ngữ liệu thô từ Internet; Chương Chuẩn hóa mơ hình giải tiếng Việt; Chương Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng Việt; Chương Khai thác kho ngữ liệu có giải cho phân tích cú pháp tiếng Việt; Cuối phần kết luận luận án CHƯƠNG TỔNG QUAN VỀ KHO NGỮ LIỆU 1.1 Kho ngữ liệu văn Kho ngữ liệu tập hợp lớn văn bản.Thơng tin ngơn ngữ sở tri thức ngôn ngữ học, sử dụng việc phân tích thống kê kiểm tra giả thiết ngôn ngữ, kiểm tra xuất xác nhận quy tắc ngôn ngữ Kho ngữ liệu chứa văn ngôn ngữ (kho ngữ liệu đơn ngữ) chứa văn nhiều ngôn ngữ (kho ngữ liệu đa ngữ) Các văn cịn dạng thô- chưa tách từ giải ngôn ngữ tách từ, giải ngôn ngữ (mức từ loại, mức cú pháp) Các kho ngữ liệu giải mức cú pháp gọi ngân hàng cú pháp (treebank) Kho ngữ liệu thu thập từ nhiều nguồn tạp chí, sách báo, báo điển tử, sách giáo khoa, Ineternet thông qua trang web 1.2 Xây dựng kho ngữ liệu văn Qua khảo sát số kho ngữ liệu lớn có giải giới cho thấy việc xây dựng kho ngữ liệu thực thông qua hai phương pháp chính: Thứ nhất: Thủ cơng bán thủ cơng, thực qua hai bước chính: Bước 1.Thu thập kho văn thô: Nguồn gốc thu thập liệu từ tạp chí, sách báo, báo điển tử, sách giáo khoa Bước Chú giải ngôn ngữ: Công việc thực thủ cơng sử dụng công cụ tồn Thứ hai Xây dựng tự động từ Internet, thực qua bước chính: Bước 1.Lựa chọn danh sách từ hạt giống có tần suất xuất trung bình Bước 2.Thu thập liệu từ Web cách sử dụng từ hạt giống để tạo truy vấn thông qua cổng tìm kiếm Yahoo Google tải trang kết Bước 3.Làm văn bản, loại bỏ thông tin quảng cáo thông tin nhiễu khác Bước 4.Loại bỏ văn trùng lặp Bước 5.Chú giải ngơn ngữ chuẩn hóa 1.3 Chuẩn hố kho ngữ liệu Vấn đề chuẩn hố mơ hình giải kho ngữ liệu vấn đề quan trọng, nhằm mở rộng đến mức tối đa phạm vi sử dụng khai thác tài nguyên đặc biệt máy tính, vấn đề quan tâm tiểu ban kĩ thuật ISO/TC 37/SC Một số mơ hình giải kho ngữ liệu phát triển tiểu ban kĩ thuật ISO/TC 37/SC như mơ hình giải hình thái cú pháp (MAF Morphosyntactic Annotation Framework), mơ hình giải cú pháp (SynAF - Syntactic Annotation Framework), mơ hình giải ngơn ngữ (LAF - Linguistic Annotation Framework), mơ hình giải ngữ nghĩa (SemAF – Semantic Annotation Framework) 1.4 Khai thác kho ngữ liệu Kho ngữ liệu nguồn tài nguyên quan trọng việc nghiên cứu xử lý ngôn ngữ tự nhiên Với kho ngữ liệu văn bản, tách từ kho ngữ liệu giải mức cú pháp, khai thác làm liệu huấn luyện liệu đánh giá cho cho mơ hình cơng cụ học máy phục vụ cho xử lý ngôn ngữ, khai thác cho văn phạm phục vụ cho việc phân tích cú pháp khai thác cho việc xây dựng từ điển (đơn ngữ, đa ngữ), dịch tự động v.v 1.5 Xây dựng, chuẩn hóa khai thác kho ngữ liệu tiếng Việt Xây dựng: Nghiên cứu từ vựng địi hỏi xây dựng kho ngữ liệu có kích thước lớn tốt Ý tưởng chủ đạo phương pháp xây dựng kho ngữ liệu thu thập tự động kho ngữ liệu văn từ Internet thông qua địa trang web (URL) Phương pháp sử dụng giống phương pháp sử dụng cho tiếng Anh số ngôn ngữ phổ biến khác, chi thành bước Vấn đề quan trọng cần làm lập danh sách từ hạt giống cho ngôn ngữ.Trong đó, để phù hợp với trang web tiếng Việt, thuật toán bước phát triển lựa chọn, đặc biệt thuật tốn trích rút tự động nội dung văn trang web cải tiến nhằm giảm thiểu liệu nhiễu nội dung văn cần lấy Chuẩn hoá kho ngữ liệu: Hiện nay, mơ hình giải ngơn ngữ MAF, SynNaf, LAF chưa nghiên cứu biểu diễn cho tiếng Việt Trong luận án đưa mơ hình MAF để biểu diễn giải hình thái cú pháp từ mơ hình SynNaf để biểu diễn giải cú pháp câu cho tiếng Việt Khai thác kho ngữ liệu: Trong luận án tác giả sâu vào khai thác kho ngữ liệu cho nghiên cứu từ vựng phân tích cú pháp tiếng Việt: - Luận án lựa chọn nghiên cứu hệ thống truy vấn kho ngữ liệu Sketch Engine phục vụ cho việc nghiên cứu từ vựng, hai lý do; Thứ nhất: Skech Engine - Hệ thống truy vấn kho ngữ liệu cho phép người sử dụng xem xét ngữ cảnh theo quan hệ ngữ pháp cung cấp thống kê tần suất xuất từ theo quan hệ ngữ pháp, tra cứu từ đồng phản nghĩa, so sánh thông tin hai từ tương tự nha v.v Hệ thống sử dụng cho nhiều ngôn ngữ khác chưa sử dụng cho tiếng Việt Thứ 2: Đối với tiếng Việt, nhà làm từ điển thường có cơng cụ để tra cứu ngữ cảnh từ kho ngữ liệu, chưa có thống kê tự động để so sánh, chọn lọc ngữ cảnh Việc sử dụng công cụ hệ thống Sketch Engine hữu ích, giúp cải thiện quy mơ chất lượng từ điển - Mọi phân tích cú pháp cần luật cú pháp, hay gọi văn phạm, biểu diễn hệ văn phạm hình thức cụ thể Đối với tiếng Việt, với dự án KC01.01/06-10 tồn số kho ngữ liệu tiếng Việt ngân hàng câu giải cú pháp (VietTreeBank), từ điển điện tử…Trong luận án sâu vào nghiên cứu xây dựng thuật tốn trích rút tự động văn phạm phi ngữ cảnh (CFG) văn phạm kết nối (TAG) từ VietTreebank từ điển cho tiếng Việt lý sau: Thứ nhất, từ điển VietTreebank có sở ngơn ngữ học vững chắc, bao gồm lý thuyết văn phạm cảm sinh khởi xướng Chomsky lý thuyết ngữ pháp chức Đây lý thuyết có ảnh hưởng lớn nghiên cứu ngơn ngữ học lẫn ngơn ngữ học tính tốn Trong tiếng Việt, ảnh hưởng thể điển hình qua nghiên cứu Vũ Dũng Cao Xuân Hạo Thứ hai, văn phạm CFG văn phạm tiêu biểu sử dụng tốn phân tích cú pháp thành phần lần đề xuất Chomsky Đây văn phạm đơn giản, làm tảng đặc trưng cho cú pháp thành phần.Thứ ba, văn phạm TAG - lớp văn phạm cảm ngữ cảnh yếu, tức có khả sinh mạnh văn phạm phi ngữ cảnh, độ phức tạp thời gian phân tích cú pháp TAG đa thức (O(n6)) Văn phạm hình thức LTAG phù hợp với ứng dụng ngôn ngữ học Khả chuyển đổi văn phạm LTAG sang hệ hình thức văn phạm hợp khác LFG (Lexical Functional Grammar) hay HPSG (Head-driven Phrase Structure Grammar) chứng minh 1.6 Kết luận Chương trình bày tổng quan kho ngữ liệu, số kho ngữ liệu tiêu biểu giới, nghiên cứu việc xây dựng khai thác kho ngữ liệu chuẩn, mơ hình chuẩn hóa kho ngữ liệu theo tiêu chí tiểu ban kỹ thuật ISO/TC 37/SC Trên sở xác định mục tiêu cho việc xây dựng khai thác kho ngữ liệu từ Internet cho tiếng Việt CHƯƠNG XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ INTERNET 2.1 Giới thiệu Chương trình phương pháp xây dựng kho ngữ liệu thô tiếng Việt từ Internet, phương pháp sử dụng phát triển từ phương pháp xây dựng cho tiếng Anh số tiếng phổ biến khác 2.2 Xây dựng kho ngữ liệu thô Phương pháp thu thập kho ngữ liệu sử dụng dựa phương pháp Aidan Finn A.Kilgarriff, thuật toán thu thập kho ngữ liệu chi tiết bước lựa chọn phát triển để phù hợp phù hợp với tiếng Việt Về bản, trình thu thập kho ngữ liệu từ Internet phát triển bước giới thiệu mục 1.5 2.2.1 Lựa chọn danh sách từ hạt giống Từ hạt giống đóng vai trị từ khóa tìm kiếm việc thu thập kho ngữ liệu văn ngôn ngữ Đây phải từ đặc trưng cho ngơn ngữ, tức phải có tần suất xuất đáng kể có tính phân biệt so với từ ngôn ngữ khác Đối với tiếng Việt, danh sách từ hạt giống thu thập từ việc phân đoạn từ câu trang Wiki tiếng Việt Thuật toán phân đoạn từ đơn giản sử dụng duyệt theo câu từ trái sang phải, chọn ranh giới từ cho từ thu có nhiều âm tiết so sánh với danh sách từ từ tiếng Việt (word list) Cách lựa chọn rõ ràng xác, sai số chấp nhận cho mục đích lập danh sách tần suất từ; Sau lựa chọn từ hạt giống từ danh sách tần suất; tiêu chí chọn từ hạt giống ngơn ngữ khác nhau, tiếng Việt tiêu chí chọn từ hạt giống phải có kí tự Unicode khơng thuộc phạm vi ASCII, từ khác không xét, chữ số mục khơng phải kí tự bị loại trừ Danh sách từ hạt giống, xếp theo chiều giảm dần tần suất, 1000 từ có tần suất cao 11 (VnSynAF) tương tự mơ hình giải cú pháp chuẩn quốc tế SynAF Mơ hình VnSynAF lược đồ mã hóa dựa định dạng XML sử dụng việc định dạng mã hoá treebank cho tiếng Việt Về cấu trúc chung mơ hình luận án sử dụng tương tự SynAF: - Mỗi nút T Node biểu diễn từ vựng tiếng Việt tương ứng wordform - Nút NT dùng để biểu diễn thành phần không kết thúc từ loại, cụm từ, nhãn quy ước cho dấu Sử dụng hạng mục nhãn hình thái (từ loại), nhãn cú pháp thành phần, nhãn phân loại câu để gán nhãn cho nút NT - Các cung (edge) dùng để liên kết nút, biểu diễn chức thành phần cú pháp, cho biết vai trò thành phần cú pháp mức cao hơn, nhờ giúp biết quan hệ ngữ pháp nút, chủ ngữ, vị ngữ, tân ngữ Sử dụng hạng mục nhãn chức cú pháp để gán nhãn cho cung Trong phần tác giả xây dựng bảng danh sách hạng mục liệu, nhãn từ loại, nhãn cú pháp thành phần, nhãn phân loại câu, nhãn chức cú pháp cho tiếng Việt tham chiếu tới DCR (ISO 12620) dựa tài liệu “Thiết kế tập nhãn cú pháp hướng dẫn gán nhãn” 3.4 Kết luận Xây dựng triển khai mơ hình giải kho ngữ liệu tiếng Việt mức hình thái-cú pháp (MAF) mức phân tích cú pháp cho tiếng Việt có tên VnSynAF tương thích với mơ hình MAF SynAF phát triển ISO/TC 37/SC 4 CHƯƠNG KHAI THÁC KHO NGỮ LIỆU THÔ CHO NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT 4.1 Giới thiệu Chương trình bày việc khai thác kho ngữ liệu thơ tiếng Việt có khối lượng lớn tách từ gán nhãn từ loại cho hệ thống truy vấn kho ngữ liệu Sketch Engine, phục vụ việc nghiên cứu từ vựng 12 Để khai thác thông tin ngôn ngữ, ngữ cảnh, hành vi từ hệ thống đòi hỏi quan hệ ngữ pháp tiếng Việt, luận án xây dựng mối quan hệ ngữ pháp cho Sketch Engine dựa đặc điểm ngữ pháp tiếng Việt 4.1.1 Nghiên cứu từ vựng Mục tiêu mà nghiên cứu từ vựng nhắm tới để xem xét ngữ cảnh, nghiên cứu hành vi từ, cụ thể là: Tìm kiếm cụm từ xung quanh từ; Khả xuất từ xung quanh từ; Các mẫu ngữ pháp xuất xung quanh từ; Sắp xếp từ theo tiêu chí khác nhau; Xác định kho ngữ liệu cho việc tìm kiếm; Xác định từ hiếm; So sánh nghĩa từ gần giống nhau… Để khai thác thông tin từ vựng phục vụ cho mục tiêu luận án sử dụng hệ thống truy vấn kho ngữ liệu Sketch Engine 4.1.2 Sketch Engine Hệ thống Sketch Engine hệ thống truy vấn kho ngữ liệu phục vụ cho việc nghiên cứu phân tích ngơn ngữ, sử dụng cho nhiều ngơn ngữ khác giới Trong đó, Word Sketch, tiền thân hệ thống Sketch Engine, thay đưa tất ngữ cảnh văn xung quanh từ tiếng Anh, Word Sketch cho phép người sử dụng xem xét ngữ cảnh theo quan hệ ngữ pháp cung cấp thống kê tần suất xuất từ theo quan hệ ngữ pháp Word Sketch Kilgarriff phát triển thành hệ thống Sketch Engine - hệ thống nhận đầu vào kho ngữ liệu ngôn ngữ với mẫu ngữ pháp tương ứng Ngoài chức Word Sketch, hệ thống cung cấp thêm chức năng: Thesaurus Cho phép tra cứu từ đồng phản nghĩa Sketch Difference Cho phép so sánh thông tin hai từ tương tự Hiện thời, Skech Engine trở thành hệ thống truy vấn kho ngữ liệu thử nghiệm nhiều ngôn ngữ khác (Anh, Séc, Nhật, Trung, Nga, Xlơven ) đánh giá có hiệu tốt việc xây dựng từ điển, việc nghiên cứu thực hành ngôn ngữ 13 4.1.3 Ngữ liệu Sketch Engine Sketch Engine đòi hỏi phải xây dựng ngữ liệu ngôn ngữ cụ thể cho hệ thống, quan hệ ngữ pháp ngôn ngữ biểu diễn thông qua ngôn ngữ truy vấn kho ngữ liệu bên cạnh kho ngữ liệu lớn văn giải mức từ loại Để xác định quan hệ ngữ pháp từ, Sketch Engine cần biết làm tìm từ kết nối với theo quan hệ ngữ pháp ngôn ngữ xét 4.2 Xây dựng ngữ liệu tiếng Việt cho hệ thống Sketch Engine Để sử dụng cho nghiên cứu từ vựng tiếng Việt, Sketch Engine đòi hỏi phải xây dựng được: Kho ngữ liệu tiếng Việt có kích thước lớn tách từ gán nhãn từ loại Bộ quan hệ ngữ pháp tiếng Việt biểu diễn thông qua ngôn ngữ truy vấn kho ngữ liệu 4.2.1 Tách từ gán nhãn từ loại Đối với tiếng Việt, để thu kho ngữ liệu giải mức từ loại hướng tới chuẩn mã hóa XML, luận án sử dụng phần mềm gán nhãn từ loại tiếng Việt có tên vnTagger nhóm tác giả Lê Hồng Phương 4.2.2 Xây dựng quan hệ ngữ pháp cho tiếng Việt Đối với tiếng Việt, chưa có kho ngữ liệu lớn phân tích cú pháp nên phải sử dụng khả thứ hai để xây dựng tập quan hệ ngữ pháp Hệ hình thức dùng cho quan hệ ngữ pháp Sketch Engine dựa sở mẫu xâu theo biểu thức quy, phù hợp với ngơn ngữ có trật tự từ ổn định, tiếng Anh chẳng hạn, tiếng Việt ngơn ngữ trật tự từ đóng vai trị quan trọng Dựa vào đó, luận án xây dựng quan hệ ngữ pháp tiếng Việt tương ứng với cấu trúc ngữ pháp tiếng Việt, là, cụm danh từ, cụm động từ, cụm phó từ, cụm giới từ, liên hợp câu đơn, biểu diễn thông qua dạng truy vấn Trong Luận http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTagger 14 án xây dựng 37 quan hệ ngữ pháp tương ứng với 37 dạng truy vấn 4.2.3 Khai thác kho ngữ liệu cho Sketch Engine Để sử dụng hệ thống Sketch Engine cho nghiên cứu từ vựng tiếng Việt u cầu phải tích hợp kho ngữ liệu tiếng Việt có kích thước lớn thu thập từ Internet quan hệ ngữ pháp tương ứng vào hệ thống; Hình 4.1, minh họa cho việc khai thác kho ngữ liệu tiếng Việt phục vụ cho việc thống kê tần suất tính trội từ lân cận với từ Trong đó, tính trội thống kê theo tỷ lệ việc quan sát thực tế với giả thiết đảo (của từ lân cận xuất với từ bất kỳ) thơng qua cơng thức T-score MI-score; Hình 4.2, minh họa việc liệt kê số danh sách quan hệ ngữ pháp xuất xung quanh hai tính từ có nghĩa gần tương tự ”đẹp” ”xinh”, danh sách thống kê tần suất tính trội từ lân cận với từ quan hệ ngữ pháp (tương ứng tần suất cột thứ 2,3; tính trội cột thứ 4,5) Ngồi bảng cịn có số danh sách quan hệ ngữ pháp xuất xung quanh từ (”đẹp” only patterns) (”xinh” only patterns), danh sách liệt kê từ tần xuất tính trội xuất xung quanh tính từ ”đẹp” tính từ ”xinh” Các thơng tin giúp người nghiên cứu từ vựng, xây dựng từ đưa giống nhau, khác sử dụng từ này; Hình 4.3, minh họa cho việc khai thác kho ngữ liệu quan hệ ngữ pháp- cho phép liệt kê số danh sách quan hệ ngữ pháp xuất xung quanh từ khóa (ví dụ tính từ “đẹp”) Trong đó, danh sách liệt kê từ tần suất tính trội từ mối quan hệ ngữ pháp với từ khóa Sau liệt kê mộ số danh sách: Danh sách N_front_modifier_A: Danh sách danh từ phía trước mà tính từ “đẹp” bổ nghĩa; Danh sách A_after_modifies_A: Danh sách tính từ phía sau bổ nghĩa cho tính từ “đẹp”; Danh sách R_front_modifies_A: Danh sách phụ từ phía trước bổ nghĩa cho 15 tính từ “đẹp”; Danh sách predicate_of: Danh sách từ mà tính từ "đẹp" làm vị ngữ Hình Danh sách tần suất tính trội từ lân cận với tính từ “đẹp” Hình Phác thảo thông tin từ ”đẹp”, ”xinh” 16 Hình Một số bảng danh sách từ có quan hệ ngữ pháp với tính từ “đẹp” 4.2.4 Đánh giá độ tương tích quan hệ ngữ pháp kho ngữ liệu tiếng Việt hệ thống Sketch Engine Kết cho thấy độ tương thích quan hệ ngữ pháp kho ngữ liệu tiếng Việt hệ thống Sketch Engine 100%, truy vấn quan hệ ngữ pháp tiếng Việt phù hợp với hệ thống Sketch Engine, ngữ cảnh kho ngữ liệu phù hợp với truy vấn Hệ thống Sketch Engine sử dụng để nghiên cứu từ vựng cho tiếng Việt, chức hệ thống sử dụng cho tiếng Việt đáp ứng ngôn ngữ khác 4.3 Kết luận Trong chương luận án xây dựng quan hệ ngữ pháp tiếng Việt (37 quan hệ ngữ pháp) biểu diễn thông qua ngôn ngữ truy vấn kho ngữ liệu phục vụ cho hệ thống nghiên cứu từ vựng Sketch Engine; Triển khai hệ thống Sketch Engine cho nghiên cứu từ vựng tiếng Việt dựa quan hệ ngữ pháp kho ngữ liệu có giải tiếng Việt Đánh giá độ tương thích quan hệ ngữ pháp kho ngữ liệu tiếng Việt hệ thống Sketch Engine 17 CHƯƠNG KHAI THÁC KHO NGỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT 5.1 Giới thiệu Chương sâu vào nghiên cứu xây dựng thuật tốn trích rút tự động văn phạm CFG, LTAG từ VietTreebank từ điển điện tử phục vụ cho phân tích cú pháp tiếng Việt, cài đặt thử nghiệm đánh giá 5.2 Văn phạm hình thức Phần trình bày định nghĩa văn phạm hình thức; Phân loại văn phạm Chomsky; Văn phạm phi ngữ cảnh (CFG) văn phạm kết nối (LTAG) xử lý ngôn ngữ tự nhiên 5.3 Trích rút tự động văn phạm CFG cho tiếng Việt 5.3.1 Thuật tốn trích rút từ VietTreebank Phương pháp trính rút văn phạm phi ngữ cảnh kết hợp xác suất từ VietTreebank sử dụng tương tự phương pháp Roberto Valenti D.Jurafsky and Martin, q trình trích rút thực qua bước chính: Trích rút luật cho văn phạm CFG từ Treebnk; Chuyển CFG thành phi ngữ cảnh kết hợp xác suất (PCFG); Chuyển PCFG thu thành văn phạm PCFG theo chuẩn Chomsky Tuy nhiên Bước có thay đổi cài đặt: Sử dụng Stack để lưu trữ tạm thời luật trích rút từ phân tích, độ phức tạp O(n+m) Nếu đỉnh Stack luật đầy đủ lấy luật khỏi stack, luật đơn sinh từ kết thúc lấy khỏi stack tự động hủy luôn, ngược lại luật đơn luật thu đưa vào mảng lưu trữ Nếu luật khơng đầy đủ tiếp tục bổ sung thêm vế phải Xử lý Stack dễ hiểu đơn giản sử dụng đệ quy theo cách tiếp cận Roberto Valenti D.Jurafsky and Martin 5.3.2 Phân tích cú pháp tiếng Việt với văn phạm PCFG Dựa theo phương pháp Martin phần mềm phân tích cú pháp cho tiếng Việt phát triển thông qua giai đoạn: Giai đoạn Thay cho việc tách từ gán ln nhãn từ loại (đồng thời tách từ) 18 cách sử dụng công cụ gán nhãn từ loại có sẵn Giai đoạn Phân tích cú pháp câu tách từ gán nhãn từ loại, phân tích cú pháp phân tích câu thành cú pháp có xác suất cao ưu tiên lựa chọn Thuật toán tương tự thuật toán PCYK D.Jurafsky and Martin, nhiên bước đầu thuật tốn khơng cần phải tính tốn xác suất từ loại từ, thay vào xác suất từ loại từ gán ln 1, theo cách tiếp cận xác suất từ loại từ cố định, không phụ thuộc vào việc tìm có xác suất cao 5.3.3 Thử nghiệm đánh giá Phần mềm phân tích cú pháp dựa văn phạm PCFG cài đặt với hai phương pháp, phương pháp Jurafsky Martin phương pháp cải tiến tác giả Trong có chức chính, chức 1, trích rút tự động luật văn phạm PCFG VietTreebank, chức 2, phân tích cú pháp cho câu đầu vào dựa luật văn phạm PCFG Kết cho thấy chạy thử 30 câu tiếng Việt 200 câu liệu huấn luyện, phương pháp cải tiến trình bày luận án kết phân tích cú pháp (67.7%) tốt phương pháp Jurafsky Martin (62.2%) Bảng 5.2 cho kết trích rút luật đánh giá phân tích cú pháp phương pháp cải tiến luận án Độ xác phân tích cú pháp dựa vào cặp ngoặc (i, j, nhãn thành phần) phân tích đầu dạng đặt ngoặc, đó: Recall = (Số cặp ngoặc sinh ra)/(số cặp ngoặc chuẩn); Precision=(Số cặp ngoặc sinh ra)/(Số cặp ngoặc sinh ra) Bảng Số luật CFG thu đánh giá phân tích cú pháp Số câu Số luật CFG Recall Precision 200 1632 0.6695 0.6856 4112 5728 0.7843 0.6891 8184 8849 0.7975 0.6961 9965 10136 0.8175 0.71505 19 Kết chạy chương trình cho thấy, VietTreebak số câu mắc lỗi định dạng, số lượng luật CFG tăng dần theo kích thước VietTreebank chứng tỏ VietTreebank chưa đủ độ lớn 5.4 Trích rút tự động văn phạm LTAG cho tiếng Việt Phần trình bày thuật tốn rút trích tự động văn phạm LTAG từ Treebank, đồng thời trình bày kết chạy chương trình trích rút tự động văn phạm LTAG cho tiếng Việt từ VietTreebank từ điển điện tử tiếng Việt 5.4.1 Thuật tốn trích rút từ VietTreebank Về bản, q trình trích rút tự động văn phạm LTAG từ treebank gồm ba bước Thứ nhất, chuyển cú pháp treebank thành phân tích hệ hình thức LTAG Thứ hai, phân rã phân tích thu bước thành tương ứng với ba mẫu xác định trước Cuối sử dụng tri thức ngôn ngữ để lọc bỏ khơng hip lệ Cách tiếp cận trích rút văn phạm LTAG mà trình bày tương đối giống với phương pháp trích rút văn phạm đề xuất Xia Tuy nhiên, có số điểm khác phương pháp thiết kế cài đặt thuật toán hai cách tiếp cận: Thứ nhất, bước xây dựng phân tích, trước tiên xử lí tồn cụm liên từ đẳng lập cú pháp trước phân biệt thành phần đối phụ trợ, thay xử lí đồng thời ba dạng cấu trúc Việc xử lí dễ hiểu dễ cài đặt cụm đẳng lập có cấu trúc khác với cấu trúc đối phụ trợ Thứ hai, bước trích rút bản, không tách nút thành hai thành phần cách tiếp cận Xia Các nút phân tích chép trực tiếp sang Việc chép trực tiếp mà khơng tách nút làm tăng tính hiệu thời gian không gian thuật tốn Thứ ba, q trình trích rút phân rã thành thủ tục con, gọi tương hỗ qua lại để lặp lại q trình trích rút có nút gốc chưa xử lí Các hàmđệ quy tương hỗ thiết kế kỹ lưỡng đảm bảo khơng có lời gọi thừa, nút phân tích xử lí lần Tính 20 hiệu dễ tối ưu hoá phương pháp “chia để trị” chứng minh cài đặt thuật toán hai cách tiếp cận Kết thử nghiệm: Văn phạm LTAG thu phủ hoàn toàn cấu trúc cú pháp treebank, số mẫu văn phạm hội tụ chậm cho thấy có nhiều cấu trúc cú pháp chưa mã hố VietTreebank, nói cách khác VietTreebank chưa đủ lớn chưa đủ điển hình để phủ hết mẫu cú pháp tiếng Việt Hình 5.12 minh hoạ số mẫu tăng dần theo kích thước treebank sử dụng Việc hội tụ chậm số mẫu cho thấy kích thước VietTreebank chưa đủ lớn để phủ hết mẫu cú pháp tiếng Việt Nhóm nghiên cứu phát triển chương trình phần mềm có tên LExtractor cài đặt thuật tốn trích rút văn phạm Hình 5.12 trục x biểu diễn phần trăm kho văn sử dụng để trích rút văn phạm, trục y biểu diễn số lượng mẫu tổng thể( Δ ), mẫu khởi tạo (о) mẫu phụ trợ ( ) thu 5.4.2 Xây dựng LTAG từ từ điển tiếng Việt Quan sát cấu trúc từ điển tiếng Việt cho thấy, tại, cú pháp mục từ từ điển hai dạng: Nếu từ động từ tồn thơng tin hạng mục từ loại tiểu từ loại từ (danh từ, tính từ ); Dựa vào đặc điểm từ điển xây dựng sở (cây khởi tạo) cho văn phạm LTAG tiếng Việt thông qua thơng tin 21 hình thái, cú pháp mục từ (một từ vựng có nhiều mục từ, mục từ tương ứng với nghĩa, từ loại riêng) Phần trình bày thuật tốn trích rút sở (ứng với quan hệ vị từ-đối) LTAG từ từ điển tiếng Việt Thuật tốn trích rút sở: Dựa vào thông tin mục từ Entry, kiểm tra xem thẻ cú pháp () có tồn thành phần vị từ-đối (Subcategorization Frame) khơng? Nếu tồn xây dựng dạng sở: 1.cây sở cụm từ với từ loại, từ vựng (ví dụ: “(VP (V đi))”), sở cụm từ tương ứng từ loại, từ vựng đối phía sau từ loại (Ví dụ: “(VP (V đi) (+PP))”, sở câu đơn (cú pháp thành phần) (ví dụ: “(S (+NP) (VP (V đi) (+PP)))”) Nếu khơng tồn xây dựng cụm từ với từ loại từ vựng (ví dụ: “(AP (A đế quốc))” “(AP (Ap đế quốc))”) 5.4.3 So sánh, đánh giá tập khởi tạo trích rút từ VietTreebank từ điển Để so sánh đánh giá tập khởi tạo, NCS xây dựng phần mềm với hai chức chính, chức thứ trích rút tự động sở từ từ điển dựa vào thuật toán xây dựng; Chức thứ hai so sánh đưa giao nhau, lệch sinh từ số động từ sở từ điển VietTreebank Kết cho ở Bảng 5.8 Trong cột (1) Bước thử nghiệm; cột (2) từ giao nhau; cột (3) số sở từ điển có neo từ giao nhau; Cột (4) số sở VietTreebank có neo từ giao nhau; Cột (5) số sở giao ; Cột tỷ lệ sở trùng so với sở VNTreebank Cột (7) tỷ lệ sở trùng so với sở từ điển; Cột (8) trung bình số từ sở giao Bảng 5.7 cho thấy độ chênh lệch cao sở giao từ điển VietTreebank bắt nguồn từ 1469 từ neo động từ, kể đến số nguyên nhân như: Trong VietTreebank giải từ loại chưa quán sử dụng từ loại chung hay tiểu từ loại cho từ vựng=> Trong VietTreebank nhãn từ loại từ 22 Bảng Thống kê Spin từ từ điển so sánh với VietTreebank Từ loại chung Từ loại chi tiết 1469 6355 3701 1481 40.02% 23.30% 0.999 1469 6963 3701 892 24.10% 12.81% 1.65 vựng cần thống lại theo tiêu chí chung (sử dụng từ loại chung hay tiểu từ loại) Thuật toán xây dựng sở (khởi tạo) từ từ điển phụ trợ chưa xây dựng, từ điển giải thành phần phụ cho mục từ tương đối đơn giản Trong từ điển giải cú pháp cho vị từ động từ, chưa giải hết trường hợp khác nên số sinh chưa bao phủ nhiều VietTreebank, cần bổ sung thêm khung vị từ khác (danh từ, tính từ, giới từ) vào từ điển Danh sách thu có VietTreebank khơng có từ điển cung cấp tri thức ngôn ngữ để lọc số không hợp lệ với quy tắc ngữ pháp trích rút từ VietTreebank (do phần mềm trích rút tự động văn phạm LTAG), ví dụ, (VP (A tạm)); (S (VP (N nói)) (+NP)); (VP (N tai nạn) (+n));(VP (N nước)), có số VietTreebank có nhiều đối (nhiều có nhiều đối) sở từ điển có đối nhiều Từ điển tiếng Việt cho máy tính xây dựng từ chuyên gia ngôn ngữ, thông tin cú pháp từ vựng trích rút từ xác Bởi tốt cho phân tích cú pháp kết hợp văn phạm LTAG thu từ từ điển văn phạm LTAG thu VietTreebank 5.5 Kết luận Trong chương luận án xây dựng thuật toán, hệ thống trích rút tự động luật văn phạm PCFG từ VietTreebank, đồng thời xây 23 dựng hệ thống phân tích cú pháp câu tiếng Việt theo phương pháp thống kê văn phạm PCFG, thuật tốn phân tích cú pháp cải tiến từ thuật tốn PCYK D.Jurafsky and Martin, hệ thống có tên VNNLP; Nghiên cứu văn phạm LTAG, thuật toán trích rút tự động luật văn phạm LTAG Thực trích rút tập cú pháp LTAG tiếng Việt Triển khai xây dựng thuật tốn trích rút LTAG từ từ điển tiếng Việt So sánh, đánh giá tập trích rút từ VietTreebank, lọc không hợp lệ với cấu trúc ngữ pháp tiếng Việt KẾT LUÂN 1.Các kết đạt Kết nghiên cứu luận án có ý nghĩa khoa học thực tiễn với đóng góp sau: - Phát triển thuật toán thu thập văn tiếng Việt từ web để xây dựng kho ngữ liệu Xây dựng công cụ thu thập tự động kho ngữ liệu từ Internet có tên Vncopus, triển khai thu thập kho ngữ liệu thô tiếng Việt từ Internet (100 triệu từ) - Xây dựng mơ hình giải mức hình thái-cú pháp (MAFMorphosyntactic Annotation Framework) mơ hình giải mức cú pháp (SynAF-Syntactic Annotation Framework) cho kho ngữ liệu tiếng Việt - Xây dựng quan hệ ngữ pháp tiếng Việt (37 quan hệ ngữ pháp) cho hệ thống nghiên cứu từ vựng; Tích hợp kho ngữ liệu xây dựng từ Internet (kho ngữ liệu thô tách từ gán nhãn từ loại cách sử dụng cơng cụ sẵn có) quan hệ ngữ pháp cho nghiên cứu từ vựng tiếng Việt vào hệ thống nghiên cứu từ vựng Sketch Engine, kết cho thấy quan hệ ngữ pháp phù hợp với kho ngữ liệu tiếng Việt thu thập từ Internet hệ thống Sketch Engine - Xây dựng thuật toán, hệ thống trích rút tự động luật văn phạm phi ngữ cảnh kết hợp xác suất (PCFG) từ kho văn gán nhãn cú pháp VietTreebank Đồng thời xây dựng hệ thống 24 phân tích cú pháp câu tiếng Việt theo phương pháp thống kê văn phạm PCFG, thuật tốn phân tích cú pháp cải tiến từ thuật toán PCYK Martin Tham gia triển khai trích rút văn phạm kết nối (TAG) từ VietTreebank Xây dựng, triển khai thuật tốn trích rút cho văn phạm TAG từ từ điển tiếng Việt So sánh tập trích rút từ VietTreebank từ điển tiếng Việt để lọc không hợp lệ với cấu trúc ngữ pháp tiếng Việt đánh giá độ tốt VietTreebank từ điển Hướng nghiên cứu - Triển khai mơ hình bán giám sát kết hợp sử dụng kho ngữ liệu gán nhãn kho ngữ liệu thơ có kích thước lớn để xây dựng công cụ gán nhãn từ loại tiếng Việt đạt hiệu suất cao - Mở rộng VietTreebank tìm hiểu thêm số văn phạm cho vấn đề phân tích cú pháp Nghiên cứu triển khai hệ thống phân tích cú pháp văn phạm LTAG kết hợp xác suất - Nghiên cứu xây dựng khai thác kho ngữ liệu ngôn ngữ mức cao ngữ nghĩa - Ứng dụng chuẩn quốc tế giải ngữ liệu cho tiếng Việt mức hình thái-cú pháp, cú pháp, ngữ nghĩa, v.v ... cho việc xây dựng khai thác kho ngữ liệu từ Internet cho tiếng Việt CHƯƠNG XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ INTERNET 2.1 Giới thiệu Chương trình phương pháp xây dựng kho ngữ liệu thô tiếng Việt từ. .. quan kho ngữ liệu; Chương Xây dựng kho ngữ liệu thô từ Internet; Chương Chuẩn hóa mơ hình giải tiếng Việt; Chương Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng Việt; Chương Khai thác kho. .. Framework) cho kho ngữ liệu tiếng Việt - Xây dựng quan hệ ngữ pháp tiếng Việt (37 quan hệ ngữ pháp) cho hệ thống nghiên cứu từ vựng; Tích hợp kho ngữ liệu xây dựng từ Internet (kho ngữ liệu thô tách từ