Nghiên cứu luật hiệu chỉnh kết quả dùng phương pháp MST phân tích cú pháp phụ thuộc tiếng Việt

13 123 0
Nghiên cứu luật hiệu chỉnh kết quả dùng phương pháp MST phân tích cú pháp phụ thuộc tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu luật hiệu chỉnh kết dùng phương pháp MST phân tích cú pháp phụ thuộc tiếng Việt Nguyễn Lê Minh Japan Advanced Institute of Science and Technology Hoàng Thị Điệp Đại học Công Nghệ - ĐHQG Hà Nội Trần Mạnh Kế Đại học Công Nghệ - ĐHQG Hà Nội Tóm tắt Phân tích cú pháp có vai trò quan trọng lĩnh vực xử lý văn bước trung gian nhiều toán lớn như: tóm tắt văn bản, dịch máy, hỏi đáp tự động Trong thời gian gần đây, phân tích cú pháp phụ thuộc thu hút quan tâm nhiều nhóm nghiên cứu xử lý ngôn ngữ tự nhiên giới quan hệ phụ thuộc hai từ vựng có ích khử nhập nhằng cú pháp có khả mô hình hóa ngôn ngữ có trật tự từ tự Trong báo cáo này, trình bày phương pháp Maximum Spanning Tree để phân tích cú pháp phụ thuộc câu tiếng Việt sử dụng hiệu chỉnh luật để cải thiện đầu MST Cuối đưa số kết thực nghiệm tập ngữ liệu 450 câu tiếng Việt đề xuất hướng phát triển phương pháp MST cho toán 1.1 Giới thiệu Tình hình nghiên cứu tự động phân tích cú pháp phụ thuộc tiếng Việt Phân tích cú pháp phụ thuộc1 vài năm gần thu hút quan tâm cộng đồng nghiên cứu xử lý ngôn ngữ tự nhiên [8] cú pháp phụ thuộc dạng biểu diễn câu có nhiều ứng dụng cho toán phức tạp trích chọn thông tin hay tóm tắt văn Tuy nhiên, tiếp cận cho toán dựa học máy đòi hỏi kho ngữ liệu với nhiều thông tin từ loại quan hệ phụ thuộc nên chưa có công bố nghiên cứu phân tích cú pháp phụ thuộc tiếng Việt 1.2 Cú pháp phụ thuộc Cú pháp phụ thuộc cấu trúc cú pháp chứa mục từ vựng nối với quan hệ nhị phân không đối xứng gọi phụ thuộc [5] Quan hệ phụ thuộc đặt tên để làm rõ liên hệ hai mục từ Hình minh họa cú pháp phụ thuộc câu tiếng Việt Theo quy ước phổ biến tài liệu cú pháp phụ thuộc mục từ nằm gốc mũi tên từ – gọi head, mục từ nằm đầu mũi tên từ phụ - gọi dependent Theo [7], ta định nghĩa cách hình thức: cú pháp phụ thuộc câu cho trước đồ thị định hướng với gốc root nút giả, thường chèn vào bên trái câu, nút lại mục từ câu Đồ thị có tính chất sau: Nó liên thông yếu (có xét hướng) Mỗi mục từ có xác cạnh vào (trừ root cạnh vào) Thuật ngữ tiếng Anh “denpendency parsing” Không có chu trình Nếu có n mục từ câu (kể root) đồ thị có xác (n-1) cạnh Nhờ cách mô hình hóa trên, cú pháp phụ thuộc biểu diễn ngôn ngữ có trật tự từ tự (xem thêm Phần 2.3), điều mà cú pháp cấu trúc cụm2 - vốn phù hợp với ngôn ngữ có nhiều quy tắc chặt chẽ cấu thành câu - không làm Tuy vậy, nghĩa phân tích ngôn ngữ có trật tự từ xác định dùng cấu trúc cụm hay phân tích ngôn ngữ có trật tự từ tự dùng cấu trúc phụ thuộc [10] 1.3 Bài toán tự động phân tích cú pháp phụ thuộc Phân tích cú pháp phụ thuộc tìm phụ thuộc cho câu Mục tiêu nghiên cứu tìm phương pháp sinh phụ thuộc xác cho câu tiếng Việt đưa vào, nghĩa làm cực đại số cung xác số nhãn gán cho cung 1.4 Tóm tắt hướng tiếp cận báo cáo Hình mô tả trình xác định phụ thuộc câu tiếng Việt nghiên cứu này, gồm hai bước: 1- thiết lập đồ thị định hướng có trọng số cách khai thác mô hình trọng số đưa toán tìm khung tối đại3 đồ thị [7], 2- tự động phát lỗi đầu MST lựa chọn luật hiệu chỉnh phù hợp [9] câu đưa vào Bộ phân tích MST M1: Mô hình trọng số cạnh đồ thị (huấn luyện MIRA) đầu MST Bộ hiệu chỉnh đầu cuối M2: Mô hình huấn luyện perceptron đa lớp Hình Sơ đồ minh họa trình phân tích phụ thuộc khảo sát Mô hình M1 sinh phương pháp học máy MIRA4 [11] học liệu huấn luyện Còn M2 sinh Perceptron đa lớp [11] học tập kết hợp đầu MST liệu huấn luyện 1.5 Sơ lược cấu trúc báo cáo Trong phần sau báo cáo, trình bày số đặc trưng ngữ pháp tiếng Việt (tham khảo chủ yếu từ tài liệu ngôn ngữ) liên quan tới trình tự động phân tích cú pháp phụ thuộc Sau trình bày cách xây dựng phân tích cú pháp phụ thuộc MST cách xây dựng hiệu chỉnh phụ thuộc để cải thiện kết Mô tả phương pháp đánh giá, thước đo kết thử nghiệm ban đầu phương pháp tiếng Việt trình bày cuối báo cáo Thuật ngữ tiếng Anh “phrase structure syntax” Thuật ngữ tiếng Anh “Maximum Spanning Tree” - viết tắt MST MIRA viết tắt Margin Infused Relaxed Algorithm 2 Một số đặc trưng ngữ pháp tiếng Việt liên quan Bảng Tóm tắt đặc trưng ngữ pháp tiếng Việt Đặc trưng Tính phân tích Tính đơn hình Trật tự từ Điều kiện xạ ảnh Từ loại vị tố Tiếng Việt có có SVO đa số toàn động từ, tính từ, danh từ, số hư từ Mục trình bày số đặc trưng ngữ pháp tiếng Việt, góc độ ngôn ngữ (gồm tính phân tích, tính đơn hình trật tự từ [1]) góc độ toán tự động phân tích phụ thuộc (gồm điều kiện xạ ảnh [5] từ loại vị tố [6]) Thực tế ngữ pháp tiếng Việt nhiều đặc trưng khác nghiên cứu tổng hợp đặc trưng liên quan tới trình phân tích phụ thuộc 2.1 Tính phân tích [2] Ngôn ngữ phân tích5 ngôn ngữ có ngữ pháp ngữ nghĩa hình thành nhờ nhờ cách dùng tiểu từ trật tự từ nhờ vào biến tố Ngược với ngôn ngữ phân tích ngôn ngữ tổng hợp6 Các ngôn ngữ tiếng Hi Lạp, tiếng La-tinh, tiếng Đức, tiếng Ý, tiếng Nga, tiếng Ba Lan tiếng Séc ví dụ điển hình cho loại tổng hợp Theo [2] tiếng Việt số ngôn ngữ khu vực Đông Nam Á (trừ tiếng Malay) tiếng Trung Quốc ngôn ngữ phân tích 2.2 Tính đơn hình [2, 3] Khái niệm ngôn ngữ đơn hình7 không đồng với khái niệm ngôn ngữ phân tích Ngôn ngữ đơn hình ngôn ngữ có phần lớn hình vị hình vị tự có đủ tiêu chuẩn từ Mức độ đơn xác định theo tỉ lệ số lượng hình vị - - số lượng từ Ngôn ngữ đơn hình phổ biến nước Đông Nam Á, có Việt Nam, Trung Hoa cổ 2.3 Trật tự từ8 [4] Trong ngôn ngữ học, hệ thống phân loại theo trật tự từ nói tới nghiên cứu cách mà ngôn ngữ xếp tương đối thành phần câu quan hệ cách Với hầu hết ngôn ngữ có danh từ chiếm đa số ta định nghĩa trật tự từ theo động từ nguyên thể (V) đối số nó, chủ ngữ (S) tân ngữ (O) Theo có trật tự bản: SVO, SOV, VSO, VOS, OSV, OVS Ngữ pháp Việt Nam thuộc loại SVO Bên cạnh trật tự đề cập, lớp ngôn ngữ đáng lưu ý gọi ngôn ngữ có trật tự từ tự (free word order language) – ví dụ tiếng La-tinh, Séc, Hung-ga-ri, Ba Lan, Nga - đòi hỏi phương pháp nghiên cứu phức tạp toán phân tích tự động cú pháp phụ thuộc Thuật ngữ tiếng Anh “analytic language” Thuật ngữ tiếng Anh “synthetic language” Thuật ngữ tiếng Anh “isolating language” Thuật ngữ tiếng Anh “word order” 2.4 Điều kiện xạ ảnh9 [5] Điều kiện xạ ảnh cho đồ thị phụ thuộc phát biểu cách hình thức giảng [5] sau: Một đồ thị phụ thuộc gọi có tính xạ ảnh Nếu có i → j i → * i ′ với i ' thỏa mãn i < i ' < j j < i ' < i Có thể phát biểu lại là: từ tố j phụ thuộc vào từ tố i từ tố i’ nằm i j phải phụ thuộc (có thể gián tiếp) vào từ tố i Hình Ví dụ câu tiếng Việt không thỏa mãn điều kiện xạ ảnh Đa số câu kho ngữ liệu (Phần 5.1) thỏa mãn tính chất xạ ảnh mô tả trên, tiếng Việt tồn câu ghép tính xạ ảnh minh họa Hình Rõ ràng ta cần quan tâm tới trường hợp nghiên cứu giải thuật phân tích cú pháp phụ thuộc cho tiếng Việt 2.5 Từ loại vị tố câu tiếng Việt Khái niệm từ khóa câu (mục từ phụ thuộc vào nút giả root) phân tích phụ thuộc khái niệm vị tố ngôn ngữ học Trong tiếng Anh vị tố động từ, tiếng Việt, từ loại vị tố đa dạng Các ví dụ bên trích từ chương 1, phần 2.2 “Các kiểu câu tiếng Việt” “Ngữ pháp Việt Nam” [6] Vị tố từ hay cụm từ in đậm Từ loại vị tố động từ Ví dụ Giáp đưa cho Tị tờ báo tính từ danh từ hư từ “là” hư từ “bằng” Trăng sáng Em bé sáu tuổi Anh thợ mộc Cái áo lụa Từ loại vị tố hư từ “tại”, “do”, “bởi” hư từ “để” hư từ vị trí hư từ “như” hư từ “của” Ví dụ Việc Hàng họ làm Bàn để uống nước Ông vườn Đỏ hoa vông Xe Giáp Hàng họ làm Xây dựng phân tích phụ thuộc theo tiếp cận MST Ryan McDonald [7] đề xuất tiếp cận dựa đồ thị, cụ thể đưa toán phân tích cú pháp phụ thuộc toán tìm khung tối đại đồ thị định hướng có trọng Thuật ngữ tiếng Anh “projectivity” số (bài toán MST) Có hai phiên MST: bậc bậc MST bậc hoạt động đơn giản thực nghiệm kho ngữ liệu tiếng Việt cho thấy MST bậc cho kết tốt hơn, khuôn khổ nghiên cứu dừng lại MST bậc 3.1 Đưa toán MST Với câu x , ta định nghĩa đồ thị Gx với tập đỉnh Vx tập cạnh Ex sau: Vx = { x0 = root, x1, , xn} Ex = {(i , j) : xi ≠ xj, xi ∈ Vx, xj ∈ Vx -root} McDonald [7] chứng minh: tìm phụ thuộc (xạ ảnh) có điểm số cao tương đương với tìm khung (xạ ảnh) tối đại đồ thị Gx có gốc nút giả root Trong đó, điểm phân tích thành tổng điểm tất cạnh đơn lẻ cây, dạng phân tích kiểm chứng đơn giản hiệu Đây giải thích cho cách đặt tên MST bậc Các đặc trưng trình bày Phần 3.2 giải thuật trình bày Phần 3.3 phiên gắn với MST bậc 3.1.1 Tính điểm cạnh Điểm cạnh (i , j) tích vô hướng vectơ biểu diễn đặc trưng cạnh vectơ trọng số: s(i , j) = w f(i , j) f(i , j) ký hiệu rút gọn cho f(x, i , j) chứa đặc trưng câu x Như vậy, điểm phụ thuộc y cho câu x s(x , y) = ∑ s(i , j) = ( i , j )∈y ∑ w f(i , j) ( i , j )∈y a) b) c) Đặc trưng Unigram xi-word, xi-pos Đặc trưng Bi-gram Đặc trưng từ loại hai mục từ xi-word, xi-pos, xj-word, xj-pos xi-pos, b-pos, xj-pos Đặc trưng từ loại xung quanh hai mục từ xi-pos, xi-pos+1, xj-pos-1, xj-pos xi-pos-1, xi-pos, xj-pos-1, xj-pos xi-pos, xi-pos+1, xj-pos, xj-pos+1 xi-pos-1, xi-pos, xj-pos, xj-pos+1 xi-word xi-pos xj-word, xj-pos xj-word xj-pos xi-pos, xj-word, xj-pos xi-word, xj-word, xj-pos xi-word, xi-pos, xj-pos xi-word, xi-pos, xj-word xi-word, xj-word xi-pos, xj-pos Hình Các đặc trưng dùng MST bậc một10 10 Trong hình này, ký hiệu word mục từ, pos từ loại, +1 bên phải, -1 bên trái 3.2 Các đặc trưng khảo sát Kết thực nghiệm trình bày nghiên cứu ứng với vectơ đặc trưng f đơn giản (minh họa Hình 3), chưa bao hàm đặc thù tiếng Việt đề cập phần Cụ thể với cung (i,j), ta xét: + Nhóm a b: xét từ loại mục từ cung (i,j) ngữ cảnh Uni-gram Bi-gram + Ngoài ra, mục từ i hay j có nhiều ký tự xét thêm đặc trưng 5-gram phía trước mục từ + Nhóm c: bổ sung cho bối cảnh phụ thuộc (nhóm a b), ta xét mục từ bối cảnh câu, cụ thể thông qua từ loại mục từ nằm mục từ i mục từ j, cộng thêm từ loại mục từ nằm bên phải bên trái mục từ i mục từ j Tác giả [7] thử thêm bớt nhiều lần chứng minh thực nghiệm đặc trưng hiệu cho phân tích phụ thuộc tiếng Anh 3.3 Các giải thuật tìm phụ thuộc Giả sử thiết lập trọng số cho đồ thị Gx (Phần 3.1) 3.3.1 Giải thuật Eisner cho trường hợp có xạ ảnh a) Ý tưởng Giải thuật Eisner giải thuật phân tích biểu đồ quy hoạch động dưới-lên với độ phức tạp thời gian O(n3) nhờ cải tiến giải thuật phân tích biểu đồ CYK độ phức tạp thời gian O(n5): phân tích dependent trái mục từ độc lập với dependent bên phải, sau kết hợp chúng Hình Giải thuật phân tích Eisner bậc ba Hình minh họa giải thuật Ký hiệu r, s t cho số bắt đầu kết thúc mục biểu đồ, h1, h2 cho số head mục biểu đồ Ban đầu, tất mục hoàn chỉnh, thể tam giác vuông Giải thuật sau tạo mục chưa hoàn chỉnh từ mục từ nằm từ h1 tới h2 (với h1 head h2) Mục đến cuối hoàn chỉnh Cũng giống trình phân tích CKY khác, mục lớn tạo từ cặp mục nhỏ theo phương pháp dưới-lên b) Giả mã Hình giả mã Ryan [7] viết cho giải thuật Eisner Ký hiệu C[s][t][d][c] bảng quy hoạch động lưu điểm số tốt từ vị trí s đến vị trí t, s ≤ t, với hướng d giá trị hoàn chỉnh c Biến d ∈ {←, →} biểu thị hướng (nhóm dependent trái hay phải) Nếu d=k t head con, d=l s head Biến c ∈ {0,1} hàm ý hoàn chỉnh (c=1, thêm dependent) hay chưa hoàn chỉnh (c=0, cần hoàn chỉnh) Dòng đánh dấu (*) có nghĩa để tìm điểm số tốt cho trái chưa hoàn chỉnh ta cần tìm số s≤r

Ngày đăng: 21/11/2016, 02:34

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan