1. Trang chủ
  2. » Tất cả

Luận văn thạc sĩ xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag

52 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 52
Dung lượng 0,92 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHUẤT THỊ THỦY XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2012 z ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Khuất Thị Thủy XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG Chuyên ngành: Bảo đảm toán học cho máy tính hệ thống tính tốn Mã số : 60.46.35 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS Nguyễn Thị Minh Huyền Hà Nội – 2012 z MỤC LỤC DANH MỤC CHỮ VIẾT TẮT DANH MỤC HÌNH MỞ ĐẦU Chương Hệ hình thức văn phạm TAG 1.1 Văn phạm phi ngữ cảnh 1.2 Văn pha ̣m TAG 1.3 Giới thiệu sở liệu dùng cho phân tích cú pháp tiếng Anh dự án XTAG 16 1.4 Định dạng TAGML cho sở liệu TAG 19 Chương Xây dựng sở liệu dựa từ điển quy tắc ngữ pháp 24 2.1 Giới thiệu từ điển 24 2.2 Xây dựng sở liệu 26 Chương Trích rút tự động văn phạm TAG từ treebank tiếng Việt 32 3.1 Trích rút tự động văn phạm TAG từ treebank tiếng Việt 32 3.2 Đánh giá kết hai phương pháp 39 KẾT LUẬN 42 TÀI LIỆU THAM KHẢO 43 PHỤ LỤC 45 z Luận văn tốt nghiệp DANH MỤC CHỮ VIẾT TẮT API Application Programming Interface LMF Lexical Markup Framework LLP2 Loria LTAG Parser LTAG Lexicalized Tree Adjoining Grammar TAG Tree Adjoining Grammar TAGML Tree Adjoining Grammars Markup Language XML eXtensible Markup Language Học viên: Khuất Thị Thủy z Luận văn tốt nghiệp DANH MỤC HÌNH Hình 1.1 Mơ tả khởi tạo Hình 1.2 Mơ tả phụ trợ Hình 1.3 Cây khởi tạo Hình 1.4 Cây phụ trợ Hình 1.5 Phép 10 Hình 1.6 Minh họa cho phép 10 Hình 1.7 Phép kết nối 11 Hình 1.8 Minh họa cho phép kết nối 12 Hình 1.9 Sơ đồ phép với cấu trúc đặc trưng 12 Hình 1.10 Sơ đồ phép kết nối với cấu trúc đặc trưng 13 Hình 1.11 Các sở câu “Yesterday John saw Marry” 13 Hình 1.12 Dẫn xuất câu “Yesterday John saw Marry” 14 Hình 1.13 Cây cú pháp câu “Yesterday John saw Marry” 14 Hình 1.14 dẫn xuất câu “Yesterday John saw Marry” 15 Hình 1.15 Cây minh họa cho họ nội động từ 18 Hình 1.16 Cây minh họa cho họ ngoại động từ 18 Hình 1.17 Cây minh họa cho họ mà động từ có xác hai bổ ngữ 19 Hình 1.18 Các phụ trợ giới từ 19 Học viên: Khuất Thị Thủy z Luận văn tốt nghiệp MỞ ĐẦU Phân tích cú pháp toán quan trọng xử lý ngơn ngữ tự nhiên Kết phân tích cú pháp sử dụng nhiều ứng dụng dịch máy, hỏi đáp, trích chọn thơng tin… Phân tích cú pháp đưa mô tả quan hệ thành phần câu Bài tốn phân tích cú pháp liên quan tới hai khía cạnh: Khía cạnh thứ phân tích cú pháp thành phần tức xác định thành phần ngữ đoạn câu; khía cạnh thứ hai phân tích cú pháp phụ thuộc tức xác định phụ thuộc ngữ nghĩa từ câu Mỗi phân tích cú pháp cần tập quy tắc ngôn ngữ (chính đặc tả hình thức ngơn ngữ xét), quy tắc biểu diễn hệ hình thức văn phạm cụ thể Các hình thức văn phạm thường sử dụng phân tích cú pháp văn phạm phi ngữ cảnh văn phạm hợp Hợp văn phạm TAG văn phạm sử dụng phổ biến Đầu vào tốn phân tích cú pháp câu phân tách thành từ, từ có đặc điểm hình thái xác định Quá trình kiểm tra cú pháp tiến hành phân tích tổ hợp từ đầu vào, dựa luật cú pháp để loại bỏ trường hợp bất quy tắc bước dựng lên cấu trúc cú pháp (cây cú pháp) câu Kết cần đạt hình thái câu Do đó, để phân tích cú pháp hoạt động cần có sở liệu văn phạm theo hệ hình thức văn phạm cụ thể nên việc xây dựng sở liệu cho phân tích cú pháp việc làm quan trọng Trong khuôn khổ luận văn tốt nghiệp cao học em xin trình bày nghiên cứu với đề tài: “Xây dựng sở liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG” Nội dung luận văn bố cục sau: Học viên: Khuất Thị Thủy z Luận văn tốt nghiệp Chương trình bày tổng quan hệ hình thức văn phạm TAG: Các sở, thao tác TAG, dẫn xuất; sở liệu cho phân tích cú pháp tiếng Anh với TAG, chuẩn mã hóa liệu cho TAG Đóng góp luận văn trình bày chương Chương trình bày thuật tốn để xây dựng sở liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG phương pháp dựa từ điển quy tắc ngữ pháp Chương luận văn trình bày phương pháp xây dựng sở liệu khác trích rút tự động văn phạm TAG từ Treebank tiếng Việt đưa đánh giá kết xây dựng sở liệu hai phương pháp Học viên: Khuất Thị Thủy z Luận văn tốt nghiệp Chƣơng Hệ hình thức văn phạm TAG Trước trình bày sở liệu cho phân tích cú pháp với hệ hình thức TAG chương trình bày kiến thức sở hình thức văn phạm TAG 1.1 Văn phạm phi ngữ cảnh Văn phạm hay văn phạm sinh bốn (Σ, V, σ, P) đó: - Σ: Bảng chữ hay bảng chữ từ văn phạm; - V: Bảng chữ phụ hay bảng chữ hỗ trợ văn phạm; Σ, V tập hữu hạn khác trống; V’ = Σ  V - Bảng chữ hỗn hợp hay bảng chữ đầy đủ văn phạm; Σ  V = Ø; - σ  V gọi tiên đề hay ký hiệu xuất phát văn phạm; - P = {φ → ψ | φ  (Σ  V)+, ψ  (Σ  V)*, →  (Σ  V)}: Sơ đồ hay tập quy tắc văn phạm; r = φ → ψ gọi quy tắc (hay quy tắc quy tắc sinh) văn phạm; φ - vế trái, ψ - vế phải quy tắc r Quy tắc r gọi quy tắc kết (hoặc quy tắc kết thúc) ψ   không ký hiệu thuộc ψ mà lại xuất vế trái quy tắc P ([6]) Văn phạm phi ngữ cảnh văn phạm mà quy tắc có dạng A → α, A ký hiệu khơng kết α xâu Văn phạm phi ngữ cảnh thường lựa chọn để biểu diễn cấu trúc cú pháp ngơn ngữ tự nhiên đủ mạnh để mô tả hầu hết cấu trúc ngôn ngữ tự nhiên Văn phạm phi ngữ cảnh sử dụng để biểu diễn cấu trúc cú pháp ký hiệu kết thúc tương ứng với từ ngôn Học viên: Khuất Thị Thủy z Luận văn tốt nghiệp ngữ, ký hiệu không kết thúc tương ứng với phân loại cú pháp (hay từ loại) Tiên đề biểu diễn phân loại "câu" Các quy tắc sinh biểu diễn quy tắc ngữ pháp Ta chia chúng thành qui tắc từ vựng (chứa ký hiệu kết thúc) qui tắc ngữ đoạn (không chứa ký hiệu kết thúc nào) Với từ từ vựng có tập qui tắc sinh chứa từ vế phải Tuy nhiên văn phạm phi ngữ cảnh nhiều mặt hạn chế (sẽ trình bày rõ phần ưu điểm TAG) nên thực tế cần phát triển văn phạm có khả thể ý nghĩa ngơn ngữ học tốt TAG hình thức văn phạm 1.2 Văn pha ̣m TAG Văn phạm kết nối (Tree Adjoining Grammar - TAG) hệ hình thức viết lại dạng cây, đưa nửa cuối thập kỷ 80 Khác với văn phạm phi ngữ cảnh – hệ hình thức viết lại dạng xâu, TAG thao tác với đối tượng đối tượng có cấu trúc (cây) Vì vậy, TAG cho phép sinh mô tả cấu trúc tập xâu TAG sử dụng hai loại để biểu diễn cấu trúc tương ứng với đơn vị ngôn ngữ: Cây khởi tạo biểu diễn thành phần bắt buộc câu; Cây phụ trợ biểu diễn cấu trúc cho phép thêm vào thành phần phụ câu 1.2.1 Đinh ̣ nghiã hình thức của văn pham ̣ TAG Văn phạm TAG gồm thành phần (N, Σ, I, A, S) ([7]): N: tập hữu hạn kí hiệu khơng kết thúc Σ: tập hữu hạn kí hiệu kết thúc I: tập hữu hạn khởi tạo Trong khởi tạo nút đánh nhãn kí hiệu kết thúc khơng kết thúc Các nút mà có nhãn kí hiệu khơng kết thúc đánh dấu thêm kí hiệu thay thế, kí hiệu thay đánh dấu dấu mũi tên xuống (xem hình 1.1) Học viên: Khuất Thị Thủy z Luận văn tốt nghiệp Hình 1.1: Mơ tả khởi tạo A: tập hữu hạn phụ trợ Cây phụ trợ có chứa nút trùng tên với nút gốc (mang kí hiệu khơng kết thúc) Ở nút đánh dấu với kí hiệu * bên cạnh gọi nút chân phụ trợ (xem hình 1.2) Mỗi phụ trợ có nút chân Hình 1.2 : Mơ tả phụ trợ Ví dụ khởi tạo (xem hình 1.3) NP V S NP↓ Harry likes VP V NP↓ peanuts Hình 1.3: Cây khởi ta ̣o Ví dụ phụ trợ (xem hình 1.4) S S NP↓ V VP S* V does think Hình 1.4: Cây phu ̣ trơ ̣ Học viên: Khuất Thị Thủy z S*↓ ... Thị Thủy XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG Chuyên ngành: Bảo đảm tốn học cho máy tính hệ thống tính tốn Mã số : 60.46.35 LUẬN VĂN THẠC SĨ KHOA... Phần trình bày sở liệu dự án XTAG – sở liệu cho phân tích cú pháp tiếng Anh dựa hệ hình thức TAG Việc tìm hiểu sở liệu cho phép ta có nhìn tổng thể sở liệu đầy đủ cho phân tích cú pháp ngơn ngữ... phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG phương pháp dựa từ điển quy tắc ngữ pháp Chương luận văn trình bày phương pháp xây dựng sở liệu khác trích rút tự động văn phạm TAG từ

Ngày đăng: 20/03/2023, 09:13

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w