1. Trang chủ
  2. » Công Nghệ Thông Tin

báo cáo sử lý ngôn ngữ tự nhiên phân tích cú pháp thống kê

17 411 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 17
Dung lượng 816,03 KB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ─────── * ─────── BÀI TẬP LỚN MÔN : XỬ LÝ NGÔN NGỮ TỰ NHIÊN ĐỀ TÀI : PHÂN TÍCH CÚ PHÁP THỐNG KÊ Gv hướng dẫn: PGS.TS Lê Thanh Hương Nhóm 14 : MSSV Đỗ Văn Dương 20080546 Hoàng Đức Thọ 20082559 Trần Xuân Trường 20082854 Hoàng Thanh Tùng 20082997 Hà Nội, tháng 5 năm 2012 MỤC LỤC I.GIỚI THIỆU Phân tích cú pháp là một vấn đề cơ bản và quan trọng trong xử lý ngôn ngữ tự nhiên. Với một công cụ phân tích cú pháp tốt, chúng ta có thể tích hợp vào nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên như dịch máy, tóm tắt văn bản, các hệ thống hỏi đáp, … để tăng tính chính xác của các ứng dụng đó. Mục tiêu của phân tích cú pháp là ngôn ngữ tự nhiên là cho một câu đầu vào, và đầu ra trả về một đại diện cú pháp tương ứng có khả năng giải thích ngữ nghĩa của câu. Ví dụ, đầu vào, là câu sau: I buy cars with tires. Đầu ra, trả ra một cây cú pháp có định dạng: Trong đó các nhãn trung gian ( không phải nút lá và nút gốc) là các dạng của từ loại ( vd: PP: giới từ, VP: động từ…). Phân tích cú pháp đúng đắn là một nhiệm vụ khó khăn bởi vì ngữ nghĩa của từ - từ quan điểm của bộ phân tích cú pháp – thay đổi trong ngữ cảnh của câu. Trong bối cảnh ngữ pháp của Tiếng Anh, một câu có thể có nhiều các phân tích cú pháp được chấp nhận, tuy nhiên chỉ một trông số đó được coi là cách giải thích tương ứng có thể có của câu. Một phân tích cú pháp thực sự cần biết chi tiết ngữ nghĩa của một số từ quan trọng trong câu. Các phân tích cú pháp hiện nay cho thấy độ chính xác cao trên văn bản trên tất cả các lĩnh vực phân loại thống kê hoặc dựa trên ngữ liệu, vì họ sẽ tự động tìm hiểu kiến thức cú pháp và ngữ nghĩa gần đúng cho phân tích cú pháp từ một ngữ liệu lớn của văn bản, được gọi là treebank, đã được chú thích bằng tay với thông tin cú pháp.Để đánh giá tính chính xác của một phân tích cú pháp thống kê, chúng tôi sẽ thực hiện trên một tập hợp con của treebank, thử nghiệm nó trên một tập hợp con không chồng chéo, và sau đó so sánh các thành phần cú pháp dán nhãn nó đề xuất với thành phần cú pháp dán nhãn trong chú thích của treebank. Độ chính xác thành phần có dán nhãn của các phân tích cú pháp tốt nhất tiếp cận khoảng 90% khi thử nghiệm tự do xảy ra các câu trong tạp chí miền Wall St.Journal. II. PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN Giới thiệu phương pháp phân tích cú pháp với mô hình Maximum Entropy (MEM): Bộ phân tích đưa ra ở đây xây dựng các cây cú pháp được gán nhãn gần giống như phương pháp của bộ phân tích chuẩn shift - reduce. MEM được huấn luyện bởi tập dữ liệu là ngân hàng cây cú pháp TreeBank. Khi phân tích một câu, bộ phân tích sử dụng một hàm tìm kiếm để tìm cây cú pháp phù hợp nhất (có điểm số cao nhất). Phần 1 mô tả hoạt động của hàm xây dựng cây cú pháp, phần 2 mô tả mô hình xác suất ME, phần 3 mô tả thuật toán tìm kiếm cây cú pháp có điểm số cao nhất. 1. Hoạt động của bộ phân tích Hoạt động của bộ phân tích biểu diễn bởi các procedures, mỗi hàm sử dụng độ lệch d={a1,a2, ,an) và sử dụng một số action a n+1 để tạo một độ lệch mới mới d’={a1,a2….a n+1 ). Chức năng của các hàm được thiết kế sao cho bất cứ cây cú pháp T nào hoàn chỉnh cũng có đúng một sai số. Các procedures ở đây là TAG, CHUNK, BUILD và CHECK, và được áp dụng trong ba giai đoạn từ trái sang phải trên câu đầu vào Giai đoạn đầu tiên sử dụng TAG, giai đoạn 2 sử dụng CHUNK, giai đoạn 3 sử dụng BUILD và CHECK. Chức năng của các hàm được tổng hợp trong bảng dưới đây: Các phần dưới đây lấy ví dụ là câu: I saw the man with the telescope 1.1. First Pass: Đầu tiên lấy câu đầu vào, sử dụng TAG để gán cho mỗi từ một nhãn từ loại. Kết quả của TAG cho mỗi từ như dưới đây: Giai đoạn này giống như bộ gán nhãn trong bài giảng của (Weishedel,1993) nhưng tích hợp hàm tìm kiếm của bộ phân tích, do đó bộ phân tích không cần không cần thực hiện việc gán nhãn cho một chuỗi thẻ từ loại đơn 1.2. Second Pass: Giai đoạn 2 lấy đầu ra của giai đoạn 1, sử dụng CHUNK để xác định các cụm từ nguyên tố của câu. Đi từ trái, CHUNK gán nhãn mỗi cặp (word, POS tag) một nhãn “chunk”, có thể là Start X, Joint X hoặc Other, trong đó X là một nhãn phần tử nguyên tố, kết quả của giai đoạn này như sau: 1.3. Third Pass: Giai đoạn này là kết hợp luân phiên của BUILD và CHECK, ghép hoàn toàn các nhãn nguyên tố lại. BUILD luôn xử lý cây bên trái nhất mà không có Start X hoặc Join X, hình dưới là kết quả sau khi áp dụng BUILD được Join VP, sau khi BUILD, bộ điều khiển chuyển qua CHECK, để kết luận xem kết quả có được sử dụng: Hình dưới đây là quá trình đi từ bên phải Hình dưới là kết quả của CHECK tìm các cặp trong hình 7 và bỏ đi 2. Mô hình xác suất ME 2.1. Mô hình xác suất sử dụng ngữ cảnh để dự đoán hành động phân tích. Bộ phân tích sử dụng cách tiếp cận dựa trên lịch sử. Trong đó xác suất P X (a|b) được sử dụng để tính 1 sự kiện a trong thủ tục X{TAG, CHUNK, BUILD, CHECK}, phụ thuộc vào nguồn bộ phận b (cũng được gọi là ngữ cảnh hoặc lịch sử) mà sẵn có ở thời điểm quyết định. Mô hình xác suất có điều kiện P X được đánh giá theo Maximum Entropy Framework. Lợi ích của Framework là chúng ta có thể sử dụng tùy ý các thông tin trong ngữ cảnh b khi tính xác suất của hành động a trong thủ tục X. Khi mà ngữ cảnh b là 1 nguồn giàu thông tin , thật khó để xác định chính xác thông tin gì là hữu ích cho việc phân tích cú pháp. Tuy nhiên , chúng ta muốn thực hiện những trực giác dưới đây về việc phân tích cú pháp. + Sử dụng các từ đầu là hữu ích. + Sử dụng tập hợp các từ đầu là hữu ích. + Sử dụng các thông tin ít cụ thể là hữu ích. + Cho phép giới hạn những từ phía trước là hữu ích. Những trực giác bên trên được thực hiện trong Maximum Entropy Framework như là các đặc tính (features), mỗi features được gán 1 trọng số tương thích với sự hữu ích của nó trong mô hình dữ liệu. 2.2. Maximum Entropy Framework: a. Ý tưởng: Input : Đầu vào x và một tập các đặc trưng f, ràng buộc Output: x trong lớp c (của tập C) dựa trên xác suất P(c | x) Ví dụ: x = race trong “I like to race.” f = từ (race), từ trước (to) c = VP Mục tiêu : Ước lượng xác suất p. Chọn p có maximum entropy tùy thuộc vào ràng buộc đã biết trước: Trong đó : A: là tập các lớp biết trước . B: là tập ngữ cảnh . b. Các đặc trưng : Một đặc trưng là một ánh xạ được dùng để mô tả đặc trưng của thông tin đã biết. A: Tập các lớp có thể có (ví dụ các tag trong POS tagging) B: Không gian ngữ cảnh (ví dụ: các từ kế cận Ví dụ: c. Một số kí hiệu: - Tập huấn luyện: S )( ~ xp - Xác suất được quan sát của x trong tập S: - Mô hình xác suất p của x: P(x) - Đặc trưng thứ j: f j. ∑ ∈ = ε x jjp xfxpfE )()( ~ ~ ∑ ∈ = ε x jjp xfxpfE )()( - Mô hình xác suất mong đợi đã quan sát được của f j : - Mô hình xác suất mong đợi của f j : d. Ràng buộc: Mong đợi đặc trưng của mô hình = Mong đợi đặc trưng đã quan sát được. e. Lựa chọn đặc trưng: Training Data Templates GIS/IIS Algorithm Features Optimal Features [...]... dựng trên nền tảng ngôn ngữ C#: 2 Demo: Phân tích cú pháp câu: Although it rain, i go to school 3 Đánh giá Dựa trên tập mẫu hơn 40000 câu và test 2416 câu, sử dụng công thức đánh giá được công nhận: Thu được kết quả đánh giá độ chính xác sau: Tốc độ của hàm tìm kiếm: IV.KẾT LUẬN - Mô hình maximum entropy tương đối hiệu quả trong bài toán phân loại cú pháp thống kê - Phương pháp phân tích cho kết quả... Thời gian trả kết quả tương đối nhanh - Có thể dễ diễn giải với người dùng - Hướng phát triển: ứng dụng cho ngôn ngữ Tiếng Việt V Tài liệu tham khảo 1 http://www.codeproject.com/Articles/12109/Statistical-parsing-of-Englishsentences 2.http://sharpnlp.codeplex.com/ 3 Giáo trình “ Xử lý ngôn ngữ tự nhiên – Lê Thanh Hương 4 Micheal Collins 2003 Head-Driven Statisticcal Models for Natural Language Parsing... P: Số lượng các lớp A: số đặc trưng trung bình có liên quan cho một biến cố (a,b) 3 Thuật toán tìm kiếm cây cú pháp có điểm số cao nhất: Hàm heuristic để tìm kiếm cay tốt nhất T* định nghĩa như sau: Trên là heuristic tìm kiếm theo chiều rộng K kết quả tốt nhất, trong đó trees(S) là tất cả các cú pháp hoàn chỉnh cho một câu đầu vào Nó sẽ lấy top K kết quả tốt nhất, dừng lại khi tìm thấy M kết quả hoàn...+ Training Data (Tập huấn luyện) ={(a1, b1), (a2, b2), …, (aN, bN)} Trong đó: a1, a2, …, aN: tập các lớp biết trước b1, b2, …, bN: tập ngữ cảnh được phân lớp đúng + Templates (Tập khuôn mẫu) - Là những điểm cần chú trọng để tạo ra các đặc trưng - Template do người dùng định nghĩa - Một số template trong bài tách câu: + GIS/IIS Algorithm: Giải . THIỆU Phân tích cú pháp là một vấn đề cơ bản và quan trọng trong xử lý ngôn ngữ tự nhiên. Với một công cụ phân tích cú pháp tốt, chúng ta có thể tích hợp vào nhiều ứng dụng trong xử lý ngôn ngữ tự. đúng cho phân tích cú pháp từ một ngữ liệu lớn của văn bản, được gọi là treebank, đã được chú thích bằng tay với thông tin cú pháp. Để đánh giá tính chính xác của một phân tích cú pháp thống kê, chúng. câu. Các phân tích cú pháp hiện nay cho thấy độ chính xác cao trên văn bản trên tất cả các lĩnh vực phân loại thống kê hoặc dựa trên ngữ liệu, vì họ sẽ tự động tìm hiểu kiến thức cú pháp và ngữ nghĩa

Ngày đăng: 23/10/2014, 23:39

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w