1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

phân tích cú pháp syntax parsing

40 835 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 1,61 MB

Nội dung

Bài toán phân tích cú pháp 2 ¨ Phân tích cú pháp đóng vai trò rất quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên.. n Đã được áp dụng cho tiếng Việt ¤ Mô hình thống kê xác suất

Trang 1

Giảng viên:

Hoàng Anh Việt

hoanganhviet@gmail.com

Trang 3

1.  Bài toán phân tích cú pháp Tiếng Việt

3

Trang 4

1.1Bài toán phân tích cú pháp (1)

Trang 5

Bài toán phân tích cú pháp (2)

¨   Phân tích cú pháp đóng vai trò rất quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên

¨   Phân tích cú pháp là một quá trình phức tạp:

-   Số lượng mẫu dùng để phân tích phải rất lớn

-   Luật văn phạm phải đầy đủ

-   Không thể bao trùm hết ngôn ngữ tự nhiên

-   Thời gian phân tích lớn

-   Không tương đương 1-1 giữa câu phát ngôn và cây phân tích

cú pháp

5

Trang 6

1.2 Quy trình phân tích cú pháp cơ bản

Trang 7

¤   S Є V : được gọi là kí hiệu (biến) khởi đầu

¤   R : tập hữu hạn các luật sinh.

7

Trang 10

1.4.Những khó khăn khi phân tích cú pháp

¨   Nhập nhằng mức từ vựng

¤   ví dụ “Tôi với quả bóng ở trên cao”

¨   Nhập nhằng mức cấu trúc

¤   “Một người đàn ông và một người đàn bà già”

1   “[người đàn ông] và [người đàn bà già]”

2   “[người đàn ông và người đàn bà] già”

Trang 11

n  Đã được áp dụng cho tiếng Việt

¤  Mô hình thống kê xác suất PCFG n  Giải quyết nhập nhằng mức luật

n  Mô hình này mới chỉ được áp dụng với tiếng Anh

11

Trang 12

2 Mô hình thống kê PCFG

12

Trang 13

2.1 Định ngh ĩ a: PCFG

( Probabilistic Content - Free Grammar)

¨   CFG G‘ = (T, N, R, S) được mở rộng thêm với Φ -> PCFG G= (T, N, R, S, Φ)

¨   Φ là quy tắc mà thêm vào mỗi luật trong R một xác suất

¨   Với tập các luật có cùng một vế trái thì tổng xác suất của chúng là 1 Dạng:

13

Trang 14

T, N, R,S đã biết, các luật được thêm vào một xác suất

Đối với ký hiệu NP:

Xác suất của các luật sinh tạo bởi NP

có tổng là 1

Trang 15

2.2. Các giả định đối với PCFG

Trang 16

2.3 Xác suất

ØXác suất của một cây phân tích T cho một câu W: tích

số của xác suất tất cả các luật sử dụng trong cây đó:

Ø Xác suất của một câu : Tổng xác suất của tất cả các cây phân tích có thể cho câu đó:

=

) (

) ,

(

T A

A T

Trang 17

Xác suất của cây T 1

17

Φ(S → NP VP) = 1 Φ(NP → Tôi) = 1/3 Φ(NP → N N) = 1/3 Φ(NP → NP PP) = 1/3 Φ(N → chiếc) = 1/3 Φ(N → xe) = 1/3 Φ(N → ống nhòm) = 1/3 Φ(VP → V NP) = 1/2 Φ(VP → VP PP) = 1/2 Φ(PP → P NP) = 1 Φ(V → nhìn) = 1 Φ(P → với) = 1

W1

P(W1, T1)= 1 * 1/3 * 1/2 * 1/2 * 1 * 1/3

* 1/3 * 1/3 * 1 * 1 * 1/3 * 1/3 * 1/3

= 1/8748

Trang 18

Xác suất của cây T 2

T2

W1

Φ(S → NP VP) = 1 Φ(NP → tôi) = 1/3 Φ(NP → N N) = 1/3 Φ(NP → NP PP) = 1/3 Φ(N → chiếc) = 1/3 Φ(N → xe) = 1/3 Φ(N → ống nhòm) = 1/3 Φ(VP → V NP) = 1/2 Φ(VP → VP PP) = 1/2 Φ(PP → P NP) = 1 Φ(V → nhìn) = 1 Φ(P → với) = 1

P(W1, Ψ2)=1/13122=

1*1/3*1/2*1*1/3*1/3*1/

3*1/3*1*1*1/3*1/3*1/3

Trang 20

¤   Liệt kê tất cả các cây

¤   Tính tổng số lần xuất hiện của mỗi luật

¤   Tính tổng số lần xuất hiện của mỗi ký tự không kết thúc

¤   Xác suất của một luật khi ấy được tính bằng :

Φ(A →γ)= C(A →γ)/C(A)

20

Trang 21

Ví dụ

Chúng ta đếm số lần xuất hiện của mỗi luật:

C(S → NP VP) = 1 C(NP → tôi) = 1 C(NP → N N) = 1 C(VP → V NP) = 1 C(V → thấy) = 1 C(N → chiếc) = 1 C(N → xe) = 1 Tương tự : C(N) = C(NP) = 2

¨   Từ đó, xác suất của mỗi luật sẽ là:

Φ(NP → tôi) = Φ(NP → N N) = 1/2 Φ(A →γ) = 1

Trang 22

2.5 Huấn luyện PCFG

¨   Việc huấn luyện PCFG đòi hỏi

¤  Tập ngữ liệu đủ lớn với các câu đã phân tích cú pháp chuẩn

¤  Độ chính xác cao

¨   Ngữ liệu với tiếng Việt hiện tại:

¤  6 tập văn bản gán nhãn

¤  Số lượng câu khoảng 6000

ÄRất khó khăn cho việc xây dựng một PCFG cho tiếng Việt

22

Trang 23

2.6 Giải pháp thực hiện

¨   Xây dựng tập mẫu câu chuẩn với số lượng lớn

¨   Hoàn thiện bộ phân tích cú pháp “cơ sở”

¨   Xác nhận bằng tay tính đúng đắn của cây phân tích à Đảm bảo tính chính xác

¨   Tổ chức lưu trữ hợp lý à Treebank

¨   Sử dụng lại bộ ngữ liệu để xây dựng PCFG

23

Trang 24

Phân tích

cú pháp với PCFG

Câu cần phân

tích

Một cây phân tích đúng

Trang 25

Cấu trúc lưu trữ Treebank

Trang 26

Một số thuật toán phổ biến áp dụng với văn phạm phi ngữ cảnh

¨   Thuật toán Cocke-Younger-Kasami (CYK)

¤   Phương pháp Bottom - Up

¤   Các luật phải ở dạng chuẩn CHOMSKY

n   Chuẩn CHOMSKY: chỉ tồn tại các luật dạng Aàa và AàBC

¤   Thời gian tính chấp nhận được

¤   Bộ nhớ yêu cầu chấp nhận được

¨   Thuật toán Early

¤   Phương pháp Top - Down

¤   Mọi luật phi ngữ cảnh

¤   Chỉ đặc biệt hiệu quả trong một số trường hợp

26

Trang 27

Thuật toán CYK áp dụng trong phân tích cú pháp

¨   Thuật toán CYK áp dụng trong phân tích cú pháp

gồm hai bước:

¤   Bước 1: Xây dựng bảng phân tích

n   Áp dụng các luật dạng Aàa để tìm các A (các ký hiệu không kết thúc) từ câu vào

n   Kết quả bước này câu vào đã được chuyển thành tập hợp các

ký hiệu không kết thúc

¤   Bước 2: Áp dụng các luật dạng AàBC xác định phân tích cú pháp

n   Thực hiện từ trái qua phải

n   Nếu hai ký hiệu gần nhau là thành phần của một luật văn phạm thì thay thế hai ky hiệu đó bằng về trái của luật

27

Trang 28

xe với chiếc

Không

sử dụng

ống nhòm

Trang 29

xe với chiếc

ống nhòm

Trang 30

ví dụ CYK

30

1 2 3 4 5 6 7 tôi

nhìn chiếc

xe với chiếc

ống nhòm

Trang 31

31

Trang 32

3 Thử nghiệm

32

Trang 33

3.1 Mẫu thử nghiệm

33

Trang 34

3.2 Kết quả về tập mẫu

34

Tập mẫu câu chuẩn đã xây dựng

Trang 35

3.3 So sánh về hiệu năng của các pha phân tích(1)

Bảng so sánh hiệu năng của các pha phân tích

Trang 36

3.4 So sánh về hiệu năng của các pha phân tích(2)

36

Thời gian thực hiện lớn

Số cây phân tích nhiều

Trang 37

3.3.So sánh về thời gian thực hiện

37

Biểu đồ so sánh thời gian

0 1 2 3 4 5 6 7 8 9 10

Trang 39

3.6 Kết quả thử nghiệm và đánh giá luật PCFG

Đánh giá về bộ luật PCFG

Trang 40

Ví dụ các luật PCFG

40

Ngày đăng: 05/03/2015, 14:35

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w