Bài toán phân tích cú pháp 2 ¨ Phân tích cú pháp đóng vai trò rất quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên.. n Đã được áp dụng cho tiếng Việt ¤ Mô hình thống kê xác suất
Trang 1Giảng viên:
Hoàng Anh Việt
hoanganhviet@gmail.com
Trang 31. Bài toán phân tích cú pháp Tiếng Việt
3
Trang 41.1Bài toán phân tích cú pháp (1)
Trang 5Bài toán phân tích cú pháp (2)
¨ Phân tích cú pháp đóng vai trò rất quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên
¨ Phân tích cú pháp là một quá trình phức tạp:
- Số lượng mẫu dùng để phân tích phải rất lớn
- Luật văn phạm phải đầy đủ
- Không thể bao trùm hết ngôn ngữ tự nhiên
- Thời gian phân tích lớn
- Không tương đương 1-1 giữa câu phát ngôn và cây phân tích
cú pháp
5
Trang 61.2 Quy trình phân tích cú pháp cơ bản
Trang 7¤ S Є V : được gọi là kí hiệu (biến) khởi đầu
¤ R : tập hữu hạn các luật sinh.
7
Trang 101.4.Những khó khăn khi phân tích cú pháp
¨ Nhập nhằng mức từ vựng
¤ ví dụ “Tôi với quả bóng ở trên cao”
¨ Nhập nhằng mức cấu trúc
¤ “Một người đàn ông và một người đàn bà già”
1 “[người đàn ông] và [người đàn bà già]”
2 “[người đàn ông và người đàn bà] già”
Trang 11n Đã được áp dụng cho tiếng Việt
¤ Mô hình thống kê xác suất PCFG n Giải quyết nhập nhằng mức luật
n Mô hình này mới chỉ được áp dụng với tiếng Anh
11
Trang 122 Mô hình thống kê PCFG
12
Trang 132.1 Định ngh ĩ a: PCFG
( Probabilistic Content - Free Grammar)
¨ CFG G‘ = (T, N, R, S) được mở rộng thêm với Φ -> PCFG G= (T, N, R, S, Φ)
¨ Φ là quy tắc mà thêm vào mỗi luật trong R một xác suất
¨ Với tập các luật có cùng một vế trái thì tổng xác suất của chúng là 1 Dạng:
13
Trang 14T, N, R,S đã biết, các luật được thêm vào một xác suất
Đối với ký hiệu NP:
Xác suất của các luật sinh tạo bởi NP
có tổng là 1
Trang 152.2. Các giả định đối với PCFG
Trang 162.3 Xác suất
ØXác suất của một cây phân tích T cho một câu W: tích
số của xác suất tất cả các luật sử dụng trong cây đó:
Ø Xác suất của một câu : Tổng xác suất của tất cả các cây phân tích có thể cho câu đó:
=
) (
) ,
(
T A
A T
Trang 17Xác suất của cây T 1
17
Φ(S → NP VP) = 1 Φ(NP → Tôi) = 1/3 Φ(NP → N N) = 1/3 Φ(NP → NP PP) = 1/3 Φ(N → chiếc) = 1/3 Φ(N → xe) = 1/3 Φ(N → ống nhòm) = 1/3 Φ(VP → V NP) = 1/2 Φ(VP → VP PP) = 1/2 Φ(PP → P NP) = 1 Φ(V → nhìn) = 1 Φ(P → với) = 1
W1
P(W1, T1)= 1 * 1/3 * 1/2 * 1/2 * 1 * 1/3
* 1/3 * 1/3 * 1 * 1 * 1/3 * 1/3 * 1/3
= 1/8748
Trang 18Xác suất của cây T 2
T2
W1
Φ(S → NP VP) = 1 Φ(NP → tôi) = 1/3 Φ(NP → N N) = 1/3 Φ(NP → NP PP) = 1/3 Φ(N → chiếc) = 1/3 Φ(N → xe) = 1/3 Φ(N → ống nhòm) = 1/3 Φ(VP → V NP) = 1/2 Φ(VP → VP PP) = 1/2 Φ(PP → P NP) = 1 Φ(V → nhìn) = 1 Φ(P → với) = 1
P(W1, Ψ2)=1/13122=
1*1/3*1/2*1*1/3*1/3*1/
3*1/3*1*1*1/3*1/3*1/3
Trang 20¤ Liệt kê tất cả các cây
¤ Tính tổng số lần xuất hiện của mỗi luật
¤ Tính tổng số lần xuất hiện của mỗi ký tự không kết thúc
¤ Xác suất của một luật khi ấy được tính bằng :
Φ(A →γ)= C(A →γ)/C(A)
20
Trang 21Ví dụ
Chúng ta đếm số lần xuất hiện của mỗi luật:
C(S → NP VP) = 1 C(NP → tôi) = 1 C(NP → N N) = 1 C(VP → V NP) = 1 C(V → thấy) = 1 C(N → chiếc) = 1 C(N → xe) = 1 Tương tự : C(N) = C(NP) = 2
¨ Từ đó, xác suất của mỗi luật sẽ là:
Φ(NP → tôi) = Φ(NP → N N) = 1/2 Φ(A →γ) = 1
Trang 222.5 Huấn luyện PCFG
¨ Việc huấn luyện PCFG đòi hỏi
¤ Tập ngữ liệu đủ lớn với các câu đã phân tích cú pháp chuẩn
¤ Độ chính xác cao
¨ Ngữ liệu với tiếng Việt hiện tại:
¤ 6 tập văn bản gán nhãn
¤ Số lượng câu khoảng 6000
ÄRất khó khăn cho việc xây dựng một PCFG cho tiếng Việt
22
Trang 232.6 Giải pháp thực hiện
¨ Xây dựng tập mẫu câu chuẩn với số lượng lớn
¨ Hoàn thiện bộ phân tích cú pháp “cơ sở”
¨ Xác nhận bằng tay tính đúng đắn của cây phân tích à Đảm bảo tính chính xác
¨ Tổ chức lưu trữ hợp lý à Treebank
¨ Sử dụng lại bộ ngữ liệu để xây dựng PCFG
23
Trang 24Phân tích
cú pháp với PCFG
Câu cần phân
tích
Một cây phân tích đúng
Trang 25Cấu trúc lưu trữ Treebank
Trang 26Một số thuật toán phổ biến áp dụng với văn phạm phi ngữ cảnh
¨ Thuật toán Cocke-Younger-Kasami (CYK)
¤ Phương pháp Bottom - Up
¤ Các luật phải ở dạng chuẩn CHOMSKY
n Chuẩn CHOMSKY: chỉ tồn tại các luật dạng Aàa và AàBC
¤ Thời gian tính chấp nhận được
¤ Bộ nhớ yêu cầu chấp nhận được
¨ Thuật toán Early
¤ Phương pháp Top - Down
¤ Mọi luật phi ngữ cảnh
¤ Chỉ đặc biệt hiệu quả trong một số trường hợp
26
Trang 27Thuật toán CYK áp dụng trong phân tích cú pháp
¨ Thuật toán CYK áp dụng trong phân tích cú pháp
gồm hai bước:
¤ Bước 1: Xây dựng bảng phân tích
n Áp dụng các luật dạng Aàa để tìm các A (các ký hiệu không kết thúc) từ câu vào
n Kết quả bước này câu vào đã được chuyển thành tập hợp các
ký hiệu không kết thúc
¤ Bước 2: Áp dụng các luật dạng AàBC xác định phân tích cú pháp
n Thực hiện từ trái qua phải
n Nếu hai ký hiệu gần nhau là thành phần của một luật văn phạm thì thay thế hai ky hiệu đó bằng về trái của luật
27
Trang 28xe với chiếc
Không
sử dụng
ống nhòm
Trang 29xe với chiếc
ống nhòm
Trang 30ví dụ CYK
30
1 2 3 4 5 6 7 tôi
nhìn chiếc
xe với chiếc
ống nhòm
Trang 3131
Trang 323 Thử nghiệm
32
Trang 333.1 Mẫu thử nghiệm
33
Trang 343.2 Kết quả về tập mẫu
34
Tập mẫu câu chuẩn đã xây dựng
Trang 353.3 So sánh về hiệu năng của các pha phân tích(1)
Bảng so sánh hiệu năng của các pha phân tích
Trang 363.4 So sánh về hiệu năng của các pha phân tích(2)
36
Thời gian thực hiện lớn
Số cây phân tích nhiều
Trang 373.3.So sánh về thời gian thực hiện
37
Biểu đồ so sánh thời gian
0 1 2 3 4 5 6 7 8 9 10
Trang 393.6 Kết quả thử nghiệm và đánh giá luật PCFG
Đánh giá về bộ luật PCFG
Trang 40Ví dụ các luật PCFG
40