Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương

6 78 0
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất cung cấp cho người học các kiến thức: Kết hợp từ, tính xác suất, tính Pr, văn phạm phi ngữ cảnh xác suất, CKY kết hợp xác suất, xác suất Forward và Backward,... Mời các bạn cùng tham khảo.

Làm cách chọn đúng? Phân tích cú pháp xác suất z Ví dụ: z Khi số luật tăng, khả nhập nhằng tăng Tập p luật NYU: PTCP Apple pp p pie : 20,000-30,000 luật cho tiếng Anh Lựa chọn luật AD: V DT NN PP (1) VP → V NP PP NP → DT NN (2) VP → V NP NP → DT NN PP I saw a man with a telescope Lê Thanh Hương g Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt-fit@mail.hut.edu.vn z z Kết hợp từ (bigrams pr) Kết hợp từ (bigrams pr) Ví dụ: Eat ice-cream (high freq) Eat John (low, except on Survivor) z ⇒ Verb-with-obj, verb-without-obj z Nhược điểm: P(John decided to bake a) có xác suất cao z Xét: P(w3) = P(w3|w2w1))=P(w P(w3|w2)P(w2|w1)P(w1) Giả thiết mạnh: chủ ngữ định bổ ngữ câu Clinton admires honesty ¾ sử dụng cấu trúc ngữ pháp để dừng việc lan truyền z Xét Fred watered his mother’s small garden Từ garden có ảnh hưởng nào? z z z Pr(garden|mother’s small) thấp ⇒ mơ hình trigram khơng tốt Pr(garden | X thành phần bổ ngữ cho động từ to water) cao ¾ sử dụng bigram + quan hệ ngữ pháp Ví dụ Nhược điểm: • Kích thước tập ngữ pháp tăng z Các báo tạp chí Wall Street Journal năm: 47,219 câu, độ dài trung bình 23 từ, gán nhãn tay: có 4.7% hay 2,232 câu có cấu trúc ngữ pháp ¾ Khơng thể dựa việc tìm cấu trúc cú pháp cho câu Phải xây dựng tập mẫu ngữ pháp nhỏ Luật Luật VP VP VP ADJ NP DT NN Sự tương thích chủ ngữ bổ ngữ: John admires honesty Honesty admires John ??? S Luật V có số loại bổ ngữ định z VP Luật z NP→DT NN NN NP→DT JJ NN S→NP VBX JJ CC VBX NP Nhóm (NNS, NN) thành NX; (NNP, NNPs)=NPX; (VBP, VBZ, VBD) VBD)=VBX; VBX; Chọn luật theo tần suất NP NN VBX JJ CC VBX DT JJ NN This apple pie looks good and is a real treat CuuDuongThanCong.com https://fb.com/tailieudientucntt Tính Pr Tính xác suất Pr(X →Y) S NP VP NP X DT JJ NN VBX NP The big guy ate DT JJ NN the apple pie 1470 Y DT JJ NN NP = S → NP VP; 0.35 NP → DT JJ NN; 0.1532 VP → VBX NP; 0.302 = 0.1532 Luật áp dụng 9711 S →NP VP NP → DT JJ NN VP → VBX NP NP → DT JJ NN Pr = 0.0025 Chuỗi Pr 0.35 0.1532 x 0.35 = 0.0536 0.302 x 0.0536= 0.0162 0.1532 x 0.0162=0.0025 Các giả thiết Văn phạm phi ngữ cảnh xác suất z z z z z z z văn phạm phi ngữ cảnh xác suất (Probabilistic Context Free Grammar) gồm phần thông thường CFG Tập ký hiệu kết thúc {wk}, k = 1, ,V Tập ký hiệu không kết thúc {Ni}, i = 1, ,n Ký hiệu khởi đầu N1 Tập luật {Ni → ζj}, ζj chuỗi ký hiệu kết thúc không kết thúc Tập xác suất luật là: ∀i ∑j P(Ni → ζj) = Xác suất cú pháp: P(T) = Πi=1 n p(r(i)) z Độc lập vị trí: Xác suất không phụ thuộc vào vị trí từ câu ∀k, P(Njk(k+c) →ζ) giống z Độc ộ lập ập ngữ g cảnh: Xác suất câyy khơng gp phụ ụ thuộc ộ vào từ ngồi P(Njkl→ζ| từ ngồi khoảng k đến l) = P(Njkl→ζ) z Độc lập tổ tiên: Xác suất khơng phụ thuộc vào nút ngồi cay P(Njkl→ζ| nút ngồi Njkl ) = 10 CKY kết hợp xác suất Các thuật toán z z z z z Cấu trúc liệu: z Mảng lập trình động π[i,j,a] lưu xác suất lớn ký hiệu không kết thúc a triển khai thành chuỗi i…j z Backptrs lưu liên kết ế đến ế thành phần ầ CKY Beam search Agenda/chart based search Agenda/chart-based … z Ra: Xác suất lớn 11 CuuDuongThanCong.com P(Njkl→ζ) 12 https://fb.com/tailieudientucntt Tính Pr dựa suy diễn z Trường hợp bản: có từ đầu vào z Trường hợp đệ qui: Đầu vào xâu từ * ij if ∃k: A→ ΒC, B ⇒w * ik ,C ⇒w * kj ,i≤k ≤j A⇒w p[i,j] = max(p(A→ ΒC) x p[i,k] x p[k,j]) Pr(tree) = pr(A→ wi) A B i C k wij j 13 TÍnh xác suất Viterbi (thuật tốn CKY) 14 Ví dụ z z z z S Ỉ NP VP NP Ỉ Det N VP Ỉ V NP V Ỉ includes 0.80 0.30 0.20 05 0.05 z z z z Det Ỉ the Det Ỉ a N Æ meal N Æ flight 0.50 0.40 0.01 02 0.02 Dùng thuật tốn CYK phân tích câu vào: “The flight includes a meal” 0.0504 15 Xác suất Forward Backward Tính Pr 10 11 S → NP VP VP → V NP PP VP → V NP NP → N NP → N PP PP → PREP N N → a_dog N → a_cat N → a_telescop V → saw PREP → with 1.0 0.4 0.6 0.7 0.3 1.0 0.3 0.5 0.2 1.0 1.0 VP 0.6 NP S 1.0 NP 07 0.7 VP 0.4 NP 07 0.7 0.3 PP N N V N PREP N 0.3 1.0 0.5 1.0 0.2 NP PP 1.0 PREP N ai(t) Xt N’ The big Forward Probability = ai(t)=P(w1(t-1), Xt=i) N’’ N brown i bi(t) • Forward= xác suất phần tử bao gồm nút cụ thể N fox • Backward= xác suất phần tử nút cụ thể Backward Probability = bi(t)=P(wtT |Xt=i) a_dog saw a_cat with a_telescope Pl = 1×.7×.4×.3×.7×1×.5×1×1×.2 = 00588 Pr = 1ì.7ì.6ì.3ì.3ì1ì.5ì1ì1ì.2 = 00378 ắ Pl is chosen CuuDuongThanCong.com V 1.0 t-1… t …T The big brown fox 17 18 https://fb.com/tailieudientucntt Xác suất Xác suất N1= Start α Nj w1 wp-1 N1= Start Outside αj(p,q) Inside βj(p,q) β wp wq wq+1 Outside αj(p,q) α Nj wm w1 wp-1 Inside βj(p,q) β wp wq wq+1 Npq = ký hiệu không kết thúc Nj trải từ vị trí p đến q xâu αj(p,q)=P(w1(p-1) , Npqj,w(q+1)m|G) z αj = xác suất (outside) βj(p,q)=P(wpq|Npqj, G) z βj = xác suất (inside) z Nj phủ từ wp … wq, Nj ⇒∗ wp … wq z 19 αj(p,q) βj(p,q) = P(N1⇒∗ w1m , Nj ⇒∗ wpq | G) = P(N1⇒∗ w1m |G)• P(Nj ⇒∗ wpq | N1⇒∗ w1m, G) Tính xác suất xâu Sử dụng thuật tốn Inside, thuật tốn lập trình động dựa xác suất inside P(w1m|G) = P(N1 ⇒* w1m|G) = P(w1m|N1m1, G) = β1(1,m) z Tính βj(p,q) với p < q – tính tất điểm j – thực từ lên Nj Trường hợp bản: βj(k,k) = P(wk|Nkkj, G)=P(Nj → wk|G) Suy diễn: βj(p,q) = Σr,sΣd∈(p,q-1) P(Nj → NrNs) βr(p,d) βs(d+1,q) P(Nj → NrNs) Ns Nr wp wdwd+1 βr(p,d) x wq βs(d+1,q) -nhân thành phần, tính tổng theo j, r,s 21 S → NP VP VP → V NP PP VP → V NP NP → N NP → N PP PP → PREP N N → a_dog N → a_cat N → a_telescope V → saw PREP → with 22 Tìm kiếm kiểu chùm Ví dụ 10 11 20 Suy diễn z z wm 1.0 0.4 0.6 0.7 0.3 1.0 0.3 0.5 0.2 1.0 1.0 z NP 1.0 NP 0.7 z VP 0.6 S VP 0.4 NP 0.7 0.3 PP V z Tại thời điểm, giữ thành phần có điểm cao PP N 1.0 PREP N 1.0 N V N PREP 0.3 1.0 0.5 1.0 Tìm kiếm khơng gian trạng thái Mỗi trạng thái cú pháp với xác suất định N 0.2 P(a_dog saw a_cat with a_telescope) = 1×.7×.4×.3×.7×1×.5×1×1×.2 + ×.6 ×.3 = 00588 + 00378 = 00966 23 CuuDuongThanCong.com 24 https://fb.com/tailieudientucntt Làm giàu PCFG Làm giàu PCFG z z z PCFG đơn giản hoạt động không tốt giả thiết độc lập Giải quyết: Đưa thêm thông tin z z Phụ th Ph thuộc ộ cấu ấ ttrúc ú z Việc triển khai nút phụ thuộc vào vị trí ( độc lập với nội dung từ vựng nó) z Ví dụ: bổ sung thông tin cho nút cách lưu giữ thơng tin cha nó: SNP khác với VPNP z PCFG từ vựng hóa : PLCFG (Probabilistic Lexicalized CFG, Collins 1997; Charniak 1997) Gán từ vựng với nút luật Cấu trúc Head z z Mỗi phần tử parsed tree gắn liền với lexical head Để xác định head nút ta phải xác định nút con, nút head (xác định head vế phải luật) 25 Làm giàu PLCFG 26 Tại dùng PLCFG VP(dumped) → VBD(dumped) NP(sacks) PP(into) 3*10-10 VP(dumped) → VBD(dumped) NP(cats) PP(into) 8*10-11 z z z Tính ngoại lệ (exception) ngôn ngữ Sự phân loại theo cú pháp chưa thể hết đặc tính hoạt động từ vựng vựng Từ vựng hóa luật CFG giúp phân tích cú pháp thực xác 27 Hạn chế PLCFG VP -> VBD NP PP VP(dumped) -> VBD(dumped) NP(sacks) PP(into) Penn Treebank z z z Không có corpus đủ lớn! z Thể hết trường hợp cú pháp, hết trường hợp từ Penn Treebank: tập ngữ liệu có giải ngữ pháp, có triệu từ, nguồn ngữ liệu quan trọng Tính thưa: z z có 965,000 mẫu, có 66 mẫu WHADJP, có mẫu không how much how many Phần lớn phép xử lý thông minh phụ thuộc vào thống kê mối quan hệ từ vựng từ liền nhau: 30 CuuDuongThanCong.com https://fb.com/tailieudientucntt Đánh giá độ xác PTCP A Penn Treebank tree z z z Độ xác parser đo qua việc tính xem có thành phần ngữ pháp giống với chuẩn, gọi gold-standard reference parses Độ xác (Precision) = % trường hợp hệ gán tổng số trường hợp hệ gán (%THợp hệ tính đúng) Độ phủ (Recall) = % số trường hợp hệ gán tổng số trường hợp (%THợp hệ tính so với người) 31 32 Biểu diễn theo thành phần ngữ pháp Đánh giá Ví dụ Độ xác hệ thống PTCP 35 CuuDuongThanCong.com 36 https://fb.com/tailieudientucntt ... 8*1 0-1 1 z z z Tính ngoại lệ (exception) ngơn ngữ Sự phân loại theo cú pháp chưa thể hết đặc tính hoạt động từ vựng vựng Từ vựng hóa luật CFG giúp phân tích cú pháp thực xác 27 Hạn chế PLCFG VP -> ... xác suất luật là: ∀i ∑j P(Ni → ζj) = Xác suất cú pháp: P(T) = Πi=1 n p(r(i)) z Độc lập vị trí: Xác suất khơng phụ thuộc vào vị trí từ câu ∀k, P(Njk(k+c) →ζ) giống z Độc ộ lập ập ngữ g cảnh: Xác. .. t-1… t …T The big brown fox 17 18 https://fb.com/tailieudientucntt Xác suất Xác suất N1= Start α Nj w1 wp-1 N1= Start Outside αj(p,q) Inside βj(p,q) β wp wq wq+1 Outside αj(p,q) α Nj wm w1 wp-1

Ngày đăng: 11/01/2020, 18:54

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan