1. Trang chủ
  2. » Thể loại khác

PHÂN TÍCH CÚ PHÁP. Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN

116 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 116
Dung lượng 1,39 MB

Nội dung

Phân tích cú pháp Lê Thanh Hương Bộ mơn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt@soict.hust.edu.vn Bài toán PTCP PTCP mẫu P câu T tính C điểm P cú pháp Văn phạm độ xác Các PTCP có độ xác cao (Eisner, Collins, Charniak, etc.) Các ứng dụng PTCP ▪ Dịch máy (Alshawi 1996, Wu 1997, ) tiếng Anh ▪ thao tác với tiếng Việt Nhận dạng tiếng nói sử dụng PTCP (Chelba et al 1998) Put the file in the folder Put the file and the folder Các ứng dụng PTCP ▪ Kiểm tra ngữ pháp ▪ Trích rút thơng tin (Hobbs 1996) (Microsoft) CSDL Kho văn NY Times câu truy vấn Định nghĩa ⚫ ⚫ ⚫ Văn phạm (grammar) dạng biểu diễn hình thức cấu trúc chấp nhận ngơn ngữ Thuật tốn PTCP (parsing algorithm) phương pháp xác định cấu trúc câu sở ngữ pháp có Chương trình PTCP (parser) chương trình xác định cấu trúc ngữ pháp câu Ví dụ văn phạm ⚫ ⚫ ⚫ ⚫ Văn phạm: tập luật viết lại Ký hiệu kết thúc: ký hiệu phân rã Ký hiệu không kết thúc: ký hiệu phân rã Xét văn phạm G: S → NP VP NP → John, garbage VP → laughed, walks G sinh câu sau: John laughed John walks Garbage laughed Garbage walks Ví dụ văn phạm Phân tích câu “Bị vàng gặm cỏ non” ⚫ Cây cú pháp: C ⚫ Tập luật CN VN ⚫ ⚫ ⚫ ⚫ ⚫ C → CN VN CN → DN VN → ĐgN ĐgN → ĐgT DN DN → DT TT DN DT Bò ĐgN TT vàng ĐgT gặm DT cỏ DN TT non Văn phạm Một văn phạm sản sinh hệ thống G = ( T, N, S, R ), ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ T (terminal) – tập ký hiệu kết thúc N (non terminal) – tập ký hiệu không kết thúc S (start) – ký hiệu khởi đầu R (rule) – tập luật R = {  →  | ,   (TN) }  →  gọi luật sản xuất Ví dụ ⚫ G1 = ({a,b}, {X}, X, {X→, X→aXb}) Xác định L(G1) G2 = ({a,b}, {X}, X, {X→, X→aXb, X→XX}) Xác định L(G2) X – aXb-aXXb-aaXbaXbb-aaabbabb ⚫ Văn phạm phi ngữ cảnh (Context-Free Grammar) … gọi văn phạm cấu trúc đoạn ⚫ G = ⚫ T – tập ký hiệu kết thúc (terminals) ⚫ N - tập ký hiệu không kết thúc (non-terminals) ⚫ P – ký hiệu tiền kết thúc (preterminals), viết lại trở thành ký hiệu kết thúc, P Nphạm cảm ngữ cảnh So với văn ⚫ S – ký hiệu bắt đầu R: A   ⚫ R: X →  , X ký hiệu không kết thúc;  chuỗi ký hiệu kết thúc khơng kết thúc (có thể rỗng) ⚫ Văn phạm G sinh ngôn ngữ L ⚫ Bộ nhận dạng: trả yes no ⚫ Bộ PTCP: trả tập cú pháp 10 … thuật toán Earley Ok! VP VP VP → VP PP PP (cột 1) attach VP VP → VP PP VP PP NP V ate the caviar (cột 4) 102 … thuật toán Earley Ok! VP PP VP VP → VP PP dùng lại (cột1) VP attach VP VP → VP PP PP VP PP with a spoon NP V ate the caviar (cột 7) 103 … thuật toán Earley Ok! VP VP PP VP → VP PP dùng lại (cột1) VP VP VP → VP PP PP in his bed VP PP with a spoon NP V ate the caviar (cột 10) 104 … thuật toán Earley Ok! VP VP (cột1) PP VP → VP PP dùng lại VP attach VP VP VP → VP PP PP PP in his bed VP PP with a spoon NP V ate the caviar (cột10) 105 Phục hồi cú pháp [s,i] tập trạng thái j Sử dụng thuật toán dùng queue đơn giản, dựa thành phần có ích • thành phần trạng thái kết thúc có ích q r • If s=[A →•i] tập đích k & có ích   • then q=[A →•k] & item r= [B → •j] có ích i k j [s,i] : thành phần với luật s & trả trỏ i Đánh dấu tất thành phần tập trạng thái Sn dạng Root→ S•  for j=n downto for i=0 to j for đánh dấu [s,i] tập trạng thái j for k=i to j if [q,i]Sk & [r,k] Sj & s= qr then 106 đánh dấu [q,i] [r,k] Ưu điểm ⚫ Thuật toán Earley thực vài phép lọc top-down: thành phần (state, or triple) đưa vào tập trạng thái cần tương thích với phần sinh bên trái Ví * w w phần câu dụ: S i i duyệt qua S wi 107 Nhược điểm ⚫ Biểu diễn luật: Cần cách biểu diễn luật tường minh: thời gian xây dựng ⚫ Thực phép lọc bên trái khơng lọc bên phải Phép lọc nhìn trước cho ký hiệu không kết thúc A: FIRST(A)= {x|A  xd }, x= token v.d., FIRST(S)= who, did, the, etc 108 Các phương pháp khác ⚫ Các phương pháp khác ứng với cách khác để tìm đoạn ⚫ Đoạn X[i, j] đoạn có nhãn X phủ đầu vào từ I đến j Example: John ate ice-cream on the table PP[3,6]; S[0,6]; … Biểu diễn khơng gian tìm kiếm and-or ⚫ Disjuncts (or) = đường phân tích khác ⚫ Conjuncts (and) = vế phải luật, ví dụ vế phải S NP VP ⚫ 109 PTCP việc tìm kiếm the guy saw ice-cream on the hill S(0, 7) NP(0, 1) VP(1, 8) NP(0, 2) Name (0, 1) V(1, 2) Det(0,1) VP(2, 7) Noun(1, 2) V(2, 3) the guy saw NP(3,7) NP(3, 4) Name(3, 4) ice-cream PP(4, 7) Prep(4, 5) on NP(5,7) Name(5,6) NP(5, 7) Det(5,6) Noun(6,7) the 110 hill PTCP góc trái (Left-corner parsing) S Nhìn từ lên để tìm ký hiệu (left-corner) đoạn, sau phân tích phần NP cịn lại theo kiểu xuống ⚫ Tìm cách kết hợp predict đặc trưng tốt phân tích xuống the lên Noun tìm S→ NP VP ⚫ NP→ the Noun VP VP→ ate NP ate Phương pháp làm việc tốt với ngôn ngữ với thành phần quan trọng đặt đầu tiếng Anh Các tiếng Đức, 111 Hà Lan, Nhật ngôn ngữ có phần quan trọng đặt cuối PTCP góc trái Top down thường không quan tâm đến xâu đầu vào Bottom up khơng cần biết xây 112 PTCP góc trái ⚫ Rules: ⚫ S→ NP VP NP → NN | DT NN | DT NNS | NNP VP → V | V NP V → VBZ | VBP | VBD ⚫ Input: DT → the | a ⚫ Kate sings NNS → children ⚫ Kate sings a song NN → table | song | plant ⚫ The chidren sing a song NNP → Kate ⚫ The plant died VBZ → sings VBP → sing | plant ⚫ VBD → died ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ 113 Vấn đề với PTCP góc trái ⚫ ⚫ Có vài luật “góc trái” Nhập nhằng: có trường hợp có khả năng: ⚫ ⚫ Cấu trúc tạo dùng để hồn thành cấu trúc xét Cấu trúc tạo phần đầu cấu trúc khác 114 Văn phạm phi ngữ cảnh 115 Văn phạm phụ thuộc 116

Ngày đăng: 11/07/2022, 02:03

HÌNH ẢNH LIÊN QUAN

⚫ Văn phạm (grammar) là dạng biểu diễn hình thức của các cấu trúc được chấp nhận trong  1 ngôn ngữ - PHÂN TÍCH CÚ PHÁP. Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN
n phạm (grammar) là dạng biểu diễn hình thức của các cấu trúc được chấp nhận trong 1 ngôn ngữ (Trang 5)
▪ Cấu trúc ngữ pháp: bảng xn (chart table) - PHÂN TÍCH CÚ PHÁP. Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN
u trúc ngữ pháp: bảng xn (chart table) (Trang 21)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN