Các loại tham số và các đánh giá

Một phần của tài liệu LUẬN VĂN: PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KÊ docx (Trang 51 - 57)

Tất cả các tham số được sinh ra đều ước lượng xác suất có điều kiện. Mặc dù, các loại tham số đều là cực đại xác suất có điều kiện, tham số rất quan trọng trong việc tạo ra một mô hình xác suất và luôn làm trơn xác suất dựa vào “linear interpolation” của ước lượng “maximum-likelihood, sự dụng trong ngữ cảnh khác nhau.

- Ánh xạ các mức của tập các ký tự không kết thúc: Trong dữ liệu của Penn Treebank sử dụng đối số với nhãn là –A và –g. Một sự tương đồng so với bộ phân tích cú pháp của Collins, đó là hai ánh xạ trên cũng được Collins đưa ra trong hàm loại bỏ các tham số. Hàm “argument removal” được gọi là hàm α, còn hàm “gap removal” gọi là hàm γ. Ví dụ:

- - -

Hàm loại bỏ gap chỉ có tác dụng trong mô hình 3, bởi mô hình 2 và 1 không sử dụng đặc trưng.

4.1.3.1. Loại tham số head:

Ký tự không kết thúc head được tạo ra với điều kiện nút cha là một ký tự không kết thúc giống như head word và had tag, và nút cha thì nhận được thông tin về từ vựng dựa vào nút con. Xác suất được miêu tả như sau:

11 với P là ký tự thể hiện nút cha, w và t là word và tag.

4.1.3.2. Loại tham số subcat:

Khi mô hình đưa ra ký tự không kết thúc là head cho các ký tự cha, subcategorization frame (subcat) cũng được tạo ra ở hai phía của head với xác suất như sau:

43

12 13 Trong bộ phân tích cú pháp cho tiếng Anh, Bikel đưa ra một số luật tìm kiếm subcat thông qua các nhãn NPs, Ss, SBARs và PPs, và một số trường hợp cho PP.

4.1.3.3. Thay đổi loại tham số của ký tự không kết thúc:

Ngoài các nút head, và sucat được tạo ra, các thành phàn bổ trợ cũng được tạo ra dựa vào thành phần head… Một ký tự không kết thúc có đầy đủ thông tin từ vựng gồm ba thành phần chính, nhãn của ký tự không kết thúc, head word (thành phần trung tâm) và nhãn từ loại của nó. Để tạo ra được ký tự không kết thúc có đầy đủ các thông tin về từ vựng việc thay đổi các ký tự không kết thúc được thực hiện trong hai bước, cho phép tham số được làm trơn(smooth) một cách độc lập, và trong một chu kỳ, việc này nhằm nhăng chặn các vấn đề dư thừa thời gian. Hai bước ước lượng này dùng công thức chuỗi để liên kết các sự kiện của ba thành phần với nhau. Đầu tiên, một phần từ vựng (partially-lexicalized) một dạng của ký tự không kết thúc được tạo ra, bao gồm các nhãn không là ký tự và các nhãn từ loại của từ head (thành phần trung tâm). Thành phần từ vựng này thay đổi các ký tự không kết thúc, sinh ra các điều kiện trong nhãn cha, nhãn head, từ head, head tag, trạng thái của subcat và độ đo khoảng cách. Tham số ở đây bao gồm:

14 15 ở đây  là ký hiệu của độ đo khoảng cách (xác định bằng hàm verb intervening). Như thảo luận ở trước, một trong hai thành phần của độ đo khoảng cách là vi (“verb

intervening”). Thành phần còn lại là một tính chất được biết thông qua thành phần bổ trợ hiện tại là thành phần bổ trợ đầu hiên hay trường hợp i = 1. Bước thứ hai là sinh ra head word, do luật chuỗi (chain rule), ngữ cảnh chứa các điều kiện đều ở trong phương trình 14 và 15.

4.1.3.4. Loại tham số cho dấu câu và liên kết các cụm từ

- Mô hình không đồng nhất

Trong một bước tiền xử lý, các dấu câu đều được nâng lên vị trí cao nhất trong cây cú pháp. Điều đó có nghĩa là trong một số trường hợp, dấu câu hành xử như là một liên kết giữa các cụm từ bên trái và bên phải của dấu câu. Quan sát được hiện tượng này sẽ có ích cho các liên từ trong việc đưa ra các điều kiện sinh ra. Trong Penn Treebank, liên từ được gán nhãn CC (C ở trong Viet Treebank) và nút dấu câu thường là nút nằm ở bên phải của head hay nút phía sau của head (post-head). Như vậy, nút liên từ hoặc nút dấu câu xảy ra ở trước head (pre-head), nó sẽ không được tạo ra trong mô hình này. Ngoài ra, nếu có một thành phần ở giữa head và vế phải của liên từ, tham số sẽ được tính toán để đảm bảo rằng về trái luôn là nút head.

Tham số mới kết hợp chặt chẽ với mô hình bằng việc xem xét tất cả thành phần bổ trợ thông qua hai cờ: coord, đánh dấu ký tự không kết thúc liên kết với head thông

44

qua nhãn ký tự CC (trong gói tiếng việt ký hiệu CC miêu tả liên từ, nhưng nhãn từ loại của nó là C phù hợp với Viet Treebank, đối với gói tiếng Anh, nhãn từ loại vẫn là CC), và punc, đánh dấu sự liên kết thông qua dấu câu. Nếu như cả hai cờ này đều

nhận giá trị true, ta sẽ xem xét tỷ lệ giữa để đưa ra lựa chọn.

- Máy sự kiện: Khi thực hiện việc giả lập lại các kết quả của Collins, Bikel sử dụng sự kiện cũ để ước lượng sự kiện sinh ra liên kết bởi liên từ hoặc dấu câu với 2 về của liên từ đó. Sự thay đổi lớn đầu tiên đó là việc đối xử giữa nút có nhãn dấu câu và nút có nhãn là CC như là lớp đối tượng đầu tiên, có nghĩa là việc sinh ra như là một hành động chỉnh sửa các ký tự không kết thúc. Sự thay đổi tiếp theo là khá là phức tạp. Bikel đưa ra định nghĩa mới về độ đo khoảng cách, dựa vào thuộc tính vi. Sau

đó, thêm vào các điều kiện để ánh xạ các mức của việc sinh ra thành phần bổ trợ trước đó dựa vào hàm ánh xạ sau:

16

trong đó là một trong các ký tự không kết thúc hoặc . Như vậy xác suất có thể được tính dựa vào biểu thức sau

17 trong đó side là một biến logic nhằm xác định ký tự M nằm ở bên trái hay bên phải của head. Bằng cách đối xử nút nhãn CC và dấu câu như là lớp ký tự không kết thúc đầu tiên, và thêm ánh xạ của các ký tự không kết thúc trước đó, Bikel, đã liên kết chặt chẽ giữa trường hợp “no intervening” trong thành phần độ đo của Collins (khi i = 0 đối với trường hợp của hàm ) với những trường hợp khác mà sự phụ thuộc là khác nhau.

4.1.3.5. Mô hình NP cơ sở: từ mô hình đến mô hình

Trong bộ phân tích cú pháp của Collins có rất nhiều cách để một nút NP cơ sở đặc biệt. Điều đó là do cấu trúc phẳng của nút cấu trúc NP cơ sở trong Penn Treebank được sử dụng khác nhau trong mô hình trong quá trình tạo ra chúng. Mô hình tạo ra các nút con của nút NPB được gọi là mô hình bigram của ký tự không kết thúc (“bigrams of nonterminals”). Sự khác nhau của mô hình này và mô hình bigram language đó là các items tuy được sinh ra không phải là một từ, nhưng được từ vựng hóa các ký tự không kết thúc. Head của một nút NPB được sinh ra không phải dựa vào head, mà tất cả các ký tự bổ trợ sinh ra trước đó.

18 19 Trong bộ phân tích cú pháp của Collins, các thành phần phụ được sinh ra trước đó là head, đối với tất cả trường hợp. Vì vậy, subcat và độ đo khoảng cách không liên

45

quan đến nhau, nếu như thành phần bổ trợ hiện tại đứng ngay trước head (điều này làm cho cv (“contain verb”) luôn trả về giá trị false đối với NPBs). Ngoài ra, các nút NPB

không bao giờ được coi là thành phần liên kết các cụm từ và CCs chi phối bởi NPB không bao giờ sử dụng tham số PCC, mặc dù, nó sử dụng các tham số được sinh ra khác. Dấu câu bị chi phối bởi NPB, được tạo ra thông qua tham số Ppunc, nhưng chủ yếu các thành phần bổ trợ được liên kết với head tạm thời (pseudo head) thông qua những thành phần bổ trợ được tạo ra trước đó. Khi tạo ra các thành phần bổ trợ bên phải Ri, các thành phần bổ trợ trướ đó (cùng phía với Ri) không bao giờ là các dấu câu, nhưng lại là những ký tự tiền kết thúc thật sự.

Một ngoại lệ khác của thành phần NP cơ bản là sự so sánh giữa các char item dự vào luật cắt bỏ cây và cắt bỏ theo khoảng (beam-pruning).

4.1.3.6. Tham số ứng với độ ưu tiên của các ký tự không kết thúc được từ vựng hóa

Trong bộ phân tích cú pháp của Collins, dành cho các ký tự không kết thúc được từ vựng hóa có hai loại tham số, hai loại này tính toán những lề tương đồng dành cho ký tự không kết thúc chứa yếu tố từ vựng (lexical nonterminal). Những lề này là những giá trị thô của xác suất bên ngoài chart item (xem (Barker, 1979, Lari và Young, 1990) thuật toán Inside-Outside). Những nghiên cứu trước đây chỉ ra rằng, chỉ những xác suất bên trong thì chưa đủ để làm độ đo khi so sánh các chart item trong cùng một khoảng thời gian khi thực hiện decoding, do đó các xác suất bên ngoài chart item cũng phải là thừa số đề so sánh.

Như vậy ta sẽ có công thức sau:

20

4.1.3.7. Trọng số làm trơn

Hầu hết các loại tham số trong mô hình của Collins, cũng như trong hầu hết các mô hình phân tích cú pháp dựa vào thống kê, là xác suất điều kiện với nhiều điều kiện và trường hợp khác nhau. Các điều kiện và trường hợp này được thể hiện thông qua tập các sự kiện trong quá trình xử lý. Thông thường với tiếp cận sử dụng thống kê, quá trình huấn luyện thường đòi hỏi tập dữ liệu dùng để huấn luyện càng lớn càng tốt, do vậy các điều kiện và trường hợp cũng lớn dần theo. Giải pháp ở đây là ta phải thực hiện việc là trơn các phân phối xác suất (smoothing) nếu như có quá nhiều giá trị bằng 0 (các trường hợp này không hề xảy ra, ta có thể lấy ví dụ như trong tiếng việt cụm từ “vui vẻ” có tồn tại nhưng cụm từ “vẻ vui” không tồn tại nên nếu thực hiện xác định phân bố xác suất thì “vẻ vui” có xác suất bằng 0, tập dữ liệu càng lớn, mật độ các xác suất bằng 0 càng tăng lên). Trong bộ phân tích cú pháp của mình, Bikel thừa kế phương thức làm trơn xác suất của Collins là sử dụng “deleted interpolation”, làm trơn xác suất dựa trên phân phối phụ thuộc đầy đủ vào ngữ cảnh và một phần của ngữ cảnh, thực hiện việc xóa thành phần trong ngữ cảnh tại mỗi mức back-off. Giả sử việc làm trơn xác suất của tham số head sẽ là với và . Giả sử ta có một xác suất điều kiện , gọi hàm loại bỏ ngữ cảnh tại mức back-off thứ i là , với . Trong một chuỗi back-off xác suất được

46

ước lượng dựa vào phương pháp maximum likelihood, và xác suất sau khi làm trơn được tính toán dựa vào n – 1 trọng số làm trơn (với n mức back-off) được ký hiệu là . Sử dụng cách định nghĩa đệ quy, ta sẽ có với trọng số tại mỗi mức back-off là được tính như sau:

21 Dễ dàng để chứng minh được rằng nếu

22 thì

23 - Mô hình không đầy đủ

Như ở trên ta thấy, việc sử dụng mô hình n mức back-off cần có n – 1 trọng số làm trơn, tuy nhiên, cũng giống như Collin, Bikel đưa thêm một hằng số rất nhỏ (cỡ 10-19) làm tham số thứ n. Việc thêm hằng số này vào có thể làm cho bộ phân tích cú pháp trở nên kém cỏi, vì nó kết thúc bằng việc sử dụng một hằng số. Việc này sẽ không đảm bảo cho phương trình 23 đúng.

- Thừa số và giới hạn làm trơn.

Để xác định trọng số làm trơn, bộ phân tích cú pháp sử dụng công thức sau: 24 trong đó ci = count (history context of )ui là số lượng các ngữ cảnh. Ở đây, hằng số 5 có tác dụng làm giảm độ lớn của trọng số làm trơn, làm cho trọng số nhỏ đi so với mỗi mức back-off. Để đưa ra được giá trị này, Bikel đã thực hiện một số thông kê và quan sát trên tập dữ liệu. Hằng số này được đặt tên là thừa số làm trơn (smoothing factor), ký hiệu là ff. Như vậy ta sẽ có công thức sau:

25

với ft là giới hạn làm trơn. Với mỗi loại tham số, ngoại trừ tham số subcat và , thì ft = 0 và ff = 5. Đối với tham số subcat thì ngược lại tức là ft = 5 và ff = 0, với là ft = 1 và ff = 0. Điều này được giải thích bởi vì, trong khi làm trơn các xác suất tạo ra subcat thì tính đa dạng không xảy ra. Trường hợp thứ hai xảy ra khi ngữ cảnh không được quan sát trên tập huấn luyên v.v…, khi ấy ci = ui = 0. Trong trường hợp này , các xác suất còn lại nhận giá trị thông qua trọng số ngay sau đó

47

4.1.3.8. Bộ sinh các bổ trợ cho head word

Như ta đã biết, một ký tự không kết thúc khi có đầy đủ các thông tin từ vựng được tạo ra thông qua hai bước (xem 4.1.2.c). Bước đầu tiêp nhãn và nhãn từ loại được tạo ra như trường hợp PL hoặc PR. Tiếp theo head được tạo ra nhờ một trong hai đối tượng PL hoặc PR. Tham số back-off được đưa ra được miêu tả như sau:

Bảng 7: Các mức back-off với

Back-off level

0 1 2

Ở đây với mức cuối, khác hẳn 2 mức trên là do việc loại bỏ hoàn toàn các thành phần đi. Ở đây, Collins sử dụng từ xuất hiện ở hai phía để ước lượng xác suất. Tuy nhiên, trong bộ phân tích cú pháp của Bikel, Bikel chỉ sử dụng một lớp chung cho công việc so với việc sử dụng hai thành phần để đánh giá như Collins. Bằng cách đưa thêm một tham số logic side để xác định phía

Bảng 8: Tham số do Bikel đề xuất

Back-off level

0 1 2

Một vấn đề nữa đó là việc ánh xạ các từ chưa biết (unknow word). Đối với một số từ do tần sô xuất hiện quá thấp sẽ được gán nhãn là +unknow+, và sau đó nó phải được khôi phục lạ là từ ban đầu. Trong bộ phân tích cú pháp của Bikel, đưa ra một số phương thức tính toán để thực hiện việc này.

4.1.3.9. Lớp tham số TOP

Tất cả các cây đều có thể được tạo ra bởi mô hình sử dụng một ký tự không kết thúc nhãn là +TOP+, nhãn cha của gốc cây. Thông tin về từ vựng của ký tự không kết thúc head được sinh ra dựa vào nút +TOP+ (có xác suất ưu tiên là 1.0) bằng cách sử dụng tham số . Trong luận văn Collin đã miêu tả chi tiết về tham số đặc biệt này. Có hai loại tham số được dùng để quan sát gốc của cây, một tham số được sinh ra bởi

48

ký tự không kết thúc đánh dấu gốc cây và được chèn thêm các thông tin từ vựng (ngoài nhãn của nút còn có nhãn từ vựng, nhãn của ký tự không kết thúc), tham số còn lại sinh ra head word trong mỗi câu, được gọi là và . Những tham số này liên quan đến một số kết quả không được Collin công bố trong bài báo của ông.

Bảng 9: Cấu trúc back-off đối với các tham số

Back-off level

0 +TOP+ t, H, +TOP+

1 n/a t

Chú ý rằng, có backs off tương đương với ước lượng . Tức là, xác suất xuất hiện word khi nhãn của ký tự không kết thúc là tag. Ở đây, có một sự khác biệt giữa mức back-off cuối cùng trong tham số bổ trợ của head-word, thành phần có xác suất là trong không gian các từ tiền kết thúc được từ vựng hóa. Sự khác nhau đó là trong cùng một câu, cùng một head word xuất hiện có thể cùng với một tag trong nhiều nút. Mặc dù vậy, Collins vẫn sử dụng hàm đếm chia sẻ các mức cuối của back-off với tham số khi thực hiện ước lượng xác suất cho tham số . Còn trong bộ phân tích của Bikel, trong mọi trường hợp việc đếm sẽ được chia sẻ với tham số , đối với tham số chỉ là một sự mô phỏng.

Một phần của tài liệu LUẬN VĂN: PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KÊ docx (Trang 51 - 57)

Tải bản đầy đủ (PDF)

(78 trang)