Công việc của bộ huấn luyện là phân tích dứ liệu huấn luyện (cây cú pháp của câu được gán nhãn từ loại) thành chuỗi head và các bước sinh thành phần bổ trợ, thực hiện việc xác định xác suất trong mỗi bước. Tại mỗi bước, thành phần H, Li, Ri đều được sinh ra dựa vào trạng thái trước đó, và mỗi sự kiện đều sinh ra các thành phần và một vài giá trị ngữ cảnh được đếm. Tuy nhiên, trong quá trình phân tích, vẫn còn tồn tại một số vấn đề, vì vậy xác suất cần được làm mịn (smoothing).
41
4.1.2.1. Verb intervening
Trong chương 2, khi nói về văn phạm phi ngữ cảnh xác suất, ta thấy trong mô hình 1, xác suất phụ thuộc vào một độ đo khoảng cách. Trong bộ phân tích cú pháp của Bikel, có một hàm có nhiệm vụ đưa ra độ đo khoảng cách này. Một trong hai thành phần của độ đo khoảng cách đó được gọi là “verb intervening”, là tính chất vi có giá trị true nếu động từ được sinh ra trong quá trình duyệt xâu cùng về một phía so với head. Như Hình 23. Định nghĩa của đặc trưng này rất đơn giản giống như tên của nó
cv (“contain verb”), đặc trưng này nhận giá trị true khi và chỉ khi một nốt chứa động từ
9
Chúng ta định nghĩa verb intervening đệ quy trong mô hình Markov bậc 1
10 tương tự với đối với các ký tự bên phải
Trong Penn Treebank, bộ phân tích cú pháp của Bikel xác định một từ được coi là động từ nếu nhãn từ loại của nó nằm trong tập {VB, VBD, VBG, VBN, VBP, VBZ}, đối với Viet Treebank chỉ có một nhãn duy nhất là V. Nếu muốn đạt được những kết quả của collins chúng ta cần đưa thêm cv (NPB) = false, trong bộ phân tích của Bikel, nếu như một động từ nằm trong nhãn base NP thì sẽ không được tính.
Dưới đây là một ví dụ được lấy từ [9]
Hình 23: Một ví dụ về hàm vi (“verb intervening”) nhận giá trị true, do nhãn NP có chứ động từ
4.1.2.2. Bỏ qua một số cây
Trong bộ phân tích của Collins, các câu dài quá 500 token (bao gồm từ, ký tự không kết thúc, mở ngoặc) đều bị bỏ qua trong quá trình phân tích. Một nguyên nhân có thể phỏng đoán đó là với các câu quá dài thì có thể có nhiều cây phân tích vì vậy nó
42
sẽ làm giảm độ chính xác của bộ phân tích cú pháp. Trong dữ liệu chuấn WSJ (Wall Street Journal) phần 02-21 của Penn Treebank có khoảng 120 câu bị loại bỏ.
4.1.2.3. Các từ chưa biết
- Các từ nếu xuất hiện trong tập dữ liệu thấp hơn một ngưỡng nào đó sẽ được đánh dấu là “UNKNOW”. Giá trị ngưỡng này trong bộ phân tích của Collins là 5 lần. Giá trị này có thể thay đổi thông qua việc gán giá trị cho thuộc tính “unknow word threshold”.
- Một sự khác biệt giữa bộ phân tích cú pháp của Collins và Bikel là với những ký tự được đánh dấu là UNKNOW, các ký tự này vẫn được đếm và tính toán xác suất, còn Collins không làm điều này. Chú ý rằng các từ trong cây cú pháp dùng để huấn luyện sẽ không bị bộ phân tích chỉnh sửa, không thực hiện việc phá vỡ thành các mức sự kiện. Việc ánh xạ các từ có tần số xuất hiện thấp chỉ được thực hiện khi tất cả dữ liệu được thu thập và thực hiện đếm.