Khác với bộ phân tích cú pháp của Collins, trong bộ phân tích này, Bikel đã thực hiện một số quá trình trước khi đưa dữ liệu vào huấn luyện:
- loại bỏ một số nút không cần thiết - thêm vào nút cơ bản của NP (NPBs) - chỉnh sửa lại những nhãn NP
- thêm vào thông tin gap (chỉ dành cho mô hình 3 - Collins) - gán lại nhãn cho câu không có chủ ngữ.
- loại bỏ các thành phần rỗng - phát triển dấu câu
- xác định tham số của ký tự không kết thúc - bỏ qua một số đối số của ký tự không kết thúc - chỉnh sửa các câu không có chủ ngữ
- tìm kiếm head
4.1.1.1. Liên kết các cụm từ
Liên kết các cụm từ là khái niệm quan trọng và một số bước tiền xử lý dựa vào khái niệm này. Một nút được biểu diễn là liên kết giữa cụm từ nếu:
- nó không chứa các thành phần trung tâm trong nốt con và là chứa liên từ - là liên từ khi
- là ký tự đứng sau head nhưng không kết thúc
- là ký tự đứng ngay trước head nhưng không là ký tự bắt đầu
Trong Penn Treebank, liên từ được gán nhãn CC, còn trong Viet Treebank nhãn là C.
36
Hình 17: Liên kết từ trong Penn Treebank
Hình 18: Liên kết từ trong Viet Treebank
4.1.1.2. Loại bỏ các nút không cần thiết
Quá trình tiền xử lý này nhằm loại bỏ các ký tự tiền kết thúc, không có hoặc ít liên hệ đế hiệu suất của quá trình phân tích cú pháp. Đối với dữ liệu Treebank tiếng Anh, ta có thể loại bỏ các cây con, mà nhãn gốc của nó là một trong những nhãn {, “, .}. Có hai lý do để thực hiện việc loại bỏ này khi phân tích dữ liệu tiếng Anh đó là: các ký tự trích dẫn thường có độ ưu tiên thấp, và không xuất hiện trong các bao đóng chắc chắn trong bất kỳ trường hợp nào, nên không được đếm trong khi tính toán xác suất. Trong tiếng Việt, trường hợp loại bỏ này cũng tương tự.
37
4.1.1.3. Thêm vào các nốt base NP
Nút có nhãn là NP là một trong nút cơ bản (NP – cụm danh từ (Penn Treebank và Viet Treebank đều giống nhau) khi mà nó không chi phối một nút NP khác. Chính xác hơn, một nút có nhãn là NP là nút cơ bản khi nó không ảnh hưởng tới các nút có nhãn NP khác, ngoại trừ trường hợp nút NP sở hữu, những có nhãn NP và đi kèm với nút có nhãn là POS nhằm xác định đại từ sở hữu ví dụ như “(NP (NNP California) (POS 's)”. Chính bản thân các nút NP sở hữu cũng chính là nút NP cơ sở, vì vậy các nút này sẽ được thay nhãn thành NPB.
Để đảm bảo bộ phân tích làm việc chính xác, khi một nút NP được gán lại nhãn là NPB, các nút NP bình thường khác cũng được thêm vào như là một ký tự không kết thúc cha. Việc thêm vào này bảo đảm cho các nốt NPB luôn bị chi phối bởi nút NP. Để thêm các nút NP này cần phải thỏa mãn một số điều kiện sau:
- nút cha của NPB không phải là nút NP
- nút cha của NPB là một nút NP nhưng tạo ra hiện tượng liên kết các cụm từ - nút cha của NPB là một nút NP nhưng
- nút cha của thành phần trung tâm không phải là NPB - nút chả chưa được gán lại nhãn là NPB (Xem Hình 19)
Hình 19: Nút NBP cần thêm nút NP
Trong quá trình tiền xử lý, khi một nút NPB là nút con duy nhất của một nút NP, thì nút NP thêm vào sẽ bị loại bỏ bằng việc ghép hai nút trở thành một nút NP duy nhât và tất cả nút NPB còn lại sẽ bị gán lại nhãn thành NP
4.1.1.4. Khôi phục những nút NP cơ bản
Việc thêm các nhãn NP như trên đã làm cho các nút NP đạt được một mức đồng bộ nhất định, hiệu quả của việc phân chia mô hình sẽ làm cho việc tạo ra các nút con của NP giảm bớt độ phức tạp. Trong bộ phân tích cú pháp của mình, Collins dường như cũng cố gắng nâng cao tính ổn định của mô hình NPB. Các nút NPB, có các nút sentential như là nút cuối cùng (ở bên phải nhất) được chỉnh sửa: các nút con “sentential” được nâng lên để trở thành một nốt con bên phải của nút NPB
38
Hình 20: Nhãn NBP được chỉnh sửa
4.1.1.5. Thêm thông tin “gap”
Đặc trưng “gap” chỉ xuất hiện trong mô hình 3 của Collins, việc sử dụng đặc trưng này nhằm nâng cao khả năng phân tích câu, khi có hiện tượng truy vết và wh- movement (xuất hiện mệnh đề quan hệ trong câu). Quá trình tiền xử lý này, xác định tất cả các thành phần rỗng, xác định chỉ mục của nhãn WHNP (Penn Treebank, trong Viet Treebank cũng sử dụng nhãn này), thay thế các nhãn rỗng này bằng nhãn truy vết đặc biệt, và liên kết các đặc trưng gap trong tất các các ký tự không kết thúc trong chuỗi từ mà đại từ quan hệ thay thế và cụm từ truy vết. Trong quá trình tiền xử lý này có một điểm cần chú ý đó là việc thực thi bước tiền xử lý này cần kiểm tra các trường hợp tại đó việc liên kết là không thể, chẳng hạn như có hai tiến trình thêm gap phụ thuộc vào nhau. Quá trình thực thi cần phải điều khiển được sự phụ thuộc của hai tiến trình thêm gap.
4.1.1.6. Gán lại nhãn cho nhãn chức năng chủ ngữ
Những nút mà nhãn của câu không có chủ ngữ sẽ được chuyển từ S thành SG (trong Penn Treebank và Viet Treebank đều có nhãn SG). Bước này cho phép bộ phân tích cú pháp nhạy bén đối với các ngữ cảnh khác nhau mà câu không có chủ ngữ xuất hiện nhưng gán nhãn S giống như câu bình thường, trong trường hợp này các câu không có chủ ngữ xử sự giống như một cụm danh từ. Một ví dụ [S[SFlying planes] is dangerous] của Collins miêu tả trường hợp này. Tuy nhiên, điều kiện để một nhãn S có thể được gán lại nhãn không được giải thích rõ ràng, một trường hợp là mỗi nhãn S của chủ ngữ (trong Penn Treebank là nhãn –SBJ, trong Viet Treebank là nhãn –SUB) phụ thuộc vào thành phần rỗng sẽ được gán lại nhãn là SG. Các điều kiện là:
- một thành phần con của nhãn bị tri phối bởi thành phần rỗng được đánh dấu bởi nhãn –SBJ
- có nhãn cha là VP
- không có tham số xuất hiện ưu tiên so với thành phần trung tâm
4.1.1.7. Loại bỏ thành phần rỗng
Bước này chỉ đơn giản bao gồm việc cắt cây để khử các cây con chỉ bị tác động bởi các thành phần rỗng. Các nhãn truy vết được thêm vào ở bước “thêm đặc trưng
39
gap” không được xét đến ở đây, trừ khi nút được đánh dấu bởi nhãn –NONE– (trong Penn Treebank, cũng tương tự trong Viet Treebank).
4.1.1.8. Đưa dấu câu lên
Tư tưởng chính của việc đưa dấu câu lên là làm cho các dấu câu bao gồm dấu chấm và dấu phẩy ở vị trí cao nhất có thể trong cây phân tích, nằm ở giữa hai ký tự không kết thúc. Dấu câu xuất hiện ở đầu hoặc cuối câu thường được thay đổi. Ngoài ra, bước này cần được điều khiển trường hợp xuất hiện nhiều dấu câu bắt đầu hoặc kết thúc một nút, tốt hơn trường hợp các nút dấu câu xuất hiện một cách vô lý như trường hợp dấu câu xuất hiện thành một chuỗi trái hoặc phải của cây con (Xem Hình 21). Cuối cùng, trường hợp nút chỉ chi phối một dấu câu đứng trước một ký tự kết thúc. Bộ phân tích của Bikel chỉ thông báo trong trường hợp này.
Hình 21: Nâng cấc dấu câu lên, trong cây bên phải xuất hiện các dấu phẩy nằm cạnh nhau
4.1.1.9. Xác định đối số của ký tự không kết thúc
Collins đưa ra tập phương pháp để đánh dấu các ký tự không kết thúc như là các đối số, bằng cách thêm –A vào nhãn của ký tự không kết thúc. Bộ phân tích cú pháp của Bikel sử dụng ba thông tin không được Collin công bố về tìm kiếm các đối số:
- Nhãn PP được chọn như là ký tự không kết thúc đầu tiên sau head (thành phần trung tâm). Trong nhiều trường hợp, đối số của nút có nhãn là NP sẽ được đánh dấu. Một nguyên tắc phức tạp hơn là ký tự không kết thúc đầu tiên ở bên phải của head không là nhãn PRN (Viet Treebank không có nhãn này) hay các nhãn từ loại được đánh dấu là đối số. Nhãn PRN trong Penn Treebank đánh đấu cho biểu thức mở - đóng ngoặc đơn, thường xuất hiện trong nút PP như ví dụ sau: “on (or above) the desk”.
- Nút con là một phần của liên kết các cụm từ được gán lại nhãn là đối số của ký tự không kết thúc.
- Head khác biệt so với các nút cùng cấp (các nút bên trái và bên phải của head) bởi hiệu quả của các loại tham số sinh ra head trong mô hình phân tích cú pháp. (Xem Hình 22).
40
Hình 22: Nút có nhãn HEAD cũng không là ngoại lệ khi thay đổi nhãn chức năng
4.1.1.10. Loại bỏ cá đối số của ký tự không kết thúc không được sử dụng
Bước này loại bỏ tất các các đối số của các ký tự không kết thúc, ngoại trừ những thành phần được thêm vào từ bước tiền xử lý khác (như nhãn –A trong nhãn đối số). Đồng thời cũng loại bỏ tất cá nhãn chức năng được đánh dấu bởi Treebank.
4.1.1.11. Thay đổi câu không có chủ ngữ
Với đối số như miêu tả ở phần trước, nếu một câu không có chủ ngữ được tìm thấy mà đối số có ảnh hưởng tới head của nó thì bước này chuyển ngược lại từ SG về nhãn S.
4.1.1.12. Tìm head
Trong bộ phân tích cú pháp của Bikel, khi thực hiện tìm kiếm head, sẽ có một số luật được dùng để miêu tả cho một số nhãn. Các luật để tìm kiếm được đóng gói trong bộ phân tích cú pháp như là một “Java package”. Tuy nhiên trong [9], Bikel cũng miêu tả một trường hợp không có luật để phân tích ví dụ như nhãn NX, hay một số trường thợp liên quan đến nhãn CC. Do đặc điểm của Viet Treebank, thành phần trung tâm có nhãn là –H, vì vậy việc tìm kiếm thành phần trung tâm dựa vào nhãn –H này. Ngoài ra, tiếng Việt có tính chất tịnh tiến, như vậy trong một câu có nhiều head, thì head của câu đó sẽ là phần từ trái nhất.