2.3 Ngôn ngữ truy vấn PML-TQ
Nhƣ đã trình bày ở trên, một treebank là một tập hợp văn bản đƣợc chú giải cấu trúc cú pháp. Ngoài thông tin về cấu trúc cú pháp, trong một treebank thƣờng bao gồm nhiều các thông tin khác nhƣ: từ loại, phân loại hình vị từ, từ gốc. Thậm chí một số treebank còn lƣu cả các thông tin mở rộng khác nhƣ: thông tin về tham chiếu giữa các thành phần trong câu; chú giải danh từ định danh, tên riêng; thông tin về các thành phần của vị ngữ…. Do có sự khác biệt về định dạng, về thông tin lƣu trữ nên các nhà ngôn ngữ học, những ngƣời cần làm việc với nhiều loại treebank khác nhau sẽ gặp nhiều vấn đề trở ngại [4] nhƣ:
a. Mỗi treebank có thể có một cách hiểu khác nhau về “cú pháp” là gì. Trong khó khăn đầu tiên này, chúng ta có thể phân loại các treebank dựa trên cấu trúc cụm từ hoặc phụ thuộc (dependency or phrase structure based).
b. Cùng một phân loại nhƣng tên gọi và giá trị có thể khác nhau giữa các treebank.
c. Các treebanks sử dụng các định dạng dữ liệu khác nhau: một số treebank dựa trên XML trong khi một số khác tự định nghĩa định dạng riêng với mục đích sử dụng riêng.
d. Mỗi định dạng có thể mã hoá cấu trúc cây khác nhau (cấu trúc này có thể đƣợc thể hiện dƣới dạng lồng nhau hoặc dạng tham chiếu và cũng có nhiều cách để thể hiện thứ tự của từ).
Để giải quyết các khó khăn trên có một hƣớng tiếp cận khả thi đó là: xây dựng một định dạng chung và chuyển đổi một cách tự động các định dạng treebank khác nhau về định dạng chung. Sau đó xây dựng công cụ cho phép thực hiện các thao tác truy vấn trên định dạnh chung này. Tuy không thể giải quyết hết các khó khăn nêu ở trên nhƣng hƣớng tiếp cận này sẽ giúp cho chúng ta có thể loại bỏ đƣợc các khó khăn ở mục c, d và một phần nêu ở mục b.
Theo hƣớng tiếp cận này thì ngôn ngữ đặc tả PML (Prague Markup Language)[9] đã đƣợc đặc tả và phát triển bởi các nhà nghiên cứu tại trƣờng đại học Charles, Cộng hòa Czech. Đi cùng với ngôn ngữ đặc tả PML là công cụ truy vấn treebank PML-TQ.
Ngôn ngữ đặc tả PML là một lƣợc đồ đƣợc xây dựng dựa trên nền tảng XML. Một định dạng PML sẽ đƣợc tạo nên từ các kiểu dữ liệu trừu tƣợng nhƣ sau:
Atomic: là một chuỗi mà giá trị của nó là kiểu dữ liệu xác định nhƣ: số nguyên, ngày tháng…
Enumerated: là kiểu atomic với một tập các giá trị đƣợc xác định sẵn
Structure: là một tập các cặp thuộc tính – giá trị
List: một danh sách các structurecó thứ tự hoặc không
Alternative: giống nhƣ List(không có thứ tự) nhƣng khác nhau về mặt ngữ nghĩa.
Sequence: giống nhƣ List (có thứ tự) nhƣng cho phép các phần tử có kiểu dữ liệu khác nhau và hỗ trợ kiểu nội dung hỗn hợp.
(S (NP-SUB (P Tôi)) (VP (V đá)
(. .))
Bảng 9. Ví dụ câu ở dạng VietTreebank
Bảng 10. Ví dụ dữ liệu đƣợc chuyển sang định dạng PML