2.2.4 Định dạng CoNLL-2009 ST
CoNLL-2009 Shared Task (CoNLL-2009 ST) là định dạng chính thức đƣợc sử dụng trong Hội nghị quốc tế thƣờng niên về lĩnh vực xử lý ngôn ngữ tự nhiên năm 2009 để đánh giá các hệ thống xử lý ngôn ngữ của các đại biểu tham gia. Định dạng CoNLL-2009 ST đƣợc xây dựng dựa trên cấu trúc dạng bảng. Dữ liệu đƣợc tổ chức theo quy tắc sau:
Các câu sẽ đƣợc ngăn cách bởi 1 dòng trống
Một câu có thể bao gồm một hoặc nhiều từ và mỗi từ sẽ đƣợc biểu diễn bởi 1 dòng.
Một từ bao gồm ít nhất 14 trƣờng thông tin và các trƣờng này cách nhau bởi một hoặc nhiều ký tự trắng
Nhƣ vậy trong định dạng này, mỗi hàng của bảng tƣơng ứng với một nút của cây và toàn bộ cây sẽ đƣợc biểu diễn bằng việc tham chiếu tới các chỉ số ở đầu mỗi dòng trong bảng. Mỗi dòng bao gồm nhiều cột, biểu diễn các thuộc tính của nút. Trong định dạng CoNLL-2009 ST, giá trị của cột có thể là một chuỗi hoặc một tập các chuỗi đƣợc ngăn cách bởi 1 ký tự nhất định.
Đinh dạng CoNLL-2009 ST tƣơng đối thuận tiện cho các hệ thống xử lý, tuy nhiên có nhƣợc điểm đó là không thể sử dụng lại do thiếu các thông tin cần thiết để mô tả ý nghĩa của các cột. Dƣới đây là câu “The trade grap is expected to widen” trong định dạng CoNLL ST (đã đƣợc lƣợc bớt một số cột)
1 The the DT 3 NMOD NMOD _ _ _ _ _
2 trade trade NN 3 NMOD NMOD _ _ A1 _ _
3 gap gap NN 4 SBJ SBJ Y gap.01 _ A1 A1
4 is be VBZ 0 ROOT ROOT _ _ _ _ _
5 expected expect VBN 4 VC VC Y expect.01 _ _ _
6 to to TO 5 OPRD OPRD _ _ _ C-
A1 _ 7 widen widen VB 6 IM IM Y widen.01 _ _ _