Đây là chƣơng trình của các tác giả Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai Nguyen và Minh Le Nguyen thuộc đề tài “From Treebank Conversion to Automatic Dependency Parsing for Vietnamese”. Mã nguồn của chƣơng trình đƣợc cung cấp miễn phí cho mục đích học tập và nghiên cứu khoa học, việc sử dụng công cụnày trong đềtài đã đƣợc thông qua sựđồng ý của tác giả.
Đặc điểm của công cụ này là mỗi lần hoạt động, công cụ mất một khoảng thời gian
khá lâu để nạp bộ dữ liệu có dung lƣợng 160MB rồi mới có thể hoạt động đƣợc, bên cạnh
đó, công cụ chỉ hỗ trợ việc đọc và ghi từ các tệp trên đĩa. Do đó việc sử dụng mã nguồn của công cụnhƣ một phần của chƣơng trình có nhiệm vụ tách câu sẽ làm giảm tốc độ của
chƣơng trình vì thời gian nạp dữ liệu và độ trễ do phải giao tiếp với đĩa cứng. Với dữ liệu khổng lồ mà mạng nơron phải tính toán thì việc giảm tốc độ cho mỗi câu khi đƣa vào xử lý nhƣ vậy sẽ dẫn đến tổng thời gian vô ích của chƣơng trình vô cùng lớn. Điều đó đồng
nghĩa với việc ta phải chờđợi lâu hơnhàng trăm lần để có một mạng nơron hoạt động tốt với các hàm giá hội tụ.
15 http://vndp.sourceforge.net/
25
Chú ý đặc điểm đó của công cụ khai triển cây phụ thuộc tiếng Việt, công trình đề
xuất cách giải quyết là tiến hành khai triển tất cả các câu trong tập huấn luyện và tập kiểm thử, sau đó tiến hành phân tích tệp kết quả rồi lƣu vào cơ sở dữ liệu nhƣ một thuộc tính nằm kế bên giá trị của câu tƣơng ứng. Mỗi lần câu đƣợc đƣa vào huấn luyện hay tính
điểm, chƣơng trình chỉ cần thực hiện việc truy vấn cây phụ thuộc từ cơ sở dữ liệu chứ
không cần phải khai triển cây phụ thuộc nữa.