Đây là chƣơng trình của các tác giả Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai Nguyen và Minh Le Nguyen thuộc đề tài “From Treebank
Conversion to Automatic Dependency Parsing for Vietnamese”. Mã nguồn của chƣơng
trình đƣợc cung cấp miễn phí cho mục đích học tập và nghiên cứu khoa học, việc sử dụng công cụ này trong đề tài đã đƣợc thông qua sự đồng ý của tác giả.
Đặc điểm của công cụ này là mỗi lần hoạt động, công cụ mất một khoảng thời gian khá lâu để nạp bộ dữ liệu có dung lƣợng 160MB rồi mới có thể hoạt động đƣợc, bên cạnh đó, công cụ chỉ hỗ trợ việc đọc và ghi từ các tệp trên đĩa. Do đó việc sử dụng mã nguồn của công cụ nhƣ một phần của chƣơng trình có nhiệm vụ tách câu sẽ làm giảm tốc độ của chƣơng trình vì thời gian nạp dữ liệu và độ trễ do phải giao tiếp với đĩa cứng. Với dữ liệu khổng lồ mà mạng nơron phải tính toán thì việc giảm tốc độ cho mỗi câu khi đƣa vào xử lý nhƣ vậy sẽ dẫn đến tổng thời gian vô ích của chƣơng trình vô cùng lớn. Điều đó đồng nghĩa với việc ta phải chờ đợi lâu hơn hàng trăm lần để có một mạng nơron hoạt động tốt với các hàm giá hội tụ.
15 http://vndp.sourceforge.net/
Chú ý đặc điểm đó của công cụ khai triển cây phụ thuộc tiếng Việt, công trình đề xuất cách giải quyết là tiến hành khai triển tất cả các câu trong tập huấn luyện và tập kiểm thử, sau đó tiến hành phân tích tệp kết quả rồi lƣu vào cơ sở dữ liệu nhƣ một thuộc tính nằm kế bên giá trị của câu tƣơng ứng. Mỗi lần câu đƣợc đƣa vào huấn luyện hay tính điểm, chƣơng trình chỉ cần thực hiện việc truy vấn cây phụ thuộc từ cơ sở dữ liệu chứ không cần phải khai triển cây phụ thuộc nữa.