Bộ công cụ trợ giúp xây dựng tập văn bản huấn luyện:

Một phần của tài liệu Xây dựng mô hình ngôn ngữ cho tiếng việt (Trang 35)

Bộ công cụ này được chúng tôi cài đặt bằng ngôn ngữ C#. Bộ công cụ có các công cụ như: lấy nội dung văn bản từ các trang báo mạng, chuẩn hóa văn bản, cắt và ghép các tệp văn bản.

Để có kích thước tệp văn bản lớn phục vụ cho quá trình huấn luyện mô hình ngôn ngữ, chúng tôi đã phải xây dựng một chương trình có nhiệm vụ lọc nội dung văn bản từ các file html. Chương trình này tự động tìm tất cả các file có định dạng html trong một thư mục nào đó, bỏ các đoạn mã, bỏ các thẻ, link, bảng, hình ảnh, ... chỉ giữ lại nội dung văn bản rồi ghi lại dưới định dạng txt.

Sau đó, chúng tôi tiếp tục xây dựng một chương trình khác, có nhiệm vụ chuẩn hóa văn bản. Chương trình này có các chức năng chính như: chuẩn hóa dấu cách, chuẩn hóa dấu cho tiếng Việt (ví dụ: hoà sửa thành hòa, vìên sửa thành viền, ...), tách ra mỗi câu trên một dòng. Đặc biệt, do văn bản đầu ra của chương trình dùng cho quá trình huấn luyện mô hình ngôn ngữ, nên chương trình này của chúng tôi còn có thêm một số tính năng như: thay thế các từ đặc biệt bởi một từ nào đó đặc trưng hơn (ví dụ: tên người, số, ngày tháng, ...), xóa bỏ các câu quá ngắn, xóa bỏ các câu các từ không có trong từ điển tiếng Việt.

Ngoài ra, để tăng và giảm kích thước tệp văn bản một cách dễ dàng, chúng tôi còn xây dựng thêm các tiện ích cắt và ghép tệp văn bản. Tiện ích này giúp người dùng dễ dàng tạo được file văn bản có kích thước phù hợp để dễ dàng huấn luyện và khảo sát mô hình ngôn ngữ.

Một phần của tài liệu Xây dựng mô hình ngôn ngữ cho tiếng việt (Trang 35)