Tùy vào mục đích của việc nghiên cứu và chương trình ứng dụng nhận dạng tiếng nĩi khác nhau thì cĩ tập dữ liệu văn bản khác nhau. Thường thì tập dữ liệu văn bản chứa các từ vựng được chọn theo chủđề của ứng dụng và cĩ hai loại sau:
• Dữ liệu văn bản số: chứa các từ của chữ số: "khơng", "một", "hai", "ba", "bốn", "năm", "sáu", "bảy", "tám", "chín", và tổ hợp các số trên, cĩ thể là các từ của sốđiện thoại, mã số nhân viên.
Ví dụ: Dưới đây là một số câu trong bộ dữ liệu đọc số tham khảo của nhĩm nghiên cứu (tiến sỹ Lê Quân Hà) về nhận dạng tiếng nĩi.
<S> KHƠNG </S> …
<S>CHÍN </S>
<S> KHƠNG HAI BỐN SÁU TÁM </S> <S> NĂM HAI BỐN BỐN </S>
<S> CHÍN KHƠNG MỘT </S> <S> BA MỘT KHƠNG BẢY </S> …
• Dữ liệu văn bản từ: chứa các đoạn văn bản với nội dung bất kỳ về chủ đề cần quan tâm, cĩ thể là các danh từ chỉ tên người, vật, … Tập dữ liệu văn bản từ này cĩ kích thước lớn cĩ thể phát triển thành tập dữ liệu từ vựng lớn. Để cĩ được một tập dữ liệu từ vựng lớn thì chúng ta phải thu thập dữ liệu từ nhiều nguồn như báo chí, tác phẩm văn học, internet... Từ dữ liệu ban đầu ta thực hiện tách đoạn, tách câu, lọc bỏ những chữ khơng đúng ngữ pháp tiếng Việt, những chữ tiếng nước ngồi, những chữ viết tắt, con sốđểđược một bộ dữ liệu chuẩn thuần Việt.
Ví dụ: Dưới đây là một số câu trong bộ dữ liệu từ vựng lớn tham khảo của nhĩm nghiên cứu (tiến sỹ Lê Quân Hà) về nhận dạng tiếng nĩi.
<S> TRẦN THỊ MAI ANH </S>
<S> ĐÊ HÁT KHƠNG BẢY ĐÊ TÊ HÁT </S> <S> CƠNG NGHỆ PHẦN MỀM </S>
<S> HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU</S> <S> NGUYỄN CƠNG BÌNH </S>
Trong đĩ thẻ lệnh: <S> là bắt đầu một câu </S> là kết thúc một câu.
Tập dữ liệu văn bản được lưu trong các tập tin văn bản tương ứng, chẳng hạn như các tập tin VT_train.transcription, ... Nội dung văn bản số hoặc từ đều nhập bằng bảng mã Unicode và khơng sử dụng được các bảng mã khác.