Phần 4: Thử nghiệm và đánh giá 4.1.Cài đặt.
4.1.3. Các bước tiền xử lý.
Để làm sạch các văn bản này là khá đơn giản. Vì ta sẽ sử dụng các ký tự thay vì các từ làm đầu vào cho mô hình của mình, ta không cần phải lo lắng về việc loại bỏ các từ dừng, hoặc rút ngắn các từ xuống phần thân của chúng. Do đó ta chỉ cần xóa các ký tự mà ta không muốn và các khoảng trắng dư thừa. Ví dụ loại bỏ những ký tự như {} @ _ * > () \\ # % + = \ [ \], … Thêm nữa ta chuyển văn bản về dạng chữ thường để xử lý.
Sau khi làm sạch dữ liệu, ta sẽ tạo vocab_to_int lưu lại từ điển các ký tự và int_to_vocab để lưu từ điển ngược chuyển đổi từ vị trí ký tự về ký tự.
Ta sẽ thêm các ký tự bắt đầu <GO> và kết thúc câu <EOS> vào trong từ điển.Sau khi làm sạch cơ bản cho văn bản dữ liệu sẽ được sắp xếp thành các câu trước khi nó được đưa vào mô hình. Ta sẽ chia nhỏ dữ liệu ở mỗi giai đoạn theo sau là dấu cách (“. ”). Một vấn đề với điều này là một số câu kết thúc bằng dấu chấm hỏi hoặc dấu chấm than, nhưng ở đây tôi chỉ xét câu mà kết thúc bằng “. ”. May mắn thay, mô hình sẽ vẫn có thể tìm hiểu về việc sử dụng dấu chấm hỏi và dấu chấm than, miễn là câu đó và câu sau kết hợp không dài bằng độ dài câu tối đa.
Trong các câu đã được tiền xử lý và tách câu, tôi sẽ chọn ra những câu có độ dài ký tự nằm trong khoảng từ 10 đến 101 (do những câu có độ dài ngắn hơn hoặc dài hơn sẽ không có nhiều ý nghĩa trong quá trình huấn luyện và làm thời gian huấn luyện sẽ lâu hơn nhiều). Để theo dõi hiệu suất của mô hình này, ta sẽ chia dữ liệu thành một tập huấn luyện và kiểm tra. Bộ thử nghiệm sẽ bao gồm 15% dữ liệu.