Để có được dữ liệu chuẩn trước khi chạy thuật toán thì cần phải trải qua các bước tiền xử lý như sau: đầu tiên chúng ta chuyển đổi từ định dạng PDF thành dạng văn bản
thuần. Để làm công việc này, luận văn sử dụng bộ công cụ miễn phí PDF to Text. Sau
khi chuyển đổi thành dạng chữ, dữ liệu đầu vào vẫn chưa có được định dạng ngắt dòng chuẩn (xuống dòng ngay cả khi chưa hết câu, xuống dòng với ký tự ‘,’), vì vậy cần phản chỉnh lại bằng tay ở bước này (luận văn có cung cấp một đoạn mã nhỏ để chỉnh lại định dạng đoạn mà không cần làm bằng tay). Trong bước tiếp theo, dịch thô – sử dụng hệ thống dịch máy của Google để tạo ra bản dịch thô tiếng Anh, luận văn sử dụng Google dịch như một hệ thống dịch máy thống kê để dịch sách tiếng Việt sang
ngôn ngữ Tiếng Anh. Sau này, bước dịch này sẽ được thay thế bởi hệ dịch máy là một phần của hệ thống gióng hàng đoạn. Hiện tại, do dữ liệu vào của phần dịch máy chưa có nên phải dùng hệ thống ngoài để chạy bước này.
Phân đoạn từ: trong luận văn có sử dụng công cụ phân đoạn từ được cung cấp bởi VLSP Project[32]. Tuy nhiên, bản dịch thô sau khi chạy qua hệ thống dịch của Google vẫn còn xuất hiện nhiều từ chưa được dịch. Cho nên, chúng tôi đã sử dụng kết hợp với một số bộ từ điển để hỗ trợ phần dịch này.
Tuy nhiên phương pháp tiếp cận khác nhau để phân đoạn từ sẽ có kết quả khác nhau. Ví dụ, “phù hợpcực đại” như được giải thích trong phần 3.2.3 sẽ có số lượng từ được phân đoạn ít hơn, nhưng độ chính xác cao hơn. Với cách tiếp cận“phù hợp tối thiểu”mặc dù độ chính xác thấp hơn nhưng lại cho ta nhiều từ được phân đoạn hơn tính trên tổng số từ. Cả hai phương pháp này sẽ bị ảnh hưởng bởi từ điển làm việc, với bộ từ điển lớn hơn sẽ có nhiều từ hơn và chính xác cao hon, với loại từ điển chuyên môn mặc dù nhỏ hơn, nhưng với loại văn bản cùng ngành lại cho độ chính xác cao hơn.
Loại bỏ từ dừng (stopword):câu tiếng Anh và các phân đoạn của Tiếng Việtdùng để so sánh thường chứa các từ có ít nội dung ngữ nghĩa, nhưng có thể cung cấp cho sự xuất hiện có hai phân đoạn tương tự. Những từ như vậy định nghĩa là stopwords trong tìm kiếm thông tin, và thường xuyên được loại bỏ. Chúng tôi đã thử nghiệm tác dụng
xóa stopwords như “a, an, the, of, in” trong câu thử nghiệm so sánh của chúng tôi.
Vìsau khi chạy qua hệ thống dịch của Google, văn bản dịch thô vẫn chứa một số loại từ cần phải loại bỏ.
Tuy nhiên, chúng tôi thấy rằng kết quả tốt hơn sau khi một số giới từ, trạng từ và
đại từ như “anybody, anyone, anything, anywhere, before, behind” đã được gỡ bỏ khỏi
danh sách stopword. Kết quả là, một danh sách stopword nhỏ hơn được sử dụng ở bước cuối cùng.