Các hƣớng tiếp cận dựa trên ký tự

Các hƣớng tiếp cận dựa trên ký tự (dựa trên “tiếng” trong tiếng Việt) có thể chia làm 2 nhóm nhỏ: uni-gram và n-gram.

Trong tiếng việt, hình vị nhỏ nhất là “tiếng” đƣợc hình thành bởi nhiều ký tự trong bảng chữ cái. Hƣớng tiếp cận này đơn thuần rút trích ra một số lƣợng nhất định các tiếng trong văn bản nhƣ rút trích từ 1 ký tự (uni-gram) hay nhiều ký tự (n-gram) và cũng mang lại một số kết quả nhất định đƣợc minh chứng thông qua một số công trình nghiên cứu đã đƣợc công bố, nhƣ của tác giả Lê An Hà [2003] xây dựng tập ngữ liệu thô 10MB bằng cách sử dụng phƣơng pháp qui hoạch động để cựa đại hóa xác suất xuất hiện của các ngữ. Rồi công trình nghiên cứu của H.Nguyễn[2005] làm theo hƣớng tiếp cận là thay vì sử dụng ngữ liệu thô, công trình tiếp cận theo hƣớng xem Internet nhƣ một kho ngữ liệu khổng lồ, sau đó tiến hành thống kê và sử dụng thuật giải di truyền để tìm cách tách từ tối ƣu nhất, và một số công trình của một số tác giả

khác. Khi so sánh kết quả của tác giả Lê An Hà và H.Nguyễnt thì thấy công trình của H.Nguyễn cho đƣợc kết quả tốt hơn khi tiến hành tách từ, tuy nhiên thời gian xử lý lâu hơn. Ƣu điểm nổi bật của hƣớng tiếp cận dựa trên nhiều ký tự là tính đơn giản, dễ ứng dụng, ngoài ra còn có thuận lợi là ít tốn chi phí cho thao tác tạo chỉ mục và xử lý nhiều câu truy vấn. Qua nhiều công trình nghiên cứu của các tác giả đã đƣợc công bố, hƣớng tiếp cận tách từ dựa trên nhiều ký tự, cụ thể là cách tách từ hai ký tự đƣợc cho là sự lựa chọn thích hợp.

Tách từ trong văn bản tiếng Việt

Các hƣớng tiếp cận dựa trên “từ”