CHƢƠNG III ĐỘ TƢƠNG TỰ VĂN BẢN-VĂN BẢN
3.3. Các hƣớng tiếp cận tách từ
Các hƣớng tiếp cận cơ bản trong việc tách từ:
Hình 3: Các hƣớng tiếp cận cơ bản trong việc tách từ
3.3.1. Các hƣớng tiếp cận dựa trên “từ”
Hƣớng tiếp cận dựa trên từ với mục tiêu tách đƣợc các từ hoàn chỉnh trong câu. Hƣớng tiếp cận này có thể chia ra theo 3 hƣớng: dựa trên thống kê (statistics - based), dựa trên từ điển (dictionary – based) và nhóm lai (hydrid) (kết hợp nhiều phƣơng pháp với hy vọng đạt đƣợc những ƣu điểm của các phƣơng pháp này).
Hƣớng tiếp cận dựa trên thống kê: Dựa trên các thông tin thống kê nhƣ tần số
xuất hiện của từ trong tập huấn luyện ban đầu. Hƣớng tiếp cận này đặc biệt dựa trên tập ngữ liệu huấn luyện. Nhờ vậy, hƣớng tiếp cận này tỏ ra linh hoạt và hữu dụng trong nhiều lĩnh vực khác nhau.
Tách từ
Dựa trên ký tự Dựa trên từ
Hƣớng tiếp cận dựa trên từ điển: Ý tƣởng của hƣớng tiếp cận này là những
cụm từ đƣợc tách ra từ văn bản phải đƣợc so khớp với các từ trong từ điển. Do đó trong hƣớng tiếp cận này đòi hỏi từ điển riêng cho từng lĩnh vực quan tâm. Hƣớng tiếp cận “full word / phrase” cần sử dụng một từ điển hoàn chỉnh để có thể tách đƣợc đầy đủ các từ hoặc ngữ trong văn bản, trong khi đó hƣớng tiếp cận thành phần “component” lại sử dụng từ điển thành phần. Từ điển thành phần chỉ chứa các thành phần của từ và ngữ nhƣ hình vị và các từ đơn giản. Hƣớng tiếp cận theo từ điển vẫn cịn một số hạn chế trong việc tách từ vì thực hiện hoàn toàn dựa vào từ điển. Nếu nhƣ thực hiện thao tác tách từ bằng cách sử dụng từ điển hồn chỉnh thì trong thực tế việc xây dựng một bộ từ điển hồn chỉnh là khó thực hiện vì địi hỏi nhiều thời gian và cơng sức. Nếu tiếp cận theo hƣớng sử dụng từ điển thành phần thì sẽ giảm nhẹ hạn chế, khó khăn khi xây dựng từ điển, vì khi đó chúng ta sẽ sử dụng các hình vị từ và các từ đơn giản và các từ khác để hình thành nên từ, cụm từ hoàn chỉnh.
Hƣớng tiếp cận theo Hybrid: Với mục đích kết hợp các hƣớng tiếp cận khác
nhau để thừa hƣởng đƣợc các ƣu điểm của nhiều kỹ thuật và các hƣớng tiếp cận khác nhau nhằm nâng cao kết quả. Hƣớng tiếp cận này thƣờng kết hợp giữa hƣớng dựa trên thống kê và dựa trên từ điển nhằm tận dụng các mặt mạnh của các phƣơng pháp này. Tuy nhiên hƣớng tiếp cận Hybrid lại mất nhiều thời gian xử lý, khơng gian đĩa và địi hỏi nhiều chi phí.
Tóm lại, các hƣớng tiếp cận để tách từ tiếng Việt dựa vào từ chỉ khả thi khi chúng ta có bộ từ vựng tốt hay ngữ liệu huấn luyện đủ lớn và đáng tin cậy.
3.3.2. Các hƣớng tiếp cận dựa trên ký tự
Các hƣớng tiếp cận dựa trên ký tự (dựa trên “tiếng” trong tiếng Việt) có thể chia làm 2 nhóm nhỏ: uni-gram và n-gram.
Trong tiếng việt, hình vị nhỏ nhất là “tiếng” đƣợc hình thành bởi nhiều ký tự trong bảng chữ cái. Hƣớng tiếp cận này đơn thuần rút trích ra một số lƣợng nhất định các tiếng trong văn bản nhƣ rút trích từ 1 ký tự (uni-gram) hay nhiều ký tự (n-gram) và cũng mang lại một số kết quả nhất định đƣợc minh chứng thơng qua một số cơng trình nghiên cứu đã đƣợc công bố, nhƣ của tác giả Lê An Hà [2003] xây dựng tập ngữ liệu thô 10MB bằng cách sử dụng phƣơng pháp qui hoạch động để cựa đại hóa xác suất xuất hiện của các ngữ. Rồi cơng trình nghiên cứu của H.Nguyễn[2005] làm theo hƣớng tiếp cận là thay vì sử dụng ngữ liệu thơ, cơng trình tiếp cận theo hƣớng xem Internet nhƣ một kho ngữ liệu khổng lồ, sau đó tiến hành thống kê và sử dụng thuật
khác. Khi so sánh kết quả của tác giả Lê An Hà và H.Nguyễnt thì thấy cơng trình của H.Nguyễn cho đƣợc kết quả tốt hơn khi tiến hành tách từ, tuy nhiên thời gian xử lý lâu hơn. Ƣu điểm nổi bật của hƣớng tiếp cận dựa trên nhiều ký tự là tính đơn giản, dễ ứng dụng, ngồi ra cịn có thuận lợi là ít tốn chi phí cho thao tác tạo chỉ mục và xử lý nhiều câu truy vấn. Qua nhiều cơng trình nghiên cứu của các tác giả đã đƣợc công bố, hƣớng tiếp cận tách từ dựa trên nhiều ký tự, cụ thể là cách tách từ hai ký tự đƣợc cho là sự lựa chọn thích hợp.