Các hƣớng tiếp cận dựa trên “từ”

Một phần của tài liệu Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ (Trang 28)

Hƣớng tiếp cận dựa trên từ với mục tiêu tách đƣợc các từ hoàn chỉnh trong câu. Hƣớng tiếp cận này có thể chia ra theo 3 hƣớng: dựa trên thống kê (statistics - based), dựa trên từ điển (dictionary – based) và nhóm lai (hydrid) (kết hợp nhiều phƣơng pháp với hy vọng đạt đƣợc những ƣu điểm của các phƣơng pháp này).

Hƣớng tiếp cận dựa trên thống kê: Dựa trên các thông tin thống kê nhƣ tần số

xuất hiện của từ trong tập huấn luyện ban đầu. Hƣớng tiếp cận này đặc biệt dựa trên tập ngữ liệu huấn luyện. Nhờ vậy, hƣớng tiếp cận này tỏ ra linh hoạt và hữu dụng trong nhiều lĩnh vực khác nhau.

Tách từ

Dựa trên ký tự Dựa trên từ

Hƣớng tiếp cận dựa trên từ điển: Ý tƣởng của hƣớng tiếp cận này là những cụm từ đƣợc tách ra từ văn bản phải đƣợc so khớp với các từ trong từ điển. Do đó trong hƣớng tiếp cận này đòi hỏi từ điển riêng cho từng lĩnh vực quan tâm. Hƣớng tiếp cận “full word / phrase” cần sử dụng một từ điển hoàn chỉnh để có thể tách đƣợc đầy đủ các từ hoặc ngữ trong văn bản, trong khi đó hƣớng tiếp cận thành phần “component” lại sử dụng từ điển thành phần. Từ điển thành phần chỉ chứa các thành phần của từ và ngữ nhƣ hình vị và các từ đơn giản. Hƣớng tiếp cận theo từ điển vẫn còn một số hạn chế trong việc tách từ vì thực hiện hoàn toàn dựa vào từ điển. Nếu nhƣ thực hiện thao tác tách từ bằng cách sử dụng từ điển hoàn chỉnh thì trong thực tế việc xây dựng một bộ từ điển hoàn chỉnh là khó thực hiện vì đòi hỏi nhiều thời gian và công sức. Nếu tiếp cận theo hƣớng sử dụng từ điển thành phần thì sẽ giảm nhẹ hạn chế, khó khăn khi xây dựng từ điển, vì khi đó chúng ta sẽ sử dụng các hình vị từ và các từ đơn giản và các từ khác để hình thành nên từ, cụm từ hoàn chỉnh.

Hƣớng tiếp cận theo Hybrid: Với mục đích kết hợp các hƣớng tiếp cận khác

nhau để thừa hƣởng đƣợc các ƣu điểm của nhiều kỹ thuật và các hƣớng tiếp cận khác nhau nhằm nâng cao kết quả. Hƣớng tiếp cận này thƣờng kết hợp giữa hƣớng dựa trên thống kê và dựa trên từ điển nhằm tận dụng các mặt mạnh của các phƣơng pháp này. Tuy nhiên hƣớng tiếp cận Hybrid lại mất nhiều thời gian xử lý, không gian đĩa và đòi hỏi nhiều chi phí.

Tóm lại, các hƣớng tiếp cận để tách từ tiếng Việt dựa vào từ chỉ khả thi khi chúng ta có bộ từ vựng tốt hay ngữ liệu huấn luyện đủ lớn và đáng tin cậy.

Một phần của tài liệu Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ (Trang 28)

Tải bản đầy đủ (PDF)

(68 trang)