Phương pháp tách từ trong tiếng Việt 1 Tình hình nghiên cứu

Một phần của tài liệu Nghiên cứu xây dựng bộ lọc thư rác hỗ trợ song ngữ anh việt luận văn thạc sĩ (Trang 36 - 37)

2.7.1. Tình hình nghiên cứu

Mặc dù giống tiếng Anh khi sử dụng ký tự latinh, tuy nhiên trở ngại lớn nhất là cấu trúc tiếng Việt khác biệt hồn tồn so với cấu trúc tiếng Anh đã trình bày ở trên và đa phần các phương pháp thường dùng cách so khớp từ trực tiếp dựa trên bộ từ điển cĩ sẵn và việc cập nhật bộ từ điển rất khĩ khăn, thường thực hiện bằng thao tác thủ cơng là chính.

Dựa trên các nghiên cứu trước, hướng tiếp cận dựa trên từ với mục tiêu tách được các từ hồn chỉnh trong câu. Hướng tiếp cận này cĩ thể chia làm 3 hướng chính: dựa trên thống kê (statistics-based), dựa trên từ điển (dictionary-based)hydrid (kết hợp nhiều phương pháp với hy vọng đạt được những ưu điểm của các phương pháp này)

Hướng tiếp cận dựa trên thống kê (statistics-based): dựa trên các thơng tin như tần số xuất hiện của từ trong tập huấn luyện ban đầu. Hướng tiếp cận này đặc biệt dựa trên tập dữ liệu huấn luyện, nhờ vậy nên hướng tiếp cận này tỏ ra rất linh hoạt và hữu dụng trong nhiều lĩnh vực riêng biệt.

Hướng tiếp cận dựa trên từ điển (dictionary-based): thường được sử dụng trong tách từ. Ý tưởng của hướng tiếp cận này là những cụm từ được tách ra từ văn bản phải khớp với các từ trong từ điển. Những hướng tiếp cận khác nhau sẽ sử dụng những loại từ điển khác nhau. Hướng tiếp cận “full word/phrase” cần sử dụng một bộ từ điển hồn chỉnh để cĩ thể tách được đầy đủ các từ hoặc ngữ trong văn bản, trong khi đĩ, hướng tiếp cận thành phần (component) lại sử dụng từ điển thành phần (component dictionary) [Wu &Tseng, 1993]. Từ điển hồn chỉnh chứa tất cả các từ và ngữ được dùng trong tiếng Hoa, trong khi từ điển thành phần (component dictionarry) chỉ chứa các thành phần của từ và ngữ như hình vị và các từ đơn giản trong tiếng Hoa. Phần dưới sẽ trình bày các phương pháp tách từ trong ngơn ngữ tiếng Việt.

Một phần của tài liệu Nghiên cứu xây dựng bộ lọc thư rác hỗ trợ song ngữ anh việt luận văn thạc sĩ (Trang 36 - 37)

Tải bản đầy đủ (PDF)

(74 trang)