Phương pháp quy hoạch động (dynamic programming)

Một phần của tài liệu TÌM HIỂU CÁC HƯỚNG TIẾP CẬN BÀI TOÁN PHÂN LOẠI VĂN BẢN VÀ XÂY DỰNG PHẦN MỀM PHÂN LOẠI TIN TỨC BÁO ĐIỆN TỬ (Trang 47)

3.3.4.1. Ni dung

Phương pháp quy hoạch động [Le An Ha, 2003] chỉ sử dụng tập ngữ liệu thơ để

lấy thơng tin về tần số thống kê của từ , làm tăng độ tin cậy cho việc tính tốn. Việc tính tốn bắt đầu với những đơn vị chắc chắn như câu, các ngữ (chunk) được phân cách bởi dấu câu ( như dấu phẩy, gạch nối, chấm phẩy…) vì những thành phần này khơng cĩ tính nhập nhằng ngay cả trong văn viết cũng như nĩi. Sau đĩ, tác giả cố

gắng tối đa hố xác suất của ngữ bằng cách tìm ra nhiều cách tách ngữ đĩ. Cách tách cuối cùng là cách tách là cho ngữ đĩ cĩ xác suất cao nhất. Ý tưởng của cách tách từ này cho một ngữ cần tách từ, ta phải tìm ra các tổ hợp từ tạo nên ngữđĩ sao cho tổ hợp đĩ đạt được xác suất tối đa. Tuy nhiên trong phương pháp tính tốn này, tác giả gặp phải vấn đề bùng nổ tổ hợp và phân tích ngữ liệu thơ. Để giải quyết vấn

đề trên, tác giảđã sử dụng phương pháp quy hoạch động (dynamic programming) vì lúc đĩ, xác suất cực đại của một ngữ nhỏ hơn chỉ phải tính tốn một lần và sử dụng lại trong các lần sau. 3.3.4.2. Ưu đim ¾ Khơng cần sử dụng tập ngữ liệu đã đánh dấu chính xác 3.3.4.3. Hn chế ¾ Trong thí nghiệm, tác giả chỉ dừng lại ở việc tách các từ cĩ ba tiếng bởi vì tập ngữ liệu đầu vào vẫn cịn khá nhỏ.

¾ Xác suất từđúng là 51%, xác suất từ chấp nhận được 65% [Le An Ha, 2003]. Xác suất này tương đối thấp so với các phương pháp tách từ khác đã đề cập ở

trên.

3.3.5. Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và thuật tốn di truyền (Internet and Genetics Algorithm-based Text

Một phần của tài liệu TÌM HIỂU CÁC HƯỚNG TIẾP CẬN BÀI TOÁN PHÂN LOẠI VĂN BẢN VÀ XÂY DỰNG PHẦN MỀM PHÂN LOẠI TIN TỨC BÁO ĐIỆN TỬ (Trang 47)