Sơ đồ hệ thống WFST

Yes No Mạng Neural Bắt đầu Tiền xử lý Tầng WFST T < To Kết thúc

Tầng WFST: gồm cĩ ba bƣớc

- Xây dựng từ điển trọng số: theo mơ hình WFST, việc phân đoạn từ đƣợc xem

nhƣ là một sự chuyển dịch trạng thái cĩ xác suất (Stochastic Transduction). Chúng ta miêu tả từ điển D là một đồ thịbiến đổi trạng thái hữu hạn cĩ trọng số. Giả sử:

+) H: là tập các từ chính tả tiếng Việt (cịn gọi là “tiếng”). +) P: là từ loại của từ (POS: Part – Of – Speech).

Mỗi cung của D cĩ thể là:

+) Từ một phần tử của H tới một phần tử của H, hoặc từ ε (ký hiệu kết thúc từ) tối một phần tử của P.

+) Các nhãn trong D biểu thị một chi phí ƣớc lƣợng (estimated cost) bằng cơng thức: Cost = - log(f/N), với f: tần số của từ, N: kích thƣớc tập mẫu.

+) Đối với các trƣờng hợp từ mới chƣa gặp, áp dụng xác suất cĩ điều kiện Goog- Turning (Baayen) để tính tốn trọng số.

- Xây dựng các khả năng phân đoạn từ: Để giảm sự bùng nổ tổ hợp khi sinh ra

các dãy các từ cĩ thể từ một dãy các tiếng trong câu, đề xuất một phƣơng pháp mới là kết hợp dùng từ điển để hạn chế sinh ra các bùng nổ tổ hợp. Khi phát hiện thấy một cách phân đoạn từ nào đĩ khơng phù hợp (khơng cĩ trong từ điển, khơng phải là từ láy, khơng phải là danh từ riêng…) thì loại bỏ các nhánh xuất phát từ cách phân đoạn từ đĩ.

- Lựa chọn khả năng phân đoạn từ tối ưu: Sau khi đƣợc một danh sách các cách

phân đoạn từ cĩ thể cĩ của câu, chọn trƣờng hợp phân đoạn từ cĩ trọng số bé nhất.

Tầng mạng neural: Mơ hình mạng neural đề xuất đƣợc dùng để lƣợng giá 3 dãy từ loại: NNV, NVN, VNN (N: Noun, V: Verb). Mơ hình này đƣợc học bằng chính các câu mà cách phân đoạn từ vẫn cịn nhập nhằng sau khi qua mơ hình thứ nhất.

* Ƣu điểm

- Độ chính xác trên 97%.

- Nhờ cĩ tầng mạng neural nên mơ hình cĩ thể khử nhập nhằng các trƣờng hợp tầng WFST cho ra nhiều ứng viên cĩ kết quả ngang nhau.

- Phƣơng pháp này cho kết quả với độ chính xác khá cao muốn nhắm đến việc tách từ thật chính xác để là nền tảng cho việc dịch máy.

* Hạn chế

Việc xây dựng tập ngữ liệu là rất cơng phu, nhƣng thật sự rất cần thiết để phục vụ cho mục đích dịch máy sau này.

2.1.4. Phƣơng pháp quy hoạch động (Dynamic Programming) * Nội dung * Nội dung

Phƣơng pháp quy hoạch động chỉ sử dụng tập ngữ liệu thơ để lấy thơng tin về tần số thống kê của từ, làm tăng độ tin cậy cho việc tính tốn. Việc tính tốn bắt đầu với những đơn vị chắc chắn nhƣ câu, các ngữ (chunk) đƣợc phân cách bởi dấu câu (nhƣ dấu phẩy, gạch nối, chấm phẩy…) vì những thành phần này khơng cĩ tính nhập nhằng ngay cả trong văn viết cũng nhƣ nĩi. Sau đĩ, tối đa hố xác suất của ngữ bằng cách tìm ra nhiều cách tách ngữ đĩ. Cách tách cuối cùng là cách tách là cho ngữ đĩ cĩ xác suất cao nhất. Ý tƣởng của cách tách từ này cho một ngữ cần tách từ, ta phải tìm ra các tổ hợp từ tạo nên ngữ đĩ sao cho tổ hợp đĩ đạt đƣợc xác suất tối đa. Tuy nhiên trong phƣơng pháp tính tốn này, gặp phải vấn đề bùng nổ tổ hợp và phân tích ngữ liệu thơ. Để giải quyết vấn đề trên, sử dụng phƣơng pháp quy hoạch động (dynamic programming) vì lúc đĩ, xác suất cực đại của một ngữ nhỏ hơn chỉ phải tính tốn một lần và sử dụng lại trong các lần sau [11].

* Ƣu điểm

- Khơng cần sử dụng tập ngữ liệu đã đánh dấu chính xác.

* Hạn chế

- Trong thí nghiệm, chỉ dừng lại ở việc tách các từ cĩ ba tiếng bởi vì tập ngữ liệu đầu vào vẫn cịn khá nhỏ.

- Xác suất từ đúng là 51%, xác suất từ chấp nhận đƣợc 65%. Xác suất này tƣơng đối thấp so với các phƣơng pháp tách từ khác đã đề cập ở trên.

2.1.5. Phƣơng pháp tách từ tiếng việt dựa trên thống kê từ Internet và thuật tốn di truyền IGATEC di truyền IGATEC

* Nội dung

Phƣơng pháp IGATEC (Internet and Genetics Algorithm-based Text

Categorization for Documents in Vietnamese) do H.Nguyễn et al (2005) giới thiệu là

một hƣớng tiếp cận mới cho việc tách từ với mục đích phân loại văn bản mà khơng cần dùng đến một từ điển hay tập huấn luyện nào. Trong hƣớng tiếp cận này, tác giả kết hợp giữa thuật tốn di truyền (Genetics Algorithm - GA) với dữ liệu thống kê đƣợc trích xuất từ Internet tiến hố một quần thể gồm các cá thể là các khả năng tách từ trong câu [2].

Hệ thống gồm ba phần:

Bài tốn phân lớp văn bản

Phƣơng pháp Linear Least Square Fit