Phương pháp tách từ tiếng Việt dựa trên thống kê t- 123docz.net

Categorization for Documents in Vietnamese - IGATEC)

3.3.5.1. Nội dung

Phương pháp IGATEC do H.Nguyễn et al (2005) giới thiệu là một hướng tiếp cận mới cho việc tách từ với mục đích phân loại văn bản mà khơng cần dùng đến

một từđiển hay tập huấn luyện nào. Trong hướng tiếp cận này, tác giả kết hợp giữa thuật tốn di truyền (Genetics Algorithm - GA) với dữ liệu thống kê được trích xuất từ Internet tiến hố một quần thể gồm các cá thể là các khả năng tách từ trong câu.

Hệ thống gồm ba phần

Hình 3.6. Tồn cảnh hệ thống IGATEC

¾ Online Extractor : Phần này cĩ tác dụng lấy thơng tin về tần số xuất hiện của các từ trong văn bản bằng cách sử dụng một search engine nổi tiếng như

Google. Sau đĩ, tác giả sử dụng các cơng thức sau đây để tính tốn mức độ

phụ thuộc lẫn nhau (mutual information) để là cơ sở tính fitness cho GA engine. 9 Tính xác suất các từ xuất hiện trên Internet p(w)=count w( ) MAX 1 2 1 2 ( & ) ( & ) count w w p w w MAX = Trong đĩ, MAX = 4 * 109 ;

count(w) số lượng văn bản trên Internet được tìm thấy cĩ chứa từ

w hoặc cùng chứa w1và w2 đối với count(w1 & w2)

9 Tính xác suất độ phụ thuộc của một từ lên một từ khác

Online Extractor

Online Extractor Online Extractor

Online Extractor

segmentation segmentation

segmentation

1 2 1 2 1 ( & ) ( | ) ( ) p w w p w w p w =

9 Thơng tin phụ thuộc lẫn nhau (mutual information) của các từ ghép

được cấu tạo bởi n tiếng (cw = w1w2…wn)

9 1 2

1 2 1

( & & ... & ) ( ) =

( ) - ( & & ... & )

n n j n j p w w w MI cw p w p w w w = ∑

¾ GA Engine for Text Segmentation : mỗi cá thể trong quần thểđược biểu diễn bởi chuỗi các bit 0,1, trong đĩ, mỗi bit đại diện cho một tiếng trong văn bản, mỗi nhĩm bit cùng loại đại diện cho một segment.

9 Các cá thểđược khởi tạo ngẫu nhiên, trong đĩ, mỗi segment được giới hạn trong khoảng 5. GA engine sau đĩ thực hiện các bước đột biến và lai ghép nhằm mục đích làm tăng giá trị fitness của các cá thể, để đạt

được cách tách từ tốt nhất cĩ thể.

¾ Text Categorization : tác giả dùng độ hỗ trợ (support degree) của văn bản cần phân loại cho các từ khố để phân loại văn bản.

3.3.5.2. Ưu điểm

¾ Khơng cần sử dụng bất cứ tập huấn luyện hoặc từđiển nào

¾ Phương pháp tương đối đơn giản.

¾ Khơng tốn thời gian huấn luyện

3.3.5.3. Hạn chế

¾ So với các phương pháp trước, IGATEC cĩ độ chính xác thấp hơn LRMM và WFST nhưng vẫn chấp nhận được đối với mục đích tách từ dành cho phân loại văn bản.

¾ Thời gian chạy ban đầu khá chậm do phải lấy thơng tin từ Internet mà đường truyền ở Việt Nam cịn hạn chế.

Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và thuật

Linear Least Square Fit (LLSF)

So sánh giữa tiếng Việt và tiếng Anh