Áp dụng tách từ tiếng Việt

Một phần của tài liệu hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt (Trang 30 - 36)

3. Các phương pháp tách từ tiếng Việt

3.1.2 Áp dụng tách từ tiếng Việt

Sau khi nghiên cứu về fnTBL, chúng em nhận thấy có thể áp dụng phương pháp này để tách từ cho tiếng Việt, chỉ cần thay đổi một số định dạng cho phù hợp.

Xây dựng tập tin dữ liệu học: Tập tin dữ liệu cho việc tách từ tiếng Việt có dạng như sau: Vì B sao B công B ty I Việt B Hà I bị B đặt B vào B tình B trạng I ….

Các ký tự B, I gọi là các chunk và có ý nghĩa như sau: Tiếng có chunk=B nghĩa là tiếng đó bắt đầu một từ (begin) Tiếng có chunk=I nghĩa là tiếng đó nằm ở trong một từ (inside)

Trong ví dụ trên, ta có được các từ: Vì, sao, công ty, Việt Hà, bị, đặt, vào, tình trạng, …

Xây dựng tập tin chứa các mẫu luật: Sau khi tìm hiểu về từ trong tiếng Việt,

chúng em xây dựng được 3 luật áp dụng cho việc tách từ tiếng Việt như sau: chunk_0 word_0 => chunk

chunk_0 word_-1 word_0 => chunk chunk_0 word_0 word_1 => chunk

3.1.2.1 Quá trình học

(1) Từ tập dữ liệu học xây dựng từ điển các từ (2) Khởi tạo các từ

(3) Rút ra tập luật

Ở bước (1) từ tập dữ liệu học đã có sẵn, sử dụng phương pháp thống kê → ta sẽ có từ điển các tiếng (Lexicon). Các tiếng có thể xuất hiện trong các từ với các chunk khác nhau, ta sẽ ghi nhận lại số lần xuất hiện của mỗi tiếng với các chunk tương ứng. Ví dụ, đối với từ “công ty” thì tiếng “công” có chunk=B nhưng trong từ “của công” thì tiếng công có chunk=I.

Ở bước (2) từ tập dữ liệu học, tạo ra tập dữ liệu học không có chunk bằng cách xóa hết các chunk tương ứng. Tập dữ liệu mới này sẽ được sử dụng để khởi tạo lại các chunk thông dụng nhất dựa vào từ điển.

Ở bước (3) so sánh tập dữ liệu học với tập dữ liệu đang xét, dựa vào các mẫu luật đã cho, ta sẽ rút ra được các luật ứng viên, ứng với mỗi luật ứng viên ta lại áp dụng vào tập dữ liệu đang xét và tính điểm cho nó (dựa vào số lỗi phát sinh khi so sánh với tập dữ liệu học là tập dữ liệu chuẩn). Chọn luật có điểm cao nhất và lớn hơn một ngưỡng cho trước để đưa vào danh sách luật được chọn.

Kết quả ta sẽ được một tập các luật được chọn. Các luật có dạng như sau: SCORE:414 RULE: chunk_0=B word_0=tế => chunk=I

SCORE:312 RULE: chunk_0=B word_-1=của word_0=công=>chunk=I SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=I

SCORE:205 RULE: chunk_0=B word_0=nghiệp => chunk=I

SCORE:175 RULE: chunk_0=B word_-1=phát word_0=triển => chunk=I SCORE:133 RULE: chunk_0=B word_-1=xã word_0=hội => chunk=I SCORE:109 RULE: chunk_0=B word_-1=đầu word_0=tư => chunk=I SCORE:100 RULE: chunk_0=B word_0=thể => chunk=I

Ở dòng 2 ta có luật: nếu từ hiện hành là “công” (word_0=công) và từ trước đó là “của” (word_-1=của) và chunk của từ hiện hành là B ( chunk_0=B) thì chuyển chunk của từ hiện hành là I , nghĩa là “của công” phải là một từ.

Hình 3-4 Quá trình học

3.1.2.2 Xác định từ cho tài liệu mới

(1) Tài liệu mới đưa vào phải có định dạng giống như tập tin dữ liệu học, nghĩa là mỗi tiếng trên một dòng.

(3) Áp dụng các luật có được từ giai đoạn học vào tài liệu đang xét ta sẽ tách được các từ hoàn chỉnh.

Giai đoạn xác định từ cho tài liệu mới được mô tả như sau:

Một phần của tài liệu hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt (Trang 30 - 36)

Tải bản đầy đủ (DOC)

(116 trang)
w