Phân loại văn bản tiếng Việt

CHƢƠNG 1 : KHAI PHÁ DỮ LIỆU

2.4. Mơ hình hệ thống

2.4.5. Phân loại văn bản tiếng Việt

Với mỗi văn bản d, sau khi sử dụng GA để loại bỏ dấu câu và stopword, ta thu

đƣợc d đƣợc tách thành nhiều ngữ g dƣới dạng sau d={g1,g2,…, gm}, với gi là tập hợp gồm n cách tách của một ngữ, gi = {ti1,ti2,…,tin} trong đĩ tij là một cách tách ngữ, tij = {w1,w2,…,wp}.

Ví dụ:

Việc phân loại sẽ gán một chủ đề ch C={c1,c2,…,cq} cho văn bản, mỗi chủ đề lại bao gồm nhiều từ khĩa (keyword) K={k1,…,kr}.

2.4.5.1. Cơng thức phân loại văn bản trong IGATEC

Sử dụng độ phụ thuộc của văn bản vào chủ đề. Độ phụ thuộc này đƣợc tính dựa vào xác suất đồng xuất hiện của các từ trong văn bản với một từ khĩa nhất định. Chi tiết cách tính này nhƣ sau:

Cho trƣớc một từ khĩa k, độ phụ thuộc của từ w vào k đƣợc tính nhƣ sau:

Trong đĩ:

- p(w) là xác suất xuất hiện của từ w trên Google đƣợc tính theo cơng thức.

- p(k & w) là xác suất xuất hiện đồng thời của chủ đề k và từ wi trên Google với:

Tiếp theo, độ liên quan (relative) của một cách tách ngữ t với từ khĩa k bằng tổng xác suất của tất cả các từ w xuất hiện đồng thời với từ khĩa k nhƣ sau:

Theo cơng thức trên, tác giả cho rằng văn bản cĩ độ hỗ trợ vào một chủ đề càng cao thì khả năng văn bản đĩ thuộc về chủ đề này càng lớn. Dựa vào các cơng thức, độ phụ thuộc của câu đƣợc xác định theo cơng thức:

Theo các cơng thức trên, văn bản d sẽ thuộc về chủ đề cĩ SP(d,c) lớn nhất.

2.4.5.2. Phương pháp Nạve Bayes trong phân loại văn bản

Phƣơng pháp Nạve Bayes tìm chủ đề của văn bản d bằng các xác định chủ đề cĩ xác suất P(Y= ci | X=d), xác suất để văn bản d nằm trong lớp ci, lớn nhất thơng qua việc sử dụng cơng thức xác suất đầy đủ Bayes:

Trong đĩ:

 cj là chủ đề thứ j

 d=(w1, w2, ..., wn) là văn bản cần phân loại.

 P (Y=ci | X=d) gọi là xác suất xảy ra văn bản d thuộc về chủ đề ci

 P(X=d | Y=ci) gọi là xác suất chủ đề ci cĩ chứa văn bản d trong tập huấn luyện. Một cách để xác định P(X|Y) là sử dụng tập huấn luyện để ƣớc lƣợng P(X|Y) và P(Y). Sau đĩ sử dụng cơng thức xác suất đầy đủ trên để xác định P (Y=ci | X=d) với d bất kỳ.

* Uớc lƣợng P(X|Y)

Giả sử với mỗi chủ đề, ta cĩ biến cố các từ phụ thuộc vào chủ đề là độc lập cĩ điều kiện (conditional independence) với nhau. Ta cĩ cơng thức của biểu diễn sự độc lập cĩ điều kiện của 2 biến cố X,Z vào Y nhƣ sau:

P(X | Y,Z) = p(X | Z) Sử dụng giả định trên ta tính đƣợc P(X = d | Y = ci)

Từ đĩ cơng thức xác suất đầy đủ Bayes đƣợc viết lại nhƣ sau:

Nhờ thống kê trên tập huấn luyện D, P( X | Y ) cĩ thể đƣợc ƣớc lƣợng theo:

Trong đĩ:

 D{X = wj ∧ Y = ci}: số văn bản trong tập huấn luyện chứa đồng thời wj và ci.  D{Y = ci}: số văn bản trong tập huấn luyện chứa ci.

Cơng thức ƣớc lƣợng trên sẽ cho kết quả P( X = wj | Y = ci ) = 0 khi khơng cĩ văn bản chứa đồng thời cả hai (wj và ci). Nhằm tránh trƣờng hợp này, ta nên sử dụng phép ƣớc lƣợng đã đƣợc làm mịn sau:

Với:

 R : số lƣợng chủ đề.

 l : quyết định độ mịn của phép ƣớc lƣợng.

* Ƣớc lƣợng P(Y)

Việc ƣớc lƣợng P(Y = ci ) đơn giản là tính phần trăm số văn bản trong tập huấn luyện cĩ chủ đề ci:

Bài tốn phân lớp văn bản

Sơ đồ hệ thống WFST