CHƯƠNG 3 PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
I. RÚT TRÍCH ĐẶC TRƯNG VĂN BẢN VÀ BIỂU DIỄN BẰNG MÔ HÌNH VECTOR
I.4. Trích chọn đặc trưng văn bản
Các phương pháp rút trích thông tin cổ điển thì coi mỗi một văn bản như là tập các từ khóa và gọi tập các từ khóa này là tập các term . Một phần tử trong tập term thì đơn giản là một từ , mà ngữ nghĩa của từ này giúp tạo thành nên nội dung của văn bản .Vì vậy , tập term được sử dụng để tạo các chỉ mục và tóm lược nội dung của văn bản .
Giả sử cho một tập term của một văn bản nào đó , chúng ta có thể nhận thấy rằng không phải tất cả các từ trong tập term này đều có mức độ quan trọng như nhau trong việc mô tả nội dung văn bản . Ví dụ , bây giờ chúng ta xét một tập gồm một trăm ngàn văn bản , giả sử có một từ A nào đó xuất hiện trong một trăm ngàn văn bản này thì chúng ta có thể khẳng định rằng từ A này không quan trọng và chúng ta sẽ không quan tâm đến nó , bởi vì chắc chắn là nó sẽ không cho chúng ta biết được về nội dung của các văn bản này .Vì vậy từ A sẽ bị loại ra khỏi tập các term ,khi chúng ta xây dựng tập term cho văn bản để miêu tả nội dung ngữ nghĩa của các văn bản này . Kết qủa này có được thông qua thao tác xác định trọng số cho mỗi một từ trong tập term của một văn bản .
Đặt ki là từ thứ i trong tập term, dj là văn bản j , và wij >= 0 là trọng số của từ ki
trong văn bản dj .Giá trị của trọng số này thì rất là quan trọng trong việc miêu tả nội dung của văn bản .
Đặt t là số luợng các từ trong tập term của hệ thống . K = { k1 ,k2 ,k3 …, kt } là tập tất cả các từ trong tập term , trong đó ki là từ thứ i trong tập term . Trọng số wij
>0 là trọng số của từ ki trong văn bản dj . Với mỗi một từ ,nếu nó không xuất hiện trong văn bản thì wij = 0 . Do đó , văn bản dj thì được biểu diễn bằng vector dj , trong đó vector dj = {wj1,wj2,wj3,….,wjt }.
4.2 Mô hình vector
Mô hình vector đưa ra một mô hình khung ,trong đó mỗi một thành phần trong mô hình này là sự kết hợp giữa hai tập term . Điều này được thực hiện bằng cách xác định trọng số của các từ trong tập term của tất cả các văn bản . Các trọng số của
các từ này sau này sẽ được dùng làm nền tảng để xác định mức độ tương đồng giữa hai vector đặc trưng ( trong bài toán phân nhóm văn bản thì tập term được gọi là vector đặc trưng hoặc là đặc trưng ).
Trong mô hình vector , giá trị trọng số wij (sự kết hợp của một cặp (ki,dj)) là một số thực dương . Khi đó, vector dj = = {wj1,wj2,wj3,….,wjt }, trong đó t là số luợng các từ trong hệ thống .
Mô hình vector đề nghị một công thức để đánh giá mức độ tương đồng giữa hai văn bản da và db , bằng cách so sánh mức độ tương đồng giữa hai vector da và db . Ví dụ như là có thể dùng công thức tính cosin của một góc để xác định mức tương đồng giữa hai vector , như hình dưới đây :
t
1 i
2 bi t
1 i
2 ai t
1 i
bi ai
b a
b a*
b a
w w
w w d
d d d d
d
) (
|
|
| ) |
, sim(
Trong đó |da| và |db| là chuẩn của các vector da và db
Ở trên , chúng ta sử dụng công thức cosine để xác định mức độ tương đồng giữa hai vector , ngoài ra chúng sẽ có hai công thức nũa để xác định mức độ tương đồng này , đó là khoảng cách Euclidean và Manhattan .
4.3 Mô hình tương tự
Trong phần này , chúng ta xem xét ba phương pháp khác nhau , dùng để xác định mức độ tương đồng giữa hai vector đặc trưng va và vb . Trong đó
w w w
vi i1, i2,..., in và , 0wij1 , j1,2,...,n, và n là tổng số đặc trưng của vector .
a b
i ,
Có ba phương pháp xác định mức độ tương đồng giữa hai vector này , đó là dùng : Hệ số Cosine , Khoảng cách Euclidean và Manhattan .
4.3.1 Hệ số Cosine
Hệ số cosine là một hệ số được dùng phổ biến để xác định mức độ tương đồng giữa các vector đặc trưng của hai văn bản .Nếu hệ số cosine giữa hai văn bản càng lớn thì mức độ tương đồng giữa chúng càng lớn .
Cho hai vector va và vb , mức độ tương đồng giữa hai vector này được xác định bằng công thức :
n
1 i
2 bi n
1 i
2 ai n
1 i
bi ai b
a
w w
w w v
v ,
cos_sim
4.3.2 Khoảng cách Euclidean
Khoảng cách Euclidean là một phương pháp phổ biến nhất để xác định mức độ tương đồng giữa các vector đặc trưng của hai văn bản .
Cho hai vector va và vb , khoảng cách Euclidean được định nghĩa như sau :
n
1 i
2 b
a v w w
v , ai bi
euc_dist
Vì
n ,
euc_dist va vb nằm trong khoảng 0 và 1, do đó mức độ tương đồng giữa hai vector này được xác định bằng công thức như sau :
euc_sim va,vb 1
n ,
euc_dist va vb =
n
1 i
w 2
wai bi 1 1
n
4.3.3 Khoảng cách Manhattan
Khoảng cách Manhattan là một phương pháp thứ ba dùng để xác định mức độ tương đồng giữa các vector đặc trưng của hai văn bản .
Cho hai vector va và vb , khoảng cách Manhattan được định nghĩa như sau :
n
i wai wbi
man
b 1
a v
v ,
_dist
Vì
n , _dist va vb
man
nằm trong khoảng 0 và 1, do đó mức độ tương đồng giữa hai vector này được xác định bằng công thức như sau :
man_sim va,vb 1
n , _dist va vb
man =
n
i
bi
ai w
n 1 w
1 1
Nhận xét : Ba phương pháp trên thì cho kết qủa tốt như nhau trong việc xác định mức độ tương đồng giữa các vector . Tuy nhiên , chúng ta thấy rằng khoảng cách Manhattan là phù hợp nhất ,vì ngoài việc cho kết qủa tốt như hai phương pháp kia ,nó còn hiệu qủa trong thực hiện do công thức tính toán đơn giản hơn so với phương pháp Euclidean và Cosine .
4.4 Phương pháp rút trích đặc trưng :
4.4.1 Phương pháp truyền thống rút trích đặc trưng văn bản
Theo truyền thống , một văn bản D thì được biểu diễn bằng một vector đặc trưng theo dạng (d1,d2,…,dn) , trong đó di là trọng số của đặc trưng thứ i và n là số lượng các đặc trưng . Mỗi một đặc trưng tương ứng với một từ xuất hiện trong tập huấn luyện , sau khi loại bỏ các stopword ra khỏi các văn bản .
Phương pháp 1:
Phương pháp phổ biến nhất để rút trích các đặc trưng là dựa vào tần suất xuất hiện của các từ riêng biệt trong các văn bản . Phương pháp này thực hiện thông qua hai bước sau
Bước 1 : Loại bỏ các từ chung (ngữ nghĩa của các từ này không ảnh hưởng đến nội dung của văn bản) ra khỏi văn bản bằng cách sử dụng một từ điển đặc biệt , hoặc là sử dụng danh sách các từ tầm thường ( stopword ) .
Bước 2 : Xác định tần suất xuất hiện tfij của các từ Tj còn lại trong mỗi văn bản Di và đặc biệt là số lần xuất hiện của Tj trong Di . Sau đó dựa vào tần suất xuất hiện của các từ này , chúng ta sẽ tính giá trị trọng số cho các từ Tj
này . Và n từ Tj có giá trị trọng số lớn nhất sẽ được chọn làm n đặc trưng của văn bản .
Phương pháp 2:
Một phương pháp khác để rút trích các đặc trưng của văn bản là sự kết hợp tần suất xuất hiện của từ trong văn bản và tần suất xuất hiện ngược trong văn bản (TF- IDF) . Lúc này chúng ta có công thức tính giá trị trọng số cho từ Tj trong văn bản Di , như sau :
log( )
tf df w
j ij ih
N
Trong đó : dfj là số luợng văn bản trong tập văn bản N mà trong đó từ Tj có xuất hiện
.Và cũng tương tự như trong phương pháp 1 , n từ Tj có giá trị trọng số lớn nhất sẽ được chọn làm n đặc trưng của văn bản .
Tuy nhiên , chúng ta nhận thấy rằng các phương pháp rút trích đặc trưng trình bày ở trên thì không phù hợp , vì các lý do sau :
o Phương pháp kết hợp TF-IDF có thể lấy ra tất cả các đặc trưng có tần suất xuất hiện tương đối thấp trong văn bản .
o Các phương pháp trình bày ở trên đã không xem xét đến mức độ phủ của các đặc trưng được rút trích . Mức độ phủ của các đặc trưng được định nghĩa là số phần trăm các văn bản chứa ít nhất một đặc trưng trong số các đặc trưng được rút trích .Do các phương pháp ở trên chỉ chọn n từ có giá trị trọng số lớn nhất và xem đó như là các đặc trưng , thì dẫn tới là không có gì bảo đảm là các đặc trưng này có số phần trăm bao phủ các văn bản là cao . Hơn nữa , nếu số phần trăm bao phủ là thấp thì sẽ có nhiều văn bản được biểu diễn bằng một vector đặc trưng , mà trong đó tất cả các thành phần trong vector này đều có giá trị là 0 ( giá trị trọng số bằng không ) .
o Nếu tất cả các từ đều được chọn như là đặc trưng thì chiều dài của vector đặc trưng sẽ lên tới con số hàng ngàn .Điều này làm cho thời gian xử lý sẽ rất lâu . Khi tất cả các đặc trưng được chọn thì theo [8] thì có ít hơn 4% các vector mà giá trị tất cả các thành phần trong vector này khác
0.Như thế thì trên 96% không gian bộ nhớ sẽ bị bỏ trống , khi vector đặc trưng này được dùng để biểu diễn một văn bản .
4.4.3 Phương pháp rút trích đặc trưng đề nghị sử dụng
Chúng ta sẽ sử dụng một phương pháp rút trích đặc trưng sao cho phù hợp.
Chúng ta chọn phương pháp này để rút trích đặc trưng , vì các yếu tố sau :
Phương pháp này không phụ thuộc vào tần suất xuất hiện của các từ trong văn bản .
Phương pháp này cân bằng giữa yếu tố mức độ bao phủ và số luợng các đặc trưng đuợc sử dụng để biểu diễn văn bản .
Chi tiết các bước thực hiện của phương pháp này :
Bước 1: Loại bỏ các từ tầm thường (stopword)
Bước 2: Đếm tần suất xuất hiện của các từ trong bước 1
Bước 3: Đặt lower = k , upper = k (tần suất xuất hiện của các từ (giả định ban đầu) và sẽ được xác định chính xác khi số lượng đặc trưng tìm được có mức độ phủ lớn hơn ngưỡng T ,thông thường ngưỡng T được gán khoảng 0.95 – 95% )
Bước 4: Chọn tất cả các từ ở trên với tần suất xuất hiện nằm trong khoảng từ lower đến upper .
Bước 5: Kiểm tra mức độ phủ của các từ .
Nếu mức độ phủ này lớn hơn ngưỡng T đã được định nghĩa trước thì dừng .
Ngược lại thì đặt lower = lower –1 và upper = upper + 1 và quay lại bước 4 .
II. SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN