CHƯƠNG 3 PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
II. SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN
NB là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực máy học và nhiều lĩnh vực khác như trong các công cụ tìm kiếm , các bộ lọc mail …
Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau. Như thế NB không tận dụng sự phụ thuộc của nhiều từ vào một chủ đề cụ thể . Chính giả định đó làm cho việc tính toán NB hiệu qủa và nhanh chóng hơn các phương pháp khác với độ phức tạp theo số mũ vì nó không sử dụng cách kết hợp các từ để đưa ra phán đoán chủ đề..Nhìn chung đây là một thuật toán phân loại tuyến tính thích hợp trong phân loại văn bản nhiều chủ đề . NB có ưu điểm là cài đặt đơn giản , tốc độ thực hiện thuật toán nhanh , dễ dàng cập nhật dữ liệu huấn luyện mới và có tính độc lập cao với tập huấn luyện .Chính những đặc điểm đĩ nên Nạve Bayes được đề nghị sử dụng để phân loại văn bản .
II.2. Ý tưởng và công thức Bayes :
Mục đích chính là làm sao tính được xác suất Pr(Cj, d’) , xác suất để văn bản d’nằm trong lớp Cj.Theo luật Bayes , văn bản d’ sẽ được gán vào lớp Cj nào có xác suất Pr(Cj, d’) cao nhất .
Công thức để tính Pr(Cj, d’) như sau :
c' c
d' 1 i
|C' Pr wi c' .
Pr d'
1
i Pr wi|C j C j .
Pr argmax
c j C HBAYES d'
Với :
- TF(wi, d’) là số lần xuất hiện của từ wi trong văn bản d’
- |d’| là số lượng các từ trong văn bản d’
- wi là một từ trong không gian đặc trưng F với số chiều là |F|
- Pr(Cj) được tính dựa trên tỷ lệ phần trăm của số văn bản mỗi lớp tương ứng
C' C
C' C j C
C j C j Pr
trong tập dữ liệu huấn luyện
-
w' F
,c j TF w' F
,c j TF wi 1
|C j Pr wi
II.3. Một số cải tiến :
Các công thức chuẩn của Bayes ở trên dùng thông tin xác suất học từ tập dữ liệu huấn luyện . Tuy nhiên ở đây , chúng ta đang đề xuất sử dụng phương pháp của H.Nguyễn không sử dụng tập dữ liệu huấn luyện mà sử dụng các kết qủa mà các search engine trả về , do đó một số công thức sẽ được thay đổi .
3.1 Ước lượng P(X|Y)
ci} D{Y
#
ci} w j Y
D{X
# ci) Y w j|
P(X
Nếu sử dụng cho tập ngữ liệu có sẵn, công thức trên có nghĩa là xác suất chủ đề ci chứa văn bản có trọng số wj bằng số văn bản có chứa wj thuộc ci trên tổng số văn bản thuộc chủ đề ci . Tuy nhiên , trong trường hợp ở đây , các kết qủa được trả về từ các search engine như Google chẳng hạn thì không thể xác định được số văn bản thực sự thuộc chủ đề đó . Do đó công thức được đề nghị đổi lại là :
kpw j&ck Y ci 1
&
pw j ci}
D{Y
#
ci} w j Y
D{X
# ci) Y w j| P(X Trong đó :
- p(wj & ci) là xác suất xuất hiện đồng thời wj và ci. - k là số thứ tự của các chủ đề , k thuộc {1,2,…. |Y|}
3.2 Ước lượng P(Y)
Ở công thức này , chúng ta giả sử các văn bản chứa từ khóa ci đều thuộc chủ đề ci. Khi đó P (Y=ci) bằng xác suất xuất hiện ci trên tổng số văn bản chứa tất cả các chủ đề .
j c jp pci D
ci} D{Y ) #
P(Y ci Trong đó :
- p(ci) : tần số xuất hiện của chủ đề ci trên search engine . - j : chỉ số của các chủ đề cần phân loại .
3.3 Ước lượng P(Y|X)
Từ 2 công thức trên , chúng ta có công thức cho phân loại văn bản sẽ là :
jpc j kpw k&c j kpw k&ci pci
w m)) ...
w 2
|w1 P(Y ci
KẾT LUẬN
Từ việc nghiên cứu lý thuyết và kết quả thực nghiệm có thể khẳng định rằng bài toán phân lớp văn bản thực sự có vai trò ý nghĩa rất quan trọng trong việc tổ chức, quản lý cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn, đặc biệt với nguồn tài nguyên về lĩnh vực tài chính ngân hàng.
Sự đa dạng của các thuật toán phân lớp dữ liệu làm cho việc lựa chọn thuật toán để xây dựng module phân lớp văn bản cho từng ngôn ngữ trở nên khó khăn hơn.
Bài thu hoạch tiếp cận các vấn đề nói trên và nghiên cứu các thuật toán phổ biến hiện nay, đã đạt được kết quả sau: Nghiên cứu về bài toán phân lớp văn bản: khái niệm, mô hình, đánh giá phân lớp.