a)Những cách thiện để tránh một lớp được ưa thích hơn các lớp khác
i)“Complement Naive Bayes”
Việc chỉ đếm các từ trong một lớp cụ thể c như giải thuật MNB sẽ ảnh hưởng rất lớn đến kết quả phân loại, vì cĩ thể các thực thể dữ liệu của một lớp c khá lớn so với các lớp cịn lại sẽ khiến cho lớp này cĩ trọng số lớn hơn so với các lớp cịn lại.
Khi thực hiện phân loại nếu chỉ dựa vào tìm giá trị max của sẽ
khiến cho lớp cĩ nhiều thực thể dữ liệu hơn được ưu tiên, mặc dù ta coi các lớp phân loại là đồng đều nhau.
Vì vậy để cải thiện việc này thay vì đếm các từ trong một lớp c cụ thể ta sẽ đếm những từ khơng nằm trong lớp c (phần bù của lớp c – Complement of c) để
tính giá trị trọng số của các từ, lúc này ta sẽ thấy những từ cĩ trọng số càng nhỏ
(tức là xác suất xuất hiện ở các lớp khác lớp c càng lớn) thì càng cĩ ít ý nghĩa khi
văn bản thuộc lớp c. Như vậy ta sẽ cĩ cơng thức sau để sử dụng trong phép phân
Luận văn tốt nghiệp Nghiên cứu giải thuật NB trong bài tốn TC
Trang 22
Trong đĩ:
● đây là sơ lần từ i xuất hiện trong các văn bản của các class khác class c.
● đây là số lần xuất hiện của các từ trong các văn bản của các class khác class c.
●Cịn hai hằng số và được tính hệt như cơng thức phân loại của MNB Dấu trừ trong biểu thức thể hiện ta muốn chọn lớp để phân loại văn bản là lớp
sẽ cĩ tổng trọng số của từ nhỏ hơn.
Cơng thức phân loại trên chính là cơng thức thể hiện của Complement Naive Bayes. Ngồi ra cơng thức trên cũng liên hệ đến cơng thức one-vs-all-but-one
MNB được sử dụng cho kết quả tốt hơn MNB thơng thường:
Nhưng việc áp dụng cơng thức phân loại này cũng khơng cho hiệu quả tốt hơn
cơng thức phân loại của CNB vì vậy ở đây ta nên sử dụng CNB.
Như đã nĩi ở giải thuật MNB, nếu ta coi các lớp là đồng đều nhau như vậy giá
trị sẽ khơng cĩ ý nghĩa trong phép phân loại vì vậy cơng thức để thực hiện CNB cĩ thể rút ngắn lại thành
i)Thay đổi trọng số của các từ để giảm sai số (normalize weight)
Nếu như ở phần trước ta nĩi về sự ảnh hưởng do bộ dữ liệu cĩ kích thước
khơng đồng đều thì ở đây ta sẽ nĩi đến ảnh hưởng của thiên kiến khá quan trọng trong giải thuật MNB đĩ là các từ xuất hiện một cách độc lập mà khơng liên hệ với nhau. Sở dĩ xảy ra điều này là do cĩ thể với một lớp nào đĩ thì việc xuất hiện liên
tục của một cụm từ, mặc dù cụm từ này cĩ thể cĩ xác suất bằng với những từ khác
của các lớp khác, nhưng một cụm từ này gồm nhiều từ vì vậy xác suất này được nhân lên nhiều lần khiến cho vector trọng số của lớp này lớn hơn nhiều so với vector trọng số của lớp khác. Như vậy mặc dù coi các lớp là tương đồng nhau và số
lượng các văn bản thuộc các lớp là đều nhau thì việc ưa thích một lớp vẫn cĩ thể xảy ra.
Ví dụ: Ta cần phân loại các văn bản vào hai lớp nĩi về thành phố Huế và thành phố Hà Nội. Ta giả sử hai lớp này đều cĩ lượng dữ liệu đồng đều, và giả sử xác
Luận văn tốt nghiệp Nghiên cứu giải thuật NB trong bài tốn TC
Trang 23
suất xuất hiện từ “Huế” trong các văn bản liên quan đến thành phố Huế bằng với xác suất xuất hiện từ “Hà Nội” trong các văn bản liên quan đến thành phố Hà Nội.
Như vậy trọng số của từ “Huế” sẽ bằng với trọng số của các từ “Hà”, “Nội”. Như
vậy tổng trọng số của văn bản liên quan đến thành phố Huế cĩ xác suất xuất hiện
của từ “Huế” lớn hơn xác suất xuất hiện của từ “Hà Nơi” một chút sẽ cĩ xu hướng lớn hơn nếu được phân loại là thành phố Hà Nội do trọng số của từ “Hà Nội” bị nhân đơi bởi được tính làm hai lần ở từ “Hà” và từ “Nội”.
Việc ưa thích này cũng cĩ thể xảy ra ngay cả với phương pháp CNB. Vì vậy
để giải quyết vấn dề này ta cần phải thực hiện đồng hĩa (Nomarlize) trọng số các từ. Thay vì gán trọng số , ta sử dụng cơng thức gán trọng số sau:
Khi đĩ do bị chia trên tổng số các trọng số, nên những trọng số của các cụm từ cũng vì thế bị chia nhỏ ra, nên khi tính tổng trọng số với một văn bản khơng cịn
xảy ra hiện tượng nêu trên.
Kết hợp với phương pháp Completment Naive Bayes với Weight-normalize ta cĩ phương pháp WCNB (Weight-normalized Complement Naive Bayes) đây là một
phương pháp khá hiệu quả được dùng để cải thiện kết quả cho MNB đơn thuần.
b)Các biến đối giúp phương pháp xác suất phù hợp hơn khi làm việc với các
văn bản
Để thực hiện cải thiện thêm hiệu quả của giải thuật MNB khi thực hiện phân
loại văn bản ta cũng cần quan tâm đến tần số xuất hiện của các từ trong văn bản. Những sự phân bố này cũng gây ảnh hưởng rất lớn đến kết quả của bộ phân loại.
i)Thay đổi số tần số xuất hiện của một từ
Để giúp cho MNB cĩ thể thực hiện tốt quá trình phân loại văn bản, ta tìm cách
thay đổi tần số xuất hiện của một từ. Ta nhận thấy rằng với một văn bản bất ký, ngay cả khi cĩ điều kiện sự xuất hiện của các từ độc lập với nhau thì khi một từ đã xuất hiện một số lần nào đĩ thì khả năng tiếp tục xuất hiện của từ đĩ trong văn bản
sẽ cao lên, chứ khơng tuyến tính như giả thuyết phân bố của multinomial.
Để thực hiện đo sự tương ứng giữa phân bố multinomial với một văn bản thơng thường người ta kiểm tra mối liên hệ giữa khả năng xảy ra (Probability kí hiệu là ) một văn bản sẽ xuất hiện một tần số f nào đĩ của một từ cụ thể (Term Frequence kí hiệu là ). Theo như multinomial thì sự phụ thuộc này là một hàm tuyến tính theo số mũ của xác suất xuất hiện hay nĩi là khả năng xảy ra sẽ là một hàm mũ theo tần số f của từ:
Luận văn tốt nghiệp Nghiên cứu giải thuật NB trong bài tốn TC
Trang 24 Ta quy ước cách nĩi này như sau:
Nhưng trong thực tế lại khơng như vậy, sự phụ thuộc này cũng khơng tuyến tính như vậy. Như trên đã nĩi, do một từ khi xuất hiện nhiều lần thì khả năng xuất hiện tiếp của từ đĩ trong văn bản tăng lên rất nhiều. Ta cĩ histogam như sau:
Hình 3. Phân bố xác xuất văn bản với xuất hiện của từ
Từ đĩ ta thầy rằng sự phụ thuộc giữa số mũ của và tần số khơng tuyến tính mà theo một hàm lũy thừa hay cĩ thể ký hiệu:
Khi đĩ nếu d bằng 1 thì hàm này sẽ khá gần với phân bố thực của các văn bản với nhỏ được thể hiện trong hình sau:
Luận văn tốt nghiệp Nghiên cứu giải thuật NB trong bài tốn TC
Trang 25
Hình 4. Phân bố khi d = 1.
Để thay đổi sự phuộc này cho gần với hàm tuyến tính, ta thực hiện sự biến đối sau:
Trong đĩ d thơng thường bằng 1.
Khi đĩ sự phụ thuộc này khơng hẳn đã tuyến tính nhưng khá gần tuyến tính với những nhỏ.
i)Biến đổi IDF
Một trong những biến đổi cần thực hiện tiếp theo đĩ là việc đưa phương pháp IR vào trong các trọng số của các từ. Ta thấy rằng một từ khi xuất hiện rất nhiều trong một văn bản nhưng nĩ là một từ mà cũng đồng thời xuất hiện rất nhiều trong các văn bản khác nhau, như vậy tần số xuất hiện của từ này cĩ thể khá cao nhưng đĩng gĩp của nĩ vào ý nghĩa của văn bản lại khơng cao, thậm chí là rất thấp (nhất là những từ hầu như xuất hiện trong các văn bản như những từ trong danh sách Stoplist). Chính vì sự quan trọng của sự xuất hiện ở nhiều văn bản khác nhau mà ta cần coi tham số xuất hiện tại nhiều văn bản khác nhau của một từ như là một tham số để xây dựng nên trọng số của từ, tham số này càng lớn thì trọng số này càng nhỏ
Luận văn tốt nghiệp Nghiên cứu giải thuật NB trong bài tốn TC
Trang 26
và ngược lại, đặc biệt khi tham số này bằng với số lượng văn bản thì từ này khơng
cĩ nghĩa.
Một heuristic được sử dụng để thực hiện biến đổi trong IR đĩ chính là biến đổi IDF (Inverse Document Frequency). Đây là một nhân tử làm giảm trọng số của từ
khi xác suất xuất hiện trong các văn bản khác nhau lớn. Các thơng dụng để thực hiện sự biến đổi này như sau:
Với bằng 1 khi từ i xuất hiện trong văn bản j bằng 0 nếu ngược lại. Theo cơng thức trên thì ta cũng thấy rằng những từ hiếm sẽ được làm tăng trọng số trong khi những từ phổ biến sẽ bị giảm trọng số.
ii) Thay đổi dựa trên độ dài của văn bản
Như đã nĩi trong một văn bản khi một từ xuất hiện một lần thì khả năng từ đĩ xuất hiện thêm lần nữa sẽ lớn hơn. Nhưng đối với MNB thơng thường cĩ một thiên kiến đĩ là sự xuất hiện này là độc lập và khơng liên quan đến nhau.
Hình 5. Phân bố xác xuất suất hiện với số lần xuất hiện của từ khi độ dài văn bản khác nhau
Như hình trên ta thấy được rằng đối những văn bản càng dài thì khả năng xuất hiện của các từ nhiều lần càng lớn vì vậy để tránh lỗi trong quá trình phân loại văn bản ở đây ta sử dụng phép biết đổi trọng số dựa trên độ dài văn bản như sau:
Luận văn tốt nghiệp Nghiên cứu giải thuật NB trong bài tốn TC
Trang 27
Cách biến đổi như trên thực chất là làm giảm trọng số của các từ theo độ dài
của văn bản chứa chúng, văn bản càng lớn thì lượng giảm đi càng nhiều.