Sử dụng mơ hình là kiểm tra tính đúng đắn của mơ hình và dùng mơ hình để
phân lớp dữ liệu mới:
• Phân lớp cho những mẫu mới hoặc chưa được phân lớp.
• Đánh giá độ chính xác của mơ hình bằng cách:
o Lớp biết trước của một mẫu/bộ dữ liệu đem kiểm tra được so sánh với kết quả thu được từ mơ hình.
o Tỉ lệ chính xác bằng phần trăm các mẫu/bộ dữ liệu được phân lớp đúng bởi mơ hình trong số các lần kiểm tra.
Hiện nay cĩ nhiều kỹ thuật phân lớp được nghiên cứu trên thế giới như: phân lớp dựa vào cây quyết định, dựa vào luật kết hợp, mạng nơron, phân lớp xác suất Naive Bayes, dựa vào giải thuật di truyền,… Tuy nhiên, trong thực tế khi áp dụng các kỹ
thuật cho thấy rằng khơng cĩ một kỹ thuật phân lớp nào là tốt nhất cho mọi ứng dụng mà mỗi kỹ thuật phân lớp chỉ tốt đối với từng trường hợp cụ thể mà thơi.
Cĩ nhiều vấn đề mà một bộ phân lớp cần phải quan tâm và giải quyết. Một trong số các vấn đềđĩ là [12]:
• Độ chính xác: Độ tin cậy của một luật dựa vào độ chính xác khi phân lớp, mặc dù cĩ một số lỗi được xem là nghiêm trọng hơn các lỗi khác nhưng vấn
đề quan trọng là được hiệu chỉnh và đánh giá chính xác đối với các lớp quan trọng.
• Tốc độ: Trong một số tình huống, tốc độ phân lớp được xem như là một yếu tố quan trọng. Khi đĩ, một bộ phân lớp với độ chính xác 92% cĩ thểđược ưa chuộng hơn bộ phân lớp cĩ độ chính xác 95% nhưng chậm hơn 100 lần trong các phép kiểm tra.
• Dễ hiểu: Một bộ phân lớp dễ hiểu sẽ tạo cho người sử dụng tin tưởng hơn vào hệ thống, đồng thời cũng giúp cho người sử dụng tránh được việc hiểu lầm kết quả của một luật được đưa ra bởi hệ thống.
• Thời gian học: Vấn đề này đặc biệt nghiêm trọng khi hệ thống được sử dụng trong các mơi trường thay đổi thường xuyên, điều đĩ yêu cầu hệ thống phải học rất nhanh một luật phân lớp hoặc nhanh chĩng điều chỉnh một luật đã
được học cho phù hợp với thực tế.
4.3. MƠ HÌNH PHÂN LỚP BẰNG PHƯƠNG PHÁP NẠVE BAYES
4.3.1. Đặc trưng văn bản cho phân lớp Bayes
Các mơ hình truy vấn thơng tin truyền thống chỉ xem xét văn bản dựa trên tập từ
khĩa đại diện được gọi là các từ hoặc cụm từ chỉ mục cho văn bản. Với tiếp cận này, mỗi văn bản được xem là một vector trong đĩ mỗi thành phần của vector ứng với một từ khĩa. Vì tập các văn bản thường nhiều nên số lượng từđược chọn là khá lớn, do đĩ chúng ta chỉ chọn ra một số từ làm đặc trưng cho các văn bản mà vẫn
đảm bảo số từ này thể hiện nội dung của các văn bản tương đối đầy đủ.
Hiện cĩ rất nhiều phương pháp chọn đặc trưng cho văn bản, phương pháp khá phổ biến là phương pháp gán trọng số cho các thành phần của vector biểu diễn văn bản. Gọi ti là đại diện cho từ hoặc cụm từ thứ i của tập từ khố trên tồn tập văn bản. Cho k là số từ và cụm từ của tập từ khố. Ta cĩ T = {t1,t2,..,tk} là tập các từ hoặc cụm từ chỉ mục của tập từ khố. Văn bản D được biểu diễn bằng một vector đặc trưng (t1,t2,…,tk) cĩ k chiều, với ti là từ hoặc cụm từ thứ i trong tập từ khố. Ví dụ 4.1: Cho T là tập các từ hoặc cụm từ chỉ mục của tập văn bản.
T = {Hàm, cây quyết định, giải thuật, thuật tốn, tối ưu, bước, máy tính, bài tập, máy học, hệ thống, chương trình}
Văn bản D = ((Chương trình) (được) (viết) (bằng) (VC) (cài đặt) (thuật tốn) (tìm) (luật) (kết hợp)).
⇒ Vector D trên T:
D = (Null, Null, Null, thuật tốn, Null, Null, Null, Null, Null, Null, chương trình) (Null: thành phần vector khơng cĩ giá trị).
Biểu diễn D dưới dạng: (1: cĩ, 0: khơng) D = (0,0,0,1,0,0,0,0,0,0,1)
Ngồi việc gán giá trị 1 hoặc 0, thành phần của vector cĩ thểđược gán bằng một trọng số dựa trên tần suất xuất hiện của từ hay cụm từ trong văn bản so với tập văn bản. D = (0,0,0,0.18,0,0,0,0,0,0,0.07)
Mơ hình vector được dùng để so khớp các thành phần giữa hai tập từ hoặc cụm từ chỉ mục của hai văn bản bằng cách gán một trọng số cho các từ hoặc cụm từ chỉ
mục. Các trọng số của từ hoặc cụm từđược dùng làm nền tảng để tính độ tương tự
giữa hai vector đặc trưng của hai văn bản hoặc giữa văn bản với các nhĩm văn bản. Ngồi ra, cịn cĩ độ đo liên kết phản ánh mức độ liên kết giữa các văn bản với các nhĩm văn bản (hoặc các tập văn bản). Mối liên kết này được mơ tả bằng nhiều cách khác nhau như độ tương tự (similiarity), độ liên kết (association) và độ khơng tương tự (dissimilarity). Độđo tương tựđược đưa ra đểđánh giá sự giống nhau giữa các văn bản, cho biết văn bản cĩ khả năng thuộc về nhĩm các văn bản này hay
nhĩm các văn bản khác. Một sốđộ đo liên kết giữa hai vector X, Y thường được sử
dụng đĩ là hệ số Cosine, khoảng cách Euclide và khoảng cách Manhattan.
Hệ số Cosine: cho hai vector đặc trưng va và vb . Hệ số Cosine được tính như
sau: Cosine(va ,vb) = 2 1 2 1 Y X Y X × ∩ = ∑ ∑ ∑ = = = × × n i bi n i ai n i ai bi w w w w 1 2 1 2 1
Khoảng cách Euclide: cho hai vector đặc trưng va và vb . Khoảng cách Euclide
được tính như sau: Euclide(va,vb) = ∑ = − n i bi ai w w 1 2 ) (
Khoảng cách Manhattan: cho hai vector đặc trưng va và vb . Khoảng cách Manhattan được tính như sau:
Manhattan(va ,vb) = ∑ = − n i bi ai w w 1
Trong đĩ X,Y là hai vector biểu diễn hai văn bản (hoặc vector văn bản và vector lớp văn bản). Độ tương tự giữa hai văn bản (hoặc giữa văn bản và lớp văn bản)
được đánh giá thơng qua giá trị này. Hai văn bản (hoặc văn bản và lớp văn bản) cĩ mức độ tương tự càng cao thì giá trị này càng nhỏ, giá trị này cao thì độ tương tự ít hơn.
4.3.1.1.Phương pháp lấy trọng số đặc trưng của văn bản
Giả sử tập văn bản cĩ N văn bản. Văn bản Dj (j∈[1,N]) được biểu diễn bằng một vector đặc trưng (w1j,w2j,…,wkj) cĩ k chiều, với wij là trọng số cho từ hoặc cụm từ
thứ i và k là số từ hoặc cụm từ xuất hiện trong tập văn bản (khơng trùng). Gọi ti là
đại diện cho từ hoặc cụm từ thứ i của tập văn bản. Trọng số wij của tij (từ hoặc cụm từ i trong văn bản Dj) được tính dựa trên việc lấy thơng tin tập trung vào sự tương xứng của từ hoặc cụm từ trong mối quan hệ với tập văn bản.
Trọng số wij của tij dựa trên tf idf
• tf là từ viết tắt của term frequency (tần suất xuất hiện của từ
hoặc cụm từ trong văn bản đĩ).
• idf là từ viết tắt của inverse document frequency (tần suất tài liệu đảo).
Độđo tf-idf được tính như sau: wij= ⎜⎜⎝⎛ ⎟⎟⎠⎞ i ij n N f log Trong đĩ: fij : là tần số của từ hoặc cụm từ i trong văn bản j. N : số văn bản trong tập văn bản. ni : là số văn bản chứa từ hoặc cụm từ i.
Một vector gán trọng sốđược gọi là vector trọng.
Trong phân lớp văn bản, một trở ngại thường gặp là số chiều của vector. Chúng ta thường tìm thấy rất nhiều thành phần của vector đầu vào cĩ giá trị 0, nghĩa là cĩ một số lượng lớn từ ngữ (được chọn làm đặc trưng cho tập văn bản huấn luyện) khơng xuất hiện trong một lớp văn bản. Những từ này rõ ràng làm cho giá trị trọng bằng 0. Trong khi chỉ cần tìm ra những đặc trưng thể hiện một lớp nào đĩ hơn là việc mơ tả một lớp bằng những đặc trưng khơng tồn tại trong dữ liệu. Do đĩ, ta cần xác định những thành phần của vector nhằm phản ánh tầm quan trọng của đặc trưng cĩ trong văn bản. Để làm điều này, chúng ta dùng một ngưỡng τ để chọn những thành phần cĩ giá trị trọng tương ứng lớn hơn ngưỡng τ (hay tfidf > τ). Theo cách này cĩ nghĩa là, τ chỉ tầm quan trọng tối thiểu mà một thành phần gán trọng tfidf
được chọn làm đặc trưng.
4.3.1.2. Phương pháp lấy trọng số của lớp văn bản
Một từ khĩa được đánh giá là tốt hay khơng tốt cho một lớp văn bản (tập văn bản) khi từ khĩa đĩ cĩ thể mơ tảđược những đặc điểm riêng của lớp văn bản đĩ so với các lớp văn bản khác (tập văn bản khác).
Một từ khĩa w được đánh giá là tốt cho một lớp văn bản C khi w thỏa các tính chất:
• w trội hơn trong lớp C so với các từw’ khác trong lớp C.
• w trội hơn trong C so với sự xuất hiện của w trong các lớp C’ khác cịn lại. Từ hai điều kiện trên ta cĩ thể kết hợp thành một độ đo cho một từ khĩa của một lớp như sau: G(w) = Fclust(w) * Fcoll(w)
Fclust(w) : độ đo tầm quan trọng của từ khĩa w so với những từ khĩa w’ khác trong lớp văn bản C.
Fcoll(w) : độđo tầm quan trọng của từ khĩa w trong C so với từ khĩa w
trong các lớp văn bản C’ cịn lại.
Các trị này được tính dựa trên phương pháp thống kê như sau [17]: