6. Cấu trúc trình bày nội dung luận văn
4.3.6. Thuật tốn Nạve Bayes
T h u ậ t to á n p h â n lo ạ i N a ïv e B a y e s (N a ïv e B a y e s C la s s if ic a tio n -N B C ) là
m ộ t th u ậ t to á n d ự a t r ê n đ ịn h lý B a y e s v ề lý th u y ế t x á c s u ấ t đ ể đ ư a r a c á c p h á n
đ o á n c ũ n g n h ư p h â n lo ạ i d ữ liệ u d ự a tr ê n c á c d ữ liệ u đ ư ợ c q u a n sá t v à th ố n g
kê. N B C th u ộ c v à o n h ĩ m h ọ c m á y c ĩ g iá m sá t [6 7 ], [1 2 1 ].
Định lý Bayes: Đ ịn h lý B a y e s c h o p h é p tín h x á c s u ấ t x ả y r a c ủ a m ộ t s ự k iệ n n g ẫ u n h iê n A k h i b iế t s ự k iệ n liê n q u a n B đ ã x ả y ra , đ ư ợ c k ý h iệ u là P (A |B ).
Đ ạ i lư ợ n g n à y đ ư ợ c g ọ i là x á c s u ấ t c ĩ đ iề u k iệ n h a y x á c s u ấ t h ậ u n g h iệ m v ì n ĩ
đ ư ợ c r ú t r a t ừ g iá trị đ ư ợ c c h o c ủ a B h o ặ c p h ụ th u ộ c v à o g iá tr ị đĩ.
P(A I B ) = (4 .4 )
T r o n g đĩ:
+ P ( A ) là X á c su ấ t c ủ a s ự k iệ n A x ả y ra;
+ P ( B ) là X á c s u ấ t c ủ a s ự k iệ n B x ả y ra;
+ P ( B |A ) là X á c s u ấ t (c ĩ đ iề u k iệ n ) c ủ a s ự k iệ n B x ả y r a n ế u b iế t r ằ n g s ự
k i ệ n A đ ã x ả y ra.
Bộ phân lớp Nạve Bayes: C h o D là tậ p d ữ liệ u h u ấ n lu y ệ n c ù n g v ớ i c á c n h ã n lớ p tư ơ n g ứ n g . M ỗ i b ộ d ữ liệ u đ ư ợ c m ơ t ả b ở i n th u ộ c tín h v à đ ư ợ c d iễ n
đ ạ t d ư ớ i d ạ n g v e c to r n c h iề u X = (xi, X2, Xn).
G iả s ử r ằ n g cĩ m n h ã n lớ p k h á c n h a u g ồ m C1, C2, Cm . C h o m ộ t b ộ d ữ liệ u X , b ộ p h â n lớ p sẽ d ự đ o á n X th u ộ c v ề p h â n lớ p cĩ x á c s u ấ t h ậ u n g h iệ m c a o n h ấ t.
P(Ci I X) > P(Cj I X ) v ớ i 1 < j < m , j * Í P(Ci I X) = P( X I Ci)P(Ci) P(X) ( 4 .5 ) D o P(X) k h ơ n g đ ổ i, n ê n t a c h ỉ c ầ n c ự c đ ạ i h ĩ a g iá tr ị p ( x I Ci)P(Ci). C ĩ b a lo ạ i p h â n b ố x á c s u ấ t p h ổ b iế n tr o n g N B C là G a u s s ia n N a ïv e B a y e s , M u ltin o m ia l N a ïv e B a y e s v à B e r n o u lli N a ïv e B a y e s . P h â n b ố x á c s u ấ t G a u s s ia n N a ïv e B a y e s th ư ờ n g đ ư ợ c s ử d ụ n g c h ủ y ế u tr o n g lo ạ i d ữ liệ u m à c á c th à n h p h ầ n
là c á c b iế n liê n tụ c . P h â n b ố M u ltin o m ia l N a ïv e B a y e s th ư ờ n g đ ư ợ c s ử d ụ n g
tr o n g c á c b à i to á n p h â n lo ạ i v ă n b ả n . P h â n b ố B e r n o u lli N a ïv e B a y e s th ư ờ n g
đ ư ợ c á p d ụ n g c h o c á c lo ạ i d ữ liệ u m à m ỗ i th à n h p h ầ n là m ộ t g iá tr ị n h ị p h â n .