Xây dựng ứng dụng ngăn chặn tin nhắn rác trên thiết bị di độngXây dựng ứng dụng ngăn chặn tin nhắn rác trên thiết bị di độngXây dựng ứng dụng ngăn chặn tin nhắn rác trên thiết bị di độngXây dựng ứng dụng ngăn chặn tin nhắn rác trên thiết bị di độngXây dựng ứng dụng ngăn chặn tin nhắn rác trên thiết bị di độngXây dựng ứng dụng ngăn chặn tin nhắn rác trên thiết bị di độngXây dựng ứng dụng ngăn chặn tin nhắn rác trên thiết bị di độngXây dựng ứng dụng ngăn chặn tin nhắn rác trên thiết bị di động
HC VIN CễNG NGH BU CHNH VIN THễNG - NGUYN TRNG THANH XY DNG NG DNG NGN CHN TIN NHN RC TRấN THIT B DI NG CHUYấN NGNH : KHOA HC MY TNH M S: 60.48.01.01 LUN VN THC S K THUT (Theo nh hng ng dng) NGI HNG DN KHOA HC: TS NGUYN TRNG NG H NI - 2016 Lun c hon thnh ti: HC VIN CễNG NGH BU CHNH VIN THễNG Ngi hng dn khoa hc: TS Nguyn Trng ng Phn bin 1: Phn bin 2: Lun s c bo v trc Hi ng chm lun thc s ti Hc vin Cụng ngh Bu chớnh Vin thụng Vo lỳc: gi ngy thỏng nm Cú th tỡm hiu lun ti: - Th vin ca Hc vin Cụng ngh Bu chớnh Vin thụng M U Tớnh cp thit ca ti S phỏt trin ca khoa hc, k thut ó to nhiu cụng ngh mi phc v hot ng liờn lc, trao i thụng tin, ú cú SMS Hin nay, SMS c ỏnh giỏ l mt nhng phng tin liờn lc ph bin, n gin v hiu qu nht SMS cng c coi l cụng c phc v c lc hot ng kinh doanh, c bit l qung cỏo Cng nh th in t rỏc, tin nhn rỏc l mt nhng nn phỏt sinh bờn cnh nhng c im tớch cc m tin nhn mang li Ti Vit Nam, tin nhn rỏc ó v ang tr thnh mt nn ln i vi thuờ bao di ng v din bin ngy mt tinh vi v phc Cha bao gi vic phỏt tỏn nhng tin nhn rỏc d dng nh hin Tin nhn rỏc khụng ch cú ni dung v mua bỏn, qung cỏo m cũn xut hin rt nhiu tin nhn rỏc la o qua tin nhn, d d ngi dựng, thm mang tớnh cht phn ng, bụi nh danh d ngi khỏc Mi nm cú hng trm triu tin nhn rỏc c phỏt tỏn i Chỳng gõy khú chu c v ni dung ln s lng cho nhng ngi s dng in thoi Theo nh ngha v tin nhn rỏc ti Lut Cụng ngh thụng tin thỡ tin nhn rỏc l tin nhn c gi n ngi nhn m ngi nhn ú khụng mong mun hoc khụng cú trỏch nhim phi tip nhn theo quy nh ca phỏp lut iu ny chng t vai trũ rt quan trng ca cỏc ng dng, phn mm ngn chn tin nhn rỏc dnh cho ngi dựng Vỡ vy, bờn cnh cỏc gii phỏp ngn chn tin nhn rỏc l t phớa doanh nghip di ng, thỡ cỏc phn mm, ng dng cho phộp ngi dựng ch ng ngn chn tin nhn rỏc l rt quan trng Nu nh doanh nghip di ng cú th ngn chn nhng tin nhn vi ni dung, tiờu nht nh, thỡ vi cỏc phn mm, ng dng ci t trờn in thoi, ngi dựng cú th ch ng la chn nhng ni dung tin nhn m h khụng mong mun, coi l rỏc v la chn nhng ni dung m h mun nhn c Hin nay, in thoi thụng minh ngy cng ph bin v tr thnh mt vt dng khụng th thiu i vi nhiu ngi Vỡ vy, phm vi lun thc s, ch trỡ mong mun xõy dng mt phn mm ngn chn tin nhn rỏc trờn in thoi thụng minh, c bit l i vi tin nhn rỏc ti Vit Nam theo c hai hng t ng v ch ng, giỳp ngi dựng loi b tin nhn rỏc Xut phỏt t thc t v mc tiờu nh vy, tỏc gi thc hin ti lun cú tờn Xõy dng ng dng ngn chn tin nhn rỏc trờn thit b di ng gii quyt nờu trờn 2 Tng quan v nghiờn cu S phỏt trin ca khoa hc, k thut ó to nhiu cụng ngh mi phc v hot ng liờn lc, trao i thụng tin, ú cú SMS Hin nay, SMS c ỏnh giỏ l mt nhng phng tin liờn lc ph bin, n gin v hiu qu nht SMS cng c coi l cụng c phc v c lc hot ng kinh doanh, c bit l qung cỏo Cng nh th in t rỏc, tin nhn rỏc l mt nhng nn phỏt sinh bờn cnh nhng c im tớch cc m tin nhn mang li Ti Vit Nam, tin nhn rỏc ó v ang tr thnh mt nn ln i vi thuờ bao di ng v din bin ngy mt tinh vi v phc Cha bao gi vic phỏt tỏn nhng tin nhn rỏc d dng nh hin Tin nhn rỏc khụng ch cú ni dung v mua bỏn, qung cỏo m cũn xut hin rt nhiu tin nhn rỏc la o qua tin nhn, d d ngi dựng, thm mang tớnh cht phn ng, bụi nh danh d ngi khỏc Mi nm cú hng trm triu tin nhn rỏc c phỏt tỏn i Chỳng gõy khú chu c v ni dung ln s lng cho nhng ngi s dng in thoi Theo nh ngha v tin nhn rỏc ti Lut Cụng ngh thụng tin thỡ tin nhn rỏc l tin nhn c gi n ngi nhn m ngi nhn ú khụng mong mun hoc khụng cú trỏch nhim phi tip nhn theo quy nh ca phỏp lut iu ny chng t vai trũ rt quan trng ca cỏc ng dng, phn mm ngn chn tin nhn rỏc dnh cho ngi dựng Vỡ vy, bờn cnh cỏc gii phỏp ngn chn tin nhn rỏc l t phớa doanh nghip di ng, thỡ cỏc phn mm, ng dng cho phộp ngi dựng ch ng ngn chn tin nhn rỏc l rt quan trng Nu nh doanh nghip di ng cú th ngn chn nhng tin nhn vi ni dung, tiờu nht nh, thỡ vi cỏc phn mm, ng dng ci t trờn in thoi, ngi dựng cú th ch ng la chn nhng ni dung tin nhn m h khụng mong mun, coi l rỏc v la chn nhng ni dung m h mun nhn c Hin nay, in thoi thụng minh ngy cng ph bin v tr thnh mt vt dng khụng th thiu i vi nhiu ngi Vỡ vy, phm vi lun thc s, ch trỡ mong mun xõy dng mt phn mm ngn chn tin nhn rỏc trờn in thoi thụng minh, c bit l i vi tin nhn rỏc ti Vit Nam theo c hai hng t ng v ch ng, giỳp ngi dựng loi b tin nhn rỏc Xut phỏt t thc t v mc tiờu nh vy, tỏc gi thc hin ti lun cú tờn Xõy dng ng dng ngn chn tin nhn rỏc trờn thit b di ng gii quyt nờu trờn 3 Mc ớch, i tng, phm vi v phng phỏp nghiờn cu Lun trung nghiờn cu, tỡm hiu cỏc c bn v tin nhn rỏc ti Vit Nam v trờn th gii, cỏc thut toỏn hc mỏy T ú ng dng vo vic xõy dng ng dng ngn chn tin nhn rỏc trờn thit b di ng, c th l trờn h iu hnh Android ti Vit Nam Kt qu t c ca lun l cú nhng nghiờn cu lý thuyt, s liu, tỡnh hỡnh v tin nhn rỏc, cỏc thut toỏn hc mỏy; xõy dng c ng dng ngn chn tin nhn rỏc trờn thit b di ng ti Vit Nam Lun nghiờn cu v cỏc loi hỡnh tin nhn rỏc ti Vit Nam, t ú, xõy dng nờn ng dng ngn chn tin nhn rỏc trờn thit b di ng, c th l thit b di ng s dng h iu hnh Android Lun kt hp phng phỏp nghiờn cu Phng phỏp nghiờn cu lý thuyt: tng hp, thu thp, nghiờn cu ti liu, ngụn ng lp trỡnh, cỏc cụng ngh, gii phỏp cú liờn quan n ngn chn tin nhn rỏc Phng phỏp nghiờn cu thc nghim: Phõn tớch c cỏc yờu cu ca cụng vic, dng cỏc kt qu lý thuyt vo b d liu c th (d liu tin nhn rỏc) thu thp c ỏnh giỏ v phõn tớch kt qu Tp hp, xõy dng c b d liu mu kim tra th nghim, nhn xột, ỏnh giỏ c kt qu t c Cu trỳc lun Ni dung ca lun c trỡnh by ba phn chớnh nh sau: Phn m u Phn ni dung: bao gm ba chng Chng 1: Cỏc gii phỏp ngn chn tin nhn rỏc Chng ny i sõu vo cỏc gii phỏp ngn chn tin nhn rỏc theo cỏc hng, cỏc gii phỏp khỏc Gii phỏp v mt phỏp lý: ỏnh giỏ cỏc gii phỏp hin v mt phỏp lý ngn chn tin nhn rỏc n t cỏc c quan chc nng, cỏc nh mng Gii phỏp v mt k thut: cỏc mụ hỡnh, cỏc thut toỏn ngn chn tin nhn rỏc ỏp dng vo bi toỏn phõn loi v x lý tin nhn rỏc Chng 2: p dng thut toỏn Naùve Bayes xõy dng b lc tin nhn rỏc Chng ny trỡnh by cỏch to b lc tin nhn rỏc s dng thut toỏn Naùve Bayes Trong chng 2, lun s trỡnh by mụ hỡnh thut toỏn Naùve Bayes, cỏc u nhc im ca thut toỏn, cỏc bc xõy dng b lc tin nhn rỏc s dng thut toỏn Naùve Bayes nh ly d liu mu, hun luyn b lc 4 Chng 3: Xõy dng ng dng ngn chn tin nhn rỏc trờn thit b di ng Trong chng 3, lun s ỏnh giỏ cỏc d liu, cỏc k thut c dựng trong chng trỡnh, xõy dng ng dng ngn chn tin nhn rỏc trờn h iu hnh Android bng thut toỏn Naùve Bayes ó a chng 2, demo thc nghim v ỏnh giỏ thut toỏn Phn kt lun CHNG - CC GII PHP NGN CHN TIN NHN RC 1.1 Tng quan v tin nhn rỏc Tin nhn SMS Tin nhn SMS (Short Messaging Service hay Simple Message Service) l dch v nhn tin ngn SMS cho phộp gi v nhn bn tin ngn (tin nhn) gia cỏc mỏy in thoi di ng cng nh gia in thoi di ng v cỏc thit b cung cp thụng tin khỏc (PC, PDA) Tin nhn SMS rỏc Ging nh th in t rỏc, tin nhn SMS rỏc l l tin nhn c gi n ngi nhn m ngi nhn ú khụng mong mun hoc khụng cú trỏch nhim phi tip nhn theo quy nh ca phỏp lut 1.2 Thc trng tin nhn rỏc ti Vit Nam Thc trng tin nhn rỏc ti Vit Nam Vi s bựng n ca vin thụng cụng ngh thụng tin, ngi cú th kt ni vi qua tớch tc dự cỏch xa ngn cõy s cng nh nm bt thụng tin nhanh nht tr thnh ngi tiờu dựng thụng minh, d dng tip cn vi sn phm, dch v ca mỡnh mong mun Nm bt c xu th ny, nhng nm gn õy, nhiu ngi ó s dng mng vin thụng nh mt phng thc qung cỏo r v hiu qu vic a sn phm ti ngi tiờu dựng V bi cnh y, tin rỏc i to nờn nhng bc xỳc cho ngi dựng vin thụng di ng lỳc cao im, mi mt sim di ng 24 gi cú th nhn ti c chc tin nhn rỏc qung cỏo dch v bt ng sn, sim s p, chn ga gi m, du lch Ngoi vic tr thnh mt phng thc qung cỏo giỏ r ra, thỡ cỏc tin nhn rỏc cũn cú du hiu la o nh ni dung tin nhn thụng bỏo trỳng thng, tng nhc chuụng, hỡnh nh, ci t GPRS nhng ch thuờ bao di ng nhn tin n u s theo hng dn thỡ lp tc b tr tin Cỏc loi tin nhn rỏc chớnh xut hin ti Vit Nam Vit Nam tin nhn rỏc cú th phõn chia thnh mt s loi nh sau: - Tin nhn qung cỏo khụng hp phỏp - Tin nhn cú tớnh cht d d khỏch hng - Tin nhn cú tớnh cht la o - Tin nhn gi mo 1.3 Cỏc gii phỏp ngn chn tin nhn rỏc Gii phỏp v mt phỏp lý õy l cỏc gii phỏp c a bi cỏc c quan qun lý v cỏc nh mng nhm ngn chn s phỏt tỏn tin nhn rỏc Ti Vit Nam, chớnh ph ó ban hnh Lut chng tin nhn, th rỏc theo Ngh nh v chng th rỏc (90/2008/N-CP) Cc An ton thụng tin (B Thụng tin v Truyn thụng) xut gii hn s tin nhn gi mt khong thi gian nht nh ng thi x lý nghiờm minh theo Ngh nh 174/2013/N-CP ca Chớnh ph quy nh v x pht vi phm hnh chớnh lnh vc vin thụng Cỏc nh mng, bỏo cng gúp phn vo vic ngn chn phỏt tỏn tin nhn rỏc Vit Nam Gii phỏp v mt k thut S dng cỏc gii phỏp v mt k thut giỳp ngi dựng ch ng hn vic ngn chn tin nhn rỏc S dng cỏc phng phỏp nh Blacklist, Graylist, s dng cỏc Keyword thng xut hin cỏc tin nhn rỏc hay s dng cỏc thut toỏn hc mỏy, giỳp phõn loi tin nhn rỏc v tin nhn hp l 1.4 Cỏc phng phỏp phõn loi bn Phõn loi bn Phõn loi bn l s phõn loi khụng cu trỳc cỏc ti liu bn da trờn mt hp ca mt hay nhiu loi bn ó c nh ngha trc Quỏ trỡnh ny thng c thc thi bng mt h thng t ng gỏn cho cỏc ti liu bn mt loi no ú Tin trỡnh phõn loi bn a mt ti liu mu D, cn c phõn b thnh mt s loi ti liu nht nh mi ti liu ú cn c gỏn cho mt loi bn no ú Nhim v ca chỳng ta l tỡm mt h thng phõn hoch, m nú s cung cp cho ta mt nhón y phự hp cho mt s ti liu D va c a vo t ngun ti nguyờn ging nh cỏc bn mu Cỏc bc tin trỡnh phõn loi bn: - La chn cỏc c trng bn - Biu din bn - Hc mt b phõn loi bn - Tin hnh phõn loi bn Cỏc phng phỏp phõn loi bn 1.4.3.1 Nguyờn mu Nguyờn mu (prototype) cú th l phng phỏp n gin nht c ỏp dng phõn loi bn u im ca nguyờn mu l cú th ỏp dng cho mi bn, nhiờn xỏc sut ca phng phỏp ny khụng cao (lớ l cú nhiu loi bn di ging nhng ni dung khỏc hn nhau) 1.4.3.2 Mụ hỡnh xỏc sut Naùve Bayes K thut phõn hoch ca Naive Bayes da trờn c s nh lớ Bayes v c bit phự hp cho cỏc trng hp phõn loi cú kớch thc u vo l ln Mc dự Naive Bayes khỏ n gin nhng nú cú kh nng phõn loi tt hn rt nhiu phng phỏp phõn hoch phc khỏc.Vi mi loi bn, thut toỏn Naive Bayes tớnh cho mi lp bn mt xỏc sut m ti liu cn phõn hoch cú th thuc loi ú Ti liu ú s c gỏn cho lp bn no cú xỏc sut cao nht 1.4.3.3 Phng phỏp SVM (Support Vectors Machines) SVM l mt phng phỏp tip cn gn ỳng thng ỏp dng phõn loi hai lp bn Phng phỏp ny c xỏc nh da trờn mt khụng gian vector m khụng gian ny phi tỡm mt mt quyt nh gia hai lp cho khong cỏch gia cỏc im d liu gia hai lp ny l ln nht Nu bn cn phõn loi nm v phớa no ca mt quyt nh thỡ nú c phõn vo loi bn ú Phng phỏp SVM thng ỏp dng phõn loi hai lp bn nhng cú th ỏp dng phõn loi nhiu lp bn Phng phỏp cõy quyt nh (Dicision Trees) Cõy quyt nh l mt nhng k thut hc mỏy c nhiu ngi bit n Chỳng c ỏp dng rng rói v a dng ca cỏc lnh vc c bit l cỏc ng dng trớ tu nhõn to 1.4.3.4 Phng phỏp mng neuron (Neuron network) Phõn loi bn bng mụ hỡnh mng neuron l mt cỏch thc phõn loi mi c xut Cu trỳc v hot ng ca mng neuron c bn da trờn b nóo ngi Mng neuron c ỏp dng khỏ nhiu lnh vc khỏc v cú kh nng gii quyt cỏc phc tp, phm vi rng 8 1.5 Kt lun chng Chng ó a cỏi nhỡn tng quỏt v tin nhn rỏc, khỏi nim tin nhn rỏc v thc trng tin nhn rỏc ti Vit Nam, ng thi a c cỏc phng phỏp ngn chn tin nhn rỏc ngn chn tin nhn rỏc, tỏc gi s dng thut toỏn hc mỏy Naùve Bayes phõn loi tin nhn xem õu l tin nhn thng, õu l tin nhn rỏc Chi tit v thut toỏn Naùve Bayes c cp ti Chng ca lun 9 CHNG - P DNG THUT TON NAẽVE BAYES XY DNG B LC TIN NHN RC 2.1 C s lý thuyt Cụng thc xỏc sut cú iu kin Xỏc sut iu kin ca bin c A vi iu kin bin c B ó xy l mt s khụng õm, ký hiu l P( A|B ) nú biu th kh nng xy bin c A tỡnh bin c B ó xy P( A | B) P( AB) P( B) - P(A): Xỏc sut ca s kin A xy - P(B): Xỏc sut ca s kin B xy - P(B|A): Xỏc sut (cú iu kin) ca s kin B xy ra, nu bit rng s kin A ó xy - P(A|B): Xỏc sut (cú iu kin) ca s kin A xy ra, nu bit rng s kin B ó xy Cụng thc xỏc sut y Gi s B1, B2, Bn l nhúm y cỏc bin c Xột bin c A cho A xy ch mt cỏc bin c B1, B2, Bn xy Khi ú : n p(A)= p(A|Bi )*p(Bi ) i=1 Phỏt biu thut toỏn Naùve Bayes Thut toỏn Naùve Bayes da trờn nh lý Bayes c phỏt biu nh sau : P(Y|X)= P(XY) P(X|Y)P(Y) = P(X) P(X) Trong ú: - Y i din mt gi thuyt, gi thuyt ny c suy lun cú c chng c mi X - P(X) : xỏc xut X xy - P(Y) : xỏc xut Y xy - P(X|Y) : xỏc xut X xy Y xy (xỏc sut cú iu kin, kh nng ca X Y ỳng) 10 - P(Y|X) : xỏc xut Y xy X xy (xỏc sut cú iu kin, kh nng ca Y X ỳng) 2.2 Bi toỏn phõn loi bn vi Naùve Bayes Naive Bayes classifier l mt thut ng x lý s liu thng kờ Bayesian vi mt phõn lp xỏc sut da trờn cỏc ng dng nh lý Bayes vi gi nh c lp bn vng Mt thut ng mụ t chi tit cho nhng mụ hỡnh xỏc sut s l mụ hỡnh c trng khụng ph thuc Phõn loi Bayes n gin (Naùve Bayes) - mt phng phỏp phõn lp da vo xỏc sut in hỡnh nht khai thỏc d liu v tri thc, c s dng rng rói lnh vc mỏy hc v nhiu lnh vc khỏc nh cỏc cụng c tỡm kim, phõn loi bn, lc tin nhn rỏc Phõn loi Bayes n gin l trng hp riờng ca k thut hc mỏy Bayes, ú cỏc gi thit v c lp xỏc sut c s dng n gin húa vic tớnh xỏc sut Phõn loi Bayes n gin s dng trng hp mi vớ d c cho bng cỏc thuc tớnh v cn xỏc nh nhón phõn loi y, y cú th nhn giỏ tr t mt nhón hu hn C Trong giai on hun luyn, d liu hun luyn c cung cp di dng cỏc mu Sau hun luyn xong, b phõn loi cn d oỏn nhón cho mu mi x Theo lý thuyt hc Bayes, nhón phõn loi c xỏc nh bng cỏch tớnh xỏc sut iu kin ca nhón quan sỏt thy t hp giỏ tr thuc tớnh Thuc tớnh c chn, ký hiu cMAP l thuc tớnh cú xỏc sut iu kin cao nht (MAP l vit tt ca maximum a posterior), tc l: y cMAP argmax P(c j | x1 , x2 , , xn ) c j C S dng quy tc Bayes, biu thc trờn c vit li nh sau: cMAP arg max c j C P( x1 , x2 , , xn | c j ) P(c j ) P( x1 , x2 , , xn ) arg max P( x1 , x2 , , xn | c j ) P(c j ) c j C Hai thnh phn biu thc trờn c tớnh t d liu hun luyn Giỏ tr P(cj) c tớnh bng tn sut quan sỏt thy nhón cj trờn hun luyn, tc l bng s mu cú nhón l cj chia cho tng s mu Vic tớnh P(x1,x2,,xn|cj) khú khn hn nhiu Vn l s t hp giỏ tr ca n thuc tớnh cựng vi nhón phõn loi l rt ln n ln tớnh xỏc sut ny c chớnh xỏc, mi t hp giỏ tr thuc tớnh phi xut hin cựng nhón phõn loi nhiu, s mu hun luyn thng khụng ln 11 Vi gi thit v tớnh c lp xỏc sut cú iu kin, cú th vit: P(x1,x2,,xn|cj) = P(x1|cj)P(x2|cj)P(xn|cj) tc l xỏc sut ng thi quan sỏt thy cỏc thuc tớnh bng tớch xỏc sut iu kin ca tng thuc tớnh riờng l Thay vo biu thc trờn, ta c b phõn loi Bayes n gin (cú u ký hiu l cNB) nh sau: cNB arg max P(c j ) P( xi | c j ) c j C i Trong ú, P(xi|cj) c tớnh t d liu hun luyn bng s ln xi xut hin cựng vi cj chia cho s ln cj xut hin Vic tớnh xỏc sut ny ũi hi ớt d liu hn nhiu so vi tớnh P(x1,x2,,xn|cj) Quỏ trỡnh hc Bayes n gin l quỏ trỡnh tớnh cỏc xỏc sut P(cj) v cỏc xỏc sut iu kin P(xi|cj) bng cỏch m trờn d liu Ta cú th túm tt li cỏch phõn loi ny nh sau: D kin cn cú: X: cỏc thuc tớnh Y: hu hn cỏc nhón Cỏc thuc tớnh c lp xỏc sut ụi mt vi Theo nh lý Bayes: P(Ci | X ) P( X | Ci ) P(Ci ) P( X ) Theo tớnh cht c lp iu kin: n P( X | Ci ) P( xk | Ci ) P( x1 | Ci ) * P( x2 | Ci ) * * P( xn | Ci ) k Trong ú: - P(Cj|X) l xỏc sut thuc phõn lp i bit trc mu X - P(Cj) xỏc sut l phõn lp i - P(xk| Cj) xỏc sut thuc tớnh th k mang giỏ tr xk ó bit X thuc phõn lp i Khi ú: Lut phõn lp cho cỏc ti liu mi Xnew = {x1, x2,, xn} l: n max( P(Ci ) P( xk | Ci )) CiC k Trong ú: - P(Ci): c tớnh da trờn tn sut xut hin ti liu hun luyn - P(xk|Ci) c tớnh t nhng thuc tớnh ó c tớnh quỏ trỡnh hun luyn 12 2.3 Cỏc u im ca b lc tin nhn rỏc Naùve Bayes Phng phỏp Bayes nhn dng mt tin nhn da vo cỏc mụ t, nú nhn cỏc t khúa m nhng t ú cú th nhn dng mt tin nhn rỏc (spam) v cng nhn cỏc t chng t mt tin nhn hp l (ham) B lc Bayes liờn tc t thớch nghi bi s hc t cỏc tin nhn mi v cỏc tin nhn hp l n t bờn ngoi B lc Bayes gii quyt v thớch nghi vi cỏc cụng ngh lc tin nhn rỏc kiu mi B lc tin nhn s dng thut toỏn Naive Bayes cung cp mt chc nng lc tin nhn t ng Trờn c s s dng cỏc xỏc sut gn ỳng tớnh toỏn cỏc kh nng mt tin nhn cú th l tin nhn rỏc hay khụng S tớnh toỏn ny l quỏ trỡnh tỡm kim cỏc t thng xut hin cỏc tin nhn v so sỏnh chỳng vi mu Thut toỏn bt u bng vic hc cỏc ni dung ca cỏc tin nhn hp l v ni dung ca nhng tin nhn rỏc sau ú nhn vo mt tin nhn mi, cỏc thụng tin cú sn t mu, cỏc tin trỡnh tin x lớ trc s c ỏp dng trờn c s ni dung ca cỏc tin nhn 2.4 Cỏc bc xõy dng b lc Naùve Bayes Xỏc nh rừ cỏc c trng s dng Yờu cu ny chỳng ta s xem xột cỏc tin nhn v tỡm cỏc t hoc nhúm t m chỳng l du hiu ca tin nhn rỏc hay khụng phi tin nhn rỏc, õy cú th coi l c s d liu cho b lc õy l mt phn quan trng nhim v ny v chỳng ta cú th lp li mt vi ln La chn cỏc c trng Xỏc nh rừ cỏc c trng s dng Yờu cu ny chỳng ta s xem xột cỏc tin nhn v tỡm cỏc t hoc nhúm t m chỳng l du hiu ca tin nhn rỏc hay khụng phi tin nhn rỏc, õy cú th coi l c s d liu cho b lc õy l mt phn quan trng nhim v ny v chỳng ta cú th lp li mt vi ln Biu din cỏc tin nhn Sau chn c cỏc c trng bn chỳng ta tin hnh biu din cỏc tin nhn thnh cỏc vector m khụng gian ca nú l cỏc t hay cm t ó phõn tớch Cỏc cm t ny ó xỏc nh rừ s ln xut hin ca chỳng mi tin nhn Kt hp cỏc tin nhn mi lp tin nhn ta c mt vector biu din lp tin nhn ú Xỏc nh ngng Xỏc nh rừ ngng loi b tt c cỏc tin nhn m xỏc sut ca chỳng ln hn xỏc sut ny 13 Th nghim h thng lc tin nhn rỏc hiu qu thc t 2.5 Kt lun chng Chng ó a c s lý thuyt ca thut toỏn Naùve Bayes, nhng u im s dng thut toỏn Naùve Bayes phõn loi bn ng thi, chng cng nờu cỏc thc to mt b lc s dng thut toỏn Naùve Bayes, õy l tin xõy dng nờn ng dng ngn chn tin nhn rỏc trờn thit b di ng m lun cp chng 14 CHNG - XY DNG NG DNG NGN CHN TIN NHN RC TRấN THIT B DI NG 3.1 Gii thiu bi toỏn Cỏc tớnh nng chớnh ca ng dng nh gi, nhn tin nhn nh ng dng tin nhn mc nh ca mỏy; theo dừi cỏc tin nhn theo cuc hi thoi; chn tin nhn rỏc theo nhiu phng phỏp khỏc 3.2 Phõn tớch v xõy dng ng dng Bn cht ca vic xõy dng b lc tin nhn rỏc chớnh l s dng thut toỏn Naùve Bayes phõn loi ni dung tin nhn Cỏc tin nhn s c chia thnh loi: Tin nhn spam (SPAM) v tin nhn hp l (HAM) Trong khuụn kh ca lun vn, d liu hun luyn vi khong 200 bn ghi bao gm cỏc tin nhn rỏc v tin nhn hp l ó c gỏn nhón Ngoi d liu hun luyn, ng dng cũn cú mt d liu test kim tra ỏnh giỏ chớnh xỏc ca thut toỏn Naùve Bayes vi khong 100 bn ghi Quỏ trỡnh x lý tin nhn rỏc c x lý ngm Khi cú tin nhn mi n, ni dung tin nhn s c chy qua b lc tin nhn rỏc Nu nh b lc phõn loi tin nhn ú l tin nhn hp l, ng dng s thụng bỏo cho ngi dựng bit cú tin nhn mi n Nu tin nhn ú c phõn loi l tin nhn rỏc, ng dng s khụng thụng bỏo n ngi dựng 3.3 Giao din ng dng Giao din danh sỏch tin nhn Mn hỡnh danh sỏch tin nhn: Hin th ton b cỏc tin nhn cú mỏy Cỏc tin nhn c a di dng cỏc cuc hi thoi theo tng s in thoi Tin nhn mi s c a lờn u ngi s dng d dng xem ni dung Giao din chi tit hi thoi Ti mn hỡnh ny, cỏc tin nhn cuc hi thoi s c hin th theo thi gian t c n mi, cỏc tin nhn mi n s c hin th di, to cho ngi dựng cm giỏc nh ang i thoi Khi nhn v gi vo mt tin nhn bt k s cú cỏc tựy chn 15 Giao din danh sỏch Blacklist Vi nhng s in thoi ó danh sỏch Blacklist, cỏc s ny s c hin th mn hỡnh danh sỏch Blacklist Khi ngi dựng nhn vo mt s in thoi, ng dng chuyn sang mn hỡnh chi tit cuc hi thoi nh mn hỡnh danh sỏch tin nhn Mn hỡnh danh sỏch t xu Mn hỡnh danh sỏch t xu hin th nhng t xu m ngi dựng nh ngha Cỏc t xu ny xut hin ni dung tin nhn lp tc s c coi ú l tin nhn rỏc Ngi dựng cú th thờm, sa, xúa cỏc t xu ny, mi t cỏch bi du ; (chm phy) 3.4 Thc nghim v ỏnh giỏ thut toỏn Khi chy ng dng ngn chn tin nhn rỏc, b lc tin nhn s c ng theo Ton b quỏ trỡnh np d liu v hun luyn d liu c x lý ngm nhm nõng cao hiu qu ca ng dng cng nh giỳp tri nghim ngi dựng c tt hn Khi cú tin nhn n, ng dng s kim tra xem tin nhn cú phi l tin nhn rỏc hay khụng Trc tiờn, tin nhn n s c kim tra xem s in thoi gi n cú nm danh sỏch Blacklist hay khụng Nu nm danh sỏch ny thỡ xỏc nh ú l tin nhn rỏc luụn Nu khụng nm danh sỏch Blacklist, h thng s kim tra ni dung tin nhn cú cha cỏc t khúa ca tin nhn rỏc ngi dựng t nh ngha hay khụng Nu cú cha mt t khúa tr lờn thỡ xỏc nh ú l tin nhn rỏc Sau cựng, nu khụng cha t khúa tin nhn rỏc, h thng s kim tra ni dung tin nhn bng b lc ó c to trờn phõn loi tin nhn xem cú phi l tin nhn rỏc hay khụng Kt qu kim nghim cho thy h thng cú th nhn din ỳng 94%, 6% nhn din sai (nhn din tin nhn hp l thnh tin nhn rỏc hoc tin nhn rỏc thnh tin nhn hp l) 3.5 Kt lun chng Chng ó trỡnh by v cỏc tớnh nng chớnh ca ng dng ngn chn tin nhn rỏc trờn h iu hnh Android, cỏc k thut ngn chn tin nhn rỏc c s dng ng dng Thut toỏn Naùve Bayes cú chớnh xỏc khỏ cao phỏt hin cỏc tin nhn l tin nhn rỏc 16 KT LUN Kt qu t c Lun ó a c cỏi nhỡn tng quan v tin nhn v tin nhn rỏc, thc trng tỡnh hỡnh tin nhn rỏc ti Vit Nam Cỏc gii phỏp v mt phỏp lý v gii phỏp v mt k thut gúp phn khụng nh vo vic hn ch s phỏt tỏn ca tin nhn rỏc T nhng gii phỏp k thut, lun ó ch rng s dng cỏc thut toỏn phõn loi bn l cỏch tt nht xem tin nhn no l tin nhn rỏc V vi nhng u im ca thut toỏn Naùve Bayes, lun ó la chn thut toỏn trờn lm c s phỏt trin ng dng ngn chn tin nhn rỏc trờn in thoi di ng s dng h iu hnh Android ng dng ngn chn tin nhn rỏc phỏt trin vi y cỏc tớnh nng c bn ca mt ng dng tin nhn trờn in thoi di ng nh gi, nhn tin nhn, qun lý tin nhn Ngoi b lc tin nhn rỏc s dng thut toỏn Naùve Bayes, ng dng ngn chn tin nhn rỏc cũn cú thờm cỏc cỏch ngn chn tin nhn rỏc nh thờm cỏc s in thoi vo danh sỏch Blacklist, cỏc t khúa xut hin tin nhn rỏc Khi ó xỏc nh c tin nhn rỏc, tin nhn n s khụng thụng bỏo cho ngi dựng, trỏnh nh hng n ngi dựng Sau ú ngi dựng cú th xem li ni dung tin nhn rỏc nh thng Bờn cnh ú, ng dng cũn cú chc nng gi ni dung tin nhn rỏc n u s 456, õy l tng i tip nhn v x lý tin nhn rỏc ca B Truyn thụng Thụng tin Vi t l phỏt hin tin nhn rỏc chớnh xỏc l trờn 90%, ng dng khỏ hu ớch i vi nhng thng xuyờn b tin nhn rỏc lm phin Hn ch Do thi gian thc hin lun khụng nhiu v hn ch v mt kin thc, cụng ngh nờn lun vn cũn mt hn ch ng dng cha x lý c vi ngụn ng Ting Vit Hin ti cỏc d liu u vo, d liu hun luyn v d liu test u c tin x lý loi b du iu ny dn n vic tỏch cỏc t b sai lch i vi cỏc t ghộp, cỏc cm t ting Vit õy l mt khú khn b nh ca cỏc thit b di ng cú hn, mun tỏch t ting Vit ũi hi phi cú mt b t in ting Vit vi y cỏc t n v t ghộp T ú mi cú th nõng cao c t l chớnh xỏc ca thut toỏn Naùve Bayes S lng bn ghi b d liu hun luyn v d liu test ớt v mang tớnh cỏ nhõn Hin ti giao din v cỏc tựy chn ca ng dng s si, cha cú nhng tớnh nng mi hp dn 17 Hng phỏt trin Trong tng lai, ng dng ngn chn tin nhn rỏc s h tr tỏch t ting Vit nhm tng t l phỏt hin tin nhn rỏc Tp d liu hun luyn s phong phỳ v a dng hn c v s lng ln ch ng dng ngn chn tin nhn rỏc cú th phỏt trin thờm c cỏc nn tng di ng khỏc nh iOS hay Windowphone phự hp vi nhiu i tng s dng Vic phỏt hin tin nhn rỏc s x lý trờn server, giỳp gim ti hiu nng cho ng dng chy trờn in thoi di ng 18 TI LIU THAM KHO Ti liu Ting Vit [1] Chớnh ph (2008) Ngh nh 90/2008/N-CP V chng th rỏc [2] Chớnh ph (2013) Ngh nh 174/2013/N-CP Quy nh x pht vi phm hnh chớnh lnh vc bu chớnh, vin thụng, cụng ngh thụng tin v tn s vụ tuyn in Ti liu Ting Anh [3] GIF Software (2011), Why Bayes filtering is the most effective anti-spam technology [4] Arnulf B.A Graf, Olivier Bousquet,Gunnar Ratsch, Bernhard Scholkopf (2008), Prototype Classification: Insights from Machine Learning, Max Planck Institute for Biological Cybernetics, Tubingen, Germany [5] Juniper Networks (2012), 2011 Mobile Threats Report [6] S M Kamruzzaman, Ahmed Ryadh Hasan (2010), Pattern Classification using Simplified Neural Networks with Pruning Algorithm [7] Wei-Yin Loh (2010), Classification and regression trees [8] Yiming Yang, Xin Liu (1999), A re- examination of text categorization method Ti liu Web [9] https://wikipedia.org/wiki/SMS, truy cp ngy 25 thỏng nm 2016 [...]... nhn s c chy qua b lc tin nhn rỏc Nu nh b lc phõn loi tin nhn ú l tin nhn hp l, ng dng s thụng bỏo cho ngi dựng bit cú tin nhn mi n Nu tin nhn ú c phõn loi l tin nhn rỏc, ng dng s khụng thụng bỏo n ngi dựng 3.3 Giao din ng dng Giao din danh sỏch tin nhn Mn hỡnh danh sỏch tin nhn: Hin th ton b cỏc tin nhn cú trong mỏy Cỏc tin nhn c a ra di dng cỏc cuc hi thoi theo tng s in thoi Tin nhn mi s c a lờn u... xỏc nh ú l tin nhn rỏc Sau cựng, nu khụng cha t khúa tin nhn rỏc, h thng s kim tra ni dung tin nhn bng b lc ó c khi to trờn phõn loi tin nhn xem cú phi l tin nhn rỏc hay khụng Kt qu kim nghim cho thy h thng cú th nhn din ỳng 94%, 6% nhn din sai (nhn din tin nhn hp l thnh tin nhn rỏc hoc tin nhn rỏc thnh tin nhn hp l) 3.5 Kt lun chng Chng 3 ó trỡnh by v cỏc tớnh nng chớnh ca ng dng ngn chn tin nhn rỏc... chn tin nhn rỏc nh thờm cỏc s in thoi vo danh sỏch Blacklist, cỏc t khúa xut hin trong tin nhn rỏc Khi ó xỏc nh c tin nhn rỏc, tin nhn n s khụng thụng bỏo cho ngi dựng, trỏnh nh hng n ngi dựng Sau ú ngi dựng vn cú th xem li ni dung tin nhn rỏc nh thng Bờn cnh ú, ng dng cũn cú chc nng gi ni dung tin nhn rỏc n u s 456, õy l tng i tip nhn v x lý tin nhn rỏc ca B Truyn thụng Thụng tin Vi t l phỏt hin tin. .. nht xem tin nhn no l tin nhn rỏc V vi nhng u im ca thut toỏn Naùve Bayes, lun vn ó la chn thut toỏn trờn lm c s phỏt trin ng dng ngn chn tin nhn rỏc trờn in thoi di ng s dng h iu hnh Android ng dng ngn chn tin nhn rỏc phỏt trin vi y cỏc tớnh nng c bn ca mt ng dng tin nhn trờn in thoi di ng nh gi, nhn tin nhn, qun lý tin nhn Ngoi b lc tin nhn rỏc s dng thut toỏn Naùve Bayes, ng dng ngn chn tin nhn... cp mt chc nng lc tin nhn t ng Trờn c s s dng cỏc xỏc sut gn ỳng tớnh toỏn cỏc kh nng mt tin nhn cú th l tin nhn rỏc hay khụng S tớnh toỏn ny l quỏ trỡnh tỡm kim cỏc t thng xut hin trong cỏc tin nhn v so sỏnh chỳng vi tp mu Thut toỏn bt u bng vic hc cỏc ni dung ca cỏc tin nhn hp l v ni dung ca nhng tin nhn rỏc sau ú khi nhn vo mt tin nhn mi, cỏc thụng tin cú sn t tp mu, cỏc tin trỡnh tin x lớ trc s... hiu ca tin nhn rỏc hay khụng phi tin nhn rỏc, õy cú th coi l c s d liu cho b lc õy l mt phn quan trng trong nhim v ny v chỳng ta cú th lp li mt vi ln Biu din cỏc tin nhn Sau khi chn c cỏc c trng vn bn chỳng ta tin hnh biu din cỏc tin nhn thnh cỏc vector m khụng gian ca nú l tp cỏc t hay cm t ó phõn tớch Cỏc cm t ny ó xỏc nh rừ s ln xut hin ca chỳng trong mi tin nhn Kt hp cỏc tin nhn trong mi lp tin nhn... cng nh giỳp tri nghim ngi dựng c tt hn Khi cú tin nhn n, ng dng s kim tra xem tin nhn cú phi l tin nhn rỏc hay khụng Trc tiờn, tin nhn n s c kim tra xem s in thoi gi n cú nm trong danh sỏch Blacklist hay khụng Nu nm trong danh sỏch ny thỡ xỏc nh ú l tin nhn rỏc luụn Nu khụng nm trong danh sỏch Blacklist, h thng s kim tra ni dung tin nhn cú cha cỏc t khúa ca tin nhn rỏc do ngi dựng t nh ngha hay khụng... di ng m lun vn cp chng 3 14 CHNG 3 - XY DNG NG DNG NGN CHN TIN NHN RC TRấN THIT B DI NG 3.1 Gii thiu bi toỏn Cỏc tớnh nng chớnh ca ng dng nh gi, nhn tin nhn nh ng dng tin nhn mc nh ca mỏy; theo dừi cỏc tin nhn theo cuc hi thoi; chn tin nhn rỏc theo nhiu phng phỏp khỏc nhau 3.2 Phõn tớch v xõy dng ng dng Bn cht ca vic xõy dng b lc tin nhn rỏc chớnh l s dng thut toỏn Naùve Bayes phõn loi ni dung tin. .. 2.3 Cỏc u im ca b lc tin nhn rỏc Naùve Bayes Phng phỏp Bayes nhn dng mt tin nhn da vo cỏc mụ t, nú nhn ra cỏc t khúa m nhng t ú cú th nhn dng mt tin nhn rỏc (spam) v cng nhn ra cỏc t chng t mt tin nhn hp l (ham) B lc Bayes liờn tc t thớch nghi bi s hc tp t cỏc tin nhn mi v cỏc tin nhn hp l n t bờn ngoi B lc Bayes gii quyt v thớch nghi vi cỏc cụng ngh lc tin nhn rỏc kiu mi B lc tin nhn s dng thut toỏn... dng xem ni dung Giao din chi tit hi thoi Ti mn hỡnh ny, cỏc tin nhn trong cuc hi thoi s c hin th theo thi gian t c n mi, cỏc tin nhn mi n s c hin th di, to cho ngi dựng cm giỏc nh ang i thoi Khi nhn v gi vo mt tin nhn bt k s cú cỏc tựy chn 15 Giao din danh sỏch Blacklist Vi nhng s in thoi ó trong danh sỏch Blacklist, cỏc s ny s c hin th trong mn hỡnh danh sỏch Blacklist Khi ngi dựng nhn vo mt s in