Sự phát triển của máy tìm kiếm đã tạo điều kiện thuận lợi cho người dùng sử dụng thông tin từ web. Các trang web không ngừng tìm cách để được lọt vào kết quả trả về của máy tìm kiếm. Trong những cách đó, có một cách gọi là spam. Spam là một kỹ thuật có tác động không tốt đến máy tìm kiếm và người sử dụng. Khóa luận với đề tài “Xác định web spam nâng cao chất lượng tính hạng trong máy tìm kiếm” tập trung làm rõ một số khái niệm liên quan tới web spam, các kỹ thuật spam, giới thiệu những căn cứ, phương pháp được sử dụng để xác định spam. Đồng thời khóa luận cũng đã tiến hành thử nghiệm giải quyết bài toán xác định spam theo cách nhìn nhận nó như một bài toán phân lớp. Kết quả thực nghiệm cho thấy hướng tiếp cận xác định spam bằng phân lớp phù hợp với việc căn cứ vào nội dung hơn là liên kết.
!"#$%&'()*+ ,(& -.&/0& /( *1,- 23456467 89::; !"#$%&'()*+ ,(& -.&/0& /( *1,- 23456467 <=>?@AB3%C%2DE <=>FG?@AB3%CHID 89::; *J7KLMN !"#$#%& '()*&#$+,(-./012 3045 (6*&&57(/89$ :;<&=-> .1? <@3($+-54&/A?6B&& (C9*-< ($ :D(E*&<? #F#G(<. -5H*I5 ?J>*8 30 4$ KL<?<M*&N<8&( OL(E->5E9J*C9P*A3(-C Q 6/97 J7$ #* !LR@% OM6P6 #S9TU(05.? I58/A 1L 1)>VW<$K(W<5>V0TA6*& 53 *IU(05$ -77J6&9($#9(&J 5X/7J5>05*&1)$ Y7(/*I&ZXác định web spam nâng cao chất lượng tính hạng trong máy tìm kiếm[/9&\J583(W<9(5X/ 9(8-@4999A1)T;E9($]^ 57(/D.&83<& ;E9( 0/7J<& 99$Y3S8 9/;E9(<_999LA9**8@4*& J1& 5$ Mục lục `(0*B$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$a bH$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$c Kc$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$d Kd$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$e Kf$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$cd Kg$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$ca Kh$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$da Danh sách hình vẽ %0c$G5-(((W<$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$d %0d$Ri1)*I<T1,^EW<1S(5$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$f %0f$bJ*i1)*I5W<5i!(j(5$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$k %0g$(W<9(*V57(Z([*&J1(53 $$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$ce %0h$(W<9(V57( l$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$cm %0a$(W<9(V57(*&5<_n$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$ck %0e$Ri1)*I5*&99 $$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$dc %0m$o8-(A#99 #f*&#g$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$dc Mở đầu +&(5&?8&&9T0*85/9 VW<D&&A8S7($bJW<7A /9&I05@A/V3 &( $+1L7 T/9JW< <( $K 47&6.< IU(W<7*&S9\7(E(oU(018$K 4(126@W<&V&J9J5A NW<5$R&L 4<(^D& I@(1L*W<V05$]T7T/1) A5p@W<U(0V05U(W<& 775@;8( /953*IU(05$bJ -5X/TS8I&&9($(W<9(?Ai UU(7?H;Ai?U(05 *&1 7&Ji;51L0>W<<_0 5$Ki*0<& ;EW<9(H&J<& <& &49T05>3(*&Cqrfhacscct$ Y7(/0<&5X/9(999;E9(*& &8;E9($+J1U(57(/.*<( ^@ A>1$ ?NQCCác khái niệm liên quan tới xác định web spam 8-5 8-T<<T9/<& ^EW<05 *&9($ ?N9CTính hạng trang trong máy tìm kiếm0<&(999i ?(1S(5!(j(5*&%F#$!99i?( 058(I1S(U((/ &$ ?NRCBài toán xác định web spam o(q1 9(9T?U( 7*&N(*I3411?1,<& $ ?NSCPhương pháp xác định web spam(J999A 1)T;EW<9(^0<&-/;p;3( 9997$ ?NTCThực nghiệm và kết quả0<&999;EW<9( &57(/.(*& &8$+-53U(S8A ? *($K&D./E*I- oA5&S8$ c Chương 1 Các khái niệm liên quan tới xác định Web spam 1.1 World Wide Web u 1u1u<vuuuw&J8UFxA -&87E1?N<8*<H>-1%bG$]E1? N<87 9p9&85A*-&889(*1 *&05$]I&7y(&VJ&8<?7TT&8 5<_ 5$ %0c$G5-(((W< +1L1)041)A6&018T/9 uuu$K T8?C(7I0185(z ?F:;9 b {(|} ;+(9+(*( " K ~ u<vW<w&J*Eiuuu$bxW<7J(6&(U v>5A6&(NEw$+7&&8&1LB5 /9*& W<$bxW<AH-*&3q<8<HJ > NJ•4$ u<9(&J&8uuu$bxJW<9(0A;E<HJ €jGv€} j G ( w1$ UVDKWDK<KXY=Z76Y •bx(W<>9->E*IJ*I$+7 7T7*IE(o8U(UW<TU(J&*@/;pU( 6*IJ8A;.J~$G?757o&J9n 5 ~~~~ ~~~~ ~ ‚~~~ ~~~~ ~~~~ ~ ~~~~ ~~~~ ~~~~ ~~~~ ~~~~ ~~$$ &8ƒ &8‚ d 8/v*@wATV< (1?&8„+7J 1U(W<(1?*&9 9C$ •bxJW<5A;1S0>((-(iE EJ1(( 7*I01L&(B AAi0~$+1L*018U(0>3(5F7 Tp@W<6C6$%6/9*& (J W<5(*-)i9•<0T6/9i( <S~$ •RS9TU(>8DS8U(5;.J AW<V5(.5>V@$ 5 vd…dsskwV>+(}(F AW<Vckkh& cmsss0(.@&dchaehksf$K & W<& J^&5•^I&5@5(„ $7[A7H"Y==\FG6]"Y= •]T6(<T1,W<^9)*) *843J <& 3(W<(1)^EW<H1)N Z5[-((&8$ •]^Eu<&^E"7xo4*J(&89 †‡9 ˆ <_ (9 75=(9 ˆ $Yi8+v9w&5 *& (9‚v9w&5(V(9v1S(l5‰(‡w$K7( <T1,"<_(/5Iƒ*&(/T!$ Ri1)Š %0d$Ri1)*I<T1,^EW<1S(5 R/9(753(? %0d^E"7T<T1,<HŠ b(/5IƒŠ( ˆ ‹c(75=ˆ<_s A95 v5>iS54( ‹s*6w 9c 9d 9f 9g f cc cd cf cg dc dd df dg fc fd ff fg gc gd gf gg s c s c c s s c s s s s s s s s a a a a a a a a a a a a a a a a = b(/T! 9 ˆ ‹c…‚vw(75=ˆ<_s A95 c c d d cc cd cf cg c c d d dc dd df dg fc fd ff fg gc gd gf gg s s s s s s s s s s s s p p p p p p p p p p p p p p p p = 1.2. Máy tìm kiếm #S;8U(05 •#A(W<&&(@$+J1(D&& 9 9C$KCH&J^&5•^&(7T/1)T 5(0->-i9)*) )iU(0$ Di*0S^JU(^&7&C(N9(9J*I 5(4$]7&Z+I*/0<0V(& Œ‚( AJ(&774(>>((0ŒG8 &(7(Q7(& ST(7T(5 5>Œ+ 40(S*&*6 C7T7( *89> 0<( ; Œ[Ki*0N (&97J8 9p91L;EA/9Z=[(T 09;9( /97 4SZJ([1*&1y&9 TE( 9p91LS(6$+-8AN& 05$ rdt05AEy(&J8A;1S_9 /05U(1L(79i&*&05 > H1-8&8A;Vu 1u1u<*&((5 3&1(.A;9?(W<73(* 1L$ &9< C•3(U(J05 ‚J/91-8vK(WwŠS88*)@*&(W< *I5 1-8;q$'0@AS81S(5-( g [...]... chuỗi “<” trong mã nguồn, nó cũng sẽ chỉ hiển thị thanh kí tự “ . -77J6&9($#9(&J 5X/7J5>05*&1)$ Y7(/*I&ZXác định web spam nâng cao chất lượng tính hạng trong máy tìm kiếm[ /9&J583(W<9(5X/ 9(8-@4999A1)T;E9($]^ 57(/D.&83<&. tới xác định web spam 8-5 8-T<<T9/<& ^EW<05 *&9($ ?N9C Tính hạng trang trong máy tìm. toán xác định web spam o(q1 9(9T?U( 7*&N(*I3411?1,<& $ ?NSCPhương pháp xác định web spam (J999A 1)T;EW<9(^0<&-/;p;3( 9997$ ?NTCThực