Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
742,83 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thu Trang
Link spamvớiđồthị web
và hạngtrang web
Khoá luận tốt nghiệp đại học hệ chính quy
Ngành: Công Nghệ Thông Tin
Cán bộ hướng dẫn: TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: CN. Nguyễn Hoài Nam
HÀ NỘI, 2006
Tóm tắt
Bên cạnh sự phát triển của các máy tìm kiếm đặc biệt là các phương pháp tính
hạng trangthì công nghệ spam nhằm đánh lừa máy tìm kiếm để nâng cao hạng
của các trangweb cũng phát triển không ngừng. Do vậy một vấn đề đặt ra là phải
nhận diện các trangweb là spam, và đưa ra giải pháp tính hạng phù hợp chính
xác hơn có loại bỏ spam.
Khóa luậnvới đề tài LinkSpam vớiđồthịwebvàhạngtrangweb tập trung
nghiên cứu các phương pháp nhận diện spam để nâng cao chất lượng hạng trang,
và đề xuất giải pháp tính hạng có xử lý link spam. Khóa luận đã tiến hành thử
nghiệm với máy tìm kiếm NUTCH cho các thuật toán LinkSpam và thu được
những kết quả khả quan ban đầu. Khóa luận cũng giới thiệu các kết quả nghiên
cứu của chúng tôi đã được công bố trong [1, 2, 12].
ii
Lời cảm ơn
Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy giáo TS.Hà
Quang Thụy và CN. Nguyễn Hoài Nam, người đã tận tình hướng dẫn
em trong quá trình thực hiện khóa luận tố t nghiệp.
Em chân thành cảm ơn các thầy cô và các cán bộ của trường Công
Nghệ đã tạo cho em những điều kiện thuận lợi để học tập và nghiên
cứu.
Em xin cảm ơn các thầy cô giáo trong bộ môn Các Hệ Thống Thông
Tin, và nhóm xemina Data Mining đã giúp đỡ, hỗ trợ em về kiến thức
chuyên môn.
Cuối cùng, em muốn cảm ơn gia đình và bạn bè, đặc biệt là bố và mẹ,
những người luôn giành cho em tình yêu, niềm tin và động viên giúp
em hoàn thành đề tài.
Sinh Viên
Nguyễn Thu Trang
iii
Mục lục
Tiêu đề i
Tóm tắt ii
Danh sách bảng vi
Danh sách hình vẽ vii
Danh sách các ký hiệu viii
1 Tổng quan về hạngtrangvàwebspam 3
1.1 Giới thiệu hạngtrangvàspam . . . . . . . . . . . . . . . . . . . . . 3
1.2 Các công nghệ tạo Spam . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Spam văn bản . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Spam liên kết . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.3 Công nghệ giả dạng . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 ĐồthịWeb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1 Biểu diễn đồthịWeb . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2 Mô hình Markov . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Tổng kết chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Một số phương pháp tính hạngtrang cơ bản 13
2.1 Phương pháp PageRank . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Phương pháp . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2 Tính hạngtrang dựa vào tính chất hội tụ . . . . . . . . . . . 15
2.1.3 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Phương pháp HITS . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.1 Thuật toán . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
iv
MỤC LỤC v
2.3 Phương pháp CCP . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.1 Thuật toán . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3 Các phương pháp xác định LinkSpam 24
3.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Phương pháp TrustRank . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1 Nội dung phương pháp . . . . . . . . . . . . . . . . . . . . . 26
3.2.2 Đánh giá phương pháp . . . . . . . . . . . . . . . . . . . . . 29
3.3 Phương pháp xác định Link Farm . . . . . . . . . . . . . . . . . . . 30
3.3.1 Nội dung phương pháp . . . . . . . . . . . . . . . . . . . . . 30
3.3.2 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Đề xuất phương pháp cải tiến . . . . . . . . . . . . . . . . . . . . . 34
4 Thử nghiệm 36
4.1 Giới thiệu hệ thống NUTCH . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.1 Môi trường thử nghiệm . . . . . . . . . . . . . . . . . . . . . 37
4.2.2 Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Kết luận 40
Tài liệu tham khảo 41
A Mã chương trình 43
A.1 Phân tích liên kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
A.2 Lọc Spam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Danh sách bảng
4.1 Tập các site nhân của link farm . . . . . . . . . . . . . . . . . . . . 38
vi
Danh sách hình vẽ
1.1 Một cấu trúc liên kết tối ưu nhằm tăng hạngtrang . . . . . . . . . 6
1.2 Một dạng spamvớitrang gốc p
0
. . . . . . . . . . . . . . . . . . . . 8
1.3 Một cấu trúc liên kết giữa nhiều spam farm không theo quy luật . . 8
1.4 Hai spam farm có chia sẻ liên kết với nhau . . . . . . . . . . . . . . 9
1.5 Một cấu trúc gồm 3 spam farm liên kết theo dạng vòng . . . . . . . 9
1.6 Một đồthịweb đơn giản gồm 4 đỉnh, 4 cung . . . . . . . . . . . . . 10
2.1 Tốc độ hội tụ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Mô tả tính chất authority và hub . . . . . . . . . . . . . . . . . . . 18
2.3 Mở rộng tập cơ sở T từ tập nhân S . . . . . . . . . . . . . . . . . . 19
3.1 Phương pháp phân phối giảm dần . . . . . . . . . . . . . . . . . . . 27
3.2 Phương pháp chia đều giá trị trust . . . . . . . . . . . . . . . . . . 28
3.3 Đồthị gồm 7 trangweb đã được đánh dấu trang tốt, xấu . . . . . . 28
3.4 Biểu đồ kết quả thử nghiệm TrustRank [13] . . . . . . . . . . . . . 29
3.5 ĐồthịWeb nhỏ gồm 6 trang thuộc 6 domain khác nhau . . . . . . 31
3.6 Biểu đồ kết quả phân phối cá c trangspam [4] . . . . . . . . . . . . 34
vii
Bảng ký hiệu và từ viết tắt
Ký hiệu Ý nghĩa
MAP Modified Adaptive PageRank
HITS Hypertext Induced Topic Search
CCP Connected Component in PageRank
SEOs Search Engine Optimizes
viii
Lời mở đầu
Bài toán tính hạng các đối tượng trên Web (trang Web, tác giả, chủ đề )
nói chung, và bài toán tính hạngtrangWeb nói riêng, có ý nghĩa quan trọng
trong lĩnh vực khai phá Web. Trong thời gian gần đây, nhiều công trình
nghiên cứu trên thế giới giải quyết bài toán tính hạngtrang Web, chẳng hạn
như [3-17], đã được công bố. Lớp thuật toán tính hạngtrang điển hình nhất
là lớp thuật toán khai thác mối liên kết giữa các trangWeb trong một đồ
thị Web. Một số kết quả nghiên cứu của chúng tôi về tính hạngtrang web
trong máy tìm kiếm tập trung vào việc đề xuất các cải tiến nhằm tăng tốc
thuật toán tính hạngtrangvàthi hành trên một máy tìm kiếm tiếng Việt
đã được công bố trong [1, 2, 12].
Hướng người dùng đã trở thành xu hướng nghiên cứu nổi bật về hạng
trang trong thời gian gần đây. Trong hai năm gần đây nhất, theo xu hướng
đó là một số lượng đáng kể các công trình nghiên cứu liên quan tới khái niệm
spam, điển hình nhất là [3, 4, 5, 8, 13, 14] , đã được công bố. Các công trình
nghiên cứu này được phân thành hai lớp chính. Lớp thứ nhất đề cập tới các
giải pháp nhằm làm tăng giá trị cơ sở của hạngtrang khi tăng cường ngữ
nghĩa của các liên kết giữa các trangWeb nhằm làm phù hợp hơn với ngữ
cảnh ứng dụng. Lớp thứ hai quan tâm tới các giải pháp tính hạngtrang hiển
thị khi trình diễn kết quả phù hợp hơn với ngữ cảnh tìm kiếm của người sử
dụng.
Khóa luận tốt nghiệp với đề tài LinkSpam vớiđồthịwebvàhạng trang
web tiến hành việc khảo sát, phân tích các giải pháp xác định LinkSpam đã
được đề xuất trong hai năm gần đây để từ đó đề xuất các cải tiến giải pháp
vào việc tính hạngtrang trong máy tìm kiếm.
Khóa luận này gồm bốn chương nội dung được mô tả sơ bộ như dưới đây.
Chương 1. Tổng quan về hạngtrangvàspam giới thiệu những nội dung
cơ bản nhất về bài toán tính hạngwebvà sự xuất hiện của các công
nghệ spam nhằm nâng cao hạng trang. Ngoài ra, chương này cũng giới
thiệu về đồthịwebvà cơ sở của thuật toán tính hạng trang.
Chương 2. Một số phương pháp tăng tốc tính hạngtrang trình bày hai
phương pháp tính hạngtrang cơ bản, được đề xuất sớm nhất, đã trở
thành cơ sở cho các thuật toán tính hạngvà xác định WebSpam sau
này. Đồng thời, chương này cũng giới thiệu thuật toán tính h ạng trang
theo khối dựa vào tính chất liên thông, một kết quả nghiên cứu đã
được công bố của chúng tôi.
Chương 3. Các phương pháp xác định LinkSpam khảo sát và phân tích kỹ
lưỡng các phương pháp xác định LinkSpam và đưa ra những đánh giá
về ưu nhược điểm của chúng trong việc xác định các trangweb là spam
hay không. Đồng thời, chương này cũng trình bày phương pháp xác
định LinkSpam do tôi đề xuất dựa trên cơ sở các phân tích đánh giá
nói trên.
Chương 4. Thử nghiệm trên hệ thống NUTCH phân tích hệ thống NUTCH
(một máy tìm kiếm mã nguồn mở) và một số cài đặt cải tiến của chúng
tôi, đặc biệt đối với thành phần tính hạngtrang Web. Kết quả thử
nghiệm đánh giá phương pháp cho thấy tính khả dụng của nói. . . .
Phần kết luận tổng kết và tóm lược nội dung chính của khóa luận.
[...]... tính hạngtrang dựa vào liên kết Đối với các phương pháp tính hạngtrang như vậy, máy tìm kiếm có khả năng xác định hạng của trangweb độc lập với yêu cầu của người dùng vì chỉ căn cứ vào liên kết trong đồthịWeb Tuy nhiên, điều đó cũng được những người tạo spam lợi dụng để nâng cao hạngtrang theo cách thay đổi cấu trúc đồthịwebĐó là công nghệ link spam 4 hay spam liên kết Mục đích nhằm vào các... Việt) gọi là trang gốc6 , và từ các trangđó tạo các liên kết đến các trangspam Ví dụ hình 1.2 với p0 là trang gốc, p1 là trangspam Các trang gốc chứa thông tin hữu ích nên có khả năng sẽ được nhiều trang khác trỏ tới và sẽ có hạng cao Những trang gốc này không nhất thiết trùng chủ đề với các trangspamdo mục tiêu nhằm có được các trang có hạng cao và phân chia hạngđó cho các trangspam qua các... 1.3.1 ĐồthịWeb Biểu diễn đồthịWebWeb có thể được mô hình như là một đồthị có hướng G = (V, E) với tập các đỉnh V là các trangweb (V có n trang, được đánh chỉ số từ 1 tới n) , và tập các cung E là tập các cạnh mà mỗi cạnh ứng với một siêu liên kết giữa hai trang web: E={(i, j) |nếu có liên kết từ i trỏ đến j} Hình 1.6: Một đồthịweb đơn giản gồm 4 đỉnh, 4 cung Trong thực tế từ một trangweb p... mục tiêu như vậy, người tạo trangweb cố gắng đưa ra các công nghệ để cải thiện thứ hạng của trang trong máy tìm kiếm Vì vậy đã xuất hiện khái niệm spam đối với máy tìm kiếm hay webspam 1 , được Monika Henzinger, Rajeev Motwani và Craig Silverstein đưa ra trong [7], vàtrangweb sử dụng các kỹ thuật spamđó được gọi là webspam Đồng thời, các dịch vụ tối ưu hạngtrangwebvà tương ứng, một ngành mới... thìtrangwebđó là quan trọng Do vậy giá trị cơ sở của hạngtrang được tính toán dựa trên mối liên kết giữa các trangweb Phương pháp tính hạng PageRank và HITS [6, 9] là những thuật toán tính hạng cơ bản, 1.1 GIỚI THIỆU HẠNGTRANGVÀSPAM 4 nền tảng và đã được áp dụng hiệu quả vào các máy tìm kiếm như Google,Yahoo! Chúng tôi [1, 2, 12] đã đề xuất một số cải tiến tính hạngtrangWeb trong [9] và áp... kiếm Trong thực tế đồthịWeb không liên thông và tồn tại rất nhiều trangweb không có liên kết đến hoặc liên kết ra Do vậy ma trận kề biểu diễn đồthịWeb thường là ma trận thưa Do vậy với các phương pháp tính hạng trên, dù dựa vào tốc độ hội tụ của các trang nhưng quá trình tính toán trên toàn đồthịWeb vẫn chưa tối ưu Chúng tôi đã nghiên cứu và đề xuất một phương pháp tính hạngvới việc phân tích... thức tính hạngtrang tùy theo cấu trúc liên kết trong các nhóm đó Các phương pháp này tập trung vào phân tích các cấu trúc liên kết tức các trang liên kết với nhau như thế nào để quyết định một trang là spam hay không và thay đổi giá trị hạngtrang của chúng 2 Xác định spam bằng cách đánh giá độ tốt của các trang thay vì tìm các trang xấu, vàhạng các trangweb được phân phối từ hạng của các trang trong... dừng (hay bất biến) của xích Markov với ma trận xác suất chuyển P Với giả thiết đồthịweb là liên thông, khi đó tính chất trên được thỏa mãn Tức xác suất được duyệt tới của các trang trong đồthịweb là ổn định, và giá trị đó được coi là hạngtrang theo phương pháp PageRank[9] 1.4 Tổng kết chương 1 Xác định và loại bỏ ảnh hưởng của webspam đối với bài toán tính hạngtrang là một vấn đề quan trọng trong... véctơ hạng các trang web, với thành phần πi là hạng của trang i Từ (2.2) cho thấy véctơ hạngtrang π chính là véctơ riêng của ma trận chuyển P tương ứng với giá trị riêng λ = 1 Do tính chất của chuỗi Markov, để tính véctơ riêng của P thuật toán giả thiết rằng đồthịtrangWeb là liên thông, tức với cặp hai trangWeb i, j bất kì luôn có đường đi từ i tới j và ngược lại Tuy nhiên thực tế trên World Wide Web. .. crawl về với những gì sẽ được 1.3 ĐỒTHỊWEB 10 hiển thị cho người dùng Hơn nữa, kỹ thuật này cũng hướng tới sự khác nhau giữa các lần crawl khác nhau của máy tìm kiếm Việc kết hợp với các kỹ thuật spam văn bản vàspam liên kết cũng được áp dụng cho các trangweb trả về cho máy tìm kiếm để nâng cao hạngtrang Vì vậy máy tìm kiếm bị đánh lừa về nội dung của trangwebvà đưa ra đánh giá hạngtrang không . trang web là spam, và đưa ra giải pháp tính hạng phù hợp chính
xác hơn có loại bỏ spam.
Khóa luận với đề tài LinkSpam với đồ thị web và hạng trang web tập trung
nghiên. dung
của trang web và đưa ra đánh giá hạng trang không chính xác.
1.3 Đồ thị Web
1.3.1 Biểu diễn đồ thị Web
Web có thể được mô hình như là một đồ thị có hướng