Phương pháp lọc spam trên mạng xã hội (Luận văn thạc sĩ)

75 141 0
Phương pháp lọc spam trên mạng xã hội (Luận văn thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hội

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - Cao Ngọc Tú PHƢƠNG PHÁP LỌC SPAM TRÊN MẠNG HỘI LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI- 2018 HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THÔNG - Cao Ngọc Tú PHƢƠNG PHÁP LỌC SPAM TRÊN MẠNG HỘI CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) PGS.TS TRẦN QUANG ANH HÀ NỘI - 2018 i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi dƣới hƣớng dẫn PGS.TS.Trần Quang Anh, kết đạt đƣợc luận văn sản phẩm riêng cá nhân, khơng chép lại ngƣời khác Trong tồn nội dung luận văn, điều đƣợc trình bày cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Các số liệu, kết nêu luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tác giả luận văn Cao Ngọc Tú LỜI CẢM ƠN ii Để hoàn thiện luận văn này, lời xin gửi lời cảm ơn chân thành đến PGS.TS Trần Quang Anh, ngƣời trực tiếp hƣớng dẫn tôi, giúp tơi vƣợt qua khó khăn q trình tìm kiếm tài liệu, nhƣ trình bày luận văn Từ lên ý tƣởng đến triển khai đề tài, tơi nhận đƣợc nhiều góp ý thầy để bổ sung, sửa chữa hoàn thiện luận văn Tôi xin chân thành cảm ơn, Ban giám đốc, Ban chủ nhiệm Khoa Quốc tế sau đại học, Khoa Công nghệ thông tin thầy, cô Học viện Cơng nghệ Bƣu Viễn thơng tận tình giảng dạy, quản lý đào tạo, giúp đỡ tơi suốt q trình học tập Học viện Tôi xin chân thành cám ơn, Hội đồng chấm đề cƣơng góp ý cho đề cƣơng luận văn Tôi xin gửi lời cảm ơn biết ơn đến gia đình, anh, chị bạn bè động viên, giúp đỡ tơi suốt q trình thực luận văn Xin trân trọng cảm ơn! Tác giả luận văn Cao Ngọc Tú MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN i MỤC LỤC ii iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT iv DANH SÁCH HÌNH VẼ v DANH SÁCH CÁC BẢNG vi MỞ ĐẦU .1 CHƢƠNG 1: TỔNG QUAN 1.1 Khái quát mạng hội 1.1.1 Lịch sử hình thành phát triển mạng hội 1.1.2 Mạng hội Facebook Twitter 1.2 Các vấn đề nguy mạng hội 1.2.1 Đặc điểm kiến trúc mạng hội 1.2.2 Một số công nghệ mạng hội 1.2.3 Các nguy mạng hội .9 1.3 Khái quát Spam Spam OSN .10 1.4 Các đối tƣợng phƣơng pháp gửi Spam OSN 12 1.4.1 Đối tƣợng Spam OSN 12 1.4.2 Phƣơng pháp gửi Spam OSN .12 1.5 Kết chƣơng 14 CHƢƠNG 2: CÁC PHƢƠNG PHÁP LỌC SPAM TRÊN MẠNG HỘI 15 2.1 Các đặc điểm phát Spam mạng hội 15 2.1.1 Các đặc điểm phát Spam thông thƣờng .15 2.1.2 Đặc điểm phát Spam OSN 16 2.1.3 Các đặc điểm chung để phát Spam 17 2.2 Phƣơng pháp COMPA 18 2.2.1 Mục tiêu phƣơng pháp COMPA 18 2.2.2 Xây dựng hồ sơ hành vi phƣơng pháp COMPA 21 2.2.3 Phát thông báo bất thƣờng .25 2.2.4 Nhóm Thông điệp tƣơng tự 28 2.2.5 Phát tài khoản bị từ chối 29 2.3 Phần mềm MyPageKeeper 31 iv 2.3.1 Mục tiêu phần mềm MyPageKeeper .31 2.3.2 Socware 31 2.3.2 Kiến trúc MyPageKeeper 34 2.3.4 Mô tả hoạt động xác định Socwave MyPageKeeper 35 2.4 Phƣơng pháp lọc Spam trực tuyến 37 2.4.1 Mục tiêu hệ thống 37 2.4.2 Thiết kế hệ thống 39 2.5 Phƣơng pháp phát chiến dịch Spam 43 2.5.1 Mục tiêu trọng tâm dự án 44 2.5.2 Thiết kế hệ thống 44 2.5.3 Phƣơng pháp Xác nhận 49 2.6 Kết chƣơng 50 CHƢƠNG 3: THỰC NGHIỆM, ĐÁNH GIÁ HỆ THỐNG .52 3.1 Giới thiệu tập dự liệu 52 3.2 Cài đặt thơng số hệ thống mơ tả thuật tốn 53 3.2.1 Hệ thống tham số 53 3.2.2 Giá trị ngƣỡng tƣơng tự phân cụm gia tăng .54 3.2.3 Mơ tả thuật tốn phân cụm định 55 3.3 Đánh giá kết thực nghiệm 59 3.3.2 Độ xác 59 3.2.3 Khả chống lại công triệt để 62 3.3.4 Hiệu suất thời gian chạy 64 3.4 Kết chƣơng 64 KẾT LUẬN .66 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 67 DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Từ viết tắt API Nghĩa tiếng anh Application Programming Interface Nghĩa tiếng việt giao diện lập trình ứng dụng v AJAX Asynchronous JavaScript and XML JavaScript XML không đồng CNTT Công nghệ thông tin Cumulative Density Function Hàm phân phối tích lũy False alarm Tỷ lệ báo động giả SN Social Networks Mạng hội OSN Online Social Networks Mạng hội trực tuyến ISP Internet Service Provider Nhà cung cấp dịch vụ Internet OAUTH Open Authorization Một phƣơng thức chứng thực CDF PHISHING SMV Tấn công giả mạo Support vector machine Máy vector hỗ trợ SPAM Rác SPAMMER Ngƣời gửi thƣ rác RSS Spam recall Tỷ lệ triệu hồi Really Simple Syndication Tiêu chuẩn định dạng tài liệu dựa XML URL Uniform Resource Locator URL tạo nên khả siêu liên kết cho website DANH SÁCH HÌNH VẼ Hình 2.1:Mơ tả mơ hình mạng hội sử dụng khơng sử dụng mơ hình lọc Spam Online 38 Hình 2.2 : Sơ đồ tổng quan hệ thống lọc trực tuyến 40 Hình 3.1: Mơ tả cấu trúc tập liệu 53 vi DANH SÁCH CÁC BẢNG Bảng 3.1: Độ xác tổng thể điều chỉnh tham số 60 Bảng 3.2: Tỷ lệ phát xác cách sử dụng đặc điểm với liệu Facebook 61 Bảng 3.3: Độ phát xác liệu Facebook theo thời gian 62 Bảng 3.4: Tỷ lệ phát xác hệ thống dƣới cơng tàng hình 63 MỞ ĐẦU Trong năm gần đây, khoa học công nghệ phát triển mạnh mẽ, đặc biệt phát triển công nghệ thông tin ảnh hƣởng không nhỏ đến đời sống ngƣời Trong đó, kể đến ảnh hƣởng internet tất mặt đời sống hội, kinh tế, văn hóa, trị Internet kết nối ngƣời giới với nhau, phá vỡ khoảng cách biên giới, không gian, thời gian, tạo điều kiện môi trƣờng thuận lợi cho việc giao tiếp hội Từ có internet xuất loại hình tìm kiếm thơng tin, giải trí, kết nối hội, khơng thể thiếu đƣợc mạng hội đƣợc nhiều ngƣời sử dụng nhƣ: Google+, Facebook, Twitter, Yahoo, Skye, Myspace… Mạng hội đƣợc hiểu loại hình dịch vụ internet phát triển kỷ nguyên số, ứng dụng thành tựu công nghệ thông tin Mạng hội dịch vụ kết nối thành viên sở thích internet lại với với nhiều mục đích khác không phân biệt không gian thời gian, đồng thời đƣợc tạo nên thơng qua tƣơng tác thành viên cộng đồng mạng Facebook Twitter hai mạng hội lớn đƣợc nhiều ngƣời sử dụng giới Có thể nói, năm gần mạng hội Facebook trở thành tƣợng hội điển hình, thể nhu cầu giao tiếp hội giải trí Nó tạo cho ngƣời cộng đồng hội bao gồm ngƣời quen biết không quen biết, đa dạng môi trƣờng hội Facebook, tự việc trao đổi thông tin, tâm tƣ tình cảm…hoặc yếu tố cơng việc, kinh tế đƣợc đƣa vào Facebook để trao đổi Nhìn chung, Facebook dần trở thành cơng cụ hội thiếu nhiều ngƣời Thật không may, nhiều chứng cho thấy mạng hội môi trƣờng hiệu để truyền bá Spam Một số nghiên cứu gần xác nhận tồn chiến dịch Spam quy mô lớn Twitter Facebook Hơn nữa, tỷ lệ nhấp chuột vào Spam mạng hội có mức độ lớn so với Spam email, cho thấy ngƣời dùng có xu hƣớng tin cậy bạn bè họ mạng hội từ email Spam Vấn đề Spam mạng hội nhận đƣợc nhiều ý nhà nghiên cứu Tƣởng nhƣ, tƣơng tự Spam email chúng vấn đề, chất chúng giống đƣợc nghiên cứu rộng rãi nhiều năm Nhƣng phần lớn giải pháp áp dụng trực tiếp cho Vì nhiều nghiên cứu gần tập trung vào việc nghiên cứu đặc điểm, phƣơng pháp xây dựng hệ thống lọc Spam mạng hội nhƣ: - “Towards Online Spam Filtering in Social Networks”[4]: Tác giả trình bày hệ thống lọc thƣ rác trực tuyến đƣợc thiết kế đặc biệt cho mạng hội đƣợc triển khai nhƣ thành phần tảng mạng hội -“COMPA: Detecting Compromised Accounts on Social Networks”[1] có cách tiếp cận để phát tài khoản đƣợc cam kết mạng hội Bằng cách xác định tài khoản bị xâm nhập, nhà cung cấp mạng hội tập trung nỗ lực giảm thiểu họ vào ngƣời dùng thực - “Detecting and Characterizing Social Spam Campaigns”[3]: Tác giả trình bày nghiên cứu để đo lƣờng phân tích nỗ lực để lan truyền nội dung độc hại mạng hội Họ sử dụng nhiều kỹ thuật để phát mối tƣơng quan thông báo tƣờng để xác định lây lan nội dung độc hại tiềm ẩn nỗ lực để định lƣợng số lƣợng tài khoản độc hại lây lan nội dung độc hại mạng hội -“Efficient and Scalable Socware Detection in Online Social Networks”[2]: Trong nghiên cứu này tác giả thiết kế ứng dụng MyPageKeeper cho mục đích bảo vệ ngƣời dùng Facebook khỏi socware Đối với ngƣời dùng đăng ký MyPageKeeper socware xuất tƣờng ngƣời dùng nguồn cấp liệu tin tức phần mềm phát sau cảnh báo ngƣời dùng Trong phạm vi luận văn này, tơi trình số đặc điểm mạng hội, Spam, nguy từ Spam trình bày phƣơng pháp, thiết kế hệ thống lọc Spam trực tuyến mạng hội để kiểm tra thông điệp đƣợc gửi đến ngƣời dùng Theo đó, hệ thống thơng qua số đặc điểm để thể phân biệt hiệu Spam loại bỏ tin nhắn đƣợc phân loại "Spam" bảo vệ 53 - Reporters (Ngƣời báo cáo): Gồm mảng ID ẩn danh ngƣời báo cáo tin - Contents(Nội dung): Túi từ thông điệp; từ đƣợc gán ID ẩn danh - Author: ID ẩn danh tác giả thông điệp (ID khác với ID ngƣời báo cáo) Hình 3.1: Mơ tả cấu trúc tập liệu 3.2 Cài đặt thông số hệ thống mơ tả thuật tốn 3.2.1 Hệ thống tham số Hệ thống đƣợc chạy thử nghiệm máy chủ có lõi (Xeon E5520 2.2Ghz) với nhớ Hyper-Threading 16GB Tất tin nhắn đƣợc xắp xếp theo mốc thời gian chia chúng vào tập huấn luyện thử nghiệm Tập huấn luyện bao gồm 25% thƣ rác tất thƣ hợp pháp khoảng thời gian Bộ thử nghiệm chứa tin nhắn lại Hệ thống có nhiều tham số điều chỉnh đƣợc W a kiểm soát tốc độ phân rã cụm Việc lựa chọn giá trị chúng chủ yếu nguồn tài nguyên phần cứng hạn chế, tốc độ phân rã thấp dẫn đến tiêu thụ tài nguyên nhiều tốc độ xử lý chậm Do với hệ thống ta chọn W = 100.000 a = 0.2 54 thí nghiệm tƣơng ứng, tùy thuộc vào giới hạn tài nguyên phần cứng thay đổi tham số cho phù hợp Chúng ta chọn giá trị t, ngƣỡng để loại bỏ cụm, giá trị nhỏ làm giảm nguy loại bỏ cụm Spam trực tiếp từ hệ thống Trong giai đoạn đào tạo, cung cấp nguồn liệu cho phân nhóm gia tăng với tập huấn luyện ghi lại giá trị đặc trƣng cho tất Spam cụm hợp pháp Hệ thống sử dụng tất đặc điểm nêu phần 2.1 cho liệu Facebook đặc điểm (trừ lịch sử tƣơng tác) tập liệu Twitter, lịch sử tƣơng tác không áp dụng cho tƣơng tác Twitter Tiếp theo hệ thống trích xuất giá trị đặc trƣng để đào tạo phân lớp Hệ thống sử dụng cụm có kích thƣớc cho đào tạo Sau đó, hệ thống đƣợc cho chạy với thử nghiệm 3.2.2 Giá trị ngưỡng tương tự phân cụm gia tăng Sự phát dựa việc phân cụm tin nhắn Spam Do đó, ngƣỡng tƣơng tự đƣợc sử dụng trình phân cụm ảnh hƣởng đến kết phát Để hiểu cách chọn ngƣỡng tốt nhất, nghiên cứu giá trị tƣơng tự Spam cặp thông điệp hợp lệ Trƣớc tiên, chia tập liệu Facebook vào Spam tập tin hợp lệ Việc phân chia thƣờng cách sử dụng nhãn tin nhắn Sau đó, tính tốn giá trị tƣơng tự tất cặp thông điệp Spam cặp thông điệp hợp lệ, tƣơng ứng, cách lặp lại trình phân cụm Đối với hai loại cặp thông điệp, hầu hết số chúng có giá trị tƣơng tự nhỏ, có nghĩa chúng gần nhƣ hồn tồn khơng giống Điều đƣợc mong đợi thơng điệp hợp pháp đƣợc tạo cách tự nhiên khác với ngƣời khác cách tự nhiên Đối với thƣ Spam, nhiều chiến dịch tồn tập liệu cặp thông báo chiến dịch khác khác Tuy nhiên, cặp Spam xuất gia tăng đột ngột, cho thấy số cặp thơng điệp giống nhau, thông tin thuộc chiến dịch Spam Các cặp thông điệp hợp pháp không biểu lộ 55 khuôn mẫu nhƣ chất tự nhiên Do đó, hệ thống không nhạy cảm với giá trị ngƣỡng miễn giá trị nhỏ lớn, việc thay đổi ngƣỡng khơng ảnh hƣởng đáng kể đến kết phân nhóm Cuối tơi chọn 0,5 ngƣỡng đƣợc sử dụng tất thí nghiệm 3.2.3 Mơ tả thuật tốn phân cụm định 3.2.3.1 Thuật toán ID3 Trong lĩnh vực máy học (Learning Machine), định kiểu mơ hình dự báo (Predictive Model), nghĩa ánh xạ từ quan sát vật/hiện tƣợng tới kết luận giá trị mục tiêu vật/hiện tƣợng Mỗi nút (Internal Node) tƣơng ứng với biến; đƣờng nối với nút thể giá trị cụ thể cho biến Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trƣớc giá trị biến đƣợc biểu diễn đƣờng từ nút gốc tới nút Kỹ thuật máy học dùng định đƣợc gọi học định, hay gọi với tên ngắn gọn định Học định phƣơng pháp thông dụng khai phá liệu Khi đó, định mơ tả cấu trúc cây, đó, đại diện cho phân lớp cành đại diện cho kết hợp thuộc tính dẫn tới phân lớp Một định đƣợc học cách chia tập hợp nguồn thành tập dựa theo kiểm tra giá trị thuộc tính Quá trình đƣợc lặp lại cách đệ qui cho tập dẫn xuất Quá trình đệ qui hồn thành khơng thể tiếp tục thực việc chia tách đƣợc nữa, hay phân lớp đơn áp dụng cho phần tử tập dẫn xuất Một phân lớp rừng ngẫu nhiên (Random Forest) sử dụng số định để cải thiện tỉ lệ lớp Cây định phƣơng tiện có tính mơ tả dành cho việc tính tốn xác suất có điều kiện Cây định đƣợc mơ tả nhƣ kết hợp kỹ thuật toán học tính tốn nhằm hỗ trợ việc mơ tả, phân loại tổng quát hóa tập liệu cho trƣớc 56 Dữ liệu đƣợc cho dƣới dạng ghi có dạng: (x, y) = (x1, x2, x3…, xk, y) Biến phụ thuộc (Dependant Variable) y biến mà cần tìm hiểu, phân lớp hay tổng quát hóa x1, x2, x3 … biến giúp ta thực công việc Giải thuật ID3 (gọi tắt ID3) Đƣợc phát triển đồng thời Quinlan AI Breiman, Friedman, Olsen Stone thống kê ID3 giải thuật học đơn giản nhƣng tỏ thành công nhiều lĩnh vực ID3 giải thuật hay cách biểu diễn tri thức học đƣợc nó, tiếp cận việc quản lý tính phức tạp, heuristic dùng cho việc chọn lựa khái niệm ứng viên, tiềm việc xử lý liệu nhiễu ID3 biểu diễn khái niệm (concept) dạng định (decision tree) Biểu diễn cho phép xác định phân loại đối tƣợng cách kiểm tra giá trị số thuộc tính Nhƣ vậy, nhiệm vụ giải thuật ID3 học định từ tập ví dụ rèn luyện (training example) hay gọi liệu rèn luyện (training data) Input: Một tập hợp ví dụ Mỗi ví dụ bao gồm thuộc tính mơ tả tình huống, hay đối tƣợng đó, giá trị phân loại Output: Cây định có khả phân loại đắn ví dụ tập liệu rèn luyện, hy vọng phân loại cho ví dụ chƣa gặp tƣơng lai Giải thuật ID3 xây dựng định đƣợc trình bày nhƣ sau: Lặp: Chọn A

Ngày đăng: 28/02/2018, 12:02

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan