Phương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hộiPhương pháp lọc spam trên mạng xã hội
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - Cao Ngọc Tú PHƢƠNG PHÁP LỌC SPAM TRÊN MẠNG XÃ HỘI Chuyên ngành: Hệ thống thơng tin Mã số: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2018 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS TS Trần Quang Anh Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: …… giờ…….ngày …… tháng…… năm …… Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Trong năm gần đây, khoa học công nghệ phát triển mạnh mẽ, đặc biệt phát triển công nghệ thông tin ảnh hưởng không nhỏ đến đời sống người Trong đó, kể đến ảnh hưởng internet tất mặt đời sống xã hội, kinh tế, văn hóa, trị Internet kết nối người giới với nhau, phá vỡ khoảng cách biên giới, không gian, thời gian, tạo điều kiện môi trường thuận lợi cho việc giao tiếp xã hội Từ có internet xuất loại hình tìm kiếm thơng tin, giải trí, kết nối xã hội, khơng thể thiếu mạng xã hội nhiều người sử dụng như: Google+, Facebook, Twitter, Yahoo, Skye, Myspace… Mạng xã hội hiểu loại hình dịch vụ internet phát triển kỷ nguyên số, ứng dụng thành tựu công nghệ thông tin Mạng xã hội dịch vụ kết nối thành viên sở thích internet lại với với nhiều mục đích khác khơng phân biệt khơng gian thời gian, đồng thời tạo nên thơng qua tương tác thành viên cộng đồng mạng Facebook Twitter hai mạng xã hội lớn nhiều người sử dụng giới Có thể nói, năm gần mạng xã hội Facebook trở thành tượng xã hội điển hình, thể nhu cầu giao tiếp xã hội giải trí Nó tạo cho người cộng đồng xã hội bao gồm người quen biết không quen biết, đa dạng môi trường xã hội Facebook, tự việc trao đổi thơng tin, tâm tư tình cảm…hoặc yếu tố công việc, kinh tế đưa vào Facebook để trao đổi Nhìn chung, Facebook dần trở thành công cụ xã hội thiếu nhiều người Thật không may, nhiều chứng cho thấy mạng xã hội môi trường hiệu để truyền bá công Các mạng xã hội phổ biến ngày trở thành mục tiêu cơng lừa đảo kích hoạt từ botnet lớn số nghiên cứu gần xác nhận tồn chiến dịch Spam quy mô lớn Twitter Facebook Hơn nữa, tỷ lệ nhấp chuột vào Spam mạng xã hội có mức độ lớn so với Spam email, cho thấy người dùng có xu hướng tin cậy bạn bè họ mạng xã hội từ email Spam Vấn đề Spam mạng xã hội nhận nhiều ý nhà nghiên cứu Tưởng như, tương tự Spam email chúng vấn đề, chất chúng giống nghiên cứu rộng rãi nhiều năm Nhưng thật không may, phần lớn giải pháp khơng thể áp dụng trực tiếp cho Vì nhiều nghiên cứu gần tập trung vào việc nghiên cứu đặc điểm, phương pháp xây dựng hệ thống lọc Spam trực tuyến mạng xã hội như: - “Towards Online Spam Filtering in Social Networks”[4]: -“COMPA: Detecting Compromised Accounts on Social Networks”[1] - “Detecting and Characterizing Social Spam Campaigns”[3]: -“Efficient and Scalable Socware Detection in Online Social Networks”[2]: Vì luận văn này, tơi trình số phương pháp hệ thống lọc Spam trực tuyến mạng xã hội triển khai tài khoản cá nhân để kiểm tra thông điệp gửi đến người dùng Theo đó, hệ thống thơng qua số đặc điểm phân biệt hiệu Spam loại bỏ tin nhắn phân loại "Spam" bảo vệ chúng khỏi nguy khác Nội dung luận văn gồm ba chương sau: Chương 1: Tổng quan mạng xã hội nguy từ Spam Chương 2: Các phương pháp lọc Spam mạng xã hội Chương 3: Thực nghiệm đánh giá hệ thống lọc Spam trực tuyến Cuối phần đánh giá, kết luận phương hướng luận văn 3 CHƢƠNG 1: TỔNG QUAN VỀ MẠNG XÃ HỘI VÀ CÁC NGUY CƠ TỪ SPAM 1.1 Khái quát mạng xã hội Mạng xã hội (SN – Social network) tập hợp cá nhân với mối quan hệ nhiều mặt gắn kết với Về mặt tốn học mạng xã hội xem hệ thống có cấu trúc gồm đỉnh (node) gắn với thành mạng bới liên kết (hoặc cung) 1.1.1 Lịch sử hình thành phát triển mạng xã hội Trong lịch sử, trang web mạng xã hội đời trước trang web truyền thông xã hội Classmates.com (1995) SixDegrees.com (1997) trang web mạng xã hội Friendster (2002), MySpace, Bebo Facebook (2004) hàng loạt trang web mạng xã hội Trang mạng truyền thông xã hội Flickr (2004), Youtube (2005) Twitter (2006) xuất 1.1.2 Mạng xã hội Facebook Twitter Facebook website truy cập miễn phí cơng ty Facebook, Inc điều hành Người dùng tham gia mạng lưới tổ chức theo thành phố, nơi làm việc, trường học khu vực để liên kết giao tiếp với người khác Mark Zuckerberg thành lập Facebook với bạn bè ông sinh viên khoa khoa học máy tính bạn phòng Eduardo Saverin, Dustin Moskovitz Chris Hughes Mark sinh viên Đại học Harvard Twitter dịch vụ mạng xã hội trực tuyến miễn phí cho phép người sử dụng đọc, nhắn cập nhật mẩu tin nhỏ gọi tweets, dạng tiểu blog 1.2 Các vấn đề nguy mạng xã hội 1.2.1 Đặc điểm kiến trúc mạng xã hội Các đặc điểm mạng xã hội: - Hồ sơ cá nhân - Kết bạn trực tuyến - Tham gia nhóm trực tuyến - Chia sẻ với bạn bè trực tuyến - Chia sẻ nội dung người dùng tạo - Bày tỏ ý kiến - Tìm kiếm thơng tin - Giữ người dùng Các khái niệm như: - Post (Đăng): Bài viết đại diện cho đơn vị thông tin chia sẻ mạng xã hội - Wall (Tường): Một tường người sử dụng mạng xã hội trang mà bạn bè người sử dụng đăng tin nhắn cho người dùng - News feed (Tin tức): Trang nguồn tin tức người dùng mạng xã hội tóm tắt hoạt động xã hội bạn bè mạng xã hội - Like (Thích): Like widget mạng xã hội kết hợp với đối tượng chẳng hạn đăng, trang ứng dụng Nếu người dùng nhấp chuột vào tiện ích Like gắn liền với đối tượng, đối tượng xuất nguồn tin tức người bạn người dùng - Application (Ứng dụng): Mạng xã hội cho phép nhà phát triển bên thứ ba tạo ứng dụng riêng họ mà người dùng mạng xã hội thêm vào Mỗi người dùng thăm trang ứng dụng mạng xã hội, mạng xã hội tự động tải nội dung ứng dụng từ URL Dựa việc phân tích đặc điểm đặc điểm trang mạng xã hội nay, phân chia mạng xã hội theo đối tượng thành ba dạng sau: - Lấy cá nhân làm trung tâm - Lấy mối quan hệ cá nhân làm trung tâm Với loại hình có chia nhỏ thành: + Mạng cộng đồng + Mạng tìm kiếm hội + Mạng thành viên có sở thích, đam mê - Lấy nội dung làm trung tâm Kiến trúc mạng xã hội ta xem xét ba khía cạnh là: kiến trúc truyền thơng, kiến trúc phần mềm ứng dụng, kiến trúc hạ tâng công nghệ thông tin (CNTT) nhà cung cấp dịch vụ 1.2.2 Một số công nghệ mạng xã hội 1.2.3 Các nguy mạng xã hội Với tốc độ truyền tải vũ bão, Internet nói chung, mạng xã hội nói riêng hàm chứa nhiều thông tin không kiểm chứng, sai thật, chí độc hại Vì thế, nguy hiểm, gây ảnh hưởng xấu đến trị, kinh tế, đạo đức,… nhiều mặt đời sống, gây nguy hại cho quốc gia, tập thể hay cá nhân Mạng xã hội hoạt động giao tiếp Việc tiếp nhận thông tin cần gắn với ngữ cảnh Nếu không hiểu ngữ cảnh cụ thể hiểu sai lạc thơng tin, sai lạc lại lan truyền mạnh mẽ nhiều gây hậu khó lường 1.3 Khái quát Spam Spam OSN Spam cho xuất lần vào năm 1978 người đàn ông gửi thông điệp quảng cảo mẫu sản phẩm tới 393 người lúc, thay gửi cho người thường lệ Có nhiều giải nghĩa cho từ Spam, lý giải nhiều người chấp nhận Spam viết tắt cụm từ “Stupid Pointless Annoying Message” Tiếng anh có nghĩa thư ngu ngốc – vơ nghĩa – phiền tối Hiện nay, Spam có nhiều biến đổi để thích nghi với tra đời tảng giáo tiếp kết nối khơng đơn Spam email truyền thống Hầu hết Spam nhằm mục đích quảng cáo cho sản phẩm khơng đáng tin cậy dịch vụ hợp pháp Tuy nhiên, vụ gửi Spam nhằm mục đích quảng cáo thương mại Một số vụ gửi Spam lại nhằm mục đích bất có kẻ gửi Spam để bày tỏ quan điểm trị tơn giáo Hình thức gửi Spam nguy hiểm hình thức gửi thông điệp đề lừa người dùng tiết thông tin tài khoản ngân hàng trực tuyến, số thẻ tín dụng v.v…đấy dạng phổ biến lừa đảo trực tuyến Mạng xã hội trực tuyến công cụ cộng tác truyền thông phổ biến cho hàng triệu người dùng Internet Những chứng gần cho thấy cộng đồng trở thành môi trường mới, hiệu để truyền bá Spam phát động công, phát tán phần mềm độc hại lừa đảo 1.4 Các đối tƣợng phƣơng pháp gửi Spam OSN 1.4.1 Đối tượng Spam OSN Các đối tượng sử dụng Spam chia làm hai: - Cá nhân: - Nhóm, tổ chức: 1.4.2 Phương pháp gửi Spam OSN Một thủ đoạn khác spammer công chiếm đoạt tài khoản người dùng khác, gửi tin nhắn giả mạo tới người theo dõi người Hoặc thỏa thỏa hiệp với người dùng thông qua ứng dụng mạng xã hội Sau đạt mục tiêu có quyền truy cập tài khoản giả mạo, chiếm đoạt hay tài khoản thỏa hiệp Spammer tiến hành Spam nhiều hình thức mục đích khác Một số mục dích phương pháp Spammer hay sử dụng như: - Ào ạt nhắn tin với số lượng lớn: - Phát tán link nhiễm độc: - Đánh giá gian lận: - Chia sẻ nội dung thái quá: - Click baiting like jacking: 1.5 Kết chƣơng Trong chương này, luận văn tập trung nghiên cứu khái quát mạng xã hội thông qua số định nghĩa, lịch sử phát triển mạng xã hội nói chung hai mạng xã hội Facebook Twitter Đồng thời tìm hiểu đặc điểm cấu trúc mạng xã hội nguy từ mạng xã hội Chương tìm hiểu sơ lược Spam đối tượng cách phát tán Spam OSN Phần đề tài tập trung vào đặc điểm phương pháp lọc Spam mạng xã hội CHƢƠNG 2: CÁC PHƢƠNG PHÁP LỌC SPAM TRÊN MẠNG XÃ HỘI 2.1 Các đặc điểm phát Spam mạng xã hội 2.1.1 Các đặc điểm phát Spam thơng thường - Học máy - Kích thước, số từ tin 2.1.2 Đặc điểm phát Spam OSN - Mức độ xã hội người gửi: - Lịch sử tương tác: 2.1.3 Các đặc điểm chung để phát Spam Chúng ta tìm thấy bốn đặc điểm bổ sung có hiệu để phân biệt Spam cụm hợp pháp Các đặc điểm không cần biểu đồ xã hội biểu đồ tương tác để tính tốn áp dụng cho vấn đề phát Spam bên OSN Chúng biểu đặc điểm chung - Quy mô nhóm: - Khoảng thời gian trung bình: - Số URL trung bình tin nhắn: - Số lượng URL nhất: 2.2 Phƣơng pháp COMPA “COMPA: Detecting Compromised Accounts on Social Networks” (Phát tài khoản bị ảnh hưởng mạng xã hội) 2.2.1 Mục tiêu phương pháp COMPA Phương pháp COMPA biện pháp phát tài khoản người dùng bị xâm nhập mạng xã hội, áp dụng cho hai trang mạng xã hội, Twitter Facebook COMPA sử dụng thành phần mơ hình thống kê phát bất thường để xác định tài khoản có thay đổi đột ngột hành vi Cách tiếp cận phương pháp cung cấp kết hợp ba đặc điểm bật Thứ nhất, khơng phụ thuộc vào diện URL tin nhắn Thứ hai, hệ thống đưa kết xác cho thấy tài khoản bị xâm nhập với kết sai lệch thấp Thứ ba, COPMA tập trung vào việc tìm kiếm tài khoản bị đánh cắp 2.2.2 Xây dựng hồ sơ hành vi phương pháp COMPA Đặc điểm mơ hình hóa dựa vào bảy đặc điểm để xây dựng hồ sơ hành vi là: - Thời gian (giờ ngày): - Thông báo nguồn: - Thông báo văn (Ngôn ngữ): - Thông báo chủ đề: - Liên kết (URL) Tin nhắn: - Tương tác trực tiếp người dùng: - Tương tác gần: 2.2.3 Phát thông báo bất thường 2.2.3.1 Đào tạo đánh giá mơ hình 2.2.3.2 Độ bền mơ hình 2.2.4 Nhóm Thông điệp tương tự Một tin nhắn vi phạm hồ sơ hành vi người dùng không thiết cho thấy người dùng bị xâm nhập thơng điệp độc hại Thơng điệp phản ánh thay đổi hành vi bình thường - Tương tự nội dung: Thư có chứa văn tương tự coi liên quan nhóm lại với - URL giống nhau: Phương pháp tương tự xem xét hai thông báo tương tự hai chúng có liên kết đến URL tương tự 2.2.5 Phát tài khoản bị từ chối Cách tiếp cận hệ thống nhóm thơng điệp tương tự tạo khoảng thời gian định Được gọi khoảng thời gian quan sát - Các nhóm đáng ngờ: - Ứng dụng hàng loạt: 2.3 Phần mềm MyPageKeeper “Efficient and Scalable Socware Detection in Online Social Networks” (Phát Socware hiệu mở rộng mạng xã hội trực tuyến) 2.3.1 Mục tiêu phần mềm MyPageKeeper MyPageKeeper, ứng dụng cài đặt Facebook nhằm mục đích để bảo vệ người dùng Facebook khỏi socware (phần mềm xã hội) Phần mềm gồm ba mục tiêu chính: - Tính xác: Mục tiêu hàng đầu phần mềm đảm bảo nhận dạng socware cách xác - Khả mở rộng: MyPageKeeper cung cấp bảo vệ từ socware cho tất người dùng Facebook Vì vậy, hệ thống phải mở rộng để dễ dàng xử lý gia tăng số lượng người dùng - Hiệu quả: Khoảng thời gian kiểm tra đăng đến hiển thị cho người dùng ln đáp ứng với thơi gian tối ưu Đối tượng mà mà phần mềm MyPageKeeper hướng đến Socware loại phần mềm độc hại 10 2.3.2 Socware Socware thuật ngữ socialware để bao gồm tất hành vi tội phạm ký sinh OSN, bao gồm điều gây phiền nhiễu, gây tổn thương, làm cho thiệt hại kinh tế người dùng Chúng ta coi đăng Facebook độc hại, đáp ứng điều sau: - Bài viết lây lan phần mềm độc hại xâm nhập thiết bị người dùng - Trang web link đăng yêu cầu người dùng cung cấp thông tin cá nhân - Bài đăng hứa hẹn phần thưởng giả (ví dụ: sản phẩm miễn phí) - Bài đăng thực danh nghĩa người dùng mà hiểu biết người dùng (thơng thường trước thu hút người dùng cung cấp cho phép ứng dụng Facebook rogue) - Trang web link đăng yêu cầu người sử dụng để thực nhiệm vụ (ví dụ, điền vào điều tra) giúp chủ sở hữu trang web thu lợi nhuận thông tin - Bài viết sử dụng để làm giả danh tiếng giả trang (ví dụ cách buộc người dùng phải 'Thích' trang) Cũng giống Spam, Khơng có định nghĩa rõ ràng cho socware: Một đăng coi gây phiền nhiễu người dùng coi hữu ích người dùng khác Trong thực tế, phần mềm thống kê tối đa ý kiến người sử dụng MyPageKeeper: Nếu hầu hết số họ báo cáo viết gây phiền nhiễu, phần mềm đánh dấu Các hoạt động hầu hết dịch xã hội liên kết với hai chế riêng biệt - Cơ chế tuyên truyền: - Cơ chế khai thác: Socware chia thành hai loại dựa sở hạ tầng chứa chúng - Socware lưu trữ bên Facebook: - Socware lưu trữ Facebook + Các ứng dụng độc hại Facebook: 11 + Sự kiện độc hại Facebook: + Các trang Facebook độc hại: 2.3.2 Kiến trúc MyPageKeeper MyPageKeeper ứng dụng Facebook liên tục kiểm tra tường, tin tức, xã luận xác định có hợp pháp cảnh báo người dung đăng ký, cài đặt ứng dụng phát có bất thường Thành phần MyPageKeeper bao gồm sáu mô đun chức - Mô đun uỷ nhiệm người dùng: - Mô đun thu thập liệu: - Mô đun khai thác đặc điểm: - Mô đun phân loại - Mô đun thông báo: - Môđun phản hồi người dùng: 2.3.4 Mô tả hoạt động xác định Socwave MyPageKeeper Đặc tính MyPageKeeper nằm mơ đun phân loại Như mô tả trên, đầu vào cho mô-đun phân loại URL đặc điểm ngữ cảnh xã hội có liên quan trích xuất từ viết có chứa URL Thuật tốn phân loại hoạt động theo hai giai đoạn - Sử dụng danh sách trắng danh sách đen - Sử dụng máy học với đặc điểm ngữ cảnh xã hội Trình phân loại SVM sử dụng đặc điểm sau: + Xếp hạng từ khoá Spam: + Tin nhắn giống + Đếm News feed post and wall post (Tin tường): 2.4 Phƣơng pháp lọc Spam trực tuyến “Towards Online Spam Filtering in Social Networks” (Hướng tới Lọc spam trực tuyến Mạng xã hội) Hệ thống lọc thư rác trực tuyến thiết kế đặc biệt cho OSN có 12 thể triển khai thành phần tảng OSN Sau giai đoạn đào tạo ban đầu, kiểm tra hiệu luồng thơng điệp người dùng tạo ra, loại bỏ người phân loại Spam trước họ đến người nhận mong muốn Hệ thống sở hữu bốn tính chất mong muốn cơng cụ lọc trực tuyến, là: - Độ xác cao - Khơng cần phải có tất chiến dịch có mặt đào tạo - Khơng cần phải đào tạo thường xuyên - Độ trễ thấp 2.4.1 Mục tiêu hệ thống Mục tiêu thiết kế hệ thống lọc Spam trực tuyến triển khai phía nhà cung cấp dịch vụ OSN Sau triển khai, kiểm tra tất tin nhắn trước gửi thông điệp đến người nhận phát tin nhắn gửi đến Spam Hệ thống phát Spam có nguồn gốc từ hai tài khoản bị xâm nhập tải khoản Spam 2.4.2 Thiết kế hệ thống Các chiến dịch spam tạo cách sử dụng mẫu thông điệp tương đồng chiến dịch Hệ thống giữ lại giống chúng Sau trình phân cụm, Spam chiến dịch nằm cụm số lượng nhỏ cụm Do đó, chúng phân biệt cách sử dụng máy học có giám sát Hai thành phần hệ thống mơ dun phân cụm tăng dần mô dun học máy có giám sát Mơ đun trì tập hợp cụm không liên kết cho tin nhắn xử lý khứ có mặt Mơ đun thứ hai chất mô dun phân loại đào tạo đưa định nhị phân 13 Hình 2.2 : Sơ đồ tổng quan hệ thống lọc trực tuyến 2.4.2.1 Phân cụm gia tăng 2.4.2.2 Học máy có giám sát Mơ đun học máy giám sát chất phân loại đào tạo để đưa định nhị phân Hai ứng cử viên phân loại là, máy vector hỗ trợ (SVM) định sử dụng rộng rãi nhiều tài liệu Cây định[7] có lợi phân loại nhị phân đào tạo nhanh đơn giản để hiểu Sự phức tạp thời gian để dự đoán điểm kiểm tra O (log (N)), Do đó, Hệ thống sử dụng định tảng phân loại hệ thống 2.4.2.3 Thiết kế song song Hệ thống cần đạt tốc độ cao công cụ lọc spam trực tuyến Thiết kế thể phần lớn thời gian chạy phân cụm gia tăng Do đó, đẩy nhanh q trình phân cụm làm tăng đáng kể tốc độ 2.5 Phƣơng pháp phát chiến dịch Spam “Detecting and Characterizing Social Spam Campaigns” (Phát mô tả chiến dịch Spam mạng xã hội) Phương pháp nghiên cứu để đo lường phân tích 14 nỗ lực để lan truyền nội dung độc hại OSNs Công việc dựa tập hợp thông điệp "tường" lớn Facebook Bài đăng tường hình thức truyền thơng chủ yếu Facebook, nơi người dùng để lại tin nhắn hồ sơ công khai người bạn Nghiên cứu đăng tường Facebook bao gồm hai giai đoạn Và kết cho thấy lừa đảo công phổ biến Facebook Bằng cách nghiên cứu thời gian thông điệp độc hại thời gian người dùng gửi chúng, kết luận phần lớn thư rác gửi qua tài khoản bị xâm nhập, tài khoản giả mạo tạo để gửi thư rác 2.5.1 Mục tiêu trọng tâm dự án Trọng tâm hệ thống phát đo lường chiến dịch Spam quy mô lớn truyền qua tin nhắn tường người dùng Facebook Hệ thống xác định đo lường nhiều loại công thực qua đăng tường bao gồm không giới hạn ở: - Quảng cáo sản phẩm - Các công lừa đảo - Các công theo lần tải 2.5.2 Thiết kế hệ thống 2.5.2.1 Mô tả hệ thống Để thực chiến dịch Spam hiệu quả, người gửi Spam có khả năng: - Tùy chỉnh thơng báo riêng lẻ người dùng mục tiêu - Cố gắng tránh phát cách giấu URL đích thông qua xáo trộn Sau xây dựng biểu đồ cột thông điệp tường, sử dụng hai giả định bổ sung chiến dịch Spam để tách nhóm Spam độc hại khỏi viết tường lành mạnh Các giả định là: - Bất kỳ tài khoản bị hạn chế số lượng đăng tường mà đăng, người gửi Spam phải tận dụng số lượng đáng kể tài khoản 15 người dùng cho chiến dịch lớn - Các chiến dịch Spam phải tối đa hóa hiệu thời gian tài khoản bị xâm nhập giả mạo trước Phát hiện, thơng điệp chiến dịch đơn lẻ tương đối khắt khe Hệ thống áp dụng lọc ngưỡng dựa số lượng tài khoản người dùng gửi viết tường tương quan thời gian phân lớp để phân biệt nhóm có khả độc hại khỏi nhóm người lành tính 2.5.2.2 Mơ hình hố Phân cụm đăng tường Xác định chiến dịch Spam làm giảm đến vấn đề xác định kết nối bên biểu đồ tương tự Mỗi đồ kết nối tương đương với thành phần chiến dịch Spam tiềm ẩn Xác định đồ thị kết nối dễ dàng giải cách lặp lại nút tùy ý xác định đóng cửa chúng Được thực theo thuật toán sau Algorithm PostSimilarityGraphClustering(G < V, E >) traversed ← ∅ clusters ← ∅ Foreach v ∈ V If v ∈ traversed continue EndIf one_cluster ← BFS(v) traversed ← traversed ∪ one_cluster clusters ← clusters ∪ {one_cluster} EndForeach return clusters 2.5.2.3 Xác định cụm thư rác Để phát nhóm Spam ta sử dụng hai đặc tính phân biệt thừa nhận rộng rãi chiến dịch spam: phạm vi "phân tán" chất "bùng nổ" 2.5.3 Phương pháp Xác nhận Phương pháp xác nhận hợp lệ bao gồm loạt bước, bước sử dụng để mô tả công cụ phương pháp khám phá khác nhằm mục đích xác minh cách chắn phần tường đáng nghi ngờ Bước 1: Gỡ bỏ URL Bước 2: Phân tích chuyển hướng 16 Bước 3: Các công cụ bên thứ ba Bước 4: Tìm kiếm Từ khố Wall Post Bước 5: Nhóm URL Bước 6: Phân tích thủ cơng 2.6 Kết chƣơng Trong chương phần đầu trình bày đặc điểm phát Spam thông thường đặc điểm phát Spam OSN đặc điểm phát Spam chung Phần giới thiệu mục đích, đối tượng Spam hướng tới thiết kế phương pháp lọc Spam cụ thể như: Phương Pháp COMPA nhằm mục đích phát tài khoản mạng xã hội bị xâm nhập, phần mềm MyPageKeeper ứng dụng Facebook nhằm mục đích xác định xác hiệu phần mềm độc hại mạng xã hội (Socwave), Phương pháp lọc Spam trực tuyến cho mạng xã hội Phương pháp phát chiến dịch Spam tập trung vào đăng tường độc hại có chứa liên kết độc hại người dung Trong phần luận văn xin giới thiệu liệu thu thập sử dung thực nghiệm thiết kế demo hệ thống, đánh giá kết đạt hệ thống CHƢƠNG 3: THỰC NGHIỆM, ĐÁNH GIÁ HỆ THỐNG LỌC SPAM TRỰC TUYẾN 3.1 Giới thiệu tập dự liệu Tập liệu thu thập từ hai mạng xã hội Facebook Twitter Tập liệu Facebook chứa 187 triệu viết tường tạo khoảng 3,5 triệu người dùng, từ tháng năm 2008 đến tháng năm 2009 Bộ liệu Twitter chứa 17 triệu viết liên quan đến chủ đề thịnh hành tạo từ ngày tháng năm 2011 đến ngày 21 tháng năm 2011 Hình thức giao tiếp Facebook Twitter gọi "bài đăng tường" "tweet" Sau gọi “tin nhắn” để dễ dàng mô tả cho hai Các liệu thu thập lưu định dạng Javascript Object 17 Notation (.json) Được biểu diễn dạng mảng, thành phần liệu gồm có trường: - GroundTruth có giá trị: Spam, ham - Reporters (Người báo cáo): Gồm mảng ID ẩn danh người báo cáo tin - Contents(Nội dung): Túi từ thông điệp; từ gán ID ẩn danh - Author: ID ẩn danh tác giả thông điệp (ID khác với ID người báo cáo) 3.2 Cài đặt thơng số hệ thống mơ tả thuật tốn phân cụm 3.2.1 Hệ thống tham số Hệ thống chạy thử nghiệm máy chủ có lõi (Xeon E5520 2.2Ghz) với nhớ Hyper-Threading 16GB Tất tin nhắn xắp xếp theo mốc thời gian chia chúng vào tập huấn luyện thử nghiệm Tập huấn luyện bao gồm 25% thư rác tất thư hợp pháp khoảng thời gian Bộ thử nghiệm chứa tin nhắn lại 3.2.2 Giá trị ngưỡng tương tự phân cụm gia tăng Đối với thư Spam, nhiều chiến dịch tồn tập liệu cặp thông báo chiến dịch khác khác Tuy nhiên, cặp Spam xuất gia tăng đột ngột, cho thấy số cặp thơng điệp giống nhau, thơng tin thuộc chiến dịch Spam Các cặp thông điệp hợp pháp không biểu lộ khuôn mẫu chất tự nhiên Do đó, hệ thống khơng nhạy cảm với giá trị ngưỡng miễn giá trị khơng phải q nhỏ q lớn, việc thay đổi ngưỡng không ảnh hưởng đáng kể đến kết phân nhóm Cuối chọn 0,5 ngưỡng sử dụng tất thí nghiệm 18 3.2.3 Mơ tả thuật tốn phân cụm định 3.2.3.1 Thuật toán ID3 Dữ liệu cho dạng ghi có dạng: (x, y) = (x1, x2, x3…, xk, y) Biến phụ thuộc (Dependant Variable) y biến mà cần tìm hiểu, phân loại hay tổng quát hóa x1, x2, x3 … biến giúp ta thực công việc Input: Một tập hợp ví dụ Mỗi ví dụ bao gồm thuộc tính mơ tả tình huống, hay đối tượng đó, giá trị phân loại Output: Cây định có khả phân loại đắn ví dụ tập liệu rèn luyện, hy vọng phân loại cho ví dụ chưa gặp tương lai Giải thuật ID3 xây dựng định trình bày sau: Lặp: Chọn A