1. Trang chủ
  2. » Công Nghệ Thông Tin

đồ án phát hiển bất thường kĩ thuật khai phá dữ liệu

57 58 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Lê Xuân Đạo PHÁT HIỆN BẤT THƢỜNG TRÊN PHƢƠNG TIỆN XÃ HỘI DỰA TRÊN KỸ THUẬT KHAI PHÁ DỮ LIỆU KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI – 2016 i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Lê Xuân Đạo PHÁT HIỆN BẤT THƢỜNG TRÊN PHƢƠNG TIỆN XÃ HỘI DỰA TRÊN KỸ THUẬT KHAI PHÁ DỮ LIỆU KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hƣớng dẫn: PGS TS Hà Quang Thụy Cán đồng hƣớng dẫn: TH.S Nguyễn Thành Công Chữ ký: HÀ NỘI – 2016 ii VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Le Xuan Dao OUTLIER DETECTION IN SOCIAL MEDIA BASE ON DATA MINING A THESIS PRESENTED FOR THE DEGREE BACHELOR Department: Information Technology Supervisor: Assoc.Prof Ha Quang Thuy Co-Supervisor: MsC Nguyen Thanh Cong HÀ NỘI – 2016 iii LỜI CẢM ƠN Trƣớc tiên, em xin bày tỏ lòng biết ơn chân thành sâu sắc tới Thầy giáo, Phó Giáo sƣ – Tiến sĩ Hà Quang Thụy anh, Thạc sỹ Nguyễn Thành Công, giám đốc công ty Datasection Vietnam tận tình bảo, hƣớng dẫn, động viên giúp đỡ em suốt trình thực đề tài Em xin đƣợc gửi lời cảm ơn chân thành tới quý thầy cô giáo Khoa Công nghệ thơng tin nói riêng trƣờng Đại học Cơng nghệ - Đại học Quốc Gia Hà Nội nói chung, truyền đạt kiến thức quý báu cho em năm đại học Em xin đƣợc gửi lời cảm ơn tới anh chị công ty Datasection Vietnam hỗ trợ em nhiều trình thực hồn thành đề tài Em xin đƣợc gửi lời cảm ơn tới anh chị, bạn phịng thí nghiệm Cơng nghệ tri thức khoa học liệu KT-Lab giúp em nhiều việc hỗ trợ kiến thức chuyên môn để hồn thành tốt khóa luận Cuối cùng, xin tỏ lịng biết ơn vơ hạn đến bố mẹ cơng ơn sinh thành dƣỡng dục, chăm lo dành trọn tình u thƣơng, ln động viên, ủng hộ đƣờng học tập Tôi xin chân thành cảm ơn ! Hà Nội, ngày 25 tháng 04 năm 2016 Sinh viên Lê Xuân Đạo iv TÓM TẮT Phƣơng tiện xã hội (Social media) hình thành phát triển nhanh chóng (Ví dụ: Facebook, Twitter) cung cấp lƣợng liệu phong phú liên quan đến sản phẩm, thị trƣờng đối thủ cạnh tranh mà hữu ích cho tổ chức, doanh nghiệp Tuy nhiên, nguồn liệu phong phú chứa đựng bất thƣờng mà phần tử liệu có khác biệt lớn so với phần tử khác Phát bất thƣờng từ liệu phƣơng tiện xã hội làm cho liệu thực trở nên hữu ích đƣợc phân tích Đây chủ đề nghiên cứu - triển khai có ý nghĩa nhiều kết nghiên cứu đƣợc công bố nhƣ P Galeano cộng (2006), D J Hill B S Minsker (2010), M Gao cộng (2013, 2014), v.v Khóa luận sâu vào tốn phát bất thƣờng mạng xã hội Facebook Dựa kết nghiên cứu Manish Gupta cộng phát bất thƣờng kỹ thuật phát bất thƣờng cho loại liệu, đặc tính, xu hƣớng [13] Trong khóa luận này, tơi đề xuất mơ hình phát trang mạng xã hội (FanPage) có bất thƣờng mức độ tƣơng tác ngƣời dùng khoảng thời gian, liệu chủ đề Để đánh giá thực nghiệm mơ hình phát bất thƣờng tập liệu Fanpage Facebook, sử dụng tập liệu lớn với 298.000 trang mạng đầu vào, chọn chủ đề có số lƣợng trang mạng thu thập đƣợc 1000 trang Với liệu thực nghiệm 1031 pages chủ đề “Actor”, mơ hình phát 26 pages có giá trị thuộc tính dị thƣờng, khác biệt lớn với trang mạng lại tập liệu Từ khóa: khai phá liệu, bất thường, phát bất thường, phân cụm, phương tiện xã hội, trang mạng xã hội, Facebook, dòng liệu, liệu không-thời gian v ABSTRACT Social media are forming and growing rapidly (eg Facebook, Twitter) have provided ample amount of data relate to products, markets, social and competitors that are very useful for organizations and businesses However, a rich source of data that also contains the outlier (abnormal) where data elements have a big difference compared to other elements Outlier detection from social media data will make it really becomes useful when it be analyzed This is the topic of research and deploy meaningful research results have been published, such as P Galeano et al (2006), DJ Hill and BS Minsker (2010), M Gao et al (2013, 2014), etc In this graduation paper, I would like to intensively study how to detect abnormality on a social media site, Facebook Based on Manish Gupta’s study on the technology to detect abnormalities, characterize and predict the trends of them in every singular datum [13] I propose a model of detecting abnormality on Fanpages which have different levels of user interaction over time in a particular topic To assess empirical model of detecting abnormality in data set on Facebook fanpages, we prefer to use a large dataset input from about 298.0000 pages, and category with number of page is more than 1000pages Category “Actor” with 1031 pages input, the model detected 26 outlier pages which have strongly different character value in people react on Facebook dataset Keyword: Data mining, outlier, outlier detection, data streams, temporal data, spatiotemporal data, Facebook, Fanpage, social media vi LỜI CAM ĐOAN Tôi xin cam đoan kỹ thuật sử dụng việc phát bất thƣờng mạng xã hội đƣợc trình bày khóa luận thực dƣới hƣớng dẫn Thầy, PGS TS Hà Quang Thụy anh, Ths Nguyễn Thành Công Tất tham khảo từ nghiên cứu liên quan đƣợc nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận khơng có việc chép tài liệu tham khảo, cơng trình nghiên cứu mà khơng rõ tài liệu tham khảo Hà Nội, ngày 25 tháng năm 2016 Lê Xuân Đạo vii MỤC LỤC LỜI CẢM ƠN iv TÓM TẮT v ABSTRACT vi LỜI CAM ĐOAN vii DANH SÁCH THUẬT NGỮ x Danh sách bảng xi Danh sách hình vẽ xii MỞ ĐẦU Chƣơng Phát bất thƣờng mạng xã hội 1.1 Bất thƣờng mạng xã hội 1.1.1 Giới thiệu chung 1.1.2 Các loại bất thƣờng 1.2 Các kỹ thuật khai phá liệu sử dụng phát bất thƣờng mạng xã hội 1.2.1 Phân cụm liệu 1.2.2 Độ đo dùng phân cụm 1.2.3 Thuật toán K-means 11 1.3 Phát bất thƣờng 13 1.4 Phát biểu toán 14 1.4.1 Phát bất thƣờng mạng xã hội 16 1.4.2 Những khó khăn thách thức tốn 16 Tóm tắt chƣơng 16 Chƣơng Các mơ hình phát bất thƣờng mạng xã hội dựa khai phá liệu 17 2.1 Phát bất thƣờng tập liệu theo chuỗi thời gian 17 2.1.1 Bất thƣờng sở liệu chuỗi thời gian 17 2.1.2 Bất thƣờng chuỗi thời gian 18 2.2 Phát bất thƣờng dòng liệu 19 2.3 Phát bất thƣờng dòng liệu phân tán 20 2.4 Phát bất thƣờng liệu không-thời gian 22 2.5 Ý tƣởng mơ hình giải toán 23 Tóm tắt chƣơng 23 Chƣơng Mơ hình chi tiết phát bất thƣờng mạng xã hội dựa khai phá liệu 24 viii 3.1 Giới thiệu chung 24 3.1.1 Hệ số tƣơng tác ngƣời dùng trang mạng xã hội 24 3.1.2 Hệ số phát triển trang mạng xã hội theo tháng 26 3.2 Mơ hình phát bất thƣờng đề nghị 27 3.2.1 Trích xuất liệu 28 3.2.2 Tính tốn hệ số phát triển 29 3.2.3 Phát bất thƣờng 30 Tóm tắt chƣơng 31 Chƣơng Thực nghiệm 32 4.1 Giới thiệu chung 32 4.2 Dữ liệu 32 4.2.1 Khai thác liệu 32 4.2.2 Xử lý liệu 34 4.3 Kết thực nghiệm 35 Tóm tắt chƣơng 37 Kết luận 43 Kết đạt đƣợc khóa luận 43 Định hƣớng tƣơng lai 43 Tài liệu tham khảo 45 Tài liệu tiếng Việt 45 Tài liệu tiếng Anh 45 ix DANH SÁCH THUẬT NGỮ Tiếng Anh/từ viết tắt Tiếng Việt/Cụm từ đầy đủ Outlier Điểm bất thƣờng Outlier Detection Phát bất thƣờng Data Dữ liệu Facebook Data Dữ liệu mạng xã hội Facebook Data Mining Khai phá liệu Social Media Phƣơng tiện truyền thông xã hội User Ngƣời dùng Fanpage Trang mạng xã hội Facebook Term Frequency – Inverse Document Tần số xuất – tần số nghịch Frequency / TF-IDF từ văn Data streams Luồng liệu theo thời gian Time series Chuỗi thời gian Distributed Data streams Dữ liệu phân tán Spatio-Temporal Data Dữ liệu không gian thời gian Big Data Dữ liệu khổng lồ Marketing Hoạt động quảng bá truyền thông, tiếp thị sản phẩm, phát triển thƣơng hiệu x Chƣơng Thực nghiệm 4.1 Giới thiệu chung Trong chƣơng giới thiệu mô hình tƣ vấn nhóm tự động bao gồm pha thực nhƣ bƣớc thực pha Trong chƣơng này, thực nghiệm phát bất thƣờng mạng xã hội dựa mơ hình xây dựng chƣơng Phát bất thƣờng tập liệu chủ đề Actor với 1031 pages Tập liệu đƣợc biểu diễn file csv dịng thơng số liệu page gồm có thuộc tính nhƣ: chủ đề, tên page, id page, số đăng, số bình luận, số lƣợt thích, số lƣợt chia sẻ Sau xử lý liệu sơ khai để đƣợc tệp csv có chứa thuộc tính page, ta cần tính tốn hệ số tƣơng tác, đƣợc bổ sung để tăng thêm thuộc tính cho liệu nhằm tăng khả phân cụm mơ hình Trong lần thực nghiệm này, chƣa sử dụng hệ số phát triển làm mình, hệ số phát triển thể qua tháng khơng thể hết đƣợc tính chất thay đổi mặt thời gian liệu, nên cần lƣợng liệu nhiều tháng trƣớc nhƣ tháng 1, tháng 12 năm 2015, tháng 11 năm 2015… Lƣợng liệu lớn, hệ số phát triển trang mạng xã hội phát huy vai trò tốn phát bất thƣờng liệu Tuy nhiên thời gian không cho phép, nên xin thực nghiệm với liệu thể tƣơng tác ngƣời dùng trang mạng xã hội Facebook mà khơng có hệ số phát triển Trong thời gian tới, nghiên cứu tìm hiểu thêm đƣa phần thực nghiệm nhƣ kết mà hệ số phát triển đem lại cho mơ hình 4.2 Dữ liệu 4.2.1 Khai thác liệu Với tập liệu đầu vào 298.000 pages từ cơng ty Datasection Mỗi dịng liệu đƣợc thể chuỗi JSON có nội dung thơng tin cơng khai trang mạng xã hội (hình 4.1) 32 Hình 4.1 Dữ liệu đầu vào công ty Datasection Ta sử dụng thƣ viện Restfb để dựa vào ID thu đƣợc từ tập liệu trên, tiến hành lấy liệu trang mạng Facebook Lấy biến thành phần trang mạng xã hội Facebook là: tổng số post, tổng số like, tổng số share tổng số comment ta đƣợc tập liệu cho vào tệp csv có cột thông tin ID chủ đề (category) page tƣơng ứng (Bảng 4.1) Bảng 4.1 Bảng liệu thành phần cho chủ đề 33 4.2.2 Xử lý liệu Sắp xếp tập liệu theo chủ đề, chọn chủ đề có lƣợng trang mạng xã hội thu thập đƣợc 500 pages Tiếp theo ta tính tốn thơng số liên quan nhƣ tổng số tƣơng tác, hệ số tƣơng tác, hệ số phát triển Bảng 4.2 Tổng số lƣợng tƣơng tác ngƣời dùng với page tháng 3/2016 Bảng 4.3 Bảng thống kê hệ số tƣơng tác trang mạng chủ đề Actor 34 Bảng 4.4 Thống kê hệ số phát triển chủ đề Actor tháng 3-2016 4.3 Kết thực nghiệm Quá trình thực nghiệm sử dụng kỹ thuật phân cụm nhƣ mô tả chi tiết chƣơng Sau xử lý liệu tiến hành phát bất thƣờng tập liệu chủ đề Actor với thuộc tính: tổng số đăng, số lƣợt bình luận, số lƣợt u thích, số lƣợt chia sẻ, hệ số tƣơng tác Ta thu đƣợc trang mạng có phân bố giá trị bất thƣờng nằm cụm có tỷ lệ thấp, nhỏ 3% Sau áp dụng mơ hình, thực kỹ thuật K-means phân cụm với số cụm 3, số lần lặp 200 Ta thu đƣợc kết nhƣ hình 4.2 Kết mơ hình với K=3 nhƣ sau: Cụm (cluster 1): phần tử (0.29%) Cụm (cluster ) : 22 phần tử (2.13%) Cụm (cluster ) : 1006 phần tử (97,58%) 35 Hình 4.2: Kết phân cụm liệu chủ đề Actor (1031 pages) với số cụm k=3 Theo kết cluster1 cluster2 bị nghi ngờ chứa phần tử bất thƣờng tỷ lệ % nhỏ 3% Ta có danh sách phần tử thuộc cụm nhƣ Bảng 4.5 sau Name Songwenvn - Lâm Phong Tùng x Trần Ổn Việt Nam Fanpage Uyển Quỳnh Ŀan - Kingdom Yuen - Nữ hoàng ngây thơ Phƣơng Hinh / Fang Xin/ Daisy 方馨 Hoắc Kiến Hoa & Triệu Lệ Dĩnh - Hoa Lệ VNFC Trang Phi Diễn viên Trung Hiếu Decal4Bike Hà Nội Han Hyo Joo [.VietNam Fan's Club.] Eric Huang Huỳnh Thiếu Kỳ - 黃少祺 - VNFC … Page_ID Cluster 990325167692260 Cluster1 413681695357219 576223025765724 518231941615278 724100217733992 1422408528080690 238837796236998 153022261443138 258861150895552 … Cluster1 Cluster1 Cluster2 Cluster2 Cluster2 Cluster2 Cluster2 Cluster2 … Bảng 4.5 Danh sách trang xã hội bất thƣờng với số cụm K=3 36 Áp dụng mơ hình, thực kỹ thuật K-means phân cụm với số cụm 4, số lần lặp 200 Ta thu đƣợc kết nhƣ hình 4.3 Kết mơ hình với K=4 nhƣ sau: Cụm (cluster 1): phần tử (0.29%) Cụm (cluster 2): 97 phần tử (9.41%) Cụm (cluster 3): 917 phần tử (88.94%) Cụm (cluster 4): 14 phần tử (1.36%) Hình 4.3: Kết phân cụm liệu chủ đề Actor (1031 pages) với số cụm k=4 Theo kết cluster1 cluster4 bị nghi ngờ chứa phần tử bất thƣờng tỷ lệ % nhỏ 3% Ta có danh sách phần tử thuộc cụm nhƣ Bảng 4.6 sau: 37 Name Songwenvn - Lâm Phong Tùng x Trần Ổn Việt Nam Fanpage Uyển Quỳnh Ŀan - Kingdom Yuen - Nữ hoàng ngây thơ, dịu hiỿn Phƣơng Hinh / Fang Xin/ Daisy 方馨 Diễn viên Trung Hiếu Han Hyo Joo [.VietNam Fan's Club.] Chi Pu Vinh Râu Quyen Huynh Ŀặng Siêu | Deng Chao | 邓超 FC Hoài Lâm SaĿéc Hoàng Yến Trần Phan Song Joong Ki Nguyen Le Tuong Vi Trỿn Ŀỿi Bên Nhau … Page_ID Cluster 990325167692260 Cluster1 413681695357219 576223025765724 1422408528080690 153022261443138 1435066040049830 853877677995406 464025706962672 257325007631415 781777448570360 1258666204147700 1544338015783450 1595969503994700 1553725304843260 … Cluster1 Cluster1 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 … Bảng 4.6 Danh sách trang xã hội bất thƣờng với số cụm K=4 Áp dụng mơ hình, thực kỹ thuật K-means phân cụm với số cụm 5, số lần lặp 200 Ta thu đƣợc kết nhƣ hình 4.4 Kết mơ hình với K=5 nhƣ sau: Cụm (cluster 1): phần tử (0.29%) Cụm (cluster 2): 104 phần tử (10.09%) Cụm (cluster 3): 907 phần tử (87.97%) Cụm (cluster 4): 14 phần tử (1.36%) Cụm (cluster 5): phần tử (0.29%) 38 Hình 4.4: Kết phân cụm liệu chủ đề Actor (1031 pages) với số cụm k=5 Theo kết cluster1, cluster4 cluster5 bị nghi ngờ chứa phần tử bất thƣờng tỷ lệ % nhỏ 3% Ta có danh sách phần tử thuộc cụm nhƣ Bảng 4.7 sau Name Songwenvn - Lâm Phong Tùng x Trần Ổn Việt Nam Fanpage Hoắc Kiến Hoa & Triệu Lệ Dĩnh - Hoa Lệ VNFC Trang Phi Diễn viên Trung Hiếu Han Hyo Joo [.VietNam Fan's Club.] Chi Pu Vinh Râu Quyen Huynh Ŀặng Siêu | Deng Chao | 邓超 FC Hoài Lâm SaĿéc … Page_ID Cluster 990325167692260 518231941615278 724100217733992 1422408528080690 153022261443138 1435066040049830 853877677995406 464025706962672 257325007631415 781777448570360 … Cluster1 Cluster5 Cluster5 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 … Bảng 4.7 Danh sách trang xã hội bất thƣờng với số cụm K=5 39 Áp dụng mơ hình, thực kỹ thuật K-means phân cụm với số cụm 6, số lần lặp 200 Ta thu đƣợc kết nhƣ hình 4.5 Kết mơ hình với K=6 nhƣ sau: Cụm (cluster 1): phần tử (0.29%) Cụm (cluster 2): 143 phần tử (13.87%) Cụm (cluster 3): 830 phần tử (80.5%) Cụm (cluster 4): 14 phần tử (1.36%) Cụm (cluster 5): phần tử (0.29%) Cụm (cluster 6): 38 phần tử (3.69%) Hình 4.5: Kết phân cụm liệu chủ đề Actor (1031 pages) với số cụm k=6 Theo kết cluster1, cluster4 cluster5 bị nghi ngờ chứa phần tử bất thƣờng tỷ lệ % nhỏ 3% Ta có danh sách phần tử thuộc cụm nhƣ Bảng 4.8 sau: 40 Name Songwenvn - Lâm Phong Tùng x Trần Ổn Việt Nam Fanpage Hoắc Kiến Hoa & Triệu Lệ Dĩnh - Hoa Lệ VNFC Trang Phi Diễn viên Trung Hiếu Han Hyo Joo [.VietNam Fan's Club.] Chi Pu Vinh Râu Quyen Huynh Ŀặng Siêu | Deng Chao | 邓超 FC Hoài Lâm SaĿéc Hoàng Yến Trần Phan Song Joong Ki Nguyen Le Tuong Vi … Page_ID Cluster 990325167692260 518231941615278 724100217733992 1422408528080690 153022261443138 1435066040049830 853877677995406 464025706962672 257325007631415 781777448570360 1258666204147700 1544338015783450 1595969503994700 … Cluster1 Cluster5 Cluster5 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 Cluster4 … Bảng 4.8 Danh sách trang xã hội bất thƣờng với số cụm K=6 Lấy tập trang page tƣơng ứng với K=3, K=4, K=5, K=6 để đối chiếu Ta đƣợc tập hợp trang mạng bị nghi ngờ điểm dị thƣờng xuất tệp liệu bao gồm 26 trang mạng Qua ta khẳng định, tập 26 pages điểm bất thƣờng mà ta xác định đƣợc thơng qua mơ hình phƣơng pháp phân cụm thuật toán K-means với tập liệu 1031 pages chủ đề Actor 298000 pages mà ta lấy đƣợc Danh sách trang mạng bất thƣờng (Outliers) Name Page_ID Songwenvn - Lâm Phong Tùng x Trần Ổn Việt Nam Fanpage Diễn viên Trung Hiếu Han Hyo Joo [.VietNam Fan's Club.] Chi Pu Vinh Râu Quyen Huynh Ŀặng Siêu | Deng Chao | 邓超 990325167692260 1422408528080690 153022261443138 1435066040049830 853877677995406 464025706962672 257325007631415 781777448570360 1258666204147700 1544338015783450 1595969503994700 1553725304843260 … FC Hoài Lâm SaĿéc Hoàng Yến Trần Phan Song Joong Ki Nguyen Le Tuong Vi Trỿn Ŀỿi Bên Nhau … Bảng 4.9 Danh sách trang mạng bất thƣờng tập liệu chủ đề Actor 41 Tóm tắt chƣơng Trong chƣơng tiến hành thực nghiệm phát bất thƣờng mạng xã hội với tập liệu thông tin trang mạng thuộc chủ đề Actor Tập liệu gồm 1031 pages 298.000 pages lấy đƣợc Qua phân tích kết cho thấy mơ hình đề xuất khóa luận phát 26 bất thƣờng có khác biệt lớn liệu thuộc tính với trang mạng lại tập liệu 42 Kết luận Kết đạt đƣợc khóa luận Trong suốt khóa luận, dựa nghiên cứu Gupta cộng mình, tơi đề xuất mơ hình phát bất thƣờng với tập liệu mạng xã hội áp dụng kỹ thuật khai phá liệu phân cụm, sử dụng thuật toán K-means với độ đo tƣơng đồng cosine Thực nghiệm cho kết liệu có chênh lệch phân bố cụm cách rõ rệt Với tập liệu thực nghiệp chủ đề Actor 1031 pages, thay đổi số cụm kỹ thuật phân cụm, mơ hình phát đƣợc 26 pages có bất thƣờng lƣợng tƣơng tác ngƣời dùng lên trang mạng xã hội Qua việc phát 26 trang mạng xã hội có lƣợng tƣơng tác ngƣời dùng bất thƣờng so với trang mạng khác liệu học có ý nghĩa cho việc phát triển trang mạng facebook, facebook marketing hay việc phân tích liệu tìm kiếm bùng nổ trang mạng v.v… Do hạn chế mặt thời gian, nên khóa luận chƣa tiến hành thực nghiệm đƣợc với hệ số phát triển theo thời gian trang mạng, bên cạnh chƣa tiến hành thực nghiệm kỹ thuật phân cụm với chủ đề khác Việc đƣa số 3% để đánh giá cụm đƣợc nghi ngờ bất thƣờng thiếu tính khách quan chƣa thuyết phục Định hƣớng tƣơng lai Hệ thống phát bất thƣờng mạng xã hội đề xuất cần đƣợc cải tiến kết tốt Trước mắt, tiến hành thử nghiệm mơ hình áp dụng kỹ thuật phân cụm với chủ đề khác để qua so sánh đánh giá cho liệu học sau Xác định xác có sở khoa học rõ ràng đƣợc giá trị biên tỷ lệ phân bố cụm (3%) bị nghi ngờ bất thƣờng Xây dựng thực nghiệm cải tiến mơ hình với hệ số phát triển trang mạng theo thời gian, qua mơ hình phát bất thƣờng theo chiều khác liệu, làm tăng độ phủ khả phát điểm bất thƣờng cho mơ hình Lâu dài, tiến hành xây dựng phần mềm tự động, áp dụng mơ hình phát bất thƣờng mạng xã hội đề xuất, đƣa trang mạng, nhóm cộng đồng Faebook có bất thƣờng lƣợng tƣơng tác độ phát triển so với phần tử khác tập liệu khổng lồ Facebook Qua hình thành liệu 43 học cho ngƣời dùng Facebook sau để học tập đƣợc từ trang mạng xã hội có giá trị bất thƣờng cực đại, hay bất thƣờng mặt tích cực có tƣơng tác cao hay độ phát triển qua tháng tăng nhanh Hoặc học từ trang mạng bất thƣờng cực tiểu, việc trang mạng thất bại, xuống cách nhanh chóng, hay lƣợng tƣơng tác q hồn tồn liệu học quý giá cho ngƣời dùng muốn xây dựng trang mạng hay nhóm cộng đồng cho riêng 44 Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013), “Giáo trình khai phá liệu,” Nhà xuất Đại học Quốc Gia Hà Nội Tài liệu tiếng Anh [2] Angiulli, F and Fassetti, F (2007), “Detecting Distance-based Outliers in Streams of Data.” In Proc of the 16th ACM Conf on Information and Knowledge Management (CIKM), pages 811–820 [3] Basu, S and Meckesheimer, M (2007), “Automatic Outlier Detection for Time Series: An Application to Sensor Data Knowledge and Information Systems Special Issue on Mining Low-Quality Data, 11(2):137–154 [4] Dimitrios Kotzias, Ted Lappas, Dimitrious Gunopulos (2014), “Addressing the Sparsity of Location Information on Twitter,” in Workshop Proceedings of the EDBT/ICDT 2014 Joint Conference [5] Galeano, P., Peña, D., and Tsay, R S (2006), “Outlier Detection in Multivariate Time Series” by Projection Pursuit Journal of the American Statistical Association [6] Gupta, M., Gao, J., Aggarwal, C C., and Han, J (2013), “Tutorial: Outlier Detection for Graph Data.” In Proc of the 2013 Intl Conf on Advances in Social Networks Analysis and Mining [7] Guo-Jun Qi, Charu C.Aggarwal and Thomas S.Huang (2012) “On Clustering Heterogeneous Social Media Objects with Outlier Links” In WSDM’12 45 [8] Hill, D J and Minsker, B S (2010), “Anomaly Detection in Streaming Environmental Sensor Data: A Data-driven Modeling Approach.” Environmental Modelling and Software, 25(9):1014-1022 [9] Katharina Krombholz, Dieter Merkl, Edgar Weippl (2012), “Fake Identities in Social Media: A Case Study on the Sustainability of the Facebook Business Model,” in the society of service science and springer [10] Jagadish, H V., Koudas, N., and Muthukrishnan, S (1999), “Mining Deviants in a Time Series Database” In Proc of the 25th Intl Conf on Very Large Data Bases (VLDB), pages 102–113 [11] Luceno, A.(1998) “Detecting Possibly Non-Consecutive Outliers in Industrial Time Series” Journal of the Royal Statistical Society Series B(Statistical Methodology) [12] Pokrajac, D., Lazarevic, A., and Latecki, L J (2007), “Incremental Local Outlier Detection for Data Streams,” In Proc of the IEEE Symposium on Computational Intelligence and Data Mining [13] Manish Gupta, Jing Gao, Charu Aggarwal, Jiawei Han, “Outlier Detection for Temporal Data,” Synthesis Lecture on Data mining and knowlegde discovery [14] Yamanishi, K and Takeuchi, J.-i (2002), “A Unifying Framework for Detecting Outliers and Change Points from Non-stationary Time Series Data.” In Proc of the 8th ACM Intl Conf on Knowledge Discovery and Data Mining (KDD), pages 676–681 46 ... sau:  phát bất thƣờng tập liệu theo chuỗi thời gian  phát bất thƣờng tập dòng liệu  phát bất thƣờng dòng liệu phân tán  phát bất thƣờng liệu không gian thời gian  phát bất thƣờng liệu đồ thị... dụng vào toán phát bất thƣờng kiểu liệu nhƣ 16 Chƣơng Các mơ hình phát bất thƣờng mạng xã hội dựa khai phá liệu Dữ liệu tồn mạng xã hội dƣới nhiều dạng Đối với kiểu liệu có mơ hình kỹ thuật áp... k phù hợp 12 1.3 Phát bất thƣờng Phát bất thƣờng (Outlier detection) cịn đƣợc phát biểu dƣới nhiều tên tốn khác nhƣ: phát kiện (Event detection), phát lạ (Novelty detection), phát lệch lạc (Deviant

Ngày đăng: 04/11/2020, 23:41

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w