1. Trang chủ
  2. » Luận Văn - Báo Cáo

XÂY DỰNG mô HÌNH PHÁT HIỆN các XU HƯỚNG THÔNG TIN nổi lên TRÊN MẠNG

74 77 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 74
Dung lượng 7,96 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN  TRẦN NGỌC TRÍ XÂY DỰNG MƠ HÌNH PHÁT HIỆN CÁC XU HƯỚNG THƠNG TIN NỔI LÊN TRÊN MẠNG LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60 48 01.01 TP HỒ CHÍ MINH – 2016 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN  TRẦN NGỌC TRÍ XÂY DỰNG MƠ HÌNH PHÁT HIỆN CÁC XU HƯỚNG THÔNG TIN NỔI LÊN TRÊN MẠNG LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60 48 01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Quản Thành Thơ TP HỒ CHÍ MINH – 2016 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc đến PGS TS Quản Thành Thơ Thầy người hướng dẫn luận văn cho tơi Trong q trình thực luận văn, Thầy tận tình hướng dẫn, động viên lúc tơi gặp khó khăn, giúp đỡ nhiều, Thầy cho giải pháp, ý kiến đóng góp quý báu để tơi hồn thành tốt luận văn Tơi xin chân thành cảm ơn Thầy Cô trường Đại Học Công Nghệ Thông Tin thuộc Đại Học Quốc Gia Thành Phố Hồ Chí Minh tận tình giảng dạy cho tơi suốt q trình học Cao Học trường Tơi xin gửi lời cảm ơn gia đình, bạn bè đồng nghiệp nơi làm việc động viên tạo điều kiện thuận lợi giúp tơi hồn thành luận văn Mặc dù cố gắng để hồn thành tốt luận văn phạm vi khả cho phép chắn luận văn không tránh khỏi thiếu sót, kính mong nhận bảo tận tình q Thầy Cơ bạn TP Hồ Chí Minh, tháng 04 năm 2016 Trần Ngọc Trí LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu Các kết nêu luận văn trung thực chưa công bố cơng trình khác Tơi cam đoan tài liệu tham khảo trích dẫn luận văn rõ nguồn gốc khoa học TP Hồ Chí Minh, tháng 04 năm 2016 Tác giả luận văn Trần Ngọc Trí TĨM TẮT Sự phát triển lớn mạnh mạng xã hội thời gian gần đưa đến nhiều hội thách thức cho cơng ty quản lý dòng liệu truyền thông Thông tin chia sẻ mạng xã hội ngày trở nên khổng lồ, khó kiểm sốt phân loại Chính khó khăn thúc đẩy phát triển mạnh mẽ nghiên cứu liên quan đến khai phá liệu mạng xã hội Một hướng nghiên cứu phát triển bật khai phá liệu mạng xã hội phát xu hướng lên Ngày nay, công việc phát xu hướng thông tin lên mạng thật thu hút nhiều quan tâm nhà nghiên cứu Nghiên cứu cung cấp hướng mới: sử dụng phương pháp gom cụm khai phá liệu kết hợp với thông tin thời gian để phát xu hướng lên mạng ABSTRACT The growth of social network in recent years has brought many opportunities and challenges to companies which manage social media data Information shared on social network became bigger and bigger so it’s really not easy to control and classify them But these difficulties have promoted the development of research relatived to data mining in social network, one of them is detection of emerging trends Nowadays, detection trends and emerging information in social network is attracting many researchers This research provides a new approach: using clustering method in data mining combine with temporal information to detect emerging trends in social network MỤC LỤC Chương 1: GIỚI THIỆU 10 1.1 Lý chọn đề tài 10 1.2 Mục tiêu đề tài 11 1.3 Giới thiệu đề tài 11 1.4 Ý nghĩa khoa học 12 1.5 Cấu trúc luận văn 12 Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN 13 2.1 Giới thiệu 13 2.2 Các phương pháp phát xu hướng 14 2.2.1 Phương pháp bán tự động (semi-automatic) 15 2.2.2 Phương pháp tự động (automatic) 16 2.2.3 2.3 Phương pháp phân tích cụm dựa ngữ cảnh 18 Hướng tiếp cận đề tài 18 Chương 3: CƠ SỞ LÝ THUYẾT 20 3.1 Mạng xã hội 20 3.2 Tiền xử lý văn 24 3.3 Vector trọng số tf-idf 26 3.4 Lý thuyết gom cụm 28 3.4.1 Giới thiệu gom cụm 29 3.4.2 Ứng dụng gom cụm liệu 30 3.4.3 Các yêu cầu kỹ thuật gom cụm liệu 31 3.4.4 Một số kỹ thuật gom cụm liệu Error! Bookmark not defined 3.4.4.1 Phương pháp gom cụm theo phân hoạch 33 3.4.4.2 Phương pháp gom cụm theo phân cấp 34 3.4.4.3 Phương pháp gom cụm theo mật độ 35 3.4.4.4 Phương pháp gom cụm lưới 35 3.4.4.5 Phương pháp gom cụm dựa mơ hình 36 3.4.4.6 Phương pháp gom cụm có liệu ràng buộc 37 3.5 Giới thiệu số thuật toán gom cụm 37 3.5.1 Thuật toán gom cụm K-Means 37 3.5.1.1 Ý tưởng 38 3.5.1.2 Thuật toán 38 3.5.1.3 Độ phức tạp thuật toán 38 3.5.1.4 Ưu nhược điểm 38 3.5.2 Gom cụm phân cấp (Hierarchical Clustering) 38 3.5.2.1 Ý tưởng 38 3.5.2.2 Thuật toán 39 3.5.2.3 Độ phức tạp thuật toán 39 3.5.2.4 Ưu nhược điểm 40 3.5.3 Gom cụm mơ hình EM 40 3.5.3.1 Ý tưởng 40 3.5.3.2 Thuật toán 40 3.5.3.3 Ưu nhược điểm 40 3.6 Thuật toán DBSCAN 41 3.7 Phương pháp tính khoảng cách gom cụm 47 3.8 Xây dựng CSDL để lưu trữ thông tin 47 Chương 4: MƠ HÌNH PHÁT HIỆN XU HƯỚNG ĐƯỢC ĐỀ XUẤT 50 4.1 Kiến trúc hệ thống 50 4.2 Dữ liệu đầu vào 50 4.3 Phân đoạn liệu theo thời gian 51 4.4 Tiền xử lý văn Tìm từ khóa quan trọng 52 4.5 Phát xu hướng 53 Chương 5: THỰC NGHIỆM 61 5.1 Kết thí nghiệm Error! Bookmark not defined 5.1.1 Cách xây dựng tập liệu thí nghiệm 63 5.1.2 Kết thí nghiệm 63 5.2 Đánh giá 66 5.3 Kết luận 66 Chương 6: KẾT LUẬN 68 6.1 Tổng kết 68 6.2 Hướng phát triển 69 DANH MỤC CÁC BẢNG Bảng 3.1 – Các mạng xã hội giới phổ biến 22 Bảng 3.2 – Các mạng xã hội Việt Nam phổ biến 23 Bảng 3.3: Biểu diễn vector văn 26 Bảng 4.1: Bảng liệu Posts module thu thập liệu 37 Bảng 4.2: Ví dụ kết sau tách từ Tiếng Việt 38 Bảng 4.3: Bảng liệu Result module phân tích xu hướng 45 Bảng 5.1: Thông tin cấu hình đề nghị để cài đặt hệ thống 47 Bảng 5.2: Kết Tập liệu 48 Bảng 5.3: Kết Tập liệu 50 Kết Facebook trả về: { "data": [ { "url": "http://www.google.com", "normalized_url": "http://www.google.com/", "share_count": 10782740, "like_count": 21691162, "comment_count": 2450901, "total_count": 34924803, "commentsbox_count": 1327, "comments_fbid": "396269740024", "click_count": 265614 } ] } Đánh giá chủ đề bật ❖ Với viết rút trích số lượng tương tác người dùng Facebook tương ứng ❖ Sử dụng Graph API để truy vấn số lượng Like + Comment + Share URL viết 58 ❖ Cụm chủ đề có trọng số cao xếp hạng cao Trọng số tính công thức: Weigh = ∑𝒏𝒊=𝟏 𝐄𝐢 ⁡ Ei tổng số tương tác (Like + Comment + Share) viết thứ i cụm Sau gom cụm viết, tác giả tính tốn trọng số tương tác mạng xã hội cụm Cụm có trọng số tương tác cao xu hướng thông tin mạng Sau đó, lưu kết vào sở liệu Mysql có dạng sau: Tên cột Mơ tả Time_finish Thời gian hồn thành phân tích Keywords Từ khóa đại diện cho chủ đề Engage Trọng số tương tác cụm Rank Thứ hạng cụm Cat Chuyên mục cụm Time_post Thời gian viết Url Đường dẫn viết Bảng 4.3: liệu Result module phân tích xu hướng Mơ hình hệ thống vận hành với bước: Bước 1: Tiến hành quét viết từ đầu báo Bước 2: Làm liệu Bước 3: Biểu diễn văn thành Vector trọng số Tf-idf Bước 4: Chạy DBSCAN để gom cụm 59 Bước 5: Tính tốn trọng số tương tác cụm từ khuyến nghị xu hướng nội dung bùng nổ mạng 60 Chương 5: THỰC NGHIỆM Trong chương tác giả trình bày cách tạo tập liệu thí nghiệm cho hệ thống phát xu hướng, tổng hợp kết từ hệ thống Cuối tiến hành đánh giá độ xác tốc độ hệ thống 5.1 Trình bày hệ thống Hệ thống sử dụng ngôn ngữ lập trình Java Hệ thống vận hành với module xử lý: ✓ Module quét liệu từ đầu báo lớn ✓ Module tiền xử lý văn ✓ Module gom cụm tính trọng số tương tác cụm chủ đề Hệ thống sử dụng kết hợp hệ sở liệu: ✓ Cassandra ✓ Mysql Hệ thống bao gồm bước: • Bước 1: Module quét liệu từ 25 đầu báo lớn Việt Nam • Bước 2: Lưu trữ viết quét vào Cassandra • Bước 3: Module tiền xử lý văn rút liệu thô từ Cassandra xử lý tách từ, loại bỏ Từ dừng, loại bỏ từ vơ nghĩa, v.v… • Bước 4: Cập nhật liệu tiền xử lý vào Cassandra • Bước 5: Module gom cụm tính trọng số tương tác cụm chủ đề rút liệu tiền xử lý từ Cassandra để tiến hành gom cụm tính trọng số tương tác cụm chủ để • Bước 6: Lưu chủ đề trọng số chủ đề vào Mysql 61 Hình 5.1: Bảng kết hệ thống 5.2 Kết thí nghiệm Hệ thống viết Java nên chạy đa tảng: Unix, Linux, Mac Windows Trong trình thử nghiệm, tác giả cho họ thống chạy hệ điều hành Centos, sở liệu cài máy local server khác không chỗ với mã nguồn Thành phần Yêu cầu Hệ điều hành Microsoft Windows cao CPU Core i3 trở lên, hỗ trợ 64 bit RAM Tối thiểu 4GB (Tùy thuộc liệu tải về) Ổ Cứng Tối thiểu 500GB (Tùy thuộc liệu tải về) Mysql Phiên mysql Ver 14.14 Distrib 5.5.48, for Linux JDK JDK 1.8 lớn Eclipse Phần mềm chỉnh sửa mã nguồn Bảng 5.2: Thông tin cấu hình đề nghị để cài đặt hệ thống 62 5.1.1 Cách xây dựng tập liệu thí nghiệm Tập liệu thu thập từ đầu báo điện tử lớn Việt Nam Tác giả chọn tạo tập liệu để so sánh với tập liệu có độ lớnvề thời gian 24 tiếng o Tập liệu thứ lấy chuyên mục Xã Hội từ đầu báo điện tử lớn Việt Nam khoảng thời gian 24h o Tập liệu thứ lấy chuyên mục Thế Giới từ đầu báo điện tử lớn Việt Nam khoảng thời gian 24h Để đánh giá độ xác hệ thống tác giả xác định thủ công trước chủ đề người đầu báo Việt Nam lên nhiều Sau tiến hành chạy hệ thống tập liệu chọn so sánh kết chủ đề lên mà hệ thống phát so với chủ đề xác định trước Đồng thời so sánh kết chạy hai tập liệu Đối với phương pháp gom cụm DBSCAN tác giả đưa vào thông số đầu vào sau: MinPts = 2, eps = 0.18 Khoảng cách sử dụng độ tương tự cosin Tác giả chia tập liệu thành nhiều tập liệu nhỏ độ lớn tăng dần 5.1.2 Kết thí nghiệm Sau chạy hệ thống tập liệu thí nghiệm, tác giả tổng hợp kết sau: Tập Dữ liệu 1: Đầu vào: 400 viết độ rộng thời gian 24 tiếng Kết quả: Số viết Độ xác Thời gian 50 98% 13 giây 100 99% 23 giây 150 98,6% 34 giây 200 97.5% 60 giây 250 98,4% 86 giây 63 300 97,6% 128 giây 350 97,1% 173 giây 400 97,5% 229 giây Bảng 5.2: Kết Tập liệu 99 98 98 97.5 97 97 96.6 96.4 96 95.6 95.8 95 94 94 93 92 13 33 51 72 104 137 194 Hình 5.2: Biểu đồ kết Tập liệu 64 248 Hình 5.3: Kết tập liệu Tập Dữ liệu 2: Đầu vào: 321 viết độ rộng thời gian 24 tiếng Kết quả: Số viết Độ xác Thời gian 50 97% 13 giây 100 98% 33 giây 150 96,6% 51 giây 200 96.5% 72 giây 250 96,4% 104 giây 300 95,6% 137 giây 350 95,1% 194 giây 400 94% 248 giây Bảng 5.3: Kết Tập liệu 65 99 98 98 97.5 97 97 96.6 96.4 96 95.6 95.8 95 94 94 93 92 13 33 51 72 104 137 194 248 Hình 5.4: Biểu đồ kết Tập liệu Hình 5.5: Kết tập liệu 5.3 Đánh giá Dựa vào kết thu thập sau chạy hệ thống liệu thí nghiệm, tác giả tiến hành đánh giá hệ thống tiêu chí độ xác tốc độ: • Về độ xác hệ thống Vậy đánh giá tổng thể toàn tập thí nghiêm kết chạy phương pháp gom cụm tự động phương pháp gom cụm thủ công giống khoảng 90 -95% • Tốc độ Mặc dù Tập liệu có số lượng viết nhiều gấp đôi Tập liệu thời gian xử lý tập liệu gần xấp xỉ 5.4 Kết luận 66 Trong khuôn khổ đề tài kết đánh giá độ xác tốc độ mang tính chất tương đối độ xác hệ thống phụ thuộc vào nhiều giá trị khởi tạo đầu vào 67 Chương 6: KẾT LUẬN 6.1 Tổng kết Các công việc phát xu hướng thông tin lên mạng xã hội thu hút nhiều quan tâm nghiên cứu Kết nghiên cứu có ý nghĩa thật quan trọng việc giúp hiểu tốt mối quan tâm xã hội giúp công ty có chiến lược quảng cáo hiệu Trong hướng tiếp cận nghiên cứu tác giả đưa phương pháp mới, sử dụng phương pháp gom cụm (clustering) khai phá liệu (data mining) kết hợp với thông tin thời gian (temporal information) để phát xu hướng lên mạng xã hội Những mục tiêu đạt nghiên cứu tóm tắt sau: o Xây dựng cơng cụ rút trích liệu Facebook: Profile, Fanpage, Group o Xây dựng thành phần tương tác với sở liệu mạng xã hội, thành phần chia khối lượng liệu lớn mạng xã hội thành nhiều phân đoạn theo thời gian Với cách phân đoạn giúp cho việc thao tác tính tốn tập liệu mạng xã hội cải tiến lớn mặt tốc độ o Xây dựng thành phần tiền xử lý văn bản, đảm nhiệm việc tiền xử lí văn loại bỏ từ dừng (stop-words) lấy từ ghép tiếng Việt o Xây dựng thành phần phát từ khóa quan trọng dùng kỹ thuật vector trọng số tf o Xây dựng thành phần gom cụm từ khóa quan trọng để hình thành nên cụm chủ đề lên Sử dụng phương pháp gom cụm DBSCAN để gom nhóm từ khóa quan trọng tìm bước áp dụng vector trọng số tf o Xây dựng thành phần rút trích lượng tương tác Facebook URL 68 o Xây dựng thành phần xuất kết xu hướng phát hệ thống 6.2 Hướng phát triển Với khối lượng liệu ngày bùng nổ mạng xã hội đặc thù loại hình mạng tương tác trực tuyến này, đề xuất phương pháp tiếp cận kỹ thuật sử dụng để xây dựng hệ thống phát xu hướng lên khuôn khổ nghiên cứu tác giả bước tảng ban đầu Để có kết thu tốt cho hệ thống phát xu hướng xây dựng mạng xã hội, cần cảm nhận thực tế, phân tích đưa nhiều kỹ thuật khác phù hợp cho mạng xã hội, sau tiến hành so sánh kết thực nghiệm để có phương pháp tốt Dựa tinh thần tác giả đề xuất hướng phát triển mở rộng đề tài sau: o Kết hợp phương pháp phân lớp liệu để gắn nhãn tự động nội dung thu thập mạng xã hội vào thể loại cụ thể (Kinh tế, Xã hội, Thế giới, Chính trị, v.v…) nhằm giảm thiểu không gian liệu giảm thời gian xử lý tính tốn o Nghiên cứu mở rộng đánh giá kết thí nghiệm để chọn kỹ thuật tốt làm tăng hiệu thành phần phát từ khóa quan trọng phân đoạn liệu mạng xã hội thành phần tính tốn khoảng cách gom cụm o Kết hợp sử dụng K-mean trước DBSCAN để tăng tốc gom cụm o Kết hợp tính toán song song để xử lý liệu lớn (Spark, Hadoop) 69 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Phan Xuân Hiếu, Hệ phân loại từ Việt, Đề tài cấp nhà nước, 2009 [2] Lê Hồng Phương, Công cụ tách từ Tiếng Việt, Đề tài cấp nhà nước, 2009 Tiếng Anh [3] Erich Schubert, Michael Weiler and Hans-Peter Kriegel SigniTrend: Scalable Detection of Emerging Topics in Textual Streams by Hashed Significance Thresholds KDD '14 Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining Pages: 871880 Publisher: ACM New York, NY, USA ©2014 [4] Duc T Nguyen and Jai E Jung Privacy-Preserving Discovery of Topic- Based Events from Social Sensor Signals: An Experimental Study on Twitter The Scientific World Journal Volume 2014 (2014), Article ID 204785, pages [5] James Benhardus and Jugal Kalita Streaming trend detection in Twitter International Journal of Web Based Communities, List of Issues, Volume 9, Issue 1, 2013, pages 122 - 139 [6] Cuneyt Gurcan Akcora, Murat Ali Bayir and Murat Demirbas Trend sensing via Twitter International Journal of Ad Hoc and Ubiquitous Computing, List of Issues, Volume 14, Issue 1, 2013, pages 16 - 26 [7] Matthew A Russell (2011), Mining the Social Web, O'Reilly Media, 1005 Gravenstein Highway North, Sebastopol [8] Ceren Budak, Divyakant Agrawal and Amr El Abbadi (2011), “Structural Trend Analysis for Online Social Networks”, Proceedings of the VLDB Endowment,Vol 4, (No 10), Pages 646-656 [9] Shiva Prasad Kasiviswanathan, Prem Melville, Arindam Banerjee and Vikas Sindhwani (2011), “Emerging topic detection using dictionary learning” AC New York, NY, USA pages 745-754 70 [10] Mario Cataldi, Luigi Di Caro and Claudio Schifanella (2010), “Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation”, AC New York, NY, USA [11] April Kontostathis, Leon M Galitsky, William M Pottenger, Soma Roy, Daniel J Phelps (2003), “A Survey of Emerging Trend Detection in Textual Data Mining”, A Comprehensive Survey of Text Mining, Springer-Verlag pp 185-224 [12] A Porter and Detampel (1995), “Technology opportunities analysis” , Technological Forecasting and Social Change, vol 49, pp 237-255 [13] L Nowell, R France, D H an L.S Heath, and E A Fox (1996), “Visualizing search results: Some alternatives to query-document similarity”, Proceedings of SI-GIR’96, (Zurich, Switzeland) pages 67-75 [14] G Blank, W Pottenger, G Kessler, M Herr, H Jaffe, S Roy, D Gevry, and Wang (2001), “CI EL: Constructive, collaborative inquiry-based multimedia e-learning”, Proceedings of the 6th Annual Conference on Innovation and Technology in Computer Science Education (ITiCSE), (United Kingdom) page 179 [15] R Bader, M Callahan, D Grim, J Krause, N Miller, and W Pottenger (2001), “The role of the HDDI collection builder in hierarchical distributed dynamic indexing”, Proceedings of the Textmine'01 Workshop, First SIA International Conference on Data Ming [16] W Pottenger and T Yang (2001), “Detecting Emerging Concepts in Textual Data Mining”, Computational Information Retrieval, Philadelphia, USA: SIA pages 89-105 [17] A Popescul, G Flake, S L S., L Ungar, and C Giles (2000), “Clustering and identifying temporal trends in document databases”, IEEE Advances in Digital Libraries, pp 173-182 71 [18] D J R Swan (2003), “Time ines: Constructing timelines with statistical models of word usage”, Proceedings of the 6th AC SIGKDD International Conference on Knowledge Discovery and Data Mining, (Boston, MA, USA) [19] S Havre, E Hetzler, P Whitney, and L Nowell (2002), “Themeriver: Visualizing the-matic changes in large document collection”, IEEE Transactions on Visualization and Computer Graphics, vol 8, no pp - 20 [20] J Allan, R Papka, and V Lavrenko (1998), “On-line new event detection and tracking”, Proceedings of AC SIGIR, pp 37-45 [21] Q.T Tho, A.C.M Fong, S.C Hui, (2007) "A scholarly semantic web system for advanced search functions", Online Information Review, Vol 31 Iss: 3, pp.353 - 364 [22] M Ester, H.P Kriegel, J Sander and X Xu.: A densitybased algorithm for discovering clusters in large spatial databases with noise Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), AAAI Press., 1996, pp 226-231 72 ... HỌC CƠNG NGHỆ THƠNG TIN  TRẦN NGỌC TRÍ XÂY DỰNG MƠ HÌNH PHÁT HIỆN CÁC XU HƯỚNG THƠNG TIN NỔI LÊN TRÊN MẠNG LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60 48 01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC:... phát triển mạnh mẽ nghiên cứu liên quan đến khai phá liệu mạng xã hội Một hướng nghiên cứu phát triển bật khai phá liệu mạng xã hội phát xu hướng lên Ngày nay, công việc phát xu hướng thông tin. .. tài ✓ Trích xu t thơng tin mạng xã hội Facebook đầu báo lớn Việt Nam ✓ Đưa sở lý thuyết hướng tiếp cận từ hình thành nên phương pháp xây dựng hệ thống phát xu hướng lên mạng ✓ Xây dựng hệ thống

Ngày đăng: 23/12/2018, 06:18

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w