BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - TRỊNH CÔNG MINH QUÂN XÂY DỰNG HỆ THỐNG PHÁT HIỆN NHỮNG XU HƯỚNG NỔI LÊN TRÊN MẠNG XÃ HỘI SỬ DỤNG TIẾNG VIỆT LUẬN VĂN THẠC SĨ Chuyên ngành : Công Nghệ Thơng Tin Mã số ngành: 06480201 TP HỒ CHÍ MINH, tháng 10 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - TRỊNH CÔNG MINH QUÂN XÂY DỰNG HỆ THỐNG PHÁT HIỆN NHỮNG XU HƯỚNG NỔI LÊN TRÊN MẠNG XÃ HỘI SỬ DỤNG TIẾNG VIỆT LUẬN VĂN THẠC SĨ Chuyên ngành : Công Nghệ Thông Tin Mã số ngành: 06480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TS QUẢN THÀNH THƠ TP HỒ CHÍ MINH, tháng 10 năm 2015 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học : PGS.TS Quản Thành Thơ Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 17 tháng 10 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: Họ tên Chức danh Hội đồng TS Võ Đình Bảy Chủ tịch PGS.TSKH Nguyễn Xuân Huy Phản biện TS Trần Đức Khánh Phản biện TS Lư Nhật Vinh Ủy viên TS Nguyễn Thị Thúy Loan Ủy viên, Thư ký TT Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 03 tháng 04 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Trịnh Công Minh Quân Giới tính:Nam Ngày, tháng, năm sinh: 26/01/1990 Nơi sinh:An Giang Chuyên ngành: Công nghệ thông tin MSHV:1341860049 I- Tên đề tài: Xây dựng hệ thống phát xu hướng lên mạng xã hội sử dụng tiếng Việt II- Nhiệm vụ nội dung: Đưa sở lý thuyết hướng tiếp cận từ hình thành nên phương pháp xây dựng hệ thống phát xu hướng lên mạng xã hội Trong đề tài này, tập trung xây dựng mơ hình phát xu hướng dựa vào tập liệu sở liệu thu thập từ mạng xã hội sử dụng ngôn ngữ tiếng Việt III- Ngày giao nhiệm vụ: 03/04/2015 IV- Ngày hoàn thành nhiệm vụ: 17/09/2015 V- Cán hướng dẫn: PGS.TS Quản Thành Thơ CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) PGS.TS Quản Thành Thơ KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Trịnh Công inh uân ii LỜI CÁM ƠN Tôi xin gửi lời cảm ơn chân thành sâu sắc đến PGS TS Quản Thành Thơ, Thầy tận tình hướng dẫn tơi suốt q trình thực đề cương luận văn cao học, tạo điều kiện để tơi hồn thành tốt luận văn Tôi xin gửi lời biết ơn chân thành đến Thầy Cô khoa công nghệ thông tin trường Đại Học Công Nghệ TPHCM Các Thầy Cô tận tình dạy, trang bị cho tơi kiến thức quý báu suốt thời gian học cao học trường Tôi xin gửi lời cảm ơn gia đình, bạn bè đồng nghiệp nơi tơi làm việc động viên tạo điều kiện thuận lợi giúp tơi hồn thành luận văn Mặc dù cố gắng để hồn thành tốt luận văn phạm vi khả cho phép chắn luận văn không tránh khỏi thiếu sót, kính mong nhận bảo tận tình q Thầy Cơ bạn Tp HC , ngày 03 tháng 04 năm 2015 Học viên Trịnh Cơng Minh Qn iii TĨM TẮT Sự phát triển lớn mạnh mạng xã hội thời gian gần đưa đến nhiều hội thách thức cho cơng ty quản lý dịng liệu truyền thông Thông tin chia sẻ mạng xã hội ngày trở nên khổng lồ, khó kiểm sốt phân loại Chính khó khăn thúc đẩy phát triển mạnh mẽ nghiên cứu liên quan đến khai phá liệu mạng xã hội Một hướng nghiên cứu phát triển bật khai phá liệu mạng xã hội phát xu hướng lên Các công việc phát xu hướng thông tin lên mạng xã hội thật thu hút nhiều quan tâm nhà nghiên cứu Nghiên cứu cung cấp hướng mới: sử dụng phương pháp gom cụm khai phá liệu kết hợp với thông tin thời gian để phát xu hướng lên mạng xã hội iv ABSTRACT The growth of social network in recently years has brought many opportunities and challenges to the companies which manage social media data Information shared on social network became bigger and bigger so it’s really not easy to control and classify them But these difficulties have promoted the development of research relative to data mining in social network, one of them is detection of emerging trends Nowadays, detection trends and emerging information in social network is attracting many researchers This research provides a new approach: using clustering method in data mining combine with temporal information to detect emerging trends in social network v Mục Lục LỜI CA ĐOAN i LỜI CÁ ƠN ii TÓM TẮT iii ABSTRACT iv DANH MỤC HÌNH ẢNH vii DANH MỤC BẢNG viii Chương 1: GIỚI THIỆU .1 1.1 Lý chọn đề tài 1.2 ục tiêu đề tài 1.3 Giới thiệu đề tài 1.4 Cấu trúc luận văn Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Giới thiệu: 2.2 Các phương pháp phát xu hướng: 2.2.1 Phương pháp bán tự động (semi-automatic) 2.2.2 Phương pháp tự động (automatic) 2.2.3 Phương pháp phân tích cụm dựa ngữ cảnh 10 Chương 3: CƠ SỞ LÝ THUYẾT 11 3.1 Tiền xử lý văn 11 3.2 Vector trọng số tf-idf 12 3.3 Thuật toán k-means 14 3.4 Thuật toán HAC 16 3.6 Phương pháp tính khoảng cách gom cụm 22 3.6.1 Giới thiệu link-strength correlation 22 3.6.2 Kết hợp link-strength correlation để tính khoảng cách 23 Chương 4: 4.1 Ơ HÌNH PHÁT HIỆN XU HƯỚNG ĐƯỢC ĐỀ XUẤT 26 Kiến trúc hệ thống 26 vi 4.1.1 Dữ liệu đầu vào: 27 4.1.2 Phân đoạn liệu theo thời gian 28 4.1.3 Tiền xử lý văn Tìm từ khóa quan trọng 29 4.1.4 Phát xu hướng: 30 Chương 5: THỰC NGHIỆM 33 5.1 Kết thí nghiệm 33 5.1.1 Cách xây dựng tập liệu thí nghiệm 33 5.1.2 Kết thí nghiệm 33 5.2 Đánh giá 36 Chương 6: KẾT LUẬN .37 6.1 Tổng kết 37 6.2 Hướng phát triển 38 TÀI LIỆU THAM KHẢO 39 27 4.1.1 Dữ liệu đầu vào: Lưu trữ liệu đầu vào hệ thống giá trị sau tín tốn Sơ đồ quan hệ sau mơ tả cấu trúc sở liệu: class DB tfidf_threshold «column» *PK id threshold intervalsid «PK» + PK_tfidf_threshold() «unique» + UQ_tfidf_threshold_id() 1 w ord «column» *PK id word intervalsid «PK» + PK_word() «unique» + UQ_word_id() entries interv als * «column» *PK id * datefrom dateto + + interv als_entries UQ_intervals_id() PK_intervals() * «column» *PK id * intervalid entriesid * «column» *PK id title content posttime «PK» + PK_intervals_entries() «PK» + PK_entries() «unique» + UQ_intervals_entries_id() «unique» + UQ_entries_id() * v ectorspace linkstrength «column» *PK id name weight check_delete intervalsid «PK» + PK_vectorspace() «unique» + UQ_vectorspace_id() «column» *PK id linkstrength vectorspaceid * «PK» + PK_linkstrength() «unique» + UQ_linkstrength_id() Hình 4.1.2: Sơ đồ sở liệu quan hệ hệ thống Bảng entries: lưu trữ liệu đầu vào hệ thống viết người dùng đăng Bảng intervals: lưu trữ phân đoạn thời gian sau tính tốn từ entries Bảng intervals_entries: cho biết intervals gồm có viết 28 Bảng tfidf_threshold: sau tính tốn giá trị tf-idf intervals Ngưỡng tf-idf chúng lưu trữ bảng để thay đổi ngưỡng cho phù hợp Bảng word: lưu trữ từ cắt sau trình xử lý tf-idf Bảng vectorspace: lưu trữ từ trọng số sau q trình xử lý tf-idf Bảng linkstrength: lưu trữ giá trị ma trận linkstrength vectorspace 4.1.2 Phân đoạn liệu theo thời gian Hướng tiếp cận đề tài hệ thống phân đoạn liệu mạng xã hội thành nhiều phân đoạn (interval) theo thời gian, số lượng phân đoạn thời gian phụ thuộc vào độ lớn thời gian phân đoạn, liệu mạng xã hội cập nhật thường xuyên nên chọn độ lớn thời gian cho phân đoạn ngày giá trị điều chỉnh chạy thực nghiệm hệ thống Tuy nhiên vấn đề gặp phải phân đoạn liệu mạng xã hội thành phân đoạn theo thời gian độ lớn phân đoạn (độ lớn thời gian) mang giá trị tương đối, dẫn đến khả bỏ sót số từ khóa quan trọng bị chia cắt hai hay nhiều phân đoạn liên tiếp Ta xét ví dụ đơn giản bên dưới: Giả sử hệ thống thu thập liệu mạng xã hội ngày (từ ngày đến ngày 8), từ khóa “A” xuất ngày liên tiếp ngày 4, ngày ngày Giả định hệ thống phân đoạn liệu thành phân đoạn, tức phân đoạn ngày quy định từ xuất nhiều lần phân đoạn coi từ khóa quan trọng (trend word) Bảng 4.1.1: Phân đoạn liệu mạng xã hội Interval Ngày Dữ liệu Interval A A A 29 Từ khóa “A” xuất phân đoạn thứ với tần suất phân đoạn thứ hai với tần suất 2, rõ ràng với cách phân đoạn hệ thống khơng tìm trend word “A” cho dù “A” trend word theo quy định Để khắc phục vấn đề đưa ý tưởng phân đoạn mạng xã hội nhiều phân đoạn theo thời gian phân đoạn phải phủ lên (overlap) khoảng thời gian Tiếp tục xét ví dụ lần hệ thống phân đoạn mạng xã hội với phân đoạn ngày phân đoạn có ngày bắt đầu phủ lên ngày, hệ thống có phân đoạn [1→4], [2→5], [3→6], [4→7], … Với kết phân phân đoạn từ khóa “A” xuất với tần suất lần phân đoạn [4→7] hệ thống xác định trend word “A” phân đoạn từ ngày đến ngày 4.1.3 Tiền xử lý văn Tìm từ khóa quan trọng Các chức tiền xử lý văn tìm từ khóa quan trọng mơ tả sơ đồ sau: Hình 4.1.3: Sơ đồ sơ đồ mô tả chức similarity module scoring module 30 Từ hình phân đoạn liệu theo thời gian Khi click vào nút tìm từ khóa quan trọng hệ thống gọi controller SelectKeyWordController Controller gọi VectorProcessingService để tiến hành xử lý Trước tiên hệ thống tách từ phân đoạn, lấy từ ghép, loại bỏ stop words thêm vào sở liệu Sau tiến hành tính trọng số tf-idf cho từ intervals trả kết controller Controller gọi trang KeyWord để hiển thị kết hình 4.1.4 Phát xu hướng: Dựa từ khóa quan trọng tìm hệ thống bắt đầu thực gom nhóm từ khóa liên quan Sơ đồ sau trình tương tác hệ thống trình gom cụm: Hình 4.1.4: Sơ đồ sơ đồ mơ tả chức Trend detection 31 Từ hình từ khóa quan trọng nhấn vào nút gom cụm liệu hệ thống gọi controller ClusteringController controller gọi KmeanClustering để tiến hành xử lý Sau tạo không gian vector thêm vào sở liệu hệ thống tiến tính tốn linkstrength Kế tiếp, hệ thống tiến hành gom nhóm sử dụng thuật tốn kmeans trả kết cho controller Controller sử dụng kết kmeans để tạo ma trận khoảng cách HacClustering tiến hành gom nhóm thuật tốn HAC Cuối cùng, kết hiển thị hình Clustering Dưới trình bày giải thuật kết hợp thuật toán k-means HAC: Input: Danh sách từ khóa quan trọng Lp = {p1,…, pn} với pi từ khóa Output: danh sách cụm HAC Lhac_cluster với hac_cluster chứa danh sách từ khóa Process: 1: begin 2: Lhac_cluster ← Ø 3: Lk-means_cluster ← Ø 4: Apply k-means algorithm on Lp 5: Lk-means_cluster ← result of k-means algorithm on Lp 6: for each k-means_cluster ci {c1,…, cn} in Lk-means_cluster 7: L i_hac_cluster ← Apply HAC algorithm on ci 8: Merge L i_hac_cluster to Lhac_cluster 9: end for 10: end 32 Kết hệ thống bị ảnh hưởng cách chọn hệ số k chọn tâm phù hợp bước gom cụm thuật tốn k-means Hiện chưa có giải pháp xem tốt tính khoa học để chọn hệ số k Thông thường để chọn hệ số k phù hợp với hệ thống, thực tế người ta hay sử dụng phương pháp sau: Thử hệ thống với giá trị k, từ chọn k cho kết phân cụm tốt Hệ thống phát xu hướng mạng xã hội chọn hệ số k theo phương pháp Tham khảo ý kiến chuyên gia Thông thường chuyên gia lĩnh vực có nhìn (ban đầu) liệu cần phân cụm đề xuất giá trị cho hệ số k 33 Chương 5: THỰC NGHIỆM Trong chương chúng tơi trình bày cách tạo tập liệu thí nghiệm cho hệ thống phát xu hướng, tổng hợp kết từ hệ thống Cuối tiến hành đánh giá độ xác tốc độ hệ thống 5.1 Kết thí nghiệm 5.1.1 Cách xây dựng tập liệu thí nghiệm Tập liệu thu thập từ cộng đồng tin tức 24h mạng xã hội facebook chọn tạo tập liệu nhỏ với tập liệu có độ lớn thời gian tháng Để đánh giá độ xác hệ thống xác định thủ công trước chủ đề người dùng bàn luận nhiều tập liệu Sau tiến hành chạy hệ thống tập liệu chọn so sánh kết chủ đề lên mà hệ thống phát so với chủ đề xác định trước Đồng thời so sánh kết chạy hai phương pháp Để đánh giá tốc độ tiến hành chạy độc lập đo tốc độ hai phương pháp: - Phương pháp 1: Chỉ chạy độc lập phương pháp gom cụm HAC cho bước gom nhóm chủ đề - Phương pháp 2: Kết hợp hai phương pháp gom cụm k-means HAC cho bước gom nhóm chủ đề 5.1.2 Kết thí nghiệm Sau chạy hệ thống tập liệu thí nghiệm, chúng tơi tổng hợp kết sau: Bảng 5.1.2.1 So sánh kết thời gian chạy hai phương pháp gom cụm Độ lớn HAC - Kmeans HAC 214 từ mili giây 10 mili giây 460 từ mili giây mili giây 34 740 từ 22 mili giây 31 mili giây 992 từ 81 mili giây 110 mili giây Tập Dữ liệu 1: Đầu vào: 214 từ độ rộng thời gian tháng Kết quả: Bảng 5.1.2.1 So sánh kết chạy hai phương pháp gom cụm với tập liệu Kmeans-HAC HAC [U23 - VN - HLV - Miura - công [U23 - VN - HLV - Miura - công phượng] phượng] [Pháp - Airbus - A320 - rơi - máy bay - [Pháp - Airbus - A320 - rơi - máy bay đâm - phó] đâm - phó] [nạn nhân - Formosa - tử vong - sập - [nạn nhân - Formosa - tử vong - sập giàn giáo] giàn giáo] Tập Dữ liệu 2: Đầu vào: 460 từ độ rộng thời gian tháng Kết quả: Bảng 5.1.2.2 So sánh kết chạy hai phương pháp gom cụm với tập liệu Kmeans-HAC HAC [chị ve chai - giấy tờ - bà - triệu - Yên - [Yên - giấy tờ - bà - chị ve chai - triệu Ngọt] Ngọt] [xúc động - qua đời - vợ - người - [duy nhân - xúc động - vợ - qua đời] nhân] [Nepal - VN - động đất] [người - VN - Nepal - động đất] [thiếu nữ - sàm sỡ - công viên nước] [sàm sỡ - công viên nước - thiếu nữ] 35 Tập Dữ liệu 3: Đầu vào: 740 từ độ rộng thời gian tháng Kết quả: Bảng 5.1.2.3 So sánh kết chạy hai phương pháp gom cụm với tập liệu Kmeans-HAC [scandal - MC - nguy kịch] HAC [nguy kịch - MC] [hé lộ - gây án - người - nghi phạm - [hung thủ - nghệ an - thảm sát - bình khai - 10 - lên tiếng - - thảm sát - phước- gây án - người - người - lộ nhà - gia đình - bình phước - nghệ - nghi phạm – khai - ai- 10 - lên tiếng an - thủ - người chết] ngơi nhà - gia đình] [lịch sử - - lũ - quảng ninh - nhấn [quảng ninh - - lũ - lịch sử] chìm] Tập Dữ liệu 4: Đầu vào: 992 từ độ rộng thời gian tháng Kết quả: Bảng 5.1.2.4 So sánh kết chạy hai phương pháp gom cụm với tập liệu Kmeans-HAC HAC [ánh viên - giành - Singapore - kình [giành - HCV- ánh viên - kình ngư ngư - HCV] Singapore -] [dài - 2.000 - phim - bá đạo - tập - cô [phim - cô dâu - 2.000- dài - bá đạo dâu] tập] [U23 - indonesia - sea games - trực tiếp [sea games - trực tiếp - U23 - việt nam - việt nam] indonesia] [tức tưởi - bạn trai - chết - mạng - tung [nữ sinh - chết - tức tưởi - bạn trai - 15 - nữ sinh - sex] mạng - tung - 15 - sex] 36 [ ỹ - hợp pháp hóa - nhân - đồng [ ỹ - hợp pháp hóa - nhân - đồng giới - thức - cộng đồng - LGBT] giới - thức - cộng đồng - LGBT] [đầu - trọc - thái lan - tuấn hưng - cạo - [thái lan - tuấn hưng - đầu - trọc - cạo mr đàm - tin nhắn - quang lê] mr đàm - tin nhắn - quang lê] 5.2 Đánh giá Dựa vào kết thu thập sau chạy hệ thống liệu thí nghiệm, chúng tơi tiến hành đánh giá hệ thống tiêu chí độ xác tốc độ: Về độ xác hệ thống Vậy đánh giá tổng thể tồn tập thí nghiêm kết chạy hai phương pháp gom cụm giống khoảng 90 -95% Tốc độ So sánh tốc độ phương pháp - chạy độc lập thuật toán gom cụm HAC phương pháp - kết hợp k-means HAC thí nghiệm trình bày trên, tốc độ phương pháp (phương pháp kết hợp) nhanh gấp khoảng 2.2 lần phương pháp Kết luận Trong khuôn khổ đề tài kết đánh giá độ xác tốc độ mang tính chất tương đối độ xác hệ thống phụ thuộc vào nhiều giá trị khởi tạo đầu vào cách chọn hệ số k tiến hành thuật toán k-means điều kiện dừng thuật toán HAC Đối với tốc độ, thuật tốn k-means có độ phức tạp thấp O(t*k*n) với t k nhỏ so với n thuật toán HAC trường hợp tổng quát có độ phức tạp lớn O(n3) tập liệu lớn, tức giá trị n lớn tối ưu tốc độ phương pháp kết hợp thể rõ nét 37 Chương 6: KẾT LUẬN 6.1 Tổng kết Các công việc phát xu hướng thông tin lên mạng xã hội thu hút nhiều quan tâm nghiên cứu Kết nghiên cứu có ý nghĩa thật quan trọng việc giúp hiểu tốt mối quan tâm xã hội giúp cơng ty có chiến lược quảng cáo hiệu Trong hướng tiếp cận nghiên cứu đưa phương pháp mới, sử dụng phương pháp gom cụm (clustering) khai phá liệu (data mining) kết hợp với thông tin thời gian (temporal information) để phát xu hướng lên mạng xã hội Những mục tiêu đạt nghiên cứu tóm tắt sau: Xây dựng thành phần tương tác với sở liệu mạng xã hội, thành phần chia khối lượng liệu lớn mạng xã hội thành nhiều phân đoạn theo thời gian Với cách phân đoạn giúp cho việc thao tác tính tốn tập liệu mạng xã hội cải tiến lớn mặt tốc độ Xây dựng thành phần tiền xử lý văn bản, đảm nhiệm việc tiền xử lí văn loại bỏ từ dừng (stop-words) lấy từ ghép tiếng Việt Xây dựng thành phần phát từ khóa quan trọng dùng kỹ thuật vector trọng số tf Xây dựng thành phần gom cụm từ khóa quan trọng để hình thành nên cụm chủ đề lên Kết hợp hai phương pháp gom cụm k-means HAC để gom nhóm từ khóa quan trọng tìm bước áp dụng vector trọng số tf Áp dụng thuật toán k-means để làm giảm khơng gian tốn bước đầu tiên, sau tiếp tục áp dụng phương pháp HAC cụm kết bước k-means Xây dựng thành phần xuất kết xu hướng phát hệ thống 38 6.2 Hướng phát triển Với khối lượng liệu ngày bùng nổ mạng xã hội đặc thù loại hình mạng tương tác trực tuyến này, đề xuất phương pháp tiếp cận kỹ thuật sử dụng để xây dựng hệ thống phát xu hướng lên khuôn khổ nghiên cứu bước tảng ban đầu Để có kết thu tốt cho hệ thống phát xu hướng xây dựng mạng xã hội, cần cảm nhận thực tế, phân tích đưa nhiều kỹ thuật khác phù hợp cho mạng xã hội, sau tiến hành so sánh kết thực nghiệm để có phương pháp tốt Dựa tinh thần chúng tơi đề xuất hướng phát triển mở rộng đề tài sau: Nghiên cứu mở rộng đánh giá kết thí nghiệm để chọn kỹ thuật tốt làm tăng hiệu thành phần phát từ khóa quan trọng phân đoạn liệu mạng xã hội thành phần tính toán khoảng cách gom cụm 39 TÀI LIỆU THAM KHẢO [11] A Porter and Detampel (1995), “Technology opportunities analysis” , Technological Forecasting and Social Change, vol 49, pp 237-255 [16] A Popescul, G Flake, S L S., L Ungar, and C Giles (2000), “Clustering and identifying temporal trends in document databases”, IEEE Advances in Digital Libraries, pp 173-182 [7] Ceren Budak, Divyakant Agrawal and Amr El Abbadi (2011), “Structural Trend Analysis for Online Social Networks”, Proceedings of the VLDB Endowment,Vol 4, (No 10), Pages 646-656 [5] Cuneyt Gurcan Akcora, Murat Ali Bayir and Murat Demirbas Trend sensing via Twitter International Journal of Ad Hoc and Ubiquitous Computing, List of Issues, Volume 14, Issue 1, 2013, pages 16 - 26 [17] D J R Swan (2003), “Time ines: Constructing timelines with statistical models of word usage”, Proceedings of the 6th AC SIGKDD International Conference on Knowledge Discovery and Data Mining, (Boston, MA, USA) [3] Duc T Nguyen and Jai E Jung Privacy-Preserving Discovery of Topic-Based Events from Social Sensor Signals: An Experimental Study on Twitter The Scientific World Journal Volume 2014 (2014), Article ID 204785, pages [13] G Blank, W Pottenger, G Kessler, M Herr, H Jaffe, S Roy, D Gevry, and Wang (2001), “CI EL: Constructive, collaborative inquiry-based multimedia e-learning”, Proceedings of the 6th Annual Conference on Innovation and Technology in Computer Science Education (ITiCSE), (United Kingdom) page 179 [2] Erich Schubert, Michael Weiler and Hans-Peter Kriegel SigniTrend: Scalable Detection of Emerging Topics in Textual Streams by Hashed Significance Thresholds KDD '14 Proceedings of the 20th ACM SIGKDD international 40 conference on Knowledge discovery and data mining Pages: 871-880 Publisher: ACM New York, NY, USA ©2014 [4] James Benhardus and Jugal Kalita Streaming trend detection in Twitter International Journal of Web Based Communities, List of Issues, Volume 9, Issue 1, 2013, pages 122 - 139 [19] J Allan, R Papka, and V Lavrenko (1998), “On-line new event detection and tracking”, Proceedings of AC SIGIR, pp 37-45 [12] L Nowell, R France, D H an L.S Heath, and E A Fox (1996), “Visualizing search results: Some alternatives to query-document similarity”, Proceedings of SIGIR’96, (Zurich, Switzeland) pages 67-75 [9] ario Cataldi, Luigi Di Caro and Claudio Schifanella (2010), “Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation”, AC New York, NY, USA [6] Matthew A Russell (2011), Mining the Social Web, O'Reilly Media, 1005 Gravenstein Highway North, Sebastopol [20] T Tho, A.C Fong, S.C Hui, (2007) “A scholarly semantic web system for advanced search functions”, Online Information Review, Vol 31 No.3, pp.353 364 [14] R Bader, M Callahan, D Grim, J Krause, N Miller, and W Pottenger (2001), “The role of the HDDI collection builder in hierarchical distributed dynamic indexing”, Proceedings of the Textmine'01 Workshop, First SIA International Conference on Data Ming [18] S Havre, E Hetzler, P Whitney, and L Nowell (2002), “Themeriver: Visualizing the-matic changes in large document collection”, IEEE Transactions on Visualization and Computer Graphics, vol 8, no pp - 20 [8] Shiva Prasad Kasiviswanathan, Prem Melville, Arindam Banerjee and Vikas Sindhwani (2011), “Emerging topic detection using dictionary learning” AC New York, NY, USA pages 745-754 41 [10] W P S R D P A Kontostathis, L Galitsky (2003), “A Survey of Emerging Trend Detection in Textual Data ining”, A Comprehensive Survey of Text Mining, Springer-Verlag pp 185-224 [15] W Pottenger and T Yang (2001), “Detecting Emerging Concepts in Textual Data ining”, Computational Information Retrieval, Philadelphia, USA: SIA pages 89-105 [1] http://wearesocial.net/tag/vietnam/ [21] http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer ... pháp xây dựng hệ thống phát xu hướng lên mạng xã hội Trong đề tài này, tơi tập trung xây dựng mơ hình phát xu hướng dựa vào tập liệu sở liệu thu thập từ mạng xã hội sử dụng ngôn ngữ tiếng Việt. .. phương pháp hướng tiếp cận đề tài Chương 3: Trình bày sở lý thuyết sử dụng để xây dựng hệ thống phát xu hướng lên mạng xã hội Chương 4: Trình bày chi tiết hệ thống phát xu hướng lên mạng xã hội Chương... HỌC CÔNG NGHỆ TP HCM - TRỊNH CÔNG MINH QUÂN XÂY DỰNG HỆ THỐNG PHÁT HIỆN NHỮNG XU HƯỚNG NỔI LÊN TRÊN MẠNG XÃ HỘI SỬ DỤNG TIẾNG VIỆT LUẬN VĂN THẠC SĨ Chuyên ngành : Công Nghệ Thông Tin