Mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt dựa trên thuật toán phân cụm DBSCAN cải tiến

10 15 0
Mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt dựa trên thuật toán phân cụm DBSCAN cải tiến

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết này đề xuất mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt trong một khoảng thời gian dựa trên thuật toán phân cụm DBSCAN cải tiến và cách xác định “độ nóng” của các chủ đề được phân cụm.

Nghiên cứu khoa học cơng nghệ MƠ HÌNH TỰ ĐỘNG PHÁT HIỆN CHỦ ĐỀ NĨNG TRÊN CÁC TRANG THƠNG TIN ĐIỆN TỬ TIẾNG VIỆT DỰA TRÊN THUẬT TOÁN PHÂN CỤM DBSCAN CẢI TIẾN Nguyễn Nhật An*, Cao Đăng Huy Tóm tắt: Hiện nay, với phát triển mạnh mẽ công nghệ thông tin, số lượng thông tin chuyển tải trang thông tin điện tử (báo điện tử, mạng xã hội, blog ) lớn Việc theo dõi thông tin nhằm phát vấn đề mới, nóng (chủ đề nóng) dư luận quan tâm, theo dõi chiều hướng phát triển chúng để dự báo nguy xem quan trọng nhiều lĩnh vực, đặc biệt lĩnh vực an ninh quốc phòng Bài báo đề xuất mơ hình tự động phát chủ đề nóng trang thông tin điện tử tiếng Việt khoảng thời gian dựa thuật toán phân cụm DBSCAN cải tiến cách xác định “độ nóng” chủ đề phân cụm Từ khố: Chủ đề nóng tiếng Việt; Thuật tốn phân cụmDBSCAN cải tiến; “Độ nóng”chủ đề ĐẶT VẤN ĐỀ 1.1 Giới thiệu Với phát triển nhanh chóng cơng nghệ thơng tin, thơng tin kiện xảy đăng tải trang thông tin điện tử Internet trở thành nguồn thông tin quan trọng Theo báo cáo thống kê Bộ Thông tin Truyền thơng, tính đến năm 2016, Việt Nam có số lượng người sử dụng Internet lớn, đạt tỷ lệ khoảnglà 62,76% dân số [1] Số báo điện tử 135, chủ yếu báo điện tử quan báo chí in; Số trang thơng tin điện tử quan báo chí cấp phép 258 [2], ngồi ra, cịn hàng trăm trang tin khơng thống tham gia tổng hợp, truyền tải thông tin mạng Khi có kiện xảy ra, phóng viên viết đăng trang thơng tin điện tử với quan điểm khác nhau, số lượng thơng tin tăng lên nhanh chóng Do vậy, việc phát hiện, phân cụm chủ đề, theo dõi chủ đề nóng cách tự động trở nên cần thiết, giải pháp để xử lý vấn đề tải thông tin Vấn đề nhiều nhà khoa học quan tâm gọi chung toán “Phát theo dõi chủ đề” (Topic Detection and Tracking) [6] 1.2 Các nghiên cứu liên quan Bài toán Phát theo dõi chủ đề (Topic Detection and Tracking) giới thiệu lần vào năm 1996, sau tốn đơng đảo nhà khoa học giới quan tâm nghiên cứu Một số nghiên cứu giải toán dựa đặc trưng văn thuật toán phân cụm [14, 8, 17, 24]; số lại tập trung vào mơ hình ngơn ngữ xác xuất [16, 20, 21, 23, 18, 19] Có thể kể số nghiên cứu gần đây: Khoo đề xuất sử dụng đặc trưng TF-IDF (Term Frequency * Proportional Document Frequency) để tạo vector văn tìm chủ đề quan trọng[7]; Chel dựa ý tưởng Khoo để đề xuất phương pháp phát chủ đề nóng dựa phân tích thời gian mơ hình câu đa chiều [8]; Ruiguo Yu đề xuất phương pháp phát chủ đề nóng dựa phân đoạn Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 125 Công nghệ thông tin thời gian lý thuyết lão hoá [14]; PGS.TS Đỗ Phúc đề xuất mơ hình phát chủ đề nóng mạng xã hội dựa lý thuyết lão hoá [13] Tuy nhiên, cơng trình chủ yếu thực việc phát theo dõi chủ đề tiếng Anh mà chưa có cơng trình nghiên cứu cho tiếng Việt Do vậy, tập trung nghiên cứu, đề xuất mơ hình phát chủ đề nóng trang thơng tin điện tử tiếng Việt xem xét tính hiệu phương pháp đề xuất dựa vào lựa chọn thuật toán phân cụm phù hợp cách xác định “chủ đề nóng” Nghiên cứu chúng tơi giải hai vấn đề chính: Một là, đề xuất sử dụng thuật toán phân cụm DBSCAN cải tiến để tự động phân cụm chủ đề tiếng Việt; hai là, dựa số lượng viết, số lượng trang thông tin điện tử đăng tải, trọng số trang thơng tin điện tử để đánh giá “độ nóng” chủ đề phân cụm Sau đó, tiến hành thử nghiệm tập liệu thu thập đánh giá chúng Bài báo trình bày theo thứ tự sau: Phần trình bày nội dung nghiên cứu; Phần trình bày kết thử nghiệm đánh giá; cuối kết luận trình bày Phần NỘI DUNG CẦN GIẢI QUYẾT 2.1 Mơ hình đề xuất Trang thơng tin điện tử Trang thông tin điện tử Trang thông tin điện tử n Chủ đề nóng Chủ đề Phân cụm văn Chủ đề Tính “độ nóng”, xếp chủ đề theo “độ nóng” Chủ đề m Chủ đề nóng Chủ đề nóng m Hình Mơ hình phát chủ đề nóng Mơ hình phát chủ đề nóng bao gồm hai bước: Bước 1: Phát chủ đề dựa thuật toán phân cụm văn Bước 2: Phát chủ đề nóng cách tính “độ nóng” cho chủ đề xác định bước dựa vào đặc trưng: số văn chủ đề; thời gian xuất hiện;“độ thống” trang thơng tin điện tử (trang thông tin điện tử cấp phép hay trang tin tổng hợp không cấp phép) 2.2 Phát chủ đề 126 N N An, C Đ Huy, “Mô hình tự động phát chủ đề nóng … DBSCAN cải tiến.” Nghiên cứu khoa học công nghệ Mục tiêu phát chủ đề xác định vấn đề liên quan đến trình bày viết Đó tốn phân cụm văn bản, mục đích bải tốn tự động nhóm viết vấn đề vào cụm định Trong nghiên cứu này, lựa chọn thuật toán DBSCAN cải tiến để phân cụm văn bản, thuật toán dựa thuật toán DBSCAN gốc cải tiến cách tự động tính giá trị tham số eps, MinPts dựa thuộc tính thống kê liệu đầu vào Vector hóa văn Để sử dụng thuật tốn DBSCAN cải tiến để phân loại văn bản, ta cần mô hình hóa văn thành vector Cụ thể, ta sử dụng mơ hình Bags of words (word count document representation) Mơ hình biểu diễn văn điểm không gian Euclid m-chiều, chiều tương ứng với từ tập hợp m từ khác tập văn Giá trị thành phần vector tính tính cơng thức TF*IDF Đây công thức giúp đánh giá mức độ quan trọng từ văn tập văn Trong đó: o TF (term frequency) tần số xuất từ văn o IDF (inverse document frequency) tần số nghịch từ tập văn Để giảm chiều vector, bước xây dựng vector cho văn tiếng Việt hư từ bị loại bỏ lại thực từ [3] Mặt khác, thực từ có tần số TF*IDF ngưỡng quy định bị lọc bỏ Việc lọc nhằm lựa thực từ đủ tính chất đặc trưng cho văn bản, loại bỏ thực từ xuất xuất phổ biến tập văn Khoảng cách hai văn độ tương tự hai văn tính độ đo Cosine similary Độ đo Cosinesimilary văn A B xác định công thức sau: ∑ × ( , )= = (1) ‖ ‖‖ ‖ ∑ × ∑ đó: = { ,…, } vector văn A với trọng số TF*IDF từ thứ i văn A; = { ,…, } vector văn B với trọng số TF*IDF từ thứ i văn B Thuật toán DBSCAN Thuật toán DBSCAN gốc dùng phân cụm văn trình bày sau [4]: Cần có tham số quan trọng DBSCAN epsilon (eps) số điểm tối thiểu (MinPts) Thông số eps định nghĩa bán kính khu vực lân cận xung quanh văn (chính điểm khơng gian n chiều) Tham số MinPts số lượng văn lân cận tối thiểu bán kính eps Ứng với eps MinPts cho trước, DBSCAN xác định cụm thông qua bước: 1) Chọn văn thoả mãn điều kiện văn lõi làm văn hạt giống; 2) Tìm văn bảnđến theo mật độ từ văn hạt giống Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 127 Cơng nghệ thơng tin Qua thuật tốn này, ta thấy để thuật tốn hoạt động hiệu phụ thuộc vào yếu tố tham số eps MinPts Trong trường hợp lý tưởng ứng với cụm cần phải xác định thơng số eps MinPts văn thuộc cụm Sau đó, tìm tất văn cho cụm Tuy nhiên, khơng dễ để xác định thơng tin nhanh chóng xác nên DBSCAN sử dụng thông số eps, MinPts cụm có mật độ dày đặc làm thơng số chung cho tất cụm Đối với eps xác định, số văn lõi giảm đáng kể giá trị MinPts lớn Trong trường hợp này, vài văn số cụm có bị loại bỏ Ngược lại, số văn bị đánh giá nhầm thành văn lõi giá trị MinPts nhỏ Mặt khác, giá trị MinPts xác định, số văn trở thành nhiễu cụm bị chia thành vài cụm nhỏ giá trị eps nhỏ Một số nhiễu phân vào cụm khơng xác số cụm rời rạc bị gom lại thành cụm cách khơng xác giá trị eps q lớn Dựa phân tích này, thuật tốn trình bày để ước tính hai tham số eps MinPts cách tối ưu[5] Ý tưởng thuật toán DBSCAN cải tiến tự động tính giá trị tham số eps, MinPts ước tính dựa thuộc tính thống kê liệu Trong trường hợp lý tưởng, ma trận khoảng cách × đưa ra: × ={ ( , )|1 ≤ ≤ , ≤ ≤ } (2) đó: số lượng văn tập văn đầu vào D; hàng cột thành phần thể × ma trận đối xứng khoảng cách tính độ đo cosine văn i j tập văn đầu vào D Xác định thông số eps tối ưu Thơng số eps cho thuật tốn DBSCAN xác đinh tay thông qua thuật tốn Heuristics xác định thơng số eps cho cụm có mật độ dày đặc Thuật tốn dựa quan sát: 1) Gọi Xi khoảng cách văn i văn gần thứ k vùng lân cận Xi văn i chứa k+1 văn (hoặc nhiều k+1văn nhiều văn có khoảng cách đến i) 2) Thay đổi giá trị k không dấn đến thay đổi lớn giá trị Xitrừ kvăn nằm xấp xỉ đường thẳng Chúng ta xác định giá trị thành phần ma trận × , sau xếp theo thứ tự tăng dần theo hàng Sử dụng để thể giá trị × cột thứ i × Với giá trị k cho trước liệu × xếp theo thứ tự tăng dần dẫn đến cột thể khoảng cách từ điểm × p đến điểm gần thứ k Từ đó, sử dụng ước lượng khả tối đa toán học để ước lượng giá trị eps Tức là, eps thu phương pháp tính giá trị trung bình × = 128 ∑ (3) N N An, C Đ Huy, “Mơ hình tự động phát chủ đề nóng … DBSCAN cải tiến.” Nghiên cứu khoa học công nghệ Thực nghiệm cho thấy số lượng cụm có xu hướng ổn định k = chi phí tính tốn lại giảm đáng kể [4,5] Vì vậy, thấy kết phân nhóm tối ưu thời điểm Thuật tốn DBSCAN cải tiến để tìm eps tối ưu tập liệu Mục đích Tìm giá trị tối ưu eps Bộ liệu n văn Input Số lượng k điểm lân cận tối thiểu Output Thông số eps tối ưu cho tập liệu for i=1 to n for j=1 to n tính khoảng cáchgiữa văn i j: (, )= (, ) Thủ tục end for xếp giá trị khoảng cách theo thứ tự tăng dần end for tính eps tối ưu dựa vào liệu khoảng cách tìm Xác định tham số MinPts tối ưu Sau eps tối ưu xác định, ta cần phải ước tính giá trị MinPts Đầu tiên, ta cần tính số lượng văn vùng bán kính eps lân cận với điểm tập liệu điểm Sau đó, tính trung bình giá trị tất liệu này, giá trị MinPts tối ưu = (4) Trong đó, pi số điểm lân cận vùng bán kính eps điểm i 2.3 Phát chủ đề nóng Số lượng tài liệu chủ đề yếu tố quan trọng để đánh giá mức độ nóng, ngồi ra, nguồn trang thông tin điện tử nên xem đóng góp quan trọng cho mức độ nóng chủ đề Chúng cho chủ đề thảo luận nhiều trang thông tin điện tử quan trọng chủ đề thảo luận trang thơng tin điện tử, chủ đề chứa nhiều tài liệu Mặt khác, số ngày đăng tin khoảng thời gian định đóng góp vào mức độ nóng chủ đề Dựa nguyên tắc thuật toán TF-PDF (Term Frequency - Proportional Document Frequency) trình bày số cơng trình nghiên cứu [7,8,22], chúng tơi đề xuất phương pháp tính “độ nóng” chủ đề phân cụm Cụ thể, độ nóng chủ đề T khoảng thời gian ký hiệu ℎ (T) tính sau: ℎ (T) = ⎛ ⎝ × ∑ × ⎞× (5) ⎠ đó: Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 129 Công nghệ thông tin : số trang thông tin điện tử chứa viết xem xét : tổng số chủ đề phân cụm mà chứa viết trang thông tin điện tử thứ i : Là số viết chủ đề T đăng trang thông tin điện tử thứ i : Là số viết trang trang thông tin điện tử thứ i chủ đề thứ j ( ∈ ) : Là tổng số viết trang thông tin điện tử thứ i : Là trọng số trang thông tin điện tử thứ i, = trang thông tin điện tử thứ i trang thông tin điện tử cấp phép (chính thống), = 0.5 trang thông tin điện tửthứ i trang thông tin điện tử không cấp phép, = 0.1 trang thông tin điện tử thứ i trang thông tin điện tử tổng hợp tin tức từ nguồn khác : Là số ngày khác viết chủ đề T : Là số ngày khác tất viết xem xét THỬ NGHIỆM, ĐÁNH GIÁ 3.1 Kho ngữ liệu Kho ngữ liệu thử nghiệm xây dựng dựa việc thu thập liệu khoảng thời gian từ 09/08 – 15/08/2017 từ trang thông tin điện tửBáo Nhân dân, Báo Quân đội nhân dân, Báo Dân trí, Báo Thanh niên, Báo vnexpress, news.zing.vn Chúng tơi chọn khoảng thời gian có số kiện quan trọng lên như: căng thẳng Triều Tiên, trạm thu phí Cai Lậy, bạo lực bang Virginia Hoa Kỳ, bút phê lãnh đạo vào hồ sơ sinh viên Tổng số văn thu thập từ nguồn 131 phân thành 10 cụm chủ đề (bằng phương pháp thủ công người thực hiện) Do đặc điểm riêng tiếng Việt [3], bước tiền xử lý tiếng Việt sử dụng công cụ sau: Sử dụng kỹ thuật tách từ nhóm tác giả [10, 11,12] dùng để tách từ tiếng Việt Sử dụng công cụ vnTagger [15] để gán nhãn từ loại với 18 nhãn Ngồi ra, để nâng cao độ xác, thực từ đồng nghĩa tiêu đề, tóm tắt, nội dung văn thử nghiệm thay từ cách sử dụng từ điển đồng nghĩa tác giả Nguyễn Văn Tu [9] 3.2 Thử nghiệm, đánh giá Trong trình phân cụm giai đoạn đầu tiên,với 131 văn đầu vào chưa phân cụm, sử dụng thuật tốn DBSCAN cải tiến với k=4 [4,5], thuật tốn tính hệ số tối ưu eps = 0,952, MinPts=4 Kết thực phân thành 10 cụm chủ đề, so sánh với 10 cụm chủ đề phân cụm phương pháp thủ công Kết trình bày bảng 1, sử dụng độ đo Precision, Recall, F-score để đánh giá độ xác thuật tốnphân cụm = ( = 130 + ( + ) ) N N An, C Đ Huy, “Mơ hình tự động phát chủ đề nóng … DBSCAN cải tiến.” Nghiên cứu khoa học cơng nghệ = 2× ( × + ) đó: TP: Số lượng thuộc cụm c phân loại xác vào cụm c; FP: Số lượng không thuộc cụm c bị phân loại nhầm vào cụm c; FN: Số lượng thuộc cụm c bị phân loại nhầm vào lớp cụm khác c Bảng Bảng kết phân cụm sử dụng thuật toán DBSCAN cải tiến Số lượng văn T T Tên cụm Căng thẳng Triều Tiên Phản đối trạm thu phí BOT Cai Lậy Thời tiết nắng nóng Bắc Khắc phục hậu trận lũ quét Yên Bái Phê lý lịch sinh viên Ông Đoàn Ngọc Hải xử lý vi phạm lấn chiếm vỉa hè Lao xe vào biểu tình bang Virginia - Mỹ Căng thắng biên giới Trung Quốc Ấn Độ Bé trai bị bỏ rơi trước bệnh viện Sài Gòn Căng thẳng biên 10 giới Campuchia Lào TP FP FN Pre Recall (%) (%) F (%) PP thủ công DBSCAN cải tiến 40 19 19 21 100 47,5 64,4 17 14 14 100 82,4 90,4 16 15 15 100 93,8 96,8 12 8 100 66,7 80,0 9 0 100 100 100 6 100 66,7 80,0 5 100 71,4 83,3 7 0 100 100 100 7 0 100 100 100 6 100 85,7 92,3 Trên sở cụm chủ đề phân, giai đoạn chúng tơi tính “độ nóng” chủ đề Bảng trình bày chủ đề với “độ nóng” chủ đề tính cơng thức (5) Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 131 Công nghệ thông tin Từ bảng 2, thấy chủ đề nóng “Tình hình căng thẳng Triều Tiên”, sau đến chủ đề “Phản đối trạm thu phí BOT Cai Lậy” xảy ngày 05/08/2017 Qua kết trên, thấy chủ đề nóng phát phản ánh kiện diễn khoảng thời gian từ ngày 09 tháng 08 đến ngày 15 tháng 08 năm 2017 Bảng Bảng thống kê 10 chủ đề nóng phát STT Chủ đề “Độ nóng” chủ đề Căng thẳng Triều Tiên 2,017 Phản đối trạm thu phí BOT Cai Lậy 1,624 Thời tiết nắng nóng Bắc 1,393 Khắc phục hậu trận lũ quét Yên Bái 0,746 Phê lý lịch sinh viên 0,591 Ơng Đồn Ngọc Hải xử lý vi phạm lấn chiếm vỉa hè 0,587 Lao xe vào biểu tình bang Virginia - Mỹ 0,562 Căng thắng biên giới Trung Quốc - Ấn Độ 0,535 Bé trai bị bỏ rơi trước bệnh viện Sài Gòn 0,503 10 Căng thẳng biên giới Campuchia - Lào 0,437 KẾT LUẬN Bài báo trình bày mơ hình phát chủ đề nóng trang thông tin điện tử tiếng Việt khoảng thời gian định Nội dung nghiên cứu báo tập trung giải hai vấn đề trọng tâm: - Sử dụng thuật toán phân cụm DBSAN cải tiến sử dụng cách tự động tính giá trị tham số eps, MinPts dựa thuộc tính thống kê liệu đầu vào - Xác định “độ nóng” chủ đề dựa số tiêu chí: số lượng viết, độ quan trọng trang thông tin điện tử, Kết thử nghiệm 131 văn thu thập từ trang báo điện tử khác thời gian tuầncho thấy mơ hình đề xuất đưa chủ đề nóng phản ánh kiện thực tế diễn giới Lời cảm ơn: Tác giả cảm ơn tài trợ kinh phí đề tài mã số CNN-2017 cấp Viện Khoa học Công nghệ quân TÀI LIỆU THAM KHẢO [1] Bộ Thông tin Truyền thông, “Báo cáo tổng kết công tác năm 2016 phương hướng, nhiệm vụ năm 2017”, (2016) [2] Bộ Thông tin Truyền thông, “Hội nghị báo chí tồn quốc triển khai nhiệm vụ năm 2017”, Cổng thông tin điện tử - Bộ Thông tin Truyền thông (2017) [3] Diệp Quang Ban, “Ngữ Pháp Tiếng Việt”, NXB giáo dục (2008) 132 N N An, C Đ Huy, “Mơ hình tự động phát chủ đề nóng … DBSCAN cải tiến.” Nghiên cứu khoa học cơng nghệ [4] Ester, M., H P Kriegel, J Sander, and X Xu, “A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise”, Conference on Knowledge Discovery and Data Mining, Portland, OR, AAAI Press, (1996), pp 226-231 [5] Hongfang Zhou,Peng Wang,Hongyan Li “Research on Adaptive Parameters Determination in DBSCAN Algorithm”, Journal of Information & Computational Science, (2012), 9(7): 1967-1973 [6] J Allan, “Introduction to topic detection and tracking”, Springer US, (2002) [7] K K Bun and M Ishizuka, “Topic extraction from news archive using TF*PDF algorithm”, Proceedings of the Third International Conference on Web Information Systems Engineering, Singapore, (2002), pp 73-73 [8] K Y Chen, L Luesukprasert and S Chou, “Hot topic extraction based on timeline analysis and multidimensional sentence modeling”, IEEE Transactions on Knowledge and Data Engineering, (2007), pp 1016-1025 [9] Nguyễn Văn Tu, “Từ điển đồng nghĩa Tiếng Việt”, NXB giáo dục (2001) [10] Nguyễn Nhật An, Trần Ngọc Anh, Phan Thị Nguyệt Hoa, “Kỹ thuật Voting tốn tách từ tiếng Việt”, Tạp chí Nghiên cứu Khoa học & Công nghệ Quân sự, Đặc san CNTT 04/2014, (2014), tr.54-61 [11] Ngoc Anh Tran, Thanh Tinh Dao, Phuong Thai Nguyen, "An Effective Context-based Method for Vietnamese Word Segmentation", Proceedings of the First International Workshop on Vietnamese Language and Speech Processing (VLSP 2012), pp.34-40, In Conjunction with 9th IEEE-RIVF Conference on Computing and Communication Technologies (RIVF 2012) [12] Ngoc Anh Tran, Thanh Tinh Dao, Phuong Thai Nguyen, "Identifying Coordinated Compound Words for Vietnamese Word Segmentation", Proceedings of the Fifth International Conference of Soft Computing and Pattern Recognition (SoCPaR 2013) [13] Thanh Ho, Duy Doan, Phuc Do, “Discovering Hot topic on Social Net work based on Improving the aging theory” Advances in Computer Science: An international Journal: Volume 3, Issue 3, (4/2014), ISSN: 2322-5157 [14] Ruiguo Yu, Xiaodong Xie, Yongxing Li,Mankun Zhao, “Online Hot Topic Detection Based on Segmented Timeline and Aging Theory”, SERSC, International Journal of Hybrid Information Technology , Vol (2016), p 247-258 [15] VLSP project, Vietnamese Language Processing, http://vlsp.vietlp.org [16] X Guo, Y Xiang, Q Chen, Z Huang and Y Hao, “LDA-based online topic detection using tensor factorization”, Journal of Information Science, (2013) [17] XU Hui-jie, CAI Wan-dong, CHEN Gui-rong, "A Fast Method to Detect Hot Topic from BBS", International Conference on Advanced Information and Communication Technology for Education (ICAICTE 2013) [18] Xianwen Wang and Zhichao Fang, "Detecting and Tracking The Real-time Hot Topics - A Study on Computational Neuroscience", (STI2016) [19] Xi Ding, Lanshan Zhang, Ye Tian, Xiangyang Gong and Wendong Wang (2015), "Dynamic Topic Detection Model by Fusing Sentiment Polarity", Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 133 Công nghệ thông tin Proceedings of the 38th Australasian Computer Science Conference (ACSC 2015), Sydney, Australia [20] Y Zhuang, “An improved TFIDF algorithm in electronic information feature extraction based on document position”, Advances in Mechanical and Electronic Engineering, (2012), pp 449-454 [21] Y Chen, H Amiri, Z Li and T Chua, “Emerging topic detection for organizations from microblogs”, Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval, Dublin, Ireland, (2013), pp 43-52 [22] Ye, H-M and Cheng, W 'Design and implementation of on-line hot topic discovery model', Wuhan University Journal of Natural Sciences; Vol 11, (2006), p 21-26 [23] Yonghui Wu, Yuxin Ding, Xiaolong Wang and Jun Xu, "On-line Hot Topic Recommendation Using Tolerance Rough Set Based Topic Clustering", Journal of Computers, Vol 5, No 4, (April 2010) [24] Yuexin Sun, Huifang Ma, Meihuizi Jia, Wang Peiqing, "An Efficient Microblog Hot Topic Detection Algorithm Based on Two Stage Clustering", 8th International Conference on Intelligent Information Processing (IIP), Oct 2014, Hangzhou, China Springer, IFIP Advances in Information and Communication Technology, AICT-432, (2014), pp.90-95 ABSTRACT MODEL HOT TOPIC DETECTION ON VIETNAMESE WEBSITE BASED ON IMPROVED DBSCAN CLUSTERING ALGORITHM Currently, with the rapid development of information technology, the amount of information is transmitted on the websites (online newspapers, social networks, blogs, etc.) as large The tracking information to detect new, hot issues (hot topics) is public attention, monitoring their development trends to forecast the risk is very important in many fields, especially in security and defense This article proposes the model to detect hot topics on Vietnamese websites in a period of time based on the improved DBSCAN algorithm and how to determine the "hotness" of clustered topics Keywords: Detecting Vietnamese hot topics; Improving DBSCAN clustering algorithm; “Hotness of topics” Nhận ngày 16 tháng năm 2017 Hoàn thiện ngày 26 tháng 11 năm 2017 Chấp nhận đăng ngày 28 tháng 11 năm 2017 Địa chỉ: Viện Công nghệ Thông tin, Viện KHCNQS * Email: nguyennhatan@gmail.com 134 N N An, C Đ Huy, “Mơ hình tự động phát chủ đề nóng … DBSCAN cải tiến.” ... Mơ hình đề xuất Trang thông tin điện tử Trang thông tin điện tử Trang thông tin điện tử n Chủ đề nóng Chủ đề Phân cụm văn Chủ đề Tính “độ nóng? ??, xếp chủ đề theo “độ nóng? ?? Chủ đề m Chủ đề nóng Chủ. .. Chủ đề nóng m Hình Mơ hình phát chủ đề nóng Mơ hình phát chủ đề nóng bao gồm hai bước: Bước 1: Phát chủ đề dựa thuật toán phân cụm văn Bước 2: Phát chủ đề nóng cách tính “độ nóng? ?? cho chủ đề xác... tiến để tự động phân cụm chủ đề tiếng Việt; hai là, dựa số lượng viết, số lượng trang thông tin điện tử đăng tải, trọng số trang thông tin điện tử để đánh giá “độ nóng? ?? chủ đề phân cụm Sau đó,

Ngày đăng: 21/05/2021, 12:42

Tài liệu cùng người dùng

Tài liệu liên quan