Mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt dựa trên thuật toán phân cụm DBSCAN cải tiến

7 11 0
Mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt dựa trên thuật toán phân cụm DBSCAN cải tiến

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài báo này đề xuất mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt trong một khoảng thời gian dựa trên thuật toán phân cụm DBSCAN cải tiến [r]

(1)

MƠ HÌNH TỰ ĐỘNG PHÁT HIỆN CHỦ ĐỀ NĨNG TRÊN CÁC TRANG THƠNG TIN ĐIỆN TỬ TIẾNG VIỆT DỰA TRÊN THUẬT

TOÁN PHÂN CỤM DBSCAN CẢI TIẾN

Nguyễn Nhật An*, Cao Đăng Huy

Tóm tắt: Hiện nay, với phát triển mạnh mẽ công nghệ thông tin, số lượng thông tin chuyển tải trang thông tin điện tử (báo điện tử, mạng xã hội, blog ) lớn Việc theo dõi thông tin nhằm phát vấn đề mới, nóng (chủ đề nóng) dư luận quan tâm, theo dõi chiều hướng phát triển chúng để dự báo nguy xem quan trọng nhiều lĩnh vực, đặc biệt lĩnh vực an ninh quốc phịng Bài báo đề xuất mơ hình tự động phát chủ đề nóng trang thông tin điện tử tiếng Việt khoảng thời gian dựa thuật toán phân cụm DBSCAN cải tiến cách xác định “độ nóng” chủ đề phân cụm

Từ khoá: Chủ đề nóng tiếng Việt; Thuật tốn phân cụmDBSCAN cải tiến; “Độ nóng”chủ đề

1 ĐẶT VẤN ĐỀ 1.1 Giới thiệu

Với phát triển nhanh chóng cơng nghệ thơng tin, thơng tin kiện xảy đăng tải trang thông tin điện tử Internet trở thành nguồn thông tin quan trọng Theo báo cáo thống kê Bộ Thơng tin Truyền thơng, tính đến năm 2016, Việt Nam có số lượng người sử dụng Internet lớn, đạt tỷ lệ khoảnglà 62,76% dân số [1] Số báo điện tử 135, chủ yếu báo điện tử quan báo chí in; Số trang thông tin điện tử quan báo chí cấp phép 258 [2], ngồi ra, cịn hàng trăm trang tin khơng thống tham gia tổng hợp, truyền tải thơng tin mạng Khi có kiện xảy ra, phóng viên viết đăng trang thông tin điện tử với quan điểm khác nhau, số lượng thơng tin tăng lên nhanh chóng Do vậy, việc phát hiện, phân cụm chủ đề, theo dõi chủ đề nóng cách tự động trở nên cần thiết, giải pháp để xử lý vấn đề tải thông tin Vấn đề nhiều nhà khoa học quan tâm gọi chung toán “Phát theo dõi chủ đề” (Topic Detection and Tracking) [6]

1.2 Các nghiên cứu liên quan

(2)

thời gian lý thuyết lão hoá [14]; PGS.TS Đỗ Phúc đề xuất mơ hình phát chủ đề nóng mạng xã hội dựa lý thuyết lão hố [13]

Tuy nhiên, cơng trình chủ yếu thực việc phát theo dõi chủ đề tiếng Anh mà chưa có cơng trình nghiên cứu cho tiếng Việt Do vậy, chúng tơi tập trung nghiên cứu, đề xuất mơ hình phát chủ đề nóng trang thơng tin điện tử tiếng Việt xem xét tính hiệu phương pháp đề xuất dựa vào lựa chọn thuật toán phân cụm phù hợp cách xác định “chủ đề nóng”

Nghiên cứu chúng tơi giải hai vấn đề chính: Một là, đề xuất sử dụng thuật toán phân cụm DBSCAN cải tiến để tự động phân cụm chủ đề tiếng Việt; hai là, dựa số lượng viết, số lượng trang thông tin điện tử đăng tải, trọng số trang thông tin điện tử để đánh giá “độ nóng” chủ đề phân cụm Sau đó, chúng tơi tiến hành thử nghiệm tập liệu thu thập đánh giá chúng

Bài báo trình bày theo thứ tự sau: Phần trình bày nội dung nghiên cứu; Phần trình bày kết thử nghiệm đánh giá; cuối kết luận trình bày Phần

2 NỘI DUNG CẦN GIẢI QUYẾT 2.1 Mơ hình đề xuất

Hình 1. Mơ hình phát chủ đề nóng.

Mơ hình phát chủ đề nóng bao gồm hai bước:

Bước 1: Phát chủ đề dựa thuật toán phân cụm văn

Bước 2: Phát chủ đề nóng cách tính “độ nóng” cho chủ đề xác định bước dựa vào đặc trưng: số văn chủ đề; thời gian xuất hiện;“độ thống” trang thơng tin điện tử (trang thông tin điện tử cấp phép hay trang tin tổng hợp không cấp phép)

2.2 Phát chủ đề

Trang thông tin điện tử

Trang thông tin điện tử

Trang thông tin điện tử n

Phân cụm văn

Chủ đề

Chủ đề

Chủ đề m

Tính “độ nóng”, xếp chủ đề theo “độ

nóng”

Chủ đề nóng

Chủ đề nóng

(3)

Mục tiêu phát chủ đề xác định vấn đề liên quan đến trình bày viết Đó tốn phân cụm văn bản, mục đích bải tốn tự động nhóm viết vấn đề vào cụm định Trong nghiên cứu này, chúng tơi lựa chọn thuật tốn DBSCAN cải tiến để phân cụm văn bản, thuật toán dựa thuật toán DBSCAN gốc cải tiến cách tự động tính giá trị tham số eps, MinPts dựa thuộc tính thống kê liệu đầu vào

Vector hóa văn

Để sử dụng thuật toán DBSCAN cải tiến để phân loại văn bản, ta cần mơ hình hóa văn thành vector Cụ thể, ta sử dụng mô hình Bags of words (word count document representation) Mơ hình biểu diễn văn điểm không gian Euclid m-chiều, chiều tương ứng với từ tập hợp m

từ khác tập văn Giá trị thành phần vector tính tính cơng thức TF*IDF Đây công thức giúp đánh giá mức độ quan trọng từ văn tập văn Trong đó:

o TF (term frequency) tần số xuất từ văn

o IDF (inverse document frequency) tần số nghịch từ tập văn Để giảm chiều vector, bước xây dựng vector cho văn tiếng Việt hư từ bị loại bỏ lại thực từ [3] Mặt khác, thực từ có tần số TF*IDF ngưỡng quy định bị lọc bỏ Việc lọc nhằm lựa thực từ đủ tính chất đặc trưng cho văn bản, loại bỏ thực từ xuất xuất phổ biến tập văn

Khoảng cách hai văn độ tương tự hai văn tính độ đo Cosine similary Độ đo Cosinesimilary văn A B xác định công thức sau:

( , ) =

‖ ‖‖ ‖=

∑ ×

∑ × ∑ (1)

trong đó:

= { , … , } vector văn A với trọng số TF*IDF từ thứ i văn A;

= { , … , } vector văn B với trọng số TF*IDF từ thứ i của văn B

Thuật toán DBSCAN

Thuật toán DBSCAN gốc dùng phân cụm văn trình bày sau [4]: Cần có tham số quan trọng DBSCAN epsilon (eps) số điểm tối thiểu (MinPts) Thơng số eps định nghĩa bán kính khu vực lân cận xung quanh văn (chính điểm không gian n chiều) Tham số MinPts số lượng văn lân cận tối thiểu bán kính eps Ứng với eps MinPts cho trước, DBSCAN xác định cụm thông qua bước:

(4)

Qua thuật tốn này, ta thấy để thuật toán hoạt động hiệu phụ thuộc vào yếu tố tham số eps MinPts Trong trường hợp lý tưởng ứng với cụm cần phải xác định thông số eps MinPts văn thuộc cụm Sau đó, tìm tất văn cho cụm Tuy nhiên, khơng dễ để xác định thơng tin nhanh chóng xác nên DBSCAN sử dụng thơng số eps, MinPts cụm có mật độ dày đặc làm thơng số chung cho tất cụm

Đối với eps xác định, số văn lõi giảm đáng kể giá trị MinPts

lớn Trong trường hợp này, vài văn số cụm có bị loại bỏ Ngược lại, số văn bị đánh giá nhầm thành văn lõi giá trị

MinPts nhỏ Mặt khác, giá trị MinPts xác định, số văn trở thành nhiễu cụm bị chia thành vài cụm nhỏ giá trị eps

quá nhỏ Một số nhiễu phân vào cụm khơng xác số cụm rời rạc bị gom lại thành cụm cách khơng xác giá trị eps q lớn Dựa phân tích này, thuật tốn trình bày để ước tính hai tham số eps MinPts cách tối ưu[5]

Ý tưởng thuật tốn DBSCAN cải tiến tự động tính giá trị tham số

eps, MinPts ước tính dựa thuộc tính thống kê liệu Trong trường hợp lý tưởng, ma trận khoảng cách × đưa ra:

× = { ( , )|1 ≤ ≤ , ≤ ≤ } (2)

trong đó:

- số lượng văn tập văn đầu vào D;

- × ma trận đối xứng hàng cột thành phần thể khoảng cách tính độ đo cosine văn i j tập văn đầu vào D.

Xác định thông số eps tối ưu

Thông số eps cho thuật tốn DBSCAN xác đinh tay thơng qua thuật tốn Heuristics xác định thơng số eps cho cụm có mật độ dày đặc Thuật toán dựa quan sát:

1) Gọi Xi khoảng cách văn i văn gần thứ k vùng lân cận Xi của văn i chứa k+1 văn (hoặc nhiều k+1văn nhiều văn có khoảng cách đến i)

2) Thay đổi giá trị k không dấn đến thay đổi lớn giá trị Xitrừ kvăn nằm xấp xỉ đường thẳng

Chúng ta xác định giá trị thành phần ma trận × , sau xếp theo thứ tự tăng dần theo hàng Sử dụng × để thể giá trị cột thứ i × Với giá trị k cho trước liệu × xếp theo thứ tự tăng dần dẫn đến × cột thể khoảng cách từ điểm

p đến điểm gần thứ k Từ đó, sử dụng ước lượng khả tối đa toán học để ước lượng giá trị eps Tức là, eps thu phương pháp tính giá trị trung bình ×

(5)

Thực nghiệm cho thấy số lượng cụm có xu hướng ổn định k = và chi phí tính tốn lại giảm đáng kể [4,5] Vì vậy, thấy kết phân nhóm tối ưu thời điểm

Thuật toán DBSCAN cải tiến để tìm eps tối ưu tập liệu

Mục đích Tìm giá trị tối ưu eps

Input Bộ liệu n văn

Số lượng k điểm lân cận tối thiểu Output Thông số eps tối ưu cho tập liệu

Thủ tục

for i=1 to n

for j=1 to n

tính khoảng cáchgiữa văn i j:

( , ) = ( , )

end for

xếp giá trị khoảng cách theo thứ tự tăng dần end for

tính eps tối ưu dựa vào liệu khoảng cách tìm Xác định tham số MinPts tối ưu

Sau eps tối ưu xác định, ta cần phải ước tính giá trị MinPts Đầu tiên, ta cần tính số lượng văn vùng bán kính eps lân cận với điểm tập liệu điểm Sau đó, tính trung bình giá trị tất liệu này, giá trị MinPts tối ưu

= (4)

Trong đó, pi số điểm lân cận vùng bán kính eps điểm i

2.3 Phát chủ đề nóng

Số lượng tài liệu chủ đề yếu tố quan trọng để đánh giá mức độ nóng, ngồi ra, nguồn trang thông tin điện tử nên xem đóng góp quan trọng cho mức độ nóng chủ đề Chúng tơi cho chủ đề thảo luận nhiều trang thông tin điện tử quan trọng chủ đề thảo luận trang thơng tin điện tử, chủ đề chứa nhiều tài liệu Mặt khác, số ngày đăng tin khoảng thời gian định đóng góp vào mức độ nóng chủ đề

Dựa nguyên tắc thuật toán TF-PDF (Term Frequency - Proportional Document Frequency) trình bày số cơng trình nghiên cứu [7,8,22], chúng tơi đề xuất phương pháp tính “độ nóng” chủ đề phân cụm Cụ thể, độ nóng chủ đề T khoảng thời gian ký hiệu

ℎ (T) tính sau:

ℎ (T) =

⎝ ⎛

× ×

⎞ × (5)

(6)

: số trang thông tin điện tử chứa viết xem xét

: tổng số chủ đề phân cụm mà chứa viết trang thông tin điện tử thứ i

: Là số viết chủ đề T đăng trang thông tin điện tử thứ i

: Là số viết trang trang thông tin điện tử thứ i chủ đề thứ j

( ∈ )

: Là tổng số viết trang thông tin điện tử thứ i

: Là trọng số trang thông tin điện tử thứ i, = trang thông tin điện tử thứ i trang thông tin điện tử cấp phép (chính thống), = 0.5 trang thông tin điện tửthứ i trang thông tin điện tử không cấp phép, = 0.1 trang thông tin điện tử thứ i trang thông tin điện tử tổng hợp tin tức từ nguồn khác

: Là số ngày khác viết chủ đề T

: Là số ngày khác tất viết xem xét

3 THỬ NGHIỆM, ĐÁNH GIÁ 3.1 Kho ngữ liệu

Kho ngữ liệu thử nghiệm xây dựng dựa việc thu thập liệu khoảng thời gian từ 09/08 – 15/08/2017 từ trang thông tin điện tửBáo Nhân dân, Báo Quân đội nhân dân, Báo Dân trí, Báo Thanh niên, Báo vnexpress, news.zing.vn Chúng chọn khoảng thời gian có số kiện quan trọng lên như: căng thẳng Triều Tiên, trạm thu phí Cai Lậy, bạo lực bang Virginia Hoa Kỳ, bút phê lãnh đạo vào hồ sơ sinh viên Tổng số văn thu thập từ nguồn 131 phân thành 10 cụm chủ đề (bằng phương pháp thủ công người thực hiện)

Do đặc điểm riêng tiếng Việt [3], bước tiền xử lý tiếng Việt sử dụng công cụ sau:

Sử dụng kỹ thuật tách từ nhóm tác giả [10, 11,12] dùng để tách từ tiếng Việt Sử dụng công cụ vnTagger [15] để gán nhãn từ loại với 18 nhãn

Ngồi ra, để nâng cao độ xác, thực từ đồng nghĩa tiêu đề, tóm tắt, nội dung văn thử nghiệm thay từ cách sử dụng từ điển đồng nghĩa tác giả Nguyễn Văn Tu [9]

3.2 Thử nghiệm, đánh giá

Trong trình phân cụm giai đoạn đầu tiên,với 131 văn đầu vào chưa phân cụm, chúng tơi sử dụng thuật tốn DBSCAN cải tiến với k=4 [4,5], thuật tốn tính hệ số tối ưu eps = 0,952, MinPts=4 Kết thực phân thành 10 cụm chủ đề, so sánh với 10 cụm chủ đề phân cụm phương pháp thủ cơng Kết trình bày bảng 1, chúng tơi sử dụng độ đo Precision, Recall, F-score để đánh giá độ xác thuật toánphân cụm

=

( + )

=

(7)

=2 × ×

( + )

trong đó:

TP: Số lượng thuộc cụm c phân loại xác vào cụm c; FP: Số lượng không thuộc cụm c bị phân loại nhầm vào cụm c; FN: Số lượng thuộc cụm c bị phân loại nhầm vào lớp cụm khác c

Bảng 1. Bảng kết phân cụm sử dụng thuật toán DBSCAN cải tiến

T

T Tên cụm

Số lượng văn

TP FP FN Pre

(%)

Recall (%)

F (%) PP

thủ công

DBSCAN cải tiến Căng thẳng Triều

Tiên 40 19 19 21 100 47,5 64,4

2 Phản đối trạm thu

phí BOT Cai Lậy 17 14 14 100 82,4 90,4 Thời tiết nắng

nóng Bắc 16 15 15 100 93,8 96,8

Khắc phục hậu trận lũ quét Yên Bái

12 8 100 66,7 80,0

5 Phê lý lịch sinh

viên 9 0 100 100 100

6

Ơng Đồn Ngọc Hải xử lý vi phạm lấn chiếm vỉa hè

9 6 100 66,7 80,0

7

Lao xe vào biểu tình bang Virginia - Mỹ

7 5 100 71,4 83,3

8

Căng thắng biên giới Trung Quốc - Ấn Độ

7 7 0 100 100 100

9

Bé trai bị bỏ rơi trước bệnh viện Sài Gòn

7 7 0 100 100 100

10

Căng thẳng biên giới Campuchia - Lào

7 6 100 85,7 92,3

Ngày đăng: 01/04/2021, 12:24

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan