Nhằm đáp ứng yêu cầu của bài toán gom cụm động, luận án sử dụng thuật toán Incremental DBSCAN [31], thuật toán xử lý các đối tượng dữ liệu tuần tự, gán động các đối tượng dữ liệu vào các cụm tương ứng trong khi xử lý. Với một hàm tính khoảng cách thích hợp, Incremental DBSCAN có thể áp dụng hiệu quả trên cơ sở dữ liệu bất kỳ. Thuật toán này dựa trên thuật toán DBSCAN [30] – thuật toán gom cụm dựa trên mật độ. Một trong các ưu điểm của Incremental DBSCAN là không cần xác định trước số cụm cần tìm. Bên cạnh đó, do dựa trên mật độ nên ảnh hưởng của quá trình thêm hay bớt các đối tượng chỉ tác động đến các vùng lân cận của các đối tượng này. Thuật toán này ít chịu ảnh hưởng bởi các đối tượng nhiễu (hay cá biệt), trong khi nhiễu là đặc điểm phổ biến của văn bản. Ngoài ra, chất lượng gom cụm không phụ thuộc vào thứ tự thêm các đối tượng. Như vậy, Incremental DBSCAN là phương pháp hiệu quả để gom cụm văn bản dựa trên độ tương tự giữa các cặp văn bản.
Mặc dù Incremental DBSCAN cho kết quả gom cụm tốt, nhưng thuật toán có khuynh hướng gộp các cụm ít kết nối với nhau thành một cụm lớn. Với mục tiêu hạn chế vấn đề này, luận án cải tiến thuật toán Incremental DBSCAN bằng cách kiểm tra mật độ của các cụm này trước khi gộp lại. Tiếp theo, luận án sẽ trình bày khái niệm
X là tập đặc trưng của các văn bản đã gom cụm
1.Khi có văn bản mới d xuất hiện, thực hiện:
2. Gom cụm động cho d dựa trên X. //sử dụng thuật toán gom cụm động
3. ifcó sự thay đổi về cụm
4. Tính lại trọng số cho tất cả các từ theo công thức IG(4.5)
5. Giữ lại N từ có trọng số cao nhất làm tập đặc trưng mới, được tập đặc trưng mới Y
Định nghĩa 4.4: Lân cận bán kính Eps của một đối tượng
Lân cận bán kính Eps của một đối tượng p trong tập dữ liệu D, ký hiệu là NEps(p) được định nghĩa như sau [30]:
( , )
)
(p q D dist p q Eps
NEps (4.6)
Định nghĩa 4.5: Đối tượng nòng cốt
Đối tượng nòng cốt là đối tượng có số lượng đối tượng trong vùng lân cận bán kính Eps lớn hơn hay bằng ngưỡng MinPts[30].
Có thể biểu diễn định nghĩa trên bởi công thức:
p là đối tượng nòng cốt Card(NEps(p)) ≥ MinPts (4.7)
Định nghĩa 4.6: Tập đối tượng bị ảnh hưởng khi chèn thêm đối tượng
Gọi D là một tập các đối tượng và p là một đối tượng được chèn thêm. Tập đối tượng bị ảnh hưởng khi chèn p vào (ký hiệu là UpdSeedIns) được định nghĩa như sau
[31]:
UpdSeedIns = {q | q là đối tượng nòng cốt trong D∪{p}, ∃q‟: q‟ là đối tượng nòng cốt trong D∪{p} nhưng không phải trong D và q ∈NEps(q‟)}
Các đối tượng q chính là các đối tượng cần phải cập nhật lại thông tin. Khi chèn mới một đối tượng p vào tập dữ liệu, các liên thông về mật độ mới có thể được hình thành và không có liên thông nào bị mất đi. Trong trường hợp này, quá trình gom cụm chỉ hạn chế trên tập UpdSeedIns. Nếu phải thay đổi quan hệ thành viên cụm của một đối tượng từ cụm Ci sang cụm Cj, chúng ta thực hiện thay đổi tương tự cho tất cả các đối tượng khác trong cụm Ci.
Khi chèn một đối tượng p vào cơ sở dữ liệu D và cập nhật UpdSeedInscó thể xảy ra một số các trường hợp sau [31]:
(1) Lạc loài: UpdSeedIns là rỗng, nghĩa là không có một đối tượng nòng cốt mới
nào sau khi chèn p. Do đó, p là một đối tượng lạc loài (nhiễu) và không có gì thay đổi cả.
(2) Tạo mới:UpdSeedIns chỉ chứa những đối tượng nòng cốt không thuộc về một cụm nào trước khi chèn p, nghĩa là chúng là những đối tượng lạc loài (nhiễu). Một cụm mới gồm những đối tượng này và p được hình thành.
(3) Hấp thu: UpdSeedIns chứa các đối tượng nòng cốt là thành viên của một cụm
C nào đó trước khi chèn. Đối tượng p và một số đối tượng lạc loài có thể được hấp thu vào cụm C.
(4)Trộn: UpdSeedIns chứa các đối tượng nòng cốt là thành viên của nhiều cụm trước khi chèn. Tất cả các cụm này và đối tượng p được trộn thành một cụm.
Cải tiến Incremental DBSCAN:
Thuật toán Incremental DBSCAN có khuynh hướng gộp các cụm ít kết nối với nhau thành một cụm lớn. Theo trường hợp 4 của thuật toán nguyên thủy, khi thêm mới một đối tượng p, nếu tập UpdSeedins chứa các phần tử nòng cốt là thành viên của nhiều cụm trước khi chèn thì trộn các cụm này và phần tử p thành một cụm duy nhất. Điều này có thể tạo ra các cụm không chính xác ví dụ như trong trường hợp các đối tượng có mật độ phân bố ở Hình 4.5. Trong ví dụ này, giá trị của Eps=1 và MinPts=6. Đối tượng mới p, không là đối tượng nòng cốt nhưng các đối tượng o1, o2, o3 và o4 là các đối tượng nòng cốt sau khi cập nhật. Khi đó, các cụm trộn với nhau theo nguyên tắc “bắc cầu”: cụm A trộn vào cụm B và C vì o1 và o4 cũng như o2 và o3 có mật độ có thể đi đến trực tiếp lẫn nhau.
Do văn bản có tính nhập nhằng về khía cạnh ngữ nghĩa, nên một số văn bản có nội dung giao thoa giữa các chủ đề. Với nguyên tắc bắc cầu của trường hợp 4 của thuật toán Incremental DBSCAN nguyên thủy, những văn bản có nội dung giao thoa này có thể trở thành các đối tượng nòng cốt và tiến tới trộn các cụm văn bản có chủ đề khác nhau thành một cụm duy nhất.
Hình 4.5. Ví dụ trƣờng hợp 4, trộn “bắc cầu” giữa các cụm A, B, C
Luận án cải tiến kỹ thuật trộn cụm của thuật toán Incremental DBSCAN bằng cách kiểm tra mật độ của các cụm này trước khi gộp. Cụ thể là thay vì trộn các cụm và đối tượng p thành một cụm khi UpdSeedIns chứa các đối tượng nòng cốt là thành viên của nhiều cụm trước khi chèn, việc kiểm tra từng cụm trong UpdSeedIns được tiến hành: nếu số lượng văn bản của nó trong UpdSeedIns nhỏ hơn hoặc bằng một ngưỡng cho trước thì không trộn cụm đó vào cụm mới. Các văn bản còn lại, gồm tất cả các văn bản thuộc những cụm có số lượng văn bản lớn hơn ngưỡng, các văn bản lạc loài và đối tượng p được trộn thành một cụm. Khi đó, kỹ thuật trộn cụm của thuật toán Incremental DBSCAN cải tiến được phát biểu như sau:
“Nếu tập UpdSeedins chứa các đối tượng nòng cốt là thành viên của nhiều cụm khác nhau thì chỉ trộn p và các cụm có số đối tượng nòng cốt đóng góp vào tập UpdSeedins lớn hơn ngưỡng M cho trước. Nếu không có cụm nào như vậy thì p là đối tượng lạc loài.”
Ở đây ngưỡng M được chọn sao cho M > MinPts. Điều này để đảm bảo số đối tượng lân cận của p trong các cụm được trộn đủ lớn và hạn chế được trường hợp trộn cụm ít kết nối nêu trên. Cụ thể hóa mã giả của kỹ thuật trộn cụm trong Hình 4.6.
Gọi Clusters là tập các cụm có đối tượng nòng cốt thuộc tập UpdSeedins
Gọi DocumentInClusters là tập chỉ số đối tượng nòng cốt của từng cụm đóng góp vào UpdSeedins
1. for mọi cụm CiClusters do
2. ifDocumentInClusters[Ci] < M
3. Loại các đối tượng nòng cốt của Cira khỏi UpdSeedins
4. end if
5. end for
6. ifUpdSeedin s > 0
7. Trộn đối tượng p và các cụm có đối tượng nòng cốt thuộc UpdSeedins thành một cụm duy nhất
7. else
8. p là phần tử lạc loài 9. end if
Hình 4.6. Mã giả cho kỹ thuật trộn cụm của Incremental DBSCAN cải tiến
Độ phức tạp tính toán của Incremental DBSCAN cải tiến
Độ phức tạp về thời gian của Incremental DBSCAN cải tiến không khác biệt so với Incremental DBSCAN nguyên thủy. Độ phức tạp về thời gian của Incremental DBSCAN là O(mrlog(n+m)) với m là số đối tượng mới được chèn vào cơ sở dữ liệu,
r là số vùng đối tượng bị ảnh hưởng trung bình, n là số đối tượng của cơ sở dữ liệu trước khi chèn thêm đối tượng mới [31]. Giá trị r phụ thuộc vào từng ứng dụng, cần xác định qua thực nghiệm và r << m. Với việc cải tiến quá trình trộn cụm của Incremental DBSCAN, mặc dù cần thực hiện thêm một số tính toán nhưng số tính
<< m chính vì vậy độ phức tạp về thời gian của Incremenral DBSCAN cải tiến không thay đổi.
Dựa trên độ đo tương tự lai, Incremental DBSCAN cải tiến gán các văn bản vào cụm tương ứng một cách hiệu quả và động. Cuối cùng, các từ quan trọng hay các đặc trưng đại diện được rút trích từ các cụm thu được để xác định chủ đề của từng cụm. Các đặc trưng đại điện từng cụm được xác định thông qua công thức độ lợi thông tin và chọn ra những từ có khả năng diễn tả nhiều nhất nội dung của cụm, cũng như diễn tả ít nhất nội dung của các cụm khác.
4.4 Kết quả thử nghiệm
Khi đánh giá tính hiệu quả của qui trình gom cụm, luận án tiến hành một số thử nghiệm sau: đánh giá hiệu quả của mô hình biểu diễn văn bản bằng đồ thị, độ đo tương tự lai, kỹ thuật chọn lựa động đặc trưng, so sánh với thuật toán gom cụm động SHC, đánh giá cải tiến trong thuật toán Incremental DBSCAN.
Dữ liệu thử nghiệm là các bài báo được lấy từ VnExpress, Ngươilaodong16, Tuoitre, Thanhnien, Dantri17- những trang tin tức điện tử phổ biến tại Việt Nam. Những bài viết này được phân loại trên các trang báo thành các nhóm chủ đề khác nhau. Dựa trên các mục phân loại đó, một số mục chính được chọn làm dữ liệu thử nghiệm. Tập dữ liệu thử nghiệm (gọi là TC2) gồm 6700 văn bản với 10 chủ đề. Các chủ đề là: âm nhạc, du học, du lịch, chứng khoán, vi tính, thời trang, điện ảnh, du lịch, ẩm thực, hình sự và quần vợt. Các văn bản có kích thước từ 1KB đến 15KB (chi tiết trong Bảng 4.1).
Từ tập dữ liệu thử nghiệm này, 6 bộ dữ liệu khác nhau được xây dựng với số lớp từ 3 đến 10 để quan sát chất lượng gom cụm như trong Bảng 4.2. Nhằm mục đích kiểm tra tác động của quá trình cập nhật dữ liệu động, các bộ dữ liệu này có kích thước tăng dần và thứ tự gom cụm là ngẫu nhiên.
Ký hiệu: KTTL -kích thước của văn bản
16
http://www.nld.com.vn 17
Bảng 4.1. Thống kê trên tập dữ liệu TC2 STT Tên chủ đề Số văn bản KTTL nhỏ nhất (số từ) KTTL lớn nhất (số từ) KTTL trung bình (số từ) 1 Âm nhạc 998 89 1140 514 2 Chứng khoán 1000 65 1478 350 3 Quần vợt 1026 72 687 269 4 Điện ảnh 559 96 1337 514 5 Vi tính 500 55 900 278 6 Thời trang 426 61 754 265 7 Du lịch 810 59 1263 332 8 Ẩm thực 500 41 961 388 9 Hình sự 500 82 711 316 10 Du học 380 39 1432 301 Tổng 6700 39 1478 361
Bảng 4.2. Thống kê tập dữ liệu thử nghiệm [CT2]
Chủ đề Số văn bản trong từng chủ đề của từng bộ DL
DS31 DS32 DS51 DS71 DS91 DS10 Âm nhạc 362 998 998 998 998 998 Chứng khoán 350 1000 1000 1000 1000 1000 Quần vợt 354 1026 1026 1026 1026 1026 Điện ảnh 559 559 559 559 Vi tính 500 500 500 500 Thời trang 426 426 426 Du lịch 810 810 810 Ẩm thực 500 500 Hình sự 500 500 Du học 380 Tổng cộng 1066 3024 4083 5320 6320 6700
(chứa bao nhiêu đối tượng cùng lớp) và trả về giá trị nằm trong khoảng [0..log2(m)] (với m - số lớp thực tế của tập dữ liệu). Giá trị Entropy càng nhỏ thì càng tốt. Tuy nhiên, độ đo Entropy thiên vị kết quả gom cụm với số lượng cụm lớn (mỗi cụm chứa ít đối tượng) và cho giá trị Entropy nhỏ. Do đó ta cần sử dụng độ đo F để xác định sự trùng khớp giữa cụm với lớp nguyên thủy và hạn chế nhược điểm việc gom cụm quá nhỏ của Entropy. Độ đo F là giá trị cân bằng giữa độ chính xác và độ phủ và có giá trị trong khoảng [0..1]. Giá trị F càng cao thì sự ánh xạ của cụm vào lớp nguyên thủy càng chính xác. Khi xây dựng qui trình gom cụm, chúng ta mong muốn cực đại giá trị F và cực tiểu giá trị Entropy của các cụm để đạt chất lượng gom cụm cao.
Luận án tiến hành thử nghiệm với nhiều mô hình biểu diễn văn bản. Thực hiện so sánh mô hình biểu diễn văn bản bằng đồ thị sử dụng độ đo tương tự lai dựa trên cụm từ chung và vectơ văn bản (được cập nhật động) (ký hiệu là ICG) với mô hình không gian vectơ sử dụng độ đo tương tự cosine, phương pháp truyền thống xác định trọng số TF×IDF (ký hiệu là VSM-TF×IDF) và mô hình không gian vectơ sử dụng độ đo tương tự cosine và phương pháp xác định trọng số TF×IG do luận án đề xuất (ký hiệu là VSM-TF×IG). ICG là chính là hệ thống xây dựng dựa trên qui trình gom cụm văn bản động mà luận án đề xuất. Cả ba hệ thống đều dùng thuật toán Incremental DBSCAN và kỹ thuật lựa chọn đặc trưng động.
Bảng 4.3. So sánh chất lƣợng gom cụm theo độ đo F [CT5]
Mã bộ DL
VSM - TF×IDF
Khoảng tin cậy 95%
VSM- TF×IG
Khoảng tin cậy
95% ICG
Khoảng tin cậy 95% DS31 0.976 [0.9688,0.9852] 0.986 [0.9789,0.9931] 0.997 [0.9937, 1.0] DS32 0.847 [0.8342,0.8598] 0.858 [0.8456,0.8704] 0.995 [0.9925,0.9975] DS51 0.815 [0.8031,0.8269] 0.834 [0.8226,0.8454] 0.969 [0.9637, 0.9743] DS71 0.791 [0.7801,0.8019] 0.812 [0.8225,0.8015] 0.966 [0.9611,0.9709] DS91 0.775 [0.7647,0.7853] 0.809 [0.8187,0.7993] 0.957 [0.9620,0.9520] DS10 0.761 [0.7508,0.7712] 0.802 [0.7925,0.8115] 0.950 [0.9448,0.9552]
Bảng 4.3 và Bảng 4.4 trình bày các kết quả tốt nhất của từng hệ thống theo độ đo F, Entropy kèm theo khoảng tin cậy 95%. Sự cải thiện chất lượng gom cụm của TCG khá rõ rệt, so với hệ thống VSM-TF×IDF, theo độ đo F tăng gần 20% và giảm đến
9% theo độ đo Entropy. Còn so với hệ thống VSM-TF×IG, sự cải thiện của TCG theo độ đo F là 15% và độ đo Entropy giảm khoảng 7%. Theo phương pháp kiểm định giả thiết thống kê có thể kết luận: ở mức ý nghĩa 5%, chất lượng gom cụm của ICG tốt hơn các hệ thống còn lại.
Bảng 4.4. So sánh chất lƣợng gom cụm theo độ đo Entropy [CT5]
Mã bộ DL
VSM - TF×IDF
Khoảng tin cậy 95%
VSM- TF×IG
Khoảng tin cậy
95% ICG
Khoảng tin cậy 95% DS31 0.089 [0.0671,0.1109] 0.088 [0.0662,0.1098] 0.035 [0.0210,0.0490] DS32 0.058 [0.0474,0.0686] 0.052 [0.0419,0.0621] 0.047 [0.0374,0.0566] DS51 0.396 [0.3738,0.4182] 0.336 [0.3151,0.3569] 0.141 [0.1256,0.1555] DS71 0.485 [0.4565,0.5135] 0.454 [0.4262,0.4818] 0.214 [0.1940,0.2340] DS91 0.491 [0.4627,0.5193] 0.461 [0.4334,0.4886] 0.225 [0.2049,0.2451] DS10 0.502 [0.4735,0.5305] 0.475 [0.4472,0.5028] 0.237 [0.2165,0.2575]
Phương pháp tính trọng số TF×IG xác định chất lượng của từ không chỉ trong văn bản mà còn trong tất cả các cụm và có thể phản ánh sự quan trọng của từ trong văn bản, đồng thời dễ dàng tham gia vào quá trình gom cụm động vì vậy phù hợp hơn phương pháp trọng số TF×IDF cho bài toán gom cụm động. Kết quả trong Bảng 4.3 cho thấy khi sử dụng mô hình không gian vectơ, phương pháp trọng số TF×IG cải thiện chất lượng gom cụm so với TF×IDF: theo độ đo F tăng hơn 4% và giảm theo độ đo Entropy khoảng 1%. Điều này khẳng định nhận xét của [98] về việc trọng số TF×IDF không phù hợp cho bài toán gom cụm văn bản động.
0 50 100 150 200 250 300 350 400 500 1000 2000 3000 4000 5000 6000 Th ời gi an (gi ây)
a) Theo độ đo F
b) Theo độ đo Entropy
Hình 4.8. Đánh giá chất lƣợng gom cụm giữa mô hình không gian vectơ truyền
thống và mô hình đồ thị theo độ đo F (a) và Entropy (b)[CT2]
Thời gian gom cụm của ICG gần như tương đương với VSM-TF×IDF và VSM- TF×IG mặc dù ICG tốn nhiều chi phí cho việc xây dựng đồ thị và xác định đặc trưng
0 0.2 0.4 0.6 0.8 1 DS31 DS32 DS51 DS71 DS91 DS10 F -M e a sur e Tập dữ liệu VSM-TF×IDF ICG
từ đồ thị nhưng VSM-TF×IDF và VSM-TF×IG lại tốn chi phí cho việc cập nhật trọng số cho không gian vectơ khi tập dữ liệu thay đổi. Trong Hình 4.7 là thời gian gom cụm của hệ thống ICG dựa trên mô hình biểu diễn đồ thị và các hệ thống dựa trên mô hình không gian vectơ với cùng thuật toán Incremental DBSCAN và kỹ thuật lựa chọn đặc trưng động (thực hiện trên máy tính Intel Core Duo 2.56Ghz, 2GB RAM). Thời gian gom cụm của VSM-TF×IG nhỉnh hơnVSM-TF×IDF một chút do chi phí