Báo cáo nghiên cứu khoa học: "GOM CỤM ĐỒ THỊ VÀ ỨNG DỤNG VÀO VIỆC RÚT TRÍCH NỘI DUNG CHÍNH CỦA KHỐI THÔNG ĐIỆP TRÊN DIỄN ĐÀN THẢO LUẬN" pdf

TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 11, SỐ 05 - 2008 GOM CỤM ĐỒ THỊ VÀ ỨNG DỤNG VÀO VIỆC RÚT TRÍCH NỘI DUNG CHÍNH CỦA KHỐI THƠNG ĐIỆP TRÊN DIỄN ĐÀN THẢO LUẬN Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng Trường Đại học Công nghệ Thông tin, ĐHQG.HCM (Bài nhận ngày 26 tháng 08 năm 2007, hoàn chỉnh sửa chữa ngày 03 tháng 03 năm 2008) TÓM TẮT: Bài báo trình bày kết nghiên cứu xây dựng hệ thống gom cụm thông điệp diễn đàn thảo luận nhằm hỗ trợ trích lược nội dung khối thơng điệp Các thơng điệp diễn đàn dạng văn Để gom cụm thơng điệp, cần tìm kiếm mơ hình đặc trưng văn Các tiếp cận trước sử dụng mô hình tập hợp từ hay vector từ để đặc trưng văn Các mơ hình bỏ sót thơng tin quan trọng văn vị trí từ văn bản, quan hệ ngữ nghĩa từ, liên kết văn web Gần có cơng trình nghiên cứu sử dụng đồ thị để đặc trưng văn Sau biểu diễn thông điệp đồ thị, chọn giải pháp gom cụm đồ thị mạng Kohonen mạng Kohonen gom cụm liệu mà khơng cần định trước số cụm Ngồi mạng Kohonen có khả biểu diễn trực quan khối văn hình máy tính thơng qua lớp Kohonen 2D Chúng tiến hành nghiên cứu cách tính khoảng cách hai đồ thị dựa đồ thị chung lớn cách cập nhật trọng số mạng Kohonen dựa đồ thị có trọng thuật giải di truyền sau tiến hành thử nghiệm phân tích kết Từ khóa: Đồ thị trung bình có trọng, Gom cụm đồ thị, Khoảng cách đồ thị, Mạng Kohonen, Thuật giải di truyền GIỚI THIỆU Trong hệ thống trực tuyến, diễn đàn thảo luận phương tiện hữu hiệu để trao đổi thảo luận Khối lượng thông tin trao đổi diễn đàn thảo luận lớn, hàng tháng lên đến hàng ngàn thông điệp Với số lượng này, người quản lý diễn đàn khó khăn cần nắm bắt nội dung thơng tin trao đổi diễn đàn giai đoạn [4] Bài báo trình bày kết nghiên cứu xây dựng hệ thống gom cụm thông điệp diễn đàn thảo luận, hỗ trợ rút trích nội dung khối thơng điệp Các thơng điệp diễn đàn dạng văn Để gom cụm thông điệp, cần tìm kiếm mơ hình đặc trưng cho văn Các tiếp cận trước sử dụng mô hình tập hợp từ hay vector từ để đặc trưng cho văn Các mơ hình bỏ sót thông tin quan trọng văn vị trí từ văn bản, quan hệ ngữ nghĩa từ, liên kết văn web Gần có cơng trình nghiên cứu sử dụng đồ thị để đặc trưng văn chứng minh tính vượt trội biểu diễn văn theo mơ hình đồ thị [1],[3],[6] Sau đặc trưng văn đồ thị cần phát triển hệ thống gom cụm đồ thị Bài báo trình bày cách sử dụng mạng Kohonen để gom cụm đồ thị đặc trưng văn rút trích ý từ khối văn hỗ trợ tạo trích lược thơng tin khối văn Mạng Kohonen T Kohonen phát triển vào năm 1980 ứng dụng vào toán gom cụm phẳng Mạng Kohonen gom cụm liệu mà khơng cần định trước số cụm, mạng Kohonen có khả biểu diễn trực quan khối văn hình máy tính thơng qua lớp Kohonen 2D Chúng sử dụng mạng Kohonen để gom cụm đồ thị tiến hành nghiên cứu đề xuất cách tính khoảng cách hai đồ thị dựa Bản quyền thuộc ĐHQG Trang 21 Science & Technology Development, Vol 11, No.05- 2008 đồ thị chung lớn chúng cách cập nhật trọng số đồ thị trọng nút lớp Kohonen theo tiếp cận thuật giải di truyền Bài báo tổ chức sau: 1) Giới thiệu 2) Biểu diễn văn đồ thị 3) Mạng Kohonen 4) Gom cụm đồ thị mạng Kohonen rút trích ý 5) Thử nghiệm bàn luận 6) Kết luận BIỂU DIỄN VĂN BẢN BẰNG ĐỒ THỊ Trong phần này, giới thiệu hai tiếp cận dùng đồ thị để đặc trưng cho văn [1],[3],[6] Tiếp cận thứ Adam Schenker đề xuất [1] Trong tiếp cận này, từ xuất văn bản, trừ phụ từ “thì”, “mà”, “là”, “bị”… từ chứa thơng tin biểu diễn đỉnh đồ thị biểu diễn văn Nhãn đỉnh từ mà biểu diễn Cho dù từ có xuất nhiều lần văn bản, từ biểu diễn đỉnh Các cung đồ thị tạo sau: từ t2 liền sau từ t1 đơn vị s văn có cung có hướng nối từ đỉnh biểu diễn cho từ t1 hướng đến đỉnh biểu diễn từ t2 nhãn cung s Đơn vị s văn tiêu đề, kết luận, đoạn văn, liên kết… Mỗi loại đơn vị gán tên nhãn khác Một ví dụ tiêu biểu cho đồ thị biểu diễn văn theo cách trình bày hình Hình bầu dục đỉnh nhãn tương ứng, cung gán nhãn tiêu đề (TI), liên kết (L), văn (TX) Ví dụ văn có tiêu đề “BIỂU DIỄN”, có liên kết đến văn với nhãn liên kết “TIẾP” nội dung văn “VĂN BẢN BẰNG ĐỒ THỊ” Hình Đồ thị biểu diễn văn Để nối hai từ có nghĩa tương tự nhau, chúng tơi dùng cung có nhãn TS (text similarity) Ví dụ từ “túc cầu” “bóng đá” hai từ có nghĩa giống Trong tiếng Anh, từ điển Wordnet sử dụng để đo tương đồng nghĩa hai từ Đối với tiếng Việt, xây dựng từ điển từ đồng nghĩa gần nghĩa cho từ thông dụng từ chuyên ngành CNTT Một tiếp cận khác dùng đồ thị để biểu diễn văn trình bày [6] J.Tomita cộng dùng đồ thị đồng để biểu diễn văn Đồ thị đồng tạo theo bước sau: Rút trích từ phổ biến văn Tính thành phần có ý nghĩa dựa tần suất xuất đồng thời hai từ câu, đọan văn ….Nếu tần suất xuất đồng thời hai từ lớn ngưỡng cho trước xuất cung nối hai từ Một đồ thị đồng tiêu biểu theo tiếp cận trình bày hình Trang 22 Bản quyền thuộc ĐHQG-HCM TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 11, SỐ 05 - 2008 Hình Đồ thị đồng văn Chúng sử dụng đồ thị đồng để đặc trưng thông điệp diễn đàn thảo luận Bên cạnh đó, phần mềm tách từ tiếng Việt [4] sử dụng để tách từ đơn, từ ghép văn tiếng Việt nhằm tạo xác đỉnh đồ thị đồng biểu diễn văn tiếng Việt MẠNG KOHONEN 3.1 Gom cụm từ lớp Kohonen Mỗi liên kết đầu vào đầu mạng Kohonen tương ứng với trọng số Tổng đầu vào nơron lớp Kohonen tổng trọng đầu vào nơron Tiến trình huấn luyện mạng Kohonen điều chỉnh trọng số theo mẫu học Kết huấn luyện tạo lớp Kohonen cụm liệu ứng với nhóm nút gần lớp Kohonen Các mẫu học thuộc cụm có khoảng cách gần từ đến nơron cụm Theo tính chất thuật giải huấn luyện mạng Kohonen, cụm có vị trí gần mạng Kohonen chứa đối tượng có mức độ tương tự cao ( tập văn có nội dung tương tự nhau) [7] 3.2 Thuật giải huấn luyện mạng Kohonen Chức thuật giải huấn luyện mạng Kohonen truyền thống gom vector trọng nơron lớp Kohonen thành cụm rời [7] Thuật giải huấn luyện mạng Kohonen truyền thống sau: Bước 1: Khởi tạo ngẫu nhiên trọng số lớp Kohonen gán Nc(t) bán kính vùng láng giềng Khởi gán biến chu kỳ t=1 Bước 2: Đưa vào mạng mẫu học hay vector nhập v(t) chuẩn hóa v(t) Tính khoảng cách Euclide từ vector nhập v(t) đến tất vector trọng tất nơron lớp Kohonen chọn nơron có khoảng cách Euclide dE nhỏ từ vector học v(t) đến trọng ứng với nút dE (v,wic jc) = (dE(vi,wij)) Trong i,j số hợp lệ xác lập theo kích thuớc lớp Kohonen Bản quyền thuộc ĐHQG Trang 23 Science & Technology Development, Vol 11, No.05- 2008 Bước 3: Cập nhật trọng số nút nằm vùng lân cận nút chứa nơron chiến thắng (ic,jc) theo công thức: (1) wij(t+1) = wij(t) + γ (v – wij(t)) Trong ic-Nc(t) ≤ i ≤ ic + Nc(t) jc-Nc(t) ≤ j ≤ jc + Nc(t) Hệ số γ có trị nằm đoạn [0,1], hệ số học giảm theo thời gian Bước Cập nhật t = t + 1, đưa mẫu học vào mạng Kohonen quay bước đạt điều kiện hội tụ hay vượt số lần lặp qui định 4.GOM CỤM ĐỒ THỊ BẰNG MẠNG KOHONEN VÀ RÚT TRÍCH Ý CHÍNH Dữ liệu nhập vào mạng Kohonen tập đồ thị đặc trưng văn Sau huấn luyện, đồ thị nhập gom vào nút lớp mạng Kohonen [7] 4.1.Khởi tạo đồ thị trọng Một nơron lớp Kohonen đồ thị trọng tạo ngẫu nhiên dựa tập liệu nhập vào mạng Kohonen 4.2 Khoảng cách hai đồ thị H Bunke [5] đề xuất cơng thức tính khoảng cách hai đồ thị Cho hai đồ thị G1 G2, khoảng cách hai đồ thị G1, G2, ký hiệu d(G1,G2) tính sau: d (G1 , G2 ) = − | mcs(G1 , G2 ) | max(| G1 , | G2 |) (2) Trong mcs đồ thị chung lớn |.| kích thước đồ thị, nghiên cứu kích thước số đỉnh đồ thị Xét hai đồ thị hình 3.a 3.b Hình Tính khoảng cách hai đồ thị Hình (3.a) đồ thị G1, hình (3.b) đồ thị G2 , hình (3.c) đồ thị chung lớn hai đồ thị G1 G2 Khoảng cách hai đồ thị G1 G2 là: d (G1 , G2 ) = − | mcs(G1 , G2 ) | = − = 0,4 max(| G1 , | G2 |) Theo W Henry S [9], tốn tính đồ thị chung lớn tốn thuộc lớp tóan NP đầy đủ, nhìn chung có ba cách giải tốn Một phương pháp sử dụng clique tối đại, hai chiến lược sử dụng kỹ thuật backtracking không sử dụng clique tối đại, phương pháp thứ ba kỹ thuật khác Chúng sử dụng tiếp cận W Henry S [9] để tạo đồ Trang 24 Bản quyền thuộc ĐHQG-HCM TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 11, SỐ 05 - 2008 thị kết hợp ( association graph) dùng kỹ thuật tìm clique tối đại đồ thị kết hợp hai đồ thị G1 G2 để tìm đồ thị chung lớn chúng Cho hai đồ thị G1=(V1,E1) G2=(V2,E2) hình Hình Hai đồ thị Đồ thị kết hợp G=(V,E) hai đồ thị G1=(V1,E1) G2=(V2,E2) đồ thị có V ⊆V1xV2 , cạnh (u1,v1) (u2,v2) kề nếu: (u1,u2) ∈ E1 (v1,v2) ∈ E2 (u1,u2) ∉ E1 (v1,v2) ∉ E2 (a) (b) (c) Hình Đồ thi kết hợp đồ chung lớn Đồ thị kết hợp hai đồ thị G1, G2 đồ thị nằm hình (5.a); clique tối đại nằm hình (5.b) đồ thị chung lớn nằm hình (5.c) 4.3 Cập nhật đồ thị trọng đỉnh lớp Kohonen Trong trình huấn luyện mạng Kohonen cần cập nhật trọng số nơron vùng lân cận nơron chiến thắng Lưu ý khu dùng mạng Kohonen để gom cụm đồ thị, nơron lớp Kohonen đồ thị vector trọng mơ hình truyển thống Để cập nhật đồ thị trọng, H Bunke [5],[8] sử dụng khái niệm đồ thị trung bình có trọng (weighted means graph) cặp đồ thị để cập nhật đồ thị trọng Cho hai đồ thị G1 G2, đồ thị G đồ thị trung bình có trọng hai đồ thị G1 G2 với số α cho 0≤α≤d(G1,G2) ta có: (3) d( G1,G) = α Bản quyền thuộc ĐHQG Trang 25 Science & Technology Development, Vol 11, No.05- 2008 (4) d(G1,G2) = α +d(G,G2) Từ công thức (3) (4), suy d(G1,G2)=d(G1,G)+d(G,G2) Để cập nhật trọng số mạng Kohonen ta sử dụng công thức (1) Có thể viết lại cơng thức (1) dạng (5) ynew-yold = γ(x-yold) hay (6) x – ynew =(1-γ)(x-yold) Nếu thay G1=x, G=ynew, G2=yold, toán tử ”-” hàm tính khoảng cách ”d(-,-)”, cơng thức (5) (6) trở thành công thức (7), (8) sau đây: (7) D(G,G2) = γd(G1,G2) Và (8) d(G1,G) = (1-γ) d(G1,G2) Nếu đặt α = (1-γ) d(G1,G2), cơng thức (7),(8) trở thành cơng thức (3),(4) Nói cách khác G đồ thị có trọng hai đồ thị G1 G2 Từ cơng thức (7),(8) ta có cơng thức (9) sau: d (G1 , G ) d (G, G2 ) = 1− γ (9) γ Thuật giải di truyền sử dụng để tìm đồ thị trung bình có trọng hai đồ thị G1 G2 với đặc điểm sau: 4.3.1.Khởi tạo quần thể Đồ thị biểu diễn ma trận kề có đỉnh V=V1∪V2 Nhiễm sắc thể tập đồ thị ứng viên đồ thị trung bình có trọng (tập hợp ma trận) Tập đồ thị ban đầu khởi tạo ngẫu nhiên dựa hai đồ thị G1 G2 4.3.2.Phép toán lai ghép: lai ghép hai ma trận Lai theo đường chéo ma trận Truớc lai ghép: 1 0 1 1 1 Nhiễm sắc thể Nhiễm sắc thể 1 1 1 0 1 1 1 1 1 1 0 1 1 1 Sau lai ghép: 0 1 1 0 1 Nhiễm sắc thể Nhiễm sắc thể 4.3.3.Phép toán đột biến Chọn vị trị i,j ngẫu nhiên ma trận a ( ma trận nhiễm sắc thể) , ấn định giá trị ngẫu nhiên ( thêm bớt cạnh đồ thị) gán trị cho aij aji Trang 26 Bản quyền thuộc ĐHQG-HCM TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 11, SỐ 05 - 2008 1 0 1 1 1 0 1 Nhiễm sắc thể Nhiễm sắc thể sau đột biến 1 1 1 1 1 1 4.3.4.Hàm phù hợp Cực tiểu hàm sau: f ( NST ) = d (G1 , G ) d (G , G ) − 1− γ γ Trong γ số xác định tốc độ học ≤γ≤ Hàm có trị nhỏ độ phù hợp nhiễm sắc thể cao 4.4 Trích rút nội dung đồ thị trọng lớp Kohonen Một số đồ thị có trọng tiêu biểu lớp Kohonen trình bày hình Có thể rút trích từ đồ thị có ý khối ngữ liệu văn bản, ví dụ đoạn văn câu có chứa từ cụm từ đồng đồ thị trọng mang ý tập văn cụm Hình Một vài đồ thị trọng đỉnh lớp Kohonen Một vài đồ thị trọng có chứa nút khơng có nút kề Các nút bị loại khỏi đồ thị trọng THỬ NGHIỆM VÀ BÀN LUẬN 5.1 Thử nghiệm bàn luận kết gom cụm Các hệ số Precision, Recall F-measure sử dụng để đánh giá kết gom cụm Chúng so sánh kết gom cụm thông điệp theo giải pháp đề xuất so sánh với kết gom cụm thông điệp tay (do người làm) Kết qủa gom cụm thông điệp tay dựa chủ đề diễn đàn thảo luận qua mạng, chủ đề cụm Xét tập có n thơng điệp, sau gom cụm tay ta có m cụm, sau gom cụm hệ thống phần mềm gom cụm văn có k cụm Trong q trình thử nghiệm ta có m ≤ k Để đánh giá kết hệ thống, ta tiến hành xác định ba hệ số Precision, Recall F-measure hai cụm hai hệ thống Bản quyền thuộc ĐHQG Trang 27 Science & Technology Development, Vol 11, No.05- 2008 Hình Quan hệ hai cụm Gọi a=|A|, b=|B| c=|C|.Trong hình 7, cụm mi người tạo A∪B gồm có a+b văn bản, cụm ki hệ thống gom gồm A∪C có a + c văn Hai cụm có phần chung A gồm a văn Hệ số Precision hai cụm ký hiệu P (Precision) phản ánh độ xác truy vấn tính cơng thức: a a+c P= (10) Hệ số Precision cho biết tỉ lệ số văn gom cụm Nếu P=1 văn cụm ki nằm văn cụm mi Hệ số Recall hai cụm mi ki ký hiệu R (recall) tính cơng thức (11) Nếu R =1 văn cụm mi thuộc văn nằm cụm ki R= a a+b (11) Có thể kết hợp hai hệ số Precision Recall lại thành hệ số F-Measure Hệ số F-Measure tính công thức: Fα = (12) 1 α + (1 − α ) P R Giá trị α cao tác động mạnh đến hệ số Recall, ngược lại giá trị α thấp tác động mạnh lên hệ số Presicion Thông thường hệ số α công thức (12) chọn 0.5 Khi cơng thức (12) viết lại: F0.5 = PR P+R (13) Brew C [2] đề nghị cách đánh sau: Tương ứng với cụm kết gom cụm hệ thống ta tính giá trị độ đo F-measure với tất cụm gom tay Chọn giá trị F-measure cao loại cụm Tiếp tục công việc trên, cho cụm lại Tổng giá trị F-measure cao hệ thống gom cụm xác Tập kết thử nghiệm gom cụm có 500 thơng điệp thuộc chủ đề khác nhau, chủ đề có 100 thơng điệp Kích thước lớp Kohonen 8x8; Chu kỳ lặp max 5000; Chu kỳ cập nhật bán kính vùng lân cận 50 Đồ thị đồng sử dụng để đặc trưng thông điệp 5.1.1.Phương pháp gom cụm vector Trang 28 Bản quyền thuộc ĐHQG-HCM TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 11, SỐ 05 - 2008 Kết quả: Phương pháp gom cụm tay: cho cụm cụm có 100 thơng điệp Phương pháp gom cụm văn vector sử dụng để biểu diễn văn Số cụm thu sau gom cụm cụm Sử dụng cơng thức (10),(11),(13) để tính hệ số Precision, Recall, F-measure Ta có kết tính F-measure bảng 1: Bảng Kết tính F-measure gom cụm tay gom cụm vector Máy Người Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm Max Cụm Cụm Cụm Cụm Cụm 0.32 0.12 0.00 0.12 0.00 0.00 0.13 0.00 0.32 0.12 0.00 0.14 0.23 0.24 0.34 0.23 0.12 0.34 0.12 0.35 0.23 0.35 0.12 0.54 0.12 0.00 0.54 0.35 0.12 0.23 0.35 0.12 0.43 0.12 0.12 0.43 0.13 0.43 0.23 0.31 0.23 0.12 0.35 0.23 0.43 Tổng Max cho gom cụm vector = 0.32+0.34+0.54+0.43+0.43= 2.06 5.1.2.Phương pháp gom cụm đồ thị sử dụng để biểu diễn văn Số cụm văn thu cụm Tính giá trị hệ số kết phương pháp gom cụm đồ thị phương pháp gom cụm tay Sử dụng cơng thức (10),(11),(13) để tính hệ số Precision, Recall, F-measure Ta có kết tính F-measure bảng 2: Bảng Kết tính F-measure gom cụm tay gom cụm đồ thị Cụm Cụm Cụm 0.35 0.12 0.22 0.35 Cụm 0.21 0.23 0.23 0.12 Cụm 0.54 0.12 0.12 0.42 Cụm 0.12 0.23 0.68 0.56 Cụm 0.35 0.32 0.23 0.34 Cụm 0.12 0.12 0.23 0.12 Max 0.54 0.32 0.68 0.56 Tổng Max cho gom cụm đồ thị = 0.54+0.32+0.68+0.56+0.54=2.64 0.34 0.54 0.23 0.23 0.35 0.12 0.54 Máy Người Cụm Cụm Cụm Chúng thử nghiệm với tập mẫu ngẫu nhiên khác tập có 500 văn Kết nêu bảng Bảng Kết thử nghiệm với tập mẫu ngẫu nhiên Tập mẫu ngẫu nhiên Tập mẫu Tập mẫu Tập mẫu Bản quyền thuộc ĐHQG Tổng Max cho gom cụm vector 2,06 2,21 3,01 Tổng Max cho gom cụm đồ thị 2,64 2,98 3,34 Trang 29 Science & Technology Development, Vol 11, No.05- 2008 Tập mẫu Tập mẫu 2,34 2,23 3,12 2,56 Nhận xét: Qua thử nghiệm tính tổng giá trị lớn hệ số F-Measure cho nhiều tập mẫu khác nhau, nhận thấy tổng giá trị lớn hệ số F-Measure hệ thống gom cụm văn biểu diễn đồ thị lớn nhiều so với hệ thống gom cụm văn biểu diễn vector Điều khuyến khích chúng tơi tiếp tục phát triển phương pháp biểu diễn văn đồ thị nhằm thay phương pháp biểu diễn gói từ vector từ với mục đích nâng cao chất lượng gom cụm 5.2 Bàn luận độ phức tạp tính tốn giải pháp đề xuất So với giải thuật sử dụng vector với mạng Kohonen truyền thống, giải thuật đề xuất sử dụng đồ thị giữ nguyên phần yếu giải thuật học mạng Kohonen Giải thuật học thay đổi cách thức tính khoảng cách mẫu nhập đồ thị trọng cách thức cập nhật đồ thị có trọng Đối với việc sử dụng vector mạng Kohonen theo tiếp cận cũ, công đoạn bao gồm việc tính khoảng cách Euclide việc cập nhật trọng qua việc điều chỉnh thành phần vector trọng vùng lân cận nơron chiến thắng Theo tiếp cận sử dụng đồ thị mạng Kohonen, công việc thay việc tính khoảng cách hai đồ thị cơng việc tính đồ thị trung bình có trọng (cập nhật đồ thị trọng) Các đồ thị biểu diễn ma trận kề Việc tính khoảng cách hai đồ thị tính đồ thị trung bình có trọng theo tiếp cận thuật giải di truyền cơng việc địi hỏi thời gian xử lý Hình biểu đồ so sánh thời gian xử lý trung bình hai phương pháp với tập thử nghiệm chứa 100, 150, 200, 250, 300, 350,400, 450, 500 thơng điệp Thời gian tính phút thời gian xử lý giải thuật học Kết thu từ việc chạy chương trình máy PC Pentium 4, 3GB với nhớ 500 Mbyte RAM Biểu đồ so sánh thời gian xử lý giải thuật Thờ gian xử lý ( giây) i 600 500 400 Dùng vector 300 Dùng đồ thị 200 100 100 150 200 250 300 350 400 450 500 Số văn Hình So sánh thời gian xử lý giải thuật dùng vector giải thuật dùng đồ thị Chúng tiến hành lựa chọn tập mẫu khác tập mẫu có chừng 500 văn tiến hành thử nghiệm Kết thử nghiệm hai cách tay thụật toán đề xuất với thời gian xử lý trung bình sau: Bảng So sánh thời gian xử lý với tập mẫu ngẫu nhiên Tập mẫu ngẫu nhiên Tập mẫu Tập mẫu Trang 30 Chênh lệch trung bình thời gian xử lý (lần) 1,62 1,78 Bản quyền thuộc ĐHQG-HCM TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 11, SỐ 05 - 2008 Tập mẫu Tập mẫu Tập mẫu 1,65 1,92 1,56 Các số liệu biểu đồ cho thấy giải thuật đề xuất có thời gian xử lý trung bình gấp gần 1,7 lần so với giải thuật Kohonen sử dụng vector Tuy vậy, nhận xét phần trên, giải thuật đề xuất cho kết qủa gom cụm có độ xác vượt trội giải thuật Kohonen sử dụng vector mở hướng cải tiến chất lượng kết gom cụm lớp mạng Kohenen tiếp cận đồ thị KẾT LUẬN Bài báo trình bày kết nghiên cứu xây dựng hệ thống gom cụm thông điệp diễn đàn thảo luận nhằm hỗ trợ trích lược nội dung khối thơng điệp Các thơng điệp dạng văn Mơ hình đồ thị sử dụng để biểu diễn văn nhằm thể quan hệ cấu trúc, ngữ nghĩa từ, khái niệm,… Phần mềm tách từ tiếng Việt sử dụng để tách từ đơn, từ ghép văn tiếng Việt Mạng Kohonen sử dụng để gom cụm đồ thị biểu diển văn Khoảng cách hai đồ thị tính dựa vào đồ thị chung lớn hai đồ thị Tiếp cận đồ thị kết hợp clique tối đại sử dụng để tìm đồ thị chung lớn hai đồ thị qua đồ thị kết hợp Để cập nhật đồ thị trọng nút lớp Kohonen, sử dụng tiếp cận đồ thị trung bình có trọng tính thuật giải di truyền.Giải thuật đề xuất thử nghiệm để gom cụm thông điệp diễn đàn thảo luận phân tích kết mặt chất lượng thời gian xử lý.Chúng tiếp tục nghiên cứu cải tiến việc tính tốn khoảng cách đồ thị đồ thị trọng để giảm độ phức tạp tính tốn GRAPH CLUSTERING AND APPLICATION TO THE EXTRACTION OF MAIN IDEAS IN COLLECTION OF ONLINE FORUM MESSAGES Do Phuc, Mai Xuan Hung, Nguyen Thi Kim Phung Univesity of Information Technology, VNU-HCM ABSTRACT: This paper presents the results of building a graph clustering system for grouping the similar messages of forum of e-learning system and extracting the main ideas in the collection of messages Message is a kind of text To cluster the messages, we need a model for representing the documents The traditional approaches used the models of bag of words or vector model for representing the documents These models discard the important structural information of document such as word position, the semantic relation of words in document, the links of web pages… Recently, there are several works using the graph for representing the documents After representing the documents by graph, Kohonen neural network was used for grouping the graphs One of the advantages of Kohonen neural network is to cluster the data without specifying the number of clusters Besides, Kohonen neural output layer is a document map which can put on the computer display for easily accessing the similar documents The graph distance based on the maximum common sub-graph and the updated operation of Bản quyền thuộc ĐHQG Trang 31 Science & Technology Development, Vol 11, No.05- 2008 Kohonen neural network based on the weighted means of two graphs was chosen Our proposed solution with the messages in our online forum was tested and discuss the results were analysed Keywords: Weighted means of graphs, Graph clustering, Graph Distance, Kohonen neural network, Genetic algorithm TÀI LIỆU THAM KHẢO [1] Adam Schenker et al Classification of Web documents using a graph model, In Proc of the th int’l conf of document analysis and Recognition (ICDAR’2003), (2003) [2] Brew C, Schulte im Walde Spectral Clustering for German Verbs, In Proc of the Conf in Natural Language Proocessing, Philadenphia, PA, pp 117-124, (2002) [3] Do Phuc Using graph mining, frequent sub-graph for document classification, In Proc of the int’l IEEE RIVF’06 conf, pp 173-176, (2006) [4] Do Phuc, Nguyen Thi Kim Phung Using the Naïve Bayes model and natural language rocessing for classifying messages on online forum, In Proc of the int’l IEEE RIVF’07 conf, pp 247-252, (2007) [5] H Bunke, Kim Shearer Graph distance metric based on the maximal common subgraph, Pattern Recognition letter 19, pp 225-229, (1998) [6] J Tomita et al Graph based text database for Knowledge discovery-In Proc of int’l conference, WWW 2004, (2004) [7] Kaski, S., Honkela, T., Lagus, K., and Kohonen T.WEBSOM self-organizing maps of document collections Neuro computing, volume 21, (1998) [8] Simon Günter, Horst Bunke Self-organizing map for clustering in the graph domain, Pattern Recognition Letters, v.23 n.4, pp.405-417, (2002) [9] W Henry Suters.: A new approach and faster exact methods for the maximum common web: http://www.cs.utk.edu/~library/TechReports/2005/ut-cs-05subgraph, 568.pdf.,(2002) Trang 32 Bản quyền thuộc ĐHQG-HCM ... dụng để gom cụm đồ thị biểu diển văn Khoảng cách hai đồ thị tính dựa vào đồ thị chung lớn hai đồ thị Tiếp cận đồ thị kết hợp clique tối đại sử dụng để tìm đồ thị chung lớn hai đồ thị qua đồ thị. .. tiếp cận sử dụng đồ thị mạng Kohonen, công việc thay việc tính khoảng cách hai đồ thị cơng việc tính đồ thị trung bình có trọng (cập nhật đồ thị trọng) Các đồ thị biểu diễn ma trận kề Việc tính... đồ thị, nghiên cứu kích thước số đỉnh đồ thị Xét hai đồ thị hình 3.a 3.b Hình Tính khoảng cách hai đồ thị Hình (3.a) đồ thị G1, hình (3.b) đồ thị G2 , hình (3.c) đồ thị chung lớn hai đồ thị G1

Định dạng
Số trang	12
Dung lượng	491,34 KB