TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (LV thạc sĩ)
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN ĐỨC CHUẨN NGUYỄN ĐỨC CHUẨN TF-IT CHO GOM CỤM VĂN BẢN DỰA TRÊN TẬP PHỔ BIẾN HỆ THỐNG THƠNG TIN HỒ CHÍ MINH 2017 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HỒ CHÍ MINH – 2017 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN ĐỨC CHUẨN TF-IT CHO GOM CỤM VĂN BẢN DỰA TRÊN TẬP PHỔ BIẾN Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS LÊ HOÀI BẮC HỒ CHÍ MINH – NĂM 2017 i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tp HCM, Ngày 02 tháng 06 năm 2017 Học viên thực luận văn NGUYỄN ĐỨC CHUẨN ii LỜI CẢM ƠN Trước tiên, gởi lời cám ơn chân thành đến PGS.TS Lê Hoài Bắc, Trường Đại học Khoa học Tự nhiên Đại học Quốc gia Tp.HCM, Thầy nhiệt tình hướng dẫn định hướng, giúp tơi hồn thành luận văn Đồng thời, xin gởi lời cám ơn tri ân sâu sắc Thầy Cô Học viện Cơng nghệ Bưu Viễn thơng, đặc biệt Thầy Cô khoa Công nghệ Thông tin truyền đạt vốn kiến thức quý báu cho suốt thời gian học tập trường Cùng với đó, tơi xin gửi lời cám ơn đến Ban Giám hiệu, khoa Điện tử Tin học trường Cao đẳng Kỹ thuật Cao Thắng, đồng nghiệp môn Tin học tạo điều kiện giúp đỡ tơi hồn thành khóa học Sau cùng, tơi gửi lời biết ơn đến gia đình, bạn bè bạn lớp ủng hộ, tạo điều kiện tốt cho tơi suốt khóa học Trong q trình thực luận văn, tơi cố gắng hồn thành tốt với tất nỗ lực thân, chắn khơng tránh khỏi sai sót hạn chế Rất mong nhận đóng góp ý kiến Quý Thầy Cô bạn để học thêm nhiều kinh nghiệm Tôi xin chân thành cám ơn! Tp HCM, Ngày 02 tháng 06 năm 2017 Học viên thực luận văn Nguyễn Đức Chuẩn iii MỤC LỤC LỜI CẢM ƠN ii DANH MỤC CÁC KÝ HIỆU v DANH MỤC CÁC BẢNG .vi DANH MỤC CÁC HÌNH vii MỞ ĐẦU CHƯƠNG - TỔNG QUAN 1.1 Tầm quan trọng .2 1.2 Khai thác tập phổ biến 1.3 Gom cụm liệu 1.4 Mục đích cấu trúc luận văn CHƯƠNG - CƠ SỞ LÝ LUẬN 2.1 Các khái niệm 2.1.1 Cơ sở liệu giao dịch 2.1.2 Độ phổ biến 2.1.3 Tập phổ biến 2.2 Một số phương pháp khai thác tập phổ biến 2.2.1 Thuật toán Apriori 2.2.2 Phương pháp IT-Tree 14 2.2.3 Phương pháp FP-Tree 18 2.2.4 Thuật toán MWIT-FWUI .22 2.3 Một số phương pháp gom cụm văn 26 2.3.1 Phương pháp gom cụm phân cấp 26 2.3.2 Phương pháp gom cụm phân hoạch .28 iv 2.3.3 Phương pháp phân cụm sử dụng tập phổ biến .29 CHƯƠNG - TF-IT CHO GOM CỤM VĂN BẢN .36 3.1 Bài toán gom cụm văn 36 3.2 Mơ hình giải tốn gom cụm theo tf-it 36 3.2.1 Tiền xử lý văn .37 3.2.2 Tìm tập phổ biến 39 3.2.3 Gom cụm văn 40 3.3 Ví dụ minh họa 42 3.3.1 Xét tập văn từ sau 42 3.3.2 Tính trọng số TF-IDF từ 43 3.3.3 Tính trọng văn 47 3.3.4 Tính độ hỗ trợ từ (wus) 47 3.3.5 Áp dụng thuật toán MC để gom cụm văn .48 CHƯƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ 51 4.1 Chuẩn bị liệu 51 4.2 Phương pháp đánh giá 52 4.3 Đánh giá kết 53 4.3.1 Bộ ngữ liệu 53 4.3.2 Bộ ngữ liệu 54 4.3.3 Bộ ngữ liệu 55 4.4 Nhận xét đánh giá 56 TÀI LIỆU THAM KHẢO 57 Tiếng Việt 57 Tiếng Anh 57 v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt CSDL FI minWUS KDD TF-IT Wus Tiếng Anh Tiếng Việt Databases Cơ sở liệu Frequent itemsets Tập phần tử phổ biến Minimum weight utility Độ hỗ trợ trọng số hữu ích tối support thiểu Knowledge Discovery in Databases Phát tri thức từ CSDL Terms Frequent - Itemsets Tree Tuấn suất từ - tập phần tử Weight utility support Độ hỗ trợ trọng số hữu ích vi DANH MỤC CÁC BẢNG Bảng 2.1: Cơ sở liệu giao dịch Bảng 2.2: Cơ sở liệu áp dụng cho Apriori Bảng 2.3: Tập phổ biến L1 .10 Bảng 2.4: Tập ứng viên C2 .11 Bảng 2.5: Tập phổ biến L2 .11 Bảng 2.6: Tập ứng viên C3 .12 Bảng 2.7: Tập phổ biến L3 .12 Bảng 2.8: Tập ứng viên C4 .13 Bảng 2.9: Tập phổ biến L4 .13 Bảng 2.10: Tập ứng viên C5 14 Bảng 2.11: Cơ sở liệu định dạng theo chiều dọc .17 Bảng 3.1: Biểu diễn liệu 39 Bảng 3.2: Tập sở liệu .42 Bảng 4.1: Bộ ngữ liệu 51 Bảng 4.2: Bộ ngữ liệu 51 Bảng 4.3 Bộ ngữ liệu 52 Bảng 4.4: Kết thực nghiệm ngữ liệu 53 Bảng 4.5: Kết thực nghiệm ngữ liệu 54 Bảng 4.6: Kết thực nghiệm ngữ liệu 55 vii DANH MỤC CÁC HÌNH Hình 1.1: Ví dụ tập liệu gom cụm Hình 2.1: Thuật tốn Apriori .8 Hình 2.2: Thuật tốn ECLAT 16 Hình 2.3: Cây IT-tree với minSup = 50% 17 Hình 2.4: Thuật tốn xây dựng FP 19 Hình 2.5: Thuật toán FP-growth .20 Hình 2.6: Cây FP-tree 21 Hình 2.7: Thuật tốn MWIT-FWUI .24 Hình 2.8: Cây MWIT với minWUS = 0.4 26 Hình 2.9: Phương pháp gom cụm gộp 27 Hình 2.10: Phương pháp gom cụm chia 27 Hình 2.11: Phương pháp gom cụm phân hoạch 28 Hình 2.12: Phương pháp gom cụm dùng tập phổ biến 30 Hình 2.13: Phương pháp MC 31 Hình 2.14: Thuật toán MC 32 Hình 3.1: Mơ hình giải toán gom cụm văn theo tf-it .37 Hình 3.2: Thuật tốn loại bỏ hư từ 38 Hình 3.3: Thuật tốn MWIT-FWUI 40 Hình 3.4: Thuật tốn TF-IT .42 Hình 3.5: Cây MWIT 48 Hình 4.1: Kết ngữ liệu .53 Hình 4.2: Kết ngữ liệu 54 Hình 4.3: Kết ngữ liệu 55 MỞ ĐẦU Gom cụm văn kỹ thuật khai thác liệu mạnh mẽ để phát chủ đề tài liệu văn Đó tiến trình tổ chức đối tượng liệu thành tập lớp tách rời gọi cụm Các đối tượng cụm tương tự khác với đối tượng thuộc cụm khác Gom cụm văn công việc tự động tổ chức tài liệu văn vào cụm hay nhóm có ngữ nghĩa, nói cách khác, tài liệu cụm thuộc chủ đề, tài liệu cụm khác biểu diễn chủ đề khác Gom cụm văn có phạm vi ứng dụng rộng rãi Các ứng dụng gom cụm văn gồm: tự động tóm tắt dựa phương pháp gom cụm văn bản, tự động tổ chức tập băn bản, gom nhóm kết tìm kiếm Vì tốn học khơng giám sát, gom cụm văn chia thành: phương pháp phân hoạch, phương pháp phân cấp, phương pháp dựa lưới, phương pháp dựa mơ hình, phương pháp dựa mật độ,… Xu hướng gần gom cụm văn sử dụng tập phổ biến Phương pháp xử lý số chiều lớn liệu cách xem xét phần tử phổ biến cho việc gom cụm Một tập phần tử phổ biến tập từ xuất thường xuyên với ứng viên cho việc gom cụm Theo xu hướng này, có nhiều cơng trình đề xuất Beil cộng [4] giới thiệu phương pháp Frequent Term-Based Clustering (FTC) Tầm quan trọng FTC tạo cụm văn với khả trùng lặp Wen Zhang cộng [9] giới thiệu phương pháp gọi Maximum Capturing cho gom cụm văn sử dụng tập phổ biến chứng minh tốt phương pháp giới thiệu trước 43 d3 d4 1 d5 2 d6 1 Ta có: Tập văn D = {d1, d2, d3, d4, d5, d6}, tập từ I = {A, B, C, D, E}, với d1 = {1, 1, 0, 4, 1} có nghĩa văn d1 có từ A, từ B, từ D từ E, khơng có từ C Với MinWUS = 0.4 3.3.2 Tính trọng số TF-IDF từ ( )= ( , )= ( , ( , )= ( , ( , )= ( , ( , )= ( , = ≈ 0.176 = 0.14 ) = 0.14 ∗ 0.176 = 0.025 =0 ) = ∗ 0.176 = = 0.25 ) = 0.25 ∗ 0.176 = 0.044 = 0.5 ) = 0.5 ∗ 0.176 = 0.088 44 ( , )= ( , ( , )= ( , ( )= ( , )= ( , ( , )= ( , ( , )= ( , ( , )= ( , ( , )= ( , ( , )= ( , ( )= = 0.111 ) = 0.111 ∗ 0.176 = 0.02 =0 ) = ∗ 0.176 = = =0 = 0.14 ) = 0.14 ∗ = = 0.2 ) = 0.2 ∗ = = 0.125 ) = 0.125 ∗ = = 0.167 ) = 0.25 ∗ = = 0.2 ) = 0.2 ∗ = = 0.33 ) = 0.33 ∗ = = ≈ 0.176 45 ( , )= ( , ( , )= ( , ( , )= ( , ( , )= ( , ( , )= ( , ( , )= ( , ( )= ( , )= ( , ( , )= ( , ( , )= =0 ) = ∗ 0.176 = = 0.6 ) = 0.6 ∗ 0.176 = 0.106 =0 ) = ∗ 0.176 = = 0.167 ) = 0.167 ∗ 0.176 = 0.029 = 0.22 ) = 0.22 ∗ 0.176 = 0.039 = 0.33 ) = 0.33 ∗ 0.176 = 0.059 = ≈ 0.176 4 = 0.57 ) = 0.57 ∗ 0.176 = 0.1 =0 ) = ∗ 0.176 = = 0.375 46 ( , ( , )= ( , ( , )= ( , ( , )= ( , ( )= ( , )= ( , ( , )= ( , ( , )= ( , ( , )= ( , ( , )= ( , ) = 0.375 ∗ 0.176 = 0.066 =0 ) = ∗ 0.176 = = 0.111 ) = 0.111 ∗ 0.176 = 0.02 = 0.33 ) = 0.33 ∗ 0.176 = 0.059 = ≈ 0.079 = 0.14 ) = 0.14 ∗ 0.079 = 0.011 = 0.2 ) = 0.2 ∗ 0.079 = 0.15 = 0.25 ) = 0.25 ∗ 0.079 = 0.02 = 0.167 ) = 0.167 ∗ 0.079 = 0.013 = 0.33 ) = 0.33 ∗ 0.079 = 0.026 47 ( , )= (E, =0 ) = ∗ 0.079 = 3.3.3 Tính trọng văn (d ) = × 0.025 + × + × 0.1 + × 0.011 = 0.11 (d ) = × + × 0.106 + × 0.016 = 0.111 (d ) = × 0.044 + × + × 0.066 + × 0.02 = 0.082 (d ) = × 0.088 + × + × 0.029 + × 0.013 = 0.077 (d ) = × 0.02 + × + × 0.039 + × 0.02 + × 0.026 = 0.039 (d ) = × + × 0.059 + × 0.059 = 0.039 Tổng trọng số tập văn bản: ∑twu = 0.458 3.3.4 Tính độ hỗ trợ từ (wus) Ta thấy từ A xuất văn 1, 3, 4, nên ta tính wus(A) sau: wus(1345) = wus(D×1356) = wus(E×12345) = ≈ 0.672 wus(B×123456) = wus(C×2456) = =1 ≈ 0.581 ≈ 0.59 ≈ 0.915 48 Tính tương tự cho từ khác, cuối ta MWIT-tree sau: Hình 3.5: Cây MWIT Vậy ta có tập phổ biến FWUI = {A, B, C, D, E, AB, AD, AE, BC, BD, BE, CE, DE, ABD, ABE, ADE, BCE, BDE, ABDE} 3.3.5 Áp dụng thuật toán TF-IT để gom cụm văn Bước 1: Ta có ma trận tương đồng A xây dựng từ tập phổ biến FWUI, với a[i][j] = số tập phổ biến giống hai văn bản: d1 d1 d2 d3 d4 d2 d3 d4 d5 d6 15 15 3 7 15 11 49 d5 Bước 2: Xây dựng B từ A Ta được: Mảng B: 15 15 11 Bước 3: Tìm giá trị nhỏ Min khác A Ta có, Min = Bước 4: Tìm giá trị lớn Max B Ta có, Max = 15 Và cặp văn tương ứng (1, 3), (1, 5), (3, 5) Gom văn 1, 3, tạo thành cụm {1, 3, 5} gán giá trị tương đồng cho cặp (1, 3), (1, 5) (3, 5) Cập nhật giá trị cho mảng B vị trí d1 d1 d2 d3 d4 d5 d6 3 7 11 d2 d3 d4 d5 7 11 Bước 5: Tìm giá trị lớn Max B Ta có, Max = 11 Và cặp văn tương ứng (4, 5) Do thuộc cụm {1, 3, 5} nên ta đưa vào cụm {1, 3, 5} tạo thành cụm {1, 3, 4, 5} gán giá trị tương đồng (4, 5) Cập nhật mảng B d1 d2 d3 d4 d5 d6 50 d1 d2 3 7 3 d3 d4 d5 7 Bước 6: Tìm giá trị lớn Max B Ta có, Max = Và cặp văn tương ứng (1, 4), (2, 4), (2, 5) (3, 4) Ta đưa vào cụm {1, 3, 4, 5} tạo thành cụm {1, 2, 3, 4, 5} gán giá trị tương đồng (1, 4), (2, 4), (2, 5), (3, 4) Cập nhật mảng B d1 d2 d3 d4 d5 d6 0 3 0 0 3 d1 d2 d3 d4 d5 3 3 Bước 7: Tìm giá trị lớn Max B Ta có, Max = Và cặp văn tương ứng (5, 6) Ta đưa vào cụm {1, 2, 3, 4, 5} tạo thành cụm {1, 2, 3, 4, 5, 6} gán giá trị tương đồng (5, 6) Tất văn gom cụm nên dừng thuật toán 51 CHƯƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Chuẩn bị liệu Bộ ngữ liệu luận văn sử dụng để đánh giá ngữ trích xuất từ liệu Reuters-21578 Từ ngữ liệu gốc chúng tơi trích xuất ngữ liệu để đánh giá kết thực nghiệm Thông tin ngữ liệu trích xuất sau: ngữ liệu gồm 92 văn thuộc chủ đề, ngữ liệu gồm 314 văn thuộc chủ đề ngữ liệu gồm 411 văn thuộc chủ đề Thông tin chi tiết ngữ liệu trình bày bảng sau: Bảng 4.1: Bộ ngữ liệu Chủ đề Số văn Coffee 22 Fuel Gold 20 Livestock Reserve 12 Sugar 25 Tổng 92 Bảng 4.2: Bộ ngữ liệu Chủ đề Số văn Coffee 90 Fuel Gold 70 Livestock 16 Reserve 37 Sugar 97 Tổng 314 52 Bảng 4.3: Bộ ngữ liệu Chủ đề Số văn Coffee 22 Crude 121 Interest 81 Money-fx 87 Sugar 25 Trade 75 Tổng 411 4.2 Phương pháp đánh giá Để đánh giá tính hiệu thuật tốn gom cụm dùng tập phổ biến, cơng trình nghiên cứu sử dụng độ đo F (F-measure) Cơng thức độ đo F tính sau: F(i, j) = × P(i, j) × R(i, j) P(i, j) + R(i, j) = (, ) Với F(i,j) độ đo F cụm j lớp i P(i,j) độ rõ (precision) cụm j lớp i R(i,j) độ bao phủ (Recall) lớp i cụm j Tổng quát, độ đo F lớn cho kết gom cụm tốt Độ rõ (, )= Độ bao phủ (, )= Với ni số lượng văn lớp i, nj số lượng văn cụm j, nij số lượng văn lớp i cụm j 53 4.3 Đánh giá kết Để đánh giá kết đạt được, luận văn so sánh kết với kết thuật tốn MC [9], tiêu chí: độ đo F Các thuật toán cài đặt NET Framework 4.5, sử dụng Visual Studio 2010, với cấu hình máy sau: Intel Corei5, 4GB RAM, Hệ điều hành Window 4.3.1 Bộ ngữ liệu Kết chạy thực nghiệm ngữ liệu với ngưỡng khác sau: Bảng 4.4: Kết thực nghiệm ngữ liệu Ngưỡng Min support TF-IT MC 0.09 0.583 0.459 0.92 0.589 0.465 0.1 0.555 0.481 0.15 0.488 0.401 0,7 0,6 0,5 0,4 TF-IT 0,3 MC 0,2 0,1 0,09 0,092 0,1 0,15 Hình 4.1: Kết ngữ liệu 54 Với ngữ liệu gồm: 92 tập tin, số tập tin phân lớp cách không lớn, ta nhận thấy kết gom cụm đạt kết cao Với thuật toán MC, ta nhận thấy kết cao 0.481 (tức khoảng 48,1%) số văn đưa vào phân lớp Với thuật tốn TF-IT kết cao đạt 0.589 (tức khoảng 58,9%) số văn gom phân lớp Như vậy, ta nhận thấy kết gom cụm thuật toán TF-IT đạt hiệu tốt so với thuật toán MC 4.3.2 Bộ ngữ liệu Kết chạy thực nghiệm ngữ liệu với ngưỡng khác sau: Bảng 4.5: Kết thực nghiệm ngữ liệu Ngưỡng Min support TF-IT MC 0.1 0.541 0.559 0.15 0.683 0.581 0.17 0.672 0.541 0.2 0.665 0.594 0,8 0,7 0,6 0,5 TF-IT 0,4 MC 0,3 0,2 0,1 0,1 0,15 0,17 0,2 Hình 4.2: Kết ngữ liệu 55 Với ngữ liệu gồm: 314 tập tin, số tập tin phân lớp cách không lớn, ta nhận thấy kết gom cụm đạt kết cao Với thuật toán MC, ta nhận thấy kết cao 0.594 (tức khoảng 59,4%) số văn đưa vào phân lớp Với thuật tốn TF-IT kết cao đạt 0.683 (tức khoảng 68,3%) số văn gom phân lớp Như vậy, ta nhận thấy kết gom cụm thuật toán TF-IT đạt hiệu tốt so với thuật toán MC 4.3.3 Bộ ngữ liệu Kết chạy thực nghiệm ngữ liệu với ngưỡng khác sau: Bảng 4.6: Kết thực nghiệm ngữ liệu Ngưỡng Min support TF-IT MC 0.1 0.541 0.559 0.15 0.683 0.581 0.17 0.672 0.541 0.2 0.665 0.594 0,6 0,5 0,4 TF-IT 0,3 MC 0,2 0,1 0,08 0,09 0,1 0,2 Hình 4.3: Kết ngữ liệu 56 Với ngữ liệu gồm: 411 tập tin, số tập tin phân lớp cách lớn (phân lớp Coffee – 22 tập tin, Crude – 121 tập tin), ta nhận thấy kết gom cụm TF-IT khơng cao Nhưng với thuật tốn MC, ta nhận thấy kết ổn định kết cao đạt 0.534 (tức khoảng 53,4%) số văn đưa vào phân lớp Với thuật toán TF-IT kết cao đạt 0.434 (tức khoảng 43,4%) số văn gom phân lớp Như vậy, ta nhận thấy kết gom cụm thuật tốn TF-IT khơng hiệu số tập tin phân lớp có khoảng cách lớn 4.4 Nhận xét đánh giá Với liệu nhỏ số lượng văn chủ đề cách khơng lớn, thuật tốn TF-IT đạt kết tốt thuật toán MC Nhưng với liệu có số lượng văn chủ đề cách lớn TF-IT có độ xác khơng tốt thuật toán MC Qua kết thực nghiệm ta thấy, với ngưỡng khác cho kết khác Do đó, việc xác định ngưỡng phù hợp cho toán thách thức với tốn tìm tập phổ biến nói chung toán gom cụm văn sử dụng tập phổ biến nói riêng 57 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Võ Đình Bảy, Nâng cao hiệu thuật toán khai thác luật kết hợp dựa dàn, Luận án Tiến sĩ Khoa học máy tính, Đại học Khoa học Tự nhiên TP.HCM (2011) Tiếng Anh [2] Bay Vo, Bac Le, Jason J.Jung, “A Tree-based Approach for Mining Frequent Weighted Utility Itemsets”, Springer – Verlag Berlin Heidelberg, 2012 [3] F.Beil, M.Ester, X.W.Xu, “Frequent term – based text clustering”, Proceeding of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002, 436 - 442 [4] J.Han, et al, “Mining Frequent Patterns without Candidate Generation: A Frequent – Pattern Tree Approach”, Data Mining and Knowledge Discovery, 8th , 2004, 53 - 87 [5] John Wang, “Encyclopedia of Data Warehousing and Mining”, IDEA GROUP REFERENCE, Volume I , 555-559 [6] Magnus Rosell, “Introduction to Information Retrieval and Text Clustering”, 2006 [7] Rakesh Agrawal, R.Srikant, “Fast Algorithms for Mining Association Rules”, Proceeding of the 20th VLDB Conference Santiago, Chile, 1994 [8] Wen Zhang, Taketoshi Yoshida, Xijin Tang, Qing Wang, “Text Clustering Using Frequent Itemsets”, Knowledge – Based Systems 23 (2010) 379 – 388 [9] Zaki M J., Parthasarathy S., Ogihara M., and Li W, “New Algorithms for Fast Discovery of Association Rules”, Proc of KDD 1997, pp 283-286 ... dụng tập phổ biến Giới thiệu cơng trình nghiên cứu liên quan gom cụm văn Dựa vào phương pháp gom cụm dùng tập phổ biến, luận văn giới thiệu thuật toán gom cụm văn để áp dụng cho toán gom cụm văn. .. thác tập phổ biến, đề cập đến tính chất quan độ phổ biến itemset Mọi tập tập phổ biến phổ biến, nghĩa X Y, Nếu σ (Y) ≥ minSup σ (X) ≥ minSup Mọi tập cha tập không phổ biến không phổ biến, ... sinh tập ứng viên từ tập L3 ta tập C4: Bảng 2.8: Tập ứng viên C4 C4 Danh mục Độ phổ biến ACTW Từ C4 ta suy tập phổ biến L4: Bảng 2.9: Tập phổ biến L4 L4 Danh mục Độ phổ biến ACTW 14 Phát sinh tập