TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)TfIt Cho Gom Cụm Văn Bản Dựa Trên Tập Phổ Biến (tt)
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN ĐỨC CHUẨN TF-IT CHO GOM CỤM VĂN BẢN DỰA TRÊN TẬP PHỔ BIẾN Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HỒ CHÍ MINH – 2017 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS TS Lê Hoài Bắc Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm 2017 Có thể tìm hiểu luận văn tại: Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Gom cụm văn kỹ thuật khai thác liệu mạnh mẽ để phát chủ đề tài liệu văn Đó tiến trình tổ chức đối tượng liệu thành tập lớp tách rời gọi cụm Các đối tượng cụm tương tự khác với đối tượng thuộc cụm khác Gom cụm văn công việc tự động tổ chức tài liệu văn vào cụm hay nhóm có ngữ nghĩa, nói cách khác, tài liệu cụm thuộc chủ đề, tài liệu cụm khác biểu diễn chủ đề khác Gom cụm văn có phạm vi ứng dụng rộng rãi Các ứng dụng gom cụm văn gồm: tự động tóm tắt dựa phương pháp gom cụm văn bản, tự động tổ chức tập băn bản, gom nhóm kết tìm kiếm Vì tốn học khơng giám sát, gom cụm văn chia thành: phương pháp phân hoạch, phương pháp phân cấp, phương pháp dựa lưới, phương pháp dựa mơ hình, phương pháp dựa mật độ,… Xu hướng gần gom cụm văn sử dụng tập phổ biến Phương pháp xử lý số chiều lớn liệu cách xem xét phần tử phổ biến cho việc gom cụm Một tập phần tử phổ biến tập từ xuất thường xuyên với ứng viên cho việc gom cụm.Nội dung luận văn trình bày theo bố cục sau: Chương 1: Giới thiệu tổng quan khai thác tập phổ biến gom cụm văn Chương 2: Trình bày Cơ sở lý luận cho việc gom cụm dựa tập phổ biến Trình bày số thuật tốn liên quan đến tìm tập phổ biến có trọng sơ số thuật toán gom cụm văn Chương 3: Xây dựng thuật tốn gom cụm văn có xem xét đến trọng số Cho ví dụ minh họa nhận xét Chương 4: Cài đặt chương trình thực nghiệm, chạy liệu mẫu so sánh đánh giá CHƯƠNG - TỔNG QUAN 1.1 Tầm quan trọng Gom cụm văn chức khai thác liệu văn Gom cụm văn gom tập hợp văn vào nhóm loại khác để tài liệu nhóm mơ tả thơng tin chủ đề Việc gom cụm nhanh xác đóng vai trò quan trọng lĩnh vực khai thác liệu văn hệ thống truy tìm thơng tin tự động Gom cụm văn công cụ hiệu để quản lý thông tin trùng lặp Bằng cách gom tài liệu tương tự lại với nhau, tập hợp lớn tài liệu nhanh chóng duyệt qua để dễ dàng nắm bắt chủ đề khác chúng truy vấn hiệu qua nhiều ứng dụng khác Vì vậy, nghiên cứu rộng rãi Gom cụm tài liệu văn đóng vai trò quan trọng tính hiệu tổ chức tài liệu, tóm tắt tài liệu, rút trích chủ đề truy tìm thơng tin Cho đến nay, có nhiều thuật tốn gom cụm văn giới thiệu với có nhiều cách phân loại chúng Cách phân loại phổ biến chia thành loại: phương pháp phân hoạch, phương pháp phân cấp phương pháp sử dụng tập phổ biến Trong đó, phương pháp sử dụng tập phổ biến phương pháp nghiên cứu gần phương pháp hiệu cho việc gom cụm văn Bởi vì, theo phương pháp từ văn xét xuất phổ biến Do đó, kích thước tập liệu giảm cách tự nhiên Theo xu hướng này, W Zhang đồng [9] giới thiệu thuật toán MC Thuật toán MC cho kết gom cụm tốt thuật toán giới thiệu trước Phân tích thuật tốn MC, chúng tơi nhận thấy độ phức tạp thuật tốn O(N ) Với độ phức tạp thuật toán khơng hiệu với tập ngữ liệu có số văn lớn Từ đó, luận văn tập trung nghiên cứu cải thiện độ xác thời gian thực thi thuật toán 1.2 Khai thác tập phổ biến Khai thác tập phổ biến việc tìm kết hợp mối liên hệ item tập liệu lớn giao dịch hay quan hệ Với kích thước liệu khổng lồ thu thập lưu trữ, nhiều công ty ứng dụng khai thác tập mẫu liệu họ Việc khám phá mối liên hệ thú vị dựa dòng liệu khổng lồ giúp đưa chiến lược kinh doanh, hỗ trợ việc thiết kế catalog, marketing, phân tích thói quen mua sắm khách hàng Một ứng dụng thường thấy khai thác tập item phổ biến phân tích giỏ hàng Q trình phân tích thói quen mua hàng tìm thấy mối kết hợp item mà khách hàng chọn mua Việc khám phá quan hệ kết hợp giúp cho người bán lẻ phát triển chiến lược marketing dựa sản phẩm thường người dùng mua chung, từ nâng cao hiệu kinh doanh Việc khai thác liệu rút luật kết hợp mua bán hàng trực tuyến giúp cho ngành thương mại điện tử phát triển, đáp ứng nhu cầu mua hàng ngày tăng với tốc độ nhanh chóng tiện lợi Khai thác tập phổ biến cơng trình quan trọng nhiều thời gian trình khai thác luật kết hợp Trong hầu hết thuật toán khai thác luật kết hợp, tác giả đặc biệt ý đến vấn đề làm thể để khai thác nhanh tập phổ biến Chính vậy, có nhiều cơng trình nghiên cứu tác giả tập trung vào việc nghiên cứu nhằm tìm thuật tốn hiệu cho toán khai thác tập phổ biến (FI) Một số thuật toán tiêu biểu cho việc giải toán như: thuật toán Apriori, Eclat, FP-growth, IT-Tree, … Trong phương phương pháp FP-growth cải tiến với việc khai thác FI dựa qua duyệt CSDL hai lần 1.3 Gom cụm liệu Gom cụm văn hướng nghiên cứu tốn gom cụm liệu nói chung Gom cụm văn tiến trình gom nhóm tài liệu chủ đề có nội dung tương tự vào cụm Các tài liệu chủ đề cụm có nội dung tương tự khác với tài liệu chủ đề cụm khác Hình 1.1 Ví dụ tập liệu gom cụm Một số yêu cầu cho toán gom cụm văn [6]: Số chiều lớn: Số lượng từ (thuật ngữ) tập tài liệu hàng ngàn chục ngàn Mỗi từ (thuật ngữ) chiều véc tơ tài liệu Khả mở rộng: Tập liệu thực tế hàng trăm hàng ngàn văn Nhiều thuật toán gom cụm làm việc tốt tập văn nhỏ, lại gặp lỗi với tập văn lớn Độ xác: Một giải pháp gom cụm tốt văn cụm phải có độ tương tự cao không tương đồng với văn cụm khác Tham số đầu vào: Nhiều thuật toán gom cụm yêu cầu người dùng xác định số tham số đầu vào, ví dụ, số lượng cụm Tuy nhiên, người dùng thường trước tri thức Độ xác gom cụm giảm đáng kể thuật toán nhạy cảm với tham số đầu vào 1.4 Mục đích cấu trúc luận văn Với luận văn tác giả mong muốn cải thiện tính xác hiệu cho tốn gom cụm văn Trong q trình nghiên cứu, tác giả nhận thấy cơng trình giới thiệu áp dụng phương pháp Apriori để tìm tập phổ biến Đã có nhiều cơng trình nghiên cứu Apriori không hiệu với sở liệu có kích thước lớn Điều tạo động lực cho tác giả tập trung nghiên cứu thực luận văn Đồng thời, tác giả mạnh dạn đề xuất thuật toán vào toán gom cụm văn Luận văn đề xuất áp dụng giải thuật WIT-Tree Bay Vo đồng [3] giới thiệu vào toán gom cụm văn bản, với mục tiêu cải tiến độ xác thời gian thực thi toán gom cụm CHƯƠNG - CƠ SỞ LÝ LUẬN 2.1 Các khái niệm 2.1.1 Cơ sở liệu giao dịch Cơ sở liệu D gồm {I, T}, I= {I1, I2,…, In} tập n phần tử (item) xét, T = {t1, t2, … , tm} tập hợp m giao dịch xét 2.1.2 Độ phổ biến Cho I = {I1, I2,….,In} tập items Cho D liệu có liên quan đến toán, tập CSDL giao dịch Mỗi giao dịch T tập items T I Mỗi giao dịch có định danh, gọi TID Cho A tập items Một giao dịch T gọi chứa A A T Cho sở liệu D tập liệu X I Độ phổ biến X D, ký hiệu (X), định nghĩa số giao dịch mà X xuất D 2.1.3 Tập phổ biến Tập X I gọi phổ biến (X) ≥ minSup (với minSup giá trị người dùng định) 2.2 Một số phương pháp khai thác tập phổ biến 2.2.1 Thuật toán Apriori Thuật toán Apriori [8] Agrawal giới thiệu vào năm 1994 để giải tốn tìm tập phần tử phổ biến sở liệu giao dịch 2.2.1.1 Thuật toán Thuật toán thực sau: Đầu vào: CSDL giao dịch D ngưỡng phổ biến minSup Đầu ra: FIs chứa tất tập phổ biến D Thuật tốn: Gọi Ck: Tập ứng viên có kích thước k Lk: Các tập phổ biến có kích thước k L1 = {i I: (i) ≥ minSup} for(k = 2; Lk-1 Ø; k++) Ck = {các ứng viên tạo từ Lk-1} For each t D For each c ∈ Ck if c t then c.count++ Lk = {c | c.count ≥ minSup} FIs = kLk Hình 2.1: Thuật tốn Apriori 2.2.1.2 Tính chất Apriori: Trong khai thác tập phổ biến, đề cập đến tính chất quan trọng độ phổ biến itemset Mọi tập tập phổ biến phổ biến, nghĩa X Y, Nếu σ (Y) ≥ minSup σ (X) ≥ minSup Mọi tập cha tập không phổ biến không phổ biến, nghĩa Y X, σ (X) < minSup σ (Y) < minSup [2] Tính chất áp dụng nhiều tốn khai thác tập phổ biến Nó giúp phát sinh ứng viên hiệu quả, tăng tốc độ khai thác 2.2.1.3 Ví dụ minh họa 2.2.1.4 Nhận xét - Tập C tạo cách kết hợp tập phổ biến với phần tử giao tác, phát sinh q nhiều tập ứng viên khơng cần thiết - Với tập ứng viên C, thuật tốn phải duyệt lại tồn sở liệu để tính độ hỗ trợ, điều làm tăng q nhiều thời gian xử lý Vì vậy, thuật tốn không đạt hiệu tốt sở liệu lớn 2.2.2 Phương pháp IT-Tree 2.2.2.1 Kết nối Galois Cho quan hệ hai δ ⊆ I x T chứa CSDL cần khai thác, I tập từ T tập văn Đặt X ⊆ I Y ⊆ T Ta định nghĩa hai ánh xạ P(I) P(T) sau: a) t : P(I)P(T), t(X) = {y T | x X, x y } b) i : P(T) P(I), i(Y) = {x I | y Y, x y} Ánh xạ t(X) tập văn sở liệu có chứa X, ánh xạ i(Y) tập từ có tất văn Y Cho X, X1, X2 P(I) Y, Y1, Y2 P(T) Kết nối Galois thỏa mãn tính chất sau: a) X1 X2 t(X1) t(X2) b) Y1 Y2 i(Y1) i(Y2) c) X i(t(X)) Y t(i(Y)) 2.2.2.2 Lớp tương đương Cho I tập phần tử X I, p(X,k) tiền tố có chiều dài k X Một quan hệ tương đương dựa tiền tố θk tập phần tử định nghĩa sau: X, Y I, X ≡θkY p(X, k) = p(Y, k) Tập tất phần tử có tiền tố X gọi lớp tương đương, ký hiệu lớp tương đương có tiền tố X [X] 2.2.2.3 Cấu trúc IT – tree Mỗi nút IT – tree gồm thành phần Itemset – Tidset: Xt(X) gọi IT-pair, với X: tập phần tử, t(X): tập giao dịch chứa X Các nút X thuộc lớp tương đương X chúng chia sẻ chung tiền tố X Thuật toán khai thác tập phổ biến IT-tree Zaki đồng [10] giới thiệu vào năm 1997, với tên gọi thuật toán Eclat Thuật toán mơ tả chi tiết hình 2.2 Đầu vào: Cơ sở liệu D độ hỗ trợ phổ biến minSup Đầu ra: Cây IT – tree ECLAT() [Ø] = {i I | (i) ≥ minSup} ENUMERATE_FREQUENT([Ø]) ENUMERATE_FREQUENT([P]) For all li [P] [Pi] = Ø For all lj [P] with j > i X = l i lj T = t(li) t(lj) If |T| ≥ minSup then [Pi] = [Pi] {XT} ENUMERATE_FREQUENT([Pi]) Hình 2.2: Thuật tốn ECLAT 2.2.2.4 Ví dụ minh họa 2.2.2.5 Nhận xét - Thuật toán dựa vào phần giao Tidset để tính nhanh độ phổ biến nên quét sở liệu lần - Do thuật tốn khơng sinh ứng viên nên hiệu khai thác thường cao so với họ thuật toán sinh ứng viên 2.2.3 Phương pháp FP-Tree Phương pháp FP-tree chia thành giai đoạn: giai đoạn xây dựng FP giai đoạn khai thác tập phổ biến từ FP 2.2.3.1 Xây dựng FP Giai đoạn xây dựng FP thực sau: 10 2.2.3.3 Ví dụ minh họa 2.2.3.4 Nhận xét - FP-tree duyệt CSDL lần, sau dùng phép chiếu để tạo CSDL cục item đơn, sau tạo FP cục khai thác cục cách đệ qui - Sử dụng phương pháp chia để trị để khai thác tập phổ biến - Là phương pháp không sinh ứng viên - Thường hiệu CSDL có mật độ trùng lắp liệu cao 2.2.4 Thuật toán MWIT-FWUI 2.2.4.1 Cấu trúc MWIT Cấu trúc MWIT bao gồm đỉnh cạnh Đỉnh: bao gồm thành phần - X: tập từ - T(X): Tập văn chứa X - wus: giá trị trọng số tập từ X có liên quan tới giá trị trọng số hữu ích tất văn ( ) = ∑ ∑ ∑ ( )= ( ) ( ) ∈ ( ) ∈ ∈ ( ) |S( )| Trong đó: số lượng từ từ khác văn văn giá trị trọng số từ |S( )| số Cạnh: Kết nối đỉnh mức k (gọi X) với mức K+1 (gọi Y) 2.2.4.2 Thuật toán MWIT-FWUI Chi tiết thuật toán thể sau: 11 Đầu vào: tập văn (D) ngưỡng minwus Đầu ra: FWUI tập tất từ phổ biến thỏa mãn minwus D Phương pháp: MWIT-FWUI() [Ø] = {j I: wus(j) ≥ minwus} FWUI = Ø FWUI_EXTEND([Ø]) FWUI_EXTEND([P]) Với li [P] thực Thêm li vào FWUI [Pi] = Ø Với lj [P], với j > i làm X = l i lj Y = t(li) ∩ t(lj) wus(X) = COMPUTE_WUS(Y) Nếu wus(X) ≥ minwus [Pi] = [Pi] {X x Y} FWUI_EXTEND([Pi]) Hình 2.5: Thuật tốn MWIT-FWUI 2.2.4.3 Ví dụ minh họa 2.3 Một số phương pháp gom cụm văn 2.3.1 Phương pháp gom cụm phân cấp Các thuật toán theo phương pháp tạo lớp cụm theo dạng cấu trúc Các thuật tốn theo hướng chia vào loại: loại thứ nhất, phương pháp gộp loại thứ hai, phương pháp chia Phương pháp gộp ban đầu xem văn cụm riêng biệt Sau đó, hai văn có tương đồng nhiều gộp lại thành cụm mới, tiến trình thực văn gom vào cụm tương ứng đạt số cụm xác định trước Độ phức tạp thời gian phương pháp gộp O(n2) chúng cần phải tính tốn độ tương tự tất đối tượng để tìm cặp đối tượng có độ tương tự 12 Xây dựng cụm cho đối tượng Gộp t cụm giống thành cụm Lặp lại bước điều kiện dừng thỏa Hình 2.6: Phương pháp gom cụm gộp Phương pháp chia ban đầu xem tất văn cụm Sau đó, chia cụm thành hai cụm tiếp tục thỏa điều kiện so khớp đạt số cụm xác định trước Đưa tất văn vào cụm Tách cụm thành t cụm Lặp lại bước thỏa điều kiện dừng Hình 2.7: Phương pháp gom cụm chia Trong phương pháp chia, thuật tốn gom cụm dùng để tách cụm (bước 2) Thuật toán Bisecting K-means thuật toán chia dùng thuật toán K-means để tách cụm tồi thành cụm Độ phức tạp thời gian thuật toán Bisecting K-means O(nIlogk) Độ phức tạp thấp thuật tốn K-means khơng xét tất đối tượng với tất trọng tâm cụm 2.3.2 Phương pháp gom cụm phân hoạch Thuật toán phổ biến theo phương pháp thuật toán K-means Các thuật toán khác theo phương pháp biến thể K-means Thuật toán K-means thực sau: 13 Đầu vào: Tập văn D K cụm Đầu ra: Tập K cụm: C1, C2, …, Ck Phương pháp: For i = to k { Chọn ngẫu nhiên ri D trọng tâm Ci } While có thay đổi nhóm Ci { Foreach x D { Tính d(x, ri), i = 1…k Đưa x vào nhóm Cj d(x, ri), i j, i =1…k } For i = to k { Tính lại trọng tâm ri } } Hình 2.8: Phương pháp gom cụm phân hoạch Điều kiện dừng thay đổi đối tượng cụm, cụm thay đổi lần lặp Một khả khác sau thực số lần lặp định nghĩa trước Độ phức tạp thời gian thuật toán K-means O(knI), với k số cụm, n số đối tượng, I số lần lặp 2.3.3 Phương pháp phân cụm sử dụng tập phổ biến Wang đồng (1999) giới thiệu tiêu chuẩn cho việc gom cụm giao tác sử dụng tập phổ biến Ý tưởng tiêu chuẩn tập phổ biến nên thuộc cụm cụm khác có tập phổ biến khác Bởi việc xem văn 14 giao tác từ (thuật ngữ) phần tử, phương pháp áp dụng để gom cụm văn Các thuật toán theo phương pháp có tiến trình xử lý sau: Đầu vào: Tập hợp văn D = {d1, … , dn} Đầu ra: Tập cụm kết Phương pháp: Áp dụng phương pháp tiền xử lý D Tạo sở liệu nhị phân B Dùng thuật toán Apriori khai thác tập phổ biến B Gom cụm văn theo phân hoạch Hình 2.9: Phương pháp gom cụm dùng tập phổ biến Ý tưởng MC cặp văn có tương đồng lớn so với tất cặp văn lại, hai văn nên gom vào cụm Ví dụ, di dj thuộc cụm, ta tìm thấy văn khác dk có độ tương đồng lớn so với dj, di, dj, dk nên đưa vào cụm Mơ hình xử lý MC thực sau: Đầu vào: Cơ sở liệu D minSup Đầu ra: Cụm văn Tiền xử lý văn Áp dụng Apriori để tìm tập phổ biến Dùng thuật toán MC để gom cụm văn Hình 2.10: Phương pháp MC Thuật tốn MC mơ tả chi tiết hình 2.14 15 Bước 1: Xây dựng ma trận tương đồng A Bước 2: Tìm giá trị nhỏ khác A Bước 3: Tìm giá trị lớn A, sau tìm tất cặp văn chưa gom cụm A có giá trị tương đồng giá trị lớn vừa tìm Bước 4: - Nếu giá trị lớn tìm bước với giá trị nhỏ tìm bước 2, tất cặp văn tương ứng chưa gom cụm dùng để tạo cụm - Nếu giá trị lớn tìm bước khơng giá trị nhỏ tìm bước 2, với tất cặp văn ứng với giá trị lớn xử lý sau: o Đầu tiên, với cặp văn bản, hai văn chưa thuộc cụm nào, hai văn nhóm lại với để tạo thành cụm o Tiếp theo, với cặp văn bản, hai văn thuộc cụm đó, văn lại chưa gom cụm đưa vào cụm o Cuối cùng, gán lại giá trị tương đương cho cặp văn Quay lại bước Bước 5: Nếu có văn chưa gom cụm, văn dùng để tạo cụm Hình 2.11: Thuật tốn MC CHƯƠNG - TF-IT CHO GOM CỤM VĂN BẢN 3.1 Bài toán gom cụm văn 16 Gom cụm văn tiến trình gom nhóm tài liệu chủ đề có nội dung tương tự vào cụm Các tài liệu chủ đề cụm có nội dung tương tự khác với tài liệu chủ đề cụm khác 3.2 Mô hình giải tốn gom cụm theo tf-it Trong phần này, luận văn giới thiệu phương pháp gom cụm văn luận văn đề xuất Luận văn gọi thuật toán đề xuất thuật toán TF-IT Thuật toán TF-IT thuật toán gom cụm văn có xét trọng số từ văn Hình 3.1: Mơ hình giải tốn gom cụm văn theo tf-it 3.2.1 Tiền xử lý văn Ta xem nội dung văn gồm nhiều câu Các câu ngăn cách dấu kết thúc câu (là dấu “.”, “?” “!”) ký tự xuống hàng (“\n”) Chúng ta xem tiêu đề câu Mỗi câu bao gồm nhiều thuật ngữ Bài toán tiền xử lý văn tiến hành gồm bước sau: 3.2.1.1 Loại bỏ hư từ Sau tách văn thành danh sách từ, ta tiến hành loại bỏ hư từ (stopword), từ khơng có ý nghĩa đặc biệt (ví dụ: you, are, a, this, that, there,…) văn Để loại bỏ hư từ, luận văn sử dụng từ điển hư từ cung cấp ngữ liệu Reuters 21578 Thuật toán loại bỏ hư từ thực sau: 17 Đầu vào: Tập văn D = {d1, d2, …, dn} từ điển hư từ S Đầu ra: Tập văn loại bỏ hư từ D’ = {d1’, d2’, … , dn’} Phương pháp: For di D thực While(!endoffile(di)) di’ = {wk di | wk wj S} Hình 3.2: Thuật tốn loại bỏ hư từ 3.2.1.2 Đánh trọng số theo TF-IDF TF-IDF kết hợp tần số từ khóa (TF: Term Frequency) nghịch đảo số văn chứa từ khóa (IDF: Inverted Document Frequency) Tần số từ khóa (TF: Term Frequency) tần suất xuất từ khóa tài liệu Một cách trực quan từ quan trọng cho tài liệu từ xuất nhiều lần tài liệu ( Trong , , ) = số lần xuất từ , ∑ ∈ , tài liệu Nghịch đảo số văn (IDF: Inverted Document Frequency): IDF nghịch đảo số văn chứa từ khóa Khơng phải tất từ khóa có độ quan trọng giá trị trọng số tương ứng với từ khơng quan trọng phải nhỏ Ví dụ, tần số từ chức “và”, “hoặc”, “cũng” thường lớn gây nhiễu đến nội dung tài liệu IDF tìm cách co lại trọng số tương ứng với từ khóa xuất nhiều văn = Trong đó: N tổng số văn bản, số văn chứa từ t = ∗ 3.2.2 Tìm tập phổ biến 3.2.2.1 Cây WIT-tree Nút: itemset gồm thành phần Itemset – Tidset - Weight: X×t(X) 18 Cạnh: đường nối hai nút Đặc điểm WIT-tree nút cha phần tiền tố nút nút tạo từ hai nút nút cha kết hợp với nút có cha với nút cha nằm bên phải nút cha 3.2.2.2 Thuật tốn khai thác tập phổ biến có trọng số từ WIT-tree Tập liệu đầu vào lưu trữ dạng tập tin văn Mỗi tập tin xem giao tác Mỗi từ tập tin xem item Thuật toán đề nghị sử dụng cách lưu trữ liệu sau: Bảng 3.1: Biểu diễn liệu Danh sách tập tin Danh sách từ d1 w1, w2, w4,… d2 w1, w3, w5,… … … dm w3, w5, w7, … 3.2.2.3 Thuật toán khai thác tập phổ biến Luận văn sử dụng thuật toán MWIT-FWUI giới thiệu [3] để khai thác tập phổ biến Thuật toán mơ tả chi tiết hình 3.3 19 Đầu vào: tập văn (D) ngưỡng minwus Đầu ra: FWUI tập tất từ phổ biến thỏa mãn minwus D Phương pháp: MWIT-FWUI() [Ø] = {j I: wus(j) ≥ minwus} FWUI = Ø FWUI_EXTEND([Ø]) FWUI_EXTEND([P]) Với li [P] thực Thêm li vào FWUI [Pi] = Ø Với lj [P], với j > i làm X = l i lj Y = t(li) ∩ t(lj) wus(X) = COMPUTE_WUS(Y) Nếu wus(X) ≥ minwus [Pi] = [Pi] {X x Y} FWUI_EXTEND([Pi]) Hình 3.3: Thuật tốn MWIT-FWUI 3.2.3 Gom cụm văn Với thuật toán MC ta thấy rằng, việc duyệt ma trận tương đồng A nhiều lần làm cho chi phí thuật tốn tăng cao Với sở liệu có kích thước n chi phí tìm kiếm O(n3) Do đó, thuật tốn hiệu với tốn gom cụm văn Vì vậy, luận văn đề xuất cải tiến thuật toán gom cụm nhằm cải tiến thời gian thực thi Ý tưởng cải tiến sau: thay vì, ta tìm giá trị lớn ma trận tương đồng A, ta chuyển ma trận A sang mảng chiều ghi nhận lại số vị trí cho tài liệu tương ứng Sau xếp mảng chiều giảm dần Tiếp theo, tiến hành gom cụm theo giá trị giảm dần ma trận Chi tiết thuật tốn trình bày hình 3.4: 20 Đầu vào: Cơ sở liệu D tập phổ biến FI Đầu ra: Danh sách cụm C Bước 1: Xây dựng ma trận tương đồng A Bước 2: Chuyển ma trận A sang mảng chiều B, đồng thời ghi nhận số cặp tài liệu tương ứng vào mảng Index Bước 3: Sắp xếp mảng B theo thứ tự giảm dần, ghi nhận thay đổi số cặp tài liệu tương ứng ma trận Index Bước 4: Tìm giá trị nhỏ Min khác B theo phương pháp tìm nhị phân Bước 5: Trong văn chưa gom cụm, thực hiện: - Với B[i] > Min, với tất cặp văn ứng với giá trị B[i] xử lý sau: o Đầu tiên, với cặp văn bản, hai văn chưa thuộc cụm nào, hai văn nhóm lại với để tạo thành cụm o Tiếp theo, với cặp văn bản, hai văn thuộc cụm đó, văn lại chưa gom cụm đưa vào cụm - Với B[i] == Min, với tất cặp văn ứng với giá trị B[i] xử lý sau: o Tất cặp văn tương ứng chưa gom cụm dùng để tạo cụm - Với B[i] = 0, có văn chưa gom cụm, văn dùng để tạo cụm Hình 3.4: Thuật tốn TF-IT CHƯƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Chuẩn bị liệu Bộ ngữ liệu luận văn sử dụng để đánh giá ngữ trích xuất từ liệu Reuters-21578 Từ ngữ liệu gốc chúng tơi trích xuất ngữ liệu để đánh giá kết 21 thực nghiệm Thông tin ngữ liệu trích xuất sau: ngữ liệu gồm 92 văn thuộc chủ đề, ngữ liệu gồm 314 văn thuộc chủ đề Thông tin chi tiết ngữ liệu trình bày bảng sau: Bảng 4.1: Bộ ngữ liệu Chủ đề Số văn Coffee 22 Fuel Gold 20 Livestock Reserve 12 Sugar 25 Tổng 92 Bảng 4.2: Bộ ngữ liệu Chủ đề Số văn Coffee 90 Fuel Gold 70 Livestock 16 Reserve 37 Sugar 97 Tổng 314 4.2 Phương pháp đánh giá Để đánh giá tính hiệu thuật toán gom cụm dùng tập phổ biến, cơng trình nghiên cứu sử dụng độ đo F (F-measure) Cơng thức độ đo F tính sau: F(i, j) = = × P(i, j) × R(i, j) P(i, j) + R(i, j) (, ) Với F(i,j) độ đo F cụm j lớp i P(i,j) độ rõ (precision) cụm j lớp i R(i,j) độ bao phủ (Recall) lớp i cụm j Tổng quát, độ đo F lớn cho kết gom cụm tốt 22 Độ rõ (, )= Độ bao phủ ( , ) = Với ni số lượng văn lớp i, nj số lượng văn cụm j, nij số lượng văn lớp i cụm j 4.3 Đánh giá kết Để đánh giá kết đạt được, luận văn so sánh kết với kết thuật toán MC [9], tiêu chí: độ đo F Các thuật tốn cài đặt NET Framework 4.5, sử dụng Visual Studio 2010, với cấu hình máy sau: Intel Corei5, 4GB RAM, Hệ điều hành Window 4.3.1 Bộ ngữ liệu Kết chạy thực nghiệm ngữ liệu với ngưỡng khác sau: 0,7 0,6 0,5 0,4 TF-IT 0,3 MC 0,2 0,1 0,09 0,092 0,1 0,15 Hình 4.1: Kết ngữ liệu 4.3.2 Bộ ngữ liệu Kết chạy thực nghiệm ngữ liệu với ngưỡng khác sau: 23 0,8 0,7 0,6 0,5 TF-IT 0,4 MC 0,3 0,2 0,1 0,1 0,15 0,17 0,2 Hình 4.2: Kết ngữ liệu 4.4 Nhận xét đánh giá Với liệu nhỏ số lượng văn chủ đề cách khơng lớn, thuật tốn TF-IT đạt kết tốt thuật tốn MC Nhưng với liệu có số lượng văn chủ đề cách lớn TF-IT có độ xác khơng tốt thuật toán MC Qua kết thực nghiệm ta thấy, với ngưỡng khác cho kết khác Do đó, việc xác định ngưỡng phù hợp cho tốn thách thức với tốn tìm tập phổ biến nói chung tốn gom cụm văn sử dụng tập phổ biến nói riêng 24 DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Võ Đình Bảy, Nâng cao hiệu thuật toán khai thác luật kết hợp dựa dàn, Luận án Tiến sĩ Khoa học máy tính, Đại học Khoa học Tự nhiên TP.HCM (2011) Tiếng Anh [2] Bay Vo, Bac Le, Jason J.Jung, “A Tree-based Approach for Mining Frequent Weighted Utility Itemsets”, Springer – Verlag Berlin Heidelberg, 2012 [3] F.Beil, M.Ester, X.W.Xu, “Frequent term – based text clustering”, Proceeding of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002, 436 - 442 [4] J.Han, et al, “Mining Frequent Patterns without Candidate Generation: A Frequent – Pattern Tree Approach”, Data Mining and Knowledge Discovery, 8th , 2004, 53 - 87 [5] John Wang, “Encyclopedia of Data Warehousing and Mining”, IDEA GROUP REFERENCE, Volume I , 555-559 [6] Magnus Rosell, “Introduction to Information Retrieval and Text Clustering”, 2006 [7] Rakesh Agrawal, R.Srikant, “Fast Algorithms for Mining Association Rules”, Proceeding of the 20th VLDB Conference Santiago, Chile, 1994 [8] Wen Zhang, Taketoshi Yoshida, Xijin Tang, Qing Wang, “Text Clustering Using Frequent Itemsets”, Knowledge – Based Systems 23 (2010) 379 – 388 [9] Zaki M J., Parthasarathy S., Ogihara M., and Li W, “New Algorithms for Fast Discovery of Association Rules”, Proc of KDD 1997, pp 283-286 ... thác tập phổ biến, đề cập đến tính chất quan trọng độ phổ biến itemset Mọi tập tập phổ biến phổ biến, nghĩa X Y, Nếu σ (Y) ≥ minSup σ (X) ≥ minSup Mọi tập cha tập không phổ biến không phổ biến, ... Cơ sở lý luận cho việc gom cụm dựa tập phổ biến Trình bày số thuật tốn liên quan đến tìm tập phổ biến có trọng sơ số thuật toán gom cụm văn Chương 3: Xây dựng thuật tốn gom cụm văn có xem xét... Một tập phần tử phổ biến tập từ xuất thường xuyên với ứng viên cho việc gom cụm. Nội dung luận văn trình bày theo bố cục sau: Chương 1: Giới thiệu tổng quan khai thác tập phổ biến gom cụm văn