GOM NHÓM văn bản dựa TRÊN mẫu hữu ÍCH được ĐÁNH TRỌNG PHỔ BIẾN

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN  TRẦN THANH TRÂM GOM NHĨM VĂN BẢN DỰA TRÊN MẪU HỮU ÍCH ĐƯỢC ĐÁNH TRỌNG PHỔ BIẾN LUẬN VĂN THẠC SĨ NGÀNH: KHOA HỌC MÁY TÍNH Mã số: 60480101 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS VÕ ĐÌNH BẢY TP HỒ CHÍ MINH – NĂM 2017 LỜI CẢM ƠN Tơi xin bày tỏ lòng biết ơn sâu sắc đến với Thầy hướng dẫn tôi, PGS TS Võ Đình Bảy Thầy tận tình bảo cho từ ngày đầu chập chững bước vào đường nghiên cứu khoa học Tính cẩn thận, trung thực, kiên nhẫn nghiêm túc công việc có ngày hơm phần khơng nhỏ học bảo từ Thầy Một lần nữa, xin gửi lời cảm ơn chân thành đến Thầy Tơi muốn bày tỏ lòng biết ơn đến với tập thể thầy cô trường Đại học Công nghệ Thông tin, nơi học tập nghiên cứu Các thầy cơ, anh chị phòng Sau đại học trường nhiệt tình hỗ trợ mặt thủ tục cho thời gian học tập làm luận văn Tôi gửi đến lời cảm ơn chân thành đến đồng nghiệp, bạn bè, nơi học tập làm việc nay, hỗ trợ cho tơi thời gian, góp ý cho tơi nội dung báo khoa học, góp phần cho việc hồn thành luận văn tơi Cuối cùng, tơi xin gửi lời cám ơn đến ba mẹ, anh chị em đồng nghiệp tơi Khơng có giúp đỡ ủng hộ từ họ, tơi khơng thể hồn thành luận văn LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn kết nghiên cứu thân Tất tài liệu tham khảo nêu rõ nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo Các cơng trình công bố trung thực chưa công bố cơng trình khác Tác giả luận văn MỤC LỤC DANH MỤC CÁC KÝ HIỆU – CÁC CHỮ VIẾT TẮT iii DANH MỤC CÁC BẢNG iv DANH MỤC CÁC HÌNH VẼ - ĐỒ THỊ v MỞ ĐẦU Chương TỔNG QUAN 1.1 Đặt vấn đề 1.2 Hướng tiếp cận đề tài 1.3 Các đóng góp luận văn 1.4 Cấu trúc luận văn Chương CƠ SỞ LÝ THUYẾT 2.1 Các khái niệm 2.1.1 Cơ sở liệu số lượng 2.1.2 Trọng số từ (TF-IDF) 2.2 Một số đặc điểm tiếng Việt 2.2.1 Đặc điểm ngữ âm 2.2.2 Đặc điểm từ vựng 2.2.3 Đặc điểm ngữ pháp 10 2.3 Cơng trình liên quan 11 2.3.1 Một số phương pháp khai thác tập phổ biến 11 2.3.2 Một số phương pháp gom nhóm văn dựa vào tập phổ biến 22 Chương GOM NHÓM VĂN BẢN TIẾNG VIỆT 29 3.1 Mơ hình toán 29 3.2 Xử lý văn 29 3.2.1 Tách từ tiếng Việt 30 3.2.2 Loại bỏ hư từ 30 3.3 Tìm mẫu hữu ích đánh trọng phổ biến 31 3.3.1 Định nghĩa 31 3.3.2 Thuật toán 31 i 3.4 Gom nhóm văn 33 3.5 Ví dụ minh họa 35 3.5.1 Khai thác mẫu hữu ích đánh trọng phổ biến 36 3.5.2 Gom nhóm văn 41 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 44 4.1 Thông tin liệu thực nghiệm 44 4.2 Phương pháp đánh giá 45 4.3 Kết thực nghiệm 45 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 53 5.1 Kết luận 53 5.2 Hướng phát triển 54 DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ 55 TÀI LIỆU THAM KHẢO .56 ii DANH MỤC CÁC KÝ HIỆU – CÁC CHỮ VIẾT TẮT Thuật ngữ/ Ý nghĩa từ viết tắt TF-IDF Term Frequency – Inverse Document Frequency MC Maximum Capturing CSDL Cơ sở liệu WIT-tree Weighted Itemset-Tidset tree MWIT-FWUI Modification Weighted Itemset Tidset - Frequent Weighted Utility Itemset WS Weighted Support FUI Frequent Utility Itemsets FI Frequent Itemsets NER Named-entity recognition iii DANH MỤC CÁC BẢNG Bảng 2.1 Cơ sở liệu số lượng Bảng 2.2 Trọng số item Bảng 2.3 Trọng số giao dịch văn 14 Bảng 2.4 Trọng số giao dịch hữu ích văn 20 Bảng 2.5 Ma trận tương đương 26 Bảng 2.6 Ma trận tương đương với văn (1, 2, 3, 4, 6, 9) gom nhóm 27 Bảng 2.7 Ma trận tương đương với văn gom nhóm 28 Bảng 3.1 Cơ sở liệu số lượng 35 Bảng 3.2 Cơ sở liệu số lượng (TF-IDF) 37 Bảng 3.3 Trọng số hữu ích giao dịch phổ biến văn 38 Bảng 3.4 Ma trận tương đương 41 Bảng 3.5 Ma trận tương đương vơi văn d3, d4, d6, d9 gom nhóm 42 Bảng 3.6 Ma trận tương đương vơi văn d1, d2, d3, d4, d6, d9 gom nhóm 42 Bảng 3.7 Ma trận tương đương với tất văn gom nhóm 43 Bảng 4.1 Dữ liệu thực nghiệm 44 Bảng 4.2 Kết độ đo F liệu 46 Bảng 4.3 Kết độ đo F liệu 48 Bảng 4.4 Kết độ đo F liệu .49 iv DANH MỤC CÁC HÌNH VẼ - ĐỒ THỊ Hình 2.1 Thuật toán WIT-FWI 14 Hình 2.2 Cây mẫu đánh trọng phổ biến với minws = 0.2 .17 Hình 2.3 Thuật tốn MWIT-FWUI 19 Hình 2.4 Cây mẫu hữu ích đánh trọng phổ biến với minwus = 0.2 22 Hình 2.5 Thuật tốn MC 26 Hình 3.1 Mơ hình tốn gom nhóm văn tiếng Việt .29 Hình 3.2 Ví dụ minh họa tách từ tiếng Việt .30 Hình 3.3 Ví dụ minh họa loại bỏ hư từ .30 Hình 3.4 Thuật tốn khai thác mẫu hữu ích phổ biến từ ma trận trọng số từ .32 Hình 3.5 Thuật tốn gom nhóm văn dựa mẫu hữu ích đánh trọng phổ biến 35 Hình 3.6 Cây mẫu hữu ích đánh trọng phổ biến với min_us = 0.2 40 Hình 4.1 Bộ liệu gồm 400 văn tương ứng với chủ đề 46 Hình 4.2 Số cụm gom dùng FI – liệu .47 Hình 4.3 Số cụm gom dùng FUI – liệu 47 Hình 4.4 Tương quan độ đo F liệu 47 Hình 4.5 Bộ liệu gồm 500 văn tương ứng với chủ đề 48 Hình 4.6 Số cụm gom dùng FI – liệu .48 Hình 4.7 Số cụm gom dùng FUI – liệu 49 Hình 4.8 Tương quan độ đo F liệu 49 Hình 4.9 Bộ liệu gồm 700 văn tương ứng với chủ đề 50 Hình 4.10 Số cụm gom dùng FI – liệu .50 Hình 4.11 Số cụm gom dùng FUI – liệu 51 Hình 4.12 Tương quan độ đo F liệu 51 v MỞ ĐẦU Gom nhóm văn chủ đề quan trọng khai thác liệu văn Một phương pháp hiệu để gom nhóm văn dựa mẫu phổ biến Đã có nhiều thuật tốn phát triển nhằm nâng cao độ xác cho tốn gom nhóm văn dựa mẫu phổ biến Tuy nhiên, thuật tốn lại khơng quan tâm vào trọng số từ văn Thực tế, xuất từ văn có tác động lớn đến việc gom nhóm chúng Luận văn đề xuất phương pháp để gom nhóm văn dựa vào mẫu hữu ích đánh trọng phổ biến Đầu tiên, tính TF-IDF cho từ văn nhằm tạo ma trận trọng số cho tập văn Kế đến, luận văn đề xuất thuật toán để khai thác mẫu hữu ích phổ biến từ ma trận trọng số Cuối cùng, dựa vào tập mẫu hữu ích khai thác được, tiến hành gom nhóm văn theo thuật tốn MC (Maximum Capturing) Luận văn thử nghiệm phương pháp kho ngữ liệu gồm 1.600 văn chia thành 16 chủ đề khác Kết thử nghiệm cho thấy phương pháp cải thiện đáng kể độ xác việc gom nhóm văn so với phương pháp gom nhóm dựa vào mẫu phổ biến Chương Tổng quan Chương TỔNG QUAN 1.1 Đặt vấn đề Với phát triển vượt bậc công nghệ thông tin, giới ngày gần nhau, phẳng Nhu cầu giao tiếp, trao đổi người dân toàn cầu lĩnh vực xã hội ngày trở nên tất yếu Bên cạnh đó, hệ thống liệu số hóa ngày gia tăng cách đáng kể để phục vụ cho nhu cầu lưu trữ, xử lý, tìm kiếm trao đổi thơng tin người Dữ liệu số hóa đa dạng, phong phú, tìm thấy dễ dàng thông qua Internet thường xuyên cập nhật, thay đổi nhằm phục vụ tốt cho nhu cầu tìm kiếm thông tin người Tuy nhiên người sử dụng muốn xếp thơng tin tìm theo nhóm văn nhiều thời gian cơng sức Và vậy, người dùng muốn có cơng cụ cho phép tự động gom nhóm văn có nội dung tương tự vào nhóm Từ tốn gom nhóm văn đời ● Li đồng đề xuất phương pháp CFWS (Clustering based on frequent word sequence), gom nhóm dựa vào chuỗi từ phổ biến vào năm 2008 [20] ● Edith đồng đề xuất phương pháp CMS (Document clustering based on maximal frequent sequences), gom nhóm văn dựa vào chuỗi phổ biến cực đại vào năm 2006 [10] ● Beil đồng đề xuất phương pháp FTC (Frequent term-based clustering), gom nhóm dựa vào thuật ngữ phổ biến vào năm 2002 [8] ● Fung đồng đề xuất phương pháp FIHC (Frequent itemset – based Hierarchical clustering), gom nhóm phân cấp dựa vào tập phổ biến vào năm 2003 [3] ● Gần phương pháp MC (Maximum Capturing) Zhang đồng đề xuất vào năm 2010 cho tốn gom nhóm văn dựa tập phổ biến [19] Chương Gom nhóm văn tiếng Việt Bước 5: Lặp lại bước bước ma trận tương đương Bảng 3.6 - Có giá trị max = 3, tìm cặp văn (d1, d3), (d1, d6), (d1, d7), (d1, d9), (d2, d4), (d2, d5), (d2, d9), (d3, d5), (d3, d6), (d3, d7), (d3, d8), (d4, d7), (d6, d7), (d6, d9), (d7, d8) có giá trị giá trị max - Ta thấy cặp văn trên, có văn d7, d8 cặp văn (d7, d8) chưa thuộc vào nhóm văn gom nhóm, ta gom (d7, d8) thành nhóm gán giá trị cho (d7, d8) - Ta xét tiếp thấy (d2, d5) có văn d2 thuộc nhóm (d1, d2, d3, d4, d6, d9), ta gom d5 vào nhóm có gán giá trị (d2, d5) - Ta (d1, d2, d3, d4, d5, d6, d9) nhóm; (d7, d8) nhóm - Gán giá trị cho cặp văn vừa tìm - Tất văn gom nhóm - Từ văn cho ban đầu ta gom thành nhóm: Nhóm (d1, d2, d3, d4, d5, d6, d9) Nhóm (d7, d8) - Kết thúc việc gom nhóm Bảng 3.7 Ma trận tương đương với tất văn gom nhóm 1 3 0 0 0 0 1 0 0 0 0 0 1 1 0 43 Chương Thực nghiệm đánh giá Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Thông tin liệu thực nghiệm Bộ liệu thử nghiệm trước tiên download tự động từ diễn đàn trực tuyến “www.vnexpress.net”, “www.dantri.com”, “www.thanhnien.vn”, v.v… bao gồm 1600 văn Tiếp theo đó, liệu định dạng thủ cơng, xóa trùng, phân loại thành 16 chủ đề tương ứng Để thực nghiệm, luận văn chia 16 chủ đề thành 03 liệu tương ứng bảng 4.1 Bảng 4.1 Dữ liệu thực nghiệm STT Chủ đề Số lượng văn Bộ liệu thử nghiệm Đời sống 100 Mỹ thuật 100 Virus-Hacker 100 Thể thao 100 Tennis 100 Y khoa 100 Âm nhạc 100 Sân khấu điện ảnh 100 Công nghệ thông tin 100 10 Thời trang 100 11 Bóng đá 100 12 Bất động sản 100 13 Ẩm thực 100 14 Bệnh cúm 100 15 Xe 100 16 Hình 100 16 1600 TC 44 Chương Thực nghiệm đánh giá 4.2 Phương pháp đánh giá Các thuật toán cài đặt NET Framework 4.0, sử dụng Visual Studio 2010, với cấu hình máy sau: Intel Core i5, 4GB RAM, hệ điều hành Windows 10 – 64 bit Để đánh giá tính hiệu thuật tốn gom nhóm dùng mẫu phổ biến, luận văn sử dụng độ đo F (F-measure) [13] Độ đo F tính theo công thức từ (4.1) – (4.4): F(i, j) = × P(i, j) × R(i, j) P(i, j) + R(i, j) (4.1) ni maxj F(i, j) n (4.2) P(i, j) = nij nj (4.3) R(i, j) = nij ni (4.4) F=∑ i Trong đó:  ni: số văn lớp i, nj số văn nhóm j, nij số văn lớp i nhóm j, n tổng số văn liệu  P(i,j) độ rõ ((Precision) nhóm j lớp i  R(i,j) độ bao phủ (Recall) lớp i nhóm j  F(i,j) độ đo F nhóm j lớp i Độ đo F cao, kết gom nhóm tốt 4.3 Kết thực nghiệm Hầu hết cơng trình nghiên cứu lĩnh vực gom nhóm văn tiếng Việt sử dụng phương pháp truyền thống điển phương pháp gom nhóm đồ thị [1], tác giả chọn giải pháp gom nhóm đồ thị cách sử dụng mạng Kohonen để đặc trưng văn rút trích ý từ khối văn hỗ trợ tạo trích lược thơng tin khối văn bản, tác giả xây dựng hệ thống gom nhóm thông điệp diễn đàn thảo luận nhằm hỗ trợ trích lược nội dung khối thơng điệp; gom nhóm dựa thực thể có tên [2], tác giả đề xuất khai thác ngữ nghĩa 45 Chương Thực nghiệm đánh giá văn thông qua thực thể có tên mối quan hệ chúng để gom nhóm tài liệu, từ tập liệu gồm tài liệu phân hoạch ban đầu, dựa vào giải thuật k-means đặc trưng thực thể có tên để nhóm tài liệu có tương đồng ngữ nghĩa văn vào nhóm tương ứng  Trong luận văn này, đề xuất sử dụng mẫu hữu ích đánh trọng phổ biến để gom nhóm văn bản, kết thực nghiệm cho thấy gom nhóm văn dựa vào mẫu phổ biến có độ xác cao hơn, thời gian xử lý tốt gom nhóm văn dựa vào bisecting k-means [13], luận văn khơng thử nghiệm so sánh với phương pháp truyền thống [1], [2] Luận văn tiến hành thử nghiệm so sánh với phương pháp gom nhóm văn dựa mẫu phổ biến [19] với 1600 văn liệu thu kết sau:  Bộ liệu gồm chủ đề (Đời sống, Mỹ thuật, Virus-Hacker, Thể thao) với 400 văn Kết chạy với ngưỡng tương ứng bảng 4.2 Bảng 4.2 Kết độ đo F liệu MS F FI FUI 0.15 0.14 0.13 0.12 0.11 0.1 0.09 0.085 0.08 0.07 0.05 0.57 0.7 0.59 0.76 0.52 0.78 0.56 0.72 0.64 0.82 0.6 0.8 0.64 0.74 0.61 0.82 0.63 0.84 0.68 0.83 0.62 0.83 Đối với liệu 1, thấy việc gom nhóm đạt kết cao Ở bảng 12, ta thấy với thuật tốn gom nhóm dựa vào tập phổ biến (FI), độ đo F đạt kết cao 0.68 (khoảng 68%) số văn gom vào nhóm Hình 4.1 Bộ liệu gồm 400 văn tương ứng với chủ đề 46 Chương Thực nghiệm đánh giá Hình 4.2 Số cụm gom dùng FI – liệu Với thuật tốn gom nhóm dựa vào tập đánh trọng hữu ích phổ biến (FUI), độ đo F đạt kết cao 0.84 (khoảng 84%) số văn gom vào nhóm Hình 4.3 Số cụm gom dùng FUI – liệu Hình 4.4 Tương quan độ đo F liệu 47 Chương Thực nghiệm đánh giá  Bộ liệu gồm chủ đề (Tennis, Y Khoa, Âm nhạc, Sân khấu điện ảnh, Công nghệ thông tin) với 500 văn Kết chạy với ngưỡng tương ứng bảng 4.3 Bảng 4.3 Kết độ đo F liệu MS F FI FUI 0.15 0.14 0.13 0.12 0.11 0.1 0.095 0.09 0.085 0.08 0.07 0.46 0.48 0.4 0.47 0.51 0.51 0.5 0.5 0.42 0.48 0.41 0.48 0.4 0.49 0.49 0.49 0.47 0.5 0.41 0.49 0.42 0.48 Đối với liệu 2, bảng 4.3, thấy thuật tốn gom nhóm dựa vào tập phổ biến (FI) thuật tốn gom nhóm dựa vào tập đánh trọng hữu ích phổ biến (FUI) có độ đo F cao 0.51 (khoảng 51%) số văn gom vào nhóm Hình 4.5 Bộ liệu gồm 500 văn tương ứng với chủ đề Hình 4.6 Số cụm gom dùng FI – liệu 48 Chương Thực nghiệm đánh giá Hình 4.7 Số cụm gom dùng FUI – liệu Hình 4.8 Tương quan độ đo F liệu  Bộ liệu gồm chủ đề (Thời trang, Bóng đá, Bất động sản, Ẩm thực, Bệnh cúm, Xe, Hình sự) với 700 văn Kết chạy với ngưỡng tương ứng bảng 4.4 Bảng 4.4 Kết độ đo F liệu M 0.1 S F FI FUI 0.37 0.43 0.095 0.09 0.085 0.08 0.075 0.07 0.065 0.06 0.05 0.045 0.04 0.035 0.4 0.46 0.37 0.54 0.37 0.52 0.37 0.56 0.38 0.57 0.44 0.53 0.48 0.51 0.52 0.53 0.5 0.57 0.49 0.54 0.5 0.54 0.54 0.59 Đối với liệu 3, bảng 4.4, thấy với thuật tốn gom nhóm dựa vào tập phổ biến (FI), độ đo F đạt kết cao 0.54 (khoảng 54%) số văn gom vào nhóm 49 Chương Thực nghiệm đánh giá Hình 4.9 Bộ liệu gồm 700 văn tương ứng với chủ đề Hình 4.10 Số cụm gom dùng FI – liệu Với thuật tốn gom nhóm dựa vào tập đánh trọng hữu ích phổ biến (FUI), độ đo F đạt kết cao 0.59 (khoảng 59%) số văn gom vào nhóm 50 Chương Thực nghiệm đánh giá Hình 4.11 Số cụm gom dùng FUI – liệu Hình 4.12 Tương quan độ đo F liệu 51 Chương Thực nghiệm đánh giá Từ kết thử nghiệm trên, luận văn đưa kết luận sau:  Kết gom nhóm thuật tốn gom nhóm dựa vào tập đánh trọng hữu ích phổ biến (FUI) đạt hiệu tốt có độ xác cao so với thuật tốn gom nhóm dựa vào tập phổ biến (FI)  Hiện chưa có cơng trình nghiên cứu ngưỡng tốt nhất, với ngưỡng khác cho kết độ đo F khác Do đó, việc xác định ngưỡng phù hợp cho toán thách thức với tốn tìm mẫu phổ biến nói chung tốn gom nhóm văn sử dụng mẫu phổ biến nói riêng 52 Chương Kết luận hướng phát triển Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Luận văn xây dựng thành công chương trình gom nhóm văn tiếng Việt đồng thời có số đóng góp sau: – Đề xuất phương pháp tạo ma trận trọng số từ văn dựa vào TF-IDF – Đề xuất thuật tốn khai thác mẫu hữu ích phổ biến ma trận trọng số – Sử dụng phương pháp MC mẫu hữu ích đánh trọng phổ biến để gom nhóm văn – Tiến hành thực nghiệm ngữ liệu mẫu để kiểm chứng tính hiệu mơ hình đề xuất Với đóng góp này, phương pháp sử dụng luận văn cải thiện đáng kể độ xác việc gom nhóm văn cụ thể độ đo F so với phương pháp gom nhóm dựa vào mẫu phổ biến Bên cạnh đó, luận văn xây dựng ba liệu để kiểm tra độ xác kết gom nhóm bao gồm 1600 văn thuộc 16 chủ đề từ diễn đàn trực tuyến “www.vnexpress.net”, “www.dantri.com”, “www.thanhnien.vn” Đối với liệu 1, việc gom nhóm đạt kết cao, độ đo F đạt kết cao 0.84 (khoảng 84%) số văn gom vào nhóm Đối với liệu 2, độ đo F cao 0.51 (khoảng 51%) số văn gom vào nhóm phương pháp Đối với liệu 3, độ đo F đạt kết cao 0.59 (khoảng 59%) số văn gom vào nhóm Qua ba liệu này, luận văn cho thấy kết gom nhóm thuật tốn gom nhóm dựa vào tập đánh trọng hữu ích phổ biến (FUI) đạt hiệu tốt có độ xác cao so với thuật tốn gom nhóm dựa vào tập phổ biến (FI) 53 Chương Kết luận hướng phát triển 5.2 Hướng phát triển Trong tương lai, luận văn tiếp tục áp dụng thêm đặc trưng ngôn ngữ như: từ nội dung, tên riêng, v.v… vào gom nhóm văn Mặt khác, luận văn tiếp tục thử nghiệm sử dụng phương pháp đánh trọng cho toán khác như: tìm kiếm văn bản, tóm tắt văn bản, phân loại văn bản, v.v… Tiếp tục kiểm tra chương trình với ngưỡng khác liệu khác để đánh giá chương trình Thực phương pháp đánh trọng số cho thực thể có tên (NER) nhằm nâng cao thêm tính xác cho kết gom nhóm Tiếp tục thực chuẩn hóa nhóm văn gom nhóm nhằm nâng cao tính hiệu độ xác cho kết Cải thiện chương trình nhằm tối ưu hóa thời gian xử lý việc gom nhóm Tiếp tục thử nghiệm chương trình ngơn ngữ khác so sánh kết 54 DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ Tiếng Anh Tram Tran, Bay Vo, Tho Thi Ngoc Le & Ngoc Thanh Nguyen (2017), “Text Clustering Using Frequent Weighted Utility Itemsets”, Cybernetics and Systems, 48(3), 193-209 (ISI, IF 1.434) 55 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng (2008), “Gom cụm đồ thị ứng dụng vào việc rút trích nội dung khối thơng điệp diễn đàn thảo luận”, Tạp chí phát triển Khoa học & Công nghệ tập 11, 21 – 32, số 05 [2] Dương Thị Thùy Vân (2010), “Gom cụm tài liệu dựa thực thể có tên”, Tạp chí Khoa học ứng dụng, Đại học Tôn Đức Thắng, số 11, 42-45 Tiếng Anh [3] B Fung, K Wang, M Ester (2003) “Hierarchical document clustering using frequent itemsets”, Proceedings of the 3rd SIAM International Conference on Data Mining, 59 – 70 [4] B Vo, F Coenen, B Le (2013), “A New Method for Mining Frequent Weighted Itemsets Based on WIT-trees”, Expert Systems with Applications 40(4), 12561264 [5] B Vo, B Le, J Jung (2012), “A tree-based approach for mining frequent weighted utility itemsets”, ICCCI’12, LNAI Vol 7653 (Springer), 114-123 [6] B Vo, N.Y Tran, D.H Ngo (2013), “Mining frequent weighted closed itemsets”, Advanced Computational Methods for Knowledge Engineering, 379390 [7] B Vo (2017), “An efficient method for mining frequent weighted closed itemsets from weighted items transaction databases”, Journal of Information Science and Engineering, Vol 33 No 1, 199-216 [8] F Beil, M Ester, X Xu (2002) “Frequent term-based text clustering”, Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 436–442 [9] F Tao, F Murtagh, M Farid (2003), “Weighted association rule mining using weighted support and significance framework”, Proceeedings of SIGKDD’03, 661-666 56 [10] H Edith, A Rene, J Carrasco-Ochoa, J Martinez-Trinidad (2006) “Document clustering based on maximal frequent sequences”, Proceedings of the FinTAL, LNAI, vol 4139, 257–267 [11] J Han, J Pei, Y Yin (2000), “Mining frequent patterns without candidate generation”, Proceedings of ACMSIGMOD Int Conf Management of Data (SIGMOD’00), 1–12 [12] M Khan, M Muyeba, F Coenen (2008), “A weighted utility framework for mining association rules”, Proceedings of Second UKSIM European Symposium on Computer Modeling and Simulation Second UKSIM European Symposium on Computer Modeling and Simulation, 87 – 92 [13] M Steinbach, G Karypis, V Kumar (2000), “A comparison of document clustering techniques”, KDD-2000 Workshop on Text Mining, 109–110 [14] M.Zaki, S.Parthasarathy, M.Ogihara, W.Li (1997), “New Algorithms for Fast Discovery of Association Rules”, Proceedings of KDD, 283-286 [15] R Agrawal, R Srikant (1994) “Fast Algorithms for Mining Association Rules”, Proceeding of the 20th VLDB Conference, 487 – 499 [16] Salton, G; McGill, M J (1986), “Introduction to modern information retrieval”, McGraw-Hill ISBN 978-0070544840 [17] Thang Mai, Bay Vo, Loan T.T Nguyen (2017), “A lattice-based approach for mining high utility association rules”, Information Sciences, Vol 399, pp 81–97 [18] U Yun (2017), “Mining frequent weighted itemsets without storing transaction ids and generating candidates”, International Journal of Uncertainty, Fuzziness and Knowlege-Based Systems, Vol 25, Issue 01, 111-144 [19] W Zhang, T Yoshida, X Tang, Q Wang (2010), “Text Clustering Using Frequent Itemsets”, Knowledge–Based Systems 23 (5), 379 – 388 [20] Y Li, S Chung, J Holt (2008), “Text document clustering based on frequent word meaning sequences”, Data & Knowledge Engineering 64 (1), 381–404 [21] http://www.maxreading.com/sach-hay/dai-cuong-ve-tieng-viet/dac-diem- tieng-viet-29201.html 57 ... khai thác mẫu hữu ích phổ biến từ ma trận trọng số từ .32 Hình 3.5 Thuật tốn gom nhóm văn dựa mẫu hữu ích đánh trọng phổ biến 35 Hình 3.6 Cây mẫu hữu ích đánh trọng phổ biến với... cận cho tốn gom nhóm văn bản, gom nhóm văn dựa vào mẫu phổ biến [8] Kết thực nghiệm cho thấy gom nhóm văn dựa vào mẫu phổ biến có độ xác cao hơn, thời gian xử lý tốt gom nhóm văn dựa vào bisecting... nhóm văn dựa vào mẫu hữu ích đánh trọng phổ biến Đầu tiên, tính TF-IDF cho từ văn nhằm tạo ma trận trọng số cho tập văn Kế đến, luận văn đề xuất thuật toán để khai thác mẫu hữu ích phổ biến từ

Định dạng
Số trang	64
Dung lượng	7,43 MB