Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 137 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
137
Dung lượng
1,14 MB
Nội dung
Lời cảm ơn Tơi xin bày tỏ lịng biết ơn chân thành đến Thầy PGS.TS Cao Hoàng Trụ Thầy tận tình hướng dẫn, định hướng tơi từ cách đặt vấn đề, phương pháp nghiên cứu khoa học đến công việc cụ thể luận án Xin chân thành cảm ơn tất quý Thầy Cô Khoa Khoa học Kỹ thuật máy tính tận tình truyền đạt kiến thức quý báu cho suốt trình học tập Xin cảm ơn quý Thầy Cô, anh chị bạn đồng nghiệp Trường Đại học Công Nghệ Thông Tin động viên, giúp đỡ tạo điều kiện cho tơi q trình thực luận án Xin cảm ơn cha mẹ, anh chị, tất người thân, bạn bè động viên, khuyến khích giúp đỡ tơi q trình học tập sống i Tóm tắt Ngôn ngữ tự nhiên chứa đựng nhiều hàm ý Sự mơ hồ nhập nhằng nghĩa xử lý tốt văn xác định thơng qua từ khóa Một giải pháp cho vấn đề hiểu rõ ngữ nghĩa văn bản, mà phần ngữ nghĩa văn lại xác định thực thể có tên mối quan hệ chúng Vì vậy, cần kết hợp thực thể có tên từ khóa vào khai thác ngữ nghĩa văn Luận án đề xuất kết hợp mơ hình khai thác thực thể có tên từ khóa vào gom cụm mờ tài liệu Các mơ hình mở rộng mơ hình khơng gian vectơ truyền thống, với việc khai thác đặc trưng thực thể có tên, cụ thể tên, lớp danh hiệu Đồng thời, với việc kết hợp với từ khóa, chất lượng gom cụm mờ mơ hình không bị ảnh hưởng ontology sở tri thức chưa hồn thiện, hay tài liệu khơng chứa thực thể có tên Kết thực nghiệm cho thấy chất lượng gom cụm mờ mơ hình kết hợp tốt mơ hình gom cụm mờ tài liệu theo từ khóa hay theo thực thể có tên tập tài liệu có từ khóa thực thể có tên đóng góp ngữ nghĩa Vì vậy, mơ hình xem sở cho nghiên cứu để tiếp tục nâng cao chất lượng gom cụm mờ tài liệu ii Abstract Especially the vagueness and ambiguity of natural languages are handled inadequately by keyword-based processing A solution for these problems is to understand the semantics of the texts, a basic part of which is determined by named entities and their relations Hence, a particular concern here is the exploring combinations of ontological features and keywords for text retrieval This thesis proposes that combine the models exploring named entities with keywords into fuzzy document clustering The models are based on an adaptation of the traditional Vector Space Model with an extension of named entity indexing, taking into account three features of names entities, namely, names, classes and identifiers The models also achieve tolerance to knowledge base incompleteness by taking advantage of keyword-based retrieval features Experiments show better quality of the proposed models as compared to the fuzzy keyword-based document clustering model and fuzzy named entity-based document clustering model on the datasets contain both named entities and keywords Thus the models provide grounds for further research and enhancement of fuzzy document clustering quality iii Mục lục Lời cảm ơn i Tóm tắt .ii Abstract iii Mục lục iv Danh mục hình v Danh mục bảng vii Chương 1: Tổng quan .1 1.1 Phát biểu vấn đề 1.2 Các công trình liên quan Chương 2: Cơ sở lý thuyết 2.1 Gom cụm mờ tài liệu 2.2 Mơ hình không gian vectơ 15 2.3 Phương pháp đánh giá chất lượng 22 Chương 3: Thực nghiệm đánh giá 29 3.1 Phương pháp thực nghiệm 29 3.2 Xây dựng tập kiểm thử .32 3.3 Thiết kế thực hệ thống 35 3.4 Kết thực nghiệm 42 3.5 Nhận xét kết .93 Chương 4: Tổng kết 96 4.1 Đóng góp luận án .97 4.2 Hướng phát triển .98 Phụ lục A: Phân tích tập Reuters-21578 100 Phụ lục B: Số liệu thực nghiệm 106 Tài liệu tham khảo 124 iv Danh mục hình Hình 2.1 Các giai đoạn trình gom cụm tổng quát Hình 2.2 Hai phân hoạch mờ có khoảng cách trung tâm cụm 24 Hình 3.1 Phương pháp thực nghiệm 30 Hình 3.2 Kiến trúc hệ thống .36 Hình 3.3 PE trung bình theo α (Reuters500, m = 2) 43 Hình 3.4 Số lần tối ưu theo α (Reuters500, PE, m = 2) 45 Hình 3.5 PE trung bình theo số lần tối ưu (Reuters500, m = 2) 45 Hình 3.6 XB trung bình theo α (Reuters500, m = 2) 47 Hình 3.7 Số lần tối ưu theo α (Reuters500, XB, m = 2) 48 Hình 3.8 XB trung bình theo số lần tối ưu (Reuters500, m = 2) 48 Hình 3.9 FVI trung bình theo α (Reuters500, m = 2) 50 Hình 3.10 Số lần tối ưu theo α (Reuters500, FVI, m = 2) 51 Hình 3.11 FVI trung bình theo số lần tối ưu (Reuters500, m = 2) 52 Hình 3.12 F-measure trung bình theo α (Reuters500, m = 2) 53 Hình 3.13 Số lần tối ưu theo α (Reuters500, F-measure, m = 2) 54 Hình 3.14 F-measure trung bình theo số lần tối ưu (Reuters500, m = 2) 55 Hình 3.15 PE trung bình theo α (Reuters500, m = 1.1) 56 Hình 3.16 Số lần tối ưu theo α (Reuters500, PE, m = 1.1) 57 Hình 3.17 PE trung bình theo số lần tối ưu (Reuters500, m = 1.1) 58 Hình 3.18 XB trung bình theo α (Reuters500, m = 1.1) 59 Hình 3.19 Số lần tối ưu theo α (Reuters500, XB, m = 1.1) 60 Hình 3.20 XB trung bình theo số lần tối ưu (Reuters500, m = 1.1) 61 Hình 3.21 FVI trung bình theo α (Reuters500, m = 1.1) 62 Hình 3.22 Số lần tối ưu theo α (Reuters500, FVI, m = 1.1) 63 v Hình 3.23 FVI trung bình theo số lần tối ưu (Reuters500, m = 1.1) 64 Hình 3.24 F-measure trung bình theo α (Reuters500, m = 1.1) 65 Hình 3.25 Số lần tối ưu theo α (Reuters500, F-measure, m = 1.1) 66 Hình 3.26 F-measure trung bình theo số lần tối ưu (Reuters500, m = 1.1) 67 Hình 3.27 PE trung bình theo α (Reuters350, m = 2) 69 Hình 3.28 Số lần tối ưu theo α (Reuters350, PE, m = 2) 70 Hình 3.29 PE trung bình theo số lần tối ưu (Reuters350, m = 2) 70 Hình 3.30 XB trung bình theo α (Reuters350, m = 2) 72 Hình 3.31 Số lần tối ưu theo α (Reuters350, XB, m = 2) 73 Hình 3.32 XB trung bình theo số lần tối ưu (Reuters350, m = 2) 73 Hình 3.33 FVI trung bình theo α (Reuters350, m = 2) 75 Hình 3.34 Số lần tối ưu theo α (Reuters350, FVI, m = 2) 76 Hình 3.35 FVI trung bình theo số lần tối ưu (Reuters350, m = 2) 76 Hình 3.36 F-measure trung bình theo α (Reuters350, m = 2) 78 Hình 3.37 Số lần tối ưu theo α (Reuters350, F-measure, m = 2) 79 Hình 3.38 F-measure trung bình theo số lần tối ưu (Reuters350, m = 2) 80 Hình 3.39 PE trung bình theo α (Reuters350, m = 1.1) 81 Hình 3.40 Số lần tối ưu theo α (Reuters350, PE, m = 1.1) 82 Hình 3.41 PE trung bình theo số lần tối ưu (Reuters350, m = 1.1) 83 Hình 3.42 XB trung bình theo α (Reuters350, m = 1.1) 84 Hình 3.43 Số lần tối ưu theo α (Reuters350, XB, m = 1.1) 85 Hình 3.44 XB trung bình theo số lần tối ưu (Reuters350, m = 1.1) 86 Hình 3.45 FVI trung bình theo α (Reuters350, m = 1.1) 87 Hình 3.46 Số lần tối ưu theo α (Reuters500, FVI, m = 1.1) 88 Hình 3.47 FVI trung bình theo số lần tối ưu (Reuters500, m = 1.1) 89 Hình 3.48 F-measure trung bình theo α (Reuters350, m = 1.1) .90 Hình 3.49 Số lần tối ưu theo α (Reuters350, F-measure, m = 1.1) 92 Hình 3.50 F-measure trung bình theo số lần tối ưu (Reuters350, m = 1.1) 92 Hình A.1 Cấu trúc thẻ tài liệu tập Reuters-21578 103 vi Danh mục bảng Bảng 2.1 Thuật toán FCM 12 Bảng 3.1 Các API tách file từ tập Reuters-21578 .33 Bảng 3.2 Cấu trúc tập kiểm thử Reuters500 .34 Bảng 3.3 Cấu trúc tập kiểm thử Reuters350 .35 Bảng 3.4 Các API S-Lucene sử dụng để tạo vectơ tài liệu 40 Bảng 3.5 PE trung bình theo α (Reuters500, m = 2) 43 Bảng 3.6 Số lần tối ưu theo α (Reuters500, PE, m = 2) 44 Bảng 3.7 PE trung bình theo số lần tối ưu (Reuters500, m = 2) 44 Bảng 3.8 XB trung bình theo α (Reuters500, m = 2) 46 Bảng 3.9 Số lần tối ưu theo α (Reuters500, XB, m = 2) 47 Bảng 3.10 XB trung bình theo số lần tối ưu (Reuters500, m = 2) 47 Bảng 3.11 FVI trung bình theo α (Reuters500, m = 2) 49 Bảng 3.12 Số lần tối ưu theo α (Reuters500, FVI, m = 2) 51 Bảng 3.13 FVI trung bình theo số lần tối ưu (Reuters500, m = 2) 51 Bảng 3.14 F-measure trung bình theo α (Reuters500, m = 2) 53 Bảng 3.15 Số lần tối ưu theo α (Reuters500, F-measure, m = 2) 54 Bảng 3.16 F-measure trung bình theo số lần tối ưu (Reuters500, m = 2) 54 Bảng 3.17 PE trung bình theo α (Reuters500, m = 1.1) 56 Bảng 3.18 Số lần tối ưu theo α (Reuters500, PE, m = 1.1) 57 Bảng 3.19 PE trung bình theo số lần tối ưu (Reuters500, m = 1.1) 57 Bảng 3.20 XB trung bình theo α (Reuters500, m = 1.1) 59 Bảng 3.21 Số lần tối ưu theo α (Reuters500, XB, m = 1.1) 60 Bảng 3.22 XB trung bình theo số lần tối ưu (Reuters500, m = 1.1) 60 Bảng 3.23 FVI trung bình theo α (Reuters500, m = 1.1) 62 vii Bảng 3.24 Số lần tối ưu theo α (Reuters500, FVI, m = 1.1) 63 Bảng 3.25 FVI trung bình theo số lần tối ưu (Reuters500, m = 1.1) 63 Bảng 3.26 F-measure trung bình theo α (Reuters500, m = 1.1) 65 Bảng 3.27 Số lần tối ưu theo α (Reuters500, F-measure, m = 1.1) 66 Bảng 3.28 F-measure trung bình theo số lần tối ưu (Reuters500, m = 1.1) 66 Bảng 3.29 PE trung bình theo α (Reuters350, m = 2) 68 Bảng 3.30 Số lần tối ưu theo α (Reuters350, PE, m = 2) 69 Bảng 3.31 PE trung bình theo số lần tối ưu (Reuters350, m = 2) 70 Bảng 3.32 XB trung bình theo α (Reuters350, m = 2) 71 Bảng 3.33 Số lần tối ưu theo α (Reuters350, XB, m = 2) 72 Bảng 3.34 XB trung bình theo số lần tối ưu (Reuters350, m = 2) 72 Bảng 3.35 FVI trung bình theo α (Reuters350, m = 2) 74 Bảng 3.36 Số lần tối ưu theo α (Reuters350, FVI, m = 2) 75 Bảng 3.37 FVI trung bình theo số lần tối ưu (Reuters350, m = 2) 76 Bảng 3.38 F-measure trung bình theo α (Reuters350, m = 2) 77 Bảng 3.39 Số lần tối ưu theo α (Reuters350, F-measure, m = 2) 79 Bảng 3.40 F-measure trung bình theo số lần tối ưu (Reuters350, m = 2) 79 Bảng 3.41 PE trung bình theo α (Reuters350, m = 1.1) 81 Bảng 3.42 Số lần tối ưu theo α (Reuters350, PE, m = 1.1) 82 Bảng 3.43 PE trung bình theo số lần tối ưu (Reuters350, m = 1.1) 82 Bảng 3.44 XB trung bình theo α (Reuters350, m = 1.1) 84 Bảng 3.45 Số lần tối ưu theo α (Reuters350, XB, m = 1.1) 85 Bảng 3.46 XB trung bình theo số lần tối ưu (Reuters350, m = 1.1) 85 Bảng 3.47 FVI trung bình theo α (Reuters350, m = 1.1) 87 Bảng 3.48 Số lần tối ưu theo α (Reuters350, FVI, m = 1.1) 88 Bảng 3.49 FVI trung bình theo số lần tối ưu (Reuters350, m = 1.1) 88 Bảng 3.50 F-measure trung bình theo α (Reuters350, m = 1.1) 90 Bảng 3.51 Số lần tối ưu theo α (Reuters350, F-measure, m = 1.1) 91 Bảng 3.52 F-measure trung bình theo số lần tối ưu (Reuters350, m = 1.1) 91 viii Bảng A.1 Số lượng phân loại tập Reuters-21578 104 Bảng A.2 Số lượng tài liệu theo chủ đề tập Reuters-21578 105 Bảng A.3 Số lượng tài liệu theo lớp thực thể tập Reuters-21578 .105 Bảng B.1 Giá trị PE theo c, α (Reuters500, VSM_OVL, m = 2) 106 Bảng B.2 Giá trị PE theo c, α (Reuters500, VSM_NOVL, m = 2) 107 Bảng B.3 Giá trị XB theo c, α (Reuters500, VSM_OVL, m = 2) 107 Bảng B.4 Giá trị XB theo c, α (Reuters500, VSM_NOVL, m = 2) 108 Bảng B.5 Giá trị FVI theo c, α (Reuters500, VSM_OVL, m = 2) 108 Bảng B.6 Giá trị FVI theo c, α (Reuters500, VSM_NOVL, m = 2) 109 Bảng B.7 Giá trị F-measure theo c, α (Reuters500, VSM_OVL, m = 2) 109 Bảng B.8 Giá trị F-measure theo c, α (Reuters500, VSM_NOVL, m = 2) .110 Bảng B.9 Giá trị PE theo c, α (Reuters500, VSM_OVL, m = 1.1) 111 Bảng B.10 Giá trị PE theo c, α (Reuters500, VSM_NOVL, m = 1.1) .111 Bảng B.11 Giá trị XB theo c, α (Reuters500, VSM_OVL, m = 1.1) 112 Bảng B.12 Giá trị XB theo c, α (Reuters500, VSM_NOVL, m = 1.1) .112 Bảng B.13 Giá trị FVI theo c, α (Reuters500, VSM_OVL, m = 1.1) 113 Bảng B.14 Giá trị FVI theo c, α (Reuters500, VSM_NOVL, m = 1.1) 113 Bảng B.15 Giá trị F-measure theo c, α (Reuters500, VSM_OVL, m = 1.1) .114 Bảng B.16 Giá trị F-measure theo c, α (Reuters500, VSM_NOVL, m = 1.1) 114 Bảng B.17 Giá trị PE theo c, α (Reuters350, VSM_OVL, m = 2) 115 Bảng B.18 Giá trị PE theo c, α (Reuters350, VSM_NOVL, m = 2) 116 Bảng B.19 Giá trị XB theo c, α (Reuters350, VSM_OVL, m = 2) 116 Bảng B.20 Giá trị XB theo c, α (Reuters350, VSM_NOVL, m = 2) 117 Bảng B.21 Giá trị FVI theo c, α (Reuters350, VSM_OVL, m = 2) 117 Bảng B.22 Giá trị FVI theo c, α (Reuters350, VSM_NOVL, m = 2) 118 Bảng B.23 Giá trị F-measure theo c, α (Reuters350, VSM_OVL, m = 2) 118 Bảng B.24 Giá trị F-measure theo c, α (Reuters350, VSM_NOVL, m = 2) .119 Bảng B.25 Giá trị PE theo c, α (Reuters350, VSM_OVL, m = 1.1) 120 Bảng B.26 Giá trị PE theo c, α (Reuters350, VSM_NOVL, m = 1.1) .120 ix Bảng B.27 Giá trị XB theo c, α (Reuters350, VSM_OVL, m = 1.1) 121 Bảng B.28 Giá trị XB theo c, α (Reuters350, VSM_NOVL, m =1.1) 121 Bảng B.29 Giá trị FVI theo c, α (Reuters350, VSM_OVL, m =1.1) 122 Bảng B.30 Giá trị FVI theo c, α (Reuters350, VSM_NOVL, m = 1.1) 122 Bảng B.31 Giá trị F-measure theo c, α (Reuters350, VSM_OVL, m = 1.1) .123 Bảng B.32 Giá trị F-measure theo c, α (Reuters350, VSM_NOVL, m = 1.1) 123 x Thống kê theo giá trị FVI Bảng B.13 thể giá trị FVI theo α giá trị c từ đến 10 mô hình VSM_OVL tập Reuters500 m = 1.1 Giá trị FVI tối ưu tuyệt đối α = 0.3, FVI = 0.912, tương ứng với số cụm c = α =0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 c=2 1.879 1.681 1.563 1.569 1.224 0.933 0.951 0.951 0.951 0.963 0.963 2.067 1.78 1.748 0.912 1.223 1.31 1.337 1.388 1.399 1.407 1.418 2.353 2.025 1.833 1.539 1.506 1.643 1.692 1.671 1.699 1.7 1.67 2.648 2.046 2.136 1.525 1.821 1.962 1.968 1.982 2.013 2.01 1.896 2.782 2.396 2.156 1.722 2.089 2.115 2.164 2.247 2.118 2.113 2.092 3.21 2.114 2.276 1.942 2.305 2.371 2.327 2.364 2.272 2.353 2.338 3.337 2.034 2.521 1.977 2.295 2.599 2.563 2.592 2.53 2.427 2.4 3.607 2.739 2.569 2.045 2.728 2.789 2.785 2.791 2.748 2.664 2.8 10 3.788 2.729 2.53 2.065 2.754 2.991 2.837 2.985 2.94 2.793 2.851 Bảng B.13 Giá trị FVI theo c, α (Reuters500, VSM_OVL, m = 1.1) Bảng B.14 thể giá trị FVI theo α giá trị c từ đến 10 mơ hình VSM_NOVL tập Reuters500 m = 1.1 Giá trị FVI tối ưu tuyệt đối α từ 0.6 đến 0.8, FVI = 0.951, tương ứng với số cụm c = α =0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 c=2 1.891 1.64 1.538 1.582 1.28 0.97 0.951 0.951 0.951 0.963 0.963 2.027 1.943 1.555 1.223 1.191 1.325 1.334 1.387 1.398 1.407 1.417 2.278 2.056 1.815 1.271 1.511 1.634 1.703 1.669 1.665 1.697 1.725 2.589 2.091 2.123 1.739 1.738 1.939 1.931 1.976 1.882 1.914 1.989 2.944 2.518 2.019 2.232 2.034 2.113 2.197 2.197 2.119 2.114 2.199 3.223 2.394 2.427 1.92 2.224 2.344 2.376 2.391 2.248 2.422 2.144 3.44 2.527 2.446 2.1 2.509 2.57 2.582 2.539 2.56 2.547 2.541 3.741 2.72 2.895 2.083 2.386 2.796 2.783 2.785 2.752 2.572 2.689 10 3.98 3.049 3.142 2.15 2.784 2.97 2.99 2.727 2.989 2.887 2.919 Bảng B.14 Giá trị FVI theo c, α (Reuters500, VSM_NOVL, m = 1.1) 113 Thống kê theo giá trị F-measure Bảng B.15 thể giá trị F-measre theo α giá trị c từ đến 10 mơ hình VSM_OVL tập Reuters500 m = 1.1 Giá trị F-measure tối ưu tuyệt đối α = 0.3, F-measure = 0.782, tương ứng với số cụm c = 10 α =0 c=2 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.565 0.569 0.558 0.591 0.523 0.472 0.456 0.437 0.429 0.425 0.42 0.539 0.573 0.538 0.565 0.505 0.451 0.39 0.366 0.37 0.36 0.348 0.539 0.52 0.509 0.629 0.526 0.377 0.359 0.336 0.319 0.309 0.301 0.545 0.53 0.528 0.669 0.552 0.336 0.332 0.292 0.295 0.281 0.268 0.504 0.533 0.54 0.655 0.584 0.3 0.281 0.275 0.25 0.232 0.239 0.544 0.536 0.538 0.738 0.673 0.266 0.252 0.242 0.217 0.215 0.214 0.523 0.512 0.334 0.693 0.533 0.252 0.234 0.221 0.209 0.204 0.195 10 0.521 0.55 0.52 0.782 0.597 0.259 0.229 0.218 0.211 0.189 0.192 Bảng B.15 Giá trị F-measure theo c, α (Reuters500, VSM_OVL, m = 1.1) Bảng B.16 thể giá trị F-measre theo α giá trị c từ đến 10 mơ hình VSM_NOVL tập Reuters500 m = 1.1 Giá trị F-measure tối ưu tuyệt đối α = 0.3, F-measure = 0.785, tương ứng với số cụm c = 10 α =0 c=2 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.577 0.544 0.6 0.566 0.53 0.476 0.455 0.441 0.429 0.425 0.42 0.531 0.513 0.558 0.599 0.514 0.457 0.391 0.368 0.357 0.361 0.355 0.55 0.552 0.551 0.6 0.583 0.418 0.346 0.35 0.323 0.298 0.309 0.529 0.504 0.537 0.574 0.58 0.345 0.316 0.296 0.296 0.274 0.271 0.539 0.535 0.527 0.648 0.61 0.303 0.285 0.275 0.255 0.247 0.238 0.512 0.515 0.525 0.668 0.612 0.272 0.259 0.23 0.22 0.221 0.213 0.514 0.528 0.513 0.68 0.678 0.252 0.233 0.224 0.21 0.21 0.197 10 0.532 0.525 0.529 0.785 0.601 0.262 0.228 0.209 0.21 0.195 0.193 Bảng B.16 Giá trị F-measure theo c, α (Reuters500, VSM_NOVL, m = 1.1) 114 Kết thực nghiệm tập Reuters350 với m = Thống kê theo giá trị PE Bảng B.17 thể giá trị PE theo α giá trị c từ đến 10 mơ hình VSM_OVL tập Reuters350 m = Giá trị PE tối ưu tuyệt đối α = 0.9, PE = 0.6831, tương ứng với số cụm c = α =0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 c=2 0.6931 0.6931 0.6931 0.6931 0.6931 0.6931 0.6931 0.6931 0.6931 0.6831 0.6931 1.0986 1.0986 1.0986 1.0986 1.0986 1.0986 1.0986 1.0986 1.0986 1.0986 1.0986 1.3863 1.3863 1.3863 1.3863 1.3863 1.3863 1.3863 1.3863 1.3863 1.3863 1.3863 1.6094 1.6094 1.6094 1.6094 1.6094 1.6094 1.6094 1.6094 1.6094 1.6094 1.6094 1.7918 1.7918 1.7918 1.7918 1.7918 1.7918 1.7918 1.7918 1.7917 1.7917 1.7917 1.9459 1.9459 1.9459 1.9459 1.9459 1.9459 1.9459 1.9459 1.9459 1.9459 1.9458 2.0794 2.0794 2.0794 2.0794 2.0794 2.0794 2.0794 2.0794 2.0794 2.0794 2.0794 2.1972 2.1972 2.1972 2.1972 2.1972 2.1972 2.1972 2.1972 2.1972 2.1972 2.1973 10 2.3026 2.3026 2.3026 2.3026 2.3026 2.3026 2.3026 2.3026 2.3025 2.3026 2.3025 Bảng B.17 Giá trị PE theo c, α (Reuters350, VSM_OVL, m = 2) Bảng B.18 thể giá trị PE theo α giá trị c từ đến 10 mơ hình VSM_NOVL tập Reuters350 m = Giá trị PE tối ưu tuyệt đối α = 0.9, PE = 0.6931, tương ứng với số cụm c = 115 α =0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 c=2 0.6931 0.6931 0.6931 0.6931 0.6931 0.6931 0.6931 0.6931 0.6931 0.6931 0.6931 1.0986 1.0986 1.0986 1.0986 1.0986 1.0986 1.0986 1.0986 1.0986 1.0986 1.0986 1.3863 1.3863 1.3863 1.3863 1.3863 1.3863 1.3863 1.3863 1.3863 1.3863 1.3862 1.6094 1.6094 1.6094 1.6094 1.6094 1.6094 1.6094 1.6094 1.6094 1.6094 1.6094 1.7918 1.7918 1.7918 1.7918 1.7918 1.7918 1.7918 1.7918 1.7918 1.7917 1.7917 1.9459 1.9459 1.9459 1.9459 1.9459 1.9459 1.9459 1.9459 1.9459 1.9459 1.9459 2.0794 2.0794 2.0794 2.0794 2.0794 2.0794 2.0794 2.0794 2.0794 2.0794 2.0794 2.1972 2.1972 2.1972 2.1972 2.1972 2.1972 2.1972 2.1972 2.1972 2.2972 2.1972 10 2.3026 2.3026 2.3026 2.3026 2.3026 2.3026 2.3026 2.3026 2.3025 2.3026 2.3025 Bảng B.18 Giá trị PE theo c, α (Reuters350, VSM_NOVL, m = 2) Thống kê theo giá trị XB Bảng B.19 thể giá trị XB theo α giá trị c từ đến 10 mô hình VSM_OVL tập Reuters350 m = Giá trị XB tối ưu tuyệt đối α = 0.6, XB = 5392.2, tương ứng với số cụm c = α =0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 c=2 391492.7 4258243 995667 226941 796929 170139 45713.1 47582.4 10077 23974.5 23896.6 2288789 1624490 925342 649900 698195 234514 81643.4 43805.4 168613 17034 44891.3 6776940 4819599 825409 711182 342752 234832 74363.3 178272 26488 14966 21452.5 1805399 48572.6 25386.6 171545 172842 236376 54929.9 45902.5 20176 22963 38480.5 44187.31 37537.4 24537.4 845114 302574 229938 76030 88193.3 20644 10563 19055.6 50046.57 25880.8 28658.5 12633.8 284187 98461 112253 49479.2 29112 17305.1 9467 3612768 30797.1 397168 20821.9 153316 9314.1 63994.6 52018.5 31288 17322.5 12994 51200.88 38238.7 30549.3 18376.1 7482.3 6388 5392.2 50406.4 32972 37435.7 8703.97 10 41520.51 39927.7 24365.8 10414.7 8473.1 6547.8 27658.3 77188 9300.9 33198.8 11336.9 Bảng B.19 Giá trị XB theo c, α (Reuters350, VSM_OVL, m = 2) 116 Bảng B.20 thể giá trị XB theo α giá trị c từ đến 10 mơ hình VSM_NOVL tập Reuters350 m = Giá trị XB tối ưu tuyệt đối α = 0.8, XB = 2745.9, tương ứng với số cụm c = 10 α =0 0.2 0.3 0.4 0.5 0.6 0.7 669400 279238 202236 167042 224591 638862.3 1186908 1757160 2143385 566445 321115 3124829 1486137 826212 549203 464726 59759.68 654460 1324972 1556304 54791.36 70050.5 60641.01 c=2 10 0.1 0.8 0.9 83268.4 40660 15957 21314 60858 62435.2 20500 18066 67584 126223 115233 35398.4 37268 20802.4 18716 336480 257305 99187.5 163017 17381 54045.8 29283 250642 83393 195431 73876.8 73490.5 29151 150236 16905 37006.7 21994.3 218093 70403 128624 71974.5 18883 30082.9 14042 48011.6 32728.8 18343.9 14560 9125.7 35618.3 36829.3 44553 17833.8 14129 48593.35 47392.8 27559 19957.2 8919.6 6407.4 21261.3 31362 34866 21646.8 9037.7 54253 47375.1 35057.9 10833.1 9444.8 7445.1 4030.01 53049.9 2745.9 21339.4 9582.9 90287.16 5489675 67949.3 36973 1022515 Bảng B.20 Giá trị XB theo c, α (Reuters350, VSM_NOVL, m = 2) Thống kê theo giá trị FVI Bảng B.21 thể giá trị FVI theo α giá trị c từ đến 10 mơ hình VSM_OVL tập Reuters350 m = Giá trị FVI tối ưu tuyệt đối α = 0.1, FVI = 1.494, tương ứng với số cụm c = α =0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 c=2 1.569 1.494 1.643 1.57 1.705 1.678 1.554 1.565 1.608 1.593 1.636 1.917 1.764 1.677 1.922 1.986 1.988 1.965 1.977 1.909 1.968 2.063 1.843 2.046 2.013 2.207 2.386 2.16 2.143 2.229 2.363 2.259 2.159 2.199 2.436 2.351 2.411 2.501 2.441 2.313 2.527 2.558 2.411 2.451 2.337 2.428 2.687 2.75 2.645 2.843 2.622 2.712 2.658 2.919 2.786 2.519 2.753 2.92 2.921 3.124 2.918 2.922 3.003 2.901 3.052 2.92 2.633 2.88 3.318 3.241 3.51 3.227 3.128 3.187 3.287 3.377 3.221 2.909 3.5 3.661 3.672 3.543 3.689 3.581 3.493 3.572 3.621 3.82 10 3.247 3.605 3.702 3.825 3.847 3.855 3.899 3.832 3.759 3.509 4.079 Bảng B.21 Giá trị FVI theo c, α (Reuters350, VSM_OVL, m = 2) 117 Bảng B.22 thể giá trị FVI theo α giá trị c từ đến 10 mơ hình VSM_NOVL tập Reuters350 m = Giá trị FVI tối ưu tuyệt đối α = 0.4, FVI = 1.587, tương ứng với số cụm c = α =0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 c=2 1.713 1.663 1.634 1.671 1.587 1.618 1.608 1.668 1.725 1.641 1.677 1.742 1.723 1.768 1.792 1.922 1.988 1.946 1.936 1.991 1.876 1.823 1.959 2.022 2.163 2.023 2.065 2.137 2.056 2.224 2.243 2.134 2.13 2.152 2.574 2.441 2.321 2.377 2.365 2.307 2.613 2.66 2.4 2.54 2.432 2.567 2.705 2.716 2.707 2.888 2.754 2.766 2.595 2.7 2.625 2.291 2.755 2.974 3.082 2.945 2.926 2.942 3.133 2.813 3.015 3.128 3.321 3.199 3.292 3.282 3.213 3.305 3.099 3.389 3.307 3.342 2.767 3.149 3.487 3.563 3.592 3.669 3.726 3.483 3.188 3.684 3.608 10 3.319 3.481 3.63 3.745 3.808 3.846 3.94 3.798 3.872 3.923 3.806 Bảng B.22 Giá trị FVI theo c, α (Reuters350, VSM_NOVL, m = 2) Thống kê theo giá trị F-measure Bảng B.23 thể giá trị F-measure theo α giá trị c từ đến 10 mô hình VSM_OVL tập Reuters350 m = Giá trị F-measure tối ưu tuyệt đối α = 0.2, F-measure = 0.59, tương ứng với số cụm c = α =0 c=2 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.509 0.56 0.59 0.571 0.53 0.53 0.558 0.56 0.557 0.561 0.547 0.53 0.548 0.55 0.559 0.51 0.547 0.522 0.534 0.538 0.54 0.565 0.512 0.543 0.515 0.513 0.555 0.521 0.548 0.506 0.502 0.548 0.544 0.524 0.533 0.544 0.538 0.518 0.512 0.522 0.55 0.535 0.492 0.537 0.518 0.538 0.524 0.525 0.506 0.527 0.538 0.551 0.522 0.532 0.512 0.542 0.515 0.516 0.508 0.509 0.521 0.536 0.54 0.521 0.5 0.527 0.557 0.532 0.504 0.514 0.516 0.517 0.529 0.517 0.51 0.503 0.512 10 0.542 0.519 0.522 0.518 0.52 0.522 0.511 0.516 0.525 0.515 0.521 Bảng B.23 Giá trị F-measure theo c, α (Reuters350, VSM_OVL, m = 2) 118 Bảng B.24 thể giá trị F-measure theo α giá trị c từ đến 10 mơ hình VSM_NOVL tập Reuters350 m = Giá trị F-measure tối ưu tuyệt đối α = 0, F-measure = 0.627, tương ứng với số cụm c = α =0 c=2 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.592 0.578 0.565 0.546 0.562 0.539 0.541 0.54 0.528 0.571 0.558 0.627 0.542 0.539 0.547 0.54 0.543 0.547 0.506 0.521 0.556 0.579 0.553 0.505 0.527 0.546 0.53 0.528 0.529 0.524 0.504 0.532 0.512 0.571 0.52 0.541 0.506 0.532 0.524 0.528 0.517 0.528 0.538 0.521 0.574 0.537 0.534 0.53 0.505 0.521 0.533 0.534 0.534 0.53 0.535 0.508 0.522 0.542 0.524 0.526 0.545 0.522 0.512 0.538 0.51 0.526 0.554 0.535 0.531 0.508 0.515 0.533 0.526 0.503 0.528 0.52 0.519 10 0.541 0.53 0.53 0.51 0.518 0.528 0.516 0.519 0.522 0.514 0.532 Bảng B.24 Giá trị F-measure theo c, α (Reuters350, VSM_NOVL, m = 2) Kết thực nghiệm tập Reuters350 với m = 1.1 Thống kê theo giá trị PE Bảng B.25 thể giá trị PE theo α giá trị c từ đến 10 mô hình VSM_OVL tập Reuters350 m = 1.1 Giá trị PE tối ưu tuyệt đối α = 1, PE = 0.1698, tương ứng với số cụm c = 119 α =0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 c=2 0.6931 0.6928 0.6722 0.556 0.478 0.4107 0.2615 0.2263 0.2001 0.1834 0.1698 1.0981 1.0977 0.9343 0.5148 0.4333 0.3663 0.3147 0.2753 0.2451 0.222 0.2043 1.3855 1.3854 1.0255 0.7502 0.6125 0.4121 0.3617 0.3295 0.3065 0.2318 0.2515 1.6076 1.6086 1.4131 0.8045 0.5857 0.4554 0.3761 0.3006 0.2845 0.2564 0.2349 2.6872 2.5507 2.0587 1.1786 0.9831 0.8073 0.5608 0.4776 0.415 0.3338 0.3122 1.9452 1.9444 1.7247 0.8839 0.7336 0.4932 0.4062 0.3437 0.2993 0.2522 0.2233 2.079 2.0789 1.9111 0.9986 0.6862 0.5109 0.4252 0.351 0.2809 0.236 0.2313 2.1969 2.1959 1.5866 1.0925 0.7659 0.5834 0.4153 0.3184 0.2805 0.2529 0.2158 10 2.302 2.3015 2.3009 1.1807 0.7698 0.5588 0.4348 0.3189 0.2711 0.2319 0.1989 Bảng B.25 Giá trị PE theo c, α (Reuters350, VSM_OVL, m = 1.1) Bảng B.26 thể giá trị PE theo α giá trị c từ đến 10 mơ hình VSM_NOVL tập Reuters350 m = 1.1 Giá trị PE tối ưu tuyệt đối α = 0.8, PE = 0.13, tương ứng với số cụm c = α =0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 c=2 0.6925 0.6923 0.6775 0.5704 0.402 0.3155 0.1696 0.2326 0.13 0.1844 0.2336 1.0985 1.0982 1.0972 0.5349 0.4517 0.3804 0.3241 0.2812 0.2484 0.2233 0.2134 1.3862 1.3856 1.129 0.7923 0.6203 0.4932 0.3496 0.297 0.2771 0.2479 0.2387 1.6087 1.6085 1.5193 0.8494 0.6253 0.4774 0.3891 0.3469 0.2484 0.2399 0.2349 1.7914 1.7905 1.7905 0.8328 0.6816 0.5657 0.4646 0.3939 0.2931 0.2267 0.2071 1.9452 1.9451 1.9443 0.9412 0.7649 0.5138 0.3904 0.3507 0.3147 0.2536 0.2193 2.0791 2.0788 1.988 1.0647 0.7161 0.589 0.4205 0.3585 0.2688 0.2684 0.2265 2.1968 2.1964 2.1064 1.1882 0.815 0.5672 0.4303 0.3418 0.2775 0.2479 0.2158 10 2.3022 2.3016 2.1465 1.2884 0.7935 0.6037 0.4756 0.3307 0.2756 0.2478 0.1882 Bảng B.26 Giá trị PE theo c, α (Reuters350, VSM_NOVL, m = 1.1) 120 Thống kê theo giá trị XB Bảng B.27 thể giá trị XB theo α giá trị c từ đến 10 mô hình VSM_OVL tập Reuters350 m = 1.1 Giá trị XB tối ưu tuyệt đối α = 1, XB = 0.6714, tương ứng với số cụm c = α =0 c=2 3706.27 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 11591.5 35.999 17.1497 11.002 7.8297 6.4258 5.2328 0.8734 4.096 0.6714 11991.2 4804.5 6790.1 10.7769 7.978 6.1529 5.0199 4.2303 3.6572 3.227 2.8962 74273.2 8053.04 4628.8 19.5392 5.1448 4.553 3.8394 3.4702 3.0526 2.4936 2.4498 44335.5 49419.8 36644 8.37799 4.7852 3.883 3.3147 2.8438 2.4727 2.5542 1.9567 39055 47692.4 763081 9.02226 5.3489 4.0783 3.2703 2.7649 2.6134 2.07 1.8518 16098.7 22773.1 3426.8 15.4847 6.8738 4.0988 3.3614 2.7142 2.1964 1.769 1.7313 47054.7 13042.9 8402.5 23863.6 6.7977 4.9106 3.3632 2.5204 2.0141 1.7272 1.6825 45400.7 12140.4 6442.3 273642 7.8166 4.8087 2.9022 2.3073 1.8037 1.4837 1.2756 10 35049.9 30902.8 13122 2358082 8.8881 4.1287 2.5904 2.3155 1.7905 1.4757 1.412 Bảng B.27 Giá trị XB theo c, α (Reuters350, VSM_OVL, m = 1.1) Bảng B.28 thể giá trị XB theo α giá trị c từ đến 10 mơ hình VSM_NOVL tập Reuters350 m = 1.1 Giá trị XB tối ưu tuyệt đối α = 1, XB = 1.3015, tương ứng với số cụm c = α =0 0.1 0.2 0.3 c=2 17679.1 7371.54 2903.69 24311.9 60588.4 0.4 0.5 0.6 0.7 0.8 0.9 19.2666 9.2078 6.2824 3.11 4.0139 2.1243 2.9684 3.6077 6772.15 12.0343 8.6143 6.5789 5.2705 4.3781 3.7367 3.2605 2.9972 123360 24169.7 3083648 25.3584 5.7281 4.8498 4.1476 3.5753 3.04 2.6698 2.3047 37206.2 23164.1 158316 12.1016 5.49 4.1135 3.4736 2.9942 2.8635 2.3552 1.9561 26366.4 17457.5 9893.25 12.6606 6.5695 4.2886 3.4877 2.8004 2.5558 2.1021 1.8499 36571.1 55072.5 10581.7 23.0341 8.5364 4.2374 3.4547 2.7823 2.1387 1.9592 1.6793 72644.8 17460.8 294223 852.888 8.4311 5.5952 3.4125 1.6505 2.1688 1.6755 1.5242 58724.8 35918.3 192576 117832 14.695 5.4786 3.0826 2.3535 1.9724 1.5721 1.3015 10 68706.6 21275.3 6798630 4731189 10.344 4.4188 3.6394 2.4941 1.8525 2.0826 1.4971 Bảng B.28 Giá trị XB theo c, α (Reuters350, VSM_NOVL, m =1.1) 121 Thống kê theo giá trị FVI Bảng B.29 thể giá trị FVI theo α giá trị c từ đến 10 mơ hình VSM_OVL tập Reuters350 m = 1.1 Giá trị FVI tối ưu tuyệt đối α = 0.8, FVI = 1.424, tương ứng với số cụm c = α =0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 c=2 1.431 1.612 1.596 1.578 1.538 1.557 1.461 1.428 1.424 1.47 1.457 1.538 1.635 1.904 1.888 1.874 1.876 1.855 1.852 1.856 1.846 1.833 1.695 2.212 1.984 2.372 2.408 2.29 2.228 2.214 2.22 2.097 2.154 2.221 2.051 2.216 2.75 2.713 2.573 2.564 2.402 2.452 2.402 2.377 2.188 2.231 2.561 2.994 3.019 2.934 2.664 2.617 2.564 2.439 2.42 2.267 2.828 2.926 3.203 3.157 2.959 2.854 2.786 2.742 2.718 2.139 2.765 3.197 2.999 3.439 3.151 3.102 3.089 3.02 2.86 2.779 2.833 2.695 2.851 3.241 3.765 3.532 3.398 3.226 3.033 3.105 2.917 10 3.001 3.521 3.928 4.028 3.827 3.605 3.412 3.279 3.115 3.001 2.977 Bảng B.29 Giá trị FVI theo c, α (Reuters350, VSM_OVL, m =1.1) Bảng B.30 thể giá trị FVI theo α giá trị c từ đến 10 mơ hình VSM_NOVL tập Reuters350 m = 1.1 Giá trị FVI tối ưu tuyệt đối α = 0.6, FVI = 1.391, tương ứng với số cụm c = α =0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.43 1.464 1.552 1.414 1.527 1.472 1.391 1.474 1.429 1.471 1.569 1.615 1.677 1.732 1.892 1.884 1.878 1.858 1.855 1.856 1.846 1.864 1.724 1.895 1.951 2.249 2.392 2.316 2.215 2.175 2.165 2.128 2.135 1.821 2.297 1.93 2.734 2.726 2.592 2.574 2.483 2.282 2.333 2.377 1.909 2.428 2.628 3.02 3.009 2.971 2.854 2.761 2.534 2.469 2.473 2.272 2.702 3.166 3.157 3.186 2.987 2.783 2.784 2.833 2.685 2.639 2.382 2.854 2.975 3.432 3.181 3.195 3.021 3.018 2.802 2.924 2.822 2.397 3.027 2.948 3.729 3.531 3.283 3.246 3.175 2.998 2.998 2.981 10 2.852 3.085 3.466 4.092 3.778 3.558 3.456 3.158 3.149 3.073 2.904 c=2 Bảng B.30 Giá trị FVI theo c, α (Reuters350, VSM_NOVL, m = 1.1) 122 Thống kê theo giá trị F-measure Bảng B.31 thể giá trị F-measre theo α giá trị c từ đến 10 mơ hình VSM_OVL tập Reuters350 m = 1.1 Giá trị F-measure tối ưu tuyệt đối α = 0.2, F-measure = 0.678, tương ứng với số cụm c = α =0 c=2 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.528 0.579 0.553 0.511 0.47 0.437 0.42 0.402 0.402 0.398 0.389 0.582 0.538 0.574 0.488 0.447 0.392 0.37 0.359 0.348 0.323 0.332 0.652 0.528 0.545 0.402 0.392 0.342 0.327 0.304 0.3 0.29 0.287 0.546 0.619 0.543 0.379 0.352 0.332 0.281 0.271 0.259 0.239 0.241 0.546 0.521 0.55 0.383 0.338 0.292 0.27 0.259 0.247 0.237 0.15 0.553 0.543 0.58 0.385 0.301 0.277 0.265 0.25 0.222 0.208 0.206 0.578 0.538 0.678 0.422 0.318 0.274 0.243 0.221 0.217 0.202 0.19 10 0.559 0.519 0.525 0.448 0.312 0.264 0.238 0.216 0.198 0.183 0.171 Bảng B.31 Giá trị F-measure theo c, α (Reuters350, VSM_OVL, m = 1.1) Bảng B 32 thể giá trị F-measre theo α giá trị c từ đến 10 mơ hình VSM_NOVL tập Reuters350 m = 1.1 Giá trị F-measure tối ưu tuyệt đối α = 0, F-measure = 0.668, tương ứng với số cụm c = α =0 c=2 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.594 0.566 0.601 0.524 0.474 0.442 0.421 0.408 0.402 0.398 0.402 0.514 0.556 0.6 0.51 0.415 0.402 0.367 0.356 0.343 0.327 0.33 0.668 0.509 0.637 0.429 0.404 0.353 0.332 0.314 0.288 0.285 0.287 0.621 0.533 0.524 0.393 0.354 0.328 0.314 0.293 0.269 0.238 0.233 0.585 0.527 0.504 0.404 0.349 0.305 0.272 0.263 0.252 0.242 0.223 0.559 0.554 0.627 0.411 0.306 0.291 0.261 0.254 0.218 0.221 0.199 0.583 0.534 0.646 0.45 0.326 0.269 0.251 0.237 0.209 0.201 0.193 10 0.499 0.561 0.598 0.481 0.311 0.26 0.245 0.214 0.201 0.183 0.165 Bảng B.32 Giá trị F-measure theo c, α (Reuters350, VSM_NOVL, m = 1.1) 123 Tài liệu tham khảo [1] Advances in Fuzzy Clustering and its Applications, J.V Oliveira & W Pedrycz (Eds), John Wiley & Sons, Ltd, 2007 [2] A.K Jain , M.N Murty & P.J Flynn, “Data Clustering: A Review,” in ACM Computing Surveys, vol 31, no 3, 1999, pp 164-323 [3] C.H Tru, D.T Hai, H.T Dung & Q.T Tho, “Fuzzy Named Entity-Based Document Clustering,” IEEE International Conference on Fuzzy System, 2008 [4] C.H Tru, L.C Khanh & N.M Vuong, “Exploring Combinations of Ontological Features and Keywords for Text Retrieval,” in Proceedings of the 10th Pacific Rim International Conference on Artificial Intelligence, 2008 [5] D.D Lewis, “Evaluating Text Categorization,” in Proceedings of the Speech and Natural Language Workshop, 1991, pp 312-318 [6] D.T.T Van, “Document Clustering by Named Entity and Keyword,” Master Thesis, HCM University of Technology, 2008 [7] F Huang, “Cluster-Specific Named Entity Transliteration,” in Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP), 2005, pp 435442 [8] G Salton & M.J McGill, Introduction to Modern Information Retrieval, McGrawHill Book Co., 1983 124 [9] H Maria, B Yannis & V Michalis, “On Clustering Validation Techniques,” Journal of Intelligent Information Systems, 2001, pp 107145 [10] H.N.C Tam, “Document Clustering by Named Entity,” Master Thesis, HCM University of Technology, 2006 [11] I Thurlow, A Duke & J Davies, "Applying Semantic Web Technology in a Digital Library," in The 3rd European Semantic Web Conference Budva (Montenegro), 2006 [12] J.C Bezdek, Pattern Recogntiion with Fuzzy Objective Function Algorithms, New York Plenum Press, 1981 [13] K Kummamuru, A Dhawale & R Krishnapuram, "Fuzzy Co-clustering of Documents and Keywords," IEEE International Conference on Fuzzy Systems, vol 2, 2003, pp 772-777 [14] L Mahnhoon, “Fuzzy Cluster Validity Index Based on Object Proximities Defined over Fuzzy Partition Matrices,” IEEE International Conference on Fuzzy Systems, 2008 [15] M.E.S Mendes & L Sacks, “Evaluating Fuzzy Clustering for Relevancebased Information Access”, IEEE International Conference on Fuzzy Systems, vol 1, 2003, pp 648-653 [16] M.E.S Mendes Rodrigues & L Sacks, “A Scalable Hierarchical Fuzzy Clustering Algorithm for Text Mining,” in Proceedings of the 4th International Conference on Recent Advances in Soft Computing, Nottingham, UK, 2004, pp 269-274 [17] M.H Fazel Zarandi, E Neshat & I.B Turksen, “A New Cluster Validity Index for Fuzzy Clustering Based on Similarity Measure,” in Proceedings of International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular Computing (RSFDGrC), 2007, pp 127-135 125 [18] M Steinbatch, G Karypis & V Kumar, “A Comparison of Document Clustering Techniques,” Department of Computer Science and Engineering, University of Minnesota, Technical Report # 00-034, 2000 [19] N Chinchor & P Robinson, "MUC-7 Named Entity Task Definition (version 3.5), " in Proceedings of the MUC-7, 1998 [20] Q.T Tho, S C Hui, A.C.M Fong & C.H Tru, “Automatic Fuzzy Ontology Generation for the Semantic Web”, IEEE Transactions on Knowledge and Data Engineering, vol 18, 2006, pp 842-856 [21] R Bekkerman, R El-Yaniv, N Tishby, & Y Winter, “Distributional Word Clusters vs Words for Text Categorization,” in Special Issue on Variable and Feature Selection of JMLR, 2003 [22] R Kashef & M Kamel, "Distributed Cooperative Hard-Fuzzy Document Clustering," in Proceedings of the 3rd Annual Scientific Conference of the LORNET Research Network (I2LOR-06), Montreal, Canada, 2006 [23] R Kondadadi & R Kozma, “A Modified Fuzzy ART for Soft Document Clustering,” IEEE International Joint Conference on Neural Networks, vol 3, 2002, pp 2545-2549 [24] R Sracoglu, K Tutuncu & N Allahverdi, “A Fuzzy Clustering Approach for Finding Similar Documents using a Novel Similarity Measure,” Expert Systems with Applications, vol 33, 2007, pp 600-605 [25] S Miyamoto, “Fuzzy Multisets and Fuzzy Clustering of Documents,” IEEE International Conference on Fuzzy Systems, vol 3, 2001, pp.1539-1542 [26] T Berners-Lee, J Hendler & O Lassila, "The Semantic Web," in Scientific American Magazine, 2001 126 [27] T.R Gruber, "Toward Principles for the Design of Ontologies used for Knowledge Sharing," International Journal of Human-Computer Studies, vol 43, 1995, pp 907-928 [28] U Straccia, “A Fuzzy Description Logic for the Semantic Web,” in Fuzzy Logic and the Semantic Web, Capturing Intelligence, Sanchez, Ed Elsevier Science, 2006 [29] W-C Tjhi & L Chen, “Possibilistic Fuzzy Co-clustering of Large Document Collections”, Pattern Recognition, vol 40, 2007, pp 3452-3466 [30] W Weina & Z Yunjie, “On Fuzzy Cluster Validity Indices,” Fuzzy Sets and Systems, vol 158, 2007, pp 2095-2117 [31] X.L Xie & G Beni, "A Validity Measure for Fuzzy Clustering," IEEE Transactions on Pattern Analysis and Machine lnrelligence, vol 13, 1991, pp 841-847 [32] Y Fukuyama & M Sugeno, "A New Method of Choosing the number of Clusters for the Fuzzy C-means Method," in Proceedings of 5th Fuzzy Systems Symposium, 1989, pp 247-250 [33] Y Tang, F Sun & Z Sun, “Improved Validation Index for Fuzzy Clustering,” in Proceedings of American Control Conference, 2005, pp 1120-1125 127 ... xét theo theo từ khóa Hai hệ thống chọn so sánh hệ thống gom cụm mờ tài liệu theo từ khóa hệ thống gom cụm mờ tài liệu theo thực thể có tên, tương ứng α = mơ hình trở thành gom cụm túy theo từ khóa, ... mờ tài liệu túy theo từ khóa túy theo thực thể có tên 31 Hệ thống gom cụm mờ tài liệu theo từ khóa Mục đích việc so sánh kết gom cụm với hệ thống gom cụm mờ tài liệu theo từ khóa để thẩm định... hình gom cụm mờ tài liệu theo từ khóa hay theo thực thể có tên tập tài liệu có từ khóa thực thể có tên đóng góp ngữ nghĩa Vì vậy, mơ hình xem sở cho nghiên cứu để tiếp tục nâng cao chất lượng gom