Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
560,5 KB
Nội dung
ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ TRONG KHAI PHÁ DỮ LIỆU WEB Đỗ Quang Khơi1 Tóm tắt: World Wide Web kho liệu khổng lồ, việc khai phá Web để khám phá thơng tin, tri thức hữu ích mang ý nghĩa quan trọng Với mục đích đó, báo trình bày tổng quan khai phá liệu Web, hướng tiếp cận phân cụm tài liệu Web Qua đó, báo giới thiệu mơ hình tiếp cận phân cụm tài liệu Web kỹ thuật phân cụm liệu mờ trình bày cụ thể trình tìm kiếm phân cụm tài liệu Web kỹ thuật phân cụm liệu mờ với thuật toán Fuzzy C-Means Giới thiệu Các phương pháp phân tích liệu truyền thống (dữ liệu rõ) tập trung phân tích tập liệu ban đầu thành cụm liệu có tính tự nhiên đối tượng liệu thuộc cụm liệu, phương pháp phù hợp với việc khám phá cụm có mật độ cao rời nhau, với đường biên cụm xác định tốt Tuy nhiên, thực tế, đường biên cụm mờ, cụm chồng lên nhau, nghĩa số đối tượng liệu thuộc nhiều cụm khác Do đó, phương pháp phân cụm truyền thống không mô tả liệu thực Vì vậy, người ta áp dụng lý thuyết tập mờ phân cụm liệu (PCDL) để giải cho trường hợp Cách thức kết hợp gọi PCDL mờ (gọi tắt phân cụm mờ) Hơn nữa, World Wide Web (WWW) kho thông tin khổng lồ với tiềm coi giới hạn Để đáp ứng phần nhu cầu tìm kiếm sử dụng nguồn tri thức này, người ta xây dựng cơng cụ tìm kiếm xử lý thông tin cách áp dụng kỹ thuật khai phá liệu (KPDL) khai phá tài ngun Web Trong đó, PCDL Web tốn điển hình khai phá tài nguyên Web Hiện có số thuật tốn PCDL sử dụng phân cụm tài liệu thuật toán phân cụm phân hoạch, thuật toán phân cụm phân cấp,… Tuy nhiên, thực tế nội dung trang Web thuộc vào nhiều nhóm chủ đề khác Vì vậy, phân cụm theo nội dung trang Web với hướng tiếp cận truyền thống tỏ nhiều hạn chế Để giải vấn đề này, hướng nghiên cứu áp dụng kỹ thuật PCDL theo cách tiếp cận mờ KPDL Web Bài báo xem xét khía cạnh sử dụng kỹ thuật phân cụm liệu mờ KPDL Web thực nghiệm chương trình ứng dụng thực tìm kiếm Web sau phân cụm kết tìm kiếm hai kỹ thuật phân cụm: phân cụm rõ với thuật toán k-means phân cụm mờ với thuật toán Fuzzy C-Means (FCM) ThS, Trung tâm Học liệu, trường Đại học Quảng Nam ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ TRONG KHAI PHÁ … Tổng quan khai phá liệu Web Với phát triển nhanh chóng Internet, thông tin WWW trở thành kho liệu khổng lồ hầu hết lĩnh vực kinh tế, xã hội, trị, giáo dục, khoa học, WWW chứa sưu tập thông tin phong phú đa dạng nội dung trang web với cấu trúc siêu văn đa phương tiện, thông tin siêu liên kết, truy cập sử dụng thông tin, cung cấp nguồn liệu đồ sộ cho KPDL Hình Phân loại KPDL Web Có nhiều khái niệm khác KPDL Web Tuy nhiên, theo [6], [8], ta có khái niệm tổng quát sau: KPDL Web việc sử dụng kỹ thuật KPDL để khám phá thông tin, tri thức hữu ích từ cấu trúc siêu liên kết, nội dung trang web liệu sử dụng Dựa kiểu liệu sử dụng q trình khai phá, KPDL Web phân thành ba loại: khai phá nội dung, khai phá cấu trúc khai phá theo sử dụng [8] • Khai phá nội dung Web: Khai phá nội dung Web nhằm trích lọc khai thác thơng tin hữu ích, tri thức từ nội dung trang Khai phá nội dung Web phân biệt hai cách tiếp cận: tiếp cận dựa hành động tiếp cận dựa CSDL Cách tiếp cận thứ nhằm mục đích cải thiện việc tìm kiếm trích lọc thơng tin Cách tiếp cận thứ hai nhằm mục đích mơ hình hóa liệu Web thành dạng có cấu trúc để áp dụng vào truy vấn CSDL ứng dụng KPDL • Khai phá cấu trúc Web: Khai phá cấu trúc Web nhằm phát tri thức hữu ích từ siêu liên kết, siêu liên kết đặc trưng cho cấu trúc Web Ví dụ, từ liên kết, khám phá trang web quan trọng, chúng kỹ thuật quan trọng sử dụng máy tìm kiếm KPDL truyền thống khơng thường khơng có cấu trúc liên kết bảng quan hệ 51 ĐỖ QUANG KHƠI • Khai phá theo sử dụng Web: Khai phá theo sử dụng Web đề cập đến khám phá mẫu truy cập người dùng từ ghi sử dụng Web (Web log records) Phân tích q trình đăng nhập Web người dùng giúp cho việc xây dựng dịch vụ Web theo yêu cầu người dùng riêng lẻ tốt Một vấn đề quan trọng khai phá theo sử dụng Web tiền xử lý luồng liệu nhấp chuột ghi sử dụng nhằm đem lại liệu đắn để khai phá Các hướng tiếp cận phân cụm tài liệu Web Có nhiều phương pháp tiếp cận phân cụm tài liệu Web đề xuất Mỗi hướng tiếp cận theo cách khác nhau, như: kiểu liệu thuộc tính; độ đo tương tự, Dựa đặc trưng hay thuộc tính tài liệu, hướng tiếp cận thuật toán phân cụm tài liệu Web chia làm loại sau [9]: • Phân cụm dựa văn bản: Hướng tiếp cận phân cụm tài liệu Web dựa văn đặc tả tài liệu theo nội dung nó, tức từ (hoặc đoạn văn bản) chứa Ý tưởng hướng tiếp cận hai tài liệu có chứa nhiều từ chung với có khả hai tài liệu giống Các kỹ thuật phân cụm tài liệu Web dựa văn như: phân cụm phân hoạch, phân cụm phân cấp, phân cụm mờ, phân cụm dựa vào mạng nơron, phân cụm dựa vào xác suất, • Phân cụm dựa liên kết: Các phương pháp phân cụm dựa văn phát triển để sử dụng tài liệu tĩnh, đồng nhỏ Ngược lại, WWW tập khổng lồ trang web đồng liên kết với Hơn nữa, trang web lại có thêm thơng tin đính kèm theo lại hữu ích cho q trình phân cụm, như: siêu liệu, siêu liên kết Ý tưởng hướng tiếp cận hai tài liệu kết nối thơng qua liên kết có mối quan hệ mặt ngữ nghĩa chúng sở cho việc phân hoạch tài liệu cụm Hai thuật toán tiêu biểu phát triển dựa theo hướng tiếp cận là: thuật toán PageRank (S Brin đồng nghiệp, 1998) thuật tốn HITS (J M Kleinberg, 1998) Trong đó, thuật tốn PageRank lập mục cho liên kết website xác định giá trị liên kết trang web (gọi PageRank) Dựa vào PageRank này, thuật toán xác định thứ tự xếp trang kết tìm kiếm Trong đó, thuật tốn HITS xếp thứ hạng tài liệu dựa thơng tin liên kết tập tài liệu • Phân cụm lai ghép: Phương pháp phân cụm tài liệu Web dựa liên kết đặc tả tài liệu thơng tin trích xuất từ cấu trúc liên kết tập tài liệu Còn phương pháp 52 ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ TRONG KHAI PHÁ … phân cụm tài liệu Web dựa văn đặc tả tài liệu từ chứa Mặc dù liên kết dẫn đến trang khác từ trang khơng có mục đích giống trang Các thuật toán phân cụm cho kết có hiệu khơng cao mật độ cấu trúc liên kết thu q nhiều q Cịn thuật tốn phân cụm dựa văn lại có vấn đề tiếp cận với ngôn ngữ khác hay với đặc thù ngơn ngữ, ví dụ như: từ đồng nghĩa, từ trái nghĩa, Mặt khác, thông tin trang web không dạng văn mà cịn hình ảnh, âm thanh, hay đa phương tiện Chính lý trên, phương pháp phân cụm lai ghép hai phương pháp đề xuất để kết hợp ưu điểm hạn chế nhược điểm cho Các thuật toán phát triển theo hướng tiếp cận là: thuật toán Phân cụm nội dung-liên kết (Weiss đồng nghiệp, 1996), Toric k-means (Modha & Spangler, 2000), Tóm lại, việc lựa chọn phương pháp phân cụm tài liệu Web tốt vấn đề khơng dễ dàng, trước hết, phương pháp có ưu nhược điểm riêng Thứ hai, hiệu phương pháp phụ thuộc vào tập liệu cụ thể lĩnh vực ứng dụng Kỹ thuật PCDL mờ phân cụm kết tìm kiếm Web 4.1 Hướng tiếp cận Việc phân cụm tài liệu Web nhằm phân trang Web có mức độ quan trọng tương đương cụm Có nhiều phương pháp để đánh giá mức độ quan trọng trang Web, có phương pháp dựa vào liên kết trang để xác định trọng số cho trang Các thuật toán PageRank, HITS, dựa phương pháp Một cách tiếp cận khác để đánh giá mức độ quan trọng dựa vào nội dung trang Web để xác định trọng số, trang Web có nội dung tương tự có mức độ quan trọng tương đương thuộc cụm Hình Mơ hình tiếp cận phân cụm kết tìm kiếm kỹ thuật PCDL mờ 53 ĐỖ QUANG KHÔI Sử dụng kỹ thuật phân cụm mờ để phân tập trang Web với liệu chuẩn hóa truy vấn từ liệu Web thành c cụm cho trang Web cụm tương tự nội dung, trang Web cụm khác khơng tương tự Dựa vào đặc trưng trang Web, kỹ thuật phân cụm mờ xác định độ thuộc trang Web vào cụm trọng tâm cụm để thực trình phân cụm kết tìm kiếm Mơ hình tiếp cận Hình q trình tìm kiếm phân cụm kết trình bày cụ thể mục dây 4.2 Kỹ thuật phân cụm kết tìm kiếm 4.2.1 Mơ hình biểu diễn tài liệu Web Hầu hết thuật toán phân cụm yêu cầu tập liệu cần phân cụm dạng tập véctơ xj = {xj1, xj2, …, xjm} không gian m chiều Mỗi tài liệu j mô tả véctơ xj – gọi véctơ đặc trưng (feature vector) phần tử véctơ đặc trưng tương ứng với từ tập tài liệu Việc tách lọc đặc trưng cần thiết thông qua véctơ đặc trưng phụ thuộc nhiều vào lĩnh vực Số chiều véctơ đặc trưng nhân tố chủ chốt thời gian chạy thuật tốn độ lớn Trong phân cụm tài liệu Web, hầu hết kỹ thuật phân cụm thường sử dụng mơ hình khơng gian véctơ (vector space) để biểu diễn đối tượng liệu Mỗi trang Web biểu diễn véctơ pj = {tfj1, tfj2, …, tfjn} tfjk (k = 1, …, n) tần suất xuất (TF-Term Frequency) từ tk trang Web pj Để biểu diễn tất trang Web với tập từ cần tách tất từ tìm tổng trang Web sử dụng chúng véctơ đặc trưng Theo mơ hình TF trọng số wjk từ tk trang Web pj xác định theo công thức sau [10]: wjk = tf jk wjk = + log(tfjk) Ngoài mơ hình TF, đối tượng liệu biểu diễn dựa mơ hình nghịch đảo tần suất xuất (IDF-Inverse Document Frequency) Theo [10], nghịch đảo tần suất xuất từ tk trang trang Web pj định nghĩa idfjk = log(n/hk) Trong đó, n tổng số trang Web hk số lượng trang Web có chứa từ tk Một mơ hình biểu diễn liệu khác thường sử dụng phân cụm tài liệu Web mơ hình kết hợp TF-IDF Với mơ hình này, trọng số wjk từ tk trang Web pj định nghĩa sau [10]: w jk = tf jk x idf jk (4.1) Trong đó: tfjk: tần suất xuất từ tk trang Web pj; idfjk = log(n/hk) nghịch đảo tần suất xuất từ tk trang Web pj; n: tổng số trang Web tập trang Web C; hk: số lượng trang Web có chứa từ tk 4.2.2 Q trình tìm kiếm xử lý kết 54 ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ TRONG KHAI PHÁ … Về bản, trình tìm kiếm phân cụm kết tìm kiếm kỹ thuật phân cụm mờ diễn theo bước sau [9]: i Tìm kiếm liệu Web: Nhiệm vụ chủ yếu giai đoạn dựa vào từ khóa tìm kiếm để tìm kiếm trả tập trang Web bao gồm nội dung, tiêu đề, mơ tả tóm tắt, URL,… tương ứng với trang ii Tiền xử lý liệu: Đây giai đoạn vô quan trọng, ảnh hưởng lớn đến q trình thực phân cụm Nhiệm vụ giai đoạn làm giảm số từ tài liệu, có tác dụng làm giảm độ phức tạp tính tốn giai đoạn sau nâng cao hiệu cho giai đoạn Đây trình làm liệu chuyển dịch tài liệu thành dạng biểu diễn liệu thích hợp Giai đoạn bao gồm cơng việc sau: Chuẩn hóa văn bản: chuyển văn thô dạng văn cho việc xử lý sau dễ dàng, đơn giản, thuật tiện, xác so với việc xử lý trực tiếp văn thô mà ảnh hưởng đến kết xử lý, như: xóa thẻ HTML loại thẻ khác để trích từ/cụm từ; Chuyển ký tự hoa thành ký tự thường; Xóa bỏ dấu câu, xố ký tự trắng dư thừa, Loại bỏ stop-words: stop-words từ mà xuất nhiều kết khơng giúp ích việc phân biệt nội dung tài liệu Ví dụ: Trong tiếng Việt từ “thì”, “mà”, “và”, “hoặc”, ; tiếng Anh từ “a”, “an”, “the”, “of”, “to”, “on”, “by”, ; Vì đặc điểm stop-words nên chúng loại bỏ mà không ảnh hưởng đến giai đoạn sau Chuyển đổi từ gốc: loại bỏ tiền tố hậu tố từ để biến đổi thành từ gốc Vì thực tế từ gốc có nhiều hình thái biến đổi, chẳng hạn động từ, danh từ, tính từ, trạng từ; chúng có mối quan hệ ngữ nghĩa Ví dụ từ: “clusters”, “clustering”, “clustered” có mối quan hệ với từ “cluster” iii Xây dựng từ điển: Từ điển bao gồm từ riêng biệt tập trang Web từ kết truy vấn Từ điển bảng bao gồm từ, số từ điển xếp theo thứ tự Theo [5], [7], [10] từ điển xây dựng với 500 phần tử sau chuẩn hóa phù hợp iv Tạo ma trận tài liệu: Ma trận tài liệu T tạo cách đếm số lần xuất từ từ ti trang Web pj v Véctơ hóa tài liệu: Giai đoạn tính tf idf, xác định trọng số W theo công thức (4.1) cho tất từ trang Web véc tơ hóa tất trang Web vi Phân cụm kết tìm kiếm thuật tốn FCM: 55 ĐỖ QUANG KHƠI Tư tưởng thuật tốn: Thuật toán FCM thực phân cụm chuỗi phép lặp công thức [4]: n vi = ∑ (u ) m xk ik k =1 n ∑ (u ik k =1 uik = )m ⎛ dik ⎜⎜ ∑ j =1 ⎝ d jk c (4.2), và: ; 1≤ i ≤ c ⎞ ⎟⎟ ⎠ m −1 ; ≤ k ≤ n;1 ≤ i ≤ c (4.3) để tối ưu phân hoạch mờ tập liệu dựa việc tính tốn độ tương tự có trọng số đối tượng xk trọng tâm cụm i Sau vịng lặp, thuật tốn tính tốn cập nhật lại phần tử ujk ma trận phân hoạch U Thuật toán dừng lại uij( k +1) − uijk < ξ , ξ ∈ [0, 1] ngưỡng kết thúc cho trước Phát biểu toán: Input: số cụm c; tham số mờ m ∈ [1, ∞), số vòng lặp tối đa Kmax ngưỡng kết thúc ξ ∈ [0, 1] Output: c cụm liệu cho hàm tiêu chuẩn [4]: n c J m (U , V ) = ∑∑ (uik ) m d ( xk , vi ) đạt giá trị cực tiểu k =1 i =1 Thuật toán [4]: Khởi tạo ma trận U = [uij], chọn ma trận ban đầu U(0) Mfc; Tại bước k, k = 0, 1, , Kmax: (k ) Cập nhật trọng tâm cụm vi , i = 1, 2, , c theo công thức (4.2); Cập nhật ma trận thành viên (độ thuộc) U ( k +1) = [uik( k +1) ] theo công thức (4.3); ( k +1) − U ( k ) < ξ thực bước 5; ngược lại, đặt U(k) = U(k+1), quay Nếu U lại bước 2; Đưa cụm kết Thuật toán FCM phân cụm kết tìm kiếm trang Web: Khởi tạo ngẫu nhiên ma trận độ thuộc ban đầu U(0) = [uij], với uij độ thuộc trang Web pj cụm ci; 56 ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ TRONG KHAI PHÁ … Tại bước k, k = 0, 1, , Kmax: (k ) Cập nhật trọng tâm cụm vi , i = 1, 2, , c theo công thức (4.2); Dựa vào ma trận trọng số từ trang Web pj (công thức 4.1), xác định độ đo tương tự dựa khoảng cách với cụm ci Cập nhật lại ma trận độ thuộc U ( k +1) = [uik( k +1) ] theo công thức (4.3); ( k +1) − U ( k ) < ξ thực bước 5; ngược lại, đặt U(k) = Nếu U U(k+1), quay lại bước 2; Đưa cụm kết Trong đó: X = {x1, x2, , xn} Rn, tập liệu ban đầu; c: số cụm liệu X; m: trọng số mũ, hay gọi tham số mờ, ≤ m < ∞; U = [uik], ma trận phân hoạch mờ X C cụm, U uik Mfc; [0, 1]: độ thuộc đối tượng xk cụm i; V = [vji] = (v1, v2, , vc), ma trận biểu diễn đối tượng trọng tâm cụm; vi = (vi1, vi2, , vin), trọng tâm cụm i; d ( xk , vi ) : khoảng cách Euclide từ đối tượng xk đến trọng tâm cụm thứ i Kết thực nghiệm Áp dụng kỹ thuật phân cụm liệu mờ KPDL Web thực nghiệm thông qua chương trình ứng dụng thực tìm kiếm Web sau phân cụm kết tìm kiếm hai kỹ thuật phân cụm: phân cụm rõ với thuật toán k-means phân cụm mờ với thuật toán FCM nhằm có so sánh kết phân cụm hai kỹ thuật phân cụm rõ phân cụm mờ 5.1 Cài đặt hệ thống 5.1.1 Kiến trúc hệ thống 57 ĐỖ QUANG KHƠI Người dùng Từ khóa tìm kiếm Truy vấn đến Google Kết phân cụm API Máy tìm kiếm Google Kết truy vấn Quá trình phân cụm CSDL Kết truy vấn Hình Kiến trúc hệ thống chương trình thử nghiệm Chương trình thử nghiệm chạy môi trường NET Framework 4.0 với ngơn ngữ lập trình Visual Basic 2005 CDSL quản lý lưu trữ SQL Server 2005 Hệ thống thiết kế Hình Chương trình kết nối với máy tìm kiếm Google cách sử dụng số hàm API Google để lấy liệu kết truy vấn tìm kiếm từ Google để lưu vào CSDL hệ thống phục vụ cho trình phân cụm Việc tìm kiếm thực cách sử dụng máy tìm kiếm Google để tìm kiếm tự động, chương trình dựa vào URL để lấy toàn văn tài liệu lưu trữ lại phục vụ cho q trình tìm kiếm phân cụm sau 5.1.2 Thiết kế CSDL CSDL chương trình bao gồm bảng sau đây: ¾ Bảng 1: bảng lưu trữ từ điển Tên trường Kiểu liệu Mô tả PhraseID Int Khóa chính, số từ Phrase Nvarchar Từ cần lưu trữ ¾ Bảng 2: bảng lưu trữ nội dung trang Web lấy từ kết tìm kiếm Yahoo 58 ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ TRONG KHAI PHÁ … Tên trường Kiểu liệu Mô tả PageID Int Khóa URL Nvarchar URL trang Web Snipet Nvarchar Trích đoạn nội dung trang Web Content Nvarchar Nội dung trang Web IsTokenozed Bit Cho biết trang Web tách từ hay chưa IsClustered Bit Cho biết trang Web phân cụm hay chưa ClusterID Int Khóa ngồi, liên kết đến bảng Clusters, cho biết trang Web thuộc cụm sau phân cụm ¾ Bảng 3: bảng liên kết trang Web từ điển Tên trường Kiểu liệu Mơ tả DicPageID Int Khóa PageID Int Khóa ngồi, liên kết đến bảng Pages PhraseID Int Khóa ngồi, liên kết đến bảng Dictionary Score Float Cho biết tần suất xuất từ trang Web ¾ Bảng 4: bảng lưu trữ cụm tìm Tên trường Kiểu liệu Mơ tả ClusterID Int Khóa chính, số cụm Lable Nvarchar Nhãn cụm 5.1.3 Quá trình tìm kiếm phân cụm tóm tắt lại sau: Input: + Một tập trang Web P tìm theo truy vấn; + Tham số mờ hóa m Output: + Các trang Web phân cụm theo thuật toán k-means FCM Các bước thực hiện: Bước 1: Tiền xử lý; Bước 2: Xây dựng từ điển; Bước 3: Tạo ma trận tài liệu; Bước 4: Véctơ hóa tài liệu; 59 ĐỖ QUANG KHÔI Bước 5: Xử lý phân cụm; Bước 6: Hiển thị kết phân cụm 5.1.4 Một số giao diện chương trình: Hình Giao diện nhập từ khóa cần tìm Hình Giao diện hiển thị kết tiền xử lý véctơ hóa trang Web 60 ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ TRONG KHAI PHÁ … Hình Giao diện kết phân cụm FCM 5.2 Kết Với từ khóa “cluster”, thực tiền xử lý phân cụm với hai thuật toán kmeans FCM (với tham số mờ hóa m = 2.0; ngưỡng kết thúc ξ = 0.05) tập liệu với 4000 trang web, chương trình cho kết sau: Bảng Bảng so sánh thời gian thực hai thuật toán FCM k-means Thời gian trung bình (giây) Số trang Số cụm Tiền xử lý Phân cụm k-mean FCM (m=2.0) 100 10 0.85 1.319 7.167 100 20 0.85 1.926 11.408 200 10 0.95 2.452 25.731 200 20 0.95 4.524 37.268 300 10 0.102 4.588 39.902 300 20 0.102 7.469 54.118 400 10 0.131 8.171 62.996 61 ĐỖ QUANG KHÔI Thời gian trung bình (giây) Số trang Số cụm Tiền xử lý Phân cụm k-mean FCM (m=2.0) 400 20 0.131 11.182 79.701 500 10 0.142 12.526 92.631 500 20 0.142 16.986 149.390 1000 10 0.189 22.124 306.447 1000 20 0.189 43.935 496.282 Qua kết trên, ta thấy thời gian thực thuật toán phụ thuộc vào độ lớn tập liệu số cụm cần phân cụm Riêng với thuật tốn FCM cịn phụ thuộc vào tham số mờ hóa m ngưỡng kết thúc ξ Nếu tham số mờ hóa m ngưỡng kết thúc ξ xác định tốt chất lượng thời gian thực phân cụm cải thiện nhiều Khơng có quy tắc để lựa chọn tham số mờ hóa m tối ưu Cho đến nay, có lẽ chiến lược tốt để chọn giá trị tối ưu cho m thử nghiệm với giá trị khác m, từ chọn m cho kết phân cụm tốt Đối với hầu hết liệu, m [1.5, 3.0] thường cho kết tốt [4] Với đánh giá này, chương trình thực nghiệm cho kết tương tự Chính vậy, thuật tốn FCM cho kết thời gian thực phân cụm lâu thuật toán k-means Tuy nhiên, qua khảo sát kết cụm chất lượng cụm thực với thuật toán FCM cho hiệu cao thuật tốn k-means trang Web cụm có nội dung tương tự với FCM có khả phân cụm trang Web thuộc chủ đề khác nhau, nghĩa cụm chồng chéo lên TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đoàn Văn Ban (2003), Bài giảng Khai thác kho liệu, Viện Công nghệ thông tin Việt Nam, Hà Nội [2] Hồ Thuần Đặng Thanh Hà (2007), Lôgic mờ ứng dụng, NXB Đại học Quốc gia Hà Nội, Hà Nội Tiếng Anh: [3] Periklis Andritsos (2002), Data Clusting Techniques, University of Toronto, Toronto 62 ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ TRONG KHAI PHÁ … [4] James C Bezdek (1984), “FCM: The fuzzy c-means clustering algorithm”, Computer and Geosciences, vol 10 (2-3), pp 191-203 [5] Christian Borgelt and Andreas Nurnberger (2004), Fast Fuzzy Clustering of Web Page Collections, PKDD Workshop on Statistical Approaches for Web Mining SAWM, Pisa [6] Jiawei Han, Micheline Kamber and Jian Pei (2011), Data Mining: Concepts and Techniques, 3rd Edition, Morgan Kaufmann Publishers, Waltham [7] Raghu Krishnapuram, Anupam Joshi, and Liyu Yi (1999), “A Fuzzy Relative of the k-Medoids Algorithm with Application to Web Document and Snippet Clustering”, IEEE International Fuzzy Systems Conference Proceedings, vol 3, pp 1281-1286 [8] Bing Liu (2007), Web Data Mining, Springer, New York [9] Maofu Liu, Yanxiang He and Huijun Hu (2004), Web Fuzzy Clustering and Its Applications in Web Usage Mining, Proceedings of 8th International Symposium on Feature Software Technology (ISFST-2004) [10] Wenyi Ni (2004), A Survey of Web Document Clustering, Southern Methodist University, Dallas Title: THE APPLICATION OF FUZZY DATA CLUSTERING TECHNIQUE IN WEB DATAMINING DO QUANG KHOI Quang Nam University Abstract: World Wide Web is a huge data warehouse Therefore, using Web mining to discover useful information and knowledge is of important meaning For that purpose, this article provides an overview of the Web data mining and Web document clustering approaches Thus, this article introduces the Web fuzzy clustering processing model and also presents specifically the process of Web document searching and clustering by fuzzy data clustering technique with Fuzzy C-Means algorithm 63 ... kiếm xử lý kết 54 ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ TRONG KHAI PHÁ … Về bản, trình tìm kiếm phân cụm kết tìm kiếm kỹ thuật phân cụm mờ diễn theo bước sau [9]: i Tìm kiếm liệu Web: Nhiệm vụ chủ... ứng dụng thực tìm kiếm Web sau phân cụm kết tìm kiếm hai kỹ thuật phân cụm: phân cụm rõ với thuật toán k-means phân cụm mờ với thuật tốn FCM nhằm có so sánh kết phân cụm hai kỹ thuật phân cụm. .. tài liệu có chứa nhiều từ chung với có khả hai tài liệu giống Các kỹ thuật phân cụm tài liệu Web dựa văn như: phân cụm phân hoạch, phân cụm phân cấp, phân cụm mờ, phân cụm dựa vào mạng nơron, phân