Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 83 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
83
Dung lượng
1,46 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - NGUYỄN THỊ THU MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU WEB LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Chun ngành : Khoa học máy tính Mã số : 60 48 01 Thái Nguyên, năm 2011 Số hóa Trung tâm Học liệu – ĐHTN Tai ngay!!! Ban co the xoa dong chu nay!!! http://www.lrc-tnu.edu.vn i Lời cảm ơn Để đạt kết học tập nghiên cứu hôm nay, trước tiên xin chân thành bày tỏ lòng biết ơn sâu sắc đến thầy hướng dẫn khoa học GS.TS.Vũ Đức Thi – Viện Công nghệ thông tin – Viện khoa học Việt Nam, người tận tình hướng dẫn, bảo, giúp đỡ tơi q trình thực luận văn Cho phép tơi gửi lời cảm ơn đến Quý thầy cô giáo Trường Đại học Công nghệ truyền thông – Đại học Thái Nguyên, Các thầy giáo Viện Công nghệ thơng tin tận tình giảng dạy, truyền đạt cho kiến thức vô quý giá suốt hai năm học qua Tôi xin chân thành cảm ơn Ban Giám hiệu trường Dự Bị Đại học Dân tộc Sầm Sơn, nơi công tác, tạo điều kiện thuận lợi cho tơi tham gia khóa học Xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp, động viên giúp đỡ chia sẻ khó khăn thời gian tơi tham gia khóa học Dù có nhiều cố gắng, song luận văn khơng tránh khỏi hạn chế, thiếu sót Kính mong nhận chia sẻ ý kiến dẫn, góp ý q báu thầy giáo, bạn bè đồng nghiệp Trân trọng! Thái Nguyên, 10/2011 Tác giả Nguyễn Thị Thu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn ii MỤC LỤC Lời cảm ơn i MỤC LỤCCÁC CỤM TỪ VIẾT TẮT ii CÁC CỤM TỪ VIẾT TẮT iv DANH MỤC CÁC HÌNH VẼ v LỜI NÓI ĐẦU CHƢƠNG I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu phát tri thức 1.1.1 Khai phá liệu 1.1.2 Quá trình khám phá tri thức 1.1.3 Khai phá liệu lĩnh vực liên quan 1.1.4 Các phương pháp áp dụng Khai phá liệu 1.1.5 Những chức KPDL 1.1.6 Các ứng dụng Khai phá liệu 1.2 Phƣơng pháp phân cụm Khai phá liệu 10 1.2.1 Khái quát phân cụm liệu 10 1.2.2 Ứng dụng phân cụm liệu 13 1.2.3 Các yêu cầu phương pháp phân cụm liệu 14 1.3 Khai phá Web 15 1.3.1 Khai phá Web 15 1.3.2 Khái niệm khai phá Web 16 1.3.3 Đặc trưng khai phá Web 17 1.3.4 Các đối tượng khai phá Web 18 Tổng kết chƣơng 18 CHƢƠNG II MỘT SỐ PHƢƠNG PHÁP PHÂN CỤM DỮ LIỆU 20 2.1 Phân cụm phân hoạch: 21 2.1.1 Thuật toán K-means 21 2.1.2 Thuật toán K-medoids 24 2.2 Phân cụm phân cấp 26 2.2.1 Thuật toán BIRCH 27 2.2.2 Thuật toán CURE 30 2.3 Phƣơng pháp phân cụm liệu dựa vào mật độ 32 2.3.1 Thuật toán DBSCAN 32 2.3.2 Thuật toán OPTICS 36 2.4 Thuật toán phân cụm liệu dựa lƣới 37 2.4.1 Thuật toán STING 37 2.4.2 Thuật toán CLIQUE 40 2.5 Phân cụm liệu dựa mơ hình 41 2.5.1 Thuật toán EM 41 2.5.2 Thuật toán COBWEB 42 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn iii 2.6 Phân cụm liệu mờ 43 2.6.1 Hàm mục tiêu 44 2.6.2 Thuật toán FCM 47 Tổng kết chƣơng 48 CHƢƠNG III KHAI PHÁ DỮ LIỆU WEB 50 3.1 Khai phá nội dung Web 50 3.1.1 Khai phá kết tìm kiếm 51 3.1.2 Khai phá văn Web 51 3.2 Khai phá theo sử dụng Web 54 3.2.1 Ứng dụng khai phá theo sử dụng Web 55 3.2.2 Các phương pháp sử dụng khai phá liệu Web 56 3.2.3 Những vấn đề khai phá theo sử dụng Web 56 3.2.4 Quá trình khai phá theo sử dụng Web 56 3.3 Khai phá cấu trúc Web 58 3.3.1 Tiêu chuẩn đánh giá độ tương tự 59 3.3.2 Khai phá quản lý cộng đồng Web 60 3.4.Áp dụng thuật tốn phân cụm liệu tìm kiếm phân cụm tài liệu Web 64 3.4.1 Hướng tiếp cận phương pháp phân cụm liệu 64 3.4.2 Quá trình tìm kiếm phân cụm tài liệu 66 Tổng kết chƣơng 73 KẾT LUẬN 74 TÀI LIỆU THAM KHẢO 76 PHỤ LỤC Error! Bookmark not defined Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn iv CÁC CỤM TỪ VIẾT TẮT ST T Viết tắt Cụm từ tiếng Anh Cụm từ tiếng Việt Database Cơ sở liệu Knowledge Discovery in Khám phá tri thức Database sở liệu KPDL Data mining Khai phá liệu PCDL Data Clustering Phân cụm liệu CSDL KDD Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn v DANH MỤC CÁC HÌNH VẼ Hình 1.1 Q trình khám phá tri thức Hình 2.1 Sơ đồ phân loại số thuật tốn phân cụm liệu 20 Hình 2.2 Mơ thuật tốn K-means 23 Hình 2.3 Các trường hợp điểm P 25 Hình 2.4 Sơ đồ minh họa chiến lược phân cụm phân cấp 26 Hình 2.5 Sơ đồ mơ CF 28 Hình 2.6 Cụm liệu khai phá thuật tốn CURE 31 Hình 3.1 Phân loại khai phá Web 50 Hình 3.2 Quan hệ trực tiếp trang Web 60 Hình 3.3 Độ tương đồng trích dẫn 60 Hình 3.4 Độ tương tự mục 60 Hình 3.5 Đồ thị phân đơi Hup Authority 62 Hình 3.6 Sự kết hợp Hup Authority 63 Hình 3.7 Các bước phân cụm kết tìm kiếm Web 67 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn LỜI NÓI ĐẦU Khai phá liệu lĩnh vực quan tâm nhiều thời gian gần đây, xuất phát từ bùng nổ thông tin, phát triển nhanh chóng khoa học kỹ thuật Kho liệu, nguồn tri thức nhân loại trở nên khổng lồ đồ sộ Vấn đề đặt cần có công cụ, phương pháp để khai thác nguồn tri thức ngày trở nên cấp thiết cho nghành khoa học cơng nghệ thơng tin tồn giới Từ phát triển nhanh chóng cơng nghệ thông tin Internet, nguồn Web trở thành kho liệu khổng lồ Nhu cầu tìm kiếm, xử lý thông tin hiệu chúng mang lại tác động không nhỏ đến suất, chất lượng, hiệu lĩnh vực kinh doanh, quản lý, khoa học kỹ thuật… Việc nghiên cứu áp dụng phương pháp phân cụm liệu khai phá tài nguyên Web xu tất yếu mang ý nghĩa khoa học thực tiễn cao Từ lý tác giả chọn đề tài “Một số phương pháp phân cụm liệu Web” để làm luận văn tốt nghiệp Bố cục luận văn gồm chương: Chương trình bày khái quát khái niệm khai phá liệu; khám phá tri thức; phân cụm liệu khai phá liệu mơi trường Web Chương trình bày số phương pháp phân cụm liệu phổ biến thường sử dụng lĩnh vực khai phá liệu khám phá tri thức Chương trình bày số hướng nghiên cứu khai phá liệu Web khai phá nội dung Web, khai phá sử dụng Web, khai phá cấu trúc Web tiếp cận theo hướng sử dụng phương pháp phân cụm liệu để giải toán khai phá liệu Web Trong chương tác giả tập trung Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn nghiên cứu phương pháp phân cụm liệu K-means xây dựng chương trình áp dụng K-means để tìm kiếm phân cụm tài liệu Web Phần kết luận luận văn tổng kết lại vấn đề đề cập đến luận văn, đánh giá kết thu luận văn hướng phát triển đề tài Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn CHƢƠNG I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu phát tri thức 1.1.1 Khai phá liệu Trong thập kỷ gần đây, phát triển rộng khắp sở liệu tạo bùng nổ thông tin toàn cầu, vào thời gian người ta bắt đầu đề cập đến việc khủng hoảng trình phân tích liệu tác nghiệp để cung cấp thơng tin với yêu cầu chất lượng ngày cao tổ chức phủ, tài chính, thương mại, khoa học… Đúng John Naisbett cảnh báo “Chúng ta chìm ngập liệu mà đói trí thức” Lượng liệu khổng lồ thực nguồn tài nguyên có nhiều giá trị thông tin yếu tố then chốt phục vụ cho hoạt động quản lý, kinh doanh, phát triển sản xuất dịch vụ, giúp người điều hành quản lý có hiểu biết mơi trường tiến trình hoạt động lĩnh vực kinh doanh từ định tác động đến trình hoạt động để đạt mục tiêu cách hiệu bền vững KPDL lĩnh vực nghiên cứu, nhằm tự động khai thác thông tin, tri thức hữu ích, tiềm ẩn từ sở liệu lớn từ làm thúc đẩy khả sản xuất, kinh doanh, cạnh tranh xã hội Các kết nghiên cứu khoa học ứng dụng thành công KDD cho thấy KPDL lĩnh vực phát triển bền vững, mang lại lợi ích có nhiều triển vọng, đồng thời có ưu hẵn so với cơng cụ tìm kiếm liệu truyền thống Hiện nay, KPDL ứng dụng ngày rộng rãi lĩnh vực thương mại, tài chính, y học, viễn thông, tin – sinh, Các phương pháp áp dụng lĩnh vực KPDL phần lớn thừa kế từ CSDL, học máy, trí tuệ nhân tạo, lý thuyết thơng tin, xác suất thống kê tính tốn nâng cao Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn Như KPDL trình tìm kiếm, phát tri thức mới, tiềm ẩn, hữu dụng CSDL lớn KDD mục tiêu KPDL, khái niệm KPDL KDD nhà khoa học hai lĩnh vực xem tương đương với Nhưng thực tế KPDL bước q trình KDD 1.1.2 Q trình khám phá tri thức Q trình KDD phân thành giai đoạn sau: Tri thức mẫu Dữ liệu biến đổi Dữ liệu tiền xử lý Dữ liệu lựa chọn Dữ liệu thơ Hình 1.1 Q trình khám phá tri thức Trích chọn liệu: Đây bước trích chọn tập liệu cần khai phá từ tập liệu lớn ban đầu theo số tiêu chí định Tiền xử lý liệu: Đây bước làm liệu (xử lý liệu không đầy đủ, nhiễu, không quán ), rút gọn liệu (sử dụng hàm nhóm tính tổng, phương pháp nén liệu, sử dụng hàm histogram, lấy mẫu ), rời rạc hoá liệu (rời rạc dựa histogram, dựa vào entropy, dựa vào phân khoảng ), Sau bước liệu quán, đầy đủ, rút gọn rời rạc hố Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 63 Các Authority Hub thể quan hệ tác động qua lại để tăng cường lực lượng Nghĩa Hub tốt trỏ đến nhiều Authority tốt ngược lại 1 1 7 7 Hình 3.6 Sự kết hợp Hub Authority Các bước phương pháp HITS Bước 1:Xác định tập S, lấy tập tài liệu trả Searrch Engine chuẩn gọi tập gốc R, khởi tạo S tương ứng với R Bước 2: Thêm vào S tất trang mà trỏ tới từ trang R Với trang p S: Tính giá trị điểm số Authority: ap (vector a) Tính giá trị điểm số Hub: hp (vector h) Với nút khởi tạo ap hp 1/n (n số trang) Bước 3: Trong bước lặp tính giá trị trọng số Authority cho nút S theo công thức: a p h q:q p q Bước 4: Mỗi bước lặp tính giá trị trọng số Hub nút S theo công thức hq a q :q p p Lưu ý trọng số Hub tính tốn nhờ vào trọng số Authority tại, mà trọng số Authority lại tính tốn từ trọng số Hub trước Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 64 Bước 5: Sau tính xong trọng số cho tất nút, trọng số chuẩn hóa lại theo công thức: a ps p and h ps p 1 lặp lại bước hp ap không đổi KPDL Web lĩnh vực nghiên cứu quan trọng KPDL để tiếp cận với kho tài nguyên tri thức phong phú đa dạng này, phương pháp KPDL Web áp dụng rộng rãi đặc biệt phương pháp phân cụm liệu 3.4 Áp dụng thuật toán phân cụm liệu tìm kiếm phân cụm tài liệu Web Ngày nay, nhờ cải tiến không ngừng Search engine chức tìm kiếm lẫn giao diện người dùng giúp cho người sử dụng dễ dàng việc tìm kiếm thơng tin Web Tuy nhiên, người sử dụng thường phải duyệt qua nhiều trang Web tìm thứ mà họ cần Tâm lý người dùng xem qua vài chục trang kết đầu tiên, phần lớn họ không đủ kiên nhẫn để xem qua tất kết mà Search engine trả Nhằm giải vấn đề này, nhóm kết tìm kiếm thành nhóm theo chủ đề, người sử dụng bỏ qua nhóm mà họ không cần quan tâm Điều giúp người sử dụng thực cơng việc cách nhanh chóng tiết kiệm thời gian Tuy nhiên vấn đề phân cụm liệu Web lựa chọn chủ đề thích hợp để mơ tả nội dung trang Web vấn đề không đơn giản Trong phạm vi luận văn tác giả tìm hiểu khía cạnh sử dụng phương pháp phân cụm để phân cụm tài liệu Web dựa kho liệu tìm kiếm lưu trữ 3.4.1 Hƣớng tiếp cận phƣơng pháp phân cụm liệu Hiện để xác định mức độ quan trọng trang Web có nhiều phương pháp sử dụng PageRank, HITS nhiên, phương Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 65 pháp chủ yếu dựa vào liên kết trang để xác định trọng số cho trang Web Ta tiếp cận cách đánh giá mức độ quan trọng theo hướng khác dựa vào nội dung tài liệu để xác định trọng số, tài liệu có nội dung gần tương tự nhau, mức độ quan trọng tương đương thuộc nhóm Giả sử cho tập S gồm trang Web, tìm tập S trang chứa nội dung câu hỏi truy vấn ta tập R Sử dụng thuật toán phân cụm liệu để phân tập R thành k cụm (k xác định) cho phần tử cụm tương tự nhất, phần tử cụm khác phi tương tự với Từ tập S-R đưa phần tử vào k cụm thiết lập Những phần tử tương tự với trọng tâm cụm (theo ngưỡng xác định đó) đưa vào cụm này, phần tử khơng thỏa mãn xem không phù hợp với truy vấn loại bỏ khỏi tập kết Sau ta gán trọng số cho cụm trang tập kết theo thuật toán sau: INPUT: Tập liệu D chứa trang gồm k cụm k trọng tâm OUTPUT: Trọng số trang BEGIN Mỗi cụm liệu thứ m trọng tâm Cm gán trọng số tsm Với trọng tâm Ci, Cj ta ln có tsi > tsj ti tương tự với truy vấn tj Với trang p cụm m ta xác định trọng số trang pwm Với pwi, pwj bất kỳ, ta có pwi > pwj pwi gần trọng tâm pwj END Như vậy, theo cách tiếp cận ta giải vấn đề sau: Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 66 + Kết tìm kiếm phân thành cụm theo chủ đề khác nhau, tùy theo yêu cầu cụ thể người dùng xác định chủ đề mà họ cần + Quá trình tìm kiếm xác định trọng số cho trang chủ yếu tập trung vào nội dung trang dựa vào liên kết trang + Giải vấn đề từ/cụm từ đồng nghĩa câu truy vấn người dùng + Có thể kết hợp phương pháp phân cụm lĩnh vực KPDL với phương pháp tìm kiếm có Có số thuật tốn phân cụm liệu sử dụng phân cụm văn thuật toán phân cụm phân hoạch (K-means, K-medoids), thuật toán phân cụm phân cấp (BIRCH, CURE) Trong thực tế để phân cụm theo nội dung tài liệu Web ta sử dụng thuật tốn phân cụm mờ 3.4.2 Q trình tìm kiếm phân cụm tài liệu Về bản, trình phân cụm kết tìm kiếm diễn theo bước thể Hình 3.7 - Tìm kiếm trang Web từ Website thỏa mãn nội dung truy vấn - Trích rút thơng tin mơ tả từ trang lưu trữ với URL tương ứng - Sử dụng phương pháp phân cụm liệu để phân cụm trang Web thành cụm, cho trang cụm “tương tự” nội dung trang ngồi cụm Tìm kiếm trích rút liệu Áp dụng thuật tốn phân cụm Biểu diễn kết Số hóa Trung tâm Học liệu – ĐHTN Tiền xử lý Biểu diễn liệu http://www.lrc-tnu.edu.vn Hình 3.7 Các bước phân cụm kết tìm kiếm Web 67 3.4.2.1 Tìm kiếm liệu Web Nhiệm vụ chủ yếu giai đoạn dựa vào tập từ khóa để tìm kiếm trả tập gồm toàn văn tài liệu, tiêu đề, mơ tả tóm tắt, URL tương ứng với trang Nhằm nâng cao tốc độ xử lý, ta tiến hành tìm kiếm lưu trữ tài liệu kho liệu để sử dụng cho trình tìm kiếm (tương tự Search Engine Google) Mỗi phần tử gồm toàn văn tài liệu, tiêu đề, đoạn mô tả nội dung, URL 3.4.2.2 Tiền xử lý liệu Quá trình làm liệu chuyển dịch tài liệu thành dạng biểu diễn liệu thích hợp Giai đoạn bao gồm cơng việc sau: Chuẩn hóa văn bản, xóa bỏ từ dừng, kết hợp từ có từ gốc, số hóa biểu diến văn * Chuẩn hoá văn bản: Đây giai đoạn chuyển văn thô dạng văn xử lý cho việc xử lý sau dễ dàng, đơn giản, thuận tiện, xác so với việc xử lý trực tiếp văn thô Q trình chuẩn hố văn bao gồm: + Xố thẻ HTML loại thẻ khác để trích từ, cụm từ + Chuyển ký tự hoa thành ký tự thường + Xoá bỏ dấu câu, ký tự trắng dư thừa * Xoá bỏ từ dừng: Trong văn có từ mang thơng tin, từ có tần số xuất thấp, từ xuất với tần số lớn khơng quan trọng q trình xử ký loại bỏ Việc loại bỏ từ dừng giảm bớt khoảng 20-30% tổng số từ văn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 68 Có nhiều từ xuất với tần số cao khơng hữu ích q trình phân cụm liệu Ví dụ tiếng anh từ: a, an, the, of, and, to, by tiếng việt từ: thì, là, mà, và, Những từ xuất với tần số lớn loại bỏ Để đơn giản ứng dụng thực tế, ta tổ chức thành danh sách từ dừng, sử dụng định luật Zipf để xoá bỏ từ có tần số xuất thấp cao * Kết hợp từ có nguồn gốc: Hầu hết ngơn ngữ có nhiều từ có chung nguồn gốc với nhau, chúng mang ý nghĩa tương tự nhau, để giảm bớt số chiều biểu diễn văn ta kết hợp từ có gốc thành từ Việc kết hợp giảm khoảng 40-50% kích thước chiều biểu diễn văn Ví dụ tiếng Anh có từ user, users, used, using có gốc quy từ use 3.4.2.3 Xây dựng từ điển Xây dựng từ điển công việc quan trọng q trình vector hóa văn bản, từ điển gồm từ, cụm từ riêng biệt tồn tập liệu, gồm bảng từ, số từ điển xếp theo thứ tự Để nâng cao chất lượng phân cụm liệu cần xem xét đến việc xử lý cụm từ ngữ cảnh khác Theo đề xuất Zemir xây dựng từ điển cần có 500 phần tử phù hợp 3.4.2.4 Tách từ, số hóa văn biểu diễn tài liệu Tách từ công việc quan trọng biểu diễn văn bản, q trình tách từ, vector hóa tài liệu trình tìm kiếm từ thay từ số từ từ điển Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 69 Với q trình ta sử dụng mơ hình tốn học TF, IDF, TF-IDF để biểu diễn văn Sử dụng mảng W (trọng số) hai chiều có kích thước mxn, với n số tài liệu, m số thuật ngữ từ điển, hàng thứ j vector biểu diễn tài liệu thứ j sở liệu, cột thứ i thuật ngữ thứ i từ điển Wij giá trị trọng số thuật ngữ i tài liệu thứ j Giai đoạn thực thống kê tần số thuật ngữ ti Từ xây dựng bảng trọng số ma trận W theo công thức sau: Công thức tính trọng số theo TF-IDF: n tf ij idf ij logtf ij log wij hi 0 nếut i d j nếung-ợc lại (t i d j ) đó: tfij tần số xuất ti tài liệu dj idfij nghịch đảo tần số xuất ti tài liệu dj hi số tài liệu mà ti xuất n tổng số tài liệu 3.4.2.5 Phân cụm tài liệu Sau tìm kiếm, trích rút liệu, tiền xử lý biểu diễn văn sử dụng thuật toán k-means để để phân cụm tài liệu INPUT: Tập gồm n tài liệu k cụm OUTPUT: Các cụm Ci (i=1, ,k) cho hàm tiêu chuẩn đạt giá trị cực tiểu Begin Bước Khởi tạo ngẫu nhiên k vector làm đối tượng trọng tâm k cụm Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 70 Bước Với tài liệu dj xác định độ tương tự trọng tâm cụm theo độ đo tương tự thường dùng (như Dice, Cosine, Jaccard ) Xác định trọng tâm tương tự cho tài liệu đưa tài liệu vào cụm Bước Cập nhật lại đối tượng trọng tâm Đối với cụm ta xác định lại trọng tâm cách xác định trung bình cộng vector tài liệu cụm Bước Lặp lại bước trọng tâm không thay đổi End - Xác định trọng tâm cụm tài liệu: Xét cụm văn c, trọng tâm C cụm c tính dựa vector tổng D ( D d ) văn d c cụm c: C D c c số phần tử thuộc tập tài liệu c Trong phương pháp phân cụm, trọng tâm cụm sử dụng để làm đại diện cho cụm tài liệu - Tính tốn độ tương tự cụm tài liệu: Giả sử có cụm c1, c2 độ tương tự cụm tài liệu tính mức độ gần vector trọng tâm C1, C2: Sim(c1,c2) = Sim(C1,C2) c1, c2 gồm tài liệu coi cụm gồm phần tử Với thuật toán k-means, chất lượng phân cụm đánh giá thông qua k hàm tiêu chuẩn E xC D x mi , x vector biểu diễn tài i 1 i liệu, mi trọng tâm cụm, k số cụm, Ci cụm thứ i Độ phức tạp thuật tốn k-means O((n.k.d).r) Trong đó: n số đối tượng liệu, k số cụm liệu, d số chiều, r Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 71 số vòng lặp Sau phân cụm xong tài liệu, trả kết cụm liệu trọng tâm tương ứng 3.4.2.6 Chƣơng trình phân cụm mô tài liệu Web Trong thực tế ngày tìm kiếm liệu Internet, người sử dụng mong muốn nhanh đến kết cần tìm Chương trình thực nghiệm cài đặt thuật toán K-means để phân cụm liệu Web phần giúp người sử dụng tìm kiếm liệu hiệu Chương trình cài đặt ngơn ngữ PHP, ngơn ngữ lập trình Web dạng server-side script chạy Web Server (server-side scripting language) Để chạy PHP, máy tính cần phải cài Webserver thông dụng Apache, IIS trang chủ Web upload Website phải cho phép chạy file PHP Chương trình hoặt động sau: Người sử dụng nhập từ khóa tìm kiếm tài liệu từ số giao diện sau: Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 72 Chương trình tiến hành tìm kiếm trang Web có liên quan Internet thơng báo kết tìm kiếm Sau chọn thẻ phân cụm nhập thông số để tiến hành phân cụm: Chương trình đưa kết sau: Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 73 Tổng kết chƣơng Chương trình bày số hướng tiếp cận khai phá Web khai phá nội dung Web, khai phá cấu trúc Web, khai phá sử dụng Web phương pháp khai phá liệu Web phân cụm liệu Web với số thuật toán thuật toán PageRank, thuật toán HITS áp dụng để tính trọng số trang Web Trong chương trình bày số chức quy trình hệ thống thử nghiệm tìm kiếm trích chọn liệu Web, tiền xử lý liệu, xây dựng từ điển, tách từ biểu diễn văn bản, phân cụm tài liệu K-means đánh giá kết thử nghiệm chương trình cài đặt Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 74 KẾT LUẬN Với phát triển nhanh chóng Internet ngày nay, hàng ngày người phải xử lý khối lượng thông tin, liệu khổng lồ, điều có nghĩa gặp phải rắc rối không mong muốn thời đại công nghệ số Vì vậy, tốn tìm kiếm tài liệu Web phân cụm tài liệu toán phức tạp ứng dụng thực tế, đặc biệt ứng dụng Web Trên sở liệu thu thập từ internet cần phải tiến hành phân loại, nhóm phân cụm thành cụm khác theo chủ đề khác từ phục vụ cho việc phân tích liệu dự báo kinh tế [1] Các vấn đề tìm hiểu luận văn Luận văn tìm hiểu sáu phương pháp phân cụm liệu: Phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, phân cụm dựa lưới, phân cụm dựa mơ hình phân cụm liệu mờ thuật toán đặc trưng cho phương pháp phân cụm liệu Bên cạnh vấn đề luận văn đề cập đến phân cụm liệu Web, lĩnh vực quan tâm nhiều thời đại cơng nghệ số Hiện nay, có nhiều phương pháp tìm kiếm khác nhau, nhìn chung cách tiếp cận dựa vào trọng số trang Web (Chỉ số quan trọng trang tập kết quả), như: Page Bank, HITS Tức trang chủ yếu dựa vào liên kết để xác định trọng số [15] Mặt khác, dựa vào nội dung tài liệu để xác định trọng số, từ tiến hành phân cụm tài liệu Web để phục vụ người sử dụng hiệu Trong khuôn khổ luận văn tác giả dành thời gian tìm hiểu phương pháp phân cụm phân hoạch, nhấn mạnh đến kỹ thuật phân cụm Kmeans, sử dụng để cài đặt thực nghiệm toán phân cụm tài liệu Web Đề Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 75 xuất giải pháp xây dựng phần mềm sử dụng thuật toán K-means phân cụm tài liệu Web Hƣớng nghiên cứu Tiếp tục nghiên cứu kỹ thuật phân cụm liệu, nhấn mạnh đến kỹ thuật phân cụm K-Means mở rộng, thời gian tuyến tính đáp ứng yêu cầu toán phân cụm tài liệu Web Đề xuất giải pháp xây dựng quy trình công nghệ phát triển hệ thống phần mềm thu thập, đánh giá phân cụm thông tin tự động Internet đáp ứng yêu cầu phục vụ cho việc nghiên cứu, học tập giảng dạy thời đại cơng nghệ số Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 76 TÀI LIỆU THAM KHẢO [1] Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh Hà, Nguyễn Thanh Dương (2009), "Tìm kiếm phân cụm tài liệu Web tự động", Tập 56, số 8, 2009 - Tạp chí khoa học cơng nghệ, Đại học Thái Nguyên, tr 60 - 64 [2] Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh Hà (2009), "Cải tiến thuật toán K-Means ứng dụng phân cụm liệu tự động", Báo cáo Hội thảo Khoa học ĐH Lạc Hồng, Đồng Nai [3] Lê Thu Trang (2008), "Khai phá liệu phương pháp phân cụm", Luận văn thạc sĩ Công nghệ thông tin, Khoa Công nghệ thông tin - Đại học Thái Nguyên [4] Hà Quang Thụy (2009), "Giáo trình khai phá liệu Web", Nxb Giáo dục Việt Nam Tài liệu tiếng Anh [5] BingLiu, (2007), Web mining, Spinger [6] Ho Tu Bao, (2000), Knowledge Discovery and Data Mining [7] Lizhen liu, junjie Chen, Hantao Song, (2002), The reseach of Web Mining, IEEE [8] Maria Rigou, Spiros Sirmakessis and Giannis Tzimas, (2006), A method for Peronalized Clustering in Data Intensive Web Applications [9] Miguel Gomes da Costa Júnior, Zhiguo Gong, (2005), Web Structure Mining: An Introduction, IEEE [10] Oren Zamir and Oren Etzioni, (1998), Web document Clustering: A Feasibility Demonstration, University of Washington, USA, ACM [11] Pawan Lingras, (2002), Rough Set Clustering for Web mining, IEEE [12] Perikis Andritsos, (2002) Data Clusting Tichniques, University Toronto Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 77 [13] R.Cooley, B.Mobasher and J.Srivastava, (1998), Web mining: Information and Pattern Discovery on the Wor ld Wide Web, University of Minnesota, USA [14] WangBin, LiuZhijing, (2003), WebMining Research, IEEE [15] Yitong Wang, Masaru Kitsuregawa (2002), Evaluating ContentsLink Coupled Web Page Clustering for Web Search Results, ACM Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn