1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một số phương pháp phân cụm dữ liệu web

83 419 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 83
Dung lượng 1,24 MB

Nội dung

i MỤC LỤC MỤC LỤC .i CÁC CỤM TỪ VIẾT TẮT iii DANH MỤC CÁC HÌNH VẼ iv LỜI NÓI ĐẦU CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu phát tri thức 1.1.1 Khai phá liệu .3 1.1.2 Quá trình khám phá tri thức 1.1.3 Khai phá liệu lĩnh vực liên quan 1.1.4 Các phương pháp áp dụng Khai phá liệu 1.1.5 Những chức KPDL 1.1.6 Các ứng dụng Khai phá liệu 1.2 Phương pháp phân cụm Khai phá liệu 10 1.2.1 Khái quát phân cụm liệu .10 1.2.2 Ứng dụng phân cụm liệu 13 1.2.3 Các yêu cầu phương pháp phân cụm liệu 14 1.3 Khai phá Web 15 1.3.1 Khai phá Web .15 1.3.2 Khái niệm khai phá Web 16 1.3.3 Đặc trưng khai phá Web 17 1.3.4 Các đối tượng khai phá Web 18 Tổng kết chương 18 CHƯƠNG II MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU .20 2.1 Phân cụm phân hoạch: 21 2.1.1 Thuật toán K-means 21 2.1.2 Thuật toán K-medoids 24 2.2 Phân cụm phân cấp 26 2.2.1 Thuật toán BIRCH 27 2.2.2 Thuật toán CURE 30 2.3 Phương pháp phân cụm liệu dựa vào mật độ 32 2.3.1 Thuật toán DBSCAN .32 2.3.2 Thuật toán OPTICS .36 2.4 Thuật toán phân cụm liệu dựa lưới 37 2.4.1 Thuật toán STING 38 2.4.2 Thuật toán CLIQUE .40 2.5 Phân cụm liệu dựa mô hình 41 2.5.1 Thuật toán EM .41 2.5.2 Thuật toán COBWEB 42 2.6 Phân cụm liệu mờ 43 ii 2.6.1 Hàm mục tiêu 45 2.6.2 Thuật toán FCM 48 Tổng kết chương 49 .50 CHƯƠNG III KHAI PHÁ DỮ LIỆU WEB 51 3.1 Khai phá nội dung Web 51 3.1.1 Khai phá kết tìm kiếm 52 3.1.2 Khai phá văn Web 52 3.2 Khai phá theo sử dụng Web .55 3.2.1 Ứng dụng khai phá theo sử dụng Web 56 3.2.2 Các phương pháp sử dụng khai phá liệu Web 57 3.2.3 Những vấn đề khai phá theo sử dụng Web 57 3.2.4 Quá trình khai phá theo sử dụng Web 57 3.3 Khai phá cấu trúc Web .59 3.3.1 Tiêu chuẩn đánh giá độ tương tự 60 3.3.2 Khai phá quản lý cộng đồng Web 61 3.4 Áp dụng thuật toán phân cụm liệu tìm kiếm phân cụm tài liệu Web .65 3.4.1 Hướng tiếp cận phương pháp phân cụm liệu 66 3.4.2 Quá trình tìm kiếm phân cụm tài liệu 67 Tổng kết chương 74 KẾT LUẬN 74 TÀI LIỆU THAM KHẢO 77 iii CÁC CỤM TỪ VIẾT TẮT STT Viết tắt CSDL KDD KPDL PCDL Cụm từ tiếng Anh Database Knowledge Discovery in Database Data mining Data Clustering Cụm từ tiếng Việt Cơ sở liệu Khám phá tri thức sở liệu Khai phá liệu Phân cụm liệu iv DANH MỤC CÁC HÌNH VẼ Hình 1.1 Quá trình khám phá tri thức Hình 2.1 Sơ đồ phân loại số thuật toán phân cụm liệu 20 Hình 2.2 Mô thuật toán K-means 23 Hình 2.3 Các trường hợp điểm P 25 Hình 2.4 Sơ đồ minh họa chiến lược phân cụm phân cấp 26 Hình 2.5 Sơ đồ mô CF 28 Hình 2.6 Cụm liệu khai phá thuật toán CURE 31 Hình 3.1 Phân loại khai phá Web 50 Hình 3.2 Quan hệ trực tiếp trang Web 60 Hình 3.3 Độ tương đồng trích dẫn v 60 Hình 3.4 Độ tương tự mục 60 Hình 3.5 Đồ thị phân đôi Hup Authority 62 Hình 3.6 Sự kết hợp Hup Authority 63 Hình 3.7 Các bước phân cụm kết tìm kiếm Web 67 LỜI NÓI ĐẦU Khai phá liệu lĩnh vực quan tâm nhiều thời gian gần đây, xuất phát từ bùng nổ thông tin, phát triển nhanh chóng khoa học kỹ thuật Kho liệu, nguồn tri thức nhân loại trở nên khổng lồ đồ sộ Vấn đề đặt cần có công cụ, phương pháp để khai thác nguồn tri thức ngày trở nên cấp thiết cho nghành khoa học công nghệ thông tin toàn giới Từ phát triển nhanh chóng công nghệ thông tin Internet, nguồn Web trở thành kho liệu khổng lồ Nhu cầu tìm kiếm, xử lý thông tin hiệu chúng mang lại tác động không nhỏ đến suất, chất lượng, hiệu lĩnh vực kinh doanh, quản lý, khoa học kỹ thuật… Việc nghiên cứu áp dụng phương pháp phân cụm liệu khai phá tài nguyên Web xu tất yếu mang ý nghĩa khoa học thực tiễn cao Từ lý tác giả chọn đề tài “Một số phương pháp phân cụm liệu Web” để làm luận văn tốt nghiệp Bố cục luận văn gồm chương: Chương trình bày khái quát khái niệm khai phá liệu; khám phá tri thức; phân cụm liệu khai phá liệu môi trường Web Chương trình bày số phương pháp phân cụm liệu phổ biến thường sử dụng lĩnh vực khai phá liệu khám phá tri thức Chương trình bày số hướng nghiên cứu khai phá liệu Web khai phá nội dung Web, khai phá sử dụng Web, khai phá cấu trúc Web tiếp cận theo hướng sử dụng phương pháp phân cụm liệu để giải toán khai phá liệu Web Trong chương tác giả tập trung nghiên cứu phương pháp phân cụm liệu K-means xây dựng chương trình áp dụng K-means để tìm kiếm phân cụm tài liệu Web Phần kết luận luận văn tổng kết lại vấn đề đề cập đến luận văn, đánh giá kết thu luận văn hướng phát triển đề tài CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu phát tri thức 1.1.1 Khai phá liệu Trong thập kỷ gần đây, phát triển rộng khắp sở liệu tạo bùng nổ thông tin toàn cầu, vào thời gian người ta bắt đầu đề cập đến việc khủng hoảng trình phân tích liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày cao tổ chức phủ, tài chính, thương mại, khoa học… Đúng John Naisbett cảnh báo “Chúng ta chìm ngập liệu mà đói trí thức” Lượng liệu khổng lồ thực nguồn tài nguyên có nhiều giá trị thông tin yếu tố then chốt phục vụ cho hoạt động quản lý, kinh doanh, phát triển sản xuất dịch vụ, giúp người điều hành quản lý có hiểu biết môi trường tiến trình hoạt động lĩnh vực kinh doanh từ định tác động đến trình hoạt động để đạt mục tiêu cách hiệu bền vững KPDL lĩnh vực nghiên cứu, nhằm tự động khai thác thông tin, tri thức hữu ích, tiềm ẩn từ sở liệu lớn từ làm thúc đẩy khả sản xuất, kinh doanh, cạnh tranh xã hội Các kết nghiên cứu khoa học ứng dụng thành công KDD cho thấy KPDL lĩnh vực phát triển bền vững, mang lại lợi ích có nhiều triển vọng, đồng thời có ưu hẵn so với công cụ tìm kiếm liệu truyền thống Hiện nay, KPDL ứng dụng ngày rộng rãi lĩnh vực thương mại, tài chính, y học, viễn thông, tin – sinh, Các phương pháp áp dụng lĩnh vực KPDL phần lớn thừa kế từ CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê tính toán nâng cao Như KPDL trình tìm kiếm, phát tri thức mới, tiềm ẩn, hữu dụng CSDL lớn KDD mục tiêu KPDL, khái niệm KPDL KDD nhà khoa học hai lĩnh vực xem tương đương với Nhưng thực tế KPDL bước trình KDD 1.1.2 Quá trình khám phá tri thức Quá trình KDD phân thành giai đoạn sau: Tri thức mẫu Dữ liệu biến đổi Dữ liệu tiền xử lý Dữ liệu thô Dữ liệu lựa chọn Hình 1.1 Quá trình khám phá tri thức Trích chọn liệu: Đây bước trích chọn tập liệu cần khai phá từ tập liệu lớn ban đầu theo số tiêu chí định Tiền xử lý liệu: Đây bước làm liệu (xử lý liệu không đầy đủ, nhiễu, không quán ), rút gọn liệu (sử dụng hàm nhóm tính tổng, phương pháp nén liệu, sử dụng hàm histogram, lấy mẫu ), rời rạc hoá liệu (rời rạc dựa histogram, dựa vào entropy, dựa vào phân khoảng ), Sau bước liệu quán, đầy đủ, rút gọn rời rạc hoá Biến đổi liệu: Đây bước chuẩn hoá làm mịn liệu dạng thuận lợi nhằm phục vụ trình khai phá bước sau Khai phá liệu: Đây bước áp dụng phương pháp phân tích (như phương pháp học máy) nhằm để khai thác liệu, trích chọn mẫu thông tin, mối liên hệ đặc biệt liệu Đây xem bước quan trọng tốn nhiều thời gian toàn trình KDD Đánh giá biểu diễn tri thức: Những mẫu thông tin mối liên hệ liệu khám phá bước biến đổi biểu diễn dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật… Đồng thời bước đánh giá tri thức khám phá theo tiêu chí định 1.1.3 Khai phá liệu lĩnh vực liên quan KPDL lĩnh vực liên quan tới thống kê, học máy, CSDL, thuật toán, tính toán song song, thu nhận tri thức từ hệ chuyên gia liệu trừu tượng Đặc trưng hệ thống khám phá tri thức nhờ vào phương pháp, thuật toán từ lĩnh vực khác để KPDL Lĩnh vực học máy nhận dạng mẫu KDD nghiên cứu lý thuyết thuật toán hệ thống để trích mẫu mô hình từ liệu lớn KDD tập trung vào việc mở rộng lý thuyết thuật toán cho vấn đề tìm mẫu đặc biệt (hữu ích rút tri thức quan trọng) CSDL lớn Ngoài ra, KDD có nhiều điểm chung với thống kê, đặc biệt phân tích liệu thăm dò (Exploratory Data Analysis - EDA) Hệ thống KDD thường gắn thủ tục thống kê cho mô hình liệu tiến trình nhiễu khám phá tri thức nói chung Các Authority Hub thể quan hệ tác động qua lại để tăng cường lực lượng Nghĩa Hub tốt trỏ đến nhiều Authority tốt ngược lại 51 27 17 1 61 71 27 47 Hình 3.6 Sự kết hợp Hub Authority Các bước phương pháp HITS Bước 1:Xác định tập S, lấy tập tài liệu trả Searrch Engine chuẩn gọi tập gốc R, khởi tạo S tương ứng với R Bước 2: Thêm vào S tất trang mà trỏ tới từ trang R Với trang p S: Tính giá trị điểm số Authority: ap (vector a) Tính giá trị điểm số Hub: hp (vector h) Với nút khởi tạo ap hp 1/n (n số trang) Bước 3: Trong bước lặp tính giá trị trọng số Authority cho nút hq S theo công thức: a p = q:∑ q→ p Bước 4: Mỗi bước lặp tính giá trị trọng số Hub nút S theo công thức hq = ∑a q :q → p p Lưu ý trọng số Hub tính toán nhờ vào trọng số Authority tại, mà trọng số Authority lại tính toán từ trọng số Hub trước Bước 5: Sau tính xong trọng số cho tất nút, trọng số chuẩn hóa lại theo công thức: ∑ (a ) p∈s p = and ∑ (h ) p∈s p =1 lặp lại bước hp ap không đổi KPDL Web lĩnh vực nghiên cứu quan trọng KPDL để tiếp cận với kho tài nguyên tri thức phong phú đa dạng này, phương pháp KPDL Web áp dụng rộng rãi đặc biệt phương pháp phân cụm liệu 3.4 Áp dụng thuật toán phân cụm liệu tìm kiếm phân cụm tài liệu Web Ngày nay, nhờ cải tiến không ngừng Search engine chức tìm kiếm lẫn giao diện người dùng giúp cho người sử dụng dễ dàng việc tìm kiếm thông tin Web Tuy nhiên, người sử dụng thường phải duyệt qua nhiều trang Web tìm thứ mà họ cần Tâm lý người dùng xem qua vài chục trang kết đầu tiên, phần lớn họ không đủ kiên nhẫn để xem qua tất kết mà Search engine trả Nhằm giải vấn đề này, nhóm kết tìm kiếm thành nhóm theo chủ đề, người sử dụng bỏ qua nhóm mà họ không cần quan tâm Điều giúp người sử dụng thực công việc cách nhanh chóng tiết kiệm thời gian Tuy nhiên vấn đề phân cụm liệu Web lựa chọn chủ đề thích hợp để mô tả nội dung trang Web vấn đề không đơn giản Trong phạm vi luận văn tác giả tìm hiểu khía cạnh sử dụng phương pháp phân cụm để phân cụm tài liệu Web dựa kho liệu tìm kiếm lưu trữ 3.4.1 Hướng tiếp cận phương pháp phân cụm liệu Hiện để xác định mức độ quan trọng trang Web có nhiều phương pháp sử dụng PageRank, HITS nhiên, phương pháp chủ yếu dựa vào liên kết trang để xác định trọng số cho trang Web Ta tiếp cận cách đánh giá mức độ quan trọng theo hướng khác dựa vào nội dung tài liệu để xác định trọng số, tài liệu có nội dung gần tương tự nhau, mức độ quan trọng tương đương thuộc nhóm Giả sử cho tập S gồm trang Web, tìm tập S trang chứa nội dung câu hỏi truy vấn ta tập R Sử dụng thuật toán phân cụm liệu để phân tập R thành k cụm (k xác định) cho phần tử cụm tương tự nhất, phần tử cụm khác phi tương tự với Từ tập S-R đưa phần tử vào k cụm thiết lập Những phần tử tương tự với trọng tâm cụm (theo ngưỡng xác định đó) đưa vào cụm này, phần tử không thỏa mãn xem không phù hợp với truy vấn loại bỏ khỏi tập kết Sau ta gán trọng số cho cụm trang tập kết theo thuật toán sau: INPUT: Tập liệu D chứa trang gồm k cụm k trọng tâm OUTPUT: Trọng số trang BEGIN Mỗi cụm liệu thứ m trọng tâm C m gán trọng số ts m Với trọng tâm Ci, Cj ta có tsi > tsj ti tương tự với truy vấn tj Với trang p cụm m ta xác định trọng số trang pw m Với pwi, pwj bất kỳ, ta có pwi > pwj pwi gần trọng tâm pwj END Như vậy, theo cách tiếp cận ta giải vấn đề sau: + Kết tìm kiếm phân thành cụm theo chủ đề khác nhau, tùy theo yêu cầu cụ thể người dùng xác định chủ đề mà họ cần + Quá trình tìm kiếm xác định trọng số cho trang chủ yếu tập trung vào nội dung trang dựa vào liên kết trang + Giải vấn đề từ/cụm từ đồng nghĩa câu truy vấn người dùng + Có thể kết hợp phương pháp phân cụm lĩnh vực KPDL với phương pháp tìm kiếm có Có số thuật toán phân cụm liệu sử dụng phân cụm văn thuật toán phân cụm phân hoạch (K-means, K-medoids), thuật toán phân cụm phân cấp (BIRCH, CURE) Trong thực tế để phân cụm theo nội dung tài liệu Web ta sử dụng thuật toán phân cụm mờ 3.4.2 Quá trình tìm kiếm phân cụm tài liệu Về bản, trình phân cụm kết tìm kiếm diễn theo bước thể Hình 3.7 - Tìm kiếm trang Web từ Website thỏa mãn nội dung truy vấn - Trích rút thông tin mô tả từ trang lưu trữ với URL tương ứng - Sử dụng phương pháp phân cụm liệu để phân cụm trang Web thành cụm, cho trang cụm “tương tự” nội dung trang cụm Tìm kiếm trích rút liệu Biểu diễn kết Áp dụng thuật toán phân cụm Tiền xử lý Biểu diễn liệu Hình 3.7 Các bước phân cụm kết tìm kiếm Web 3.4.2.1 Tìm kiếm liệu Web Nhiệm vụ chủ yếu giai đoạn dựa vào tập từ khóa để tìm kiếm trả tập gồm toàn văn tài liệu, tiêu đề, mô tả tóm tắt, URL tương ứng với trang Nhằm nâng cao tốc độ xử lý, ta tiến hành tìm kiếm lưu trữ tài liệu kho liệu để sử dụng cho trình tìm kiếm (tương tự Search Engine Google) Mỗi phần tử gồm toàn văn tài liệu, tiêu đề, đoạn mô tả nội dung, URL 3.4.2.2 Tiền xử lý liệu Quá trình làm liệu chuyển dịch tài liệu thành dạng biểu diễn liệu thích hợp Giai đoạn bao gồm công việc sau: Chuẩn hóa văn bản, xóa bỏ từ dừng, kết hợp từ có từ gốc, số hóa biểu diến văn * Chuẩn hoá văn bản: Đây giai đoạn chuyển văn thô dạng văn xử lý cho việc xử lý sau dễ dàng, đơn giản, thuận tiện, xác so với việc xử lý trực tiếp văn thô Quá trình chuẩn hoá văn bao gồm: + Xoá thẻ HTML loại thẻ khác để trích từ, cụm từ + Chuyển ký tự hoa thành ký tự thường + Xoá bỏ dấu câu, ký tự trắng dư thừa * Xoá bỏ từ dừng: Trong văn có từ mang thông tin, từ có tần số xuất thấp, từ xuất với tần số lớn không quan trọng trình xử ký loại bỏ Việc loại bỏ từ dừng giảm bớt khoảng 20-30% tổng số từ văn Có nhiều từ xuất với tần số cao không hữu ích trình phân cụm liệu Ví dụ tiếng anh từ: a, an, the, of, and, to, by tiếng việt từ: thì, là, mà, và, Những từ xuất với tần số lớn loại bỏ Để đơn giản ứng dụng thực tế, ta tổ chức thành danh sách từ dừng, sử dụng định luật Zipf để xoá bỏ từ có tần số xuất thấp cao * Kết hợp từ có nguồn gốc: Hầu hết ngôn ngữ có nhiều từ có chung nguồn gốc với nhau, chúng mang ý nghĩa tương tự nhau, để giảm bớt số chiều biểu diễn văn ta kết hợp từ có gốc thành từ Việc kết hợp giảm khoảng 40-50% kích thước chiều biểu diễn văn Ví dụ tiếng Anh có từ user, users, used, using có gốc quy từ use 3.4.2.3 Xây dựng từ điển Xây dựng từ điển công việc quan trọng trình vector hóa văn bản, từ điển gồm từ, cụm từ riêng biệt toàn tập liệu, gồm bảng từ, số từ điển xếp theo thứ tự Để nâng cao chất lượng phân cụm liệu cần xem xét đến việc xử lý cụm từ ngữ cảnh khác Theo đề xuất Zemir xây dựng từ điển cần có 500 phần tử phù hợp 3.4.2.4 Tách từ, số hóa văn biểu diễn tài liệu Tách từ công việc quan trọng biểu diễn văn bản, trình tách từ, vector hóa tài liệu trình tìm kiếm từ thay từ số từ từ điển Với trình ta sử dụng mô hình toán học TF, IDF, TF-IDF để biểu diễn văn Sử dụng mảng W (trọng số) hai chiều có kích thước mxn, với n số tài liệu, m số thuật ngữ từ điển, hàng thứ j vector biểu diễn tài liệu thứ j sở liệu, cột thứ i thuật ngữ thứ i từ điển Wij giá trị trọng số thuật ngữ i tài liệu thứ j Giai đoạn thực thống kê tần số thuật ngữ t i Từ xây dựng bảng trọng số ma trận W theo công thức sau: Công thức tính trọng số theo TF-IDF:  n tf ij ⋅ idf ij = + log( tf ij ) ⋅ log wij =   hi 0  [ ]    nÕu t i ∈ d j nÕu ng­îc l¹i (t i ∉ d j ) đó: tfij tần số xuất ti tài liệu dj idfij nghịch đảo tần số xuất ti tài liệu dj hi số tài liệu mà ti xuất n tổng số tài liệu 3.4.2.5 Phân cụm tài liệu Sau tìm kiếm, trích rút liệu, tiền xử lý biểu diễn văn sử dụng thuật toán k-means để để phân cụm tài liệu INPUT: Tập gồm n tài liệu k cụm OUTPUT: Các cụm Ci (i=1, ,k) cho hàm tiêu chuẩn đạt giá trị cực tiểu Begin Bước Khởi tạo ngẫu nhiên k vector làm đối tượng trọng tâm k cụm Bước Với tài liệu dj xác định độ tương tự trọng tâm cụm theo độ đo tương tự thường dùng (như Dice, Cosine, Jaccard ) Xác định trọng tâm tương tự cho tài liệu đưa tài liệu vào cụm Bước Cập nhật lại đối tượng trọng tâm Đối với cụm ta xác định lại trọng tâm cách xác định trung bình cộng vector tài liệu cụm Bước Lặp lại bước trọng tâm không thay đổi End - Xác định trọng tâm cụm tài liệu: Xét cụm văn c, trọng d ) văn tâm C cụm c tính dựa vector tổng D ( D = ∑ d ∈c D cụm c: C = c c số phần tử thuộc tập tài liệu c Trong phương pháp phân cụm, trọng tâm cụm sử dụng để làm đại diện cho cụm tài liệu - Tính toán độ tương tự cụm tài liệu: Giả sử có cụm c 1, c2 độ tương tự cụm tài liệu tính mức độ gần vector trọng tâm C1, C2: Sim(c1,c2) = Sim(C1,C2) c1, c2 gồm tài liệu coi cụm gồm phần tử Với thuật toán k-means, chất lượng phân cụm đánh giá thông qua k hàm tiêu chuẩn E = ∑∑ x∈C D ( x − mi ) , x vector biểu diễn tài i =1 i liệu, mi trọng tâm cụm, k số cụm, Ci cụm thứ i Độ phức tạp thuật toán k-means O((n.k.d).r) Trong đó: n số đối tượng liệu, k số cụm liệu, d số chiều, r số vòng lặp Sau phân cụm xong tài liệu, trả kết cụm liệu trọng tâm tương ứng 3.4.2.6 Chương trình phân cụm mô tài liệu Web Trong thực tế ngày tìm kiếm liệu Internet, người sử dụng mong muốn nhanh đến kết cần tìm Chương trình thực nghiệm cài đặt thuật toán K-means để phân cụm liệu Web phần giúp người sử dụng tìm kiếm liệu hiệu Chương trình cài đặt ngôn ngữ PHP, ngôn ngữ lập trình Web dạng server-side script chạy Web Server (server-side scripting language) Để chạy PHP, máy tính cần phải cài Webserver thông dụng Apache, IIS trang chủ Web upload Website phải cho phép chạy file PHP Chương trình hoặt động sau: Người sử dụng nhập từ khóa tìm kiếm tài liệu từ số giao diện sau: Chương trình tiến hành tìm kiếm trang Web có liên quan Internet thông báo kết tìm kiếm Sau chọn thẻ phân cụm nhập thông số để tiến hành phân cụm: Chương trình đưa kết sau: Tổng kết chương Chương trình bày số hướng tiếp cận khai phá Web khai phá nội dung Web, khai phá cấu trúc Web, khai phá sử dụng Web phương pháp khai phá liệu Web phân cụm liệu Web với số thuật toán thuật toán PageRank, thuật toán HITS áp dụng để tính trọng số trang Web Trong chương trình bày số chức quy trình hệ thống thử nghiệm tìm kiếm trích chọn liệu Web, tiền xử lý liệu, xây dựng từ điển, tách từ biểu diễn văn bản, phân cụm tài liệu Kmeans đánh giá kết thử nghiệm chương trình cài đặt KẾT LUẬN Với phát triển nhanh chóng Internet ngày nay, hàng ngày người phải xử lý khối lượng thông tin, liệu khổng lồ, điều có nghĩa gặp phải rắc rối không mong muốn thời đại công nghệ số Vì vậy, toán tìm kiếm tài liệu Web phân cụm tài liệu toán phức tạp ứng dụng thực tế, đặc biệt ứng dụng Web Trên sở liệu thu thập từ internet cần phải tiến hành phân loại, nhóm phân cụm thành cụm khác theo chủ đề khác từ phục vụ cho việc phân tích liệu dự báo kinh tế [1] Các vấn đề tìm hiểu luận văn Luận văn tìm hiểu sáu phương pháp phân cụm liệu: Phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, phân cụm dựa lưới, phân cụm dựa mô hình phân cụm liệu mờ thuật toán đặc trưng cho phương pháp phân cụm liệu Bên cạnh vấn đề luận văn đề cập đến phân cụm liệu Web, lĩnh vực quan tâm nhiều thời đại công nghệ số Hiện nay, có nhiều phương pháp tìm kiếm khác nhau, nhìn chung cách tiếp cận dựa vào trọng số trang Web (Chỉ số quan trọng trang tập kết quả), như: Page Bank, HITS Tức trang chủ yếu dựa vào liên kết để xác định trọng số [15] Mặt khác, dựa vào nội dung tài liệu để xác định trọng số, từ tiến hành phân cụm tài liệu Web để phục vụ người sử dụng hiệu Trong khuôn khổ luận văn tác giả dành thời gian tìm hiểu phương pháp phân cụm phân hoạch, nhấn mạnh đến kỹ thuật phân cụm Kmeans, sử dụng để cài đặt thực nghiệm toán phân cụm tài liệu Web Đề xuất giải pháp xây dựng phần mềm sử dụng thuật toán K-means phân cụm tài liệu Web Hướng nghiên cứu Tiếp tục nghiên cứu kỹ thuật phân cụm liệu, nhấn mạnh đến kỹ thuật phân cụm K-Means mở rộng, thời gian tuyến tính đáp ứng yêu cầu toán phân cụm tài liệu Web Đề xuất giải pháp xây dựng quy trình công nghệ phát triển hệ thống phần mềm thu thập, đánh giá phân cụm thông tin tự động Internet đáp ứng yêu cầu phục vụ cho việc nghiên cứu, học tập giảng dạy thời đại công nghệ số TÀI LIỆU THAM KHẢO [1] Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh Hà, Nguyễn Thanh Dương (2009), "Tìm kiếm phân cụm tài liệu Web tự động", Tập 56, số 8, 2009 - Tạp chí khoa học công nghệ, Đại học Thái Nguyên, tr 60 - 64 [2] Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh Hà (2009), "Cải tiến thuật toán K-Means ứng dụng phân cụm liệu tự động", Báo cáo Hội thảo Khoa học ĐH Lạc Hồng, Đồng Nai [3] Lê Thu Trang (2008), "Khai phá liệu phương pháp phân cụm", Luận văn thạc sĩ Công nghệ thông tin, Khoa Công nghệ thông tin - Đại học Thái Nguyên [4] Hà Quang Thụy (2009), "Giáo trình khai phá liệu Web", Nxb Giáo dục Việt Nam Tài liệu tiếng Anh [5] BingLiu, (2007), Web mining, Spinger [6] Ho Tu Bao, (2000), Knowledge Discovery and Data Mining [7] Lizhen liu, junjie Chen, Hantao Song, (2002), The reseach of Web Mining, IEEE [8] Maria Rigou, Spiros Sirmakessis and Giannis Tzimas, (2006), A method for Peronalized Clustering in Data Intensive Web Applications [9] Miguel Gomes da Costa Júnior, Zhiguo Gong, (2005), Web Structure Mining: An Introduction, IEEE [10] Oren Zamir and Oren Etzioni, (1998), Web document Clustering: A Feasibility Demonstration, University of Washington, USA, ACM [11] Pawan Lingras, (2002), Rough Set Clustering for Web mining, IEEE [12] Perikis Andritsos, (2002) Data Clusting Tichniques, University Toronto [13] R.Cooley, B.Mobasher and J.Srivastava, (1998), Web mining: Information and Pattern Discovery on the Wor ld Wide Web, University of Minnesota, USA [14] WangBin, LiuZhijing, (2003), WebMining Research, IEEE [15] Yitong Wang, Masaru Kitsuregawa (2002), Evaluating ContentsLink Coupled Web Page Clustering for Web Search Results, ACM [...]... phá dữ liệu, 19 khám phá tri thức, phân cụm trong khai phá dữ liệu và các khái niệm liên quan đến phân cụm dữ liệu, ứng dụng của phân cụm dữ liệu và các yêu cầu đối với phương pháp phân cụm dữ liệu Ngoài ra trong chương này còn đề cập đến một lĩnh vực cụ thể của KPDL đó là khai phá Web Trong phạm vi chương 1 chỉ đề cập đến khái niệm, các đặc trưng và một số kiểu dữ liệu Web 20 CHƯƠNG II MỘT SỐ PHƯƠNG... hoạch: Ý tưởng của phương pháp phân cụm phân hoạch nhằm phân chia một tập dữ liệu có n phần tử cho trước thành k nhóm dữ liệu sao cho mỗi phần tử dữ liệu chỉ thuộc về một nhóm dữ liệu và mỗi nhóm dữ liệu có ít nhất một phần tử dữ liệu Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có... dữ liệu vào: Cùng một tập dữ liệu khi đưa vào xử lý bằng các thuật toán PCDL, thứ tự vào của các đối tượng dữ liệu ở các lần thực hiện khác nhau không ảnh hưởng đến kết quả phân cụm dữ liệu 15 Khả năng thích nghi với dữ liệu nhiễu cao: Hầu hết các dữ liệu phân cụm trong KPDL đều có chứa các dữ liệu lỗi, dữ liệu không đầy đủ, dữ liệu rác được gọi chung là dữ liệu nhiễu Bởi vậy các thuật toán phân cụm. .. PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU Các phương pháp áp dụng để giải quyết vấn đề PCDL đều hướng tới hai mục tiêu chung: Chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán Hiện nay, các kỹ phân cụm dữ liệu có thể phân loại theo các cách tiếp cận chính như sau [5]: Các thuật toán phân cụm dữ liệu Các thuật toán phân cụm phân hoạch Các thuật toán phân cụm phân cấp Các thuật toán phân cụm dựa... phân cụm phân cấp Bottom up và Top Down a b c b d a b ae b a a, b, c, d a, b c,d,e d, e 27 Hình 2.4 Sơ đồ minh họa chiến lược phân cụm phân cấp Trong thực tế áp dụng có nhiều trường hợp người ta kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp... ra một tập với đối tượng tâm mới 26 Bước 7: Đến khi không có sự thay đổi nào nữa thì dừng 2.2 Phân cụm phân cấp Phân cụm phân cấp là sắp xếp một tập dữ liệu đã cho thành một cấu trúc dạng hình cây, cây phân cấp này được xây dựng theo phương pháp đệ quy Cây phân cấp có thể được xây dựng theo hai phương pháp tổng quát: Phương pháp “trên xuống” (Top down) và phương pháp “dưới lên” (Bottom up) Phương pháp. .. phá các nhóm tài liệu quan trọng, có nhiều ý nghĩa trong môi trường Web Các lớp tài liệu này trợ giúp cho việc khám 14 phá tri thức từ dữ liệu Web, khám phá ra các mẫu truy cập của khách hàng đặc biệt hay khám phá ra cộng đồng Web, … 1.2.3 Các yêu cầu đối với phương pháp phân cụm dữ liệu Lựa chọn một thuật toán phân cụm dữ liệu là vấn đề then chốt để giải quyết bài toán phân cụm dữ liệu, lựa chọn này... cao Phân cụm: Xếp các đối tượng theo từng cụm dữ liệu tự nhiên Phân cụm còn được gọi là học không có giám sát Mô tả tóm tắt khái niệm: Thiên về mô tả tổng hợp và tóm tắt khái niệm, ví dụ như tóm tắt văn bản Do KPDL được ứng dụng rộng rãi nên có thể làm việc với rất nhiều kiểu dữ liệu khác nhau Sau đây là một dạng dữ liệu điển hình: Dữ liệu quan hệ, dữ liệu đa chiều, dữ liệu dạng giao dịch, dữ liệu. ..6 Một lĩnh vực liên quan khác là phân tích kho dữ liệu Phương pháp phổ biến để phân tích kho dữ liệu là OLAP (On – line Analytical processing) Các công cụ OLAP tập trung vào phân tích dữ liệu đa chiều 1.1.4 Các phương pháp áp dụng trong Khai phá dữ liệu KDD là một lĩnh vực liên nghành, bao gồm: Tổ chức dữ liệu, học máy, trí tuệ nhân tạo và các khoa học khác Đứng trên quan điểm của học máy, thì các phương. .. cầu đọc dữ liệu lại từ đầu nhưng vẫn đảm bảo hiệu chỉnh cây dữ liệu nhỏ hơn 3 Thực hiện phân cụm: Các nút lá cây CF lưu trữ các đại lượng thống kê của các cụm con Trong bước này, BIRCH sử dụng các đại lượng thống kê này để áp dụng một số phương pháp phân cụm, ví dụ K-means và tạo ra một khởi tạo cho phân cụm 30 4 Phân phối lại các đối tượng dữ liệu bằng cách dùng các đối tượng trọng tâm cho các cụm được ... đồng Web 61 3.4 Áp dụng thuật toán phân cụm liệu tìm kiếm phân cụm tài liệu Web .65 3.4.1 Hướng tiếp cận phương pháp phân cụm liệu 66 3.4.2 Quá trình tìm kiếm phân cụm tài liệu. .. toán COBWEB Thuật toán Hình 2.1 Sơ đồ phân loại số thuật toán phân cụm liệu εFCM 21 2.1 Phân cụm phân hoạch: Ý tưởng phương pháp phân cụm phân hoạch nhằm phân chia tập liệu có... trình bày kiến thức khai phá liệu, 19 khám phá tri thức, phân cụm khai phá liệu khái niệm liên quan đến phân cụm liệu, ứng dụng phân cụm liệu yêu cầu phương pháp phân cụm liệu Ngoài chương đề cập

Ngày đăng: 09/12/2016, 17:54

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w