1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Khai phá dữ liệu Web bằng kỹ thuật phân cụm

110 49 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 110
Dung lượng 1,81 MB

Nội dung

Khai phá liệu Web kỹ thuật phân cụm BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI Hoàng Văn Dũng KHAI PHÁ DỮ LIỆU WEB BẰNG KỸ THUẬT PHÂN CỤM Luận văn thạc sỹ khoa học Hà Nội, 2007 Hoàng Văn Dũng i Khai phá liệu Web kỹ thuật phân cụm MỤC LỤC MỤC LỤC i DANH SÁCH CÁC HÌNH v DANH SÁCH CÁC BẢNG BIỂU vi CÁC CỤM TỪ VIẾT TẮT vii LỜI MỞ ĐẦU Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu phát tri thức 1.1.1 Khai phá liệu 1.1.2 Quá trình khám phá tri thức 1.1.3 Khai phá liệu lĩnh vực liên quan 1.1.4 Các kỹ thuật áp dụng khai phá liệu 1.1.5 Những chức khai phá liệu 1.1.6 Ứng dụng khai phá liệu 1.2 Kỹ thuật phân cụm khai phá liệu 10 1.2.1 Tổng quan kỹ thuật phân cụm 10 1.2.2 Ứng dụng phân cụm liệu 13 1.2.3 Các yêu cầu kỹ thuật phân cụm liệu 13 1.2.4 Các kiểu liệu độ đo tương tự 15 1.2.4.1 Phân loại kiểu liệu dựa kích thước miền 15 1.2.4.2 Phân loại kiểu liệu dựa hệ đo 15 1.2.4.3 Khái niệm phép đo độ tương tự, phi tương tự 17 1.3 Khai phá Web 20 1.3.1 Lợi ích khai phá Web 20 1.3.2 Khai phá Web 21 1.3.3 Các kiểu liệu Web 22 1.4 Xử lý liệu văn ứng dụng khai phá liệu Web 23 1.4.1 Dữ liệu văn 23 1.4.2 Một số vấn đề xử lý liệu văn 23 1.4.2.1 Loại bỏ từ dừng 24 1.4.2.2 Định luật Zipf 25 1.4.3 Các mơ hình biểu diễn liệu văn 26 1.4.3.1 Mô hình Boolean 26 Hoàng Văn Dũng ii Khai phá liệu Web kỹ thuật phân cụm 1.4.3.2 Mơ hình tần số 27 1.5 Tổng kết chương 30 Chương MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 31 2.1 Phân cụm phân hoạch 31 2.1.1 Thuật toán k-means 32 2.1.2 Thuật toán PAM 34 2.1.3 Thuật toán CLARA 38 2.1.4 Thuật toán CLARANS 39 2.2 Phân cụm phân cấp 41 2.2.1 Thuật toán BIRCH 42 2.2.2 Thuật toán CURE 45 2.3 Phân cụm dựa mật độ 47 2.3.1 Thuật toán DBSCAN 47 2.3.2 Thuật toán OPTICS 51 2.3.3 Thuật toán DENCLUE 52 2.4 Phân cụm dựa lưới 54 2.4.1 Thuật toán STING 55 2.4.2 Thuật toán CLIQUE 56 2.5 Phân cụm liệu dựa mơ hình 57 2.5.1 Thuật toán EM 58 2.5.2 Thuật toán COBWEB 59 2.6 Phân cụm liệu mờ 59 2.7 Tổng kết chương 60 Chương KHAI PHÁ DỮ LIỆU WEB 62 3.1 Khai phá nội dung Web 62 3.1.1 Khai phá kết tìm kiếm 63 3.1.2 Khai phá văn Web 63 3.1.2.1 Lựa chọn liệu 64 3.1.2.2 Tiền xử lý liệu 64 3.1.2.3 Biểu điễn văn 65 3.1.2.4 Trích rút từ đặc trưng 65 3.1.2.5 Khai phá văn 66 3.1.3 Đánh giá chất lượng mẫu 68 Hoàng Văn Dũng iii Khai phá liệu Web kỹ thuật phân cụm 3.2 Khai phá theo sử dụng Web 69 3.2.1 Ứng dụng khai phá theo sử dụng Web 70 3.2.2 Các kỹ thuật sử dụng khai phá theo sử dụng Web 71 3.2.3 Những vấn đề khai theo sử dụng Web 71 3.2.3.1 Chứng thực phiên người dùng 71 3.2.3.2 Đăng nhập Web xác định phiên chuyển hướng người dùng 72 3.2.3.3 Các vấn đề việc xử lý Web log 72 3.2.3.4 Phương pháp chứng thực phiên làm việc truy cập Web 73 3.2.4 Quá trình khai phá theo sử dụng Web 73 3.2.4.1 Tiền xử lý liệu 73 3.2.4.2 Khai phá liệu 73 3.2.4.3 Phân tích đánh giá 75 3.2.5 Ví dụ khai phá theo sử dụng Web 75 3.3 Khai phá cấu trúc Web 77 3.3.1 Tiêu chuẩn đánh giá độ tương tự 79 3.3.2 Khai phá quản lý cộng đồng Web 80 3.3.2.1 Thuật toán PageRank 81 3.3.2.2 Phương pháp phân cụm nhờ thuật toán HITS 82 3.4 Áp dụng thuật toán phân cụm liệu tìm kiếm PCDL Web 85 3.4.1 Hướng tiếp cận kỹ thuật phân cụm 85 3.4.2 Quá trình tìm kiếm phần cụm tài liệu 87 3.4.2.1 Tìm kiếm liệu Web 87 3.4.2.2 Tiền xử lý liệu 88 3.4.2.3 Xây dựng từ điển 89 3.4.2.4 Tách từ, số hóa văn biểu diễn tài liệu 90 3.4.2.5 Phân cụm tài liệu 90 3.4.6 Kết thực nghiệm 92 3.5 Tổng kết chương 93 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 94 PHỤ LỤC 96 TÀI LIỆU THAM KHẢO 102 Hoàng Văn Dũng iv Khai phá liệu Web kỹ thuật phân cụm DANH SÁCH CÁC HÌNH Hình 1.1 Q trình khám phá tri thức Hình 1.2 Các lĩnh vực liên quan đến khám phá tri thức CSDL Hình 1.3 Trực quan hóa kết KPDL Oracle 10 Hình 1.4 Mơ PCDL 11 Hình 1.5 Phân loại liệu Web 22 Hình 1.6 Lược đồ thống kê tần số từ theo Định luật Zipf 26 Hình 1.7 Các độ đo tương tự thường dùng 29 Hình 2.1 Thuật toán k-means 32 Hình 2.2 Hình dạng cụm liệu khám phá k-means 33 Hình 2.3 Trường hợp Cjmp=d(Oj,Om,2) – d(Oj, Om) khơng âm 35 Hình 2.4 Trường hợp Cjmp= (Oj,Op)- d(Oj, Om) âm dương 36 Hình 2.5 Trường hợp Cjmp không 36 Hình 2.6 Trường hợp Cjmp= (Oj,Op)- d(Oj, Om,2) ln âm 37 Hình 2.7 Thuật toán PAM 37 Hình 2.8 Thuật tốn CLARA 38 Hình 2.9 Thuật toán CLARANS 40 Hình 2.10 Các chiến lược phân cụm phân cấp 42 Hình 2.11 Cây CF sử dụng thuật toán BIRCH 43 Hình 2.12 Thuật tốn BIRCH 44 Hình 2.13 Ví dụ kết phân cụm thuật tốn BIRCH 44 Hình 2.14 Các cụm liệu khám phá CURE 45 Hình 2.15 Thuật tốn CURE 46 Hình 2.16 Một số hình dạng khám phá phân cụm dưa mật độ 47 Hình 2.17 Lân cận P với ngưỡng Eps 48 Hình 2.18 Mật độ - đến trực tiếp 49 Hình 2.19 Mật độ đến 49 Hình 2.20 Mật độ liên thơng 49 Hình 2.21 Cụm nhiễu 50 Hình 2.22 Thuật tốn DBSCAN 51 Hình 2.23 Thứ tự phân cụm đối tượng theo OPTICS 52 Hình 2.24 DENCLUE với hàm phân phối Gaussian 53 Hoàng Văn Dũng v Khai phá liệu Web kỹ thuật phân cụm Hình 2.25 Mơ hình cấu trúc liệu lưới 55 Hình 2.26 Thuật toán CLIQUE 56 Hình 2.27 Q trình nhận dạng CLIQUE 57 Hình 3.1 Phân loại khai phá Web 62 Hình 3.2 Quá trình khai phá văn Web 64 Hình 3.3 Thuật tốn phân lớp K-Nearest Neighbor 67 Hình 3.4 Thuật tốn phân cụm phân cấp 67 Hình 3.5 Thuật toán phân cụm phân hoạch 68 Hình 3.6 Kiến trúc tổng quát khai phá theo sử dụng Web 70 Hình 3.7 Minh họa nội dung logs file 72 Hình 3.8 Phân tích người dùng truy cập Web 77 Hình 3.9 Đồ thi liên kết Web 78 Hình 3.10 Quan hệ trực tiếp trang 79 Hình 3.11 Độ tương tự đồng trích dẫn 79 Hình 3.12 Độ tương tự mục 79 Hình 3.13 Cộng đồng Web 80 Hình 3.14 Kết thuật tốn PageRank 81 Hình 3.15 Đồ thị phân đôi Hub Authority 82 Hình 3.16 Sự kết hợp Hub Authority 83 Hình 3.17 Đồ thị Hub-Authority 84 Hình 3.18 Giá trị trọng số Hub Authority 84 Hình 3.19 Thuật toán đánh trọng số cụm trang 86 Hình 3.20 Các bước phân cụm kết tìm kiếm Web 87 Hình 3.21 Thuật tốn k-means phân cụm nội dung tài liệu Web 91 DANH SÁCH CÁC BẢNG BIỂU Bảng 1.1 Bảng tham số thuộc tính nhị phân 18 Bảng 1.2 Thống kê từ tần số xuất cao 24 Bảng 3.1 Thống kê số người dùng thời gian khác 76 Bảng 3.2 Bảng đo thời gian thực thuật tốn phân cụm 92 Hồng Văn Dũng vi Khai phá liệu Web kỹ thuật phân cụm CÁC CỤM TỪ VIẾT TẮT STT Viết tắt Cụm từ tiếng Anh Cụm từ tiếng Việt CNTT Information Technology Công nghệ thông tin CSDL Database Cơ sở liệu KDD Knowledge Discovery in Database Khám phá tri thức sở liệu KPDL Data mining Khai phá liệu KPVB Text Mining Khai phá văn PCDL Data Clustering Phân cụm liệu Hoàng Văn Dũng vii Khai phá liệu Web kỹ thuật phân cụm LỜI MỞ ĐẦU Trong năm gần với phát triển nhanh chóng khoa học kỹ thuật bùng nỗ tri thức Kho liệu, nguồn tri thức nhân loại trở nên đồ sộ, vô tận làm cho vấn đề khai thác nguồn tri thức ngày trở nên nóng bỏng đặt thách thức lớn cho công nghệ thông tin giới Cùng với tiến vượt bậc công nghệ thông tin phát triển mạnh mẽ mạng thông tin toàn cầu, nguồn liệu Web trở thành kho liệu khổng lồ Nhu cầu tìm kiếm xử lý thông tin, với yêu cầu khả kịp thời khai thác chúng để mạng lại suất chất lượng cho công tác quản lý, hoạt động kinh doanh,… trở nên cấp thiết xã hội đại Nhưng vấn đề tìm kiếm sử dụng nguồn tri thức để phục vụ cho cơng việc lại vấn đề khó khăn người sử dụng Để đáp ứng phần yêu cầu này, người ta xây dựng cơng cụ tìm kiếm xử lý thơng tin nhằm giúp cho người dùng tìm kiếm thơng tin cần thiết cho mình, với rộng lớn, đồ sộ nguồn liệu Internet làm cho người sử dụng cảm thấy khó khăn trước kết tìm Với phương pháp khai thác sở liệu truyền thống chưa đáp ứng yêu cầu Để giải vấn đề này, hướng nghiên cứu áp dụng kỹ thuật khai phá liệu khám phá tri thức mơi trường Web Do đó, việc nghiên cứu mơ hình liệu áp dụng phương pháp khai phá liệu khai phá tài nguyên Web xu tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao Vì vậy, tác giả chọn đề tài “Khai phá liệu Web kỹ thuật phân cụm ” để làm luận văn tốt nghiệp cho Bố cục luận văn gồm chương: Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Chương trình bày cách tổng quan kiến thức khai phá liệu khám phá tri thức, khai phá liệu môi trường Web; số vấn đề biểu diễn xử lý liệu văn áp dụng khai phá liệu Web Chương giới thiệu số kỹ thuật phân cụm liệu phổ biến thường sử dụng lĩnh vực khai phá liệu khám phá tri thức Chương trình bày số hướng nghiên cứu khai phá liệu Web khai phá tài liệu Web, khai phá theo sử dụng Web, khai phá cấu trúc Web tiếp cận theo hướng sử dụng kỹ thuật phân cụm liệu để giải toán khai phá liệu Web Trong phần trình bày mơ hình áp dụng kỹ thuật phân cụm liệu tìm kiếm phân cụm tài liệu Web Phần kết luận luận văn tổng kết lại vấn đề nghiên cứu, đánh giá kết nghiên cứu, hướng phát triển đề tài Phần phụ lục trình bày số đoạn mã lệnh xử lý chương trình số giao diện chương trình mơ Hồng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu phát tri thức 1.1.1 Khai phá liệu Cuối thập kỷ 80 kỷ 20, phát triển rộng khắp CSDL tạo bùng nổ thông tin toàn cầu, vào thời gian người ta bắt đầu đề cập đến khái niệm khủng hoảng việc phân tích liệu tác nghiệp để cung cấp thơng tin với yêu cầu chất lượng ngày cao cho người làm định tổ chức phủ, tài chính, thương mại, khoa học,… Đúng John Naisbett cảnh báo “Chúng ta chìm ngập liệu mà đói tri thức” Lượng liệu khổng lồ thực nguồn tài nguyên có nhiều giá trị thông tin yếu tố then chốt phục vụ cho hoạt động quản lý, kinh doanh, phát triển sản xuất dịch vụ, … giúp người điều hành quản lý có hiểu biết mơi trường tiến trình hoạt động tổ chức trước định để tác động đến trình hoạt động nhằm đạt mục tiêu cách hiệu bền vững KPDL lĩnh vực nghiên cứu, nhằm tự động khai thác thơng tin, tri thức hữu ích, tiềm ẩn từ CSDL lớn cho đơn vị, tổ chức, doanh nghiệp,… từ làm thúc đẩy khả sản xuất, kinh doanh, cạnh tranh cho đơn vị, tổ chức Các kết nghiên cứu khoa học ứng dụng thành công KDD cho thấy KPDL lĩnh vực phát triển bền vững, mang lại nhiều lợi ích có nhiều triển vọng, đồng thời có ưu hẵn so với cơng cụ tìm kiếm phân tích liệu truyền thống Hiện nay, KPDL ứng dụng ngày rộng rãi lĩnh vực thương mại, tài chính, y học, viễn thơng, tin – sinh,… Các kỹ thuật áp dụng lĩnh vực KPDL phần lớn thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê tính tốn hiệu cao, Hồng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm 3.4.2.2.3 Kết hợp từ có gốc Hầu hết ngơn ngữ có nhiều từ có chung nguồn gốc với nhau, chúng mang ý nghĩa tương tự nhau, để giảm bởt số chiều biểu diễn văn bản, ta kết hợp từ có gốc thành từ Theo số nghiên cứu [5] việc kết hợp giảm khoảng 40-50% kích thước chiều biểu diễn văn Ví dụ tiếng Anh, từ user, users, used, using có từ gốc quy use; từ engineering, engineered, engineer có từ gốc quy engineer Ví dụ xử lý từ gốc tiếng Anh: - Nêu từ kết thúc “ing” xóa “ing”, ngoại trừ trường hợp sau xóa lại ký tự lại “th” - Nếu từ kết thúc “ies” khơng phải “eies” “aies” thay “ies” “y” - Nếu từ kết thúc “es” bỏ “s” - Nếu từ kết thúc "s" đứng trước phụ âm khác “s” xóa “s” - Nếu từ kết thúc “ed”, trước phụ âm xóa “ed” ngoại trừ sau xóa từ lại ký tự, đứng trước nguyên âm “i” đổi “ied” thành “y” 3.4.2.3 Xây dựng từ điển Việc xây dựng từ điển cơng việc quan trọng q trình vector hóa văn bản, từ điển gồm từ/cụm từ riêng biệt toàn tập liệu Từ điển gồm bảng từ, số từ điển xếp theo thứ tự Một số báo đề xuất [31] để nâng cao chất lượng phân cụm liệu cần xem xét đến việc xử lý cụm từ ngữ cảnh khác Theo đề xuất Zemir [19][31] xây dựng từ điển có 500 phần tử phù hợp Hồng Văn Dũng 89 Khai phá liệu Web kỹ thuật phân cụm 3.4.2.4 Tách từ, số hóa văn biểu diễn tài liệu Tách từ công việc quan trọng biểu diễn văn bản, trình tách từ, vector hóa tài liệu q trình tìm kiếm từ thay số từ từ điển Ở ta sử dụng mơ hình tốn học TF, IDF, TFIDF, để biểu diễn văn Chúng ta sử dụng mảng W (trọng số) hai chiều có kích thước m x n, với n số tài liệu, m số thuật ngữ từ điển (số chiều), hàng thứ j vector biểu diễn tài liệu thứ j sở liệu, cột thứ i thuật ngữ thứ i từ điển Wij giá trị trọng số thuật ngữ i tài liệu j Giai đoạn thực thống kê tần số thuật ngữ ti xuất tài liệu dj số tài liệu chứa ti Từ xây dựng bảng trọng số ma trận W theo cơng thức sau: Cơng thức tính trọng số theo mơ hình IF-IDF: Wij= n tf ij  idfij  [1  log(tf ij )]  log( ) hi ti  dj ngược lại (ti dj) Trong đó: tfij tần số xuất ti tài liệu dj idfij nghịch đảo tần số xuất ti tài liệu dj hi số tài liệu mà ti xuất n tổng số tài liệu 3.4.2.5 Phân cụm tài liệu Sau tìm kiếm, trích rút liệu tiền xử lý biểu diễn văn sử dụng kỹ thuật phân cụm để phân cụm tài liệu INPUT: Tập gồm n tài liệu k cụm OUTPUT: Các cụm Ci (i=1, ,k) cho hàm tiêu chuẩn đạt giá trị cực tiểu BEGIN Bước Khởi tạo ngẫu nhiên k vector làm đối tượng trọng tâm k cụm Hoàng Văn Dũng 90 Khai phá liệu Web kỹ thuật phân cụm Bước Với tài liệu dj xác định độ tương tự trọng tâm cụm theo độ đo tương tự thường dùng (như Dice, Jaccard, Cosine, Overlap, Euclidean, Manhattan) Xác định trọng tâm tương tự cho tài liệu đưa tài liệu vào cụm Bước Cập nhận lại đối tượng trọng tâm Đối với cụm ta xác định lại trọng tâm cách xác định trung bình cộng vector tài liệu cụm Bước Lặp lại bước tâm khơng thay đổi END Hình 3.21 Thuật tốn k-means phân cụm nội dung tài liệu Web Vấn đề xác định trọng tâm cụm tài liệu: Xét cụm văn c, trọng tâm C cụm c tính nhờ vào vector tổng D ( D   d ) d c văn cụm c: C  D |c| Trong đó, |c| số phần tử thuộc tập tài liệu c Trong kỹ thuật phân cụm, trọng tâm cụm sử dụng để làm đại diện cho cụm tài liệu Vấn đề tính tốn độ tương tự cụm tài liệu: Giả sử ta có cụm c1, c2, độ tương tự cụm tài liệu tính mức độ “gần nhau” vector trọng tâm C1, C2: Sim(c1,c2)= sim(C1,C2) Ở đây, ta hiểu c1 c2 gồm tài liệu coi cụm gồm phần tử Trong thuật toán k-means, chất lượng phân cụm đánh giá thông quan k hàm tiêu chuẩn E  x i 1 ( x  m ) , x vector biểu diễn tài CD i i liệu, mi trọng tâm cụm, k số cụm, Ci cụm thứ i - Độ phức tạp thuật tốn k-means O((n.k.d).r) Trong đó: n số đối tượng liệu, k số cụm liệu, d số chiều, r số vòng lặp Sau phân cụm xong tài liệu, trả kết cụm liệu trọng tâm tương ứng Hoàng Văn Dũng 91 Khai phá liệu Web kỹ thuật phân cụm 3.4.6 Kết thực nghiệm + Dữ liệu thực nghiệm trang Web lấy từ nguồn sau: - Các trang lấy tự động từ Website Internet, việc tìm kiếm thực cách sử dụng Yahoo để tìm kiếm tự động, chương trình dựa vào URL để lấy tồn văn tài liệu lưu trữ lại phục vụ cho trình tìm kiếm sau (dưa liệu gồm 4000 chủ đề “data mining”, “web mining”, “Cluster algorithm”, “Sport”) - Tìm kiếm có chọn lọc, phần tiến hành lấy thủ công, nguồn liệu chủ yếu lấy từ Web site: http://www.baobongda.com.vn/ http://bongda.com.vn/ http://vietnamnet.vn http://www.24h.com Gồm 250 báo chủ đề “bóng đá” - Việc xây dựng từ điển, sau thống kê tần số xuất từ tập tài liệu, ta áp dụng định luật Zipf để loại bỏ từ có tần số xuất cao loại bỏ từ có tần số thấp, ta thu từ điển gồm 500 từ Số tài liệu Số cụm 50 50 100 100 150 150 250 250 10 15 10 15 10 15 10 15 Thời gian trung bình (giây) Phân cụm Tiền xử lý biểu diễn văn tài liệu 0,206 0,957 0,206 1,156 0,353 2,518 0,353 3,709 0,515 4,553 0,515 5,834 0,824 9,756 0,824 13,375 Bảng 3.2 Bảng đo thời gian thực thuật toán phân cụm Ta thấy thời gian thực thuật toán phụ vào độ lớn liệu số cụm cần phân cụm Ngồi ra, với thuật tốn k-means phụ thuộc vào k trọng Hoàng Văn Dũng 92 Khai phá liệu Web kỹ thuật phân cụm tâm khởi tạo ban đầu Nếu k trọng tâm xác định tốt chất lượng thời gian thực cải thiện nhiều Phần giao diện chương trình số đoạn mã code điển hình trình bày phụ lục 3.5 Tổng kết chương Chương tác giả trình bày số hướng tiếp cận khai phá Web khai phá liệu toàn văn tài liệu Web, khai phá cấu trúc Web, khai phá sử dụng Web số thuật toán áp dụng khai phá Web Phần trình bày số chức quy trình hệ thống thực nghiệm tìm kiếm trích chọn liệu Web, tiền xử lý liệu, chuẩn hoá văn bản, xoá bỏ từ dừng, xây dựng từ điển, tách từ biểu diễn văn bản, phân cụm tài liệu đánh giá kết thực nghiệm Hoàng Văn Dũng 93 Khai phá liệu Web kỹ thuật phân cụm KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Luận văn nêu lên nét khai phá liệu, khám phá tri thức vấn đề liên quan, kỹ thuật phân cụm liệu sâu vào số phương pháp phân cụm truyền thống, phổ biến phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, phân cụm dựa lưới, phân cụm dựa mơ hình theo hướng tiếp cận mờ Luận văn tập trung vào hướng nghiên cứu phát triển khai phá liệu khai phá Web, hướng thu hút quan tâm nhiều nhà khoa học Phần trình bày vấn đề hướng tiếp khai phá Web khai phá tài liệu Web, khai phá cấu trúc Web khai phá theo hướng sử dụng Web Một kỹ thuật khai phá Web phân cụm liệu Web Tác giả trình bày hướng tiếp cận việc sử dụng kỹ thuật phân cụm khai phá liệu Web Đề xuất xây dựng chương trình thực nghiệm phân cụm tài liệu Web áp dụng tìm kiếm liệu với thuật tốn k-means dựa mơ hình vector biểu diễn văn TF-IDF Lĩnh vực khai phá Web vấn đề mẽ, quan trọng khó, bên cạnh kết nghiên cứu đạt đặt thách thức lớn nhà nghiên cứu Khai phá Web lĩnh vực đầy triển vọng, phức tạp vấn đề mở Hiện chưa có thuật tốn mơ hình biểu diễn liệu tối ưu khai phá liệu Web Mặc dù cố gắng, nỗ lực song thời gian nghiên cứu, trình độ thân có hạn điều kiện nghiên cứu nhiều hạn chế nên tránh khỏi khuyết thiếu hạn chế, tác giả mong nhận góp ý, nhận xét q báu q thầy bạn bè để kết đề tài hoàn thiện Hoàng Văn Dũng 94 Khai phá liệu Web kỹ thuật phân cụm Hướng phát triển: - Tiếp tục nghiên cứu, đề xuất cải tiến số kỹ thuật phân cụm liệu phân cụm mờ, thuật toán phân cụm song song, nhằm nâng cao hiệu suất khai phá liệu hệ thống liệu lớn, phân tán - Nghiên cứu mơ hình biểu diễn xử lý văn mơ hình mờ, mơ hình tập thơ, nhằm nâng cao hiệu xử lý khai phá liệu đặc biệt xử lý liệu môi trường Web - Áp dụng kỹ thuật KPDL vào lĩnh vực thương mại điện tử, phủ điện tử, Hoàng Văn Dũng 95 Khai phá liệu Web kỹ thuật phân cụm PHỤ LỤC Chương trình viết NET Framework 2.0 ngơn ngữ lập trình Visual Basic 2005, sở liệu lưu trữ quản lý SQL Server 2005 Sau số mã lệnh giao diện xử lý chương trình Một số modul xử lý cương trình Chuẩn hố xâu văn Private Function Chuanhoa(ByVal S As String) As String For i = To S = S.Replace(Str(i) + ".", Str(i)) S = S.Replace(Str(i) + ",", Str(i)) Next i = Do While i < S.Length - If (Not Char.IsLetterOrDigit(S(i))) And (S(i) " ") Then S = S.Remove(i, 1) S = S.Insert(i, " ") Else i = i + End If Loop i = Do While i < S.Length - If ((Char.IsDigit(S(i))) And (Not Char.IsDigit(S(i + 1)))) Or ((Not Char.IsDigit(S(i))) And (Char.IsDigit(S(i + 1)))) Then S = S.Insert(i + 1, " ") i = i + End If i = i + Loop S = S.ToLower(VN) i = Do While i < S.Length - If S(i) + S(i + 1) = " " Then S = S.Remove(i, 1) Else i = i + End If Loop S = S.Trim Return S End Function Hoàng Văn Dũng 96 Khai phá liệu Web kỹ thuật phân cụm Xoá từ dừng Private Function XoaTuDung(ByVal S As String) As String For i = To ListTD.Count - S = S.Replace(" " + ListTD.Item(i) + " ", " ") Next i i = Do While i < S.Length Do While (i < S.Length - 1) And (S(i) = " ") i = i + Loop j = i + Kt = False Do While (j < S.Length) And (Not Kt) If S(j) " " Then j = j + Else Kt = True End If Loop If i = j - Then S = S.Remove(i, 1) End If i = j Loop S = S.Trim() Return S End Function Xây dựng từ điển Private Sub XayDungTuDien(ByVal Doc As ArrayList) For Each S In Doc list = New ArrayList(S.Split(" ")) For Each ST In list If Trim(ST) "" Then i = TuDien.IndexOf(ST) If (i < 0) Then TuDien.Add(Trim(ST)) TuDienTS.Add(1) Else TuDienTS(i) = TuDienTS(i) + End If End If Next Next 'Sap xep theo giam dan cua tan so tu tap Van ban If (TuDien(0) = " ") Or (TuDien(0) = "") Then TuDien.RemoveAt(0) End If Hoàng Văn Dũng 97 Khai phá liệu Web kỹ thuật phân cụm QuikSort(0, TuDien.Count - 1, TuDien, TuDienTS) Do While (TuDien.Count>500) And (TuDienTS(0) > Int(NumDoc * (MaxWork / 100))) TuDien.RemoveAt(0) TuDienTS.RemoveAt(0) Loop Do While (TuDien.Count > MaxWork) TuDien.RemoveAt(MaxWork) TuDienTS.RemoveAt(MaxWork) Loop End Sub Vector hoá văn Private Sub VectorVB(ByVal Collect As ArrayList) Vector = Array.CreateInstance(GetType(Byte), NumDoc, NumWord) i = For Each S In Collect List = New ArrayList(S.Split(" ")) For Each ST In List If Trim(ST) "" Then k = TuDien.IndexOf(ST) If k > Then Vector(i, k) = Vector(i, k) + End If End If Next i = i + Next End Sub Xây dựng bảng trọng số Private Sub XDTrongSo(ByVal Vector As Array) Dim thongke(NumWord) As Integer For i = To NumWord - thongke(i) = For j = To NumDoc - If Vector(j, i) > Then thongke(i) = thongke(i) + End If Next Next W = Array.CreateInstance(GetType(Double), NumDoc, NumWord) For i = To NumDoc - For j = To NumWord - If Vector(i, j) > Then W(i, j)=(1 + Math.Log(Vector(i, Hoàng Văn Dũng 98 Khai phá liệu Web kỹ thuật phân cụm j)))*(Math.Log(NumDoc)-Math.Log(thongke(j))) Else W(i, j) = 0.0 End If Next Next End Sub Thuật toán k-means Private Sub PhanCumKMean() Randomize(NumDoc) 'Buoc 1: KHOI TAO CAC TRONG TAM i = Do While i < k r = CInt(Int(NumDoc * Rnd())) If Not rnum.Contains(r) Then rnum.Add(r) For j = To NumWord - C(i, j) = W(r, j) Next i = i + End If Loop For i = To NumDoc - Cum(i) = Next check1 = True Do While check1 'Buoc 2:Tinh toan khoang cach va xac dinh cum cho cac pt For i = To NumDoc - = Double.MaxValue Cum(i) = For j = To k - dis = For m = To NumWord - temp = W(i, m) - C(j, m) dis = dis + Math.Abs(temp * temp) Next dis = Math.Sqrt(dis) If dis < Then = dis Cum(i) = j End If Next Next 'Buoc 3: Cap nhat lai Trong tam check1 = False For i = To k - 'Cap nhat lan luot Trong tam tung cum For j = To NumWord - Hoàng Văn Dũng 99 Khai phá liệu Web kỹ thuật phân cụm n = sum = For m = To NumDoc - If Cum(m) = i Then sum = sum + W(m, j) n = n + End If Next sum = sum / n If C(i, j) sumThen C(i, j) = sum check1 = True End If Next Next Loop End Sub Một số giao diện chương trình Cơng cụ tìm kiếm tự động tài liệu Internet lưu trữ vào CSDL Công cụ tìm kiếm chọn lọc tài liệu Internet lưu trữ vào CSDL Hoàng Văn Dũng 100 Khai phá liệu Web kỹ thuật phân cụm Trích chọn liệu, tiền xử lý, xây dựng từ điển vector hóa văn Phân cụm tài liệu biểu diễn kết Hoàng Văn Dũng 101 Khai phá liệu Web kỹ thuật phân cụm TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Cao Chính Nghĩa, “Một số vấn đề phân cụm liệu”, Luận văn thạc sĩ, Trường Đại học Công nghệ, ĐH Quốc gia Hà Nội, 2006 [2] Hoàng Hải Xanh, “Về kỹ thuật phân cụm liệu data mining”, luận văn thạc sĩ, Trường ĐH Quốc Gia Hà Nội, 2005 [3] Hoàng Thị Mai, “Khai phá liệu phương pháp phân cụm liệu”, Luận văn thạc sĩ, Trường ĐHSP Hà Nội, 2006 Tài liệu tiếng Anh [4] Athena Vakali, Web data clustering Current research status & trends, Aristotle University,Greece, 2004 [5] Bing Liu, Web mining, Springer, 2007 [6] Brij M Masand, Myra Spiliopoulou, Jaideep Srivastava, Osmar R Zaiane, Web Mining for Usage Patterns & Profiles, ACM, 2002 [7] Filippo Geraci, Marco Pellegrini, Paolo Pisati, and Fabrizio Sebastiani, A scalable algorithm for high-quality clustering of Web Snippets, Italy, ACM, 2006 [8] Giordano Adami, Paolo Avesani, Diego Sona, Clustering Documents in a Web Directory, ACM, 2003 [9] Hiroyuki Kawano, Applications of Web mining- from Web search engine to P2P filtering, IEEE, 2004 [10] Ho Tu Bao, Knowledge Discovery and Data Mining, 2000 [11] Hua-Jun Zeng, Qi-Cai He, Zheng Chen, Wei-Ying Ma, Jinwen Ma, Learning to Cluster Web Search Results, ACM, 2004 [12] Jitian Xiao, Yanchun Zhang, Xiaohua Jia, Tianzhu Li, Measuring Similarity of Interests for Clustering Web-Users, IEEE, 2001 [13] Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, University of Illinois at Urbana-Champaign, 1999 [14] Khoo Khyou Bun, “Topic Trend Detection and Mining in World Wide Web”, A thesis for the degree of PhD, Japan, 2004 [15] LIU Jian-guo, HUANG Zheng-hong , WU Wei-ping, Web Mining for Electronic Business Application, IEEE, 2003 [16] Lizhen Liu, Junjie Chen, Hantao Song, The research of Web Mining, IEEE, 2002 Hoàng Văn Dũng 102 Khai phá liệu Web kỹ thuật phân cụm [17] Maria Rigou, Spiros Sirmakessis, and Giannis Tzimas, A Method for Personalized Clustering in Data Intensive Web Applications, 2006 [18] Miguel Gomes da Costa Júnior, Zhiguo Gong, Web Structure Mining: An Introduction, IEEE, 2005 [19] Oren Zamir and Oren Etzioni, Web document Clustering: A Feasibility Demonstration, University of Washington, USA, ACM, 1998 [20] Pawan Lingras, Rough Set Clustering for Web mining, IEEE, 2002 [21] Periklis Andritsos, Data Clusting Techniques, University Toronto,2002 [22] R Cooley, B Mobasher, and J Srivastava, Web mining: Information and Pattern Discovery on the World Wide Web, University of Minnesota, USA, 1998 [23] Raghu Krishnapuram, Anupam Joshi, and Liyu Yi, A Fuzzy Relative of the K -Medoids Algorithm with Application toWeb Document and Snippet Clustering, 2001 [24] Raghu Krishnapuram,Anupam Joshi, Olfa Nasraoui, and Liyu Yi, LowComplexity Fuzzy Relational Clustering Algorithms for Web Mining, IEEE, 2001 [25] Raymond and Hendrik, Web Mining Research: A Survey, ACM, 2000 [26] Rui Wu, Wansheng Tang,Ruiqing Zhao, An Efficient Algorithm for Fuzzy Web-Mining, IEEE, 2004 [27] T.A.Runkler, J.C.Bezdek, Web mining with relational clustering, ELSEVIER, 2002 [28] Tsau Young Lin, I-Jen Chiang , “A simplicial complex, a hypergraph, structure in the latent semantic space of document clustering”, ELSEVIER, 2005 [29] Wang Jicheng, Huang Yuan, Wu Gangshan, and Zhang Fuyan, Web Mining: Knowledge Discovery on the Web, IEEE, 1999 [30] WangBin, LiuZhijing, Web Mining Research, IEEE, 2003 [31] Wenyi Ni, A Survey of Web Document Clustering, Southern Methodist University, 2004 [32] Yitong Wang, Masaru Kitsuregawa, Evaluating Contents-Link Coupled Web Page Clustering for Web Search Results, ACM, 2002 [33] Zifeng Cui, Baowen Xu , Weifeng Zhang, Junling Xu, Web Documents Clustering with Interest Links, IEEE, 2005 Hoàng Văn Dũng 103 ... Dũng Khai phá liệu Web kỹ thuật phân cụm Hình 1.3 Trực quan hóa kết KPDL Oracle 1.2 Kỹ thuật phân cụm khai phá liệu 1.2.1 Tổng quan kỹ thuật phân cụm Mục đích PCDL nhằm khám phá cấu trúc mẫu liệu. .. khai phá liệu khám phá tri thức Chương trình bày số hướng nghiên cứu khai phá liệu Web khai phá tài liệu Web, khai phá theo sử dụng Web, khai phá cấu trúc Web tiếp cận theo hướng sử dụng kỹ thuật. .. làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ trình khai phá bước sau Hồng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu: Đây bước áp dụng kỹ thuật phân tích (như kỹ thuật học

Ngày đăng: 07/04/2020, 15:49

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN