Kết hợp các phương pháp phân cụm trong khai phá dữ liệu web

69 333 0
Kết hợp các phương pháp phân cụm trong khai phá dữ liệu web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG HẢI PHÒNG 2016 -o0o - KẾT HỢP CÁC PHƢƠNG PHÁP PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU WEB ĐỒ ÁN TỐT NGHIỆP HỆ ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ Thông tin H¶i Phßng 2016 HẢI PHÒNG 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - KẾT HỢP CÁC PHƢƠNG PHÁP PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU WEB ĐỒ ÁN TỐT NGHIỆP HỆ ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ Thông tin Sinh viên thực hiện: Cao Hữu Hải Giáo viên hƣớng dẫn: Nguyễn Trịnh Đông Mã sinh viên: 1212101007 HẢI PHÒNG 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc -o0o - NHIỆM VỤ THIẾT KẾ TỐT NGHIỆP Sinh viên: Cao Hữu Hải Mã số: 1212101007 Lớp:CT1601 Ngành: Công nghệ Thông tin Tên đề tài: Kết hợp phƣơng pháp phân cụm khai phá liệu Web NHIỆM VỤ ĐỀ TÀI Nội dung yêu cầu cần giải nhiệm vụ đề tài tốt nghiệp a Nội dung: - Tìm hiểu khai phá liệu, khai phá liệu Web - Tìm hiểu thuật toán phân cụm phổ biến Áp dụng thuật toán phân cụm tìm kiếm phân cụm tài liệu Web - Đề phƣơng pháp xây dựng hệ thống - Thử nghiệm với công cụ để giải toán b Các yêu cầu cần giải - Nắm đƣợc lý thuyết khai phá liệu Web - Nắm đƣợc thuật toán phân cụm liệu Nắm đƣợc trình phân cụm liệu Web Xây đựng đƣợc mô hình phân cụm liệu với phần mền Orange Các số liệu cần thiết để thiết kế, tính toán Địa điểm thực tập CÁN BỘ HƢỚNG DẪN ĐỀ TÀI TỐT NGHIỆP Ngƣời hƣớng dẫn thứ nhất: Họ tên: Nguyễn Trịnh Đông Học hàm, học vị: Thạc sĩ Cơ quan công tác: Đại học Dân lập Hải Phòng Nội dung hƣớng dẫn: Tìm hiểu phƣơng pháp phân cụm Tìm hiểu số phƣơng pháp tạo luật giải thuật liên quan Đề phƣơng pháp xây dựng hệ thống Thử nghiệm với công cụ để giải toán Đề tài tốt nghiệp đƣợc giao ngày 03 tháng 10 năm 2016 Yêu cầu phải hoàn thành trƣớc ngày 24 tháng 12 năm 2016 Đã nhận nhiệm vụ: Đ.T.T.N Đã nhận nhiệm vụ: Đ.T.T.N Sinh viên Cán hƣớng dẫn Đ.T.T.N Hải Phòng, ngày tháng .năm 2016 HIỆU TRƢỞNG GS.TS.NGƯT Trần Hữu Nghị PHẦN NHẬN XÉT TÓM TẮT CỦA CÁN BỘ HƢỚNG DẪN Tinh thần thái độ sinh viên trình làm đề tài tốt nghiệp: ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… Đánh giá chất lƣợng đề tài tốt nghiệp (so với nội dung yêu cầu đề nhiệm vụ đề tài tốt nghiệp): …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………… Cho điểm cán hƣớng dẫn: ( Điểm ghi số chữ ) ………………………………………………………………………………… …………………………………………………………………………… Ngày .tháng .năm 2016 Cán hƣớng dẫn ( Ký, ghi rõ họ tên ) PHẦN NHẬN XÉT ĐÁNH GIÁ CỦA CÁN BỘ CHẤM PHẢN BIỆN ĐỀ TÀI TỐT NGHIỆP Đánh giá chất lƣợng đề tài tốt nghiệp (về mặt nhƣ sở lý luận, thuyết minh chƣơng trình, giá trị thực tế,…): ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Cho điểm cán phản biện (Điểm ghi số chữ) ………………………………………………………………………………………………… ………………………………………………………………………………………………… Ngày .tháng .năm 2016 Cán chấm phản biện ( Ký, ghi rõ họ tên ) LỜI CẢM ƠN Trong lời báo cáo đồ án tốt nghiệp “Áp dụng phƣơng pháp phân cụm khai phá liệu Web”, em muốn gửi lời cám ơn biết ơn chân thành tới tất ngƣời hỗ trợ, giúp đỡ em kiến thức tinh thần trình thực đồ án Trƣớc hết, em xin chân thành cám ơn thầy giáo Ths Nguyễn Trịnh Đông, giảng viên khoa Công nghệ Thông tin, Trƣờng Đại học Dân lập Hải Phòng, ngƣời trực tiếp hƣớng dẫn, nhận xét, giúp đỡ em suốt trình thực đồ án Xin chân thành cảm ơn GS.TS.NGƢT Trần Hữu Nghị Hiệu trƣởng trƣờng Đại học Dân lập Hải Phòng, ban giám hiệu nhà trƣờng, thầy cô khoa Công nghệ Thông tin phòng ban nhà trƣờng tạo điều kiện tốt cho em nhƣ bạn khác suốt thời gian học tập làm tốt nghiệp Cuối em xin gửi lời cảm ơn đến gia đình, bạn bè, ngƣời thân giúp đỡ động viên em nhiều trình học tập làm đồ án tốt nghiệp Mặc em cố gắng để hoàn thiện báo cáo tốt nghiệp song khả hạn chế nên báo cáo thiếu nhiều sai sót Vì em mong đƣợc đóng góp thầy cô bạn bè Em xin chân thành cảm ơn! Hải Phòng,ngày 24 tháng 12 năm 2016 Sinh viên Cao Hữu Hải Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH SÁCH HÌNH DANH SÁCH BẢNG .6 DANH MỤC TỪ VIẾT TẮT CHƢƠNG 1: GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU WEB 1.1 Khai phá liệu khai phá tri thức .8 1.1.1 Khai phá liệu 1.1.2 Quá trình khám phá tri thức 1.1.3 Khai phá liệu lĩnh vực liên quan 1.1.4 Các kỹ thuật áp dụng khai phá liệu .9 1.1.5 Những chức khai phá liệu 10 1.1.6 Ứng dụng khai phá liệu 11 1.2 Phƣơng pháp phân cụm liệu 12 1.2.1 Giới thiệu kỹ thuật phân cụm .12 1.2.2 Ứng dụng phân cụm liệu .14 1.2.3 Các yêu cầu kỹ thuật phân cụm liệu 14 1.2.4 Các kiểu liệu độ đo tƣơng tự 15 1.3 Khai phá Web 19 1.3.1 Các kiểu liệu Web 21 1.3.2 Xử lý liệu văn ứng dụng khai phá liệu Web 22 1.3.3 Một số vấn đề xử lý liệu văn 22 1.4 Tiểu kết chƣơng 24 CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 25 2.1 Thuật toán k-means 25 2.2 Thuật toán PAM 27 Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin Tiêu chuẩn 3(Tư ng tự mục): Độ tƣơng tự d1 d2 đƣợc đo số trang mà d1 d2 trở tới Hình 3-4: d1 Độ tƣơng đồng trích dẫn d2 Hình 3-5: Độ tƣơng tự mục 3.3.2 Khai phá quản lý cộng đồng Web Một cộng đồng Web tập hợp trang Webliệu liên quan đến lĩnh vực Nhận biết đƣợc cộng đồng Web, hiểu đƣợc phát triển đặc trƣng cộng đồng Web quan trọng Việc xác định hiểu cộng đồng Web đƣợc xem nhƣ việc khai phá quản lý Web Đặc điểm cộng đồng Web: - Các trang Web cộng đồng “tƣơng tự” với trang Web cộng đồng Mỗi cộng đồng Web tạo thành cụm trang Web Các cộng đồng Web đƣợc xác định cách rõ ràng, tất ngƣời biết, nhƣ nguồn tài nguyên đƣợc liệt kê Yahoo Cộng đồng Web đƣợc xác định hoàn chỉnh: Chúng cộng đồng bất ngờ xuất Khai phá cộng đồng Web ngày đƣợc quan tâm đƣợc ứng dụng nhiều thực tiễn Vì vậy, việc nghiên cứu phƣơng pháp khám phá cộng đồng có ý nghĩa to lớn thực tiễn Ngoài ra, việc phân tích đồ thị Web có tác dụng lớn việc tìm kiếm cộng đồng ẩn Có nhiều phƣơng pháp chứng thực cộng đồng Web nhƣ: thuật toán tìm kiếm theo chủ đề HITS, luồng cực đại nhát cắt cực tiểu, thuật toán PageRank, Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 47 3.4 Áp dụng thuật toán tìm kiếm phân cụm tài liệu Web Hiện nay, phát triển công cụ Web Search Engine giúp ngƣời dùng dễ dàng việc tìm kiếm thông tin Web Tuy nhiên, lúc công cụ Web Search Engine cho kết dúng với nhu cầu ngƣời dùng Vậy nên, ta nhóm kết tìm đƣợc thành nhóm theo chủ đề, sau ngƣời dùng tìm kiếm thông tin theo chủ đề mà họ cần Điều giúp cho ngƣời dùng thực việc tìm kiếm nhanh hiệu Trong đồ án ta tìm hiểu việc sử dụng kỹ thuật phân cụm tài liệu Web, dựa kho liệu đƣợc tìm kiếm lƣu trữ 3.4.1 Tìm hiểu kỹ thuật phân cụm tài liệu Web Ngày nay, có nhiều phƣơng pháp đánh giá độ quan trọng trang Web nhƣ: PageRank, HITS, … Tuy vậy, phƣơng pháp đánh giá chủ yếu dựa vào liên kết trang để xác định trọng số cho trang Ta tiếp cận cách đánh giá mức độ quan trọng theo hƣớng khác dựa vào nội dung tài liệu để xác định trọng số, tài liệu "gần nhau" nội dung có mức độ quan trọng tƣơng đƣơng thuộc nhóm Giả sử cho tập S gồm trang web, tìm tập S trang chứa nội dung câu hỏi truy vấn ta đƣợc tập R Sử dụng thuật toán phân cụm liệu để phân tập R thành k cụm (k xác định) cho phần tử cụm tƣơng tự nhất, phần tử cụm khác phi tƣơng tự với Từ tập S-R, đƣa phần tử vào k cụm đƣợc thiết lập Những phần tử tƣơng tự với trọng tâm cụm (theo ngƣỡng xác định đó) đƣa vào cụm này, phần tử không thỏa mãn xem nhƣ không phù hợp với truy vấn loại bỏ khỏi tập kết Kế tiếp, đánh trọng số cho cụm trang tập kết theo thuật toán sau: Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 48 INPUT: tập liệu D chứa trang gồm k cụm k trọng tâm OUTPUT: trọng số trang BEGIN Mỗi cụm liệu thứ m trọng tâm Cm ta gán trọng số tsm Với trọng tâm Ci ,Cj ta có tsi>tsj ti tƣơng tự với truy vấn tj Với trang p cụm m ta xác định trọng số trang pwm Với pwi, pwj bất kỳ, ta có pw1>pw2 pw1 gần trọng tâm pw2 END Như vậy, theo cách tiếp cận ta giải vấn đề sau: - Kết tìm kiếm đƣợc phân thành cụm theo chủ đề khác nhau, tùy vào yêu cầu cụ thể ngƣời dùng xác định chủ đề mà họ cần - Quá trình tìm kiếm xác định trọng số cho trang chủ yếu tập trung vào nội dung trang dựa vào liên kết trang Giải đƣợc vấn đề từ/cụm từ đồng nghĩa câu truy vấn ngƣời dùng - Có thể kết hợp phƣơng pháp phân cụm lĩnh vực khai phá liệu với phƣơng pháp tìm kiếm có 3.4.2 Quá trình tìm kiếm phân cụm tài liệu Về bản, trình phân cụm kết tìm kiếm diễn theo bƣớc đƣợc thể nhƣ sau : - Tìm kiếm trang Web từ Website thỏa mãn nội dung truy vấn Trích rút thông tin mô tả từ trang lƣu trữ với URL tƣơng ứng Sử dụng kỹ thuật phân cụm liệu để phân cụm tự động trang Web thành cụm, cho trang cụm “tƣơng tự” nội dung với trang cụm Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 49 Dữ liệu Tìm kiếm trích rút Tiền xử lý Web Biểu diễn kết Áp dụng thuật toán Biểu diễn Hình 3-6: Các bƣớc phân cụm kết tìm kiếm Web 3.4.2.1 Tìm ki m liệu Web Nhiệm vụ chủ yếu giai đoạn dựa vào tập từ khóa tìm kiếm để tìm kiếm trả tập gồm toàn văn tài liệu, tiêu đề, mô tả tóm tắt, URL,… tƣơng ứng với trang Nhằm nâng cao tốc độ xử lý, ta tiến hành tìm kiếm lƣu trữ tài liệu kho liệu để sử dụng cho trình tìm kiếm (tƣơng tự nhƣ Web Search Engine Yahoo, Google,…) Mỗi phần tử gồm toàn văn tài liệu, tiêu đề, đoạn mô tả nội dung, URL,… 3.4.2.2 Ti n xử lý liệu Quá trình làm liệu chuyển dịch tài liệu thành dạng biểu diễn liệu thích hợp Giai đoạn bao gồm công việc nhƣ sau: Chuẩn hóa văn bản, xóa bỏ từ dừng, kết hợp từ có từ gốc, số hóa biểu diễn văn bản, a Chuẩn hó văn Đây giai đoạn chuyển văn thô dạng văn cho việc xử lý sau đƣợc dễ dàng, đơn giản, thuật tiện, xác so với việc xử lý trực tiếp văn thô mà ảnh hƣởng đến kết xử lý Bao gồm: - Xóa thẻ HTML loại thẻ khác để trích từ/cụm từ Chuyển ký tự hoa thành ký tự thƣờng Xóa bỏ dấu câu, xoá ký tự trắng dƣ thừa, Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 50 b Xóa bỏ từ dừng Trong văn có từ mang thông tin, nhiều tác dụng trình xử lý, từ có tần số xuất thấp, từ xuất với tần số lớn nhƣng không quan trọng cho trình xử lý đƣợc loại bỏ Theo số nghiên cứu gần cho thấy việc loại bỏ từ dùng giảm đƣợc khoảng 20-30% tổng số từ văn Có nhiều từ xuất với tần số lớn nhƣng không hữu ích cho trình phân cụm liệudụ tiếng Anh từ nhƣ a, an, the, of, and, to, on, by, tiếng Việt nhƣ từ “thì”, “mà”, “là”, “và”, “hoặc”, Những từ xuất với tần số lớn đƣợc loại bỏ Để đơn giản ứng dụng thực tế, ta tổ chức thành danh sách từ dừng, sử dụng định luật Zipf để xóa bỏ từ có tần số xuất thấp cao 3.4.2.3 Xây dựng từ điển Trong trình vector hóa văn thì, xây dựng từ điển trình quan trọng Từ điển gồm bảng từ số sau đƣợc xếp theo thứ tự 3.4.2.4 Tách từ, s hóa văn n biểu di n tài liệu Tách từ trình tìm kiếm từ thay số từ từ điển Một số mô hình tính số từ là: TF, IDF, TF-IDF,… Ở ta sử dụng mô hình toán học TF-IDF, để biểu diễn văn Chúng ta sử dụng mảng W (trọng số) hai chiều có kích thƣớc m x n, với n số tài liệu, m số từ từ điển (số chiều), hàng thứ j vector biểu diễn tài liệu thứ j sở liệu, cột thứ i thuật ngữ thứ i từ điển Wij giá trị trọng số từ i tài liệu j Giai đoạn thực thống kê tần số từ ti xuất tài liệu dj số tài liệu chứa ti Từ xây dựng bảng trọng số ma trận W theo công thức sau: { [ ( )] ( ) (1): Nếu (2): Ngƣợc lại Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 51 Trong đó: Tfij : tần số xuất từ ti tài liệu dj idfij : nghịch đảo tần số xuất từ ti tài liệu dj hi : số tài liệu mà từ ti xuất n: tổng số tài liệu 3.4.2.5 Phân cụm tài liệu Sau tìm kiếm, trích rút liệu tiền xử lý biểu diễn văn sử dụng kỹ thuật phân cụm để phân cụm tài liệu INPUT: Tập gồm n tài liệu k cụm OUTPUT: Các cụm Ci (i=1, ,k) cho hàm tiêu chuẩn đạt giá trị cực tiểu BEGIN Bước 1: Khởi tạo ngẫu nhiên k vector làm đối tƣợng trọng tâm k cụm Bước 2: Với tài liệu dj xác định độ tƣơng tự trọng tâm cụm theo độ đo tƣơng tự thƣờng dùng (Euclidean, Manhattan) Xác định trọng tâm tƣơng tự cho tài liệu đƣa tài liệu vào cụm Bước 3: Cập nhận lại đối tƣợng trọng tâm Đối với cụm ta xác định lại trọng tâm cách xác định trung bình cộng vector tài liệu cụm Bước 4: Lặp lại bƣớc tâm không thay đổi END Để xác định trọng tâm cụm tài liệu: Xét cụm văn c, trọng ∑ tâm C cụm c đƣợc tính nhờ vào vector tổng ) văn cụm c: C= | | |c|: số phần tử thuộc tập tài liệu c Trong kỹ thuật phân cụm, trọng tâm cụm đƣợc sử dụng để làm đại diện cho cụm tài liệu Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 52 Vấn đề tính toán độ tƣơng tự cụm tài liệu: Giả sử ta có cụm c1, c2, độ tƣơng tự cụm tài liệu đƣợc tính mức độ “gần nhau” vector trọng tâm C1, C2: Sim(c1,c2)= sim(C1,C2) Ở đây, ta hiểu c1 c2 gồm tài liệu coi cụm gồm phần tử Trong thuật toán k-means, chất lƣợng phân cụm đƣợc đánh giá thông quan hàm ∑ tiêu chuẩn: ∑ , x vector biểu diễn tài liệu, mi trọng tâm cụm, k số cụm, Ci cụm thứ i - Độ phức tạp thuật toán k-means Trong đó, n số đối tƣợng liệu, k số cụm liệu, d số chiều, r số vòng lặp 3.5 Thực nghiệm Sử dụng phần mềm Orange data mining để thực phân cụm liệu Input: Dữ liệu ban đầu gồm 100 file text có tên file từ file001-file100 Sau chuẩn hóa liệu ban đầu theo cụm: Kinh tế, Chính trị, Khoa học, Công nghệ, Giáo dục, giải trí, Y tế (sử dụng file cvs excel để lƣu - trữ) Output: - Dữ liệu đƣợc phân cụm Orange Quá trình phân cụm liệu Orange: Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 53 Hình 3-7: Mô hình phân cụm liệu Orange Hình 3-8: Đƣ liệu chuẩn hóa mô hình Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 54 Hình 3-9: Bảng chuẩn hóa Hình 3-10: Do khoảng cách Euclidean Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 55 Hình 3-11: Phân cụm liệu theo phƣơng pháp phân cụm phân cấp Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 56 Hình 3-12: Dữ liệu sau phân cụm phân cấp Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 57 Hình 3-13: Phân cụm k-means  Đo khoảng cách Euclidean, cho thấy cụm thuật toán tối ƣu Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 58 Hình 3-14: Biểu diễn liệu sau phân cụm k-means 3.6 Tiểu kết chƣơng Chƣơng tác giả trình bày số hƣớng tiếp cận khai phá Web nhƣ khai phá liệu toàn văn tài liệu Web, khai phá cấu trúc Web, khai phá sử dụng Web số thuật toán đƣợc áp dụng khai phá Web Phần trình bày trình phân cụm liệu phƣơng pháp phân cụm phân cấp phân cụm theo thuật toán k-means, phần mềm mô hình hóa Orange Data Mining Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 59 Kết luận Tìm hiểu nội dung đề tài giúp em có thêm kiến thức khai phá liệu Web phƣơng pháp áp dụng kỹ thuật phân cụm khai phá liệu Web Đồ án tập chung vào việc tìm hiểu về: Khai phá tri thức, phân cụm liệu, khai phá Web áp dụng kỹ thuật phân cụm khai phá liệu Web Ngoài ra, ta cần xây dựng trƣơng trình thực nghiệm phục vụ cho việc tìm kiếm,lƣu trữ để phân cụm tài liệu Web để phục vụ cho trình tìm kiếm Nhƣng khuôn khổ đồ án tốt nghiệp, em chƣa kịp xây dựng trƣơng trình, mà thay vào em lập mô hình phân cụm liệu Web phần mền Orange Trong đó, công việc tìm kiếm, lƣu trữ chuẩn hóa liệu đƣợc làm thủ công trình phân cụm liệu đƣợc giải phần mền Orange Hƣớng phát triển: xây dựng hoàn thiện phần mềm đầy đủ chức năng: tìm kiếm, lƣ trữ, phân cụm liệu phục vụ cho việc tìm kiếm Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 60 Tài liệu tham khảo Tài liệu tiếng việt [1] Hoàng Văn Dũng, “Khai phá liệu Web kỹ thuật phân cụm”, Đồ án thạc sĩ, Trƣờng Đại học Sƣ phạm Hà Nội,2007 [2] Cao Chính Nghĩa, “Một số vấn đề phân cụm liệu”, Luận văn thạc sĩ, Trƣờng Đại học Công nghệ, ĐH Quốc gia Hà Nội, 2006 [3] Hoàng Hải Xanh, “Về kỹ thuật phân cụm liệu data mining”, luận văn thạc sĩ, Trƣờng ĐH Quốc Gia Hà Nội, 2005 Tài liệu tiếng anh [4] Bing Liu, Web mining, Springer, 2007 [5] Ho Tu Bao,Knowledge Discovery and Data Mining, 2000 [6] Khoo Khyou Bun, “Topic Trend Detection and Mining in World Wide Web”, A thesis for the degree of PhD, Japan, 2004 Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 61 ... tự Dữ liệu HTML Dữ liệu văn Dữ liệu XML Dữ liệu động Hình ảnh, video Dữ liệu Web Liên kết tĩnh Dữ liệu cấu trúc Web Dữ liệu sử dụng Web Liên kết động Dữ liệu ngƣời dùng Hình 1-3: Phân loại liệu. .. Kết hợp phƣơng pháp phân cụm khai phá liệu Web Bố cục đồ án gồm chƣơng: Chƣơng 1: Trình bày kiến thức khám phá tri thức, khai phá liệu, số vấn đề biểu diễn xử lý liệu văn áp dụng khai phá liệu. .. Tiểu kết chƣơng 36 CHƢƠNG 3: KHAI PHÁ DỮ LIỆU WEB 37 3.1 Khai phá nội dung Web 37 3.1.1 Khai phá kết tìm kiếm 38 3.1.2 Khai phá văn Web 38 3.2 Khai phá

Ngày đăng: 16/06/2017, 00:19

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan