Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
1,35 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - KẾT HỢP CÁC PHƯƠNG PHÁP PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU WEB ĐỒ ÁN TỐT NGHIỆP HỆ ĐẠI HỌC CHÍNH QUY Ngành: Cơng ngh ệ Thơng tin HẢI PHỊNG 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - KẾT HỢP CÁC PHƯƠNG PHÁP PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU WEB ĐỒ ÁN TỐT NGHIỆP HỆ ĐẠI HỌC CHÍNH QUY Ngành: Cơng nghệ Thơng tin Sinh viên thực hiện: Cao Hữu Hải Giáo viên hướng dẫn: Nguyễn Trịnh Đơng Mã sinh viên: 1212101007 HẢI PHỊNG 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG Độc lập – Tự – Hạnh phúc -o0o - NHIỆM VỤ THIẾT KẾ TỐT NGHIỆP Sinh viên: Cao Hữu Hải Mã số: 1212101007 Lớp:CT1601 Ngành: Công nghệ Thông tin Tên đề tài: Kết hợp phương pháp phân cụm khai phá liệu Web NHIỆM VỤ ĐỀ TÀI Nội dung yêu cầu cần giải nhiệm vụ đề tài tốt nghiệp a Nội dung: - Tìm hiểu khai phá liệu, khai phá liệu Web Tìm hiểu thuật tốn phân cụm phổ biến Áp dụng thuật toán phân cụm tìm kiếm phân cụm tài liệu Web Đề phương pháp xây dựng hệ thống Thử nghiệm với cơng cụ để giải tốn b Các yêu cầu cần giải - Nắm lý thuyết khai phá liệu Web Nắm thuật tốn phân cụm liệu Nắm q trình phân cụm liệu Web Xây đựng mơ hình phân cụm liệu với phần mền Orange Các số liệu cần thiết để thiết kế, tính tốn Địa điểm thực tập CÁN BỘ HƯỚNG DẪN ĐỀ TÀI TỐT NGHIỆP Người hướng dẫn thứ nhất: Họ tên: Nguyễn Trịnh Đông Học hàm, học vị: Thạc sĩ Cơ quan cơng tác: Đại học Dân lập Hải Phịng Nội dung hướng dẫn: Tìm hiểu phương pháp phân cụm Tìm hiểu số phương pháp tạo luật giải thuật liên quan Đề phương pháp xây dựng hệ thống Thử nghiệm với công cụ để giải toán Đề tài tốt nghiệp giao ngày 03 tháng 10 năm 2019 Yêu cầu phải hoàn thành trước ngày 24 tháng 12 năm 2019 Đã nhận nhiệm vụ: Đ.T.T.N Đã nhận nhiệm vụ: Đ.T.T.N Sinh viên Cán hướng dẫn Đ.T.T.N Hải Phòng, ngày tháng .năm 2019 HIỆU TRƯỞNG GS.TS.NGƯT Trần Hữu Nghị PHẦN NHẬN XÉT TÓM TẮT CỦA CÁN BỘ HƯỚNG DẪN Tinh thần thái độ sinh viên trình làm đề tài tốt nghiệp: ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… Đánh giá chất lượng đề tài tốt nghiệp (so với nội dung yêu cầu đề nhiệm vụ đề tài tốt nghiệp): …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………… Cho điểm cán hướng dẫn: ( Điểm ghi số chữ ) ………………………………………………………………………………… …………………………………………………………………………… Ngày .tháng .năm 2019 Cán hướng dẫn ( Ký, ghi rõ họ tên ) PHẦN NHẬN XÉT ĐÁNH GIÁ CỦA CÁN BỘ CHẤM PHẢN BIỆN ĐỀ TÀI TỐT NGHIỆP Đánh giá chất lượng đề tài tốt nghiệp (về mặt sở lý luận, thuyết minh chương trình, giá trị thực tế,…): ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Cho điểm cán phản biện (Điểm ghi số chữ) ………………………………………………………………………………………………… ………………………………………………………………………………………………… Ngày .tháng năm 2019 Cán chấm phản biện ( Ký, ghi rõ họ tên ) LỜI CẢM ƠN Trong lời báo cáo đồ án tốt nghiệp “Áp dụng phương pháp phân cụm khai phá liệu Web”, em muốn gửi lời cám ơn biết ơn chân thành tới tất người hỗ trợ, giúp đỡ em kiến thức tinh thần trình thực đồ án Trước hết, em xin chân thành cám ơn thầy giáo Ths Nguyễn Trịnh Đông, giảng viên khoa Công nghệ Thông tin, Trường Đại học Dân lập Hải Phòng, người trực tiếp hướng dẫn, nhận xét, giúp đỡ em suốt trình thực đồ án Xin chân thành cảm ơn GS.TS.NGƯT Trần Hữu Nghị Hiệu trưởng trường Đại học Dân lập Hải Phòng, ban giám hiệu nhà trường, thầy cô khoa Công nghệ Thông tin phòng ban nhà trường tạo điều kiện tốt cho em bạn khác suốt thời gian học tập làm tốt nghiệp Cuối em xin gửi lời cảm ơn đến gia đình, bạn bè, người thân giúp đỡ động viên em nhiều trình học tập làm đồ án tốt nghiệp Mặc dù em cố gắng để hoàn thiện báo cáo tốt nghiệp song khả hạn chế nên báo cáo thiếu nhiều sai sót Vì em mong đóng góp thầy bạn bè Em xin chân thành cảm ơn! Hải Phòng,ngày 24 tháng 12 năm 2019 Sinh viên Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH SÁCH HÌNH DANH SÁCH BẢNG DANH MỤC TỪ VIẾT TẮT CHƯƠNG 1: GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU WEB 1.1 Khai phá liệu khai phá tri thức 1.1.1 Khai phá liệu 1.1.2 Quá trình khám phá tri thức 1.1.3 Khai phá liệu lĩnh vực liên quan 1.1.4 Các kỹ thuật áp dụng khai phá liệu 1.1.5 Những chức khai phá liệu 10 1.1.6 Ứng dụng khai phá liệu 11 1.2 Phương pháp phân cụm liệu 12 1.2.1 Giới thiệu kỹ thuật phân cụm 12 1.2.2 Ứng dụng phân cụm liệu 14 1.2.3 Các yêu cầu kỹ thuật phân cụm liệu 14 1.2.4 Các kiểu liệu độ đo tương tự 15 1.3 Khai phá Web 19 1.3.1 Các kiểu liệu Web 21 1.3.2 Xử lý liệu văn ứng dụng khai phá liệu Web 22 1.3.3 Một số vấn đề xử lý liệu văn 22 1.4 Tiểu kết chương 24 CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 25 2.1 Thuật toán k-means 25 2.2 Thuật toán PAM 27 Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công ngh ệ Thông tin Tiêu chuẩn 3(Tư ng tự mục): Độ tương tự d1 d2 đo số trang mà d1 d2 trở tới Hình 3-4: Độ tương đồng trích dẫn d1 d2 Hình 3-5: Độ tương tự mục 3.3.2 Khai phá quản lý cộng đồng Web Một cộng đồng Web tập hợp trang Web mà liệu liên quan đến lĩnh vực Nhận biết cộng đồng Web, hiểu phát triển đặc trưng cộng đồng Web quan trọng Việc xác định hiểu cộng đồng Web xem việc khai phá quản lý Web Đặc điểm cộng đồng Web: - Các trang Web cộng đồng “tương tự” với trang Web cộng đồng - Mỗi cộng đồng Web tạo thành cụm trang Web - Các cộng đồng Web xác định cách rõ ràng, tất người biết, nguồn tài nguyên liệt kê Yahoo - Cộng đồng Web xác định hoàn chỉnh: Chúng cộng đồng bất ngờ xuất Khai phá cộng đồng Web ngày quan tâm ứng dụng nhiều thực tiễn Vì vậy, việc nghiên cứu phương pháp khám phá cộng đồng có ý nghĩa to lớn thực tiễn Ngồi ra, việc phân tích đồ thị Web có tác dụng lớn việc tìm kiếm cộng đồng ẩn Có nhiều phương pháp chứng thực cộng đồng Web như: thuật tốn tìm kiếm theo chủ đề HITS, luồng cực đại nhát cắt cực tiểu, thuật toán PageRank, Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 47 3.4 Áp dụng thuật tốn tìm kiếm phân cụm tài liệu Web Hiện nay, phát triển công cụ Web Search Engine giúp người dùng dễ dàng việc tìm kiếm thơng tin Web Tuy nhiên, lúc công cụ Web Search Engine cho kết dúng với nhu cầu người dùng Vậy nên, ta nhóm kết tìm thành nhóm theo chủ đề, sau người dùng tìm kiếm thông tin theo chủ đề mà họ cần Điều giúp cho người dùng thực việc tìm kiếm nhanh hiệu Trong đồ án ta tìm hiểu việc sử dụng kỹ thuật phân cụm tài liệu Web, dựa kho liệu tìm kiếm lưu trữ 3.4.1 Tìm hiểu kỹ thuật phân cụm tài liệu Web Ngày nay, có nhiều phương pháp đánh giá độ quan trọng trang Web như: PageRank, HITS, … Tuy vậy, phương pháp đánh giá chủ yếu dựa vào liên kết trang để xác định trọng số cho trang Ta tiếp cận cách đánh giá mức độ quan trọng theo hướng khác dựa vào nội dung tài liệu để xác định trọng số, tài liệu "gần nhau" nội dung có mức độ quan trọng tương đương thuộc nhóm Giả sử cho tập S gồm trang web, tìm tập S trang chứa nội dung câu hỏi truy vấn ta tập R Sử dụng thuật toán phân cụm liệu để phân tập R thành k cụm (k xác định) cho phần tử cụm tương tự nhất, phần tử cụm khác phi tương tự với Từ tập S-R, đưa phần tử vào k cụm thiết lập Những phần tử tương tự với trọng tâm cụm (theo ngưỡng xác định đó) đưa vào cụm này, phần tử không thỏa mãn xem không phù hợp với truy vấn loại bỏ khỏi tập kết Kế tiếp, đánh trọng số cho cụm trang tập kết theo thuật tốn sau: Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Cơng nghệ Thông tin 48 INPUT: tập liệu D chứa trang gồm k cụm k trọng tâm OUTPUT: trọng số trang BEGIN Mỗi cụm liệu thứ m trọng tâm Cm ta gán trọng số tsm Với trọng tâm Ci ,Cj ta ln có tsi>tsj ti tương tự với truy vấn tj Với trang p cụm m ta xác định trọng số trang pwm Với pwi, pwj bất kỳ, ta ln có pw1>pw2 pw1 gần trọng tâm pw2 END Như vậy, theo cách tiếp cận ta giải vấn đề sau: - Kết tìm kiếm phân thành cụm theo chủ đề khác nhau, tùy vào yêu cầu cụ thể người dùng xác định chủ đề mà họ cần - Quá trình tìm kiếm xác định trọng số cho trang chủ yếu tập trung vào nội dung trang dựa vào liên kết trang - Giải vấn đề từ/cụm từ đồng nghĩa câu truy vấn người dùng - Có thể kết hợp phương pháp phân cụm lĩnh vực khai phá liệu với phương pháp tìm kiếm có 3.4.2 Q trình tìm kiếm phân cụm tài liệu Về bản, trình phân cụm kết tìm kiếm diễn theo bước thể sau : - Tìm kiếm trang Web từ Website thỏa mãn nội dung truy vấn - Trích rút thơng tin mơ tả từ trang lưu trữ với URL tương ứng - Sử dụng kỹ thuật phân cụm liệu để phân cụm tự động trang Web thành cụm, cho trang cụm “tương tự” nội dung với trang cụm Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 49 Tìm kiếm Dữ liệu Web Biểu diễn kết trích rút Áp dụng thuật tốn Tiền xử lý Biểu diễn Hình 3-6: Các bước phân cụm kết tìm kiếm Web 3.4.2.1 Tìm ki m liệu Web Nhiệm vụ chủ yếu giai đoạn dựa vào tập từ khóa tìm kiếm để tìm kiếm trả tập gồm tồn văn tài liệu, tiêu đề, mơ tả tóm tắt, URL,… tương ứng với trang Nhằm nâng cao tốc độ xử lý, ta tiến hành tìm kiếm lưu trữ tài liệu kho liệu để sử dụng cho trình tìm kiếm (tương tự Web Search Engine Yahoo, Google,…) Mỗi phần tử gồm toàn văn tài liệu, tiêu đề, đoạn mô tả nội dung, URL,… 3.4.2.2 Ti n xử lý liệu Quá trình làm liệu chuyển dịch tài liệu thành dạng biểu diễn liệu thích hợp Giai đoạn bao gồm công việc sau: Chuẩn hóa văn bản, xóa bỏ từ dừng, kết hợp từ có từ gốc, số hóa biểu diễn văn bản, a Chuẩn hó văn Đây giai đoạn chuyển văn thô dạng văn cho việc xử lý sau dễ dàng, đơn giản, thuật tiện, xác so với việc xử lý trực tiếp văn thô mà ảnh hưởng đến kết xử lý Bao gồm: - Xóa thẻ HTML loại thẻ khác để trích từ/cụm từ Chuyển ký tự hoa thành ký tự thường Xóa bỏ dấu câu, xố ký tự trắng dư thừa, Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Cơng nghệ Thơng tin 50 b Xóa bỏ từ dừng Trong văn có từ mang q thơng tin, khơng có nhiều tác dụng q trình xử lý, từ có tần số xuất thấp, từ xuất với tần số lớn khơng quan trọng cho q trình xử lý loại bỏ Theo số nghiên cứu gần cho thấy việc loại bỏ từ dùng giảm khoảng 20-30% tổng số từ văn Có nhiều từ xuất với tần số lớn khơng hữu ích cho q trình phân cụm liệu Ví dụ tiếng Anh từ a, an, the, of, and, to, on, by, tiếng Việt từ “thì”, “mà”, “là”, “và”, “hoặc”, Những từ xuất với tần số lớn loại bỏ Để đơn giản ứng dụng thực tế, ta tổ chức thành danh sách từ dừng, sử dụng định luật Zipf để xóa bỏ từ có tần số xuất thấp cao 3.4.2.3 Xây dựng từ điển Trong q trình vector hóa văn thì, xây dựng từ điển trình quan trọng Từ điển gồm bảng từ số sau xếp theo thứ tự 3.4.2.4 Tách từ, s hóa văn n biểu di n tài liệu Tách từ trình tìm kiếm từ thay số từ từ điển Một số mơ hình tính số từ là: TF, IDF, TF-IDF,… Ở ta sử dụng mơ hình toán học TF-IDF, để biểu diễn văn Chúng ta sử dụng mảng W (trọng số) hai chiều có kích thước m x n, với n số tài liệu, m số từ từ điển (số chiều), hàng thứ j vector biểu diễn tài liệu thứ j sở liệu, cột thứ i thuật ngữ thứ i từ điển Wij giá trị trọng số từ i tài liệu j Giai đoạn thực thống kê tần số từ ti xuất tài liệu dj số tài liệu chứa ti Từ xây dựng bảng trọng số ma trận W theo công thức sau: [ ( )] ( ) { (1): Nếu (2): Ngược lại Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thơng tin 51 Trong đó: Tfij : tần số xuất từ ti tài liệu dj idfij : nghịch đảo tần số xuất từ ti tài liệu dj hi : số tài liệu mà từ ti xuất n: tổng số tài liệu 3.4.2.5 Phân cụm tài liệu Sau tìm kiếm, trích rút liệu tiền xử lý biểu diễn văn sử dụng kỹ thuật phân cụm để phân cụm tài liệu INPUT: Tập gồm n tài liệu k cụm OUTPUT: Các cụm Ci (i=1, ,k) cho hàm tiêu chuẩn đạt giá trị cực tiểu BEGIN Bước 1: Khởi tạo ngẫu nhiên k vector làm đối tượng trọng tâm k cụm Bước 2: Với tài liệu dj xác định độ tương tự trọng tâm cụm theo độ đo tương tự thường dùng (Euclidean, Manhattan) Xác định trọng tâm tương tự cho tài liệu đưa tài liệu vào cụm Bước 3: Cập nhận lại đối tượng trọng tâm Đối với cụm ta xác định lại trọng tâm cách xác định trung bình cộng vector tài liệu cụm Bước 4: Lặp lại bước tâm không thay đổi END Để xác định trọng tâm cụm tài liệu: Xét cụm văn c, trọng tâm C cụm c tính nhờ vào vector tổng cụm c: C= ∑ ) văn || |c|: số phần tử thuộc tập tài liệu c Trong kỹ thuật phân cụm, trọng tâm cụm sử dụng để làm đại diện cho cụm tài liệu Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 52 Vấn đề tính tốn độ tương tự cụm tài liệu: Giả sử ta có cụm c 1, c2, độ tương tự cụm tài liệu tính mức độ “gần nhau” vector trọng tâm C1, C2: Sim(c1,c2)= sim(C1,C2) Ở đây, ta hiểu c1 c2 gồm tài liệu coi cụm gồm phần tử Trong thuật toán k-means, chất lượng phân cụm đánh giá thông quan hàm tiêu chuẩn: ∑ ∑ , x vector biểu diễn tài liệu, mi trọng tâm cụm, k số cụm, Ci cụm thứ i - Độ phức tạp thuật toán k-means Trong đó, n số đối tượng liệu, k số cụm liệu, d số chiều, r số vòng lặp 3.5 Thực nghiệm Sử dụng phần mềm Orange data mining để thực phân cụm liệu Input: - Dữ liệu ban đầu gồm 100 file text có tên file từ file001-file100 Sau chuẩn hóa liệu ban đầu theo cụm: Kinh tế, Chính trị, Khoa học, Cơng nghệ, Giáo dục, giải trí, Y tế (sử dụng file cvs excel để lưu trữ) Output: - Dữ liệu phân cụm Orange Quá trình phân cụm liệu Orange: Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Cơng nghệ Thơng tin 53 Hình 3-7: Mơ hình phân cụm liệu Orange Hình 3-8: Đư liệu chuẩn hóa mơ hình Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 54 Hình 3-9: Bảng chuẩn hóa Hình 3-10: Do khoảng cách Euclidean Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thơng tin 55 Hình 3-11: Phân cụm liệu theo phương pháp phân cụm phân cấp Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Cơng nghệ Thơng tin 56 Hình 3-12: Dữ liệu sau phân cụm phân cấp Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Cơng nghệ Thơng tin 57 Hình 3-13: Phân cụm k-means Đo khoảng cách Euclidean, cho thấy cụm thuật tốn tối ưu Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 58 Hình 3-14: Biểu diễn liệu sau phân cụm k-means 3.6 Tiểu kết chương Chương tác giả trình bày số hướng tiếp cận khai phá Web khai phá liệu toàn văn tài liệu Web, khai phá cấu trúc Web, khai phá sử dụng Web số thuật toán áp dụng khai phá Web Phần trình bày trình phân cụm liệu phương pháp phân cụm phân cấp phân cụm theo thuật tốn k-means, phần mềm mơ hình hóa Orange Data Mining Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 59 Kết luận Tìm hiểu nội dung đề tài giúp em có thêm kiến thức khai phá liệu Web phương pháp áp dụng kỹ thuật phân cụm khai phá liệu Web Đồ án tập chung vào việc tìm hiểu về: Khai phá tri thức, phân cụm liệu, khai phá Web áp dụng kỹ thuật phân cụm khai phá liệu Web Ngoài ra, ta cần xây dựng trương trình thực nghiệm phục vụ cho việc tìm kiếm,lưu trữ để phân cụm tài liệu Web để phục vụ cho q trình tìm kiếm Nhưng khn khổ đồ án tốt nghiệp, em chưa kịp xây dựng trương trình, mà thay vào em lập mơ hình phân cụm liệu Web phần mền Orange Trong đó, cơng việc tìm kiếm, lưu trữ chuẩn hóa liệu làm thủ cơng q trình phân cụm liệu giải phần mền Orange Hướng phát triển: xây dựng hoàn thiện phần mềm đầy đủ chức năng: tìm kiếm, lư trữ, phân cụm liệu phục vụ cho việc tìm kiếm Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 60 Tài liệu tham khảo Tài liệu tiếng việt [1] Hoàng Văn Dũng, “Khai phá liệu Web kỹ thuật phân cụm”, Đồ án thạc sĩ, Trường Đại học Sư phạm Hà Nội,2007 [2] Cao Chính Nghĩa, “Một số vấn đề phân cụm liệu”, Luận văn thạc sĩ, Trường Đại học Công nghệ, ĐH Quốc gia Hà Nội, 2006 [3] Hoàng Hải Xanh, “Về kỹ thuật phân cụm liệu data mining”, luận văn thạc sĩ, Trường ĐH Quốc Gia Hà Nội, 2005 Tài liệu tiếng anh [4] Bing Liu, Web mining, Springer, 2007 [5] Ho Tu Bao,Knowledge Discovery and Data Mining, 2000 [6] Khoo Khyou Bun, “Topic Trend Detection and Mining in World Wide Web”, A thesis for the degree of PhD, Japan, 2004 Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 61 ... CHƯƠNG 3: KHAI PHÁ D LIỆU WEB Có ba hướng tiếp cận khai phá Web Web content, Web structure, Web usage Dữ liệu Web Dữ liệu văn Web Dữ liệu văn Web Dữ liệu cấu trúc Web Dữ liệu tìm kiếm Web Dữ liệu. .. Dữ liệu HTML Dữ liệu văn Dữ liệu XML Dữ liệu động Hình ảnh, video Dữ liệu Web Liên kết tĩnh Dữ liệu cấu trúc Web Dữ liệu sử dụng Web Liên kết động Dữ liệu người dùng Hình 13: Phân loại liệu Web. .. ? ?Kết hợp phương pháp phân cụm khai phá liệu Web? ?? Bố cục đồ án gồm chương: Chương 1: Trình bày kiến thức khám phá tri thức, khai phá liệu, số vấn đề biểu diễn xử lý liệu văn áp dụng khai phá liệu