ui ed u.v n u ' u.v L íl^ n- ww w lib TS LÊ V Ă N P H Ù N G - ThS Q U Á C H X U Â N T R Ư Ỏ N G ww w lib ui ed u.v n- ww w lib ui ed u -w ww lib ui ed u.v n- ww w lib ui ed Dữ liệu P U B L IS H E R NHÀ XUẤT BẢN THỊNG TIN VÀ TRUYỀN THƠNG n- ed u.v ui .lib ww w ui lib ww w .vn ed u lib -w ww ed ui n- u.v ww w lib ui ed n- u.v ww w lib ui ed u.v n n- ed u.v ui .lib ww w ui lib ww w .vn ed u lib -w ww ed ui n- u.v ww w lib ui ed n- u.v ww w lib KHUI pụá Dữ liẹĩĩ NHÀ XUẤT BẢN THÔNG TIN VÀ TRUYỀN THÔNG TS LÊ VĂN PHÙNG - ThS QUÁCH XUÂN TRƯỎNG ui ed u.v n n- ed u.v ui .lib ww w Mã số: HT 07 HM 12 ui lib ww w .vn ed u lib -w ww ed ui n- u.v ww w lib ui ed n- u.v ww w lib ui ed u.v n u.v n ed ui .ha ww w lib nu.v ui ed LỜI NÓI ĐẦU Cùng với phát triển vũ bảo công nghệ thông lin, lượng w lib thông tin nhân loại đưỢc lưu trữ irên thiết bị điện tử ngày tăng Nguồn liệu khổng lồ tích lũy với tốc độ bùng nổ từ ww nhiều lĩnh vực: khoa học, kinh doanh, giao dịch, thương mại, chứng n- khốn, Vậy khai thác từ “núi” liệu u.v tưởng chừng n h “bỏ đi” không? ed Khai phá dử liệu (Data Mining - DM) đời phần đả giải ui hữu hiệu cho câu hỏi đặt irên Và khai phá liệu? Khai phá liệu trình khám phá, chắt lọc tri thức lib iri thức có ích dạng tiềm nguồn liệu có -w ww công ty, đơn vị, tổ chức đó, từ giúp cho có đưỢc định sáng suốt .vn Với mục đích cung cấp cho bạn đọc kiến thức ed u khai phá d ữ liệu, giai đoạn quan trọng nói bậc chặng đường tìm tri thức kho liệu đồ sộ, Nhà xuất Thông ui tin Truyền thông xuất sách “K hai phá liệu” TS Lê lib Vãn Phùng ThS Quách Xuân Trưởng, công tác Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên ww w biên soạn giới thiệu với bạn đọc Cuốn sách gồm 11 chương chia làm ba phần giới thiệu khái niệm n- phổ biến liên quan đến trình phát tri thức từ liệu, ed u.v phương pháp khai phá mẫu liệu “hấp dẫn” ẩn chứa tập liệu iớn, số thuật tốn điển hình khai phá ỉiệu ww w lib ui Phần gồm chương, trình bày khái niệm khai phá liệu r.hư trình phát tri thức từ liệu khai phá liệu u.v n ed ui .ha ww w lib ed u.v n- Phần gồm chương trình bày số phương pháp khai phá mẫu liệu hấp dẫn ẩn chứa tập liệu lớn: Phương pháp định; Phương pháp phân loại hồi quy; Phương pháp phân cụm; Phương pháp kết hỢp; Phương pháp giải thuật di truyền Phương pháp mạng Nơ-ron I w lib ui Phần gồm chương giới thiệu số thuật tốn điển hình khai phá liệu phưcfng pháp phân cụm liệu luậi kết hỢp ed u.v n- ww Khai phá liệu hướng tiếp cận nhiên thu hút nhiều quan tâm nhà nghiên cihi phát triển nhờ vào ứng dụng thực tiễn chúng như: Phân tích liệu hỗ irợ định; Điều trị y học; Tin sinh học; Tài thị trường chứng khốn; Quản lý quan hệ khách hàng, Chăm sóc sức khỏe, -w ww lib ui Hy vọng sách thực hữu ích sinh viên, cử nhân, kỹ sư, giáo viên giảng dạy, cán nghiên cứu chuyên ngành công nghệ thông tin công việc nghiệp vụ Cuốn sách tài liệu tham khảo bổ ích cho tất bạn đọc u cơng nghệ thơng tin khao khát tìm tri thức kho liệu ed u Nhà xuất Thông tin Truyền thông xin trân trọng giới thiệu bạn đọc mong nhận nhiều ý kiến đóng góp quý vị Mọi đóng góp quý vị xin gửi Nhà xuất Thông tin Truyền ww w lib ui ed u.v n- ww w lib ui thông - số 9, ngõ 90, phố Ngụy Như Kon Tum, quận Thanh Xuần, Hà Nội gửi trực tiếp cho tác giả theo địa lvphung@ioii.ac.vn NXB THƠNG TIN VÀ TRUYỀN thịng u.v n ed ui .ha ww w lib ned u.v T VIẾT TẮT ui Tiếng Anh Thuật toán CLS Concept Learning System CURE Clustering ưsing Rcpresen tatives Thuật toán CƯRE DBSCAN Density-Based Spatial Clustcring DM Data Mining EM Expectaiion Maxiraization Thuật toán EM GA Genetic Algorithm Giải thuật di truyền ID3 Interactive Dichotomizen Thuật toán ID3 KDD Knovvledge Discovery from Data Phát tri thức từ liệu OLAP On-Line Analytical Processing Xử lý phân tích trực tuyến PAM Pariiiioning Around Medoids Thuật toán PAM SLIQ Supervised Learning In Quesi Thuật toán phân lc^ leo ed ui .ha lib -w ww ed u ui lib ww w Công nghệ thông lin CSDL Cơ sờ liệu ed u.v n- CNTT NSD Người sử dụng NST Nhiễm sắc thể PCDL Phân cụm liệu ui .lib ww Density - CLUsiring Ering u.v DENCLUE Tiếng Việt ww w Thuật toán DBSCAN n- of Applications with Noise w lib CLS Thuật toán DENCLƯE Khai phá liệu thang nhanh n- ed u.v ui .lib ww w ui lib ww w .vn ed u lib -w ww ed ui n- u.v ww w lib ui ed n- u.v ww w lib ui ed u.v n u.v n ed ui .ha ww w lib nui ed u.v MỞ ĐẦU Khai phá liệu (Data Mining - DM) phát tri thức từ liệu w lib (Knoĩvledge Discovery ỷrotn Data - KDD) lỉnh vực non trẻ đầy hứa hẹn Thông tin tri thức khai phá sử dụng nhiều lĩnh ww vực từ phân tích thị trường, phát gian ỉận, giữ chân khách hàng đến điều n- khiển sản xuất nghiên cứu khoa học DM xem kết u.v tiến hóa tự nhiên cơng nghệ thơng tin (CNTT) ed Q trình phát triển hệ thống liệu chứng kiến nhánh tiến hóa ui thông qua phát triển chức sau [28] (hình 1): Từ năm 1990, với phát triển mạnh mẽ loạt công lib nghệ (vi xử lý, lưu trữ, truyền thông, thông tin), khối lượng liệu tích lũy -w ww lăng nhanh dẫn đến bùng nổ liệu nhiều lĩnh vực đời sống, xã hội, khoa học thiên văn, hóa học, bảo mật, truyền thơng, thương mại, liệu Web, an ninh quốc phòng Riêng Google tiếp nhận tỷ yêu cầu tìm kiếm ngày, lưu trữ hàng trăm terabytes dứ liệu, AT&T tiếp nhận 275 ed u triệu gọi ngày, Prance Telecom có 30 terabytes thơng tin khách ui hàng, Walmart có 20 triệu giao dịch mổi ngày, Europe's Very Long Baseline lib Inieríorometry (VLBI) có 16 kính thiên văn, kính thu gigabits/giây dừ liệu, Cơ quan an ninh quốc phịng Hoa Kỳ (NSA) có tay ww w hàng triệu vãn khủng bố, E1 nino lưu trừ vài trăm gigabytes Internet archive, www.archive.org lưu trữ khoảng 300 terabytes Người ta n- dự tính liệu tồn cầu tăng gấp đơi vịng tháng ed u.v Sự phong phú liệu đồ sộ với nhu cầu cơng cụ phân tích liệu mạnh nói lên tình trạng giàu liệu đói ui thông tin nhà bác học tiếng Karan Sing nói “Chúng ta ww w lib ngập chìm biển thơng tin lại khát tri thức” [61] u.v n ed ui .ha ed u.v n -w ww lib ui ed u.v n- ww w lib ui ed u.v n- ww w lib Khdi phá (lữ liệu ui Hình Sự tiến hóa cóng nghệ hệ thống sở liệu -w ww lib Do tăng trưởng nhanh, khối lượng cực lớn dử liệu sưu tập lưu giữ kho chứa liệu khổng lồ Iiiteriiel vượt khả hấp thụ người khơng có công cụ mạnh Kết dử liệu sưu tập kho chứa khổng lồ u.v n trở thành “mồ chôn” liệu Do đó, định quan trọng thường khơng dựa vào nhừng liệu giàu thông tin kho chứa liià lại dựa vào ww w lib ui ed định trực giác người thực đơn giản người định khơng có cơng cụ chiết xuất tri thức có giá trị nhúng bể lớn liệu Hcfn thế, cơng nghệ kiểu hệ chun gia, cơng nghệ điển hình dựa vào nhừng ngưèri sử dụng (NSD) chuyên gia lĩnh vực ... trình phát tri thức từ liệu, ed u.v phương pháp khai phá mẫu liệu “hấp dẫn” ẩn chứa tập liệu iớn, số thuật tốn điển hình khai phá ỉiệu ww w lib ui Phần gồm chương, trình bày khái niệm khai phá liệu. .. trình phát tri thức từ liệu khai phá liệu u.v n ed ui .ha ww w lib ed u.v n- Phần gồm chương trình bày số phương pháp khai phá mẫu liệu hấp dẫn ẩn chứa tập liệu lớn: Phương pháp định; Phương pháp... khoán, Vậy khai thác từ “núi” liệu u.v tưởng chừng n h “bỏ đi” không? ed Khai phá dử liệu (Data Mining - DM) đời phần đả giải ui hữu hiệu cho câu hỏi đặt irên Và khai phá liệu? Khai phá liệu trình