TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO MÔN HỌC HỆ HỖ TRỢ QUYẾT ĐỊNH Đề tài GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU Giáo viên hướng dẫn TS LÊ CHÍ NGỌC Mục lục CHƯƠNG 1 GIỚI THIỆU[.]
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO MÔN HỌC HỆ HỖ TRỢ QUYẾT ĐỊNH Đề tài: GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU Giáo viên hướng dẫn : TS LÊ CHÍ NGỌC Mục lục CHƯƠNG 1: GIỚI THIỆU .3 1.1 Tại phải khai phá liệu 1.1.1 Tiến tới kỷ nguyên số: .3 1.1.2 Khai phá liệu phát triển công nghệ thông tin 1.2 Khai phá liệu gì? .6 1.3 Những loại liệu khai phá? 1.3.1 Cơ sở liệu .9 1.3.2 Kho liệu .10 1.3.3 Dữ liệu giao dịch .11 1.3.4 Các loại liệu khác .12 1.4 Những loại mơ hình khai phá? 13 1.4.1 Phân loại / Khái niệm mô tả: Đặc trưng phân biệt 13 1.4.2 Khai phá mơ hình, hiệp hội tương quan thường xuyên 14 1.4.3 Phân loại hồi quy để phân tích dự đốn 16 1.4.4 Phân tích cụm: 17 1.4.5 Phân tích ngoại lệ 18 1.4.6 Tất mẫu có thú vị khơng? .18 1.5 Công nghệ sử dụng? .20 1.5.1 Thống kê 20 1.5.2 Học máy 21 1.5.3 Hệ thống sở liệu DataWarehouses 23 1.5.4 Truy xuất thông tin 23 1.6 Những loại ứng dụng mục tiêu? 24 1.6.1 Kinh doanh thông minh 24 1.6.2 Cơng cụ tìm kiếm web .24 1.7 Các vấn đề khai phá liệu 25 1.7.1 Phương pháp khai phá .25 1.7.2 Tương tác người dùng .27 1.7.3 Hiệu khả mở rộng .27 1.7.4 Đa dạng loại sở liệu 28 1.7.5 Khai phá liệu xã hội 29 1.8 Tóm tắt 29 1.9 Bài tập 30 1.10 Ghi thư mục 31 CHƯƠNG 1: GIỚI THIỆU 1.1 Tại phải khai phá liệu Chúng ta sống giới nơi lượng lớn liệu thu thập hàng ngày Phân tích liệu nhu cầu quan trọng Mục 1.1.1 xem xét cách khai thác liệu đáp ứng nhu cầu cách cung cấp công cụ để khám phá kiến thức từ liệu Trong Phần 1.1.2, quan sát cách khai thác liệu xem kết phát triển tự nhiên công nghệ thông tin 1.1.1 Tiến tới kỷ nguyên số: Chúng ta sống thời đại thông tin Đây câu nói phổ biến; nhiên, thực sống thời đại liệu Terabyte petabyte1 liệu đổ vào mạng máy tính chúng ta, World Wide Web (WWW) thiết bị lưu trữ liệu khác ngày từ doanh nghiệp, xã hội, khoa học kỹ thuật, y học, hầu hết khía cạnh khác sống hàng ngày Sự tăng trưởng bùng nổ khối lượng liệu có sẵn kết việc tin học hóa xã hội phát triển nhanh chóng cơng cụ thu thập lưu trữ liệu mạnh mẽ Các doanh nghiệp toàn giới tạo liệu khổng lồ, bao gồm giao dịch bán hàng, hồ sơ giao dịch chứng khốn, mơ tả sản phẩm, khuyến mại, hiệu suất hiệu suất công ty phản hồi khách hàng Ví dụ, cửa hàng lớn, WalMart, xử lý hàng trăm triệu giao dịch tuần hàng ngàn chi nhánh khắp giới Các nhà khoa học thực hành kỹ thuật tạo đơn đặt hàng liệu cao cách liên tục, từ viễn thám, đo lường trình, thí nghiệm khoa học, hiệu suất hệ thống, quan sát kỹ thuật giám sát môi trường Mạng viễn thơng đường trục tồn cầu mang hàng chục petabyte liệu hàng ngày Ngành công nghiệp y tế sức khỏe tạo lượng liệu khổng lồ từ hồ sơ bệnh án, theo dõi bệnh nhân hình ảnh y tế Hàng tỷ tìm kiếm web hỗ trợ cơng cụ tìm kiếm xử lý hàng chục petabyte liệu ngày Cộng đồng phương tiện truyền thông xã hội trở thành nguồn liệu ngày quan trọng, tạo hình ảnh video kỹ thuật số, blog, cộng đồng Web loại mạng xã hội khác Danh sách nguồn tạo lượng liệu khổng lồ vơ tận Sự phát triển bùng nổ, có sẵn rộng rãi khối liệu khổng lồ khiến thời gian thực thời đại liệu Các công cụ mạnh mẽ linh hoạt cần thiết để tự động phát thông tin có giá trị từ lượng liệu khổng lồ để chuyển đổi liệu thành kiến thức có tổ chức Sự cần thiết dẫn đến đời khai thác liệu Fi eldisyoung, động, đáng kinh ngạc Khai phá liệu tiếp tục tạo bước tiến lớn hành trình từ thời đại liệu đến thời đại thơng tin tới Ví dụ1.1 Khai thác liệu biến tập hợp lớn liệu thành kiến thức Cơng cụ tìm kiếm (ví dụ: Google) nhận hàng trăm triệu truy vấn ngày Mỗi truy vấn xem giao dịch mà người dùng mô tả nhu cầu thông tin Những kiến thức lạ hữu ích mà cơng cụ tìm kiếm học từ sưu tập lớn truy vấn thu thập từ người dùng theo thời gian? Thật thú vị, số mẫu tìm thấy truy vấn tìm kiếm người dùng tiết lộ kiến thức vơ giá khơng thể có cách đọc mục liệu riêng lẻ Ví dụ: Google xu hướng dịch cúm sử dụng thuật ngữ tìm kiếm cụ thể làm số cho hoạt động bạn Nó tìm thấy mối quan hệ chặt chẽ số người tìm kiếm thơng tin liên quan đến bạn số người thực có triệu chứng Một mơ hình mẫu tìm kiếm câu hỏi liên quan đến liệu tìm kiếm Sử dụng liệu tìm kiếm Google, Xu hướng dịch cúm ước tính hoạt động nhanh hai tuần so với hệ thống truyền thống Ví dụ cho thấy cách khai thác liệu biến sưu tập liệu lớn thành kiến thức 1.1.2 Khai phá liệu phát triển cơng nghệ thơng tin Khai phá liệu xem kết phát triển tự nhiên công nghệ thông tin Cơ sở liệu quản lý liệu phát triển phát triển Một số chức quan trọng (Hình 1.1): thu thập liệu tạo sở liệu, quản lý liệu (bao gồm lưu trữ truy xuất liệu xử lý giao dịch sở liệu) phân tích liệu nâng cao (liên quan đến lưu trữ liệu khai thác liệu) Sự phát triển ban đầu chế thu thập liệu tạo sở liệu điều kiện tiên cho phát triển sau chế hiệu để lưu trữ truy xuất liệu, xử lý truy vấn giao dịch Ngày nay, nhiều hệ thống sở liệu cung cấp truy vấn xử lý giao dịch thơng lệ Phân tích liệu nâng cao tự nhiên trở thành bước Hình 1.1 Sự phát triển cơng nghệ hệ thống sở liệu Từ năm 1960, sở liệu công nghệ thông tin phát triển cách có hệ thống từ hệ thống xử lý nguyên thủy đến hệ thống sở liệu tinh vi mạnh mẽ Nghiên cứu phát triển hệ thống sở liệu từ năm 1970 phát triển từ hệ thống sở liệu mạng phân cấp sang hệ thống sở liệu quan hệ (nơi liệu lưu trữ cấu trúc bảng quan hệ; xem Phần 1.3.1), cơng cụ mơ hình hóa liệu lập phương pháp truy cập lập mục Ngồi ra, người dùng có quyền truy cập liệu thuận tiện truy cập thơng qua ngôn ngữ truy vấn, giao diện người dùng, tối ưu hóa truy vấn quản lý giao dịch Các phương pháp hiệu để xử lý giao dịch trực tuyến (OLTP), phương thức truy vấn xem xét, đóng góp cách đáng kể chấp nhận rộng rãi công nghệ quan hệ cơng cụ để lưu trữ, truy xuất quản lý liệu lớn Sau thiết lập hệ thống quản lý sở liệu, công nghệ sở liệu chuyển sang phát triển hệ thống sở liệu tiên tiến, lưu trữ liệu khai thác liệu để phân tích liệu nâng cao sở liệu dựa web Các hệ thống sở liệu tiên tiến, ví dụ, dẫn đến bùng nổ nghiên cứu từ năm 1980 trở Các hệ thống kết hợp mơ hình liệu mạnh mẽ quan hệ mở rộng, hướng đối tượng, quan hệ đối tượng, anddeductivemodels Các hệ thống sở liệu định hướng ứng dụng cải tiến, bao gồm không gian, thời gian, đa phương tiện, hoạt động, luồng cảm biến, sở liệu cứ, thông tin Các vấn đề liên quan đến phân phối, đa dạng hóa chia sẻ liệu nghiên cứu rộng rãi Phân tích liệu nâng cao xuất từ cuối năm 1980 trở Sự tiến ổn định rực rỡ cơng nghệ phần cứng máy tính ba thập kỷ qua dẫn đến nguồn cung lớn máy tính, thiết bị thu thập liệu phương tiện lưu trữ mạnh mẽ giá phải Công nghệ cung cấp thúc đẩy lớn cho sở liệu cơng nghiệp thơng tin, cho phép số lượng lớn sở liệu kho thơng tin có sẵn để quản lý giao dịch, truy xuất thơng tin phân tích liệu Bây liệu lưu trữ nhiều loại sở liệu kho thông tin khác Một kiến trúc kho liệu kho liệu (Mục 1.3.2) Đây kho lưu trữ nhiều nguồn liệu không đồng tổ chức theo lược đồ đơn trang web để tạo thuận lợi cho việc định quản lý Công nghệ kho liệu bao gồm làm liệu, tích hợp liệu xử lý phân tích trực tuyến (OLAP), kỹ thuật phân tích với chức tóm tắt, hợp tổng hợp, khả xem thông tin từ góc độ khác Mặc dù cơng cụ OLAP hỗ trợ phân tích đa chiều định Các công cụ liệu cung cấp phân loại liệu, phân cụm, phát ngoại lệ / phát liệu theo thời gian Khối lượng liệu khổng lồ tích lũy ngồi sở liệu kho liệu Trong năm 1990, World Wide Web sở liệu dựa web (ví dụ: sở liệu XML) bắt đầu Các sở liệu dựa tảng Internet, suchastheWWW loại sở liệu không đồng nhất, liên kết với nhau, xuất đóng vai trị quan trọng ngành cơng nghiệp thơng tin Việc phân tích liệu hiệu hiệu từ dạng liệu khác cách tích hợp truy xuất thơng tin, khai thác liệu cơng nghệ phân tích mạng thơng tin nhiệm vụ đầy thách thức Hình 1.2 Thế giới giàu liệu nghèo thơng tin Tóm lại, phong phú liệu, với nhu cầu cơng cụ phân tích liệu mạnh mẽ, mơ tả tình giàu liệu nghèo thơng tin (Hình 1.2) Lượng liệu phát triển nhanh, khổng lồ, thu thập lưu trữ kho liệu lớn nhiều kho liệu lớn nhiều, vượt xa khả hiểu biết với công cụ mạnh mẽ Kết là, liệu thu thập kho lưu trữ liệu lớn trở thành kho lưu trữ liệu truy cập Do đó, định quan trọng thường đưa không dựa liệu giàu thông tin lưu trữ kho liệu mà dựa trực giác người đưa định, đơn giản người định khơng có cơng cụ để trích xuất kiến thức có giá trị nhúng lượng liệu khổng lồ Những nỗ lực công nghệ dựa kiến thức công nghệ dựa kiến thức, chủ yếu dựa vào người dùng chuyên gia lĩnh vực để tự nhập kiến thức vào sở tri thức Thật không may, nhiên, thủ tục nhập kiến thức thủ công dễ bị sai lệch sai sót tốn thời gian Khoảng cách ngày lớn liệu thơng tin địi hỏi phát triển có hệ thống công cụ khai thác liệu biến ngơi mộ liệu thành cốm vàng vàng kiến thức 1.2 Khai phá liệu gì? Khơng có ngạc nhiên khai thác liệu, chủ đề thực liên ngành, định nghĩa theo nhiều cách khác Ngay thuật ngữ khai thác liệu không thực trình bày tất thành phần Chính khai thác liệu thay đặt tên cách thích hợp khai thác kiến thức từ liệu, không may dài Tuy nhiên, ngắn hạn, khai thác tri thức khơng gây nhấn mạnh vào việc khai thác từ lượng lớn liệu Tuy nhiên, khai thác thuật ngữ sinh động đặc trưng cho trình tạo nhỏ cốm quý giá từ nhiều ngun liệu thơ (Hình 1.3) Do đó, cách gọi sai mang liệu Google khai thác liệu trở thành lựa chọn phổ biến Ngồi ra, nhiều thuật ngữ khác có ý nghĩa tương tự khai thác liệu, ví dụ, khai thác kiến thức từ liệu, khai thác kiến thức, phân tích liệu / mẫu, khảo cổ liệu nạo vét liệu Nhiều người coi khai thác liệu từ đồng nghĩa với thuật ngữ sử dụng phổ biến khác, phát tri thức từ liệu, người khác xem khai thác liệu bước thiết yếu trình khám phá tri thức Quá trình khám phá kiến thức hiển thị Hình 1.4 chuỗi lặp bước sau: Làm liệu (để loại bỏ nhiễu liệu khơng qn) Tích hợp liệu (nơi kết hợp nhiều nguồn liệu) 3 Lựa chọn liệu (nơi liệu liên quan đến nhiệm vụ phân tích lấy từ sở liệu) Chuyển đổi liệu (trong liệu chuyển đổi hợp thành biểu mẫu phù hợp để khai thác cách thực hoạt động tóm tắt tổng hợp) Khai thác liệu (một quy trình thiết yếu phương thức thơng minh áp dụng để trích xuất mẫu liệu) Đánh giá mơ hình (xác định mơ hình thú vị nhận thức dựa biện pháp thú vị, xem phần 1.4.6) Trình bày kiến thức (trong kỹ thuật biểu diễn tri thức trực quan sử dụng để trình bày kiến thức khai thác cho người dùng) Bước đến hình thức tiền xử lý liệu khác nhau, liệu chuẩn bị để khai thác Bước khai thác liệu tương tác với người dùng sở tri thức Các sở kiến thức thú vị mô tả sở kiến thức kiến thức Quan điểm trước cho thấy việc khai thác liệu bước quy trình khám phá tri thức, vậy, mặc dù, ngành công nghiệp, phương tiện truyền thông môi trường nghiên cứu, thuật ngữ khai thác liệu thường sử dụng để tồn q trình khám phá tri thức (có lẽ thuật ngữ ngắn khám phá kiến thức từ liệu) Do đó, chúng tơi áp dụng nhìn bao qt chức khai thác liệu: Khai thác liệu trình khám phá mẫu kiến thức thú vị từ lượng lớn liệu Các nguồn liệu bao gồm sở liệu, kho liệu, Web, kho thông tin khác liệu truyền trực tiếp vào hệ thống 1.3 Những loại liệu khai phá? Là công nghệ chung, khai thác liệu áp dụng cho loại liệu miễn liệu có ý nghĩa ứng dụng đích Các dạng liệu cho ứng dụng khai thác liệu sở liệu (Mục 1.3.1), liệu kho liệu (Mục 1.3.2) liệu giao dịch (Mục 1.3.3) Các khái niệm kỹ thuật trình bày sách tập trung vào liệu Khai thác liệu áp dụng cho dạng liệu khác (ví dụ: luồng liệu, liệu theo thứ tự / chuỗi, biểu đồ liệu nối mạng, liệu không gian, liệu văn bản, đa phương tiện theWWW) Các kỹ thuật khai thác loại liệu giới thiệu Chương 13 Xử lý độc lập coi chủ đề nâng cao Khai thác liệu chắn tiếp tục nắm lấy loại liệu chúng xuất 1.3.1 Cơ sở liệu Một hệ thống sở liệu, gọi hệ thống quản lý sở liệu (DBMS), bao gồm tập hợp liệu liên quan đến nhau, gọi sở liệu chương trình phần mềm để quản lý truy cập liệu Các chương trình phần mềm cung cấp chế để xác định cấu trúc sở liệu lưu trữ liệu; để định quản lý truy cập liệu đồng thời, chia sẻ phân phối; để đảm bảo tính quán bảo mật thông tin lưu trữ hệ thống gặp cố cố gắng truy cập trái phép Cơ sở liệu quan hệ tập hợp bảng, bảng gán tên Mỗi bảng bao gồm tập hợp thuộc tính (cột trường) thường lưu trữ lớn (bản ghi hàng) Mỗi bảng quan hệ biểu thị đối tượng xác định khóa mơ tả tập hợp giá trị thuộc tính Một mơ hình liệu ngữ nghĩa, mơ hình liệu quan hệ thực thể (ER), thường xây dựng cho sở liệu quan hệ Một mô hình liệu ER đại diện cho sở liệu tập hợp thực thể mối quan hệ chúng Ví dụ 1.2 : Một sở liệu quan hệ cho tất thiết bị điện tử Cửa hàng All Electronics sử dụng để minh họa khái niệm suốt sách Công ty mô tả bảng quan hệ sau: khách hàng, mặt hàng, nhân viên chi nhánh Các tiêu đề bảng mô tả hiển thị Hình 1.5 (Một tiêu đề gọi lược đồ mối quan hệ.) Khách hàng quan hệ bao gồm tập hợp thuộc tính mơ tả thơng tin khách hàng, bao gồm số nhận dạng khách hàng (ID người nhận), tên khách hàng, địa chỉ, tuổi, nghề nghiệp, thu nhập hàng năm, thơng tin tín dụng danh mục Tương tự, mục quan hệ, nhân viên chi nhánh bao gồm tập hợp thuộc tính mơ tả thuộc tính thực thể Các bảng sử dụng để thể mối quan hệ nhiều thực thể Trong ví dụ chúng tơi, chúng bao gồm mua hàng (khách hàng mua mặt hàng, tạo giao dịch bán hàng xử lý nhân viên), mặt hàng bán (liệt kê mặt hàng bán giao dịch định) làm việc (nhân viên làm việc chi nhánh All Electronics) Dữ liệu quan hệ truy cập truy vấn sở liệu viết ngơn ngữ truy vấn quan hệ (ví dụ: SQL) với hỗ trợ giao diện người dùng đồ họa Một truy vấn cho chuyển thành tập hợp hoạt động quan hệ, chẳng hạn nối, chọn chiếu, sau tối ưu hóa để xử lý hiệu Một truy vấn cho phép truy xuất tập hợp cụ thể liệu Giả sử công việc bạn phân tích liệu AllElect Electronic Thơng qua việc sử dụng truy vấn quan hệ, bạn hỏi thứ như, Cung cấp cho danh sách tất mặt hàng bán quý trước Ngôn ngữ quan hệ sử dụng hàm tổng hợp sum, avg (trung bình), đếm, tối đa (tối đa ) tối thiểu (tối thiểu) Sử dụng tổng hợp cho phép bạn hỏi: Triệu Hiển thị cho tổng doanh số tháng trước, phân nhóm theo chi nhánh, có giao dịch bán hàng xảy tháng tháng 12? Kẻ hay nhân viên bán hàng có doanh số cao nhất? sở liệu, xa cách tìm kiếm xu hướng mẫu liệu Ví dụ, hệ thống khai thác liệu phân tích liệu khách hàng để dự đốn rủi ro tín dụng khách hàng dựa thu nhập, tuổi thơng tin tín dụng trước họ Các hệ thống khai thác liệu phát sai lệch, là, mặt hàng có doanh số vượt xa so với dự kiến so với năm trước Những sai lệch có sẵn thay nhãn lớp (rời rạc) Thuật ngữ dự đoán đề cập đến dự đoán số dự đốn nhãn lớp Phân tích hồi quy phương pháp thống kê thường sử dụng để dự đoán số, phương pháp khác tồn Hồi quy bao gồm việc xác định xu hướng phân phối dựa liệu có sẵn Phân loại hồi quy cần trước phân tích mức độ phù hợp, cố gắng xác định ttribution có liên quan đáng kể đến trình phân loại hồi quy Các thuộc tính chọn cho trình lassization hồi quy Các thuộc tính khác, khơng liên quan, sau loại trừ khỏi nhận thức Ví dụ 1.8 Phân loại hồi quy Giả sử người quản lý bán hàng AllElect Electronics, bạn muốn phân loại lớn mặt hàng cửa hàng, dựa ba loại phản hồi cho chiến dịch bán hàng: phản hồi tốt, phản hồi nhẹ không phản hồi Bạn muốn lấy mô hình cho ba lớp dựa mô tả mặt hàng, chẳng hạn giá cả, thương hiệu, địa điểm sản xuất, loại danh mục Việc phân loại kết nên phân biệt tối đa lớp từ người khác, trình bày hình ảnh có tổ chức tập liệu Giả sử phân loại kết thể dạng định Ví dụ, định xác định giá yếu tố phân biệt rõ ba lớp Cây tiết lộ rằng, ngồi giá cả, tính khác giúp phân biệt rõ đối tượng lớp với bao gồm thương hiệu địa điểm thực Cây định giúp bạn hiểu tác động chiến dịch bán hàng định thiết kế chiến dịch hiệu tương lai Thay vào đó, giả sử thay dự đoán nhãn phản hồi phân loại cho mặt hàng cửa hàng, bạn muốn dự đoán số tiền doanh thu mà mặt hàng tạo đợt bán hàng tới AllElectronics, dựa liệu bán hàng trước Đây ví dụ phân tích hồi quy mơ hình hồi quy xây dựng dự đoán hàm liên tục (hoặc giá trị xếp.) Chương thảo luận phân loại chi tiết Phân tích hồi quy nằm phạm vi sách Nguồn để biết thêm thông tin đưa ghi thư mục 1.4.4 Phân tích cụm: Khơng giống phân loại hồi quy, phân tích tập liệu (đào tạo) gắn nhãn lớp, phân cụm phân tích đối tượng liệu mà khơng gây khó chịu cho nhãn lớp Trong nhiều trường hợp, liệu gắn nhãn đơn giản khơng tồn từ đầu Phân cụm sử dụng để tạo nhãn lớp cho nhóm liệu Các đối tượng phân cụm nhóm dựa nguyên tắc tối đa hóa độ tương tự nội giảm thiểu độ tương tự lớp Đó là, cụm đối tượng hình thành để đối tượng cụm có độ tương tự cao so với với nhau, giống với đối tượng cụm khác Mỗi cụm hình thành xem lớp đối tượng, từ quy tắc bắt nguồn Phân cụm tạo điều kiện cho hình thành phân loại, nghĩa tổ chức quan sát thành hệ thống phân cấp nhóm nhóm kiện tương tự lại với Ví dụ 1.9 Phân tích cụm Phân tích cụm thực liệu khách hàng AllElect Electronic để xác định nhóm khách hàng đồng khách hàng Các cụm đại diện cho nhóm mục tiêu cá nhân để tiếp thị Hình 1.10 cho thấy lơ chiều khách hàng địa điểm khách hàng thành phố Ba cụm điểm liệu khả thi Phân tích cụm hình thành chủ đề Chương 10 11 1.4.5 Phân tích ngoại lệ Một tập liệu chứa đối tượng khơng tn thủ hành vi mơ hình chung liệu Những đối tượng liệu ngoại lệ Nhiều phương pháp khai thác liệu loại bỏ ngoại lệ nhiễu ngoại lệ Tuy nhiên, số ứng dụng (ví dụ: phát gian lận) gặp kiện thú vị kiện thường xuyên Phân tích liệu ngoại lệ gọi phân tích ngoại lệ khai thác bất thường Các ngoại lệ phát kiểm tra thống kê giả định mơ hình phân phối xác suất cho liệu sử dụng thước đo khoảng cách đối tượng xa cụm khác coi ngoại lệ Thay sử dụng biện pháp thống kê khoảng cách, phương pháp dựa mật độ xác định ngoại lệ khu vực địa phương, chúng trơng bình thường từ quan điểm phân phối thống kê tồn cầu Ví dụ 1.10 Phân tích ngoại lệ Phân tích ngoại lệ phát việc sử dụng thẻ tín dụng gian lận cách phát giao dịch mua số lượng lớn bất thường cho số tài khoản định so với khoản phí thơng thường phát sinh tài khoản Các giá trị ngoại lệ phát liên quan đến địa điểm loại mua, tần suất mua Phân tích ngoại lệ thảo luận Chương 12 1.4.6 Tất mẫu có thú vị khơng? Một hệ thống khai thác liệu có khả tạo hàng ngàn chí hàng triệu mơ hình quy tắc Bạn hỏi, có phải tất mẫu thú vị khơng? Thơng thường, câu trả lời khơng có phần nhỏ mẫu có khả tạo thực người dùng định quan tâm Điều đặt số câu hỏi nghiêm trọng để khai thác liệu Bạn tự hỏi, làm cho mơ hình thú vị? Một hệ thống khai thác liệu tạo tất mẫu thú vị không? Hoặc, hệ thống tạo thứ thú vị khơng? Để trả lời câu hỏi đầu tiên, mẫu thú vị (1) dễ hiểu người, (2) hợp lệ liệu thử nghiệm với mức độ chắn đó, (3) hữu ích (4) tiểu thuyết Một mơ hình thú vị xác nhận giả thuyết mà người dùng tìm cách xác nhận Một mơ hình thú vị đại diện cho kiến thức Một số biện pháp khách quan thú vị mẫu tồn Chúng dựa cấu trúc mẫu phát số liệu thống kê bên chúng Một thước đo khách quan cho quy tắc kết hợp biểu mẫu X=> Y hỗ trợ quy tắc, biểu thị tỷ lệ phần trăm tiền chuộc từ sở liệu giao dịch mà quy tắc cho thỏa mãn Đây coi xác suất P (X ∪ Y), X ∪ Y giao dịch chứa X Y, nghĩa kết hợp mục X Y Một thước đo khách quan khác cho quy tắc kết hợp độ tin cậy, đánh giá mức độ chắn hiệp hội phát Đây coi xác suất có điều kiện P (Y | X), nghĩa khả bị mà giao dịch chứa X chứa Y Chính thức hơn, hỗ trợ tự tin xác định support(X ⇒Y) = P(X ∪ Y), confidence(X ⇒Y) = P(Y|X) Nói chung, biện pháp thú vị liên kết với ngưỡng, kiểm sốt người dùng Ví dụ: quy tắc không thỏa mãn ngưỡng tin cậy 50% coi khơng thú vị Các quy tắc ngưỡng phản ánh tiếng ồn, trường hợp ngoại lệ trường hợp thiểu số có lẽ giá trị Các biện pháp thú vị khách quan khác bao gồm độ xác phạm vi bảo hiểm cho quy tắc phân loại (IF-THEN) Nói chung, độ xác cho biết tỷ lệ phần trăm liệu phân loại xác theo quy tắc Bảo hiểm tương tự hỗ trợ, cho biết tỷ lệ phần trăm liệu áp dụng quy tắc Về tính dễ hiểu, chúng tơi sử dụng biện pháp khách quan đơn giản để đánh giá độ phức tạp độ dài tính bit mẫu khai thác Mặc dù biện pháp khách quan giúp xác định mơ hình thú vị, chúng thường không đủ trừ kết hợp với biện pháp chủ quan phản ánh nhu cầu sở thích người dùng cụ thể Ví dụ: mẫu mô tả đặc điểm khách hàng mua sắm thường xuyên AllElect Electronics thú vị người quản lý tiếp thị, nhà phân tích khác nghiên cứu sở liệu mẫu hiệu suất nhân viên Hơn nữa, nhiều mẫu thú vị theo tiêu chuẩn khách quan đại diện cho lẽ thường đó, thực khơng thú vị Các biện pháp thú vị chủ quan dựa niềm tin người dùng vào liệu Các biện pháp tìm thấy mẫu thú vị mẫu bất ngờ (mâu thuẫn với niềm tin người dùng) đưa thông tin chiến lược mà người dùng hành động Trong trường hợp sau, mẫu gọi hành động Ví dụ, mơ trận động đất lớn thường xảy sau cụm trận động đất nhỏ khả thi người dùng hành động dựa thông tin để cứu sống Các mẫu mong đợi thú vị chúng xác nhận giả thuyết người dùng muốn xác thực chúng giống với linh cảm người dùng Câu hỏi thứ hai hệ thống khai thác liệu tạo tất mẫu thú vị khơng? - - đề cập đến tính hồn chỉnh thuật toán khai thác liệu Việc khai thác liệu thường không thực tế không hiệu để tạo tất mẫu Thay vào đó, hạn chế người dùng cung cấp biện pháp thú vị nên sử dụng để tập trung tìm kiếm Đối với số tác vụ khai thác, chẳng hạn liên kết, điều thường đủ để đảm bảo tính hồn chỉnh thuật toán Khai thác quy tắc kết hợp ví dụ việc sử dụng ràng buộc biện pháp thú vị đảm bảo tính hồn chỉnh khai thác Các phương pháp liên quan kiểm tra chi tiết Chương Cuối cùng, câu hỏi thứ ba, Lv - Có thể hệ thống khai thác liệu tạo mẫu thú vị không? Rất mong muốn hệ thống khai thác liệu tạo mẫu thú vị Điều hiệu cho người dùng hệ thống khai thác liệu khơng phải tìm kiếm thông qua mẫu tạo để xác định người thực thú vị Tiến thực theo hướng này; nhiên, tối ưu hóa vấn đề thách thức khai thác liệu Các biện pháp tính thú vị mẫu điều cần thiết để khám phá hiệu mẫu người dùng mục tiêu Các biện pháp sử dụng sau bước khai thác liệu để xếp hạng mẫu phát theo mức độ thú vị chúng, lọc mẫu không thú vị Quan trọng hơn, biện pháp sử dụng để hướng dẫn hạn chế trình ... 1: GIỚI THIỆU .3 1.1 Tại phải khai phá liệu 1.1.1 Tiến tới kỷ nguyên số: .3 1.1.2 Khai phá liệu phát triển công nghệ thông tin 1.2 Khai phá liệu. .. lớn thành kiến thức 1.1.2 Khai phá liệu phát triển công nghệ thơng tin Khai phá liệu xem kết phát triển tự nhiên công nghệ thông tin Cơ sở liệu quản lý liệu phát triển phát triển Một số chức quan... khám phá kiến thức từ liệu) Do đó, chúng tơi áp dụng nhìn bao quát chức khai thác liệu: Khai thác liệu trình khám phá mẫu kiến thức thú vị từ lượng lớn liệu Các nguồn liệu bao gồm sở liệu, kho liệu,