TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO CUỐI KÌ KHAI PHÁ DỮ LIỆU ĐỀ TÀI KHO DỮ LIỆU Chuyên ngành Chuyên sâu Tin học Giảng viên hướng dẫn TS LÊ CHÍ NGỌC Contents Lời mở đầ[.]
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO CUỐI KÌ KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHO DỮ LIỆU Chuyên ngành: Chuyên sâu: Tin học Giảng viên hướng dẫn: TS.LÊ CHÍ NGỌC Contents Lời mở đầu .3 Chương 1: Outlier phân tích Outlier 1.1 Điểm ngoại lai gì? 1.2 Phân loại điểm ngoại lai 1.3 Thách thức việc phát điểm ngoại lai .9 Chương 2: Phương pháp phát điểm ngoại lai 11 2.1 Các phương pháp giám sát, không giám sát bán giám sát 11 2.2 Các phương pháp thống kê, phương pháp dựa lân cận phương pháp phân cụm 13 Chương 3: Phương pháp thống kê 16 3.1 Các phương pháp tham số 16 3.2 Các phương pháp không tham số 19 Chương 4: Phương pháp tiếp cận dựa điểm lân cận 22 4.1 Phát ngoại lệ dựa khoảng cách phương pháp vòng lặp lồng 22 4.2 Phương pháp dựa lưới 24 4.3 Phát phương pháp ngoại lệ dựa mật độ 25 Chương 5: Các phương pháp phân cụm 27 Chương 6: Các phương pháp tiếp cận dựa phân loại .30 Chương 7: Khai thác theo bối cảnh ngoại lệ tập thể 33 7.1 Chuyển đổi phát ngoại cảnh theo bối cảnh sang phát ngoại lệ thông thường 33 7.2 Mơ hình hóa hành vi bình thường với tôn trọng bối cảnh 34 7.3 Khai thác ngoại lệ tập thể 35 Chương 8: Phát ngoại lệ liệu chiều cao 37 8.1 Mở rộng phát ngoại lệ thông thường 38 8.2 Tìm ngoại lệ không gian .39 8.3 Mơ hình hóa ngoại lệ có số chiều cao 39 Chương 9: Tổng kết 40 Tài liệu tham khảo: .42 Kết Luận: .43 Lời mở đầu Trong kỉ nguyên bùng nổ công nghệ nay, hoạt động người số hóa dần dần, ứng dụng sử dụng nhiều việc dùng cơng nghệ để giao dịch ví dụ ngân hàng, bên cạnh cịn nhiều ứng dụng khác Trong việc giao dịch khơng thể tránh khỏi việc có giao dịch chủ thẻ bị đánh cắp rơi mất, điều tệ nhà quản lý muốn việc mang lại cho khác hàng dịch vụ tốt nhất, mà toán xác định điểm bất thường đời vơ hữu ích để giúp khách hàng có dịch vụ tốt tránh việc khơng mong muốn xảy Trong báo cáo em tìm hiểu chủ để điểm ngoại lai sách Data mining concepts and Techniques – Jiawei Han, Micheline Kamber, Jian Pei Điểm ngoại lai vấn đề khó khai phá liệu nên q trình tìm hiều có điều sai sót mong thầy bảo thêm Em xin gửi lời cảm ơn chân thành đến TS Lê Chí Ngọc hướng dẫn em vơ tận tình Em xin chân thành cảm ơn thầy ! Đặt vấn đề: Hãy tưởng tượng bạn người kiểm sốt giao dịch cơng ty thẻ tín dụng Để bảo vệ khách hàng bạn khỏi gian lận thẻ tín dụng, bạn cần ý đến nhứng trường hợp bất thường hoạt động thẻ Ví dụ: số tiền mua lớn nhiều so với thông thường chủ sở hữu thẻ giao dịch mua nơi xa với nơi chủ thẻ thường giao dịch, việc mua hàng đáng ngờ Bạn muốn phát giao dịch chúng xảy liên hệ với chủ thẻ để xác minh Đây thực tế phổ biến nhiều cơng ty thẻ tín dụng Những kỹ thuật khai thác liệu giúp phát giao dịch đáng ngờ? Hầu hết giao dịch thẻ tín dụng bình thường Tuy nhiên, thẻ tín dụng bị đánh cắp, mơ hình giao dịch thường thay đổi đáng kể địa điểm mua hàng mặt hàng mua thường khác so với chủ sở hữu thẻ xác thực khách hàng khác Một ý tưởng thiết yếu đằng sau phát gian lận thẻ tín dụng xác định giao dịch khác so với định mức Phát ngoại lệ (còn gọi phát bất thường) trình phát đối tượng liệu với hành vi khác so với dự kiến Những đối tượng gọi ngoại lệ dị thường Phát ngoại lệ quan trọng nhiều ứng dụng phát gian lận chăm sóc y tế, an tồn an ninh công cộng, phát thiệt hại ngành, xử lý hình ảnh, giám sát mạng cảm biến / video phát xâm nhập Phát ngoại lệ phân tích phân cụm hai nhiệm vụ có liên quan cao Phân cụm - tìm mẫu đa số tập liệu xếp liệu phù hợp, phát xa cố gắng nắm bắt trường hợp đặc biệt làm sai lệch đáng kể so với mẫu đa số Phát ngoại lệ phân tích phân cụm phục vụ mục đích khác Trong chương này, nghiên cứu kỹ thuật phát ngoại lệ Mục định nghĩa loại ngoại lệ khác Mục trình bày tổng quan phương pháp phát ngoại lệ Trong phần lại chương, bạn tìm hiểu phương pháp phát ngoại lệ cách chi tiết Các cách tiếp cận này, tổ chức theo thể loại, thống kê (Mục 3), dựa vùng lân cận (Mục 4), dựa cụm (Mục 5) dựa phân loại (Mục 6) Ngồi ra, bạn tìm hiểu khai thác ngoại lệ theo ngữ cảnh tập thể (Phần 7) phát ngoại lệ liệu chiều cao (Mục 8) Chương 1: Outlier phân tích Outlier Ở chương bàn định nghĩa “Điểm ngoại lai” gì, phân loại loại “Điểm ngoại lai” khác sau thảo luậ thách thức phát ngoại lệ mức độ tổng quát 1.1 Điểm ngoại lai gì? Giả sử quy trình thống kê định sử dụng để tạo tập hợp đối tượng liệu Một ngoại lệ đối tượng liệu làm lệch đáng kể so với phần cịn lại đối tượng, thể tạo chế khác Để dễ trình bày chương này, chúng tơi đề cập đến đối tượng liệu ngoại lệ, liệu bình thường hay liệu dự kiến Tương tự vậy, gọi ngoại lệ liệu bất thường Ví dụ 1: Điểm ngoại lai Trong Hình 1, hầu hết đối tượng tuân theo phân phối Gaussian Tuy nhiên, đối tượng khu vực R có ý nghĩa khác Không chúng tuân theo phân phối giống đối tượng khác tập liệu Do đó, đối tượng R ngoại lệ tập liệu Hình Dư liệu ngoại lai khác với liệu nhiễu, nhiễu lỗi phương sai biến Ví dụ: khách hàng tạo số giao dịch nhiễu sai lệch ví dụ bữa trưa lớn ngày uống thêm ly caffe so với bình thường, giao dịch không nên coi giao dịch bất thường, điều ảnh hưởng nhiều cảnh báo khách hàng cảm thấy phiền tối cơng ty khách hàng báo động sai lệch Vì việc loại bỏ nhiễu trước phát điểm ngoại lai vô cần thiết Điểm ngoại lai thường tạo chế khơng giống phần cịn lại liệu Vì việc phát hiến ngoại lệ điều quan trọng phati chứng minh ngoại lệ phát tạo chế khác Để thực chứng ta phải đưa giả định khác phần lại liệu cho thấy ngoại lệ phát vi phạm giả định cách đáng kể Phát ngoại lệ liên quan đến phát liệu phát triển Ví dụ: cách giám sát trang web truyền thơng xã hội nơi có nội dung mới, phát tính xác định kịp thời chủ đề xu hướng Chủ đề ban đầu xuất ngoại lệ Trong phạm vi này, phát ngoại lệ phát tính có số điểm tương đồng phương pháp mơ hình hóa phát Tuy nhiên, điểm khác biệt quan trọng hai loại phát tính mới, chủ đề xác định, chúng thường đưa vào mơ hình hành vi thơng thường để trường hợp theo dõi khơng cịn coi ngoại lệ 1.2 Phân loại điểm ngoại lai Nói chung, ngoại lệ phân loại thành ba loại, ngoại lệ tồn cầu, ngoại lệ bối cảnh (hoặc có điều kiện) ngoại lệ tập thể Hãy kiểm tra loại Ngoại lệ toàn cục: Trong tập liệu định, đối tượng liệu ngoại lệ tồn cục lệch đáng kể so với phần lại tập liệu Các ngoại lệ tồn cầu đơi gọi dị thường điểm loại ngoại lệ đơn giản Hầu hết phương pháp phát ngoại lệ nhằm mục đích phát triển ngoại lệ tồn cục Ví dụ 2: Các ngoại lệ tồn cầu Hãy xem xét điểm Hình lần Các điểm khu vực R thường xuyên chệch khỏi phần lại tập liệu ví dụ ngoại lệ toàn cầu Để phát ngoại lệ toàn cầu, vấn đề quan trọng tìm phép đo độ lệch thích hợp ứng dụng đề cập Các phép đo khác cung cấp dựa phương pháp phát ngoại lệ phân chia thành loại khác Phát ngoại lệ toàn cầu quan trọng nhiều ứng dụng Ví dụ, xem xét phát xâm nhập mạng máy tính Nếu hành vi giao tiếp máy tính khác so với mẫu thơng thường (ví dụ: số lượng lớn gói phát hành thời gian ngắn), hành vi coi ngoại lệ tồn cục máy tính tương ứng nạn nhân bị nghi ngờ hack Một ví dụ khác, hệ thống kiểm toán giao dịch truyền thống, giao dịch không tuân theo quy định coi ngoại lệ toàn cầu cần tổ chức để kiểm tra thêm Ngoại lệ bối cảnh: Nhiệt độ hôm 28◦C Có phải đặc biệt (tức là, ngoại lệ) khơng? Nhưng phụ thuộc vào mùa, vào thời gian địa điểm! Nếu vào mùa đơng Toronto, ngoại lệ Nếu ngày hè Toronto, chuyện bình thường Khơng giống phát ngoại lệ toàn cục, trường hợp này, giá trị nhiệt độ ngày hơm có phải ngoại lệ hay không phụ thuộc vào bối cảnh, ngày, địa điểm số yếu tố khác Trong tập liệu định, đối tượng liệu ngoại lệ theo ngữ cảnh làm sai lệch đáng kể bối cảnh cụ thể đối tượng Các ngoại lệ theo ngữ cảnh gọi ngoại lệ có điều kiện chúng có điều kiện bối cảnh chọn Do đó, phát ngoại lệ theo ngữ cảnh, bối cảnh phải xác định cụ thể phần vấn đề Nói chung, phát ngoại lệ theo ngữ cảnh, thuộc tính đối tượng liệu đề cập chia thành hai nhóm: Thuộc tính bối cảnh: Các thuộc tính theo ngữ cảnh đối tượng liệu định nghĩa bối cảnh đối tượng Trong ví dụ nhiệt độ, thuộc tính theo ngữ cảnh ngày vị trí Các thuộc tính hành vi: Đây đặc điểm đối tượng, sử dụng để đánh giá xem đối tượng có phải ngoại lệ bối cảnh mà thuộc Trong ví dụ nhiệt độ, thuộc tính hành vi nhiệt độ, độ ẩm áp suất Khơng giống phát ngoại lệ tồn cục, phát ngoại lệ theo ngữ cảnh, việc đối tượng liệu có phải ngoại lệ hay khơng phụ thuộc vào khơng thuộc tính hành vi mà cịn thuộc tính theo ngữ cảnh Sự kết hợp giá trị thuộc tính hành vi coi ngoại lệ bối cảnh (ví dụ: 28◦C ngoại lệ cho mùa đơng Toronto), ngoại lệ bối cảnh khác (ví dụ: 28◦C khơng phải ngoại lệ cho mùa hè Toronto ) Phát ngoại lệ toàn cầu coi trường hợp đặc biệt phát ngoại cảnh theo ngữ cảnh tập hợp thuộc tính theo ngữ cảnh trống Nói cách khác, phát ngoại lệ toàn cầu sử dụng tồn tập liệu làm bối cảnh Ví dụ Các ngoại lệ theo ngữ cảnh Trong phát gian lận thẻ tín dụng, ngồi ngoại lệ tồn cầu, nhà phân tích xem xét ngoại lệ bối cảnh khác Hãy xem xét khách hàng sử dụng 90% hạn mức tín dụng họ Nếu khách hàng xem thuộc nhóm khách hàng có giới hạn tín dụng thấp, hành vi không coi ngoại lệ Tuy nhiên, hành vi tương tự khách hàng từ nhóm thu nhập cao coi ngoại lệ số dư họ thường vượt giới hạn tín dụng Những ngoại lệ dẫn đến hội kinh doanh mà việc tăng giới hạn tín dụng cho khách hàng mang lại doanh thu Chất lượng phát ngoại lệ theo ngữ cảnh ứng dụng phụ thuộc vào ý nghĩa thuộc tính theo ngữ cảnh, ngồi việc đo lường độ lệch đối tượng với đa số khơng gian thuộc tính hành vi Thường xun khơng, thuộc tính theo ngữ cảnh nên xác định chuyên gia tên miền, coi phần kiến thức đầu vào Trong nhiều ứng dụng, việc thu thập thông tin cần thiết để xác định thuộc tính theo ngữ cảnh khơng thu thập liệu thuộc tính theo ngữ cảnh chất lượng cao dễ dàng Làm hình thành bối cảnh có ý nghĩa phát ngoại lệ theo ngữ cảnh? Một phương pháp đơn giản sử dụng nhóm thuộc tính theo ngữ cảnh làm bối cảnh Tuy nhiên, điều khơng hiệu nhiều nhóm có liệu / nhiễu không cần thiết Một phương thức tổng quát sử dụng gần gũi đối tượng liệu không gian thuộc tính theo ngữ cảnh Chúng tơi thảo luận cách tiếp cận cách chi tiết Phần Ngoại lệ tập thể: Trong Hình 2, đối tượng màu đen nói chung tạo thành tập thể ngoại lệ mật độ đối tượng cao nhiều so với phần cịn lại tập liệu Tuy nhiên, đối tượng màu đen riêng lẻ ngoại lệ tồn tập liệu Hình Phát ngoại lệ tập thể có nhiều ứng dụng quan trọng Ví dụ, phát xâm nhập, gói từ chối dịch vụ từ máy tính sang máy tính khác coi bình thường hồn tồn khơng phải ngoại lệ Tuy nhiên, số máy tính tiếp tục gửi gói từ chối dịch vụ cho nhau, tồn chúng nên coi ngoại lệ phổ biến Các máy tính liên quan bị nghi ngờ bị xâm phạm cơng Một ví dụ khác, giao dịch chứng khốn hai bên coi bình thường Tuy nhiên, tập hợp lớn giao dịch cổ phiếu bên nhỏ thời gian ngắn ngoại lệ tập thể chúng chứng số người thao túng thị trường Không giống phát ngoại lệ toàn cầu theo ngữ cảnh, phát ngoại lệ tập thể, phải xem xét không hành vi đối tượng, mà đối tượng nhóm đối tượng Do đó, để phát ngoại lệ tập thể, cần có kiến thức tảng mối quan hệ đối tượng liệu khoảng cách phép đo tương tự đối tượng Tóm lại, tập liệu có nhiều loại ngoại lệ Hơn nữa, đối tượng thuộc nhiều loại ngoại lệ Trong kinh doanh, ngoại lệ khác sử dụng ứng dụng khác cho mục đích khác Phát ngoại lệ toàn cầu đơn giản Phát ngoại cảnh bối cảnh địi hỏi thơng tin để xác định thuộc tính bối cảnh theo ngữ cảnh Phát ngoại lệ tập thể địi hỏi thơng tin để mơ hình hóa mối quan hệ đối tượng với nhóm ngoại lệ 1.3 Thách thức việc phát điểm ngoại lai Phát ngoại lệ hữu ích nhiều ứng dụng phải đối mặt với nhiều thách thức sau: Mơ hình hóa đối tượng bình thường ngoại lệ cách hiệu Chất lượng phát ngoại lệ phụ thuộc nhiều vào mơ hình đối tượng ngoại lệ thơng thường (không sớm hơn) Thông thường, việc xây dựng mơ hình tồn diện cho tính quy tắc liệu khó khăn, khơng nói khơng thể Điều phần khó liệt kê tất hành vi bình thường có ứng dụng Ranh giới tính chuẩn liệu bất thường (ngoại lệ) thường không rõ ràng Thay vào đó, có phạm vi rộng khu vực màu xám Do đó, số phương thức phát bên định cho đối tượng liệu đầu vào, đặt nhãn cách bình thường thơng thường, phương thức khác gán cho đối tượng số điểm đo mức độ ngoại lệ đối tượng Ứng dụng phát ngoại lệ Về mặt kỹ thuật, việc chọn thước đo độ tương tự / khoảng cách mơ hình mối quan hệ để mơ tả đối tượng liệu quan trọng phát ngoại lệ Thật không may, lựa chọn thường phụ thuộc vào ứng dụng Các ứng dụng khác có yêu cầu khác Ví dụ, phân tích liệu phịng khám, sai lệch nhỏ đủ quan trọng để biện minh cho ngoại lệ Ngược lại, phân tích tiếp thị, đối tượng thường chịu ứng dụng lớn cần có độ lệch lớn đáng kể để biện minh cho ngoại lệ Phát ngoại lệ Phụ thuộc cao vào loại ứng dụng khiến cho phát triển phương pháp phát ngoại lệ áp dụng phổ biến Thay vào đó, phương pháp phát ngoại lệ riêng dành riêng cho ứng dụng cụ thể phải phát triển Xử lý tiếng ồn phát ngoại lệ Như đề cập trước đó, ngoại lệ khác với tiếng ồn Người ta biết chất lượng tập liệu thực có xu hướng Tiếng ồn thường khơng thể tránh khỏi tồn liệu thu thập nhiều ứng dụng Nhiễu xuất dạng độ lệch giá trị thuộc tính chí giá trị thiếu Chất lượng liệu thấp diện tiếng ồn mang lại thách thức lớn cho việc phát ngoại lệ Họ bóp méo liệu, làm mờ phân biệt đối tượng bình thường ngoại lệ Ngồi ra, tiếng ồn liệu bị thiếu che giấu ngoại lệ ốp lưng làm giảm hiệu việc phát bên Hiểu Trong số tình ứng dụng, người dùng khơng muốn phát ngoại lệ, mà hiểu đối tượng phát ngoại lệ 10 ... cận để phát ngoại lệ Chương 2: Phương pháp phát điểm ngoại lai Có nhiều phương pháp phát ngoại lệ tài liệu thực tế Ở đây, chúng tơi trình bày hai cách trực giao để phân loại phương pháp phát ngoại... pháp thống kê, phương pháp dựa lân cận phương pháp phân cụm Như thảo luận 1, phương pháp phát ngoại lệ đưa giả định ngoại lệ so với phần lại liệu Theo giả định đưa ra, phân loại phương pháp phát... thời chủ đề xu hướng Chủ đề ban đầu xuất ngoại lệ Trong phạm vi này, phát ngoại lệ phát tính có số điểm tương đồng phương pháp mơ hình hóa phát Tuy nhiên, điểm khác biệt quan trọng hai loại phát