(LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

85 3 0
(LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA CÔNG NGHỆ PHAN THỊ HỒNG THU KHÁM PHÁ TRI THỨC TRONG DỮ LIỆU KHÔNG GIAN DỰA TRÊN MẬT ĐỘ LUẬN VĂN THẠC SỸ Người hướng dẫn: TS Hoàng Xuân Huấn Hà nội - 2004 TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC LỜI NÓI ĐẦU CHƢƠNG MỘT TỔNG QUAN VỀ DATA MINING I- ĐIỀU GÌ DẪN ĐẾN KỸ THUẬT DATA MINING I 1- Nhu cầu khai thác liệu 2- Sự cho phép kỹ thuật xu thời đại II II- DATA MINING LÀ GÌ 1- Định nghĩa Data Mining 2- Các bƣớc Data Mining 10 3- Phân loại hệ thống Data Mining 11 4- Ứng dụng Data Mining 11 CHƢƠNG HAI CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU 13 I- KHÁI QUÁT VỀ PHÂN CỤM DỮ LIỆU 13 1-.Phân cụm liệu gì? 13 2-Các ứng dụng phân cụm liệu 13 3-Các vấn đề nghiên cứu phân cụm 14 4-Các yêu cầu toán phân cụm 15 II- KHÁI QUÁT VỀ CÁC PHƢƠNG PHÁP PHÂN CỤM DỮ LIỆU 17 1-Phương pháp phân hoạch (Partitioning methods) 17 2-Phương pháp phân cấp (Hirarchical methods) 22 3- Phương pháp dựa vào mật độ (Density-based Method) 23 4- Phương pháp dựa vào chia lưới (Grid-based methods) 24 III- PHƢƠNG PHÁP PHÂN CỤM DỰA VÀO MẬT ĐỘ DBSCAN 1-Cáckháiniệm 29 2- Bổ đề chứng minh tính đắn DBSCAN: 29 3- Thuật toán DBSCAN 29 CHƢƠNG BA TÌM KIẾM PHẦN TỬ NGOẠI LAI DỰA VÀO SỐ LOF 32 I- CÁC ĐỊNH NGHĨA VỀ PHẦN TỬ NGOẠI LAI ĐỊA PHƢƠNG 1-K-distance đối tượng 33 2- Lân cận bán kính k-distance đối tượng p 34 3-Khoảng cách đến đối tượng 34 4-Mật độ địa phương đến 34 Phan Thị Hồng Thu Trang TIEU LUAN MOI download : skknchat@gmail.com 5-Hệ số ngoại lai đối tƣợng ( LOF ) 35 II- TÍNH CHẤT CỦA PHẦN TỬ NGOẠI LAI 36 1- Số LOF đối tượng nằm sâu cụm gần 36 2) Cận dƣới cận LOF 37 3- Giới hạn LOF đối đượng lân cận đến trải nhiều cụm 40 II- ẢNH HƢỞNG CỦA THAM SỐ MinPts 41 1- Sự Phụ Thuộc LOF Theo Minpts 41 2- Xác Định Miền Của Minpts 43 CHƢƠNG BỐN TÌM HIỂU KINH NGHIỆM XÂY DỰNG ỨNG DỤNG DATA MINING TRONG THỰC TIỄN 46 I- CÁC PHẠM TRÙ ỨNG DỤNG DATA MINING 47 1- Khai phá liệu khám phá (Discovery data mining) 47 2- Khai phá liệu đoán trƣớc 47 II- PHƢƠNG PHÁP TỔNG QUÁT XÂY DỰNG ỨNG DỤNG 48 1- Định nghĩa vấn đề doanh nghiệp hƣớng tới 49 2- Định nghĩa mơ hình liệu 50 3- Chuẩn bị liệu nguồn 51 4- Đánh giá chất lƣợng liệu 52 5- Lựa chọn kỹ thuật Mining 53 6- Thể hiện, làm rõ đánh gía kết 54 7- Sử dụng kết 54 III – ÁP DỤNG THỰC TIỄN : 54 1- Vấn Đề Thƣơng Nghiệp 55 2- Dữ Liệu Cần Sử Dụng 57 3- Nguồn Liệu, Chuẩn Bị Dữ Liệu 61 4- Ƣớc lƣợng liệu 66 5- Phƣơng Pháp Kỹ Thuật Để Khai Phá Dữ Liệu 68 6- Trình bày kết 74 7- Triển Khai Mơ Hình 83 CHƢƠNG NĂM KẾT LUẬN VÀ ĐỀ NGHỊ 86 I- KẾT LUẬN 86 Phan Thị Hồng Thu Trang TIEU LUAN MOI download : skknchat@gmail.com II- ĐỀ XUẤT HƢỚNG PHÁT TRIỂN 87 TÀI LIỆU THAM KHẢO 88 Phan Thị Hồng Thu Trang TIEU LUAN MOI download : skknchat@gmail.com LỜI NĨI ĐẦU Triết học Á đơng nói thứ đƣợc sinh đời có “lý”, nhƣng thực tế “lý” nhiều khơng hiểu đƣợc khơng đƣợc thể tƣờng minh, xuất q ngắn ngủi khơng kịp “nhìn thấy” xuất thƣa không đủ “độ dày” để thống kê nên không chịu chấp nhận “lý” cố tình phớt lờ Một ví dụ điển hình “Hoa nở vào mùa xuân” - sao? Vì ngƣời ta thấy ( thông kê ) nhƣ – nhƣng kết luận “Hoa Cúc nở vào mùa thu” vô lý Những nhà triết học đƣa tƣ tƣởng họ vƣợt qua “Mắt thấy – tai nghe” nhà khoa học cố gắng tìm cách chứng minh điều thật Họ cố gắng tìm kiếm khơng nhìn thấy chƣa nhìn thấy Ngày với phát triển mạnh mẽ công nghệ - công nghệ sinh học công nghệ thông tin, ngƣời “nhìn xa trơng rộng” Và xu hƣớng để mở rộng “tầm nhìn” tìm kiếm chứa đựng mà có Tài sản lớn nhân loại thơng tin Thơng tin ngày đƣợc lƣu trữ nhiều hệ thống thơng tin (nội tồn cầu) – Đó Cơ sở liệu – thông tin đƣợc sử dụng tƣờng minh trực tiếp qua báo cáo thơng kê Nhƣng ngồi thơng tin cịn nói lên nhiều điều mà ngƣời có cịn chƣa thấy đƣợc Bởi vậy, việc khám phá tri thức Cơ sở liệu ( KDD – Knowledgle Discovery in Database ) nói chung Khai phá liệu (Data Mining) nói riêng đƣợc nhiều ngƣời quan tâm nghiên cứu TIEU LUAN MOI download : skknchat@gmail.com Phạm vi đề tài hệ thống hoá kết nghiên cứu Data Mining liệu nhờ phân tích dựa mật độ, đồng thời phƣơng pháp tổng quát ứng dụng Data Mining thực tiễn dựa theo kinh nghiệm IBM áp dụng thực tiễn điển hình tốn dự đốn khuấy động “Dự đốn khách hàng rời bỏ Cơng ty viễn thơng” Ngồi phần mở đầu, kết luận, luận văn đƣợc chia thành chƣơng sau: Chƣơng 1: Giới thiệu khái niệm bản, trình hình thành phát triển, bƣớc kỹ thuật, cách phân loại ứng dụng Data mining Chƣơng : Giới thiệu tổng quan phƣơng pháp phân cụm liệu thuật toán phân cụm liệu điển hình đồng thời trình bày chi tiết thuật tốn DBSCAN Chƣơng : Trình bày kết lý thuyết đánh giá phần tử ngoại lai dựa vào số LOF đƣa định nghĩa chặt chẽ phần tử ngoại lai xem xét đối tƣợng tập liệu dựa mật độ theo cách nhìn địa phƣơng Trình bày cấp độ ngoại lai tính chất đối tƣợng Chƣơng 4: Trình bày kinh nghiệm ứng dụng kỹ thuật Data Mining thực tiễn IBM xem xét khía cạnh ứng dụng dự đoán khuấy động IBM thực cho công ty Viễn thông giới Trong q trình thực đề tài, tơi cố gắng nhiều, nhƣng lần làm quen với kỹ thuật Data Mining, thời gian có hạn, thân tơi gặp phải khó khăn sức khoẻ nên kết đạt đƣợc không tránh khỏi khiếm khuyết Kính mong đƣợc góp ý quý Thầy Cô bạn đồng nghiệp Tp Hồ chí Minh, Tháng năm 2004 PHAN THỊ HỒNG THU Phan Thị Hồng Thu Trang TIEU LUAN MOI download : skknchat@gmail.com CHƢƠNG MỘT TỔNG QUAN VỀ DATA MINING I- ĐIỀU GÌ DẪN ĐẾN KỸ THUẬT DATA MINING Data Mining đƣợc bắt nguồn từ lĩnh vực: Hoc máy, kỹ thuật nhận dạng, thống kê, sở liệu trực quan hoá, nhằm hƣớng tới vấn đề trích thơng tin từ sở liệu lớn nhằm hỗ trợ dự đoán định Mặc dù với phƣơng pháp kỹ thuật truyền thống tạo điều kiện để Data Mining phát triển mạnh với lý đơn giản phƣơng pháp truyền thống đáp ứng nhu cầu thời gian thực Một trùng hợp tuyệt vời kéo theo phát triển Data Mining chinh gặp gỡ hai yếu tố: 1- Nhu cầu khai thác liệu doanh nghiệp: Môi trƣờng doanh nghiệp thay đổi quan tâm nhà quản lý 2- Sự cho phép phƣơng tiện thực nó: Chính phát triển mặt kỹ thuật Công nghệ thông tin 1- Nhu cầu khai thác liệu Xã hội nói xã hội thơng tin, doanh nghiệp hay tổ chức, lƣợng thông tin ngày chồng chất đƣợc tích luỹ với tốc độ bùng nổ Mỗi chuyên viên hay cán quản lý bị ngập đầu Phan Thị Hồng Thu Trang TIEU LUAN MOI download : skknchat@gmail.com liệu với sức ép phải đƣa định dựa phán đoán theo thơng tin có doanh nghiệp hay tổ chức Xã hội phát triển, chu kỳ sống sản phẩm ngắn ngủi điều có nghĩa mức độ cạnh tranh cao, sống doanh nghiệp phụ thuộc vào đinh sáng suốt có tinh chiến lƣợc, mà đinh đắn phải dựa tảng thông tin dự đoán Những nhà quản trị doanh nghiệp thấy rõ thơng tin dự đốn mang lại lợi ích vô to lớn cho doanh nghiệp họ - điều thúc đẩy họ sẵn sàng bỏ chi phí cho việc phát triển Data Mining 2- Sự cho phép kỹ thuật xu thời đại Hơn 40 năm Công nghệ thông tin dẫn tới việc tồn kho liệu khổng lồ đƣợc lƣu hệ thống máy tính (tính gigabytes tetabytes ) Xu hƣớng giải pháp công nghệ thông tin lƣu trữ thông tin tập trung hệ thống máy chủ ngày mạnh, kể liệu phủ, tổ chức lợi nhuận phi lợi nhuận đến doanh nghiệp ngồi cịn nhiều thơng tin tải website Cơ sở liệu dùng chung Những giải thuật đƣợc sản sinh từ trƣờng Đại học trung tâm nghiên cứu ngày đƣợc chuyển tới ứng dụng vào đời sống xã hôi liên kết ngày tăng Các trƣờng Đại học, trung tâm nghiên cứu với mơi trƣờng thƣơng mại Cơng nghệ tính tốn song song phát triển thuật toán phức tạp cộng thêm sức mạnh ngày vƣợt trội máy tính cá nhân cho phép thể trực quan hình ảnh thơng tin trừu tƣợng chìa khố để mở cửa cho Data Mining II- DATA MINING LÀ GÌ 1- Định nghĩa Data Mining Data Mining đƣợc hiểu nhƣ tiến trình nhằm mục tiêu dự đốn kiến thức có khả hữu dụng tối thiểu hiểu đƣợc liệu Phan Thị Hồng Thu Trang TIEU LUAN MOI download : skknchat@gmail.com Có nhiều định nghĩa Data Mining, tạm thời ta hiểu Data mining nhƣ công nghệ tri thức giúp ta khai thác thơng tin hữu ích từ kho lƣu trữ liệu có hệ thống công nghệ thông tin Dƣới số định nghĩa ấy: “Data Mining thăm dò trích thơng tin hữu ích khơng biêt trƣớc tiềm ẩn sở liệu lớn” Hoặc: “Data Mining trình khai thác, khám phá tri thức hữu ích, tiềm ẩn mang tính dự báo từ tập liệu lớn” Data Mining đƣợc phát triển khoảng 10 năm trở lại đây, nhƣng nguồn gốc đƣợc thấy trí tuệ nhân tạo hình thành từ năm 1950 Trong thời kỳ việc phát triển kỹ thuật nhận dạng đặt tảng sở lý luận cho đời phát triển Data Mining Nhiều kỹ thuật Data Mining thực chất đƣợc sử dụng suốt thời kỳ nhƣng chủ yếu ứng dụng với toán khoa học Phan Thị Hồng Thu Trang TIEU LUAN MOI download : skknchat@gmail.com Với đời Cơ sở liệu quan hệ khả lƣu trữ kho liệu lớn cầu nối kỹ thuật ứng dụng cho tốn khoa học áp dụng môi trƣờng thƣơng mại Và điều khẳng định chắn rằng: Data mining tách rời kỹ thuật, công nghệ giải pháp Công nghệ thơng tin 2- Các bƣớc Data Mining Có thể phân chia kỹ thuật Data mining thành bƣớc sau đây: a) Tích hợp liệu (data integration): Quá trình hợp liệu thành kho liệu (data warehouses & data marts) sau làm tiền xử lý (data cleaning & preprocessing) b) Trích chọn liệu (data selection): Trích chọn liệu từ kho liệu sau chuyển đổi dạng thích hợp cho q trình khai thác tri thức Q trình bao gồm việc xử lý với liệu nhiễu (noisy data), liệu không đầy đủ (incomplete data), v.v c) Khai thác liệu (data mining): tìm kiếm, khám phá tri thức từ liệu đƣợc trích chọn bƣớc hai Bƣớc – tuỳ theo toán – áp dụng kỹ thuật khác mà làm quen phần sau d) Đánh giá diễn biến tri thức (knowledge evaluation & presentation): Đánh giá biểu diễn tri thức vừa khai thác đƣợc bƣớc ba sang dạng gần gũi với ngƣời dùng để sẵn sàng cho việc sử dụng 3- Phân loại hệ thống Data Mining Data Mining công nghệ tri thức liên quan đến nhiều lĩnh vực nghiên cứu khác nhƣ sở liệu, học máy (machine learning), giải thuật trực quan hố v.v Chúng ta phân loại hệ thống Data Mining dựa tiêu chí khác sau : Phan Thị Hồng Thu Trang TIEU LUAN MOI download : skknchat@gmail.com o Quản lý danh sách khách hàng xếp theo thang điểm dự đốn khuấy động chia thành đoạn (ví dụ 10 đoạn) o Tính tốn tỉ lệ ngƣời khuấy động thật đoạn o Phác họa phần trăm ngƣời khuấy động tiềm ẩn thực tế đoạn o So sánh tính tốn mơ hình với mơ hình ngẫu nhiên Một mơ hình ngẫu nhiên, nghĩa khách hàng đƣợc chọn ngẫu nhiên từ đoạn, theo lý thuyết 10% số ngƣời khuấy động nằm đoạn có 10 đoạn Tất nhiên mơ hình tốt đƣợc cho mơ hình giả định xếp tất ngƣời khuấy động vào đoạn hay đoạn có ý nghĩa mục đích tiếp thị Ý tƣởng ƣớc lƣợng mơ hình so sánh với bảng dự đốn ngƣời khuấy động phát sinh mơ hình tiêu chuẩn mà có Ví dụ nhƣ biết khách hàng mà hợp đồng hết có nhiều khả ngừng cộng tác với Cơng ty Do đó, thời hạn hết hiệu lực hợp đồng tiêu chuẩn sử dụng xếp danh sách ngƣời khuấy động lấy kết so sánh với danh sách mơ hình khai phá liệu Nếu khơng có liệu biến nhƣ thời hạn hết hiệu hợp đồng, danh sách ngƣời khuấy động chọn ngẫu nhiên đƣợc dùng để so sánh 6) Trình bày kết Trong phần trƣớc, xem xét bƣớc theo để có đƣợc kết khai phá cách sử dụng phƣơng pháp khai phá dự đoán khác Bƣớc phƣơng pháp khai phá giải thích kết thu đƣợc xác định cách để hƣớng chúng vào công việc kinh doanh Khi lần đƣơng đầu với kết này, câu hỏi đƣợc đặt “tất điều có ý nghĩa gì? ” Trong phần này, diễn tả cách để hiểu giải thích kết dựa theo phƣơng pháp khác a) Giải Thích Kết Quả Nhờ Vào Viễn Cảnh Kinh Doanh: Phan Thị Hồng Thu Trang 67 TIEU LUAN MOI download : skknchat@gmail.com Mơ hình đƣợc xây dựng nhờ thƣ mục RBF, mạng dự đoán Nơron sau mơ hình đƣợc so sánh biểu đồ lợi ích Trong phần tiếp theo, nhìn nhận chi tiết từ viễn cảnh kinh doanh Cây thƣ mục: Cây thƣ mục đƣa mơ hình với ma trận lẫn lộn để xem kết mơ hình nhƣ hình 19 Trong trƣờng hợp này, toàn lỗi chiếm 26,12% điều nghĩa là: o Trong 1053 khách hàng ngƣời khuấy động; 523 ngƣời đƣợc phân loại xác 530 cịn lại khơng o Trong 2967 khách hàng ngƣời khuấy động: 2447 đƣợc phân loại xác 520 ngƣời cịn lại khơng o Trong 4020 khách hàng : 1050 khánh hàng bị phân loại sai Chúng ta thực nhiều lần tiến trình để cải tiến tỉ lệ lỗi mơ hình cách sử dụng nhiều chọn lựa khác mơ hình liệu khuấy động để xây dựng kiểm tra sử dụng cột liệu kiểm tra Một tỉ lệ lỗi chấp nhận đƣợc đƣợc định cách xác minh mơ hình với cột liệu kiểm tra khác để xem tỉ lệ lỗi có ổn định hay Phan Thị Hồng Thu Trang 68 TIEU LUAN MOI download : skknchat@gmail.com không thông qua môi trƣờng kinh doanh ví dụ nhƣ tỉ lệ khuấy động khả chƣơng trình tiếp thị Trƣờng hợp này, tỉ lệ khuấy động thực tế thấp 5% nhƣ thấy độ xác mơ hình 74%, độ xác số ngƣời khuấy động lên tới 50%(1053 có kết trái ngƣợc với 523) Sử dụng cột liệu kiểm tra, tỉ lệ lỗi tăng lên từ từ Tuy nhiên, nhịp độ lỗi ổn định nhiều cột liệu kiểm tra Kết đồ thị mơ hình đƣợc biểu diễn hình 20 Cây đỉnh mở rộng cành đạt đƣợc kết phân loại tối ƣu Có lúc tầng dƣới tiến tới mức độ tối ƣu chia khách hàng theo qui tắc Thơng qua q trình trực quan hóa Cây thƣ mục, thấy cách phân loại cho nút biến liệu quan trọng để xây dựng qui tắc Nhƣ thấy hình 5-6 OUTSPHERE đƣợc coi nhƣ biến liệu quan trọng sau HANDSET, CUSTOMER RATEv.v…., Bởi liệu biến xuất nhiều phần đầu Bây nhƣ ví dụ xem xét Phan Thị Hồng Thu Trang 69 TIEU LUAN MOI download : skknchat@gmail.com nút đƣợc xếp nhƣ ngƣời khơng khuấy động nhƣ hình theo qui ƣớc đƣợc trình bày ngƣời khách hàng mà: o Sử dụng nhiều số lƣợng số điện thoại dùng để gọi máy khác (OUTSPHERE) o Sử dụng kiểu máy điện thoại cũ (HANDSET) o Hoặc khơng có thời hạn giao ƣớc hợp đồng từ đầu hợp đồng chƣa hết hạn (CONTRACT-DUR) o Có tỉ lệ gọi thành cơng cao (CALL QUALITY) Nút có 81,3% khiết Chúng ta xem nút HANDSET cây, chúng khơng có cành mà hầu hết ngƣời khơng khuấy động rẽ nút Đây khách hàng nhiều số điện thoại gọi máy điện thoại họ loại (HANDSET), có lẻ họ tiếp tục cộng tác với công ty Qui định có 91,6% khiết Cây thƣ mục cho ngƣời khuấy động đƣợc nhƣ ví dụ hình 22: Phan Thị Hồng Thu Trang 70 TIEU LUAN MOI download : skknchat@gmail.com o Theo qui luật trình bày, khách hàng mà qui định giống với khách hàng không khuấy động ngoại trừ khác biệt sau:thấp trung bình o Khơng có nhiều gọi khơng tính khung thời gian, đêm, ngày lễ đặc biệt khơng tính khung thời gian tron ngày Họ trẻ (từ 20 - 20), hay già (70 - 80) o Tỉ lệ gọi thành công Độ khiết nút 36,7% Cần đƣợc điều tra kỹ nhằm tìm gọi khơng tính cƣớc so với tổng số gọi có liên hệ tới khuấy động khách hàng đặc biệt giới trẻ Trong trƣờng hợp này, Cơng ty có gọi khơng tính cƣớc cho giới trẻ khung thời gian đó, điều có ý nghĩa kinh tế công cạnh tranh thƣơng mại vậy, khách hàng không sử dụng Phan Thị Hồng Thu Trang 71 TIEU LUAN MOI download : skknchat@gmail.com nhiều gọi khơng tính cƣớc khung thời gian kế họach miễn cƣớc đặc biệt này, cải tiến vơ hiệu Hơn nữa, họ lại sử dụng máy điện thoại cũ, chất lƣợng gọi không tốt điều khiến họ ngừng công tác với Công ty thời hạn hợp đồng chƣa kết thúc Đây kết Chúng ta tìm thấy qui định khác chống khuấy động phần cây, diễn giải khách hàng sử dụng mẫu điện thoại cũ hợp đồng hết hạn Điều độ khuấy động khách hàng, phần trăm khiết nút 48% Chúng ta nghiên cứu phần bên phải phần bên trái có nhiều liệu biến hầu nhƣ liên quan tới ngƣời sử dụng Nếu khách hàng khơng sử dụng điện thoại nhiều, họ có khả rời Cơng ty cao Nếu tìm đƣợc nhiều biến có ƣu từ viễn cảnh tiếp thị để độ viễn cảnh khách hàng từ tận dụng liệu biến mơ hình dự đốn Trƣờng hợp này, loại máy loại mơ hình đảm nhiệm q trình RBF Bằng cách sử dụng RBF chia kết thành miền hay “quantiles” Để có nhìn “quantiles” khách hàng đƣợc đặt dựa theo giá trị dự đoán phân chia “quantiles” kết dự đốn Ví dụ nhƣ, dãy hình 23 thơng tin thống kê “bivariate” số 2% kết dự đoán, dãy cuối 2% cuối kết dự đoán Nếu so sánh “quantiles” nhau, có ý tƣởng đặc điểm cá nhân khác ngƣời khuấy động ngƣời khơng khuấy động mơ hình sử dụng Xem xét chi tiết ”quantiles” 98-100%, hình 24, điểm tƣợng trƣng cho khách hàng mà: o Có tỉ lệ gọi thành cơng thấp (CALL QUALITY) Phan Thị Hồng Thu Trang 72 TIEU LUAN MOI download : skknchat@gmail.com o Đƣờng dây giống nhƣ khơng cịn họat động hay bị đình (STATUS) o Giảm xu hƣớng gọi tháng gần (CALL-TREND) o Sử dụng tới 40-50% gọi miễn cƣớc tổng số gọi (DISCOUT-RATE) o Sử dụng số điện thoại gọi đi(OUTSPHERE) o Đặc biệt, dùng loại máy cũ Chúng ta thấy liệu biến khác mục đích để hiểu dấu hiệu 2% đầu dự đốn mơ hình RBF nhƣ CUSTOMER_RATE, PAY_METHOD, AGE, SVC_NOFREE, TOTAL_DUR, GENDER, TENURE, AGENT, giới tính (GENDER) đƣợc sử dụng làm liệu biến bổ sung diễn tả nhóm khách hàng khơng phải liệu biến sử dụng cho RBF hình 24 “quatiles’ từ 0-2% nhận ngƣời không khuấy động Phan Thị Hồng Thu Trang 73 TIEU LUAN MOI download : skknchat@gmail.com Những khách hàng có tỉ lệ cao (CUSTOMER_RATE) sử dụng mẫu điện thoại (HANDSET), có khả sử dụng điện thoại (TOTAL_DUR), phần đa nam, thời hạn hợp đồng 26 tháng có tỉ lệ thành công cao Sau kiểm tra mẫu sử dụng RBF, xác minh chất lƣợng mẫu cột liệu kiểm tra Chúng ta thấy liệu biến đƣợc so sánh với hình dƣới đây: Kiểm tra mạng lƣới Nơron: Kết dự đoán Nơron cho kết giống nhƣ RBF, kết mà khung cảnh “quantiles” dựa vào kết dự đốn Cách sử dụng mơ hình cây, ví dụ nhƣ, phần dƣới 10% khách hàng phụ thuộc vào giá trị dự đoán để nhận diện đặc điểm ngƣời không khuấy động b) So Sánh Cách Trình Bày: Bây giờ, sử dụng dự đốn thƣ mục, RBF mạng Nơron động khách hàng Chúng ta nhìn thấy kết nhờ phƣơng pháp cho chiến dịch trì Tính xác mơ hình , nói cách khác khả dự đoán Phan Thị Hồng Thu Trang 74 TIEU LUAN MOI download : skknchat@gmail.com nhân tố quan trọng cho việc triển khai giai đoạn thực tế Chúng ta có tự tin mơ hình dự đốn khách hàng dự định rời hay không ? Chúng ta cần so sánh thực mơ hình chọn tốt Chúng ta so sánh giá trị thân biểu đồ lợi ích điều hành chiến dịch kiểm tra dựa vào danh sách khách hàng đƣa mơ hình Dựa vào biểu đồ lợi ích Dƣới biểu đồ lợi ích để ƣớc lƣợng mơ hình Biểu đồ hàm ý nội dung sau: Nếu chọn ngẫu nhiên 10% khách hàng nhƣ khách hàng mục đích cho chiến dịch (biểu thị dòng sở màu trắng) , sau tiến tới xác 10% ngƣời khuấy động tƣơng lai o Nếu chọn 10% khách hàng dựa vào mơ hình nhƣ khách hàng đích (biểu diễn dịng màu đen từ xuống), Sau có xác 30% ngƣời khuấy động tƣơng lai Phan Thị Hồng Thu Trang 75 TIEU LUAN MOI download : skknchat@gmail.com o Riêng mơ hình dự đốn RBF Nơron có 25% ngƣời khuấy động tƣơng lai Dựa vào biểu đồ lợi ích, mơ hình thƣ mục biểu diễn RBF Tuy nhiên, có đánh giá kỹ thuật dựa vào liệu trƣớc khơng đổi để ƣớc lƣợng độ xác mơ hình cho việc triển khai chắn Dựa vào chiến dịch thử nghiệm Việc thực dự đoán thực tế đƣợc ƣớc lƣợng dễ dàng Thông qua chiến dịch thử nghiệm, xem mơ hình dự đốn chiến dịch trì có hỗ trợ để đạt hiệu hay không? chiến dịch thử nghiệm đƣợc thực nhờ vào danh sách khách hàng đƣa mơ hình mà có xác xuất rơi khoảng số Bảng sau trƣờng hợp đƣợc ƣớc lƣợng tính tốn mơ hình đƣợc ƣớc lƣợng dựa vào chiến dịch thử nghiệm 7) Triển Khai Mơ Hình Bƣớc bƣớc cuối phƣơng pháp khai phá liệu có lẽ bƣớc quan trọng Làm cách ứng dụng kết khai phá vào thƣơng nghiệp hay chuyên hóa mục đích thƣơng mại mà cơng khai phá liệu đòi hỏi? lý việc khai phá liệu thƣờng đƣợc xem nhƣ công cụ phân tích vơ quan trọng giúp ta có nhìn tồn diện cơng việc kinh doanh, nhƣng khó để ứng dụng trọn vẹn vào hệ thống thực Trong phần này, giải thích cách mà phƣơng pháp khai phá đƣợc Phan Thị Hồng Thu Trang 76 TIEU LUAN MOI download : skknchat@gmail.com đề cập ứng dụng vào công việc kinh doanh trở thành chìa khóa thành cơng suốt tiến trình quản lý khuấy động a) Ứng Dụng Mơ Hình Trong Nhiều Cách Khác Nhau: Sử dụng IM hay cách tính điểm khai phá DB2, ứng dụng tồn mơ hình dự đốn khuấy động cho tất khách hàng dựa vào số điểm khuấy động khách hàng Khi có điểm số khuấy động dựa vào toàn danh sách khách hàng, tận dụng điểm số ứng dụng khác nhƣ: o Trung tâm liên lạc: mơi giới trung gian có nhiều thơng tin khách hàng bao gồm điểm khuấy động họ tiếp xúc với khách hàng o Tiếp thị: nhân viên phân tích xa nhờ cơng cụ phù hợp OLAP bảng biểu Phân tích sử dụng kết dự đốn (điểm khuấy động) nhằm đƣa nhìn tổng thể cho nhân viên tiếp thị để hiểu lý khách hàng rời khỏi công ty xây dựng chiến dịch chuyển đổi lý khuấy động trƣớc khách hàng định ngừng cộng tác (đồng thời, có khách hàng có khả khuấy động cao giá trị khách hàng thấp, tính tốn trƣớc hóa đơn khách hàng theo ngày trƣớc họ tới văn phịng để hỗn việc đóng tiền, giảm thời gian giao tiếp nhờ vào hóa đơn tính trƣớc ) b) Ứng Dụng Mơ Hình Vào Tiến Trình Duy Trì Chiến Dịch Chúng ta tận dụng danh sách có khả khuấy động với bảng giá trị khách hàng ngăn ngừa khách hàng khuấy động Chiến dịch trì gồm nhiều bƣớc kết khai phá đóng vai trị quan trọng bƣớc c) Duy Trì Mơ Hình: Q trình thực mơ hình tiến hành song song với việc giảm chức mơ hình sau thời gian Khi bắt đầu thi hành chiến dịch trì dựa vào mơ hình dự đốn khuấy động vài khách hàng thay đổi thay rời lại Chiến dịch trì có khả ảnh hƣởng tới hành động khách hàng mơi trƣờng tiếp thị thay đổi, nhƣ thay đổi đặn chiến dịch phủ, mơ hình dự đốn khuấy động nên đƣợc nâng cấp Phan Thị Hồng Thu Trang 77 TIEU LUAN MOI download : skknchat@gmail.com để phù hợp với thay đổi trình thực lần dự đốn khuấy động khơng phải kiện đơn lẻ; tiến trình công ty Khi dự định nâng cấp mô hình, ý điểm sau: o Xem xét khoảng thời gian đứt quãng: nhân viên tiếp thị cần nhiều thời gian để thiết kế chiến dịch, khoảng thời gian đứt quãng dài cần thiết cho mơ hình o Xem xét liệu biến sử dụng: bổ sung thêm liệu biến nhƣ dịch vụ mới, chiến dịch liên quan đến liệu biến o Xem xét phƣơng pháp sử dụng: ƣớc lƣợng khả thực mơ hình Xem lại giả thiết đề định nghĩa khuấy động, lọc, điều chỉnh chiến dịch Công ty    Phan Thị Hồng Thu Trang 78 TIEU LUAN MOI download : skknchat@gmail.com CHƢƠNG NĂM KẾT LUẬN VÀ ĐỀ NGHỊ I- KẾT LUẬN Hiện với phát triển bùng nổ CNTT, Cơ sở liệu số hoá ngày tăng số lƣợng độ lớn Những sở liệu cung cấp thơng tin thống kê, hỗ trợ tìm kiếm chi tiết hữu ích cho hoạt động Doanh nghiệp tổ chức xã hội thời điểm định Mặc dù thông tin ẩn dấu Cơ sở liệu nhiều thông tin quý báu cho việc hoạch định chiến lƣợc, tìm kiếm khả … Vì vậy, kỹ thuật khai phá liệu chìa khố vàng mở cửa vào kho báu vô tận thông tin đem lại cho loài ngƣời kiến thức phục vụ cho phát triển trƣớc mắt tƣơng lai Luận văn tập trung trình bày tổng quát khai phá liệu, số phƣơng pháp phân cụm, phƣơng pháp tìm kiếm phần tử ngoại lai dựa vào số LOF, đồng thời tìm hiểu phƣơng pháp cài đặt ứng dụng khai phá liệu thực tiễn công ty máy tính số giới IBM với hệ quản trị Cơ sở liệu DB2 Với hai cách tiếp cận tách biệt lý thuyết thực tiễn thấy Data Mining lĩnh vực đƣợc phát triển năm gần đây, nhƣng nhƣ thân ngành Cơng nghệ thơng tin, đƣợc phát triển nhanh đƣợc ứng dụng vào nhiều lĩnh vực xã hội nƣớc tiên tiến Tuy việc đƣa vào ứng dụng nƣớc ta nói gần nhƣ chƣa có, vài nguyên nhân chủ yếu nhƣ: + Nhu cầu dự đoán doanh nghiệp nƣớc ta chƣa có + Bản thân việc đƣa ứng dụng Data Mining vào môi trƣờng doanh nghiệp tốn khó mà trình độ nhân viên chƣa đạt yêu cầu Phan Thị Hồng Thu Trang 79 TIEU LUAN MOI download : skknchat@gmail.com + Chƣa có liên kết chặt chẽ Doanh nghiệp quan nghiên cứu ( Các Viện Trƣờng Đại học ) Những điều phần nói lên lạc hậu xa cách lý thuyết thực tiễn ngành Công nghệ thông tin nƣớc nhà II- ĐỀ XUẤT HƢỚNG PHÁT TRIỂN Đề tài có hai hƣớng cần phát triển tiếp theo: 1- Hƣớng thực nghiệm : Phát triển ứng dụng sử dụng kỹ thuật Data Mining tích hợp với ứng dụng thống kê sẵn có thực tiễn nƣớc ta 2- Hƣớng lý thuyết Thứ cách mơ tả giải thích việc xác định phần tử ngoại lai trƣờng hợp ngoại lệ Điều đặc biệt quan trọng với tập liệu có số chiều lớn, phần tử ngoại lai cục ngoại lai số nhƣng tất chiều Thứ hai cải tiến cách thực tính tốn số LOF để từ sinh thuật tốn cung cấp thơng tin chi tiết phần tử ngoại lai từ vùng liên quan    Phan Thị Hồng Thu Trang 80 TIEU LUAN MOI download : skknchat@gmail.com TÀI LIỆU THAM KHẢO IBM : Intelligent Miner for Data, June 1999 IBM : Mining your own business in Banking, August 2001 IBM : Mining Your Own Business in HealthCare, September 2001 IBM : Mining your own business in Retail, August 2001 IBM : DataMining Advanced dataMining Functions, December 2002 IBM : Intelligent Miner for Data Application Guide, March 1999 IBM : Mining your own business in Telecoms, September 2001 E M Knonr, Outlier and data mining : Finding exceptions in data, octral Thesis, University of British Colombia, 2002 Henmeburg A, Kein D.A, An efficient aproach to clustering in large multimedia databse with noise, Proc 4th Int Conf on Knowledge discovery and data mining, New Year City, 1990, 224-288 10 J Han & M Kamber, Data mining : Concepts and techniques, Academic press, 2001 11 M May & A Savinov, An intergated for spatral data mining and intertrative visual analisys, Third international conference on data mining, 2002, 51-61 12 M M Breunig, H P Kriegel,…, LOF : Indentifying density based local outliers, Proc of Int Conf on Management of data, Dallas, 2000 13 M Ankerbt (et all), OPTICS : ordering to indentify the clustering structure,, Proc ACM SIGMOD’99 Int Conf on Management of data, Philadenphia, 1999 14 P Adrians, D Zantriage, Dta mining, Addison Wesley Lanyman, 1996 15 Tian Zhang (et all), BIRCH : An efficient data clustering method for very large database, SIGMOD’96, Canada, 1996, 103-115 16 U M Fayyad,…, Advanced in knowledge discovery in database, MIT Press, 1996 - Phan Thị Hồng Thu Trang 81 TIEU LUAN MOI download : skknchat@gmail.com ... - Khai phá liệu khám phá - Khai phá liệu đoán trƣớc 1- Khai phá liệu khám phá (Discovery data mining) Khai phá liệu khám phá phạm trù kỹ thuật tìm mẫu liệu bên kho liệu mà khơng có kiến thức truớc... phƣơng pháp đầu tỏ hiệu trƣờng hợp sở liệu có chứa nhiễu Ở ta trình bày phƣơng pháp để hạn chế điều nói Đó phƣơng pháp phân cụm dựa vào mật độ DBSCAN III- PHƢƠNG PHÁP PHÂN CỤM DỰA VÀO MẬT ĐỘ DBSCAN... 55 2- Dữ Liệu Cần Sử Dụng 57 3- Nguồn Liệu, Chuẩn Bị Dữ Liệu 61 4- Ƣớc lƣợng liệu 66 5- Phƣơng Pháp Kỹ Thuật Để Khai Phá Dữ Liệu 68 6- Trình bày kết 74 7- Tri? ??n

Ngày đăng: 27/06/2022, 15:39

Hình ảnh liên quan

Hình 5 minh họa bốn trƣờng hợp. Mỗi lần một sự phân chia xảy ra, một sự khác nhau trong E bình phƣơng lỗi đƣợc góp phần vào hàm giá - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

Hình 5.

minh họa bốn trƣờng hợp. Mỗi lần một sự phân chia xảy ra, một sự khác nhau trong E bình phƣơng lỗi đƣợc góp phần vào hàm giá Xem tại trang 20 của tài liệu.
Đồ thị trên hình 7 biểu diễn đƣờng cong của tỷ lệ ( LOFmax- - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

th.

ị trên hình 7 biểu diễn đƣờng cong của tỷ lệ ( LOFmax- Xem tại trang 38 của tài liệu.
Bước 2: Định nghĩa mô hình và yêu cầu dữ liệu - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

c.

2: Định nghĩa mô hình và yêu cầu dữ liệu Xem tại trang 46 của tài liệu.
Những bƣớc này đƣợc mô tả ( mở rộn g) bởi hình 11 dƣới đây: - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

h.

ững bƣớc này đƣợc mô tả ( mở rộn g) bởi hình 11 dƣới đây: Xem tại trang 47 của tài liệu.
Đa số dữ liệu trong thực tế đƣợc lƣu trữ trong một tệp hoặc một bảng trong cơ sở dữ liệu quan hệ - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

a.

số dữ liệu trong thực tế đƣợc lƣu trữ trong một tệp hoặc một bảng trong cơ sở dữ liệu quan hệ Xem tại trang 49 của tài liệu.
Lợi thế của việc sử dụng mô hình dữ liệu dùng chung trong khai phá dữ liệu là nó cho ta một cách tốt nhất để làm sao có thể sử dụng Khai phá dữ liệu  cho doanh nghiệp hay tổ chức - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

i.

thế của việc sử dụng mô hình dữ liệu dùng chung trong khai phá dữ liệu là nó cho ta một cách tốt nhất để làm sao có thể sử dụng Khai phá dữ liệu cho doanh nghiệp hay tổ chức Xem tại trang 49 của tài liệu.
Ví dụ về những phần không có giá trị, nhƣ chúng ta có thể thấy trong hình 16,    giới  tính,  N,  phƣơng  thức  trả  là  những  dữ  liệu  vô  nghĩa - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

d.

ụ về những phần không có giá trị, nhƣ chúng ta có thể thấy trong hình 16, giới tính, N, phƣơng thức trả là những dữ liệu vô nghĩa Xem tại trang 64 của tài liệu.
Trong hình 17 những dữ liệu xuất hiện trong hình đƣa ra đặc điểm khác biệt cơ bản đối chiếu với chính nó trong dữ liệu khuấy động - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

rong.

hình 17 những dữ liệu xuất hiện trong hình đƣa ra đặc điểm khác biệt cơ bản đối chiếu với chính nó trong dữ liệu khuấy động Xem tại trang 65 của tài liệu.
Khi sử dụng mô hình dự đoán, những mô hình này đƣợc phát triển dựa vào thông tin toàn bộ khách hàng hay chỉ dựa vào vài mảng đặc biệt - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

hi.

sử dụng mô hình dự đoán, những mô hình này đƣợc phát triển dựa vào thông tin toàn bộ khách hàng hay chỉ dựa vào vài mảng đặc biệt Xem tại trang 68 của tài liệu.
Mô hình đƣợc xây dựng nhờ cây thƣ mục RBF, mạng dự đoán Nơron và sau  đó  mô  hình  đƣợc  so  sánh  bằng  các  biểu  đồ  lợi  ích - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

h.

ình đƣợc xây dựng nhờ cây thƣ mục RBF, mạng dự đoán Nơron và sau đó mô hình đƣợc so sánh bằng các biểu đồ lợi ích Xem tại trang 72 của tài liệu.
Kết quả đồ thị của mô hình cây đƣợc biểu diễ nở hình 20 - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

t.

quả đồ thị của mô hình cây đƣợc biểu diễ nở hình 20 Xem tại trang 73 của tài liệu.
Cây thƣ mục cho ngƣời khuấy động đƣợc chỉ ra nhƣ ví dụ trong hình 22: - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

y.

thƣ mục cho ngƣời khuấy động đƣợc chỉ ra nhƣ ví dụ trong hình 22: Xem tại trang 74 của tài liệu.
một nút là đƣợc sắp xếp nhƣ là những ngƣời không khuấy động. nhƣ trong hình trên  theo những qui ƣớc đƣợc trình bày đây là những ngƣời khách hàng mà:  - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

m.

ột nút là đƣợc sắp xếp nhƣ là những ngƣời không khuấy động. nhƣ trong hình trên theo những qui ƣớc đƣợc trình bày đây là những ngƣời khách hàng mà: Xem tại trang 74 của tài liệu.
b) So Sánh Cách Trình Bày: - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

b.

So Sánh Cách Trình Bày: Xem tại trang 78 của tài liệu.
Chúng ta có thể thấy mỗi dữ liệu biến đƣợc so sánh với hình dƣới đây: - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

h.

úng ta có thể thấy mỗi dữ liệu biến đƣợc so sánh với hình dƣới đây: Xem tại trang 78 của tài liệu.
Dƣới đây là biểu đồ lợi ích để ƣớc lƣợng mô hình. - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

i.

đây là biểu đồ lợi ích để ƣớc lƣợng mô hình Xem tại trang 79 của tài liệu.
Khi chúng ta dự định nâng cấp mô hình, chú ý những điểm sau: - (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

hi.

chúng ta dự định nâng cấp mô hình, chú ý những điểm sau: Xem tại trang 82 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan