Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

45 1.5K 2
Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC LỜI CẢM ƠN DANH MỤC TỪ VIẾT TẮT LỜI MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Định nghĩa khai phá liệu 1.2 Quá trình khai phá tri thức sở liệu 1.3 Các kỹ thuật tiếp cận khai phá liệu 1.4 Ứng dụng khai phá liệu 1.5 Cấu trúc Call Detail Records (CDR) 1.5.1 Giới thiệu CDR 1.5.2 Cấu trúc CDR CHƢƠNG 2: LÝ THUYẾT THỐNG KÊ VÀ MỘT SỐ THUẬT TOÁN ỨNG DỤNG TRONG KHAI PHÁ DỮ LIỆU 10 2.1 Lý thuyết thống kê 10 2.1.1 Tổng quan thống kê 10 2.1.2 Chức thống kê 10 2.1.3 Các khái niệm 11 2.1.4 Cấp bậc đo lường thang đo liệu 12 2.2 Một số thuật toán khai phá liệu 13 2.2.1 Thuật toán phân hoạch K-MEANS 13 2.2.2 Thuật toán PAM 15 2.2.3 Thuật toán CLARA 18 2.2.4 Thuật toán CLARAS 19 2.2.5 Thuật toán K - PROTOTYPE 22 CHƢƠNG 3: CHƢƠNG TRÌNH THỬ NGHIỆM VÀ ĐÁNH GIÁ 25 3.1 Giới thiệu khái quát phần mềm SPSS 25 3.2 Kết thực nghiệm 27 3.3 Đánh giá kết 36 KẾT LUẬN 39 TÀI LIỆU THAM KHẢO 40 DANH SÁCH HÌNH VẼ Hình 1: Các giai đoạn khai phá tri thức sở liệu Hình 2: Cấu trúc thuộc tính CDR Hình 4: Giao diện SPSS khởi động 25 Hình 5: Mở file liệu 26 Hình 6: Dữ liệu SPSS 26 Hình 7: Phân cụm K-Means 27 Hình 8: Tâm khởi tạo cụm 27 Hình 9: Quá trình thay đổi tâm cụm 28 Hình 10: Tâm cuối cụm 28 Hình 11: Các ghi thuộc cụm 29 Hình 12: Số ghi thuộc cụm 30 Hình 13: Thống kê số gọi theo độ dài gọi 31 Hình 14: Thống kê số gọi theo ngày 32 Hình 15: Thống kê số gọi theo ngày 33 Hình 16: Hình ảnh sử dụng điện thoại khách hàng theo ngày gọi gọi 34 Hình 17: Số gọi khách hàng tới thuê bao 35 Hình 18: Khách hàng sử dụng dịch vụ điện thoại IP 35 LỜI CẢM ƠN Trước hết em xin gửi lời cảm ơn đến Ths Nguyễn Trịnh Đông, người thầy hướng dẫn em nhiều suốt trình tìm hiểu nghiên cứu hoàn thành đồ án tốt nghiệp từ lý thuyết đến ứng dụng Sự hướng dẫn thầy giúp em có thêm hiểu biết khai phá liệu ứng dụng phân tích gọi điện thoại Đồng thời em xin chân thành cảm ơn thầy cô môn thầy cô trường trang bị cho em kiến thức cần thiết để em hoàn thành tốt đồ án Em xin gửi lời cảm ơn đến gia đình, bạn bè tạo điều kiện thuận lợi để em xây dựng thành cơng đồ án Hải Phịng, Ngày 10 tháng năm 2010 Sinh viên thực Nguyễn Thu Hà DANH MỤC TỪ VIẾT TẮT Ký hiệu viết tắt Giải thích CDR Call Detail Records CSDL Cơ sở liệu KDD Khai phá tri thức sở liệu KPDL Khai phá liệu Ứng dụng khai phá liệu phân tích liệu gọi điện thoại LỜI MỞ ĐẦU Cuộc cách mạng kỹ thuật số cho phép số hóa thơng tin dễ dàng chi phí lưu trữ thấp.Với phát triển phần mềm, phần cứng trang bị nhanh hệ thống máy tính kinh doanh Số lượng liệu khổng lồ tập trung lưu trữ sở liệu thiết bị điện tử như: đĩa cứng, băng từ, đĩa quang, CD-ROM,… Tốc độ tăng liệu lớn [4] Dữ liệu sau phục vụ cho mục đích lưu lại kho liệu theo ngày tháng khối lượng liệu lưu trữ ngày lớn Trong khối lượng liệu to lớn có nhiều thơng tin có ích mang tính tổng qt, thơng tin có tính quy luật tiềm ẩn mà chưa biết Từ khối lượng liệu lớn cần có cơng cụ tự động rút thông tin kiến thức có ích Một hướng tiếp cận có khả giúp cơng ty khai thác thơng tin có nhiều ý nghĩa từ tập liệu lớn khai phá liệu (Data Mining) Viễn thông ngành có bước phát triển ngoạn mục, năm gần Số lượng thuê bao dịch vụ viễn thông kèm theo tăng cách chóng mặt Các cơng nghệ phát triển cách mạnh mẽ Đây ngành có tỷ lệ tin học hóa cao, hầu hết giao dịch, thao tác hoạt động lưu lại sở liệu Từ lượng liệu thu thập lưu trữ hoạt động sản xuất kinh doanh trở nên ngày khổng lồ Tiềm ẩn bên lượng liệu tri thức quý báu thị trường, khách hàng, sản phẩm… Đối với ngành viễn thông, thị phần khách hàng hai yếu tố quan trọng, định thành cơng doanh nghiệp Chính việc nắm nhu cầu sở thích khách hàng xu hướng biến động thị trường lợi to lớn cho doanh nghiệp cạnh tranh mở rộng thị trường Khai phá liệu kỹ thuật hữu ích để giải vấn đề Ngày nay, công ty viễn thông không ngừng nâng cao, cải tiến dịch vụ tìm kiếm dich vụ để đáp ứng nhu cầu ngày lớn khách hàng Sv: Nguyễn Thu Hà Lớp: CT1002 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại Các cơng ty viễn thơng có nguồn liệu q giá ghi chi tiết gọi (Call Detail Records - CDR) Hàng ngày hàng triệu gọi ghi nhận tổng đài với mục đich trước tiên để tính cước cho khách hàng quản lý mạng Nguồn liệu chứa đựng thông tin khách hàng, cách mà khách hàng sử dụng mạng, sản phẩm dịch vụ viễn thông CDR không cho biết dịch vụ sử dụng mà cịn cho biết dịch vụ sử dụng Với thơng tin giúp cho công ty viễn thông lập kế hoạch phát triển dịch vụ chăm sóc khách hàng để khách hàng yên tâm với dịch vụ, gắn bó lâu dài với công ty Đồng thời thu hút nhiều khách hàng Tạo điều kiện phát triển mở rộng thị trường Đó lý nhiều công ty viễn thông tiến hành xử lý lấy thông tin phục vụ cho việc kinh doanh [2] Vấn đề đặt ra: Làm trích rút thơng tin có ích từ kho liệu ghi chi tiết gọi điện thoại? Trong đồ án tốt nghiệp em trình bày ứng dụng khai phá liệu phân tích liệu gọi điện thoại Từ tìm quy luật sử dụng dịch vụ khách hàng Làm sở để hỗ trợ định cho công ty viễn thông Sv: Nguyễn Thu Hà Lớp: CT1002 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Định nghĩa khai phá liệu Khai phá liệu (Data Mining) q trình tìm kiếm mẫu mới, thơng tin tiềm ẩn mang tính dự đốn khối liệu lớn cho đơn vị, tổ chức, doanh nghiệp,… Từ làm thúc đẩy khả sản xuất, kinh doanh, cạnh tranh cho đơn vị, tổ chức Các tri thức mà khai thác liệu mang lại giúp cho công ty kinh doanh định kịp thời trả lời câu hỏi lĩnh vực kinh doanh mà trước tốn nhiều thời gian để xử lý Sự phân tích cách tự động mang tính dự báo liệu có ưu hẳn so với phân tích thơng thường dựa kiện q khứ hệ hỗ trợ định trước Giáo sư Tom Mitchell đưa định nghĩa khai phá liệu (KPDL) sau: “KPDL việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai” [10] Với cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad phát biểu: “KPDL thường xem việc khám phá tri thức sở liệu, q trình trích xuất thơng tin ẩn, trước chưa biết có khả hữu ích, dạng qui luật, ràng buộc, qui tắc sở liệu.” [8] Nói tóm lại, KPDL trình học tri thức từ liệu thu thập Khai phá liệu kết hợp nhiều ngành như: Cơ sở liệu, hiển thị liệu, máy học, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê, tính tốn hiệu cao, phương pháp tính toán mềm,… Khai phá liệu định nghĩa q trình tìm kiếm thơng tin (tri thức) có ích, tiềm ẩn mang tính dự đốn khối CSDL lớn Một số nhà khoa học xem khai phá liệu cách gọi khác thuật ngữ thông dụng khám phá tri thức CSDL (Knowlwdge Discovery in Data bases - KDD), cho mục đích q trình khám phá tri thức thơng tin tri thức có ích, đối tượng mà phải xử lý nhiều suốt q trình khám phá tri thức lại liệu Một số nhà khoa học khác xem khai thác liệu bước trình khám phá tri thức Sv: Nguyễn Thu Hà Lớp: CT1002 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại 1.2 Quá trình khai phá tri thức sở liệu Khám phá tri thức CSDL ( Knowledge Discovery in Databases - KDD) lĩnh vực liên quan đến ngành như: thống kê, học máy, CSDL, thuật toán, trực quan hóa liệu, tính tốn song song hiệu cao,… Q trình KDD phân thành giai đoạn sau [5][9]: Trích chọn liệu (Data selection): Là bước trích chọn tập liệu cần khai phá từ tập liệu lớn (databases, data warehouses, data repositories) ban đầu theo số tiêu chí định Tiền xử lý liệu (Data preprocessing): Là bước làm liệu (xử lý với liệu không đầy đủ, liệu nhiễu, liệu không quán,.v.v.), rút gọn liệu (sử dụng hàm nhóm tính tổng, phương pháp nén liệu, sử dụng histograms, lấy mẫu,.v.v.), rời rạc hóa liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng,.v.v.) Sau bước này, liệu quán, đầy đủ, rút gọn, rời rạc hóa Biến đổi liệu (Data transformation): Là bước chuẩn hóa làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ cho kỹ thuật khai phá bước sau Khai phá liệu (Data mining): Là bước áp dụng kỹ thuật phân tích (phần nhiều kỹ thuật học máy) nhằm để khai thác liệu, trích chọn mẫu thông tin, mối liên hệ đặc biệt liệu Đây xem bước quan trọng tốn nhiều thời gian tồn q trình KDD Đánh giá biểu diễn tri thức (Knowlwdge representation and evaluation): Dùng kỹ thuật hiển thị liệu để trình bày mẫu thông tin (tri thức) mối liên hệ liệu khám phá bước chuyển dạng biểu diễn dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật Đồng thời bước đánh giá tri thức khám phá theo tiêu chí định Sv: Nguyễn Thu Hà Lớp: CT1002 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại Hình 1: Các giai đoạn khai phá tri thức sở liệu 1.3 Các kỹ thuật tiếp cận khai phá liệu Nếu đứng quan điểm học máy (Machine Learning), kỹ thuật Data Mining, bao gồm [5][9]: Học có giám sát (Supervised learning): Là q trình gán nhãn lớp cho phần tử CSDL dựa tập ví dụ huấn luyện thơng tin nhãn lớp biết Học khơng có giám sát (Unsupervised learning): Là trình phân chia tập liệu thành lớp cụm (clustering) liệu tương tự mà chưa biết trước thông tin lớp hay tập ví dụ huấn luyện Học nửa giám sát (Semi - Supervised learning): Là trình phân chia tập liệu thành lớp dựa tập nhỏ ví dụ huấn luyện số thông tin số nhãn lớp biết trước Sv: Nguyễn Thu Hà Lớp: CT1002 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại Các tệp tin mở: Các bảng tính worksheet thiết lập Execl Lotus Cơ sở liệu lập dạng dBASE SQL Các file dạng text ASCII với kiểu Tab-dliminated Các file dạng SPSS lập hệ điều hành khác Các file liệu SYTAT Hình 5: Mở file liệu Dữ liệu lưu dạng ghi Hình 6: Dữ liệu SPSS Sv: Nguyễn Thu Hà Lớp: CT1002 26 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại 3.2 Kết thực nghiệm Tập CDR bao gồm 10 nghìn ghi ghi có 30 thuộc tính, ta dùng vài thuộc tính quan trọng độ dài gọi, ngày gọi… thơng tin quan trọng mà cần khai phá để đưa quy luật Ta phân cụm giá trị độ dài gọi dựa thời gian gọi Hình 7: Phân cụm K-Means Thuật toán phân cụm phân hoạch K–Means đưa vào SPSS để phân cụm liệu Ta phân làm cụm dựa vào giá trị độ dài gọi có tâm khởi tạo là: 2, 16, 31 Hình 8: Tâm khởi tạo cụm Sv: Nguyễn Thu Hà Lớp: CT1002 27 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại Với bước lặp để thay đổi tâm cụm Hình 9: Quá trình thay đổi tâm cụm Các tâm cuối cụm là: 4, 12, 24 Hình 10: Tâm cuối cụm Sv: Nguyễn Thu Hà Lớp: CT1002 28 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại Mỗi trường hợp tương ứng với ghi kho liệu Sau kết thúc thuật toán ghi đưa cụm Hình 11: Các ghi thuộc cụm Trong Hình 3.8 có 25 ghi phân cụm: ghi số 1, 2, 4, 5, 6, 9, 10, 11, 12, 13, 14, 18, 19, 20, 21, 22 phân cụm Cụm số có tâm cụm phân theo độ dài gọi tương ướng với độ dài gọi mức trung bình Các ghi số 3, 7, 8, 12, 13, 14, 18 phân cụm Cụm có tâm cụm 12 phân theo độ dài gọi tương ứng với độ dài gọi điện thoại mức độ cao Các ghi số 19, 20 phân cụm có số tâm cụm 24 phân theo độ dài gọi tương ứng với độ dài gọi mức độ cao Sv: Nguyễn Thu Hà Lớp: CT1002 29 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại Thống kê số ghi cụm Hình 12: Số ghi thuộc cụm Kết sau phân cụm liệu cho thấy thời điểm thói quen sử dụng điện thoại khách hàng Với việc phân cụm độ dài gọi điện thoại theo thời gian gọi thấy khoảng thời gian khách hàng gọi điện với độ dài gọi lớn, khoảng thời gian khách hàng gọi điện với độ dài gọi nhỏ Kết thử nghiệm cho thấy: Độ dài gọi thuộc mức trung bình có 8409 gọi, chiếm 83,04% tổng số gọi, phân bố tất ngày tập trung chủ yếu vào khoảng 30 phút đến 10 khoảng 14 tới 16 30 phút Khoảng thời gian thuộc hành Các quan, cơng ty khách hàng khác có nhu cầu sử dụng điện thoại cao Độ dài gọi thuộc mức cao có 1493 gọi, chiếm 14,75% tổng số gọi, phân bố đồng tất ngày Độ dài gọi thuộc mức độ cao có 225 gọi, chiếm 2,21% tổng gọi, phân bố chủ yếu vào thời gian ngồi hành Khoảng 21 tới sang ngày hơm sau Khi khách hàng có nhiều thời gian rảnh nên họ gọi điện với khoảng thời gian lớn Sv: Nguyễn Thu Hà Lớp: CT1002 30 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại Độ dài gọi điện thoại đặc trưng thể việc sử dụng điện thoại khách hàng Các kết thống kê độ dài gọi điện thoại cho thấy đặc điểm độ dài gọi điện thoại Hình 13: Thống kê số gọi theo độ dài gọi Với đồ thị hình 13 cho thấy việc sử dụng điện thoại khách hàng Các gọi điện thoại có độ dài phút nhiều sau giảm dần đoạn từ phút tới phút Trong khoảng thời gian lớn 10 phút, độ dài gọi giảm nhanh chóng Sv: Nguyễn Thu Hà Lớp: CT1002 31 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại Tổng số gọi theo bắt đầu ngày thể thói quen sử dụng điện thoại khách hàng Hình 14: Thống kê số gọi theo ngày Theo đồ thị hình 14 khách hàng gọi nhiều khoảng tới 10 khoảng 14 tới 16 Đây khoảng thời gian làm việc hành nhu cầu sử dụng điện thoại lớn văn phòng, quan Trong khoảng từ 20 tới 22 số gọi tuơng đối lớn, khoảng thời gian khách hàng gọi điện nói chuyện hỏi thăm Trong khoảng tới nhu cầu sử dụng điện thoại thấp Sv: Nguyễn Thu Hà Lớp: CT1002 32 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại Tổng số gọi theo ngày Hình 15: Thống kê số gọi theo ngày Trong hình 3.4 ta thấy khách hàng gọi nhiều ngày tuần Riêng ngày 3/8 nhu cầu sử dụng điện thoại khách hàng lớn Ngày 6/3 ngày thứ 7, số gọi giảm Ngày 7/3 thuộc ngày chủ nhật, số gọi giảm nhiều Các ngày khác tuần số gọi tương đối đồng Sv: Nguyễn Thu Hà Lớp: CT1002 33 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại Hình ảnh sử dụng điện thoại khách hàng Hình 16: Hình ảnh sử dụng điện thoại khách hàng theo ngày gọi gọi Với hình thấy tổng quan thời gian khách hàng sử dụng điện thoại Thống kê số gọi khách hàng theo thời gian gọi ngày Khi ta xác định thói quen gọi điện khách hàng để đưa nhiều dịch vụ chăm sóc khách hàng ngày tốt Thống kê số gọi khách hàng theo thời gian gọi độ dài gọi để tìm quy luật sử dụng điện thoại khách hàng: họ thường gọi điện vào thời gian nào? Thời gian đàm thoại bao lâu? Sv: Nguyễn Thu Hà Lớp: CT1002 34 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại Thống kê số gọi khách hàng tới thuê bao di động thuê bao thuộc tỉnh khác Hình 17: Số gọi khách hàng tới thuê bao Thống kê số gọi khách hàng tới thuê bao khác theo cách sử dụng dich vụ điện thoại IP Số điện thoại gọi đến thuộc thuê bao di động, thuê bao thuộc tỉnh Hải Phịng, Quảng Ninh, Hải Dương, Thái Bình Thanh Hóa Phần lớn khách hàng sử dụng dịch vụ điện thoại IP 171, 178 để gọi đến thuê bao thuộc tỉnh Quảng Ninh, Hải Dương, Thái Bình Thanh Hóa Hình 18: Khách hàng sử dụng dịch vụ điện thoại IP Sv: Nguyễn Thu Hà Lớp: CT1002 35 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại 3.3 Đánh giá kết Sau phân tích thống kê tập liệu nhận thói quen sử dụng điện thoại khách hàng: Khách hàng thường gọi điện với độ dài gọi mức trung bình (dưới phút) Thời gian sử dụng điện thoại chủ yếu khách hàng khoảng tới 10 30 phút khoảng 14 tới 16 30 phút Ngày 5/7, 9/7, 10/7, 11/7, 12/7 nhu cầu sử dụng điện thoại khách hàng tương đối đồng Ngày 6/3 thuộc ngày thứ nhu cầu sử dụng điện thoại giảm Ngày 7/3 thuộc ngày chủ nhật nhu cầu sử dụng điện thoại thấp Riêng ngày 8/3 nhu cầu sử dụng tăng đột biến Với kết đạt hỗ trợ cho việc định công ty Công ty nên mở rộng nâng cấp băng thông để đáp ứng tốt nhu cầu sử dụng khách hàng Với khoảng thời gian khách hàng có nhu cầu sử dụng dịch vụ lớn khoảng tới 10 30 phút khoảng 14 tới 16 30 phút cơng ty cần có biện pháp xử lý thật tốt để đảm bảo chất lượng mạng đàm thoại khách hàng yên tâm với dịch vụ lựa chọn ngày lễ lớn nhu cầu sử dụng Trong bảng thống kê số gọi khách hàng theo ngày gọi, thời gian gọi độ dài gọi nhận số khách hàng thường xuyên sử dụng dịch vụ, khách hàng thường xuyên gọi điện với độ dài gọi lớn thói quen gọi điện họ Thống kê số khách hàng thường xuyên gọi điện thời điểm: Số thuê bao 313226623 gọi vào khoảng giờ, vào khoảng 13 giờ, vào khoảng 18 giờ, vào khoảng 21 giờ, vào khoảng 23 vào khoảng 24 Số thuê bao 313313700 gọi vào hầu hết ngày có vào khoảng giờ, vào khoảng giờ, vào khoảng giờ, vào khoảng giờ, vào khoảng 10 giờ, vào khoảng 11 giờ, vào Sv: Nguyễn Thu Hà Lớp: CT1002 36 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại khoảng 12 giờ, vào khoảng 13 giờ, vào khoảng 15 giờ, vào khoảng 16 giờ, vào khoảng 18 giờ, vào khoảng 19 giờ, vào khoảng 20 giờ, vào khoảng 21 Số thuê bao 3137170 có số lượng gọi lớn có gọi vào giờ, vào giờ, vào khoảng giờ, vào khoảng giờ, 14 vào khoảng giờ, vào khoảng giờ, vào khoảng 11 giờ, vào khoảng 13 giờ, vào khoảng 15 giờ, vào khoảng 17 giờ, vào khoảng 19 giờ, vào khoảng 20 giờ, vào khoảng 21 Số thuê bao 313710177 gọi vào khoảng giờ, có vào khoảng giờ, vào khoảng giờ, vào khoảng giờ, vào khoảng 15 giờ, vào khoảng 16 giờ, vào khoảng 18 giờ, vào khoảng 19 giờ, vào khoảng 20 giờ, vào khoảng 21 giờ, vào khoảng 22 vào khoảng 23 Thống kê số khách hàng thường xuyên gọi điện có thời gian gọi lớn: Số thuê bao 313313741 gọi có độ dài khoảng phút, có độ dài khoảng phút, có độ dài phút, độ dài phút có độ dài lớn 30 phút Số thuê bao 313726210 gọi 10 có độ dài khoảng phút, có độ dài khoảng phút, có độ dài khoảng phút, có độ dài khoảng 10 phút, gọi có độ dài khoảng 12 phút gọi có độ dài lớn 30 phút Số thuê bao 313073107 gọi có độ dài khoảng phút, có độ dài khoảng phút, có độ dài khoảng phút, gọi có độ dài khoảng phút, có có độ dài khoảng 18 phút có độ dài khoảng 20 phút Với bảng thống kê số gọi khách hàng theo ngày gọi, thời gian gọi độ dài gọi Có thể tìm khách hành thường xuyên sử dụng dịch vụ khách hàng thường gọi điện với độ dài gọi lớn Từ đưa khách hàng vào nhóm khách hàng đặc biệt, dựa vào báo cáo nhóm khách hàng phận chăm Sv: Nguyễn Thu Hà Lớp: CT1002 37 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại sóc khách hàng đưa kế hoạch chiến lược cung cấp dich vụ chương trình khuyễn riêng nhằm đảm bảo bền vững kết nối khách hàng công ty Phần lớn khách hàng gọi tới thuê bao thuộc ngoại tỉnh sử dụng dịch vụ điện thoại IP 171, 187 Kết hỗ trợ cho việc định nâng cấp phát triển dịch vụ công ty BCVT Việt Nam (điện thoại IP 171) công ty điện tử viễn thông Quân đội (điện thoại IP 178) Sv: Nguyễn Thu Hà Lớp: CT1002 38 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại KẾT LUẬN Lĩnh vực khai phá liệu lĩnh vực Việt nam Đặc biệt sinh viên chúng em Với thời gian hạn chế đồ án đạt số kết như: Tìm hiểu tổng quan khai phá liệu; ứng dụng khai phá liệu để phát tri thức; cấu trúc CDR (Call Detail Records) tổng đài điện thoại…Trong đồ án em thực quy trình khai phá liệu tập liệu CDR với phần mềm SPSS để phân tích liệu gọi điện thoại cho thuê bao VNPT Hải Phòng từ nắm bắt quy luật sử dụng nhu cầu khách hàng để doanh nghiệp đảm bảo chất lượng dịch vụ triển khai thêm dịch vụ Do liệu CDR chưa bao gồm tất thông tin khách hàng nên chưa thể đánh giá tiềm khách hàng theo vùng Khai phá liệu ngành khoa học có ứng dụng nhiều thực tế, đem lại nhiều lợi ích Hướng nghiên cứu tiếp theo: Tiếp tục tìm thêm nhiều tiêu chí đánh giá; gom nhóm khách hàng theo tổng thời gian sử dụng dịch vụ; áp dụng khai phá liệu rộng rãi nhiều ngành khác… Sv: Nguyễn Thu Hà Lớp: CT1002 39 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Đức Cường, Tổng quan khai phá liệu, Khoa Công Nghệ Thông Tin – Đại học Bách Khoa Thành Phố Hồ Chí Minh [2] Nguyễn Anh Trung, Ứng dụng kỹ thuật khai phá liệu vào lĩnh vực viễn thông, Trung tâm công nghệ thơng tin, Học viện Cơng Nghệ Bưu Chính Viễn Thơng [3] Hà Văn Sơn, Giáo tình lý thuyết thống kê, Bộ môn lý thuyết thống kê, thống kê kinh tế Đại học Kinh Tế Thành Phố Hồ Chí Minh [4] Trương Ngọc Châu, Phan Văn Dũng, Nghiêm cứu tính ứng dụng khai thác luật kết hợp sở liệu giao dich, Trường Đại học Bách Khoa Đà Nẵng [5] Hoàng Hải Xanh, Các kỹ thuật phân cụm Data Mining, Luận văn, Đại Học Công Nghệ - Đại học Quốc Gia Hà Nội [6] Lê Bá Phương, Ứng dụng khai khống liệu phân tích số liệu gọi điện thoại, Luận văn thạc sĩ, Đại học Quốc Gia Thành Phố Hồ Chí Minh Tài liệu tiếng anh [7] Alan Rea (1995), Data Mining – An Introduction The Parallel Computer Centre, Nor of The Queen’s University of Belfast [8] U.M Fayyad, G Piatetsky-Shapiro, P Smyth and R Uthurusamy: Dsvances in Knowledge Dicovery and Data Mining (1996) [9] Jiawei Han and Micheline Kamber (2001), Data Mining: Concepts and Techniques, Hacours Science and Technology Company, USA [10] T.Mitchell, Machine Learning and Data Mining, Communication of the ACM, Vol 42 (1990) Trang web: [11] http://en.wikipedia.org/wiki/Call_Detail_Record [12]http://forum.mait.vn/ebook-tai-lieu/12060-e-book-huong-dan-su-dungspss.html Sv: Nguyễn Thu Hà Lớp: CT1002 40 ... Sv: Nguyễn Thu Hà Lớp: CT1002 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Định nghĩa khai phá liệu Khai phá liệu (Data Mining) trình tìm kiếm... thích CDR Call Detail Records CSDL Cơ sở liệu KDD Khai phá tri thức sở liệu KPDL Khai phá liệu Ứng dụng khai phá liệu phân tích liệu gọi điện thoại LỜI MỞ ĐẦU Cuộc cách mạng kỹ thuật số cho phép số... rảnh nên họ gọi điện với khoảng thời gian lớn Sv: Nguyễn Thu Hà Lớp: CT1002 30 Ứng dụng khai phá liệu phân tích liệu gọi điện thoại Độ dài gọi điện thoại đặc trưng thể việc sử dụng điện thoại khách

Ngày đăng: 10/12/2013, 14:43

Hình ảnh liên quan

Hình 1: Các giai đoạn khai phá tri thức trong cơ sở dữ liệu - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 1.

Các giai đoạn khai phá tri thức trong cơ sở dữ liệu Xem tại trang 10 của tài liệu.
Hình 2: Cấu trúc các thuộc tính của CDR - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 2.

Cấu trúc các thuộc tính của CDR Xem tại trang 13 của tài liệu.
Hình 3: Biều diễn ví dụ cho huật toán PAM - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 3.

Biều diễn ví dụ cho huật toán PAM Xem tại trang 21 của tài liệu.
Hình 4: Giao diện của SPSS khi khởi động - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 4.

Giao diện của SPSS khi khởi động Xem tại trang 30 của tài liệu.
Hình 5: Mở file dữ liệu Dữ liệu được lưu dưới dạng các bản ghi.  - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 5.

Mở file dữ liệu Dữ liệu được lưu dưới dạng các bản ghi. Xem tại trang 31 của tài liệu.
Các bảng tính worksheet được thiết lập trong Execl hoặc Lotus. Cơ sở dữ liệu được lập dưới dạng dBASE và SQL - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

c.

bảng tính worksheet được thiết lập trong Execl hoặc Lotus. Cơ sở dữ liệu được lập dưới dạng dBASE và SQL Xem tại trang 31 của tài liệu.
Hình 8: Tâm khởi tạo của cụm - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 8.

Tâm khởi tạo của cụm Xem tại trang 32 của tài liệu.
Hình 7: Phân cụm K-Means - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 7.

Phân cụm K-Means Xem tại trang 32 của tài liệu.
Hình 9: Quá trình thay đổi tâm cụm Các tâm cuối cùng của cụm lần lượt là: 4, 12, 24.  - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 9.

Quá trình thay đổi tâm cụm Các tâm cuối cùng của cụm lần lượt là: 4, 12, 24. Xem tại trang 33 của tài liệu.
Hình 10: Tâm cuối cùng của cụm - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 10.

Tâm cuối cùng của cụm Xem tại trang 33 của tài liệu.
Hình 11: Các bản ghi thuộc các cụm - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 11.

Các bản ghi thuộc các cụm Xem tại trang 34 của tài liệu.
Hình 12: Số bản ghi thuộc các cụm - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 12.

Số bản ghi thuộc các cụm Xem tại trang 35 của tài liệu.
Hình 13: Thống kê số cuộc gọi theo độ dài cuộc gọi - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 13.

Thống kê số cuộc gọi theo độ dài cuộc gọi Xem tại trang 36 của tài liệu.
Hình 14: Thống kê số cuộc gọi theo giờ trong ngày - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 14.

Thống kê số cuộc gọi theo giờ trong ngày Xem tại trang 37 của tài liệu.
Hình 15: Thống kê số cuộc gọi theo ngày - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 15.

Thống kê số cuộc gọi theo ngày Xem tại trang 38 của tài liệu.
Hình ảnh sử dụng điện thoại của khách hàng. - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

nh.

ảnh sử dụng điện thoại của khách hàng Xem tại trang 39 của tài liệu.
Hình 17: Số cuộc gọi của mỗi khách hàng tới các thuê bao - Ứng dụng khai phá dữ liệu trong phân tích dữ liệu cuộc gọi điện thoại

Hình 17.

Số cuộc gọi của mỗi khách hàng tới các thuê bao Xem tại trang 40 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan