Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
1,16 MB
Nội dung
i LỜI CAM ĐOAN Tôi xin cam đoan đề tài nghiên cứu ri ng tôi, thực dƣới hƣớng dẫn TS Trần Quang Diệu Các kết nêu luận v n trung thực chƣa đƣợc công bố công trình khác Thanh Hóa, tháng 10 năm 2019 Họ tên Trịnh Minh ii LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới TS Trần Quang Diệu, ngƣời thầy dành nhiều thời gian tận tình bảo, hƣớng dẫn, giúp đỡ suốt trình tìm hiểu, nghiên cứu Thầy ngƣời đ nh hƣớng đƣa nhiều g p qu u qu tr nh em thực luận v n Tôi xin chân thành cảm ơn c c thầy, cô khoa Công nghệ thông tin – Trƣờng Đại học Hồng Đức cung cấp cho kiến thức tạo cho điều kiện thuận lợi suốt q trình tơi học tập trƣờng Tơi ày tỏ lòng biết ơn giúp đỡ lãnh đạo quan, đồng nghiệp VNPT Thanh Hóa cung cấp liệu, tài liệu cho lời khuyên quý báu Tôi xin cảm ơn gia đ nh, ngƣời thân, bạn bè thành viên nhóm nghiên cứu ln động viên tạo điều kiện tốt cho tơi Thanh Hóa, tháng 10 năm 2019 Sinh viên Trịnh Minh iii MỤC LỤC MỞ ĐẦU CHƢƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Tổng quan khai phá liệu 1.1.1 Tổng quan 1.1.2 Quy trình khai phá liệu 10 1.1.3 Các ứng dụng khai phá liệu 12 1.2 Ra đ nh quản lý 13 1.2.1 Vai trò trình đ nh 13 1.2.2 C c phƣơng ph p đ nh quản lý 14 1.2.3 C c ƣớc trình đ nh 14 1.2.4 Bài toán đ nh 15 1.3 Hệ trợ giúp đ nh thông minh 15 1.3.1 Tổng quan trí tuệ nhân tạo 15 1.3.2 Trí tuệ nhân tạo thời điểm 16 1.4 Cây đ nh 17 1.4.1 Phân lớp liệu dựa kiểu đ nh 17 1.4.2 Giải thuật ản xây dựng đ nh 17 1.5 Thuật toán C4.5 24 1.5.1 Giới thiệu 24 1.5.2 Giải thuật C4.5 xây dựng đ nh từ xuống 26 1.5.3 Đ nh gi mức độ hiệu 27 CHƢƠNG 2: PHÂN TÍCH THỰC TRẠNG TÌNH HÌNH SẢN XUẤT KINH DOANH TẠI VNPT THANH HÓA 29 2.1 Giới thiệu VNPT Thanh Hóa 29 2.2 Đ nh hƣớng hoạt động phát triển khách hàng 30 2.2.1 Tổng quan 30 2.2.2 Mục tiêu hoạt động 32 2.2.3 Các vấn đề nảy sinh yêu cầu cần đƣợc giải 33 2.2.4 Giải pháp xây dựng hệ thống trợ giúp đ nh 34 iv 2.2.5 Lựa chọn thuật toán thử nghiệm 35 CHƢƠNG 3: XÂY DỰNG GIẢI PHÁP DỰ ĐỐN TÌNH HÌNH THUÊ BAO VINAPHONE CHUYỂN SANG MẠNG DI ĐỘNG KHÁC 37 3.1 Giải pháp chung 37 3.2 Đề xuất giải pháp cho toán dự đo n thu ao Vinaphone thực MNP (chuyển mạng giữ số) qua nhà mạng khác 38 3.2.1 Thực trạng chung 38 3.2.2 Giải pháp sử dụng kỹ thuật khai phá liệu 39 3.2.3 Đề xuất mơ hình áp dụng thực tế 40 3.3 Thực nghiệm giải pháp 41 3.3.1 Chuẩn b liệu 41 3.3.2 Sử dụng phần mềm Weka tiến hành thực nghiệm 43 3.3.3 Đ nh gi kết thực nghiệm 47 KẾT LUẬN VÀ KIẾN NGHỊ……………………………………………… 49 TÀI LIỆU THAM KHẢO… ……………………………………………… 50 v DANH MỤC CÁC HÌNH VẼ Hình 1.1: Ví dụ mơ hình đ nh 10 Hình 1.2: Quy trình khai phá tri thức từ sở liệu 11 Hình 1.4.1: Bảng liệu mơ tả mối quan hệ thời tiết t nh h nh chơi ng đội bóng 20 Hình 1.4.2: Minh hoạ Multinomial Naive Bayes .11 Hình 3.1: Mơ hình dự đo n chung 37 Hình 3.2: Mơ hình dự sử dụng KPDL 39 H nh 3.3: Mô h nh đề xuất áp dụng thực tế 40 Hình 4.1 : Giao diện khởi động Weka 43 Hình 4.2 : Giao diện Weka 44 Hình 4.3: Giao diện Weka sau nhập liệu từ file arff 45 Hình 4.4: Sử dụng thuật to n C4.5 để thực nghiệm 46 Hình 4.5 : Kết thực nghiệm 46 MỞ ĐẦU Tính cấp thiết đề tài Trong thời đại kinh tế th trƣờng, c c doanh nghiệp trải qua cạnh tranh vô gay gắt, VNPT Thanh H a không ngoại lệ Là nhà cung cấp d ch vụ Viễn thông – Công nghệ thông tin hàng đầu Việt Nam không ngừng thay đổi, ph t triển theo xu chung kinh tế Sự tiến ộ khoa học kỹ thuật diễn với tốc độ vô nhanh ch ng, c c công nghệ vào thực tiễn mang đến thay đổi sống hàng ngày Từ kinh tế ngƣời dân đƣợc nâng cao dẫn đến nhu cầu c c d ch vụ sử dụng khơng cịn nhƣ trƣớc Nắm đƣợc vấn đề này, c c nhà cung cấp d ch vụ phải li n tục thay đổi, đa dạng c c sản phẩm cung cấp cho kh ch hàng, đ p ứng đƣợc c c y u cầu kh c ngƣời dùng Việc c đƣợc c c sản phẩm, d ch vụ cung cấp cho kh ch hàng c ch phù hợp yếu tố ti n việc đ nh hƣớng ph t triển doanh nghiệp Với c c g i cƣớc phù hợp, nhà cung cấp c đƣợc lƣợng lớn kh ch hàng sử dụng ngƣợc lại, nhà cung cấp không c đƣợc c c g i d ch vụ hợp l không thu thút đƣợc ngƣời dùng, không đảm ảo đƣợc doanh thu, thất ại cạnh tranh với c c đối thủ kh c Vậy sản phẩm phù hợp để cung cấp cho kh ch hàng? Đây câu hỏi mà đ p n thay đổi li n tục theo thời gian, đ a điểm theo nh m kh ch hàng ri ng iệt Tại c c khoảng thời gian kh c nhau, nơi kh c (vùng vùng kia, huyện huyện kh c,…) với c c nh m đối tƣợng c thu nhập kh c c nhu cầu kh c việc sử dụng loại d ch vụ Gi d ch vụ vấn đề không nhỏ, gi qu cao th không thu htú ngƣời dùng, gi qu thấp th doanh nghiệp lại hạn chế doanh thu không c lãi Để đ p ứng đƣợc c c tốt ta cần nắm đƣợc nhu cầu, đặc điểm khu vực đƣa c c g i d ch vụ phù hợp đảm ảo đ p ứng đƣợc y u cầu theo c c nh m kh ch hàng mà đảm ảo đƣợc vấn đề doanh thu doanh nghiệp Với lợi doanh nghiệp đầu, VNPT Thanh H a cung cấp tới nhiều kh ch hàng tr n đ a àn tỉnh Thanh H a c c d ch vụ Viễn thông – Công nghệ thông tin Với lƣợng thông tin kh ch hàng mà m nh c đa dạng đ a chỉ, chi phí ti u dùng cho d ch vụ mà doanh nghiệp cung cấp,… Nếu c thể thu thập, phân tích tổng hợp c c số liệu hỗ trợ nhiều cho Ban lãnh đạo đội ngũ quản tr việc đ nh hƣớng ph t triển doanh nghiệp tƣơng lai V l tr n chọn đề tài “Nghiên cứu ứng dụng phương pháp phân tích liệu lớn toán quản trị doanh nghiệp VNPT Thanh Hóa” nhằm hỗ trợ cho doanh nghiệp c ƣớc ph t triển nhanh ch ng, mạnh mẽ c ch mạng khoa học công nghệ 4.0 Mục đích nhiệm vụ nghiên cứu Mục đích đề tài phân tích số liệu c để hỗ trợ Ban lãnh đạo công tác quản tr , đƣa c c đ nh hƣớng phát triển doanh nghiệp phù hợp với thay đổi th trƣờng Để thực đƣợc mục đích cần nghiên cứu triển khai nội dung sau: - Nghiên cứu tài liệu phân tích liệu lớn dựa tr n sở liệu có - Áp dụng vào phân tích sở liệu doanh nghiệp đƣa c c kết phân tích/ dự đo n theo y u cầu toán quản tr Phƣơng pháp nghiên cứu - Phương pháp nghiên cứu lý thuyết: Tìm hiểu, nghiên cứu tài liệu khai phá liệu, c c phƣơng ph p phân tích liệu lớn, hệ hỗ trợ đ nh Tìm hiểu hệ quản tr sở liệu đƣợc sử dụng VNPT Thanh Hóa - Phương pháp nghiên cứu thực nghiệm:Ứng dụng c c phƣơng ph p phân tích liệu lớn, hệ hỗ trợ đ nh t m hiều để phân tích sở liệu đƣa gợi ý theo yêu cầu từ toán quản tr doanh nghiệp CHƢƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Tổng quan khai phá liệu 1.1.1 Tổng quan * Khai phá liệu (Data mining) ? [1] - Để phân tích, ta tách Data mining thành phần : Data mining Data d ch Dữ liệu, nguồn liệu c c công ty, quan, doanh nghiệp sở hữu cách thu thập suốt trình hoạt động, sản xuất kinh doanh Mining d ch đào đất,khai thác mỏ, qu tr nh t m kiếm, khai thác sản vật Ở ta thấy, vật liệu đƣợc khai thác nguồn liệu mà sở hữu Data miningđi sâu vào nguồn liệu, tìm kiếm chi tiết, giá tr đƣợc ẩn sâu bên - Khai phá liệu (Data mining) q trình khám phá, phân tích cácthông tin từ sở liệu lớn phức tạp để tìm mẫu thơng tin mang tính tổng quát, quy luật tiềm ẩn hay thơng tin có giá tr qua đ đƣa c c dự báo, hỗ trợ việc đ nh tƣơng lai - C c giai đoạn trình khai phá liệu [6]: + Xác đ nh vấn đề không gian liệu để xử lý vấn đề : Giai đoạn ta cần x c đ nh vấn đề cần giải quyết, tìm hiểu kiến thức ài to n thực bao gồm tri thức c c chuy n gia lĩnh vực cần nghiên cứu từ đ x c đ nh xác nguồn liệu để thu thập đồng thời phải hiểu đƣợc cấu trúc liệu, nghĩa tầm quan trọng n để từ đ ta đƣa ài to n cụ thể để giải vấn đề + Chuẩn b liệu: bao gồm c c ƣớc Làm liệu: Các giá tr b thiếu đƣợc thay giá tr thích hợp xóa liệu sai miền giá tr giải không quán.Loại bỏ liệu b trùng Giảm nhiễu liệu: Các liệu b nhiễu đƣợc điều chỉnh loại khỏi sở liệu Rời rạc hóa liệu: Các liệu số đƣợc rời rạc hóa dạng phù hợp cho khai phá liệu Giảm chiều: Loại bớt thuộc tính chứa thơng tin để tiết kiệm thời gian tài ngun máy tính + Mơ hình hóa liệu : Dùng thuật tốn khai phá liệu để tìm qui luật liệu, quan trọng giai đoạn t m đƣợc giải thuật phù hợp để giải vấn đề đặt + Đ nh gi : Dựa vào nhận xét hỗ trợ chuyên gia, đƣa c c ti u chí đ nh gi , đ điều chỉnh k p thời mơ hình c c giai đoạn trƣớc C c mô h nh đạt yêu cầu với chuyên gia đƣợc sử dụng + Triển khai : C c mô h nh đạt yêu cầu đƣợc xây dựng thành chƣơng tr nh ứng dụng thực tế nhằm hỗ trợ đƣa đ nh theo yêu cầu ngƣời dùng Q trình khai phá liệu khơng đơn giản trình thực từ ƣớc đầu ti n đến ƣớc cuối mà q trình lặp có quay lại ƣớc qua * Một số phƣơng ph p khai ph liệu phổ biến: - Phân lớp: Phân lớp dự đo n gi tr nhãn x c đ nh (categorical label) hay giá tr rời rạc (discrete value), c nghĩa phân lớp thao tác với đối tƣợng liệu mà có giá tr biết trƣớc Ví dụ mơ hình phân lớp dự báo thời tiết cho biết thời tiết ngày mai mƣa, hay nắng dựa vào thông số độ ẩm, sức gió, nhiệt độ,… ngày hơm ngày trƣớc đ … Quá trình phân lớp liệu gồm ƣớc: Học tập (Learning) : Q trình học nhằm xây dựng mơ hình mơ tả tập lớp liệu hay khái niệm đ nh trƣớc Đầu vào trình tập liệu có cấu trúc đƣợc mơ tả thuộc tính đƣợc tạo từ tập giá tr thuộc tính đ , đầu thƣờng quy tắc phân lớp dƣới dạng luật dạng if-then, đ nh, công thức logic, hay mạng nơron Phân lớp (Classification) : Sử dụng mô h nh xây dựng ƣớc để thực phân lớp liệu Một số kỹ thuật phân lớp: Phân lớp đ nh (Decision tree classification), phân lớp Bayesian (Bayesian classifier), mạng nơron, - Hồi qui : hàm học ánh xạ mục liệu thành biến dự đo n có giá tr thực, thƣờng dùng để dự đo n c c gi tr mang tính liên tục Mơ hình hồi qui (regression model) mơ hình mơ tả mối liên kết (relationship) tập biến dự báo (predictor variables/independent variables) hay nhiều đ p ứng Phƣơng tr nh hồi qui tuyến tính: Y = f(X, ) Trong đ : X c c iến dự báo Y c c đ p ứng hệ số hồi qui Phân loại : Hồi qui tuyến tính (linear) phi tuyến tính (nonlinear) : Linear : kết hợp tuyến tính thơng số tạo nên Y Nonlinear : kết hợp phi tuyến thông số tạo nên Y Hồi qui đơn iến (single) đa iến (multiple) Single : X = ( Multiple : X = ( ) , , , ) Hồi qui có thơng số (parametric), phi thơng số (nonparametric), thông số kết hợp (semiparametric) Parametric: mô hình hồi qui với hữu hạn thơng số ‡ Nonparametric: mơ hình hồi qui với vơ hạn thơng số ‡ Semiparametric: mơ hình hồi qui với hữu hạn thơng số đƣợc quan tâm Hồi qui đối xứng (symmetric) bất đối xứng (asymmetric) Symmetric : mơ hình hồi qui có tính mơ tả Asymmetric : mơ hình hồi qui có tính dự báo 37 CHƢƠNG 3: XÂY DỰNG GIẢI PHÁP DỰ ĐỐN TÌNH HÌNH TH BAO VINAPHONE CHUYỂN SANG MẠNG DI ĐỘNG KHÁC 3.1 Giải pháp chung - Mơ hình chung tốn dự đo n: Hình 3.1: Mơ hình dự đốn chung - Đây giải pháp chung cho toán dự đo n, toán cụ thể khác khối mơ hình phân tích - Chức n ng khối mơ hình dự đo n: + Thu thập liệu: Có nhiệm vụ thu thập liệu từ nguồn có liên quan đến ài to n, tốn liệu đƣợc thu thập từ hệ thống sản xuất kinh doanh Vinaphone đƣợc lƣu trữ hệ sở liệu Các liệu bao gồm liệu quản lý thuê bao Vinaphone (CCBS), số liệu thông tin khách hàng, số liệu cƣớc, số liệu khiếu nại, + Xử lý trích xuất liệu: ƣớc mà công việc thực tiền xử lý trích xuất liệu để đƣa vào mơ h nh phân tích Dựa vào hiểu biết nghiệp vụ công việc nhƣ qua qu tr nh tham khảo c c đồng nghiệp nhiều kinh nghiệm doanh nghiệp để lựa chọn chắt lọc liệu có liên quan mật thiết đến tốn + Mơ h nh phân tích: Trong ƣớc này, ta thực mơ hình hóa liệu đƣợc xử lý từ ƣớc trƣớc để xây dựng c c mô h nh liệu 38 + Đ nh gi kết quả: Đ nh gi kết sau trình thực 3.2 Đề xuất giải pháp cho toán dự đoán thuê bao Vinaphone thực MNP (chuyển mạng giữ số) qua nhà mạng khác 3.2.1 Thực trạng chung - Từ ngày 16/11/2018, ba nhà mạng lớn Vinaphone, Viettel Mobifone thức cung cấp d ch vụ chuyển mạng giữ số (mobile number portability MNP) cho thuê bao trả sau từ ngày 1/1/2019, nhà mạng thứ tƣ Vietnammo ile tham gia d ch vụ - Theo thống kê từ số nƣớc triển khai MNP, có khoảng 5% tổng số thuê bao toàn th trƣờng tiến hành chuyển mạng Một số nhận đ nh cho số thực tế Việt Namcó thể lớn vào khoảng đến 10% Tính đến hết tháng 6/2019, nƣớc ta có 51,128,599 thu ao di động (bao gồm 3G,4G) Nhƣ vậy, khả n ng có hàng triệu khách hàng tham gia chuyển mạng, gây t c động không nhỏ đến th phần, doanh thu lợi nhuận từ nhà cung cấp d ch vụ Lúc này, nhà mạng nhận đƣợc tỷ lệ nhiều thu ao chuyển đến c hội gia t ng th phần, lợi cạnh tranh nhƣ hiệu kinh doanh - Theo chuyên gia, việc chuyển mạng khách hàng bắt nguồn từ nhiều l Trƣớc hết hạn chế chất lƣợng hạ tầng nhƣ: s ng yếu, độ phủ sóng kém, chất lƣợng mạng chậm công nghệ lạc hậu (chƣa triển khai 4G) Tiếp đến yếu tố cạnh tranh giá, d ch vụ ch m s c kh ch hàng Do đ , c c nhà mạng phải liên tục đầu tƣ nâng cấp hạ tầng, công nghệ sẵn sàng tham gia “cuộc chiến” giá khuyến mại thời gian dài Nhà cung cấp đƣa đƣợc chiến lƣợc đắn, x c có khả n ng “giữ chân” c c thu ao có hấp dẫn thêm nhiều thuê bao từ nhà mạng khác chuyển sang - Việc đƣa đ nh hƣớng xác đề kh kh n cho ngƣời quản tr , cần có hỗ trợ từ nhiều phía, đ việc phân tích, khai phá liệu c để tìm chìa khóa cho câu trả lời yếu tố vô quan trọng 39 3.2.2 Giải pháp sử dụng kỹ thuật khai phá liệu Hình 3.2: Mơ hình dự sử dụng KPDL - Đây giải pháp áp dụng kỹ thuật khái phá liệu vào q trình phân tích Giải ph p đ p ứng yêu cầu xử lý số lƣợng liệu lớn khoảng thời gian ngắn - Để rút ngắn thời gian xử lý liệu mơ hình, ƣớc Xử lý trích xuất liệu ta sử dụng thuật tốn trích chọn đặc trƣng để tìm thuộc tính phù hợp với thuật toán khai phá DL - Một số thuật tốn trích chọn đặc trƣng: + Trích chọn theo Correlation- ased: Đ nh gi gi tr tập hợp thuộc tính cách xem xét khả n ng ti n đo n ri ng rẽ thuộc tính với mức độ dƣ thừa chúng (M A Hall (1998) Correlation-based Feature Subset Selection for Machine Learning) + Trích chọn theo độ đo GainRatio: Đ nh gi gi tr thuộc tính c ch đo GainRatio thuộc tính trình phân lớp: GainR(Class, Attribute) = (H(Class) - H(Class | Attribute)) / H(Attribute) + Trích chọn theo độ đo InfoGain: Đ nh gi gi tr thuộc tính c ch đo InfoGain li n quan đến phân lớp InfoGain(Class,Attribute) = H(Class) - H(Class | Attribute) + Trích chọn theo phƣơng ph p PCA (principal components analysis – Phân tích thành phần chính) 40 3.2.3 Đề xuất mơ hình áp dụng thực tế - Mơ h nh đề xuất áp dụng thực tế: Hình 3.3: Mơ hình đề xuất áp dụng thực tế - Hệ thống thu thập liệu: có chức n ng lấy liệu từ hệ thống điều hành sản xuất kinh doanh doanh nghiệp: CSS, CCBS, Dữ liệu bao gồm: liệu thông tin khách hàng, số liệu cƣớc, thông tin khiếu nại, - Hệ thống xử l lƣu trữ liệu: hệ thống sở liệu VNPT Thanh Hóa Các liệu đƣợc thu thập lƣu trữ database - Mơ hình phân tích liệu: Sử dụng kết nối từ phần mềm Weka đến database doanh nghiệp để phân tích đƣa dự đo n t nh trạng thuê bao Vinaphone thực chuyển đổi sang nhà mạng khác (MNP) - Đ nh gi kết áp dụng: Đ nh gi kết dự đo n đƣợc đƣa ra, p dụng vào thực tế sản xuất kinh doanh doanh nghiệp Do đặc thù tình hình kinh doanh doanh nghiệp thay đổi, ảnh hƣởng đến hành vi, lựa chọn khách hàng nên mô hình phải thay đổi theo tình hình thực tế 41 3.3 Thực nghiệm giải pháp 3.3.1 Chuẩn bị liệu - Dữ liệu đƣợc thu thập từ hệ thống điều hành sản xuất kinh doanh VNPT Thanh Hóa - Dữ liệu bao gồm: + Thơng tin th bao : thông tin g i cƣớc sử dụng, thời gian cam kết, đối tƣợng kh ch hàng, c c t c động thay đổi phần mềm điều hành sản xuất kinh doanh + Thông tin cƣớc thuê bao : thông tin gi cƣớc, sản lƣợng tin nhắn SMS, thoại, data, Là thông tin thể doanh thu mà khách hàng chi trả cho d ch vụ Vinaphone + L ch sử khiếu nại khách hàng : thông tin lần khiếu nại khách hàng Bao gồm: số lần khiếu nại, nguyên nhân, kết qủa xử lý, + Một số thông tin khác - Thực tiến hành tiền xử lý liệu: + Loại bỏ ghi thiếu thông tin cần thiết + Loại bỏ ghi bất thƣờng + Chuẩn hóa liệu *Thông tin chi tiết c c trƣờng liệu đƣợc thu thập từ sở liệu Vinaphone : STT T n trƣờng Ý nghĩa MA_GOI_CUOC Mã g i cƣớc thuê bao NGAY_BDAU Ngày bắt đầu g i cƣớc NGAY_HHAN Ngày hết hạn g i cƣớc DOI_TUONG Đối tƣợng khách hàng TRANG_THAI Trạng thái thuê bao RANK_ID Hạng khách hàng thân thiết 42 SMS_VINA_1 Doanh thu SMS nội mạng tháng n-1 SMS_KHAC_1 Doanh thu SMS ngoại mạng tháng n-1 THOAI_VINA_1 Doanh thu thoại nội mạng tháng n-1 10 THOAI_KHAC_1 Doanh thu thoại ngoại mạng tháng n-1 11 DATA_1 Doanh thu data tháng n-1 12 SMS_VINA Doanh thu SMS nội mạng tháng n 13 SMS_KHAC Doanh thu SMS ngoại mạng tháng n 14 THOAI_VINA Doanh thu thoại nội mạng tháng n 15 THOAI_KHAC Doanh thu thoại ngoại mạng tháng n 16 DATA Doanh thu data tháng n 17 KIEU_SDUNG Kiểu sử dụng (Trả trƣớc/ trả sau) 18 TIEN_DU Số tiền dƣ tài khoản 19 NO_CUOC Số tiền nợ 20 TONG_PS Tổng tiền phát sinh tháng 21 SUM_DURATION_I1 Số phút TB ngoại mạng gọi đến tháng n-1 22 SUM_DURATION_I Số phút TB ngoại mạng gọi đến tháng n 23 SUM_DURATION_O1 Số phút gọi đến TB ngoại mạng tháng n-1 24 SUM_DURATION_O Số phút gọi đến TB ngoại mạng tháng n 25 NUM_SMS_I1 Số SMS đến từ TB nội mạng tháng n-1 26 NUM_SMS_I Số SMS đến từ TB nội mạng tháng n 27 NUM_SMS_O1 Số SMS đến từ TB ngoại mạng tháng n-1 28 NUM_SMS_O Số SMS đến từ TB ngoại mạng tháng n 29 SUM_AMOUNT_1 Số tiền nạp tháng n-1 30 SUM_AMOUNT Số tiền nạp tháng n 31 NUM_KMAI_1 Số lần tham gia khuyến tháng n-1 32 NUM_KMAI Số lần tham gia khuyến tháng n 33 DAY_PSC_1 Số ngày ph t sinh cƣớc tháng n-1 34 DAY_PSC Số ngày ph t sinh cƣớc tháng n 43 35 NUM_KHIEUNAI Số lần khiếu nại 36 MNP Đ nh dấu MNP chƣa 3.3.2 Sử dụng phần mềm Wekatiến hành thực nghiệm * Công cụ thực nghiệm - Máy tính cài hệ điều hành Windown 10 Pro - Cấu hình : + RAM : 8GB + CPU : Intel Core i7 - 6500U - Luận v n sử dụng phần mềm Weka version 3.8.2 - 64bit * Tiến hành thực nghiệm - Giao diện phần mềm Weka Hình 4.1 : Giao diện khởi động Weka 44 Hình 4.2 : Giao diện Weka - Weka làm việc đƣợc với nhiều đ nh dạng liệu : *.arff, *.csv, *.json, *.data, - Luận v n sử dụng đ nh dạng liệu *.arff để nhập liệu l n chƣơng tr nh - Dữ liệu tập kh ch hàng đƣợc trích xuất từ liệu thực tế sở liệu VNPT Thanh Hóa 45 Hình 4.3: Giao diện Weka sau nhập từ file arff - Tập liệu huấn luyện tập chứa 66% số liệu liệu đầu vào đƣợc nhập l n chƣơng tr nh - Tập liệu kiểm chứng tập chứa 34% số liệu lại liệu đầu vào - Sử dụng thuật toán phân lớp C4.5 đƣợc chƣơng tr nh h a tr n phần mềm Weka J48 46 Hình 4.4: Sử dụng thuật tốn C4.5 để thực nghiệm - Kết thực nghiệm : Hình 4.5 : Kết thực nghiệm 47 Với liệu bao gồm 38,280 ghi tƣơng ứng với 38,280 số thuê bao di động Vinaphone Chƣơng tr nh đƣa kết nhƣ sau: Dự đo n MNP Dự đo n không Tổng MNP Số thuê bao MNP 771 74 845 Số thuê bao không 147 37288 37435 MNP Kết lần thực nghiệm c độ xác nhƣ sau: STT T n độ đo Giá tr Accuracy – Độ chuẩn xác (%) 99,4 Error_Rate (%) 0,6 Recall – Độ hồi tƣởng (%) 91,2 Precision – Độ xác (%) 84 Thời gian xây dựng mô h nh (giây) Trong đ : 3.3.3 Đánh giá kết thực nghiệm * Ƣu điểm : - Từ kết trình thực nghiệm, ta nhận thấy giải ph p đem đến kết với xác cao, sai số nằm mức chấp nhận đƣợc Ƣu điểm phƣơng ph p thể tốc độ thực thi cao, thời gian đƣa dự đo n ngắn, phù hợp với yêu cầu trình sản xuất kinh doanh * Hạn chế: - Do đề tài sử dụng thuật tốn C4.5 nên liệu có q nhiều lớp có khả n ng gây lỗi Dữ liệu nhiều phức tạp thời gian huấn luyện lâu - Dữ liệu đƣợc thu thập khoảng thời gian ngắn dẫn đến hiệu thực tiễn chƣa thực cao 48 49 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận - Luận v n tr nh ày giải pháp áp dụng thuật toán khai phá liệu nhằm hỗ trợ cho VNPT Thanh Hóa q trình sản xuất kinh doanh, mà cụ thể mảng d ch vụ di động Đây mảng d ch vụ c biến động lớn th trƣờng việc cung cấp d ch vụ MNP (chuyển mạng giữ số) - Do q trình sản xuất kinh doanh ln khơng ngừng thay đổi, c c đ nh hƣớng phát triển nhằm giữ chân c c thu ao cũ thu hút c c thu ao từ nhà mạng khác chuyển sang gây ảnh hƣởng tới thói quen khách hàng Điều gây ảnh hƣởng tới xác chƣơng tr nh Để đạt đƣợc kết tốt nhất, chƣơng tr nh phải có điều chỉnh cho phù hợp với thay đổi th trƣờng, thói quen cách đ nh ngƣời sử dụng d ch vụ Kiến nghị - Tìm hiểu số thuật to n kh c nhƣ C5.0 nhằm nâng cao hiệu n ng giảm nhớ sử dụng thực - Thu thập thêm liệu khách hàng khoảng thời gian dài - Xây dựng hệ thống dự đo n cho c c d ch vụ kh c đƣợc VNPT Thanh Hóa cung cấp 50 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Lê Th Cẩm Bình, Trí tuệ nhân tạo – Một phƣơng diện v n h a ứng dụng [2] Nguyễn Đức Cƣờng, “Slide ài giảng môn học BI & DM: Bussiness Intellegent and Data Mining”, 2011-2012 Tài liệu tiếng Anh [3] Anurag Srivastava, Eui- Hong Han, Vipin Kumar, Vieet Singh Parallel Formulations of Decision-Tree Classification Algorithm Kluwer Academic Publisher, 1999 [4] ID3 algorithm, https://en.wikipedia.org/wiki/ID3_algorithm (25/9/2019) [5] John Ross Quinlan, Induction of decision trees, in Machine Learning 1986.p 81-106 [6] Mohammed J Zaki, Ching-Tien Ho, Rekesh Agrawal Parallel Classification for Data Mining on Shared-Memory Multiprocessors IVM Almaden Research Center, San Jose, CA 95120 [7] Ron Kohavi, J Ross Quinlan Decision Tree Discovery, 1999 [8] Ian H Witten, Ei e Frank (1999), “Data Mining: Practical Machine Learning Tools and Techniques”, p 11 [9] The Morgan Kaufmann Series in Data Management Systems, Jim Gray Datamining- Concepts and Techniques, Chapter 7-Classification and Prediction Series Editor Morgan Kaufmann Publishers, August 2000 Website: [10] Cây đ nh, https://vi.wikipedia.org/wiki/C%C3%A2y_quy%E1%BA%BFt_%C4%91%E1% BB%8Bnh , (07/09/2019) [11] Dữ liệu ngân hàng : Khai ph để ứng dụng, https://www.vietinbank.vn/web/home/vn/news/16/08/du-lieu-ngan-hang-khaipha-de-ung-dung.html, (10/09/2019) 51 [12] Iterative Dichotomiser 3, https://machinelearningcoban.com/2018/01/14/id3/, (07/09/2019) [13] Naive Bayes Classifier, https://machinelearningcoban.com/2017/08/08/nbc/, (05/09/2019) [14] Phƣơng ph p đ nh quản tr , http://eba.htu.edu.vn/nghiencuu/phuong-phap-ra-quyet-dinh-quan-tri.html, (10/09/2019) [15] Tổng quan Data mining, https://bigdatauni.com/vi/tin-tuc/tong-quan-vedata-mining-p1-data-mining-la-gi.html, (17/08/2019)