Trang 1 BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC DUY TÂNTRẦN THỊ NHƯ TRANGỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG PHÂN TÍCH HÀNHVI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ SỬ DỤNG DỊCH VỤ VNPT TẠI VIỄN
Mục tiêu nghiên cứu
- Nghiên cứu phương pháp phân lớp trên CSDL khách hàng củaVTQT nhằm phân tích hành vi khách hàng.
- Phân tích được đặc điểm của các mẫu dữ liệu trong CSDL khách hàng của VTQT tìm ra được mối quan hệ giữa các đặc điểm của từng hành vi khách hàng Từ đó làm cơ sở để đề xuất ứng dụng thuật toán khai phá luật kết hợp từ CSDL khách hàng của VTQT.
Đối tượng và phạm vi nghiên cứu
- Đối tượng của nghiên cứu này là phương pháp phân lớp, luật kết hợp và thuật toán khai phá luật kết hợp trong CSDL khách hàng của VTQT.
- Các hành vi của khách hàng trong lĩnh vực Viễn thông.
- Phạm vi về không gian: luận văn đề xuất phương pháp phân lớp và khai phá luật kết hợp trong CSDL của VTQT.
- Phạm vi về thời gian: Các phương pháp phân lớp và khai phá luật kết hợp kết hợp với phân tích hành vi khách hàng được công bố từ năm 2010 trở lại đây.
Phương pháp nghiên cứu
Xét về phương pháp luận, luận văn này sử dụng phương pháp nghiên cứu lý luận; phương pháp tổng kết kinh nghiệm thực tiễn các nghiên cứu trước đó có liên quan đến luận văn; phương pháp thử nghiệm; phương pháp nghiên cứu định tính và định lượng.
Ý nghĩa lý luận và thực tiễn của đề tài
- Phân tích được đặc điểm dữ liệu của VTQT để có thể đề xuất giải pháp khai phá phù hợp.
- Hệ thống hóa các phương pháp khai phá dữ liệu và ý nghĩa của chúng (trong đề tài tập trung vào phương pháp phân lớp và khai phá luật kết hợp).
- Phương pháp phân lớp giúp đưa ra các dự đoán về hành vi của khách hàng (đối tượng nào có nguy cơ rời mạng, đối tượng nào có nguy cơ nợ cước dịch vụ, ) và giúp đưa ra các tập khách hàng tiềm năng phát triển các dịch vụ/nhóm dịch vụ mang lại hiệu quả cao cho kinh doanh của công ty.
- Luật kết hợp khai thác được có ý nghĩa quan trọng đối với chuyên quản quản lý dịch vụ, lãnh đạo, người quản lý doanh nghiệp biết được tình hình phát triển dịch vụ, nhu cầu kết hợp các dịch vụ của khách hàng từ đó đưa ra được các quyết định, chính sách phù hợp với từng thời điểm và từng đối tượng khách hàng cụ thể.
Hướng tiếp cận của luận văn
Thiết kế nghiên cứu
Tổng quan hóa các kiến thức về phương pháp phân lớp và khai phá luật kết hợp Tìm hiểu về CSDL khách hàng của VTQT đồng thời thực hiện khai phá bằng các thuật toán điển hình của 2 phương pháp trên.
Mục đích nghiên cứu
- Nắm bắt các kỹ thuật chính về kỹ thuật phân lớp và khai phá luật kết hợp.
- Phân lớp khách hàng nhằm phân tích dự đoán các nguy cơ có thể xảy ra căn cứ trên lịch sử dữ liệu của khách hàng tại VTQT đồng thời xây dựng được các tập khách hàng tiềm năng phục vụ cho công tác bán hàng và phát triển dịch vụ.
- Khai phá các luật kết hợp nhằm phân tích để tìm ra các tri thức hữu ích giúp cho công tác ra quyết định và ĐHSXKD.
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÂN TÍCH HÀNH VI KHÁCH HÀNG
Khai phá dữ liệu
1.1.1 Tổng quan về khai phá dữ liệu
Khai phá dữ liệu (Data mining - MD) là một khái niệm ra đời vào những năm cuối của thập kỷ 80 Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất, khai phá dữ liệu có liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu.
Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm phát hiện tri thức trong cơ sở dữ liệu, để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn Trong đó khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu hay các mô hình từ dữ liệu Ở một mức độ trừu tượng nhất định có thể định nghĩa: Khai phá dữ liệu (Data Mining) là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong CSDL lớn Quá trình khai phá dữ liệu được thể hiện như hình 1.1.
Khai phá tri thức (KDD) là mục tiêu chính của khai phá dữ liệu, do vậy hai khái niệm đó được xem như hai lĩnh vực tương đương nhau. Nhưng, nếu phân chia một cách tách bạch thì khai phá dữ liệu là một bước chính trong quá trình KDD.
Hình 1.0.1 Quá trình khai phá dữ liệu
1.1.2 Quá trình khai phá tri thức trong cơ sở dữ liệu
Khai phá tri thức trong CSDL ( Knowledge Discovery in Databases
- KDD) là lĩnh vực liên quan đến các ngành như: thống kê, học máy,
CSDL, thuật toán, trực quan hóa dữ liệu, tính toán song song và hiệu năng cao,…
Quá trình KDD có thể phân thành các giai đoạn sau:
- Trích chọn dữ liệu (Data selection): Là bước trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn (databases, data warehouses, data repositories) ban đầu theo một số tiêu chí nhất định.
- Tiền xử lý dữ liệu (Data preprocessing): Là bước làm sạch dữ liệu (xử lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán,.v.v.), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu,.v.v.), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng,.v.v.) Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa.
- Biến đổi dữ liệu (Data transformation): Là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau.
- Khai phá dữ liệu (Data mining): Là bước áp dụng những kỹ thuật phân tích (phần nhiều là các kỹ thuật của học máy) nhằm để khai thác dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu Đây được xem là bước quan trọng và tốn nhiều thời gian nhất của toàn quá trình KDD.
- Đánh giá và biểu diễn tri thức (Knowlwdge representation and evaluation): Dùng các kỹ thuật hiển thị dữ liệu để trình bày những mẫu thông tin (tri thức) và mối liên hệ trong dữ liệu đã được khám phá ở bước trên được chuyển dạng và biểu diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định.
Khai phá dữ liệu là một bước của quá trình khai thác tri thức (Knowledge Discovery Process), bao gồm:
+ Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding).
+ Chuẩn bị dữ liệu (Data preparation): bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation).
+ Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu Kết quả cho ta một nguồn tri thức thô.
+ Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được.
+ Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua.
1.1.3 Các kỹ thuật khai phá chính
Nếu đứng trên quan điểm của học máy (Machine Learning), thì các kỹ thuật trong Data Mining [3], bao gồm:
- Học có giám sát (Supervised learning): Là quá trình gán nhãn lớp cho các phần tử trong CSDL dựa trên một tập các dữ liệu huấn luyện và các thông tin về nhãn lớp đã biết.
- Học không có giám sát (Unsupervised learning): Là quá trình phân chia một tập dữ liệu thành các lớp hay là cụm (clustering) dữ liệu tương tự nhau mà chưa biết trước các thông tin về lớp hay tập các ví dụ huấn luyện.
- Học bán giám sát (Semi - Supervised learning): Là quá trình phân chia một tập dữ liệu thành các lớp dựa trên một tập nhỏ các dữ liệu huấn luyện và một số các thông tin về một số nhãn lớp đã biết trước.
Nếu căn cứ vào lớp các bài toán cần giải quyết, thì Data Mining bao gồm các kỹ thuật sau Một số kỹ thuật cốt lõi, được sử dụng trong khai phá dữ liệu nhằm mô tả kiểu hoạt động khai phá và hoạt động phục hồi dữ liệu.
Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu nhờ vào tính ứng dụng thực tiễn của nó Một trong số ứng dụng điển hình như:
+ Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis and dicision support).
+ Phân tích và quản lý thị trường: Tiếp thị định hướng, quản lý quan hệ khách hàng, phân tích thói quen mua sắm, tiếp thị chéo, phân đoạn thị trường.
+ Phân tích và quản lý rủi ro: dự báo, duy trì khách hàng, cải thiện bảo lãnh, kiểm soát chất lượng, phân tích cạnh tranh.
+ Phát hiện gian lận, phát hiện mẫu bất thường.
- Tài chính và thị trường chứng khoán: phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán, danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận…
- Điều trị và chăm sóc y tế: Một số thông tin về chuẩn đoán lưu bệnh trong các hệ thống quản lý bệnh viện Phân tích mối liên hệ giữa triệu chứng bệnh, chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc )
- Text mining & Web mining: Phân lớp văn bản và các trang web, tóm tắt văn bản…
- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số bệnh di truyền
- Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, phát hiện gian lận, các ứng dụng quản lý và chăm sóc khách hàng, phát hiện sự cố để đưa ra biện pháp phát triển chất lượng dịch vụ…
Ứng dụng khai phá dữ liệu trong viễn thông
Ngành công nghiệp viễn thông tạo ra và lưu trữ một lượng lớn dữ liệu Những dữ liệu này bao gồm dữ liệu chi tiết cuộc gọi, mô tả các cuộc gọi đi qua mạng viễn thông, dữ liệu mạng, mô tả trạng thái của các thành phần phần cứng và phần mềm trong mạng và dữ liệu khách hàng, mô tả khách hàng viễn thông Lượng dữ liệu quá lớn nên việc phân tích dữ liệu theo cách thủ công là rất khó, nếu không muốn nói là không thể Nhu cầu xử lý khối lượng lớn dữ liệu đã dẫn đến sự phát triển của các hệ thống chuyên gia dựa trên tri thức Các hệ thống tự động này thực hiện các chức năng quan trọng như xác định các cuộc gọi điện thoại gian lận và xác định lỗi mạng Vấn đề của cách tiếp cận này là tốn nhiều thời gian để có được kiến thức từ các chuyên gia về con người (“nút thắt tiếp thu kiến thức”) và, trong nhiều trường hợp, các chuyên gia không có kiến thức cần thiết Sự ra đời của công nghệ khai thác dữ liệu hứa hẹn giải pháp cho những vấn đề này và vì lý do này, ngành viễn thông đã sớm áp dụng công nghệ khai thác dữ liệu Các ứng dụng này được chia thành các lĩnh vực ứng dụng: phát hiện gian lận, tiếp thị viễn thông, quản lý mạng và dự đoán rời mạng (churn).
Gian lận là một vấn đề nghiêm trọng đối với các công ty viễn thông, dẫn đến doanh thu bị mất hàng tỷ đô la mỗi năm Phương pháp phổ biến nhất để xác định hành vi gian lận là xây dựng hồ sơ về hành vi gọi điện của khách hàng và so sánh hoạt động gần đây với hành vi này Do đó, ứng dụng khai thác dữ liệu này dựa vào việc phát hiện độ lệch Hành vi gọi được ghi lại bằng cách tóm tắt các bản ghi chi tiết cuộc gọi cho một khách hàng Nếu các bản tóm tắt chi tiết cuộc gọi được cập nhật theo thời gian thực, gian lận có thể được xác định ngay sau khi nó xảy ra Một hệ thống phát hiện gian lận tăng cường cách tiếp cận cơ bản này bằng cách so sánh hành vi gọi điện mới với hồ sơ gian lận chung và chỉ báo hiệu gian lận nếu hành vi khớp với một trong những hồ sơ này Khai thác dữ liệu cũng có thể giúp phát hiện gian lận bằng cách xác định và lưu trữ những số điện thoại được gọi khi một điện thoại được xác định là bị sử dụng gian lận Nếu nhiều cuộc gọi bắt nguồn từ một điện thoại khác đến các số trong danh sách các số điện thoại “tình nghi” này, người ta có thể suy ra rằng tài khoản đang bị sử dụng gian lận [4]
Trong vài năm qua, sự chú trọng của các ứng dụng tiếp thị trong ngành viễn thông đã chuyển từ việc xác định khách hàng mới sang đo lường giá trị khách hàng và sau đó thực hiện các bước để giữ chân những khách hàng có lợi nhất Các mẫu và mô hình được khám phá trong dữ liệu có thể được sử dụng thành công cho các mục đích tiếp thị, bán hàng và CRM, ví dụ như để chỉ định và quản lý chiến dịch, cải thiện hiệu quả kênh, phát triển chương trình khách hàng thân thiết, phân tích bán thêm và bán kèm, dự đoán doanh số bán sản phẩm và xu hướng của khách hàng, dự đoán và quản lý rời mạng, chăm sóc khách hàng tốt hơn và CRM phân tích hiệu quả hơn [5]
Giám sát và bảo trì mạng viễn thông là một nhiệm vụ quan trọng. Khi các mạng này ngày càng trở nên phức tạp, các hệ thống chuyên gia được phát triển để xử lý các cảnh báo do các phần tử mạng tạo ra Tuy nhiên, vì các hệ thống này tốn kém để phát triển và duy trì hiện tại, các ứng dụng khai thác dữ liệu đã được phát triển để xác định và dự đoán các lỗi mạng Việc xác định lỗi có thể khá khó khăn vì một lỗi duy nhất có thể dẫn đến một loạt các cảnh báo nhiều trong số đó không liên quan đến nguyên nhân gốc rễ của vấn đề Do đó, một phần quan trọng của việc xác định lỗi là tương quan cảnh báo, cho phép nhiều cảnh báo được nhận dạng là có liên quan đến một lỗi duy nhất [6]
Một vấn đề khá phổ biến ở các công ty viễn thông hiện là sự thay đổi nhà cung cấp dịch vụ của khách hàng (customer churn) đặc biệt với các công ty điện thoại di động Đây là vấn đề khá nghiêm trọng ảnh hưởng đến tốc độ phát triển thuê bao, cũng như doanh thu của các nhà cung cấp dịch vụ Thời gian gần đây các nhà cung cấp dịch vụ di động luôn có chính sách khuyến mãi lớn để lôi kéo khách hàng Điều đó dẫn đến một lượng không nhỏ khách hàng thường xuyên thay đổi nhà cung cấp để hưởng những chính sách khuyến mãi đó Kỹ thuật KPDL hiện nay có thể dựa trên dữ liệu tiền sử để tìm ra các quy luật, từ đó có thể tiên đoán trước được khách hàng nào có ý định rời khỏi mạng trước khi họ thực hiện Dựa trên các kỹ thuật KPDLnhư cây quyết định (decision tree), mạng nơ ron nhân tạo (neural nerwork) trên dữliệu cước (billing data), dữ liệu chi tiết cuộc gọi (call detail data), dữ liệu khách hàng (customer data) tìm ra các quy luật mà dựa trên đó ta có thể tiên đoán trước ý định rời khỏi mạng của khách hàng, từ đó công ty viễn thông sẽ có các ứng xử phù hợp nhằm lôi kéo khách hàng.
Trong môi trường kinh doanh, thuật ngữ, sự tiêu hao của khách hàng chỉ đơn giản là đề cập đến việc khách hàng rời bỏ dịch vụ kinh doanh này để chuyển sang dịch vụ kinh doanh khác Từ quan điểm học máy, dự đoán rời mạng (churn) là một vấn đề được giám sát (nghĩa là được gắn nhãn) được định nghĩa như sau: Với một đường dự báo được xác định trước, mục tiêu là dự đoán thời gian rời mạng trong tương lai trên đường xác định đó, dựa trên dữ liệu được liên kết với mỗi thuê bao trong mạng Bài toán dự đoán dự đoán rời mạng (churn) liên quan đến 3 giai đoạn, đó là: giai đoạn đào tạo, giai đoạn thử nghiệm, giai đoạn dự đoán Đầu vào cho vấn đề này bao gồm dữ liệu về các cuộc gọi trước đây của mỗi thuê bao di động, cùng với tất cả thông tin cá nhân và doanh nghiệp được nhà cung cấp dịch vụ duy trì Ngoài ra, đối với giai đoạn đào tạo, các nhãn được cung cấp dưới dạng danh sách các bộ khuấy Sau khi mô hình được huấn luyện với độ chính xác cao nhất, mô hình phải có khả năng dự đoán danh sách các bộ khuấy từ tập dữ liệu thực không bao gồm bất kỳ nhãn churn nào Trong quan điểm của quá trình khám phá tri thức, vấn đề này được phân loại là khai thác dự đoán hoặc mô hình dự đoán Dự đoán Churn là một hiện tượng được sử dụng để xác định trước những sự cố có thể xảy ra trước khi khách hàng rời khỏi mạng Điều này giúp bộ phận CRM ngăn chặn những người đăng ký có khả năng rời đi trong tương lai bằng cách thực hiện các chính sách cam kết bắt buộc để thu hút những người có khả năng không thích và giữ chân họ Qua đó, công ty có thể tránh được khả năng thua lỗ [7] Ứng dụng khai phá dữ liệu dựa trên việc xem xét luật kết hợp giữa các dịch vụ viễn thông khách hàng sử dụng Hiện nay trên một đường điện thoại khách hàng sử dụng rất nhiều dịch vụ khác nhau, ví dụ như : gọi điện thoại, truy cập internet, tra cứu thông tin từ hộp thư tự động, nhắn tin, gọi 108, v.v Dựa trên cơ sở dữ liệu khách hàng chúng ta có thể khám phá mối liên kết trong việc sử dụng các dịch vụ, có thể đưa ra các luật như (khách hàng gọi điện thoai quốc tế) => (truy cập internet) v.v. Trên cơ sở phân tích được các luật như vậy các công ty viễn thông có thể điều chỉnh việc bố trí nơi đăng ký các dịch vụ phù hợp, ví dụ điểm đăng ký điện thoại quốc tế nên bố trí gần với điểm đăng ký Internet chẳng hạn.
Một ứng dụng phục vụ chiến lược kinh doanh khác đó là dựa trên kỹ thuật luật kết hợp của KPDL để tìm ra tập các thành phố, tỉnh nào trong nước thường gọi điện thoại với nhau Ví dụ ta có thể tìm ra tập phổ biến (Cần Thơ, HCM, Hà Nội) chẳng hạn Điều này thật sự hữu dụng trong việc hoạch định chiến lược tiếp thị hoặc xây dựng các vùng cước phù hợp.
Cuối cùng, một ứng dụng cũng rất phổ biến đó là phân lớp khách hàng (classifying) Dựa vào kỹ thuật KPDL học trên cây quyết định (decision tree) trên dữ liệu khách hàng và chi tiết cuộc gọi có thể tìm ra các luật để phân loại khách hàng Ví dụ ta có thể phân biệt được khách hàng nào thuộc đối tượng kinh doanh hay cá nhân dựa vào các luật sau:
+ Luật 1: nếu không quá 43% cuộc gọi có thời gian từ 0 đến 10 giây và không đến 13% cuộc gọi vào cuối tuần thì đó là khách hàng kinh doanh.
+ Luật 2 : Nếu trong 2 tháng có các cuộc gọi đến hầu hết từ 3 mã vùng giống nhau và Y, với X, Y ⊂ I là các tập mục, và X ∩ Y = ∅ Trong đó, X được gọi là tiền đề, còn Y là mệnh đề kết quả. Để hạn chế việc phát sinh quá nhiều các luật không có ý nghĩa người ta đề nghị sử dụng các thước đo tiêu chuẩn cho một luật kết hợp đó là độ hỗ trợ (support) và độ tin cậy (confidence) của luật, cả hai độ đo này đều được tính toán từ độ hỗ trợ của các tập mục thường xuyên. Định nghĩa 1.5.3.2 Độ hỗ trợ của luật kết hợp X=>Y là tỷ lệ các giao tác chứa X ∪ Y so với tổng số các giao tác có trong bảng dữ liệu.
Trong đó, |X ∪ Y| là số giao tác chứa cả X và Y, N là số giao tác có trong cơ sở dữ liệu. Định nghĩa 1.5.3.3 Độ tin cậy của luật kết hợp X=>Y là tỷ lệ số các giao tác chứa X ∪ Y so với số các giao tác chứa X.
Hai tiêu chuẩn độ đo trên cũng sẽ không đủ cho việc hạn chế bớt số tập luật phát sinh để chỉ còn các tập luật hữu ích mà còn cần đến nhiều thước đo bổ sung mà quan trọng nhất là theo kinh nghiệm của người sử dụng.
Trong khai phá các luật kết hợp, người ta chỉ quan tâm đến các luật có độ hỗ trợ lớn hơn hoặc bằng một ngưỡng hỗ trợ tối thiểu(minsup) và độ tin cậy lớn hơn hoặc bằng một ngưỡng tin cậy tối thiểu(minconf) gọi là các luật kết hợp phổ biến Bài toán khai phá các luật kết hợp từ các bảng dữ liệu là bài toán tìm tất cả các luật kết hợp có độ hỗ trợ và độ tin cậy lớn hơn hoặc bằng ngưỡng độ hỗ trợ tối thiểu và ngưỡng độ tin cậy tối thiểu cho trước Trong luận văn này, các ngưỡng hỗ trợ tối thiểu và ngưỡng tin cậy tối thiểu được kí hiệu lần lượt là δ và σ Định nghĩa 1.5.2.2 Cho ngưỡng hỗ trợ tối thiểu δ, tập mục X ⊂ I được gọi là tập mục thường xuyên (frequent itemset) nếu supp(X) ≥ δ
Khi khai thác cơ sở dữ liệu, tùy vào từng bài toán mà người ta cho trước ngưỡng tối thiểu ở một mức độ phù hợp.
Trong các bài toán khai phá dữ liệu, số lượng giao tác trong bảng dữ liệu thường được biết trước Do đó, để đơn giản hóa trong việc trình bày nội dung của luận văn, tôi ngầm định số giao tác chứa X trong bảng giao tác T là độ hỗ trợ của X trong T, và do đó ngưỡng hỗ trợ tối thiểu δ đối với X là số tối thiểu các giao chứa X.
Ví dụ 0.1 Cho tập các mục I = {A, B, C, D, E, F, G, H} và dữ liệu giao tác được cho bởi bảng 2.2 như sau:
Khi đó, giả sử cho trước một ngưỡng hỗ trợ tối thiểu là: δ = 3 thì các tập mục thường xuyên là các tập mục có độ hỗ trợ lớn hơn hoặc bằng δ , tức là phải có tần suất xuất hiện trong CSDL là lớn hơn hoặc bằng 3, do đó ta có bảng các tập mục thường xuyên được xác định tại bảng 2.3 như sau:
Bảng 2 2 Tập mục thường xuyên
Tập mục thường xuyên/Độ hỗ trợ ABD/3, ACD/4, BCD/3, CDE/3 AB/4, AC/5, AD/6, BC/4, BD/5, CD/6, CE/3, DE/3 A/7, B/6, C/7, D/8, E/3
Các tập mục thường xuyên có ý nghĩa rất lớn trong các bài toán khai phá dữ liệu, và nó là cơ sở để sinh ra các luật kết hợp.
Thuật toán dựa trên một nhận xét khá đơn giản là bất kỳ tập hợp con nào của tập xuất hiện δ thường xuyên cũng là tập xuất hiện δ – thường xuyên Do đó, trong quá trình đi tìm các tập ứng cử viên, nó chỉ cần dùng đến các tập ứng cử viên vừa xuất hiện ở bước ngay trước đó, chứ không cần dùng đến tất cả các tập ứng cử viên (cho đến thời điểm đó) Nhờ vậy, bộ nhớ được giải phóng đáng kể.
Bước 1: cho trước ngưỡng độ hỗ trợ 0 ≤δ≤1 Tìm tất cả các mặtδ≤δ≤1 Tìm tất cả các mặt1 Tìm tất cả các mặt hàng xuất hiện δ–thường xuyên.
Bước 2: Ta tiến hành ghép đôi các phần tử của L 1 (không cần để ý đến thứ tự), được tập C 2 , tạm gọi là tập các ứng cử viên có 2 phần tử Sở dĩ chỉ gọi là “ứng cử viên”, vì chưa chắc chúng đã là δ – thường xuyên. Sau khi kiểm tra (dùng định nghĩa), ta lọc ra được các tập hợp δ– thường xuyên có 2 phần tử Ký hiệu tập hợp này là L 2
Bước 3: Với chủ ý đã nêu (về tính chất tăng dần của các tập hợp δ – thường xuyên), ta tiến hành tìm các ứng cử viên có 3 phần tử (lấy từ
L 1 ) Gọi nó là tập C 3 Lưu ý là nếu {A, B, C} muốn là “ứng cử viên” thì các tập 2 phần tử {A, B},{B,C},{C, A } đều phải là δ – thường xuyên, tức là chúng đều là phần tử của tập L 2 Ta đi “kiểm tra tư cách đại biểu” trong tập C 3 và lọc ra được tập các tập hợp δ – thường xuyên có 3 phần tử Tập hợp này được ký hiệu là L 3
Bước 4: Ta tiến hành tìm các ứng cử viên có n phần tử Gọi tập của chúng là tập C n và từ đây, lọc ra L n là tập tập các tập hợp δ – thường xuyên có n phẩn tử.
Cốt lõi của thuật toán Apriori là hàm apriori_gen() do Agrawal đề nghị năm 1994 Hàm này hoạt động theo 2 bước, bước 1- tập hợp L k-1 tự kết nối (join) với chính nó để tạo ra tập ứng cử viên C k Sau đó hàm apriori_gen() loại bỏ các tập hợp có một hợp con (k-1) phần tử không nằm trong L k-1 (vì chúng không thể là tập hợp xuất hiện δ – thường xuyên, theo như nhận xét ban đầu).
Input : Lớp các tập hợp xuất hiện δ – thường xuyên có (k-1) phần tử, ký hiệu là Lk-1
Output : Lớp các tập hợp xuất hiện δ – thường xuyên có k phần tử, ký hiệu là Luật kết hợp
If (s is not of L k -1) then
Hàm sau đây có nhiệm vụ rà soát từng tính chất và đo đếm xem giá đỡ của nó bằng bao nhiêu Nói cách khác, ở bước đầu tiên Agrawal dùng hàm count() để tìm ra các tập hợp xuất hiện δ – thường xuyên có 1 phần tử.
Function count(C:a set of itemsets, D: database) begin for each transaction T ∈ D = ∪ D i do begin forall subsets x ∈ T do if x ∈ C then x.count++; end end
Dưới đây là toàn bộ Thuật toán Apriori [Agrawal1994]:
//Apriori Algorithm prposed by Agrawal R., Srikant, R.[Agrawal1994]
1) C 1 : = I; // Tập ứng cử viên có 1 phần tử
2) Sinh ra L 1 bằng cách tính tần số xuất hiện của mặt hàng trong các giao dịch;
//Tạo ra các tập ứng cử viên
// Các tập ứng cử viên có k phần tử được sinh ra từ các tập (k-1)- phần tử xuất hiện δ – thường xuyên.
// Tính độ hỗ trợ cho C k
Thuật toán Apriori cải tiến cũng giải quyết 2 tình huống “xấu”, đó là khi C k hoặc L k quá lớn, không chứa đủ trong bộ nhớ tính toán Khi đó, cần tu chỉnh lại hàm apriori_gen().
2.3.2 Thuật toán Apriori nhị phân
Tiến hành khai phá dữ liệu
Toàn bộ các giao dịch của khách hàng đối với Viễn thông QuảngTrị đều được cập nhật thông qua các hệ thống của doanh nghiệp như hệ thống Thông tin khách hàng, hệ thống Điều hành sản xuất kinh doanh và tính cước tập trung, các mobile app,… Và toàn bộ dữ liệu này được lưu trữ trên các hệ thống server của đơn vị Những dữ liệu này được khai thác để phục vụ cho rất nhiều các tác vụ, nghiệp vụ trong nội bộ của doanh nghiệp và thực hiện các tác nghiệp đối với khách hàng,… Dữ liệu được truy xuất bằng các truy vấn Oracle SQL Developer hoặc SQL Navigator 5.5.
3.2 Tiền xử lý dữ liệu
CSDL của VTQT được thu thập và lưu trữ từ nhiều nguồn khác nhau, mặt khác, các thông tin, trường dữ liệu cập nhật trên hệ thống bởi đội ngũ nhiều đối tượng, nhiều nhân viên (giao dịch viên, nhân viên kinh doanh, nhân viên kỹ thuật) cho nên dữ liệu có thể chứa nhiễu, thiếu thông tin hoặc dữ liệu không nhất quán và cần phải làm sạch, biến đổi, thu giảm bằng cách loại bỏ nhiễu, hiệu chỉnh những phần dữ liệu ko nhất quán, chuẩn hóa dữ liệu hoặc bổ sung những thông tin cần thiết Những dữ liệu trong CSDL của VTQT không phải tất cả đều cần thiết hết cho quá trình khai phá dữ liệu Quá trình tiền xử lý được áp dụng để làm sạch và chuẩn hóa dữ liệu nhằm cải thiện chất lượng dữ liệu và do đó cải thiện chất lượng của kết quả khai phá.
Dữ liệu khai phá trong luận văn này là dữ liệu thông tin khách hàng của VTQT (file comma-separated format csv ) gồm 20 thuộc tính và
6500 record, cấu trúc file dữ liệu tại bảng 2.4:
Bảng 2.4 Cấu trúc file dữ liệu
Stt thuộc tính Kiểu dữ liệu Ví dụ Giải thích
Khóa định danh khách hàng
VARCHAR2(250 BYTE) Nguyễn Văn A Tên khách hàng
BYTE) Địa chỉ khách hàng
4 TUOI NUMBER 33 Tuổi khách hàng
5 GIOITINH NUMBER(1,0) Nam, nữ Giới tính
Số lượng dịch vụ cố định
Số lượng dịch vụ Vinaphone
Số lượng dịch vụ MegaVNN
Số lượng dịch vụ MyTV
Số lượng dịch vụ FiberVNN
Cá nhân - Hộ gia đình
Hành chính sự nghiệp khác Tên loại khách hàng
Tình trạng hủy thanh lý dịch vụ (1: có hủy, 0: không hủy)
Doanh thu khách hàng 1 tháng 15
M NUMBER 76 Điểm tín nhiệm khách hàng
VARCHAR2(50 BYTE) Đông Hà, Vĩnh Linh
Tên thành phố, huyện, thị xã
Thời gian dùng dịch vụ (tháng)
18 SOTHANG_NO NUMBER 5 Số tháng nợ cước
GTGT dịch vụ MyTV đang sd
Sử dụng SmartTV (1: có, 0: kh)
Quá trình tiền xử lý dữ liệu:
- Lọc thuộc tính (Filtering Attribute): Loại bỏ các thuộc tính KHACHHANG_ID, TEN_KH, DIACHI_KH vì các thuộc tính này không dùng trong mô hình.
+ Xử lý dữ liệu bị thiếu tại trường TUOI (417 record chiếm 6%) bằng cách dùng giá trị trung bình (mean) thay thế tự động
+ Xử lý dữ liệu bị thiếu tại trường TG_SD bằng cách dùng giá trị phổ biến nhất thay thế tự động.
- Rời rạc hóa dữ liệu (Discretization): Rời rạc hóa giá trị của các trường liên tục là TUOI, DT, DIEM_TINHNHIEM, TG_SD, SOTHANG_NO để chuyển sang dữ liệu nominal với 3 khoảng (bin, interval) vì mô hình khai phá luật kết hợp không làm việc với các kiểu dữ liệu liên tục.
Chương trình thử nghiệm thuật toán được thực hiện trên hệ điều hành Windows 10 bởi máy tính xách tay có cấu hình: Intel(R) Core(TM) i5-7200U CPU, 4 GB RAM, bus 1033
Phần mềm chạy thử nghiệm được lựa chọn là phần mềm Weka được phát triển tại Trường Đại học Waikato ở New Zealand, và được đặt tên là Waikato Environment for Knowledge Analysis (WEKA) Phần mềm này được viết trên Java và phân phối theo các điều khoản của GNUGeneral Public License Nó chạy trên hầu hết các flatform và đã được test trên Linux, Windows, Macintosh Mục đích của phần mềm này là hỗ trợ mạnh cho toàn bộ quá trình data mining, bao gồm chuẩn bị dữ liệu đầu vào, tính toán một cách chi tiết, và trực quan hóa dữ liệu đầu vào cũng như kết quả đầu ra Mặt khác, nó cũng cung cấp một số lượng lớn các công cụ tiền xử lý
3.3.2 Cài đặt và cấu hình phần mềm thử nghiệm
Phần mềm Weka được cài đặt trên máy tính chạy thử nghiệm là bản 3.8.6 là phiên bản ổn định mới nhất (nhận được các bản sửa lỗi và nâng cấp tính năng không phá vỡ khả năng tương thích với các bản phát hành trước đó).
Chạy thử nghiệm từ dữ liệu đầu vào đã được chuẩn bị và xử lý ở mục 3.3.1 (file test_weka_fn.arff) kết hợp với các thuật toán về phân lớp bằng cây quyết định C4.5 và khai phá luật kết hợp bằng thuật toánApriori trình bày tại mục 3.3.2, khai phá trên phần mềm weka.
KẾT QUẢ THỰC NGHIỆM VÀ KẾT LUẬN
Kết quả thực nghiệm
3.1.1 Một số kết quả phân lớp tiêu biểu
Thực hiện phân lớp với cây quyết định J48
Hình 3.1 Các thông số phân lớp với cây quyết định J48
Tham số tùy chọn (mặc định là các giá trị default) như hình 3.1:
- BinarySplits: Có sử dụng phân tích nhị phân ở trong các thuộc tính nominal khi xây dựng cây hay không?
- collapseTree: Có các thành phần được bỏ đi mà không giảm bớt lỗi training không?
- confidenceFactor: mức tin tưởng để quyết định xem có xén tỉa hay không
- debug: nếu thiết lập là true, phân lớp có thê xảy ra các thông tin bổ sung tới màn hình console.
- minNumObj: Số lượng nhỏ nhất các thể hiện trên mỗi nút lá
- numFolds: định rõ lượng dữ liệu sử dụng cho việc giảm bớt lỗi xén tỉa Mỗi fold được sử dụng cho việc xén tỉa, phần còn lại sử dụng cho việc phát triển cây
- reducedErrorPruning: Có xem tỉa giảm bớt lỗi được sử dụng thay thế xén tỉa C4.5.
Với thuật toán phân lớp khi lựa chọn thuộc tính phân lớp làNO_CUOC (có nợ cước) Weka sẽ xuất ra một loạt các thông tin sau khi hoàn thành việc phân lớp, kết quả xuất ra như hình 3.2
Hình 3.2 Kết quả bài toán phân lớp với thuộc tính phân lớp NO_CUOC
Hình 3.3 Cửa sổ hiển thị cây quyết định với thuộc tính phân lớp
Dựa trên kết quả cây quyết định tại hình 3.3 ta có thể phân lớp dự đoán nguy cơ nợ cước dịch vụ Viễn thông như sau:
+ Khách hàng có sử dụng dịch vụ FiberVNN với điểm tính nhiệm thấp dưới 36 sẽ có nguy cơ nợ cước.
+ Khách hàng ở vùng nông thôn với điểm tính nhiệm nằm trong ngưỡng trung bình sẽ có nguy cơ nợ cước.
+ Khách hàng có mức điểm tín nhiệm trung bình trong khoảng 37
- 60 ở khu vực thành phố không sử dụng dịch vụ MyTV thì có nguy cơ nợ cước.
+ Khách hàng là nữ cao tuổi (từ 50 tuổi trở lên) sử dụng dịch vụ truyền hình MyTV ở khu vực thành phố thì có nguy cơ nợ cước.
+ Khách hàng trẻ tuổi ở khu vực nông thôn sử dụng đồng thời 2 dịch vụ FiberVNN và MyTV với mức doanh thu thấp có nguy cơ nợ cước cao.
Với thuật toán phân lớp khi lựa chọn thuộc tính phân lớp là VNP (dự đoán tập tiềm năng phát triển dịch vụ Vinaphone) Weka sẽ xuất ra một loạt các thông tin sau khi hoàn thành việc phân lớp, kết quả xuất ra như sau:
Hình 3.4 Cửa sổ hiển thị cây quyết định với thuộc tính phân lớp VNP
Dựa trên kết quả cây quyết định hình 3.4 ta có thể phân lớp dự đoán tập tiềm năng dịch vụ Vinaphone như sau:
+ Khách hàng có sử dụng dịch vụ FiberVNN với doanh thu cao(doanh thu>700.000đ).
+ Khách hàng sử dụng dịch vụ FiberVNN có doanh thu thấp và có sử dụng dịch vụ MegaVNN.
+ Tập khách hàng sử dụng dịch vụ Vinaphone của VTQT chủ yếu là khách hàng đơn lẻ nên tập trung vào khai thác đối tượng đang sử dụng dịch vụ của DNK để tăng thị phần đồng thời phát triển các dịch vụ mới trên tập này để nâng cao hiệu quả phục vụ khách hàng.
Với thuật toán phân lớp khi lựa chọn thuộc tính phân lớp là Fiber (dự đoán tập tiềm năng phát triển dịch vụ FiberVNN) Weka sẽ xuất ra một loạt các thông tin sau khi hoàn thành việc phân lớp, kết quả xuất ra như sau:
Hình 3.5 Cửa sổ hiển thị cây quyết định với thuộc tính phân lớp FIBER
Dựa trên kết quả cây quyết định hình 3.5 ta có thể phân lớp dự đoán tập tiềm năng dịch vụ FiberVNN như sau:
+ Tập khách hàng sử dụng đồng thời dịch vụ Vinaphone và dịch vụ truyền hình MyTV.
+ Khách hàng sử dụng đồng thời dịch vụ truyền hình MyTV và dịch vụ Cố định/Gphone.
3.1.2 Kết quả khai phá luật kết hợp
Thực hiện sinh luật kết hợp với thuật toán Apriori
Hình 3.6 Các thông số khai phá luật kết hợp với thuật toán Apriori
Một số tham số chính của thuật toán Apriori sinh luật kết hợp tại hình 3.6 lowerBoundMinSupport : Cận dưới của minimum support. metricType : Có 4 loại metricType là Confidence, Lift , Leverage và
Minimum metric score : Chỉ quan quan đến các luật có metric score cao hơn giá trị này. numRules : Số luật muốn tìm (các luật sẽ được sắp xếp theo thứ tự giảm dần của metric score) Trong thử nghiệm này chọn tập luật gồm 20 luật significanceLevel : Mức ý nghĩa (chỉ dùng khi metricType là confidence). upperBoundMinSupport: Cận trên của minimum support (bắt đầu lặp lại việc giảm minimum support từ upperBoundMinSupport đến lowerBoundMinSupport)
Hình 3.7 Kết quả bài toán sinh luật kết hợp
Hình 3.8 Các luật kết hợp thu được
1 VNP=K_SD 3764 ==> DT='(0-710k]' 3764 lift:(1.01) lev:
2 VNP=K_SD TG_SD='(0-6]' 3704 ==> DT='(0-710k]' 3704 lift:(1.01) lev:(0) [26] conv:(26.94)
3 GIOITINH=N? 3685 ==> DT='(0-710k]' 3663 lift:(1) lev:(0) [4] conv:(1.17)
4 TG_SD='(0-6]' 6484 ==> DT='(0-710k]' 6437 lift:(1) lev:(0) [0] conv:(0.98)
5 DIEM_TINHNHIEM='(61-max)' TG_SD='(0-6]' 5533 ==> DT='(0- 710k]' 5487 lift:(1) lev:(-0) [-5] conv:(0.86)
7 FIBER=SD TG_SD='(0-6]' 4745 ==> DT='(0-710k]' 4703 lift:(1) lev:(-0) [-7] conv:(0.8)
8 FIBER=SD 4798 ==> DT='(0-710k]' 4755 lift:(1) lev:(-
9 FIBER=SD DIEM_TINHNHIEM='(61-max)' TG_SD='(0-6]' 4117
==> DT='(0-710k]' 4075 lift:(1) lev:(-0) [-12] conv:(0.7)
10 FIBER=SD DIEM_TINHNHIEM='(61-max)' 4161 ==> DT='(0-
11 FIBER=SD DT='(0-710k]' DIEM_TINHNHIEM='(61-max)' 4118
==> TG_SD='(0-6]' 4075 lift:(1.01) lev:(0) [29] conv:(1.64)
12 FIBER=SD DIEM_TINHNHIEM='(61-max)' 4161 ==> TG_SD='(0- 6]' 4117 lift:(1.01) lev:(0) [29] conv:(1.63)
13 MYTV=SD 3687 ==> DT='(0-710k]' 3647 lift:(1) lev:(-
14 FIBER=SD DT='(0-710k]' 4755 ==> TG_SD='(0-6]' 4703 lift:(1.01) lev:(0) [31] conv:(1.58)
15 FIBER=SD 4798 ==> TG_SD='(0-6]' 4745 lift:(1.01) lev:(0) [31] conv:(1.56)
TG_SD='(0-6]' 5487 lift:(1.01) lev:(0) [28] conv:(1.4)
17 DIEM_TINHNHIEM='(61-max)' 5603 ==> TG_SD='(0-6]' 5533
18 GIOITINH=N? 3685 ==> TG_SD='(0-6]' 3631 lift:(1) lev:(0) [10] conv:(1.18)
19 VNP=K_SD 3764 ==> TG_SD='(0-6]' 3704 lift:(1) lev:
20 VNP=K_SD DT='(0-710k]' 3764 ==> TG_SD='(0-6]' 3704 lift:(1) lev:(0) [6] conv:(1.08)
Dựa trên tập luật thu được tại hình 3.8 ta có thể rút ra một số kết luận như sau:
+ Khách hàng không sử dụng dịch vụ Vinaphone và/hoặc thời gian sử dụng dưới 6 năm mức doanh thu đóng góp dưới 700.000đ/tháng với độ tin cậy là 1.
+ Khách hàng là nữ thì mức đóng góp doanh thu dưới700.000đ/tháng với độ tin cậy là 1.
+ Khách hàng có điểm tín nhiệm cao (trên 61 điểm) và/hoặc thời gian sử dụng dưới 6 tháng thì mức đóng góp doanh thu dưới 700.000đ/tháng với độ tin cậy là 0.99.
+ Khách hàng sử dụng dịch vụ FiberVNN và/hoặc có điểm tính nhiệm cao (trên 61 điểm) thì thời gian sử dụng dịch vụ dưới 6 năm với độ tin cậy là 0.99.
+ Khách hàng sử dụng dịch vụ FiberVNN và/hoặc có thời gian sử dụng dưới 6 năm và/hoặc điểm tín nhiệm cao thì mức doanh thu đóng góp dưới 700.000đ/tháng với độ tin cậy là 0.99.
Thảo luận
Kết quả thử nghiệm cho thấy với dữ liệu khoảng gần 7.000 bản ghi với độ tin cậy, độ hỗ trợ thiết lập ở mức mặc định của một phần dữ liệu khách hàng tại VTQT thì cho ra các phân lớp đối tượng có thể dự đoán các tình huống có thể xảy ra như dự đoán khả năng nợ cước, dự đoán khả năng phát triển dịch vụ, dự đoán các tập khách hàng tiềm năng nhằm phát triển dịch vụ, nhóm dịch vụ, trên cơ sở đó đơn vị đã ban hành các chính sách kinh doanh phù hợp, cụ thể:
- Đã ban hành chính sách bán theo combo gói dịch vụ bao gồmFiberVNN, MyTV, Di động trả sau (Vinaphone viết tắt là VNP) với các mức ưu tiên tùy theo tỷ lệ đóng góp trên các tập tiềm năng khai phá, ví dụ: Mức ưu tiên 1 tập trung vào phát triển dịch vụ VNP đồng thời kết góiHome Combo dựa trên tập tiềm năng là nhóm khách hàng đang sử dụngFiberVNN và MyTV; Mức ưu tiên 2 tập trung vào phát triển dịch vụMyTV và VNP đồng thời kết gói Home Combo dựa trên tập tiềm năng là nhóm khách hàng có sử dụng FiberVNN và SmartTV
- Đã ban hành quy định chăm sóc khách hàng đối với tập khách hàng có nguy cơ nợ cước cao; Và ban hành quy trình cắt hủy dịch vụ dựa trên điểm tín nhiệm và nguy cơ nợ cước. Điều này cho thấy có thể áp dụng quy trình khai phá dữ liệu để trích xuất ra các kiến thức hữu ích đáp ứng nhu cầu sản xuất kinh doanh tại VTQT nói riêng các đơn vị cung cấp dịch vụ Viễn thống đến khách hàng nói chung.
Việc phân tích dữ liệu để phục vụ cho công tác điều hành sản xuất kinh doanh đã được triển khai từ lâu tại VTQT tuy nhiên cách thực hiện phân tích còn thủ công và phụ thuộc nhiều vào yếu tố con người nên mất nhiều thời gian và kết quả đánh giá có độ chính xác chưa cao chính vì vậy gây trở ngại cho công tác ra quyết định, ra chính sách kinh doanh, chăm sóc khách hàng và cuối cùng ảnh hưởng đến kết quả sản xuất kinh doanh của đơn vị Ứng dụng khai phá dữ liệu vào phân tích dữ liệu sẽ đẩy nhanh thời gian thực hiện, giảm chi phí nhân lực, đánh giá chính xác khách quan từ dự liệu thực tế, từ đó, phục vụ tốt cho công tác điều hành, ra quyết định nâng cao năng lực và khả năng cạnh tranh của doanh nghiệp với các doanh nghiệp Viễn thông khác trên địa bàn.
Dữ liệu khai phá chỉ một phần nhỏ trong dữ liệu của VTQT nên chưa đánh giá được tổng quan và toàn diện tất cả các dịch vụ tại đơn vị.
Có thể nói rằng, KPDL là một trong những kỹ thuật quan trọng, mang tính thời sự không chỉ đối với Việt Nam mà còn của cả nền CNTT thế giới hiện nay Sự bùng nổ thông tin, dữ liệu toàn cầu, trên mọi mặt của đời sống xã hội cùng với sự phát triển và ứng dụng ngày càng rộng rãi của công nghệ thông tin trong mọi lĩnh vực đã khiến cho nhu cầu xử lý những khối dữ liệu khổng lồ để kết xuất ra những thông tin, tri thức hữu ích cho người sử dụng một cách tự động, nhanh chóng và chính xác trở thành nhân tố quan trọng hàng đầu cho mọi thành công của các cơ quan, tổ chức và cá nhân trên thế giới KPDL đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật KPDL vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn.
Một trong những phương pháp quan trọng và cơ bản nhất của kỹ thuật KPDL mà đề tài đi sâu tìm hiểu là phân lớp và khai phá luật kết hợp Mục tiêu của 2 phương pháp này là phát hiện dự đoán và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật KPDL là các lớp dự đoán và luật kết hợp tìm được Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như maketing có chủ đích, phân tích quyết định, quản lý kinh doanh, phân tích giá thị trường …
Luận văn tìm hiểu về thuật toán phân lớp và kỹ thuật phân tích luật kết hợp Tìm hiểu và tìm cách áp dụng kỹ thuật này dựa trên phần mềm Weka để phân tích hành vi khách hàng nhằm nâng cao hiệu quả sử dụng dịch vụ tại VTQT.
Tác giả đã cài đặt phần mềm Weka thử nghiệm 2 thuật toán phân lớp C4.5 và khai phá luật kết hợp theo thuật toán Apiori nhằm phân tích dữ liệu khách hàng tại VTQT Các kết quả thực nghiệm cho thấy hệ thống đã có thể thực hiện phân tích dữ liệu để cho ra các kiến thức hữu ích để phục vụ cho công tác điều hành sản xuất kinh doanh mang lại hiệu quả cao.
Hướng nghiên cứu trong tương lai
Mở rộng khai phá trên toàn bộ các tập dữ liệu của VTQT về các lĩnh vực kỹ thuật khác Thực hiện khai phá trên các tập dữ liệu phi truyền thống (hình ảnh, thời gian thực) Khai phá kết hợp giữa các kiểu dữ liệu.
Luận văn đề xuất hướng ứng dụng trong tương lai đối với các Viễn thông tỉnh thành trên toàn quốc.
2 Nadaf, M and V Kadam, Data mining in telecommunication Int J
3 Hoàng, H.X., Về các phương pháp phân cụm dữ liệu trong data mining
4 Cortes, C and D Pregibon, Signature-based methods for data streams
Data Mining and Knowledge Discovery, 2001 5(3): p 167-182
5 Kabakchieva, D., Business Intelligence Applications and Data Mining
Methods in Telecommunications: A Literature Review 2009
6 Weiss, G.M., Data mining in telecommunications , in Data Mining and
7 Umayaparvathi, V and K Iyakutti, Applications of data mining techniques in telecom churn prediction International Journal of
8 Raorane, A and R Kulkarni, Data mining techniques: A source for consumer behavior analysis arXiv preprint arXiv:1109.1202, 2011
9 Bala, P.K Mining changes in purchase behavior in retail sale with products as conditional part in 2010 IEEE 2nd International Advance Computing Conference (IACC) 2010 IEEE
10 Nayyar, T and A Townsend, Analysing Customer Buying Behavior
11 Han, J and Y Fu Discovery of multiple-level association rules from large databases in VLDB 1995 Citeseer
12 Loudon, D.L and A.J Della Bitta, Instructor's Manual to Accompany
Consumer Behavior: Concepts and Applications 1993: McGraw-Hill,
13 Schiffman, L.G and L.L Kanuk, Consumer behavior 6th editions
14 Bửttcher, M., et al., Mining changing customer segments in dynamic markets Expert systems with Applications, 2009 36(1): p 155-164.