TRÊN CƠ SỞ DỮ LIỆU CƯỚC ĐIỆN THOẠI
4.1. Giới thiệu
Ngành công nghiệp viễn thông lưu trữ một khối lượng dữ liệu khổng lồ, bao gồm chi tiết cuộc gọi, thông tin cảnh báo trình trạng của hệ thống mạng viễn thông và thông tin dữ liệu về khách hàng. Ứng dụng kỹ thuật KPDL để phát hiện các quy luật ẩn chứa trong khối dữ liệu đó sẽ mang lại cho các doanh nghiệp viễn thông nhiều cơ hội để phát triển các ứng dụng mang tính thực tiễn cao. Đây là một hướng đi phù hợp và đã sớm được áp dụng phổ biến ở nhiều công ty viễn thông lớn trên thế giới.
4.1.1. Các dữ liệu chính trong viễn thông
Trong ngành viễn thông có một số dữ liệu chính như sau:
Dữ liệu chi tiết cuộc gọi (call detail data)
Mỗi một cuộc gọi của khách hàng trên mạng viễn thông đều phát sinh một mẫu tin chi tiết cuộc gọi. Các mẫu tin này bao gồm các thông tin đặc tả thuộc tính quan trọng của cuộc gọi như : số gọi, số bị gọi, thời gian bắt đầu và thời gian đàm thoại. Thông thường các dữ liệu chi tiết cuộc gọi không được sử dụng trực tiếp cho các ứng dụng KPDL mà thường kết hợp với thông tin cá nhân khách hàng để tổng quát hóa thành thông tin về hành vi sử dụng điện thoại của khách hàng.
Dữ liệu trạng thái mạng (network data)
Mạng viễn thông có cấu hình rất phức tạp, được cấu trúc bởi hàng ngàn thiết bị viễn thông kết nối với nhau. Các thông điệp trạng thái (status message) của mỗi thiết bị phải được lưu trữ thành một kho dữ liệu trạng thái mạng và chúng được phân tích theo trình tự để hỗ trợ chức năng quản lý mạng. Mỗi thông điệp trạng thái ít nhất phải bao gồm thời gian phát sinh và thông tin mã hóa về lỗi hay trạng thái của thiết bị.
Dữ liệu khách hàng (customer data)
Cũng như các lĩnh vực kinh doanh lớn khác, các thông tin về khách hàng cần được lưu trữ để dùng cho các ứng dụng như tính cước, tiếp thị... Thông tin
về khách hàng bao gồm số điện thoại, họ tên, địa chỉ và các thuộc tính quan trọng khác như quá trình thanh toán nợ, quá trình sử dụng các dịch vụ, thu nhập... Thông thường dữ liệu khách hàng phải được kết hợp với các dữ liệu khác, (ví dụ như dữ liệu chi tiết cuộc gọi) trong khi sử dụng kỹ thuật KPDL.
4.1.2. Một số ứng dụng khai phá dữ liệu trong viễn thông
Các ứng dụng KPDL được phát triển trong ngành viễn thông rất sớm. Chúng ta sẽ xem xét một vài ứng dụng tiêu biểu, các ứng dụng này được chia thành 3 nhóm ứng dụng khác nhau : (1) Phát hiện gian lận (fraud detection), (2) các ứng dụng hỗ trợ tiếp thị và quản lý khách hàng, (3) các ứng dụng về phát hiện và xử lý lỗi hệ thống mạng.
(1) Phát hiện gian lận (fraud detection)
Gian lận là một trong những vấn đề nghiêm trọng của các công ty viễn thông, nó có thể làm thất thoát hàng tỷ đồng mỗi năm. Có thể chia ra làm 2 hình thức gian lận khác nhau thường xảy ra đối với các công ty viễn thông : Trường hợp thứ nhất xảy ra khi một khách hàng đăng ký thuê bao với ý định không bao giờ thanh toán khoản chi phí sử dụng dịch vụ. Trường hợp thứ hai liên quan đến một thuê bao hợp lệ nhưng lại có một số hoạt động bất hợp pháp gây ra bởi một người khác. Những ứng dụng này sẽ thực hiện theo thời gian thực bằng cách sử dụng dữ liệu chi tiết cuộc gọi, một khi xuất hiện một cuộc gọi nghi ngờ gian lận, lập tức hệ thống phải có hành động ứng xử phù hợp, ví dụ như một cảnh báo xuất hiện hoặc từ chối cuộc gọi nếu biết đó là cuộc gọi gian lận.
Hầu hết các phương thức nhận diện gian lận đều dựa trên hành vi sử dụng điện thoại khách hàng trước kia so sánh với hành vi hiện tại để xác định xem đó là cuộc gọi hợp lệ không.
(2) Các ứng dụng quản lý và chăm sóc khách hàng
Các công ty viễn thông quản lý một khối lượng lớn dữ liệu về thông tin khách hàng và dữ liệu về chi tiết cuộc gọi (call detail records). Những thông tin này có thể cho ta nhận diện được những đặc tính của khách hàng và thông qua đó có thể đưa ra các chính sách chăm sóc khách hàng thích hợp dựa trên dự đoán hoặc có một chiến lược tiếp thị hiệu quả.
Một trong các ứng dụng KPDL phổ biến dựa trên việc xem xét luật kết hợp giữa các dịch vụ viễn thông khách hàng sử dụng. Hiện nay trên một đường điện
thoại khách hàng sử dụng rất nhiều dịch vụ khác nhau, ví dụ như : gọi điện thoại, truy cập internet, tra cứu thông tin từ hộp thư tự động, nhắn tin, gọi 108, .v.v. Dựa trên CSDL khách hàng chúng ta có thể khám phá mối liên kết trong việc sử dụng các dịch vụ, có thể đưa ra các luật như (khách hàng gọi điện thoại quốc tế) => (truy cập internet) .v.v. Trên cơ sở phân tích được các luật như vậy các công ty viễn thông có thể điều chỉnh việc bố trí nơi đăng ký các dịch vụ phù hợp, ví dụ điểm đăng ký điện thoại quốc tế nên bố trí gần với điểm đăng ký Internet chẳng hạn.
Một ứng dụng phục vụ chiến lược marketing khác đó là dựa trên kỹ thuật luật kết hợp để tìm ra tập các thành phố, tỉnh nào trong nước thường gọi điện thoại với nhau. Ví dụ ta có thể tìm ra tập phổ biến (Cần Thơ, HCM, Hà Nội ) chẳng hạn. Điều này thật sự hữu dụng trong việc hoạch định chiến lược tiếp thị hoặc xây dựng các vùng cước phù hợp.
Cuối cùng, một ứng dụng cũng rất phổ biến đó là phân lớp khách hàng (classifying). Dựa vào kỹ thuật KPDL học trên cây quyết định (decision tree) trên dữ liệu khách hàng và chi tiết cuộc gọi có thể tìm ra các luật để phân loại khách hàng. Ví dụ ta có thể phân biệt được khách hàng nào thuộc đối tượng kinh doanh hay nhà riêng dựa vào các luật sau:
- Luật 1 : nếu không quá 43% cuộc gọi có thời gian từ 0 đến 10 giây và không đến 13% cuộc gọi vào cuối tuần thì đó là khách hàng kinh doanh.
- Luật 2 : Nếu trong 2 tháng có các cuộc gọi đến hầu hết từ 3 mã vùng giống nhau và <56,6% cuộc gọi từ 0-10 giây thì có là khách hàng nhà riêng.
Trên cơ sở tìm ra được các luật tương tự vậy, ta dễ dàng phân loại khách hàng, để từ đó có chính sách phân khúc thị trường hợp lý.
(3) Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn thông (Network fault isolation)
Mạng viễn thông là một cấu trúc cực kỳ phức tạp với nhiều hệ thống phần cứng và phần mềm khác nhau. Phần lớn các thiết bị trên mạng có khả năng tự chuẩn đoán và cho ra thông điệp trạng thái, cảnh báo lỗi (status and alarm message). Với mục tiêu là quản lý hiệu quả và duy trì độ tin cậy của hệ thống
mạng, các thông tin cảnh báo phải được phân tích tự động và nhận diện lỗi trước khi xuất hiện làm giảm hiệu năng của mạng. Bởi vì số lượng lớn các cảnh báo độc lập và có vẻ như không quan hệ gì với nhau nên vấn đề nhận diện lỗi không ít khó khăn. KPDL có vai trò sinh ra các luật giúp hệ thống có thể phát hiện lỗi sớm hơn khi nó xảy ra. Kỹ thuật khai thác mẫu tuần tự của KPDL thường được ứng dụng trong lĩnh vực này thông qua việc khai thác CSDL trạng thái mạng.
4.2. Cài đặt thuật toán MFAMI trên CSDL cước điện thoại
Phần này cài đặt thuật toán MFAMI trên CSDL cước điện thoại nhằm tìm ra các luật kết hợp. Các luật này là cơ sở để phân lớp khách hàng và đưa ra các chính sách chăm sóc khách hàng thích hợp.
4.2.1. Nguồn dữ liệu cước điện thoại
Hiện tại, quá trình tính cước các dịch vụ viễn thông và công nghệ thông tin (VT & CNTT) trên toàn tỉnh được thực hiện tập trung tại trung tâm. Hàng tuần các tổng đài truyền về máy chủ một số lượng lớn các bản ghi chi tiết cuộc gọi (Call Detail Records - viết tắt là CDR’s). Các thông tin trong CDR’s cho chúng ta biết cách sử dụng dịch vụ của khách hàng và chất lượng các dịch vụ của công ty viễn thông cung cấp. Cuộc gọi bắt đầu tính cước khi máy chủ gọi được kết
Khách hàng gọi điện thoại
(chủ gọi) Khách hàng (bị gọi) Tổng đài Hệ thống tính cước
Trung tâm chăm sóc khách hàng Kho dữ liệu tại
trung tâm tính cước Hình 4.1. Nguồn dữ liệu cước điện thoại
nối với máy bị gọi và kết thúc khi một trong hai máy chủ gọi hoặc máy bị gọi ngừng liên lạc. Sau khi kết thúc cuộc gọi thì các số liệu chi tiết liên quan đến cuộc gọi được lưu tại tổng đài theo dạng tệp tin và theo định dạng tuỳ thuộc vào loại tổng đài. Các số liệu này được lưu lại sau đó truyền về cho trung tâm. Tại trung tâm số liệu các loại tổng đài truyền về được chuyển về cùng một khuôn dạng số liệu để tính cước.
4.2.2. Mô tả cấu trúc dữ liệu
Cấu trúc bảng dữ liệu khách hàng
STT TÊN TRƯỜNG MÔ TẢ KIỂU DỮ LIỆU 1 Makhachhang Mã khách hàng nvarchar(10) 2 Tenkhachhang Tên khách hàng nvarchar(50) 3 Sodienthoai Số điện thoại nvarchar(15) 4 Diachikhachhang Địa chỉ khách hàng nvarchar(50) 5 Sohopdong Số hợp đồng nvarchar(10) 6 Nhom Nhóm (Đối tượng khách hàng) nvarchar(20)
Cấu trúc bảng dữ liệu chi tiết cuộc gọi
STT TÊN TRƯỜNG MÔ TẢ KIỂU DỮ LIỆU 1 Macuocgoi Mã cuộc gọi nvarchar(10) 2 Somaychu Số máy chủ gọi nvarchar(15) 3 Somaykhach Số máy bị gọi nvarchar(15)
4 Ngaygoi Ngày gọi Date
5 Thoidiembatdau Giờ bắt đầu gọi Time 6 Thoigiandamthoai Thời gian đàm thoại Time
7 Loaicuoc Loại cước nvarchar(15) 8 Giacuoc Giá cước Float
4.2.3. Môi trường cài đặt
Chương trình được cài đặt trên các môi trường ứng dụng sau:
- Môi trường cài đặt ứng dụng: Visual Studio .NET - Ngôn ngữ sử dụng: Visual C.
- Hệ quản trị CSDL: SQL 2005.
4.2.4. Kết quả cài đặt thuật toán
Giao diện chính của chương trình
Chương trình thực hiện 5 chức năng sau: 1. Xem dữ liệu trong CSDL
2. Hiển thị vùng mờ hóa
3. Hiển thị thuộc tính mờ hóa cùng với giá trị hàm thuộc của chúng 4. Hiển thị các tập mục phổ biến tiềm năng
(1) Xem dữ liệu trong CSDL
Bảng khách hàng
(2) Hiển thị vùng mờ hóa
Giao diện hiển thị vùng mờ của thuộc tính Thời gian đàm thoại
(3) Hiển thị thuộc tính mờ hóa cùng với giá trị hàm thuộc của chúng
Giao diện hiển thị mức độ thuộc của thuộc tính Thời điểm bắt đầu
Giao diện hiển thị mức độ thuộc của thuộc tính Nhóm
(4) Hiển thị các tập mục phổ biến tiềm năng
(5) Hiển thị danh sách các luật tìm được
4.3. Kết luận chương 4
Chương này đã trình bày những vấn đề liên quan đến cài đặt thử nghiệm thuật toán MFAMI trên CSDL cước điện thoại.
• Giới thiệu về nguồn dữ liệu cước điện thoại được sử dụng trong quá trình cài đặt thử nghiệm.
KẾT LUẬN
Những vấn đề đã được giải quyết trong luận văn
Sau một thời gian thu thập tài liệu, khảo sát và phân tích nội dung một số bài báo được đề xuất trong lĩnh vực nghiên cứu về KPDL, bản luận văn này là sự tổng hợp những nét chính trong KPDL nói chung và khai phá luật kết hợp mờ nói riêng. Sau đây là những điểm chính mà luận văn đã tập trung giải quyết.
• Luận văn đã trình bày một cách khái quát về KPDL và KDD.
• Giới thiệu về bài toán “khai phá luật kết hợp”. Bên cạnh việc phát biểu các khái niệm của bài toán, luận văn đề cập đến một số hướng nghiên cứu cụ thể của khai phá luật kết hợp như khai phá luật kết hợp nhị phân, khai phá luật kết hợp có thuộc tính số và thuộc tính hạng mục, khai phá luật kết hợp mờ, .v.v.
• Trình bày về “luật kết hợp mờ” – một dạng luật kết hợp mềm dẻo, gần gũi và tự nhiên hơn với người sử dụng. Ngoài việc phát biểu các khái niệm về tập mờ và phương pháp rời rạc hóa dữ liệu dựa vào tập mờ, luận văn còn tổng hợp một số thuật toán khai phá luật kết hợp mờ. Luận văn trình bày thuật toán khai phá luật kết hợp mờ MFAMI được đề xuất bởi S. Lotfi, M.H. Sadreddini vào năm 2009. Ở các thuật toán trước đây, người dùng phải cung cấp hai giá trị ngưỡng minsup và minconf và với các giá trị khác nhau của hai ngưỡng này thì tập các luật được phát hiện là khác nhau. Ở thuật toán này, người dùng không phải cung cấp bất kỳ giá trị cho ngưỡng nào. Hơn nữa, bằng cách sử dụng khái niệm thông tin tương hỗ trong lý thuyết thông tin, thuật toán còn giới hạn được không gian tìm kiếm bởi không phải tạo ra các tất cả các tập mục phổ biến, mà chỉ xem xét các tập mục phổ biến tiềm năng. Một ưu điểm nữa của thuật toán này là nó có khả năng đánh giá “tính có ích” của các luật tạo ra bằng cách sử dụng sai phân điều chỉnh.
• Cài đặt ứng dụng thuật toán MFAMI vào CSDL cước điện thoại nhằm tìm ra các luật kết hợp có ích. Các luật này là cơ sở để phân lớp khách hàng và đưa ra các chính sách chăm sóc khách hàng thích hợp.
Công việc nghiên cứu trong tương lai
Khai phá luật kết hợp là bài toán được khá nhiều nhà nghiên cứu quan tâm bởi nó được ứng dụng rộng rãi trong các lĩnh vực và có nhiều hướng mở rộng khác nhau. Trong luận văn này, tôi cũng chỉ chọn một hướng nhỏ để nghiên cứu. Trong thời gian tới, tôi sẽ mở rộng nghiên cứu của mình ra một số hướng sau:
• Khai phá song song luật kết hợp mờ. Thuật toán trình bày ở trên và một số thuật toán khác làm việc tương đối tốt với những CSDL có kích cỡ không quá lớn (tiêu chí đánh giá CSDL lớn hay nhỏ phụ thuộc vào số thuộc tính và số bản ghi). Những thuật toán này sẽ giảm tính hiệu quả một cách đáng kể khi gặp phải những CSDL lớn (hàng trăm megabyte trở lên) do hạn chế về dung lượng bộ nhớ trong và tốc độ tính toán của một máy tính đơn lẻ. Với sự phát triển bùng nổ của công nghệ phần cứng, theo đó các hệ máy tính song song có sức mạnh tính toán vượt trội ra đời đã mở ra một hướng tiếp cận mới trong KPDL, đó là KPDL song song.
• Khai phá luật kết hợp mờ với thuộc tính được đánh trọng số. Mục đích của bài toán này là tìm cách gắn trọng số cho các thuộc tính để biểu thị mức độ quan trọng của chúng đối với luật. Ví dụ, khi khai phá luật kết hợp liên quan đến cước điện thoại ở trên thì những thông tin thời gian đàm thoại, giờ bắt đầu gọi và loại cước quan trọng hơn là thông tin về đối tượng khách hàng, do đó chúng được gắn trọng số lớn hơn.
TÀI LIỆU THAM KHẢO
Tài liệu Tiếng Việt
1. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam.
2. Nguyễn Thanh Thủy (2001), Khai phá dữ liệu, Nhà xuất bản Kỹ thuật và ứng dụng.
Tài liệu Tiếng Anh
3. Alan Rea (1995), Data Mining – An Introduction. The Parallel Computer Centre, Nor of The Queen’s University of Belfast.
4. Ashish Mangalampalli*, Vikram Pudi (2009), “Fuzzy Association Rule Mining Algorithm for Fast and Efficient Performance on Very Large Datasets”, Centre for Data Engineering (CDE), International Institute of Information Technology (IIIT), Hyderabad, India.
5. Attila Gyenesei (2000), “A Fuzzy Approach for Mining Quantitative Association Rules” Turku Centre for Computer Science, TUCS Technical Reports.
6. Au W-H, Chan KCC (1999), “FARM: a data mining system for discovering fuzzy association rules”, In: Proceedings of 8th IEEE international conference on fuzzy systems, Seoul, Korea.
7. Boris Kovalerchuk and Evgenii Vityaev (2001). Data Mining in Finance: Advances in Relational and Hybrid Methods. Kluwer Academic Publishers, Boston, Dordrecht - London.