Chiều “thời gian”: các báo cáo được thống kê theo mơ hình sau:
Độ đo điện năng tổn thất, tỷ lệ điện tổn thất Điện năng tổn thất trên lưới điện: A (kWh) = AN - AG (kWh)
Tỉ lệ tổn thất điện năng trên lưới điện:
Năm
Quý Quý
Tháng Tháng
A AN - AG
A (%) = * 100 (%) = * 100 (%) AN - AOTT AN - AOTT
Trong đĩ:
AN: tổng điện năng nhận vào của lưới điện AG: tổng điện năng giao đi của lưới điện
AOTT: tổng điện năng khơng được tính tổn thất trên lưới điện.
3.4. Thiết kế dữ liệu
3.4.1. Thiết kế các bảng số liệu lưu trữ dữ liệu tổng hợp
Sơ đồ liên kết bảng số liệu phần cơng nợ
Hình 3.13 Sơ đồ liên kết dữ liệu cơng nợ khách hàng
59
Sơ đồ liên kết bảng số liệu phần tổn thất
Hình 3.14 Sơ đồ liên kết dữ liệu tổn thất
Xây dựng kho dữ liệu bao gồm việc xây dựng các bảng chiều (dimension) và các bảng sự kiện (fact). Cĩ nhiều loại lược đồ áp dụng cho việc thiết kế kho dữ liệu, ở đây chúng ta chọn loại lược đồ hình sao (Star). Đặc điểm của loại lược đồ này như đã đề cập trong phần lý thuyết bao gồm một bảng ở trung tâm gọi là bảng sự kiện (fact table). Bảng sự kiện chứa các dữ liệu được tổng hợp theo các đơn vị, theo khoảng thời gian. Xung quanh bảng sự kiện là các bảng chiều cĩ quan hệ với bảng sự kiện bởi một liên kết đơn. Bảng chiều chứa thơng tin mơ tả về các đặc tính khác nhau hay các chiều của một nghiệp vụ. Trong bảng chiều, mỗi chiều sẽ bao gồm một giá trị định danh ID và một giá trị tên mơ tả cho định danh đĩ. Trong các bảng sự kiện sẽ chứa các sự kiện và chứa các định danh của các chiều mà sự kiện sẽ tham chiếu.
Mơ hình kho dữ liệu Cơng nợ
Chọn bảng Fact là CONGNO, các bảng chiều bao gồm:
CN_DDVI_DCHINH
CN_HTHUC_THU CN_LOAI_DVU CN_LOAI_HDON CN_LOAI_KHANG CN_PTTT CN_THOI_GIAN.
Mơ hình kho dữ liệu Tổn thất
Chọn bảng Fact là TONTHAT, các bảng chiều bao gồm:
TT_DCAP_DA TT_DDVI_DCHINH TT_DLOAI_TRAM TT_DNGANH_NGHE TT_DON_VI TT_LOAI_BCS TT_LOAI_KHANG TT_THOI_GIAN 3.5. Kiến trúc ứng dụng
Theo các kết quả phân tích đã trình bày ở trên, ta cĩ được sơ đồ các chức năng của ứng dụng cùng mối quan hệ giữa chúng.
Các chức năng chính của hệ thống bao gồm: Tổng hợp số liệu:
o Tạo nguồn dữ liệu cho kho dữ liệu, tích hợp dữ liệu, trích chọn thơng tin cần thiết, loại bỏ các thơng tin gây nhiễu.
o Cập nhật các danh mục dữ liệu: danh mục đơn vị, phương thức thanh tốn, hình thức thu, loại hố đơn, loại khách hàng, ….
o Vẽ các biểu đồ hiển thị dữ liệu dạng: hình trịn, hình chữ nhật, đồ thị…để minh hoạ dữ liệu cơng nợ theo các thành phần, sự tăng trưởng của dữ liệu cơng nợ (số tiền nợ, số khách hàng nợ), tổn thất qua các tháng trong năm, qua các năm. So sánh các đồ thị tiền nợ, số khách hàng nợ, điện tổn thất giữa các đơn vị, giữa các năm trong cùng đơn vị.
61
Phân tích số liệu cơng nợ theo các thành phần: loại khách hàng, loại dịch vụ, phương thức thanh tốn, loại hĩa đơn, thời gian…Thực hiện dự đốn khách hàng nợ tiền điện theo đơn vị quản lý; tháng – năm hạch tốn, xác xuất dự đốn. Việc phân tích, dự đốn này dựa trên thuật tốn Bayes. Dự đốn số tiền nợ, số khách hàng nợ, tổn thất điện năng theo đơn vị
quản lý, tháng, năm. So sánh số liệu dự đốn và số liệu thực tế qua lưới dữ liệu tính độ lệch và đồ thị. Việc dự đốn này dựa trên thuật tốn ART.
o Hiển thị các khung nhìn dữ liệu dự đốn, dữ liệu thực tế theo các chiều khác nhau để hỗ trợ ra quyết định: Chiều thời gian, chiều đơn vị,…
o Hiển thị các khung nhìn theo các dữ liệu đầu vào, tham số dự đốn từ đĩ cho thấy sự biến đổi của mơ hình theo các tham số đưa vào.
o Đưa ra các dự đốn tăng trưởng theo danh mục ngưỡng dự đốn.
o Phân loại khách hàng nợ tiền điện lớn, các khách hàng thường xuyên nợ tiền điện. Khoanh các vùng cĩ tổn thất lớn, cĩ cơng nợ tiền điện lớn.
Kiến trúc hệ thống như sau:
EVN_KDDN Hĩa đơn Khách hàng Tổn thất OLAP EVN_KDDN Mining model Giao diện ứng dụng Xu thế
- Báo cáo thống kê
- Các biểu đồ dữ liệu theo đơn vị, năm, tháng
- Dự đốn số tiền nợ, số khách hàng nợ, tổn thất điện năng - Dự đốn khách hàng nợ tiền điện
- So sánh các đồ thị tiền nợ, số khách hàng nợ, điện tổn thất giữa các đơn vị, giữa các năm trong cùng đơn vị
- Cập nhật dữ liệu 1 2
3 4 5
3.6. Thiết kế DataMining
3.6.1 Xây dựng mơ hình khai phá dữ liệu
Từ nguồn dữ liệu đã được tập hợp, tinh chỉnh ta đi xây dựng mơ hình khai phá dữ liệu (Mining Model). Thơng tin về khách hàng nợ tiền điện được lưu trong bảng NO_THONGKE trở thành nguồn dữ liệu cho mơ hình khai phá dữ liệu: NO_THONGKE. Mã khách hàng được chọn là khố chính, các thuộc tính đầu vào gồm cĩ: đơn vị địa chính, hình thức thu, tên tổ; thuộc tính dự đốn là: nợ
Câu lệnh tạo Mining Model dự đốn khách hàng nợ tiền điện như sau:
CREATE MINING MODEL NO_THONGKE
{
[MA_KHANG] TEXT KEY,
[DIA_CHINH] TEXT DISCRETE,
[HTHUC_THU] TEXT DISCRETE,
[TEN_TO] TEXT DISCRETE,
[NO] LONG DISCRETE PREDICT
} USING Microsoft_Naive_Bayes
Hình 3.16 Mơ hình khai phá dữ liệu sử dụng thuật tốn Bayes
Thơng tin thống kê về số khách hàng nợ tiền điện, tổng số tiền khách hàng nợ được lưu trong bảng CN_THEODOINO. Khung nhìn vSLUONGNO là dữ liệu
63
lượng khách hàng nợ tiền điện (SLUONG_KH) và tổng số tiền nợ của khách hàng (SLUONG_NO)
Câu lệnh tạo Mining Model dự đốn tiền nợ, số khách hàng nợ như sau:
CREATE MINING MODEL vSLUONGNO
{
[ID_DON_VI] TEXT KEY,
[MONTH] TEXT KEY,
[SLUONG_KH] DOUBLE PREDICT,
[SLUONG_NO] DOUBLE PREDICT
} USING Microsoft_Time_Series
Mơ hình dự đốn như sau:
Hình 3.17 Mơ hình khai phá dữ liệu nợ với thuật tốn ART Câu lệnh tạo Mining Model dự đốn tổn thất như sau: Câu lệnh tạo Mining Model dự đốn tổn thất như sau:
CREATE MINING MODEL vSLUONGTONTHAT
{
[ID_DON_VI] TEXT KEY,
[MONTH] TEXT KEY,
[DAU_NGUON] DOUBLE PREDICT,
[TPHAM_KTE] DOUBLE PREDICT,
[TPHAM_DSU] DOUBLE PREDICT,
} USING Microsoft_Time_Series
Mơ hình dự đốn như sau:
Hình 3.18 Mơ hình khai phá dữ liệu tổn thất với thuật tốn ART
3.6.2 Cài đặt chương trình
Máy tính cài đặt ứng dụng
o Cấu hình: tốc độ CPU 2.2GHz, RAM 3GB, đĩa cứng cịn trống ít nhất 5GB (trở lên)
o Phần mềm: SQL Server 2005, IIS 5.1 trở lên, .NET 3.5SP1, hệ thống dự đốn cơng nợ - tổn thất
o Hệ điều hành: Windows XP, Windows Server 2003, Win 7. Máy tính chạy ứng dụng
o Cấu hình: tốc độ CPU 1.66 GHz, RAM 2 GB (trở lên)
o Phần mềm: trình duyệt web IE 6.0 hoặc FireFox 2.0 (trở lên)
o Hệ điều hành: Window XP, Windows Server 2003, Win 7
3.6.3 Các chức năng chính trong hệ thống
Hệ thống danh mục dữ liệu: Cho phép cập nhật các danh mục dữ liệu của hệ thống, bao gồm các danh mục hình thức thu, phương thức thanh tốn, loại khách hàng, loại dịch vụ, loại hố đơn, đơn vị quản lý. Đây là các dữ liệu định nghĩa của hệ thống.
65
Hình 3.19 Danh mục hình thức thu
Dữ liệu nợ của khách hàng được tổng hợp và lưu trữ theo các năm (từ tháng 01/2006 đến tháng 08/2010) và các đơn vị. Chức năng thống kê số lượng khách hàng nợ tiền điện hiển thị: thơng tin số khách hàng nợ tiền điện của các đơn vị theo từng năm, vẽ biều đồ số khách hàng nợ tiền điện của các đơn vị qua từng tháng trong năm. Qua biểu đồ này cĩ thể nhận thấy khách hàng cĩ xu hướng nợ tiền điện nhiều nhất vào tháng 02. Trên thực tế thời gian này trùng với tết âm lịch, hầu hết các cơ quan, cơng ty hay gia đình đều cĩ rất nhiều cơng việc phải thực hiện nên hay nộp tiền điện muộn. Do đĩ, trong khoảng thời gian này, ngành điện cần phân bổ nhiều nhân viên đi thu tiền điện. Cần cĩ các biện pháp nhắc nhở khách hàng nộp tiền đúng thời hạn.
Chức năng Thống kê số tiền nợ của khách hàng: vẽ biểu đồ số tiền nợ của khách hàng theo đơn vị quản lý, tháng/năm thực hiện; hiển thị chi tiết thơng tin tiền nợ qua các tháng trong năm. Qua các biểu đồ cĩ thể nhận thấy vào các tháng 06, 07, 08 tiền nợ là lớn nhất trong năm. Đây chính là các tháng sử dụng điện nhiều nhất do thời tiết nĩng.
Hình 3.21 Thống kê số tiền nợ của khách hàng
Chức năng Thống kê điện năng tổn thất: vẽ biểu đồ tổn thất điện năng theo đơn vị quản lý, tháng/năm thực hiện. Qua các biểu đồ cĩ thể nhận thấy điện năng tổn thất lớn nhất vào các tháng 6, 7, 8 và 9; đĩ là do lượng điện sử dụng trong các tháng này chiếm tỷ trong lớn dẫn đến tổn hao điện năng truyền tải và tổn hao điện năng của các thiết bị sử dụng điện lớn. Do đĩ, ngành điện cần thực hiện: nâng cấp đường dây truyền tải điện, sửa chữa trạm điện, tăng cường cơng suất truyền tải trước thời gian này. Tuyên truyền, vận động người dân sử dụng các thiết bị tiết kiệm điện, tránh lãng phí điện.
67
Chức năng dự đốn khách hàng nợ tiền điện: Thơng tin chi tiết về khách hàng nợ tiền điện hằng tháng được tổng hợp và lưu trong bảng dữ liệu NO_THONGKE, đây là nguồn dữ liệu lịch sử đồng thời đĩng vai trị là dữ liệu học. Thơng tin khách hàng được dự đốn lưu trữ trong bảng dữ liệu NO_DUDOAN. Từ bảng dữ liệu NO_THONGKE, ta đi xây dựng mơ hình dự đốn theo thuật tốn Bayes. Chức năng cho phép dự đốn khách hàng nào nợ tiền điện theo đơn vị quản lý, tháng/năm hạch tốn, mã khách hàng, tên khách hàng với xác suất dự đốn đầu vào (lớn hơn, nhỏ hơn hoặc bằng xác suất dự đốn đầu vào).
Hình 3.23 Dự đốn khách hàng nợ tiền điện
Khi cĩ khách hàng mới đăng ký sử dụng điện, cĩ thể sử dụng chức năng này để dự đốn khả năng nợ tiền điện của khách hàng (ví dụ: xác suất nợ > 0.8 nghĩa là khả năng khách hàng thường xuyên nợ tiền điện là rất lớn) qua đĩ cĩ hình thức thu tiền điện phù hợp đối với khách hàng (thu tiền tại nhà).
Mơ hình dự đốn nợ: Hiển thị phân bố nợ theo các thành phần trong thuật tốn Bayes, phân lớp các khách hàng cĩ xác suất nợ tiền điện lớn. Qua mơ hình cĩ thể nhận thấy trong các hình thức thu tiền điện thì hình thức thu tiền lưu động là hiệu quả nhất (cĩ tỷ lệ nợ thấp: 28.57%). Hình thức thu tiền qua ngân hàng cĩ tỷ lệ nợ thấp nhất (5.71%) là do số khách hàng đăng ký nộp tiền qua ngân hàng chiếm tỷ trọng thấp. Trong các tổ quản lý điện thì Tổ 1 cĩ số khách hàng nợ tiền điện với xác xuất cao nhất (65.71%). Về địa chính, các khách hàng ở khu vực “Vinh Phúc” (mã 10501) cĩ xác suất nợ lớn nhất (34.29%), các khách hàng ở khu vực “Thanh Trì” (mã 10502) cĩ xác suất nợ nhỏ nhất (5.71%).
Hình 3.24 Mơ hình dự đốn nợ theo thuật tốn Bayes
Biểu đồ tiền nợ khách hàng theo các thành phần: Thể hiện sự phân bố tiền nợ theo các thuộc tính như loại dịch vụ, hình thức thu, phương thức thanh tốn, loại khách hàng. Chức năng hỗ trợ khả năng nhìn bao quát về sự phân hố, tỷ trọng cơng nợ theo các thành phần.
Hình 3.25 Biểu đồ tiền nợ khách hàng theo các thành phần.
Chức năng so sánh biểu đồ nợ theo năm, đơn vị quản lý: thống kê và hiển thị đồ thị so sánh số tiền nợ qua các năm của một đơn vị hoặc số tiền nợ trong cùng một năm giữa các đơn vị. Qua đồ thị so sánh, cĩ thể nhận thấy số tiền nợ tăng qua các năm (trong 03 năm 2009, 2008, 2007 thì năm 2009 cĩ số tiền nợ lớn nhất); trong
69
cùng một năm, tiền nợ lớn nhất trong các tháng 06, 07 và 08. Quy luật này đúng với hầu hết các đơn vị. Tiền nợ khách hàng tăng qua các năm cho thấy sự tăng trưởng về số lượng khách hàng dùng điện cũng như lượng điện tiêu thụ. Từ các biểu đồ này cũng cĩ thể biết được đơn vị nào cĩ lượng tiền nợ nhiều nhất, mức đỉnh tiền nợ trong năm.
Hình 3.26 Biểu đồ so sánh tiền nợ
Chức năng so sánh biểu đồ số khách hàng nợ theo năm, đơn vị quản lý: Thống kê, so sánh số khách hàng nợ tiền điện qua các năm trong cùng một đơn vị hoặc số khách hàng nợ tiền điện của các đơn vị trong cùng một năm.
Chức năng Xem thơng tin tiền nợ khách hàng: Thống kê và hiển thị biểu đồ tiền nợ đầu kỳ, tiền nợ phát sinh, tiền nợ cuối kỳ theo các chiều dữ liệu (chiều thời gian: năm, quý, tháng; chiều hình thức thu nợ; chiều loại khách hàng). Chức năng này hỗ trợ lãnh đạo cĩ các báo cáo động về tình hình tiền nợ khách hàng theo nhiều chiều.
Hình 3.28 Biểu đồ thơng tin tiền nợ khách hàng
Chức năng so sánh biểu đồ Tổn thất theo năm, đơn vị quản lý: Thống kê, so sánh tổn thất qua các năm trong cùng một đơn vị hoặc tổn thất của các đơn vị trong cùng một năm.
71
Chức năng dự đốn số khách hàng nợ: cho phép dự đốn số khách hàng nợ tiền theo đơn vị quản lý, tháng/năm làm việc, bằng thuật tốn ART. Thơng tin dữ liệu đầu vào là số khách hàng nợ tiền điện qua các tháng trong năm 2007, 2008. Thực hiện so sánh biểu đồ số khách hàng nợ dự đốn với biểu đồ số khách hàng nợ thực tế.
Hình 3.30 So sánh số khách hàng nợ giữa dự đốn và thực tế
Chức năng dự đốn số tiền nợ của khách hàng: Dự đốn số tiền nợ theo đơn vị quản lý, tháng/năm làm việc bằng thuật tốn ART. Thơng tin dự đốn và thực tế được thể hiện thơng qua biểu đồ so sánh. Từ biểu đồ cĩ thể nhận thấy thơng tin dự đốn tiền nợ là khá sát với thực tế. Tiền nợ dự đốn 06 tháng đầu năm cĩ độ lệch thấp hơn so với tiền nợ dự đốn 06 tháng cuối năm. Lý do là tiền nợ 06 tháng đầu năm ít biến động hơn.
Chức năng dự đốn tổn thất: dự đốn điện năng tổn thất theo đơn vị quản lý, tháng, năm làm việc bằng thuật tốn ART. Thơng tin đầu vào là tổn thất qua các tháng trong năm 2007, 2008. Biểu đồ so sánh thể hiện tổn thất thực tế và tổn thất dự đốn của đơn vị. Từ biểu đồ nhận thấy tổn thất đạt mức đỉnh trong các tháng 6, 7 và 8; đây là các tháng cĩ sử dụng điện nhiều trong năm, do vậy tổn hao điện năng lớn. Biểu đồ cũng cho thấy đường tổn thất dự đốn bám khá sát với đường tổn thất thực tế.
Hình 3.32 So sánh tổn thất giữa dự đốn và thực tế
Chức năng Xem thơng tin tổn thất: Thống kê và hiển thị biểu đồ tổn thất điện năng, điện đầu nguồn, điện thương phẩm theo các chiều về thời gian, lộ đường dây, trạm điện, loại khách hàng.
73
KẾT LUẬN
Luận văn đã trình bày tổng quan về khai phá dữ liệu, kho dữ liệu, bao gồm: các khái niệm cơ bản về khai phá dữ liệu, kho dữ liệu, phân tích dữ liệu trực tuyến. Đặc biệt là các kỹ thuật dự báo cơng nợ, tổn thất, trình bày về thuật tốn ART để dự đốn dữ liệu chuỗi thời gian. Giới thiệu các khái niệm về chuỗi thời gian, các phương pháp tìm kiếm, dự đốn trên chuỗi thời gian.
Đồng thời, luận văn cũng trình bày tổng quan về hệ thống thơng tin quản lý khách hàng ngành điện, cách tổ chức dữ liệu của hệ thống, mơ hình phân cấp trong ngành điện. Phân tích nhu cầu tổng hợp, phân loại, dự đốn thơng tin từ hệ thống dữ liệu tích hợp, hỗ trợ ra quyết định cho lãnh đạo ngành điện. Thiết lập các mơ hình kho dữ liệu, mơ hình khai phá dữ liệu để dự đốn khách hàng nợ tiền điện, tiền nợ,