CHƯƠNG 2 : ỨNG DỤNG THUẬT TỐN RANDOM FOREST
2.1. Thu thập dữ liệu
2.1.1 Quy trình thu thập dữ liệu từ hệ thống CMIS
Hệ thống thơng tin quản lý khách hàng dùng điện (CMIS) được EVN đưa vào sử dụng nhằm khai thác cĩ chức năng truy vấn sản lượng điện năng của khách hàng. Từ đĩ, các đơn vị cĩ thể xây dựng các chương trình ứng dụng để phát triển cho đơn vị nhằm tăng năng suất lao động và nâng cao SXKD tại Cơng ty.
Hệ thống CMIS được xây dựng và phát triển trên nền tản Oracle nên việc truy vấn vào cần được bảo đảm an tồn thơng tin để bảo vệ dữ liệu. Mọi truy vấn đến CSDL cần được xác thực và được cấp quyền riêng biệt. Nhằm đảm bảo hệ thống thơng tin luơn ổn định và liên tục. CMIS luơn đảm bảo chỉ cho phép chạy trên nền tảng mạng nội bộ của Điện lực.
Hệ thống AI dự đốn sản lượng điện tiêu thụ của khách hàng dựa trên sản lượng điện tiêu thụ theo tháng (kWh) của khách hàng đĩ. Do đĩ, tơi sẽ thu thập dữ liệu theo số liệu sản lượng điện trên hĩa đơn tiền điện tháng của khách hàng. Hệ thống thu thập dữ liệu sẽ thoạt động với tần suất 01 lần/01 tháng (kỳ hĩa đơn tiền điện của khách hàng) và sẽ thu thập tồn bộ các khách hàng sử dụng điện đã đăng ký mua điện trên địa bàn miền Trung. Vì vậy, tương ứng với mỗi năm, một khách hàng sẽ cĩ 12 trường dữ liệu theo hĩa đơn thanh tốn tiền điện từng tháng của khách hàng đĩ.
Ví dụ: khách hàng PC03BB0101051 cĩ sản lượng điện sử dụng qua từng tháng theo đơn vị tính kWh từ tháng 1 đến tháng 12 trong năm 2021 là: 603, 633, 554, 588, 693, 845, 882, 1136, 1050, 901, 662, 618 (12 trường dữ liệu tương ứng 12 tháng). Vậy 1 đối tượng sẽ cĩ tối thiểu 14 trường dữ liệu bao gồm (Mã khách hàng, năm sử dụng và 12 dữ liệu sản lượng điện theo hĩa đơn của 12 tháng).
Hình 2.1 Sản lượng điện tiêu thụ 12 tháng năm 2021 của khách hàng PC03BB0101051
2.1.2 Quy trình thu thập dữ liệu các khách hàng trộm cắp điện
Đầu tiên, ta sẽ tổng hợp lại danh sách các khách hàng ăn trộm điện và dữ liệu sản lượng điện của họ đã sử dụng qua từng tháng trong năm vi phạm. Để tập dữ liệu huấn luyện được lớn và đa dạng, tơi sẽ sử dụng dữ liệu của khách hàng đã vi phạm ăn trộm điện thuộc quyền quản lý của Tổng cơng ty Điện lực miền Trung (hơn 1.000 khách hàng đã cĩ hành vi ăn trộm điện từ năm 2018- 2021 đã được các Cơng ty Điện lực quản lý phát hiện và xử lý biên bản truy thu).
Dưới đây là 6 khách hàng trộm cắp điện năm 2019 thuộc Điện lực Nam Sơng Hương – TTHPC. Bằng khả năng nghiệp vụ, sau khi phát hiện khách hàng trộm cắp điện thì sẽ phân tích để chọn ra tháng cĩ sản lượng vi phạm.
Bảng 2.1 06 khách hàng trộm cắp điện năm 2019 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 125 159 131 177 185 185 78 169 205 204 168 142 285 133 276 321 354 242 138 180 157 159 152 101 221 208 242 373 492 820 764 829 769 638 609 511 138 144 116 124 123 204 339 263 169 142 186 152 996 573 923 1188 1296 2045 1910 1352 1747 1891 1833 1757 241 249 249 292 252 260 246 360 429 345 335 323 603 633 554 588 693 845 882 1136 1050 901 662 618 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 PC03BB0101051
Hình 2.2 Biểu đồ sản lượng trong năm 2019 06 khách hàng trộm cắp điện
2.1.3 Xử lý dữ liệu khách hàng gây nhiễu
Ngày nay, hành vi trộm cắp điện của các khách hàng ngày một tinh vi. Một số trường hợp ăn trộm điện nhưng sản lượng điện từng tháng khơng tăng hoặc giảm mạnh. Điều này làm các cán bộ giám sát phải giám sát nhiều yếu tố. Nhất thời cần bổ sung thêm dữ liệu điện từng ngày để kiểm tra tình hình sử dụng điện trong các khung thời gian cao điểm, bình thường và thấp điểm. Ví dụ khách hàng PC03AA18795 dưới đây phát hiện trộm cắp điện từ ngày 16/11/2019. Qua đĩ dữ liệu sản lượng điện các tháng trước đĩ lần lượt là: 180 kwh (Tháng 8/2019), 157 kwh (Tháng 9/2019), 159 kwh (Tháng 10/2019) và 152 kwh (Tháng 11/2019). Nhận xét ban đầu cho thấy khách hàng sử dụng điện trong 2 năm 2018 và 2019 cĩ dấu hiệu khơng chuẩn. Vào các tháng hè hoặc các tháng mùa đơng thường sản lượng điện sẽ tăng cao hơn các tháng khác vì nhu cầu sử dụng các thiết bị làm mát và nĩng tăng cao như (điều hĩa, máy sấy, máy hút ẩm, máy nước nĩng…). Do đĩ khi được đội ngũ Điện lực đến hộ gia đình để kiểm tra đã phát hiện cĩ hành vi trộm cắp điện với hộ dân bên cạnh dẫn đến hộ dân bên cạnh cĩ sản lượng điện tăng vọt bất thường.
Chính vì lý do đĩ, ở tập dữ liệu để huấn luyện và kiểm thử cần loại bỏ những khách hàng gây nhiễu này để độ chính xác được tăng cao.
0 500 1000 1500 2000 2500 1 2 3 4 5 6 7 8 9 10 11 12
Hình 2.3 Biểu đồ dữ liệu sản lượng điện 2 năm của một khách hàng ăn trộm ít biến động