Tiền xử lý và trích xuất đặc trưng - luận văn thạc- 123docz.net

Dữ liệu thơ từ nhiều bảng dữ liệu được tổng hợp thành 37 trường thơng tin tương ứng với từng thuê bao.

Bảng 4: Bảng danh sách các trường thơng tin tổng hợp kết quả

STT Thơng tin Mơ tả

1 sta_date Ngày bắt đầu sử dụng dịch vụ

2 product_code Mã dịch vụ

3 isdn_length Loại số thuê bao (10 hoặc 11 số)

4 type Loại thuê bao (trả trước/trả sau)

5 arpu_active_months Số tháng phát sinh cước 6 voice_cellId_mostCommon Danh sách các tọa độ phát sinh

cước nhiều nhất trong 6 tháng 7 arpu_tong_tdg_t1 Tổng tiêu dùng gốc trong tháng

5/2018

8 arpu_tong_tdg_t2 Tổng tiêu dùng gốc trong tháng 6/2018

9 arpu_tong_tdg_t3 Tổng tiêu dùng gốc trong tháng 27

STT Thơng tin Mơ tả

7/2018

10 arpu_tong_tdg_t4 Tổng tiêu dùng gốc trong tháng 8/2018

11 arpu_tong_tdg_t5 Tổng tiêu dùng gốc trong tháng 9/2018

12 arpu_tong_tdg_t6 Tổng tiêu dùng gốc trong tháng 10/2018

13 arpu_tdg_thoai_t1 Tiêu dùng cước thoại trong tháng 5/2018

14 arpu_tdg_thoai_t2 Tiêu dùng cước thoại trong tháng 6/2018

15 arpu_tdg_thoai_t3 Tiêu dùng cước thoại trong tháng 7/2018

16 arpu_tdg_thoai_t4 Tiêu dùng cước thoại trong tháng 8/2018

17 arpu_tdg_thoai_t5 Tiêu dùng cước thoại trong tháng 9/2018

18 arpu_tdg_thoai_t6 Tiêu dùng cước thoại trong tháng 10/2018

19 arpu_tdg_sms_t1 Tiêu dùng cước sms trong tháng 5/2018

20 arpu_tdg_sms_t2 Tiêu dùng cước sms trong tháng 6/2018

21 arpu_tdg_sms_t3 Tiêu dùng cước sms trong tháng 7/2019

22 arpu_tdg_sms_t4 Tiêu dùng cước sms trong tháng 8/2018

STT Thơng tin Mơ tả

23 arpu_tdg_sms_t5 Tiêu dùng cước sms trong tháng 9/2018

24 arpu_tdg_sms_t6 Tiêu dùng cước sms trong tháng 10/2018

25 arpu_tdg_vas_t1 Tiêu dùng cước VAS trong tháng 5/2018

26 arpu_tdg_vas_t2 Tiêu dùng cước VAS trong tháng 6/2018

27 arpu_tdg_vas_t3 Tiêu dùng cước VAS trong tháng 7/2018

28 arpu_tdg_vas_t4 Tiêu dùng cước VAS trong tháng 8/2018

29 arpu_tdg_vas_t5 Tiêu dùng cước VAS trong tháng 9/2018

30 arpu_tdg_vas_t6 Tiêu dùng cước VAS trong tháng 10/2018

31 arpu_tdg_data_t1 Tiêu dùng cước dữ liệu trong tháng 5/2018

32 arpu_tdg_data_t2 Tiêu dùng cước dữ liệu trong tháng 6/2018

33 arpu_tdg_data_t3 Tiêu dùng cước dữ liệu trong tháng 7/2018

34 arpu_tdg_data_t4 Tiêu dùng cước dữ liệu trong tháng 8/2018

35 arpu_tdg_data_t5 Tiêu dùng cước dữ liệu trong tháng 9/2018

36 arpu_tdg_data_t6 Tiêu dùng cước dữ liệu trong tháng 29

STT Thơng tin Mơ tả

10/2018

37 product_code Mã gĩi cước đăng ký của thuê bao Dữ liệu sau khi tổng hợp sẽ được xử lý qua hai bước chính:

- Tiền xử lý dữ liệu:

o Thực hiện việc tổng hợp dữ liệu

o Loại bỏ các dữ liệu nhiễu (thiếu giá trị, sai số liệu) o Chuẩn hĩa các trường thời gian thành giá trị theo tháng o Chuẩn hĩa danh sách địa điểm về các mã tỉnh thành, quận

huyện

o Biến đổi dữ liệu qua xử lý về thành định dạng chuẩn. - Trích xuất đặc trưng:

o Trích xuất các nhĩm đặc trưng vị trí của thuê bao, qua đấy phát hiện các hành vi của thuê bao như nơi làm việc, nơi sinh sống, cĩ cơng việc ổn định hay khơng,…

o Trích xuất các nhĩm đặc trưng theo các mức dữ liệu (binning) như thấp, trung bình, cao

o Chuẩn hĩa các dải giá trị về biên độ 0-1 bằng thuật tốn Min- Max

o Sinh ra vector đặc trưng

Từ dừ liệu tổng hợp, học viên tiến hành trích xuất các đặc trưng đại diện cho các thuê bao, số lượng đặc trưng được trích xuất là 381 đặc trưng được chia vào các nhĩm đặc trưng như sau:

Bảng 5: Bảng danh sách các nhĩm đặc trưng được trích xuất

STT Mơ tả

1 Thời điểm bắt đầu sử dụng SIM 2 Đầu số 10 số hay đầu số 11 số 3 Loại thuê bao trả trước hay trả sau 4 Tuổi của thuê bao theo tháng 5 Số tháng phát sinh cước

6 Các đặc trưng nơi phát sinh cước nhiều số 1, số 2, số 3 trong 6 tháng 7 Các đặc trưng tổng tiêu dùng trong tháng t1 đến t6

8 Các đặc trưng tổng tiêu dùng thoại trong tháng t1 đến t6 9 Các đặc trưng tổng tiêu dùng sms trong tháng t1 đến t6 10 Các đặc trưng tổng tiêu dùng vas trong tháng t1 đến t6 11 Các đặc trưng tổng tiêu dùng data trong tháng t1 đến t6

12 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung giờ hành chính trong tháng t1 đến t6 mức quận

13 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ hành chính trong tháng t1 đến t6 mức quận

14 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ hành chính trong tháng t1 đến t6 mức quận

15 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong tháng t1 đến t6 mức quận

16 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi chiều trong tháng t1 đến t6 mức quận

STT Mơ tả

trong ngày làm việc trong tháng t1 đến t6 mức quận

18 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành

19 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành

20 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành

21 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong tháng t1 đến t6 mức tỉnh thành

22 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi chiều trong tháng t1 đến t6 mức tỉnh thành

23 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất khung giờ nghỉ trong ngày làm việc trong tháng t1 đến t6 mức tỉnh thành

24 Các đặc trưng tổng tiêu dùng trong 6 tháng

25 Các đặc trưng tổng tiêu dùng trong 6 tháng phân theo mức 26 Các đặc trưng mức tăng hoặc giảm của tháng t so với t-1

Chương 4: Thực nghiệm và đánh giá 4.1 Mơi trường và các cơng cụ thực nghiệm

Để xây dựng các mơ hình được đề xuất trong chương 3, học viên sử dụng cơng cụ khai phá dữ liệu Knime. Đây là một cơng cụ khai phá dữ liệu được viết trên nền ngơn ngữ lập trình Java và cĩ giao diện trực quan, hỗ trợ khá nhiều các kỹ thuật xử lý dữ liệu cũng như khai phá dữ liệu được tích hợp sẵn. Các bước xử lý của một quy trình khai phá dữ liệu sẽ được biểu diễn bởi một đồ thị cĩ hướng, người dùng sẽ kéo thả các thành phần xử lý dữ liệu và cấu hình tham số cho các thành phần này qua các giao diện tùy biến.

Hình 9: Giao diện cơng cụ khai phá dữ liệu Knime

Các bảng dưới đây là mơ tả các phiên bản phần mềm được sử dụng và mơi trường thực nghiệm.

Bảng 6: Các cơng cụ thực nghiệm

STT Phần mềm Ý nghĩa Phiên bản Nguồn

1 Knime Mơi trường thử 4.1.0 https://www.knime.com/ nghiệm

2 Java Ngơn ngữ lập trình 1.8.231 https://www.java.com/ 33

Bảng 7: Mơi trường thực nghiệm

STT Phần cứng Nguồn

1 CPU Intel Core i5-8250U 1.60GHz

2 RAM 4GB

3 Ổ cứng 1TB HDD

4 Hệ điều hành Windows 10 64bit

4.2 Kịch bản thực nghiệm

Luận văn thực hiện 4 kịch bản thực nghiệm: thực nghiệm đánh giá kết quả phân loại dựa trên cây quyết định, thực nghiệm đánh giá kết quả phân loại dựa trên kNN, thực nghiệm đánh giá dựa trên thuật tốn SVM và thực nghiệm kết hợp cả 3 mơ hình trên. Các thực nghiệm được đánh giá trên cùng tập dữ liệu với phương pháp kiểm thử chéo 10-folds và phương pháp đánh giá là độ chính xác, độ hồi tưởng và độ đo F.

Các tham số của thực nghiệm được lựa chọn thơng qua nhiều thực nghiệm thay đổi tham số, kết quả được đưa ra trong các mục 4.3 là các tham số đạt kết quả tốt nhất.

4.3 Kết quả thực nghiệm và đánh giá

a) Thực nghiệm đánh giá kết quả phân loại sử dụng thuật tốn kNN

Thực nghiệm sử dụng thuật tốn kNN được đánh giá thơng qua kỹ thuật kiểm thử chéo 10 folds, với tham số k được thử từ 1 đến 20, các độ đo đánh giá sự tương tự là độ đo Cosine và độ đo Euclidean. Qua các kết quả thực nghiệm thay đổi tham số, thực nghiệm với k=11 và độ đo sự tương tự là Cosine cho kết quả tốt nhất với độ micro-F là 0.43.

Bảng 8: Kết quả thực nghiệm sử dụng thuật tốn kNN

TẬP SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT

MẪU LIỆU ĐỐN CHÍNH TƯỞNG QUẢ

ĐÚNG ĐƯỢC XÁC

TOM50 7513 3456 9095 0.38 0.46 0.42

TẬP SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT

MẪU LIỆU ĐỐN CHÍNH TƯỞNG QUẢ

ĐÚNG ĐƯỢC XÁC TOM11 4429 1506 3673 0.41 0.34 0.37 POBAS 4409 1984 2961 0.67 0.45 0.54 EXSTUDENT 3367 1044 1933 0.54 0.31 0.39 ECO50 3365 1750 2612 0.67 0.52 0.59 TOM690 2840 1278 5325 0.24 0.45 0.31 TOMA1 2185 1093 2023 0.54 0.50 0.52 TOMCD 1528 779 2361 0.33 0.51 0.40 ECD50 768 361 612 0.59 0.47 0.52 ECOM1 718 230 527 0.44 0.32 0.37 MACRO-F 0.48 0.43 0.46 MICRO-F 0.43

Kết quả thực nghiệm đạt macro-F là 0.46 và micro-F1 là 0.43 cho thấy sự chênh lệch là khơng lớn cho thấy dữ liệu mặc dù cĩ sự mất cân bằng giữa các lớp là khá lớn (lớp thấp nhất là ECOM1 với 718 dữ liệu với lớp cao nhất là TOM50 với 7513 dữ liệu, tỷ lệ 1/10) nhưng khơng gây ra ảnh hưởng cao. Kết quả tốt nhất đạt ở lớp ECO50 với F là 0.59, độ chính xác tốt nhất là lớp ECO50 và POBAS 0.67, độ hồi tưởng tốt nhất là lớp ECO50. Hầu hết độ chính xác thường tốt hơn độ hồi tưởng đối với từng lớp.

b) Thực nghiệm đánh giá kết quả phân loại sử dụng thuật tốn SVM

Trong thực nghiệm này, luận văn tiến hành thực nghiệm với thuật SVM với các tham số thay đổi là C trong ngưỡng 0.1 đến 10, gamma trong ngưỡng 0.1 đến 10, nhân thử nghiệm là RBF. Qua các kết quả thực nghiệm cho thấy với C=1 và gamma=0.8 cho kết quả tốt nhất với micro-F là 0.57.

TẬP SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT

MẪU LIỆU ĐỐN CHÍNH TƯỞNG QUẢ

ĐÚNG ĐƯỢC XÁC TOM50 7513 4376 8549 0.51 0.58 0.54 TOM11 4429 3452 5347 0.65 0.78 0.71 POBAS 4409 2316 3124 0.74 0.53 0.61 EXSTUDENT 3367 1594 2971 0.54 0.47 0.50 ECO50 3365 1864 2547 0.73 0.55 0.63 TOM690 2840 1755 3209 0.55 0.62 0.58 TOMA1 2185 1296 2047 0.63 0.59 0.61 TOMCD 1528 647 1968 0.33 0.42 0.37 ECD50 768 219 712 0.31 0.29 0.30 ECOM1 718 347 648 0.54 0.48 0.51 MACRO-F 0.55 0.53 0.54 MICRO-F 0.57

Kết quả thực nghiệm sử dụng SVM với macro-F là 0.54 và micro-F là 0.57 cho thấy hiệu quả hơn so với thuật tốn kNN là 0.14 với độ đo micro-F. Lớp TOM11 đạt kết quả F tốt nhất là 0.71 và độ hồi tưởng tốt nhất là 0.78, lớp POBAS đạt kết quả độ chính xác tốt nhất 0.74. Hầu hết các lớp đều cho kết quả tốt hơn so với việc sử dụng thuật tốn kNN ngoại trừ hai lớp TOMCD (0.37 so với 0.4) và ECD50 (0.3 so với 0.52), đây là hai lớp cĩ số lượng dữ liệu thấp.

c) Thực nghiệm đánh giá kết quả phân loại sử dụng thuật tốn cây quyết định

Thực nghiệm sử dụng thuật tốn cây quyết định sử dụng các tham số liên quan đến các thuật tốn đánh giá và tối ưu trên cây, cụ thể:

- Độ đo đánh giá: Gini index và Gain ratio - Tỉa cây: khơng tỉa cây và cĩ tỉa cây

- Số lượng nút nhỏ nhất trên cây: chạy trong khoảng 2 đến 5

Kết quả thực nghiệm cho thấy kết quả tốt nhất tại độ đo đánh giá là Gini, khơng tỉa cây và số lượng nút nhỏ nhất là 3. Bên cạnh đấy thuật tốn này khơng sử dụng kỹ thuật chuẩn hĩa khoảng biên độ dữ liệu về khoảng 0-1 bằng thuật tốn Min-Max mà giữ nguyên các giá trị dạng số.

Bảng 10: Kết quả thực nghiệm sử dụng thuật tốn cây quyết định

TẬP SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT

MẪU LIỆU ĐỐN CHÍNH TƯỞNG QUẢ

ĐÚNG ĐƯỢC XÁC TOM50 7513 4618 7914 0.58 0.61 0.60 TOM11 4429 3607 5210 0.69 0.81 0.75 POBAS 4409 3217 3487 0.92 0.73 0.81 EXSTUDENT 3367 1964 3574 0.55 0.58 0.57 ECO50 3365 2349 2741 0.86 0.70 0.77 TOM690 2840 2144 3119 0.69 0.75 0.72 TOMA1 2185 1546 2267 0.68 0.71 0.69 TOMCD 1528 1018 1684 0.60 0.67 0.63 ECD50 768 451 512 0.88 0.59 0.70 ECOM1 718 398 614 0.65 0.55 0.60 MACRO-F 0.71 0.67 0.69 MICRO-F 0.68

Kết quả thực nghiệm cho thấy việc sử dụng thuật tốn cây quyết định cho kết quả tốt hơn SVM là 0.11 với độ đo micro-F là 0.68 và macro-F là 0.69. Tất cả các lớp đều cho kết quả tốt hơn các lớp trong 2 thuật tốn kNN và SVM, lớp POBAS cho kết quả tốt nhất với độ đo F là 0.81 và độ chính xác tốt nhất là 0.92, lớp TOM11 cho kết quả độ hồi tưởng tốt nhất là 0.81. Tuy nhiên cĩ một số lớp kết quả vẫn chưa tốt như EXSTUDENT, TOMCD, TOM50 và ECOM1.

d) Thực nghiệm đánh giá kết quả phân loại sử dụng kết hợp các mơ hình

Qua 3 thực nghiệm ở trên, kết quả của thuật tốn cây quyết định cho kết quả vượt trội hơn so với các thực nghiệm sử dụng các kỹ thuật khác. Tuy nhiên một số lớp kết quả vẫn chưa đạt được hiệu quả cao. Trong thực nghiệm sử dụng kết hợp các mơ hình (ensemble models), luận văn tiến hành ghép nối các mơ hình theo tiêu chí sau:

- Kết quả mơ hình sử dụng kNN đầu ra cĩ giá trị là 1 - Kết quả mơ hình sử dụng SVM đầu ra cĩ giá trị là 1.5

- Kết quả mơ hình sử dụng cây quyết định đầu ra cĩ giá trị là 2

Việc đưa ra các giá trị của bộ phân lớp thành phần dựa trên mức độ hiệu quả của các thực nghiệm ở trên (cây quyết định tốt hơn SVM và kNN). Kết quả từ bộ phân lớp kết hợp tương ứng với nhãn lớp cĩ tổng giá trị cao nhất.

Ví dụ 1:

- Nhãn lớp đầu ra của bộ phân lớp kNN là: TOM11 (giá trị 1) - Nhãn lớp đầu ra của bộ phân lớp SVM là: ECOM1 (giá trị 1.5) - Nhãn lớp đầu ra của bộ phân lớp cây quyết định: ECD50 (giá trị 2)



Nhãn lớp đầu ra của mơ hình kết hợp là ECD50 (giá trị 2) Ví dụ 2:

- Nhãn lớp đầu ra của bộ phân lớp kNN là: TOM11 (giá trị 1) - Nhãn lớp đầu ra của bộ phân lớp SVM là: TOM11 (giá trị 1.5) - Nhãn lớp đầu ra của bộ phân lớp cây quyết định: ECD50 (giá trị 2)



Nhãn lớp đầu ra của mơ hình kết hợp là TOM11 (giá trị 2.5)

Bảng 11: Kết quả thực nghiệm sử dụng kết hợp các mơ hình

TẬP SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT

MẪU LIỆU ĐỐN CHÍNH TƯỞNG QUẢ

ĐÚNG ĐƯỢC XÁC

TOM50 7513 4251 6049 0.70 0.57 0.63

TOM11 4429 3709 5007 0.74 0.84 0.79

POBAS 4409 3547 4158 0.85 0.80 0.83

TẬP SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT

MẪU LIỆU ĐỐN CHÍNH TƯỞNG QUẢ

ĐÚNG ĐƯỢC XÁC ECO50 3365 2309 2947 0.78 0.69 0.73 TOM690 2840 2218 3642 0.61 0.78 0.68 TOMA1 2185 1688 2674 0.63 0.77 0.69 TOMCD 1528 986 1557 0.63 0.65 0.64 ECD50 768 579 694 0.83 0.75 0.79 ECOM1 718 538 705 0.76 0.75 0.76 MACRO-F 0.71 0.72 0.72 MICRO-F 0.71

Kết quả chung của thực nghiệm cho kết quả tốt nhất so với 3 thực nghiệm cịn lại với độ đo micro-F là 0.71 hơn kết quả của cây quyết định 0.68 là 0.03, SVM 0.57 là 0.14, kNN 0.43 là 0.28. Thực nghiệm ưu tiên kết quả cây quyết định cĩ giá trị cao hơn nên hầu hết các kết quả tương quan với mơ hình sử dụng thuật tốn cây quyết định, bên cạnh đấy một số kết quả của các mơ hình cịn lại cũng bổ sung thêm cho mơ hình kết hợp giúp mơ hình này mang lại hiệu quả tốt hơn. Tương tự như trong thực nghiệm cây quyết định, lớp POBAS cũng đạt kết quả tốt nhất tại độ đo F là 0.83 (hơn so với thuật tốn cây quyết định 0.81 là 0.02) và tốt nhất độ đo chính xác là 0.85, lớp TOM11 cũng đạt độ hồi tưởng tốt nhất là 0.84. Các lớp cĩ lượng dữ liệu thấp