1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Dự báo thuê bao rời bỏ nhà mạng dựa vào học máy

86 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự báo thuê bao rời bỏ nhà mạng dựa vào học máy
Tác giả Lê Trương Trọng Duy
Người hướng dẫn PGS. TS Dương Tuấn Anh
Trường học Trường Đại học Bách Khoa - ĐHQG TP. HCM
Chuyên ngành Khoa học Máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2018
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 86
Dung lượng 28,07 MB

Nội dung

Trongluận văn này, chúng tôi sẽ kh o sát hướng tiếp cận để c i tiến thời gian thực thi va d nh gi độ chính xác khi sử dụng kỹ thuật khai pha dữ liệu hỗn hợp Hybrid Data Mining Techniques

Trang 1

LÊ TRƯƠNG TRỌNG DUY

DỰA VÀO HỌC MÁY

CHUYEN NGANH: KHOA HỌC MAY TÍNHMA SO CHUYEN NGANH: 60.48.01

LUẬN VAN THAC SĨ

TP Hồ Chí Minh Tháng 08 năm 2018

DU BAO THUE BAO ROI BO NHA MANG

a a a

Trang 2

TRUONG ĐẠI HOC BACH KHOA - ĐHQG — HCM

Cán bộ hướng dẫn khoa hoc: PGS TS Duong Tuan Anh

Cán bộ chấm nhận xét 1:PGS.TS Đỗ Phúc - c6 + E£EsEEeEeEsEeEsesrsed

Cán bộ chấm nhận xét 2: TS.Nguyễn Đức Cường - - 555s+c+cscsecs2

Luận văn thạc sĩ được bảo vệ tại Trường Dai học Bach Khoa, DHQG Tp HCMngày 17 thang 07 năm 2018

Thanh phan hội đồng đánh giá luận văn thạc sĩ gồm:

1.GS.TS.Phan Thi TÏƯƠI - <5 5 11131011 3101119 re

2:TS.Nguyễn Hồ Man Rạng ¿525222 SE 22192221911 111 212121111211

3 PGS.TS Đỗ Phúc -. - ch HH TH HH ng HàA TS À0 091611208 ."®ồ

5.TS.Phạm Văn Chung - .- SH re

Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Trưởng Khoa quản lý chuyên

ngành sau khi luận văn đã được sửa chữa (nêu có).

CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA KH & KHMT

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Lê Trương Trọng Duy <5 MSHV:7140227

Ngày, thang, năm sinh: 22/10/199 SG ST sa Nơi sinh: TPHCM

Ngành: Khoa Học May Tinh 25555 sssseesss Mã số : 60.48.01

I TEN DE TÀI: Dự báo thuê bao rời bồ nhà mạng dựa vào học máy

H VÀ NỘI DUNG:Nhiệm vụ :Dé xuất mô hình mới dé giải quyết bài toán dự báo thuê bao rời bỏ nhà mạngdựa vào học máyNội dung :1/Nghién cứu lý thuyết về khai phá dữ liệu,các kỹ thuật trong bài toán khai phá dữ liệu vahọc máy,các mô hình mạng Noron,Cây quyết định - - 5 Ăn 111 1 re.2/Hiện thực mô hình hỗn hợp mạng Noron + Cây quyết định dựa vào việc kết hợp 3 kỹthuật : Lựa chọn thuộc tinh,thu giảm tập huân luyện và phân lớp dữ liệu

3/Thực nghiệm việc so sánh và đánh giá kết quả mô hình mạng Noron + cây quyết định vớimô hình mạng Nơron + mạng ÏÌNOTOIN - (<< 1210010999030 01 99 ngờHI NGÀY GIAO NHIỆM VU : 26/02/2018 52522222 SE 322123222 2112121 re,IV NGÀY HOÀN THÀNH NHIỆM VU: 17/06/2018 5-52 525525 cccczezseceeV CÁN BO HUONG DÂN : PGS.TS Dương Tuấn Anh -. 55555555552

Tp HCM, ngay thang năm 20 CAN BO HUONG DAN TRUONG KHOA KH & KTMT

(Họ tên va chữ ky) (Họ tên và chữ ký)

Trang 4

viên, các thay cô trường Dai học B ch Khoa Tp.HCM, tôi đã hoàn thành luận vănthạc s với thời gian như dự kiến Có được kết qu ấy tôi xin chân thành gởi lời cám

ơn đến.

- PGS TS Duong Tuan Anh — Gi ng vién khoa Khoa Hoc M y T nh,trường Dai Học B ch Khoa Tp.HCM đã tận t nh hướng dẫn, giúp đỡ tôi trongsuốt quá trình làm luận văn Sự giúp đỡ và hướng dẫn nhiệt tình của thầy đãgiúp tôi củng cô kiến thức và hoàn thành tốt luận văn tốt nghiệp Tôi xin chânthành c m ơn thay

- Quy thay cô khoa Khoa Hoc M y T nh, trường Dai học B ch KhoaTp.HCM nói riêng và các thay cô Trường Dai Hoc B ch Khoa Tp.HCM nóichung đã tận tình gi ng dạy và chỉ b o, giúp tôi trang bị những kiến thức quýbáu trong suốt thời gian học tập và nghiên cứu

Du rat cô găng và liên tục nâng cao kiên thức, nhưng luận văn nay van khôngthê tránh những thiêu sót và hạn chê Do đó tôi rat mong nhận được sự chỉ dan củacác quý thay cô và các ban dé tôi có thê hoàn thiện những sai sót mà m nh mặcph i.

Trang 5

Trong ngành Công nghệ thông tin, Mang Noron nhân tao (Artificial Neural

Networks hoặc gọi tắt là Neural Networks) là một hệ thống mô hình hóa một cáchđặc biệt cách các tế bào thần kinh hoạt động trong não bộ con người Mang Noronnhân tạo đã được ứng dụng trong nhiều ngành nghề, I nh vực kh c nhau như y học,công nghiệp, viễn thông, thời tiết và tài ch nh Việc sử dụng bố sung Mang Noronnhân tao đóng vai trò quan trọng trong thời đại ky nguyên số hiện nay, các ứng

dụng thương mại cua cua Mang Noron nhân tao thường tập trung vào việc gi 1

quyết các van dé xử lý tín hiệu phức tạp hoặc nhận dang mau Qua đó ta có thé phân

tích, dự đo nc c sự kiện trước, hoặc dự báo các hành động sẽ x y ra dựa trên các

dữ liệu gốc hiện tại và đưa ra quyết định tốt hơn phục vụ đời sống con người.Trong những năm gần đây, bài toán dir báo thuê bao rời bỏ nhà mang đã hapdẫn sự chú của nhiều nhà nghiên cứu nhiều gi i thuật đã được dé xuất và kết hợpnhăm c ¡ tiễn hiệu suất và độ chính xác khi ph ¡ xử lý bài toán phức tạp này Trongluận văn này, chúng tôi sẽ kh o sát hướng tiếp cận để c i tiến thời gian thực thi va

d nh gi độ chính xác khi sử dụng kỹ thuật khai pha dữ liệu hỗn hợp (Hybrid Data

Mining Techniques) băng cách kết hợp hai mô hình là Mạng Noron nhân tạo(ANN)+ Cây quyết định (Decision Tree) và so sánh với mô hình hỗn hợp MangNoron nhán tao(ANN1) + Mạng Noron nhân tao(ANN2)

Phương ph p kết hợp hai mô hình Mạng Noron nhân tạo (ANN) + Cây quyếtđịnh (Decision Tree) được thực hiện để c ¡ thiện thời gian thực thi hơn khi sử dụng

mô hình hỗn hợp Mang Noron nhân tao (ANN1)+ Mạng Noron nhán tao(ANN2),

trong đó mô h nh Mang Noron nhân tao sẽ làm nhiệm vu thu gi m tap huấn luyện,còn mô hình Cây guyết định sẽ làm nhiệm vu dự báo C c kết qu thực nghiệm sẽchứng minh sự hiệu qu của gi ¡ thuật kết hợp ANN+ Decision Tree sẽ cho kết quvới thời gian thực thi nhanh hơn gi i thuật kết hop ANN+ANN.Trong khi đó, haimô h nh trên đều cho kết qu độ chính xác tốt hơn mô h nh ANN đơn lẻ

Trang 6

which models specially the operation of neurons in the human brain Neuralnetworks have been applied in many different domains such as medicine, industries,telecom, weather and finance Applying Artificial Neural Networks plays animportant role in this generation, Commercial applications of these technologiesgenerally focus on solving complex signal processing or pattern recognitionproblems.Its method based on datasets can help us for analyzing, predict events andhave better decision making.

In recent years, customer churn prediction has attracted the attention of manyresearchers, many algorithms have been proposed and combine to improve theperformance and the accuracy when dealing with this complex problem In thisthesis, we explore an approach to improving excution time and rating the accuracyof two model When using hybrid data mining techniques by combining two modelsof Artificial neural network (ANN) + Decision Tree and compare the result with thecombination of two models of Artificial Neural Networks (ANN) + ArtificialNeural Networks (ANN).

A combination of two models: Artificial Neural Network (ANN) + DecisionTree was implemented to improve excuting time enhancement better than using thehybrid model of combining Artificial Neural Network model (ANNI) + ArtificialNeural Network model (ANN2) , in which the ANN model performs the datareduction task, while Decision Tree model will be the task of prediction Theexperimental results show that the efficiency of the combine Decision Tree + ANNalgorithm will have the result of excuting time better than the combined ANN +ANN algorithm.But both of two models perform the better accuracy than singleANN model.

Trang 7

Tôi cam đoan răng, ngoại trừ các kêt qu tham kh o từ các công trình khácnhư đã ghi rõ trong luận văn, c c công việc trình bày trong luận văn này là do ch nhtôi thực hiện và chưa có phân nội dung nào của luận văn này được nộp đê lây một

băng cấp ở trường này hoặc trường khác

Ngày 16 th ng 06 năm 2018

Lé Truong Trong Duy.

Trang 8

Hình II-2 Hệ thống phân lớp tổng quát + - +52 2+2 +2 +£+£e+xzxszxsrs2 9Hình II-3 Cấu trúc của một noron nhân †ạO - - xxx +x+k++zE++zezxz 12Hình II-4 Cau trúc của mạng perceptron nhiều lớp - 2 s5: 13

Hình H-5 Minh hoa gi 1 thuật K- NN G1 re, 21

Hình II-6 Biểu diễn cây quyết định CO tececccccsccssssesssesssseesssesseseeseseeseseees 22Hình II-7 Cây quyết định cho việc chơi Tennis 2-5 2 5s+5z2s+5sc5+2 23Hình II-8 Bốn bước cơ b n trong quá trình lựa chọn các thuộc tính phù hợp .29

Hinh [1-9 M6 hinh Filter 30

Hình I-10 Mô hình Wrapper ee eee eeeeceesseeeeesseceeeesseeeeeeesseeeesesssaeeeesgas 31Hình II-11 Mô hình xây dựng hệ thống thuê bao rời bỏ nhà mang [13] 38

H nhIV-1 Sod tổng qu t của hệ thong Mạng Nơron + Cây quyết định 45

H nhIV-2 Sod tổng qu t của hệ thống Mạng Noron + Mang Nơron 46

Hình V-1 Dữ liệu sau khi được chuẩn hóa 2xx k+x+x+++E+ezecxe 52Hình V-2 Lựa chọn thuộc tính trên WEKA ccccQss s32 53Hình V-3 Cấu h nh phương ph pd nhgi thuộc tính WrapperSubsetEval trên"25.6 53

Hình V-4 Cấu hình Tree sử dụng thuật toán J48(C4.5)trén WrapperSubsetEval¬ 54

Hình V-5 Cấu hình Search Method với phương ph p GreedyStepwise 55

Hình V-6 Các thuộc t nh trước khi lọc và lựa chọn thuộc tính 55

Hình V-7 Các thuộc tính còn lại khi lọc và lựa chọn các thuộc tính 56

Hình V-8 Các công thức để đ nh gi một mô hình 2-5555: 58Hình V-9 Xây dựng Cây quyết định bang Python ¿5525s+5<c5+2 59Hình V-10 Confusion Matrix của ANNI khi thực nghiệm bằng phương ph p

ANNI + ANN2 của bài báO - s0 vn 62

Hình V-11 Kết qu thực nghiệm hàm lỗi trung bình khi sử dụng mô hìnhMang Noron + Cây quyết định: -¿- 2-56 2E+52+ESEE2ESEE 2E 2E 2E Ekrrrrkrreee 64

Trang 9

B ng V-1 Hidden Unit đã thực nghiệm có kết qu tốt nhất 57B ng V-2 Confusion Matrix của Mạng Noron đầu tiên . - 58B ng V-3 Kết qu_ thực thi và thời gian thực thi của Cây quyết định ứng với dữ

liệu Mạng Nơron © tTÊN: - ng và 60B ng V-4 Thực nghiệm mồ hình Mang Noron + Mạng Noron 63

B ng V-5 B ng so sánh tổng thé 2 mô hình Mạng Noron+Cây quyết định va

Mạng Nơron+Mạng Mạng NofroH Q30 0 0n v4 63

Trang 10

TOM TAT LUẬN VĂN E151 E111 1115151115111 51 1111k ii

ABSTRACT” G9 H gọ H g lil

9009.9090090 ivDANH MỤC HINH ccccceccsccsecececscscececececesesescssscsvevevavevavevacecacecscecacecacesseeseceavees VDANH MỤC BẢNG G1 SE 1 1 1101111111111 1 0151 xe ereree vi

MỤC: LUC oe ececenecceessseeecesesnnecceessnceceesaaeeceseaaeeeeeseeeeeceeeeaeeesesenececeeeaeeeeenegs Vil

CHUONGI GIỚI THIỆU TONG QUAN VE DE TAL ccececscsesesececeseeeeeeevees |

T.1 Động cơ nghiÊn CỨU (<5 01199001 ng re l

L.2 gh a của để tài + 6 Sex 2S 1 122111111 11111111 111101111111 cxe 2

HI.I Khai pha dữ liệu, học máy và các kỹ thuật phan tích dự báo 6HLI.I Khai niệm Khai phá dữ liệu và học may -««« «=2 6HLI.2_ Những nhóm bài toán của Khai phá dữ liệu «- 8

11.1.3 Một số kỹ thuật dự b o sử dung học máy . -5-5¿ 11

H14 C c phương ph p lựa chọn đặc trưng (Feature Selection) 28I2 Mo hình trong bài toán lựa chọn thuộc tính << s«<<+ 3011.2.1 Cac mồ hình trong lựa chọn thuộc tính - << <<<«2 30H.22_ D nh giá hai mồ hình Filter và Wrapper - s««<- 3l11.2.3 Cac gi 1 thuật lua chọn thuộc tính - 5555 +ssss 32H35 Khung thức dự báo thuê bao rời bỏ nhà mạng 37H4 Giới thiệu công cụ WekKa - HH ke 39

Trang 11

IHHI.I Mang Noron hỗn hop (Hybrid Neural Networks): 4]

CHUONG V HIỆNTH CV TH CNGHIỆM 49

V.I Môi trường thực nghiỆm - << 5 c1 ng ke 49V.2 ` Bộ dữ liệu thực nghiỆm: - (<< <1 1 ng 1 ke 49V3 Cc bước xây dựng và thực nghiệm mồ hình dự báo thuê bao rời

mang hỗn hợp ANN+DecisiOITTTree -+- + 52+ +x+EvE+x+tekeEerrxrkererrrrrrrerree 51

V3.1 Tién xử lý, chuẩn hóa và rút tr ch đặc trưng của tap dữ liệu 51

V.3.2 Tạo mô hình Mạng Nơron và thực nghiệm mô hình Mang Noron

đầu tiên 56V3.3 Tao mô hnh Decision Tree để dự báo dựa vào kết qu cua môh nh ANN đầu tiên va thực nghiệm kết qu c mô hình Hybrid 58V34 ĐÐnhgi mô hnh - Hoàn thành kết qu thực nghiệm 60

V.4 So sánh mồ hình hỗn hợp ANN + Decision Tree với mô hình ANN +

ANN trước đây - - - cọ HH nọ vn 61

V.5 _ KẾ( luận Chuong? eeeccceccceccsesesescscssescssssessssesesssssssscssesestssssesesseess 64CHƯƠNGVI KETLUAN V HUONG PH TTRL N 66VII Những kếtqu dat được của luận văn - 2 2 scs+e+eecee 66

viii

Trang 12

PHU LUC A - 522-562 223 E35 5E1515215112115211111111111 111111111111 c6 A

BANG DOI CHIEU THUẬT NGỮ ANH - VIET c2 +ssesssxsxse+ ALY LICH TRÍCH NGANG G- - Sẻ SE E15 9191915111181 515151 115115 ve rree a

QU TR NH D O TẠO 22 5< 1 E21 E5 1511115111111 1111 1511111111 T11 xe b

QUA TRÌNH CONG 'T ÁCC G-G- S121 11 51515151511 18115111515111 11111511 cee, c

Trang 13

CHƯƠNGLI GIỚI THIỆU TONG QUAN VE DE TÀI

L1 D ngconghiéne u

Trong thời đại Công nghệ thông tin và bùng n6 thông tin hiện tại, việc phát triểnsôi động, vượt bậc của ngành viễn thông đòi hỏi các nhà mạng di động nói riêng vàviễn thông nói chung ph ¡ có các chiến lược để phát triển mạng lưới khách hàng củamình Việc các nhà mạng phát triển khách hàng một cách ạt đã trở nên bão hòa, mạnglưới các thuê bao hầu như đã phủ kín suốt quốc gia, việc phát triển các thuê bao mớitrở nên khó khăn hơn bao giờ hết Bài to n đặt ra cho các nhà cung cấp dịch vụ viễnthông bây giờ không chỉ là phát triển mà còn ph ¡ là duy tr lượng khách hàng của

mình.

Hiện nay, trên thé giới có rất nhiều công trình nghiên cứu thuộc lãnh vực qu n lýquan hệ khách hàng để gi ¡ quyết bài toán dự đo n thuê bao rời mạng điện thoại diđộng không dây Hầu hết các công trình này đều sử dụng công nghệ khai phá dữ liệuchăng hạn “Cây quyết định” (Decision Tree), hoặc “Kỹ thuật mạng noron” (NeuralNetwork Techniques) Xu hướng khách hàng ngừng sử dụng s n phẩm/ dịch vụ củacông ty trong một khoàng thời gian nhất định được định ngh a là kh ch hàng rời mạng

(Chandar, Laha & Krishna[2]).Xu hướng của khách hang là dừng sử dụng dịch vụ củacác nhà mạng cũ và so s nh với các nhà mạng mới ,do vậy bài toán dự báo thuê bao rời

bỏ nhà mạng rat được sự quan tâm của các nhà mạng viễn thông.Nếu có thé dự báo

được thuê bao nào sẽ có định rời bỏ nhà mạng thì các doanh nghiệp viễn thông sẽ có

các chính sách, chiến lược khuyến mãi kết hợp để giữ các thuê bao lại

Trang 14

L2 nghac ad ti

1.2.1 Y nghĩa thực tiễnHỗ trợ các doanh nghiệp trong qu tr nh kinh doanh, điều hành và xây dựng, c i

thiện tình hình chung của toàn doanh nghiệp.

Từ việc xây dựng mô hình dự báo các thuê bao rời mạng, ta có thể áp dụng cácưu điểm để c ¡ thiện tốc độ xử lý và đưa ra c c chiến lược tiếp thị cũng như tiếp cận

cạnh tranh trên thi trường một c ch ch nh x chon.

Góp phân c i thiện tình hình hoạt động của toàn doanh nghiệp.Cho phép ghi nhận các dữ liệu và thống kê dữ liệu một cách bán tự động, việcphân lớp và dự báo các bất thường khi các khách hàng có tỷ lệ rời đi sẽ là tiền đề choviệc quy hoạch các chiến lược qu_n lý quan hệ khách hàng

1.2.2 Ý nghĩa khoa học

Hiện nay c c phương ph p học máy với 2 nhóm chính: Học có giám sát và học

không gi ms t, đã hỗ trợ việc xây dựng một mô hình dự báo khá chính xác cho nhiều

ứng dụng trong | nh vực Khai phá dữ liệu Đặc thu của c c nha mang là việc đưa ra kh i niệm kh ch hàng rời mang là tùy

theo c c quan điểm kh c nhau Theo Olafsson, Li và Wu [3], có 2 loại rời mạngkhác nhau Loại thứ nhất là rởi mạng chủ động (ngh a là khách hàng chủ động chọn

dừng sử dụng dịch vụ) Loại thứ hai là rởi mạng bị động (ngh a là khi những khách

hàng không còn là khách hang tốt nữa và công ty lựa chọn dừng mối quan hệ này).Việc tiếp cận phương ph p rút trích và phân đoạn dé ph t hiện c c bất thường và tiên

liệu sớm sẽ giúp đ nh gi chnhx chơn khi p dụng vào m y học Burez và Van den

Poel [4] đã chia rời mạng chủ động thành 2 nhóm: Rời mạng do vấn đề thương mạivà rời mạng do van dé tài chính Rời mang do van dé thương mại là trường hợpkhách hàng không gia hạn hợp đ ng có thời hạn cố định của họ khi hợp đ ng hếthạn Rời mạng do van dé tài chính là trường hợp khách hàng ngừng thanh toán

trong quá trình thực hiện hợp d ng mà họ đang bị ràng buộc.Đề gi 1 quyêt van dé nay, rat nhiêu nỗ lực đã thực hiện đề có được cái nhìn

Trang 15

chính xác hơn về việc thuê bao rời bỏ nhà mạng Nhìn chung, các nghiên cứu trongI nh vực nay déu tap trung về một trong những mục d ch chính sau: tìm ra các nhân tốnh hưởng đến khách hang rời mạng, hoặc xây dung mồ hình cho việc dự do n khách

qu chính sau đây:Xây dựng mồ hình dự báo áp dụng các kỹ thuật lua chọn thuộc tính, thu giảm

tập huấn luyện va phân lớp dé phát hiện nhanh chính xác các thuê bao di động cókh năng rời mạng từ đó áp dụng các gi i pháp để duy trì thuê bao

Triển khai mô hình để xuất, áp dụng trên bộ dữ liệu chuẩn của UCI: (UCI

Repository of Machine Learning Databases at the University of California, Irvine[13]) ,

so sánh với các gi i pháp đã sử dung được áp dung Các kết qu dat được đã cho thay

Trang 16

mô h nh dé xuất đã đem lại độ chính xác phân lớp rất cao và tiém năng áp dụngphương pháp dé xuất này vào thực tiễn là kh thi.

khai phá dữ liệu, học máy, các kỹ thuật phân tích dự báo và khung thức dự báo thuêbao rời bỏ nhà mạng.

CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN.Chương nay sẽ tr nh bay tổng quan về c c công tr nh liên quan đến đề tài.D ng thời, chương nay sẽ nêu ra c cd nh gi ưu, khuyết điểm của các công trình

CHƯƠNG 4: PHƯƠNG PHÁP TIẾP CẬNChương này giới thiệu hướng tiếp cận của luận văn.CHƯƠNG 5: HIỆNTH CVÀTH CNGHIỆM

Chương này sẽ tr nh bày phương ph p hiện thực bài to n dy báo thuê

bao roi bỏ nhà mang bang m6 hinh hén hop Mang Noron nhan tao (ANN) két hopcay quyét định (Decision Tree) D ng thời, tr nh bay hiệu qu c 1 tiễn trước và saukhi p dụng mô hình hỗn hợp Mạng Nơron nhân tạo (ANN) kết hợp cây quyết định(Decision Tree) so với mô hình hỗn hợp hai mạng Nơron nhân tạo kết hợp vào bàito n dự báo thuê bao rời bỏ nhà mạng băng học máy thông qua việc thực nghiệmvà so s nh kết qu trên cùng một bộ dữ liệu

CHƯƠNG 6: KET LUẬN VÀ HUONG PHÁT TRI NChương nay tr nh bày c c kết luận quan trọng và hướng ph t triển của

luận văn.

Trang 17

PH NTAI LIEU THAM KHAO

PH NPHULUC

Trang 18

CHƯƠNGII COSOL THUYET

Để gi i quyết bai toán xây dựng mô hình dự do n thuê bao rời mang thì chúng tôicần các kiến thức tổng quan và chuyên sâu về khai phá dữ liệu (data mining) và học

máy (machine learning), các kỹ thuật khai pha dữ liệu, các mô hình học máy mà trong

luận văn hướng đến là kỹ thuật thu gi m số chiều của tập dữ liệu dùng mạng Noron(Neural Network), mồ hình Cay Quyét Dinh dé phan lớp, các kỹ thuật lựa chon thuộctính và lọc thuộc t nh Chương này kh o sát các kiến thức liên quan đến cách thức gi ibài toán thuê bao rời mạng dựa vào học m y vad nh gi c cưu, khuyết điểm của cácphương ph p đó.

H.1 Khai pha dữ liệu, học máyv các kỹ thuật phân tích dự bao

ILI.I Khát nệm Khai pha dữ liệu và học máy.

Khai phá dữ liệu: Là quá trình kh o sát và phân tích một khối lượng lớn các dữliệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu để từ đó trích xuất ra cácthông tin quan trọng, có giá trị tiềm ân bên trong Do nhu câu nghiệp vụ cần có cáchnhìn thông tin trên quy mô toàn hệ thống và ph i ứng dụng được dé tạo tiền dé cho

việc khai thác dữ liệu áp dụng vào doanh nghiệp.

Các dữ liệu này được thu từ nhiều ngu n, đa số là từ các phần mềm nghiệp vụnhư: Phần mềm tài chính, kế toán, các hệ thống qu n lý tài nguyên doanh nghiệp, cáchệ thống qu n lý khách hang hay từ tác công cụ lưu trữ thông tin trên các trang Web,điện to n đ m mây, hệ thống Core Banking

Đây là những khối dữ liệu khong l nhưng những thông tin mà nó thể hiện rathì chưa được tinh chỉnh, rất phức tạp, chưa có cau trúc 6n định và t thông tin đượchiển thị rõ rệt đối với người dùng Kích thước của khối dữ liệu không l đó cũng tăngvới tốc độ rất nhanh, chiếm nhiều dung lượng và tài nguyên lưu trữ Khai phá dữ liệu

Trang 19

sẽ giúp trích xuât ra các mâu điên hình có giá tri và biên chúng thành những tri thức

hữu ích Quá trình này g m một số bước được thé hiện tron ghinh nh minh họa sau:

Hình II-1 Các bước xây dựng m t hé th ng khai phá dữ liệu

Y ngh acu thê của các bước được diễn ra như sau:e Lựa chọn dữ liệu liên quan đến bài toán quan tâm.

e Tiền xử lý dữ liệu, làm sạch dữ liệu (loại bỏ những đữ liệu thừa và khôngcó thông tin cụ thể )

e _ Chuyến đổi dữ liệu về dang phù hợp thuận lợi cho việc khai phá dữ liệu

e Khai pha dữ liệu, trích xuât ra các mau dữ liệu (các mồ hình).

e BD nhgi cc mẫu (X c định những mẫu thực sự có ích hoặc liên quan

đên các vân dé cân thiệt hoặc các tiêu chuân được đưa ra)e Sử dụng tri thức khai phá được

Trang 20

Học máy: là một | nh vực của trí tuệ nhân tao, liên quan đến việc nghiên cứu vàxây dựng c ck thuật cho phép các hệ thống “học” tự động từ dữ liệu dé gi i quyết cácvan dé cụ thé Học m y có hai hướng chính là học có giám sát và học không có giám

sát.

+ Học có giám sát: Là một k thuật của ngành học m y để xây dựng một hàm từdữ liệu huấn luyện, bao ø_m các cặp đối tượng đầu vào và đầu ra mong muốn Đầu racủa một hàm có thể là một giá trih i quy hay có thé là dự do n một nhãn phân loại chomột đối tượng đầu vào

+ Học không có giám sát: Nhăm tìm ra một mô hình phù hợp với các quan sát.Nó khác biệt với học có giám sát ở chỗ là đầu ra đúng tương ứng cho mỗi dau vào làkhông biết trước Trong học không có giám sát, một tập dữ liệu đầu vào được thu thậpnhư là một tập các biến ngẫu nhiên Sau đó, một mô hình mật độ kết hợp sẽ được xây

dựng cho tập dữ liệu đó.

11.1.2 Những nhóm bài toán của Khai phá dữ liệu

Khai phá dữ liệu có thé được dùng dé gi i quyết hàng trăm bài toán với nhữngmục d ch và nhiệm vụ khác nhau Dựa trên b n chất tự nhiên của các bài toán đó, ta cóthé nhóm các bài toán đó thành những nhóm sau:

HI 1.2.1 Bai toán phan lop:

Bài toán phân lớp là một trong những bài toán pho biến nhất của Khai phá dữliệu, ví dụ như: phân tích xem loại khách hàng nào có kh năng cao nhất sẽ chuyểnsang dùng s n phẩm dịch vụ của đối thủ cạnh tranh của công ty (churn analysis),qu n lý rủi ro hay lựa chọn nh qu ng cáo nào sẽ xuất hiện đối với mỗi loại khách

hàng

Phân lớp là tổ chức dữ liệu trong các lớp cho trước, còn được gọi là học cóquan sát Phân lớp sử dụng các nhãn lớp cho trước để sắp xếp các đối tượng Trongđó, có một tập huấn luyện g m các đối tượng đã được kết hợp với các nhãn đã biết

Trang 21

Những thuật toán học có quan sát sẽ được áp dụng cho tập các đối tượng cần phân lớpđể từ đó ta mô hình phân lớp chúng.

Một số thuật toán dùng trong bài toán phân lớp như: Phân lớp với cây quyết định

(Decision Tree), phân lớp với Mang noron (Neural Network), phần lớp với k-lân cận

gân nhất (K-Nearest Neighbour) Hình II-2 cho ta thay các thành phan tong quát của một hệ thong phân lớp:

InputSource Sensing + + Pre-processing, | Segmentation

and labeling

Feature | | Post | | Classification | ; Decision

extraction Processing or Recognition

Hình I-2 Hệ th ng phân lớp tổng quátHI1.2.2 Bài todn phan cum:

Bài toán phân cụm hay còn gọi là phân đoạn Điểm khác với bài toán phân lớp làở đây các nhãn lớp chưa biết và không có huấn luyện C c đối tượng được phân loại

dựa trên các thuộc tính tương đ ng giữa chúng Bài toán phân cụm hay còn gọi là họckhông có giám sát.

th hai.

Trang 22

HI.1.2.4 Bài toán phân tích luật kết hop:Luật kết hợp là tiến tr nh x c định những luật phụ thuộc giữa những nhóm khácnhau của hiện tượng Khai phá luật kết hợp dựa trên hai bước:

e Tìm tấtc các tập mục phố biến, được x c định qua tính hỗ trợ và thỏamãn độ hỗ trợ cực tiêu

e Sinh ra các luật kết hợp từ các mục pho biến, các luật ph i thỏa mãn độhỗ trợ cực tiểu và độ tin cậy cực tiểu

Bài toán này đôi khi còn gọi là bài toán phân tích giỏ hàng bởi vì nó được sửdụng rộng rãi trong phân tích các giao dịch dữ liệu, các bài toán lựa chọn hàng hóa đikèm

Phân tích luật kết hợp khám phá ra các luật kết hợp thể hiện mối liên hệ giữacác thuộc tính dữ liệu thường xuất hiện cùng nhau trong các tập dữ liệu

HI.1.2.5 Bài toán héi quy:Phương ph p h ¡ quy là phương ph p phân t ch thống kê một hàm ánh xạ mộtmục đữ liệu và một biến dự báo giá tri thực Phân tích h i quy sé x c định được địnhlượng quan hệ giữa các biến và qu ng bá giá trị một biến phụ thuộc vào giá trị củanhững biến kh c Phương ph ph ¡ quy khác với phân lớp dự liệu là h ¡ quy dùng để

dự đo n những giá tri liên lục, còn phan lớp dữ liệu là dự đo nc c gi tri rời rac.17.1.2.6 Bai toan phan doan:

Bài to n phân đoạn (Segmentation) là tổ hợp của phân cụm và phân lớp, trong đóphân cụm được tiễn hành trước và sau đó là phân lớp

LHI1.2.7 Mo hình phụ thuốc (Dependency Modeling):

Bài toán xây dựng mô hình phụ thuộc hướng đến việc tìm ra một mô hình mô tsự phụ thuộc có ngh a giữa các biến Mô hình phụ thuộc g m hai mức: Mức cau trúc

của mô hình môt (thường dưới dạng đ thi) và mức định lượng.

Trang 23

II.1.2.8 Mẫu tuân tư

Mau tuân tự là xác định những mâu mà sự xuât hiện của chúng trong CSDL thỏamãn ngưỡng tôi thiêu Luật tuân tự được sinh ra từ mâu tuân tự, biêu diễn môi quan hệgiữa hai loạt sự kiện, loạt sự kiện này sẽ x y ra sau loạt sự kiện kia, tuân tự theo thời

gian, thé hiện tri thức tiềm an của dữ liệu tuần tự [6].Khai thác mẫu tuần tự được ứng dụng trong nhiều I nh vực như: phân t ch thịtrường, phân tích mẫu truy cập web, dự do n nhu cau mua săm của khách hàng

11.1.3 Một số kỹ thuật dự báo sử dụng hoc may

ILI.3.] Mang Noron nhân tao (Artificial Neural Network)Mang Noron nhân tao (Artificial Neural Network — ANN) la mô hình xử ly thông

tin dựa trên hoạt động của bộ não người Một sỐ lượng lớn các Nơron được gan kết vớinhau theo nhiễu lớp để xử lý thông tin ANN có thé học bởi kinh nghiệm bang huấnluyện, có kh năng lưu giữ tri thức và sự dụng chúng để dự đo n những dữ liệu chưabiết Nó được tạo lên từ một số lượng lớn các phan tử (gọi là phan tu xu ly hay noron)kết nỗi với nhau thông qua các liên kết (gọi là trọng số liên kết) làm việc như một théthống nhất dé gi i quyết một van dé cụ thé nao đó [5][6] Mạng Noron có kh năngứng dụng đa dạng, bao g m điện, điện tử, kinh tế, quân sự, dé gi i quyết các van déphi tuyến t nh có độ phức tạp cao như điều khiến tự động, nhận dạng, xử lý nh, khai

phá dữ liệu,

Cau trúc của một mạng Noron: mỗi Nơron (nút) là một đơn vị xử lý thông tin của

mạng noron, là yêu tô cơ b n dé câu tạo nên mạng noron.

11

Trang 24

WeightsInputs —

-Hình II-3 Cau trúc c am t nơron nhân tạo

xj: Các tín hiệu input Mỗi Input tương ứng với | thuộc tinh (attribute) cua dữ liệu

(patterns).

wi: Trọng số liên kết Đây là thành phan rất quan trọng của một ANN, nó thể hiệnmức độ quan trọng (độ mạnh) của dữ liệu đầu vào đối với quá trình xử lý thông tin(quá trình chuyển đổi dữ liệu từ Layer này sang layer khác) Quá trình học (LearningProcessing) của Mạng Nơron thực ra là qu tr nh điều chỉnh các trong số (Weight) củae c input data để có được kết qu mong muốn

Hàm tong (Summation Function): Tinh tong trong số của tatc ce input đượcđưa vào mỗi Noron (phan tử xử lý PE) Hàm tổng của một Nơron đối với n input được

tính theo công thức sau:

‘I

i=1

Ngưỡng (con gọi là một độ lệch - bias): Ngưỡng này thường được đưa vào như

một thành phan của hàm truyềnHàm chuyển đổi (Transfer Function) :Hàm này được dùng để giới hạn phạm vi đầu ra của mỗi nơron Nó nhận đầu vàolà kết qu của hàm tổng và ngưỡng đã cho Thông thường, phạm vi đầu ra của mỗi

Trang 25

noron được giới han trong đoạn [0,1] hoặc [-1, 1] Cac ham truyén rat da dang, có thélà các ham tuyến tính hoặc phi tuyến Việc lựa chọn hàm truyền nào là tuy thuộc vàotừng bài toán và kinh nghiệm của người thiết kế mạng Mối quan hệ giữa sự kích hoạtbên trong và kết qu (output) được thé hiện băng ham chuyển đổi (Transfer Function)

Y;: Là tín hiệu đầu ra của một noron, với mỗi noron sẽ có tối đa là một đầu ra, kếtqu của một Neural network là gi i pháp cho một van dé, ví dụ như bài to n chúng ta

đang xét là bài to n dự báo thi việc khách hang rời đi sé là 0 hoặc ở lại là 1.

Mạng Nơron truyền thắng một lớp, do F Rosenblatt đề xuất năm 1960 là loạimang chỉ có một lớp noron đầu vào và một lớp noron dau ra, do lớp noron đầu vàokhông có vai trò xử lý, nên ta nói mạng chỉ có một lớp Mỗi noron đầu ra có thé nhận

tín hiệu từ c c dau vào x7, x2, , Xm đê tạo ra tín hiệu dau ra tương ứng.

IL1I.3.1.1 Mang Perceptron nhiễu lớp (Multilayer Perceptron-MLP)Mang perceptron nhiều lớp (Multilayer Perceptron -MLP) hay mạng truyền thắngnhiều lớp là sự mở rộng của mô hình mang perceptron, được bố sung thêm những lớpân và các noron trong các lớp an này có hàm chuyền (hàm kích hoạt) dạng phi tuyến.Mạng MLP có một lớp ân được sử dụng phố biến nhất, nó có thể xấp xỉ các hàm liêntục được định ngh a trên một miễn có giới hạn cũng như những hàm là tập hợp hữu hạn

của c c điêm rời rac.

Lớp vào Các lớp an Lớp ra

Hình II-4 Cau trúc ¢ a mang perceptron nhỉ u lớp

Trang 26

Trong mạng noron truyén thăng nhiều lớp, đầu tiên dữ liệu đi vào lớp vào (inputlayer), lớp vào không thực hiện việc chuyển đối thông tin mà chỉ làm chức năng nhậntín hiệu Sau đó lớp input sẽ truyền dữ liệu vào cho các lớp an xử lý Cuối cùng là tín

hiệu ra cua mạng được đưa ra từ lớp ra (output layer) Các lớp ở giữa lớp vào va lớp ra

gọi là các lớp an Trong mạng truyền thang (feedforward network) không có nút nàomà đầu ra của nó là đầu vào của một nút khác trên cùng lớp với nó hoặc lớp trước

Mạng Nơron có ba cách huấn luyện ch nh đó là huấn luyện theo bó (batchtraining), huấn luyện có tính xác xuất (stochastic training) va huấn luyện trực tuyến(online training) Trong huấn luyện trực tuyến các trọng số được cập ngay sau khimạng noron duyệt qua một mẫu Huấn luyện có tính xác xuất cũng giống như huấnluyện trực tuyến nhưng việc chọn các mẫu nhập (input patterns) dé đưa vào mạng từtập huấn luyện (training set) được thực hiện ngẫu nhiên (random) Còn đối với huấnluyện theo bó thì tắtc các mẫu nhập được đưa vào mạng cùng lúc và sau đó cập nhậtcác trọng SỐ mạng đ ng thời Ưu điểm của huấn luyện trực tuyến là tiết kiệm bộ nhớ vìkhông cần lưu lại số lượng lớn các mẫu nhập trong bộ nhớ

17.1.3.1.2 Thuật toán hoc theo phương pháp lan truyền neuoc sai SỐ.Thuật toán học theo phương ph p lan truyền ngược sai số do Rumelhart và cáccộng sự dé xuất [17] là một trong số những kết qu nghiên cứu quan trọng nhất đối vớisự phát triển của mạng nơ-ron nhân tạo Thuật to n này được áp dung cho mang truyềnthăng nhiễu lớp trong đó c c nơ-ron có thé sử dung các hàm chuyển là các hàm liên tụccó các dạng khác nhau, thuật toán này là một phương ph p pho biến để huấn luyện cácmạng nơron nhân tạo, được sử dụng kết hợp với một phương ph p tối ưu hóa như lamgiảm độ dốc (Gradient descent) Phuong ph p này t nh to n gradient của hàm tốn thấtvới tat c cdc trọng số có liên quan trong mạng Noron đó Gradient nay được đưa vàophương ph p tôi ưu hóa,sử dụng nó dé cập nhật các trọng số và cực tiểu hóa hàm tonthất

Trang 27

Thuật toán sử dụng một tập các mẫu ø ml các cặp đầu vào - đầu ra để huấn luyệnmạng Với mỗi cặp đầu vào - dau ra (x⁄,#) thuật toán lan truyền ngược sai số thựchiện hai giai đoạn là: Lan truyền và Cập nhật trọng SỐ.

Giai đoạn thứ nhất, mau đầu vào x được truyền từ lớp vào tới lớp ra, và ta có kếtqu đầu ra tnh to n được là y Giai đoạn tiếp theo, tín hiệu lỗi được tính toán từ sựkhác nhau giữa đầu ra quan s t được #9 với dau ra tính toán y⁄ sẽ được lan truyềnngược lại từ lớp ra đến các lớp trước để điều chỉnh các trọng số của mạng Ta sẽ xétmô hình mạng truyền thắng có một lớp an dé làm vi dụ, từ đó ta sẽ áp dụng tương tựcho các mô hình nhiều lớp ân hơn Mạng Noron được xét có Nơron ở lớp vào, mộtNoron trong lớp an và n Noron ở lớp ra Khi thực nghiệm chúng tôi cũng sẽ sử dụng mô hìnhmạng Nơron có một lớp ân

Dé sử dụng phương ph p Gradient descent, ta ph it nh đạo hàm của ham sai sốb nh phương với các trọng số của mạng Noron Chúng ta xét một cặp dau vào - dau rađể huấn luyện mạng (x,d), khi lay vi phân chúng ta bỏ ký hiệu mũ k , ta sẽ đưa vào mộthàm chuyển doi g Khi đưa vào đầu vào x, no-ron thứ g trong lớp an sẽ nhận tín hiệu

1 l m

net; = » WigZq = » WigJ = » Vg jXj

q=1 q=1 j=1

15

Trang 28

E(w) = Ly — y¡)ˆ = aye — 0(net,)]” = Ly dị — g

Dé tối thiểu hoá các hàm giá E(w) như vậy, gi i thuật lan truyền ngược sai số sửdụng phương ph p gi m gradient để điều chỉnh các trọng số liên kết giữa e e nơ-ron.B n chất của phương ph p nay là khi sai số E được vẽ như hàm của tham số gây ra sais6 sé ph ic6 một cực tiểu tại một bộ giá trị nào đó của tham số Khi quan s t độ dốccủa đường cong, chúng ta quyết định ph i thay đối tham số thé nào dé có thé tiến gầnđến cực tiểu cần tìm kiếm hơn Ta có gỉ trị của các trọng số ph i gi m nếu đạo hàm

Trang 29

Ap dụng phương ph p gi m gradient đối với các trọng số liên kết giữa c c norontrong lớp an tới e e nơ-ron của lớp ra ta có:

Trong đó 6,; là tín hiệu sai số va chỉ số of có ngh a là nút thứ ¿ trong trên lớp ra

Tín hiệu sai so “er t nh như sau:

A

“| = [di — yillg'netd- "nh -sl mor

(2.9)

Tổng quát d i với các lớp bat kỳ, luật lan truy n ngược có dạng:

Awij = TỊỗ¡Xj = Ooutput_i Xinput_jTrong đó “output_i” là đầu ra của noron i va “input_j” là đầu vào của noron j, 6;

là tín hiệu học.

Sigmoidal hay còn gọi là chuẩn hóa softmax là một cách làm gi msự nh hưởng

của các giá tri cực và ngoại lai trong dữ liệu mà không ph i loại bỏ chúng ra khỏi d 1

dữ liệu Đó là những dữ liệu ngoại lai hữu ích mà ta muốn giữ chúng trong d ¡ dữ liệutrong khi vẫnđ mbosự ngha của dữ liệu trong phạm vi sai lệch chuẩn của giá trỊtrung bình Dữ liệu được biến đổi phi tuyến sử dụng một trong những ham sigmoidal

Sau:

f(x) =——

l+e

17

Trang 30

Từ các phân tích trên, thuật toán lan truy n ngược sais được xây dựng như

sau:

Xét một mang noron truyền thăng có Q lớp, g = 1,2, , O, và gọi net; và y; là tínhiệu vào và ra của noron thứ i trong lớp g Mang này có m đầu vào và n dau ra Đặt wylà trọng số của liên kết từ noron thứ j trong lớp g-7 tới noron thứ i trong lớp g

Đâu vào: Một tập các cặp mau học f{(x,d) | k= 1,2, , p } và véc tơ đầu vàođược bồ sung thêm x” n4i = - 1

Ta sẽ thực hiện gi 1 thuật lan truyền ngược theo c c bước sau đây:

Bước 0 (khởi tạo)

Chọn một hang số z> 0 và Emax (dung sai cho phép) Khởi tạo ngẫu nhiên cáctrọng số trong kho ng giá trị nhỏ Đặt E =0 và & = l

Bước 1 (thực hiện một quá trình lặp cho việc huấn luyện mạng)Sử dụng mẫu học thứ k:

Tai lớp vào (g =1), với mọi i ta có : #y¡ = Íy¡ = x9;

Bước 2 (Lan truyền tín hiệu từ lớp vào tới lớp ra)

ty, = g( “net, ) =9 » tự, “Ủy,

J

Bước 3 (Xác định tín hiéu lỗi °6 tai lớp ra)

E=- d — %) +E—5 (dq; — “yi) +E,

A Wij = rổ, yi Va A Wij” = Wij” +A Wij

I-15 = g'(* *net;) ¥; Wij 16, VỚI q= Q, Q-1, wees 2

Trang 31

Bước 5 (Kiểm tra điều kiện lặp)Kiểm tra:

If( k < p) thenBegin

k=k+];Goto bước l ;

EndElseGoto bước 6;

Bước 6 (Kiểm tra lỗi tong cộng biện thời đã chấp nhận được chưa)

If (E < E max) then

{kết thúc quá trình học và đưa ra bộ trọng số cuối cùng}

ElseBegin

E=0;K=1;

Goto bước Ì {dé bat dau mot lần học tiếp theo };

End;

Mỗi lần toàn bộ tập mẫu học được lan truyền qua mạng được gọi là một epoch.Số epoch phụ thuộc vào từng trường hợp cụ thé va sự khởi tạo ban đầu Có trường hợpthuật toán ph i sau hàng chục nghìn epoch mới hội tụ tới lời gi i Nếu tham số khởi taokhông phù hợp có thể làm cho quá trình học không đạt kết qu mong muốn Đối vớimỗi epoch ta tính sai số trung bình của mạng theo công thức sau:

RMS = k=1 et Vi ~ d;)?

p.n

(2.10)

19

Trang 32

Trong đó p là số mẫu được dùng dé luyện mạng, n là số biến của véc-tơ đầu ra.Sai số RMS thường được dùng để đ nh gi kết qu học của mạng noron.

Đánh Giá Mạng Nơron Nhân Tao:

1/ Uu điểm:Mạng Noron nhân tạo có thé học từ những dữ liệu huấn luyện và khái quát nhữngtình huống mới

Mạng Noron nhân tạo chịu lỗi, đây là kh năng thường được tìm thấy trong cáchệ thống sinh học và chịu nhiễu Chúng có thé đối phó với tình huéng mà các hệ thốnglogic thông thường có thé gặp khó khăn

Noron nhân tao.

Khó có thé x c định được cấu trúc man g tối ưu cho mạng Nơron.Mạng Noron có thé có thời gian thực thi lâu, mạng Noron thông thường ph i mattừ một ngàn hoặc đến hang trăm ngàn lần lặp mới có thé đi đến lời gi i tối ưu

11.1.3.2 Phân lớp k-lân cân gan nhất (K-Nearest Neighbors)K-Nearest Neighbors (K-NN) là gi i thuật học may dựa trên tưởng “những đốitượng nào gân c c đối tượng khác thì sẽ có những tinh chất tương tự với e c đối tượngđó” Cho nên, nếu biết được tính chất của một đối tượng thì có thé dự do n được nhữnglân cận của nó có những tính chất gì Gi i thuật này được xếp vào nhóm các bài toánphân lớp c c đối tượng dựa vào kho ng cách gan nhất của đối tượng cần sắp xếp với tatc c c đối tượng trong tập dữ liệu huấn luyện (training data) Điểm đang xét (querypoint) được phan lớp dựa vào k đối tượng khác hay còn gọi là “lan cận của nó”, với k là

Trang 33

một số nguyên dương có gi trị nhỏ hơn số phan tử của tập huấn luyện, thường thìđược lay giá trị giữa 1 và 10.

C c bước chạy thuật toán k-nearest neighbors dé phân loại:e X c định giá trị của & (số láng giéng gần nhất đối với query point).e Tính kho ng cách của query point tới tấtc c c đối tượng hiện có trong

training data Phương ph pt nh là phương ph pt nh kho ng cach Euclid.

e Cách tính kho ng cách Euclid giữa hai đói tượng A(%I, X2, X3, , Xp) và B

(H1, U2, U3, , Up) là:

result = |e — Uy)? + (X;¿ — Ug)? +2 + (Xp — Up)

e Sắp xếp kho ng cách trên theo thứ tự tăng dan dé x ¢ định được k lánggiéng gan nhất tới điểm đang xét (query point)

e X c định lớp của k đối tượng láng giéng đã x c định.e Xác định trong các lớp đó, lớp nào chiếm tỉ lệ đa số dé xếp lớp cho query

\ ye

\ + > #

Hình II-5 Minh họa giải thuật K- NN

Đánh Giá Giải Thuật K-NN:

1/ Ưu điểm :Thuật to n kh đơn gi n Vi vậy, việc chạy trên tập dữ liệu lớn về mặt thời gianthực thi sẽ tốt hơn so với những gi i thuật khác Việc su dụng công thức trung b nh để

21

Trang 34

tìm ra kết qu tạo điều kiện để người dùng có thể nh n ra được xu hướng biến độngchung của các tập dự liệu đặc thù như gi cô phiếu, chứng khoán từ một ngày xácđịnh Ngoài ra, độ hiệu qu của thuật toán là một ưu điểm đ ng kể Trong thực tế, K-NN được xem là một trong những gi ¡ thuật được sử dụng nhiều trong khâu dự báochứng khoán thé giới.

2/ Nhược điểm:Để tạo độ chính xác cho kết qu dự báo thì tập huấn luyện ph ¡ thỏa hai điềukiện: thứ nhất là ph 1 có sự biến động, chênh lệch trong dữ liệu, thứ hai, là dung lượngdữ liệu ph i lớn thì mới tạo ra độ chính xác nhất định cho việc dự đo n Đây cũngchính là một trong những nhược điểm chung cho các gi 1 thuật dự báo Bên cạnh đó,do xu hướng trung bình dữ liệu nên khi dữ liệu không có biến động thì gi i thuật sẽmang lại kết qu đều nhau không đúng với biến động cục bộ

II.1.3.3 Cây quyết định (Decision Tree)

Cây quyét định là một câu trúc biêu diễn dưới dạng cây Trong đó, moi nuttrong biêu diễn một thuộc tính, môi nhánh biêu diễn gia trị có thê có của thuộc tính,môi lá biêu diễn các lớp quyét định và đỉnh trên cùng của cây gọi là goc.

Goc

a CƯ,

“a , , SN At + F

( N ut la ) X ` u la

Hình I-6 Biểu diễn cây quyết định cơ bản

Trong I nh vực học máy, cây quyết định là một kiểu mô hình dự báo, ngh a làmột ánh xạ từ các quan sát về một sự vật/ hiện tượng tới các kết luận về giá tri mục tiêucủa sự vật/ hiện tượng Mỗi nút trong tương ứng với một biến, đường nối giữa nó với

nút con của nó thê hiện giá trị cụ thê cho biên đó Môi nút lá đại diện cho giá trị dự

Trang 35

đo n của biễn mục tiêu, cho trước các giá trị dự đo n của các biến được biéu diễn bởiđường đi từ nút gốc tới nút lá đó.

Kỹ thuật hoc máy dùng trong cây quyết đinh được gọi là học bang cây quyếtđịnh, hay chỉ gọi với cái tên ngăn gọn là cây quyết đinh

Ví dụ 2.1: Một người có chơi tennis hay không?

năng u am mưa

cao bình mạnh yeu

thuong

khong co khong co

Hình II-7 Cây quyết định cho việc choi Tennis

Cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp các đốitượng dựa vào day các luật Các thuộc tính cua đối tượng (ngoại trừ thuộc tính phầnlớp) có thé thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, ordinal, quantitativevalues) trong khi đó thuộc tinh phân lớp ph i có kiểu dit liệu là Binary hoặc Ordinal

Tóm lại, cho dữ liệu về các đối tượng g m các thuộc tính cùng với lớp của nó,cây quyết đinh sẽ sinh ra các luật dé dự đo _n lớp của các đối tượng chưa biết

So với các phương pháp KPDL khác, cây quyết định là một trong những hìnhthức m6 t dữ liệu tương đối đơn gi n, trực quan, dễ hiểu đối với người dùng nhưng lạihiệu qu nên được sử dụng nhiều Trong những năm qua, nhiều mô hình phân lớp dữliệu đã được các nhà khoa học trong nhiều I nh vực khác nhau dé xuất như mạngnotron, cây quyết định, mô hình di truyền Trong số những mô hình đó, cây quyếtđịnh được đ nh giá là một công cụ mạnh, pho bién, dat biét 1a thich hop cho khai pha

dt liệu và hoc máy nói chung và cho phân lớp dữ liệu nói riêng.

23

Trang 36

II.1.3.4 Các thuật toán xây dựng cây quyết định:Có rất nhiều gi i thuật đã được cài đặt sẵn như: CART (Breiman [20]), C4.5

(Quinlan [19]), ID3[21]

e Cc bước xây dựng Cây quyết định:

- Cay được thiết lập từ trên xuống dưới- Roi rac hóa các thuộc tính dạng phi SỐ- Các mẫu huấn luyện năm ở gốc cây- Chon một thuộc tnh dé phan chia thành các nhánh Thuộc tinhđược chọn dựa trên độ đo thống kê hoặc độ đo Heuristic

- _ Tiếp tục lặp lại việc xây dựng Cây quyết định cho các nhánh.e Điều kiện dừng:

- Tate các mẫu rơi vào một nút thuộc về cùng một lớp (nút lá)- Không còn thuộc tính nào có thé dùng dé phân chia mẫu nữa

- — Không còn lại mẫu nào tại nút

lLI.3.4.1 Thuật toan ID3:

Thuật toán ID3 (Interative Dichotomizer 3) được dé ra bởi Quinlan [21] và nhữngdạng biểu diễn của nó được sử dụng rộng rãi trong thuật toán cây quyết đinh

Đây cũng được gọi là thuật toán tham lam (greedy algorithm) vì thuật toán ID3

tìm kiếm những mô hình "tham lam" mà trong đó các thuộc tính dat được tối đa lượngthông tin cho việc xác định nhãn lớp của các mẫu trong tập huấn luyện Kết qu là tathu được một Cây quyết định ma gán nhãn đúng cho mỗi mau trong tập huấn luyện

Thuật toán xây dựng cây ID3 sử dụng Entropy làm cơ sở đo độ đ ng nhất của tậpdữ liệu Trên co sở Entropy, thuật toán tính độ lợi thông tin như mức tăng độ đ ng nhất,từ đây xác đỉnh thuộc tính tốt nhất tại mỗi nut

Đầu vào: Một tập các mẫu Mỗi mẫu bao ø ml các thuộc tính rời rac, môt mộttình huống, hay một đối tượng nào đó, va mot gi_ tri phân loại của nó

¢ § là tập huấn luyện

*® C1,C2, , Cm là các nhãn lớp phan loại*® S1,92, , Sm là tập con của S thuộc các lớp ci, , Cm tương ứng© S= UE, Siva 5,05; = Ø Vịz# j

Trang 37

¢ D lợi thông tin (Information Gain, ký hiệu IG) là chỉ số đ nh gi độtốt của thuộc tính trong việc phân chia tập dữ liệu thành những tập cond ng nhất IG được t nh trên độ tăng thông tin theo công thức sau:

I6(S,A) = H(S) — » ISvl ies.)

[S|

vevalues(A) (2.3)

Trong do:- § là tập dữ liệu ở nút hiện tại

- —A là thuộc t nh được sử dụng để đ nh gi độ tốt phân chia

- Values (A) là tậpc cgi trị của A

- _ 5y là tập mẫu con của Š có e cøi trị thuộc tinh A bằng v- |S| và |%l là số phần tử của các tập ISI, |S,| tương ứngThuật toán ID3 sử dụng độ tăng thông tin dé lựa chọn thuộc tính tốt nhất tạimỗi nút, thuộc t nh được lựa chon là thuộc tính mang lại độ lợi thông tin lớn nhất

lHLI.3.4.2 Thuật toan C4 5

C4.5 là thuật to n dùng để xây dựng cây quyết định được dé xuất bởiQuinlan [19] năm 1993, là mở rộng của ID3 Đặc điểm của C4.5:

25

Trang 38

- Cho phép dữ liệu đầu vào ở các thuộc tính là liên tục

- Cho phép thao tác với các thuộc tính có dữ liệu không x c định (do bị

mat mát dữ liệu)- Đưa ra phương ph p cắt tỉa cây và gi n lược các luật dé phù hợp với

những bộ dữ liệu lớn

- C4.5 sử dụng cơ chế lưu trữ dữ liệu thường trú trong bộ nhớ, chínhđặc điểm này làm C4.5 thích hợp với những cơ sở dữ liệu nhỏ, và cơ chế sắpxếp lại dữ liệu tại mỗi nút trong quá trình phát triển cây quyết định

- C4.5 còn chứa kỹ thuật cho phép biểu diễn lại cây quyết định dướidạng một danh sách sắp thứ tự c c luật if-then (một dạng quy tac phân lớp déhiểu) Kỹ thuật này cho phép làm gi m bớt k ch thước tập luật và đơn gi n hóacác luật mà độ chính xác so với nhanh tương ứng cây quyết định là tương

đương.

C4.5 có cơ chế sinh cây quyết định hiệu qu và chặt chẽ băng việc sử dụng độđo lựa chọn thuộc tính tốt nhất là Information Gain Các cơ ché xử lý với gi trị lỗi,thiếu và tránh quá phù hợp của dit liệu của C4.5 cùng với cơ chế cắt tỉa cây đã tạonên sức mạnh của C4.5 Thêm vào đó, mô h nh phân lớp C4.5 còn có phan chuyểnđổi từ cây quyết định sang luật dạng if-then, làm tăng độ chính xác và tính dễ hiểucủa kết qu phân lớp Đây là tiện ích rấtcó ngh a đối với người sử dụng

D do GainRatio được sử dụng trong thuật toán C4.5 lac 1 tiễn của thuậtto n ID3 và được xây dựng bởi Quinlan là thước đo c i tiến của chỉ số Information

Gain.

¢ Độ đo nay gi i quyết van dé thuộc tinh có nhiều gi tri: Trong tapmẫu huấn luyện bài to n choi Tennis ở trên, nếu sử dung thêm thuộc tính ngàythì thuộc t nh này có 14 gi trị kh c nhau và thuộc tính này có IG cao nhất, vàkhi đó Ngày được chọn làm sốc với 14 nhánh va không phân loại được cácngày tiếp theo Do đó can tránh thuộc tính có nhiều gi trị Thành phần thông

Trang 39

tin tach (Split Information-SI) được bồ sung để phạt các thuộc tính có nhiều

AGini A) = Gini D) — Gint,(D)

=Độ do Gini thường được dùng trong thuật toán CART.

Ð nhợi ưu điểm và nhược điểm của Phương ph p cây quyết định:1/ Ưu điểm:

So với các phương pháp KPDL khác, cây quyết định là một trong những hìnhthức m6 t dữ liệu tương đối đơn gi n, trực quan, dễ hiểu đối với người dùng nhưng lạihiệu qu nên được sử dụng nhiều Trong những năm qua, nhiều mô hình phân lớp dữliệu đã được các nhà khoa học trong nhiều I nh vực khác nhau dé xuất như mạng

27

Trang 40

Noron, mô hình thống kê tuyến tinh/ bậc 2, cây quyết định, mô hình di truyền Trongsố những mô hình do, cây quyết định được đ nh giá là một công cụ mạnh, pho biến,dễ dàng được chuyển đổi sang SQL để truy van Cơ Sở Dữ Liệu hiệu qu , đặc biệt là

thích hợp cho Khai phá dữ liệu nói chung và cho phần lớp dữ liệu nói riêng.

Cây quyết định có thé xử ly cdi liệu có giá trị bằng số và dữ liệu có giá trị là tênthé loại, có thé thâm định một mô hình bang các kiểm tra thông kê

2/ Nhược điểm:Khó gi i quyết được những van dé có dữ liệu phụ thuộc thời gian liên tục — déx y ra lỗi khi có quá nhiều lớp chi ph t nh to n để xây dựng mô hình cây quyết định

cao.

11.1.4 Các phương pháp lựa chọn đặc trưng (Feature Selection)

Các tập dữ liệu trong khai phá dữ liệu có thé chứa hàng trăm đặc trung (feature)hay thudc tinh (attribute), trong đó có nhiều thuộc t nh không liên quan đến công tác

khai phá dữ liệu hoặc là dư thừa.

Lua chọn đặc trưng (Feature Selection) là phương pháp chon ra một tập con tốtnhất từ tập các đặc trưng đầu vào bằng cách lọai bỏ những đặc trưng có rất ít hoặc

không có thông tin dự đo n.

Lựa chọn đặc trưng có vai trò quan trọng trong việc chuẩn bị và lựa chọn dữ liệu

cho quá trình khai phá dữ liệu Nó sẽ lam gi m kích cỡ của không gian đặc trưng, loại

bỏ dư thừa hay nhiễu của dữ liệu Phương pháp này có thể tìm chính xác những tậpcon đặc trưng có kh năng dự đo n, do đó giúp c i thiện đ ng kế kết qu thu được

trong các mô hình phân lớp.

VỀ cơ bn, quá trình lựa chọn đặc trưng bao g m bốn bước cơ b n: sinh tápcon (subset generation), đánh giá tập con (subset evaluation), điểu kiện dừng quátrình lựa chon (stopping criterion) và kết qua (result validation)

Ngày đăng: 09/09/2024, 00:39