XGBRegressor eXtrem Gradient BOOSTing Regressor ...172.4.1.. Th c têế cho thâếy râết nhiêầu các bài toán ậ ừ ự Trang 10 li u có nhãn tôến râết nhiêầu th i gian và có chi phí cao.. ọMôếi
Trang 1L I M ĐẦẦU Ờ Ở PHẦN CHIA N I DUNG VIẾẾT BÁO CÁO Ộ
B ng phân chiaả
TT
Thành viên
N i dung viêết ộ
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
* -BÁO CÁO BÀI TẬP LỚN
MÔN HỌC : KHAI PHÁ DỮ LIỆU
ĐỀ TÀI : D đoán ự khách hàng v n ỡ ợ trên thu t toán h c ậ ọ
máy
Giáo viên hướng dẫn : TS Trần Hùng Cường
Sinh Viên Thực Hiện : Nguyễn Ngọc Bình - 2020608698
Hà Nội, năm 2022
Trang 3PHÂN CHIA NỘI DUNG VIẾT BÁO CÁO
Bảng phân chia
TT
Thành viên
Nội dung viết
- Chương 1:
o Bài toán phát dự đoán giá nhà
o Mô hình machien learning cơ bản
Nguyễn Ngọc Bình
Trang 4M C L CY Ụ Ụ
Mục
CHƯƠNG 1 HỌC MÁY CƠ BẢN 8
1.1 Học máy 8
1.1.1 Giới thiệu về Machine Learning 8
Hình 1.1 Ảnh minh họa về học máy 8
1.1.2 Phân nhóm các thuật toán Machine Learning 9
CHƯƠNG 2 CÁC THUẬT TOÁN SỬ DỤNG 11
2.1 Linear Regression 11
2.1.1 Giới thiệu 11
2.1.2 Phân tích toán học 11
2.2 LGBMRegressor 12
2.2.1 Giới thiệu 12
2.2.2 Phân tích toán học 13
2.3 Decision Tree 15
2.3.1 Giới thiệu 15
2.3.2 Phân tích thuật toán 16
2.4 XGBRegressor (eXtrem Gradient BOOSTing Regressor ) 17
2.4.1 Giới thiệu 17
2.4.2 Phân tích thuật toán 18
CHƯƠNG 3 XÂY DỰNG ỨNG DỤNG 20
3.1 Bộ dữ liệu 20
3.2 Mô hình bài toán 23
3.2.1 Lấy thông tin dữ liệu 23
3.2.2 Mã hóa các dữ liệu 28
3.2.3 Xử lý các ngoại lệ 28
3.2.4 Thiết lập mô hình 32
KẾT LUẬN 34
Trang 5TÀI LIỆU THAM KHẢO 36
L I C M N Ờ Ả Ơ
L i đâầu tiên, chúng em xin chân thành c m n các thâầy cô là gi ng viên các b mônờ ả ơ ả ộ
trong khoa Công ngh thông tin – Trệ ườ ng Đ i h c Công nghi p Hà N i ạ ọ ệ ộ đã
truyêần đ t cho chúng em nh ng kiêến th c nêần t ng quan tr ng liên quan đêến h cạ ữ ứ ả ọ ọ
máy và trí tu nhân t o Đôầng th i, chúng em muôến g i l i c m n sâu sắếc đêếnệ ạ ờ ử ờ ả ơ
gi ng viên ả Ts.Trầần Hùng C ườ ng người đã tr c tiêếp gi ng d y và hôỗ tr chúng emự ả ạ ợ
trong suôết quá trình lên ý tưởng, nghiên c u và hoàn thành báo cáo đêầ tài này Bênứ
c nh đó, chúng em muôến c m n các b n là thành viên c a các nhóm th c hi nạ ả ơ ạ ủ ự ệ
nh ng đêầ tài liên quan, đã giúp đ nhóm vêầ m t tinh thâần đ có th th c hi n tôếtữ ỡ ặ ể ể ự ệ
nhi m v cá nhân trong bài báo cáo c a t p th nhóm.ệ ụ ủ ậ ể
Giá nhà là m t vâến đêầ râết quan tr ng trong lĩnh v c kinh têế nh, đ t đó ch nộ ọ ự ả ể ừ ẩ
đoán chính xác và đ a ra nh ng s chu n b khi mua nhà Chính vì v y, đ hôỗ trư ữ ự ẩ ị ậ ể ợ
d đoán giá nhà, nhóm chúng em đã tiêến hành lên ý tự ưởng ch đêầ, nghiên c u vàủ ứ
phân tích đ hoàn thành đêầ tài nghiên c u ể ứ " D đoán ự khách hàng v n ỡ ợ trên thu t toán h c máy ậ ọ "
Trong quá trình nghiên c u th c hi n đêầ tài, do nắng l c, kiêến th c, kyỗ nắngứ ự ệ ự ứ
cũng nh trình đ c a b n thân các thành viên trong nhóm còn h n h p, thiêếuư ộ ủ ả ạ ẹ
chuyên sâu nên không th tránh kh i nh ng sai sót liên quan đêến kyỗ thu t Vì v y,ể ỏ ữ ậ ậ
chúng em chân thành muôến được lắếng nghe nh ng góp ý t quý thâầy cô là gi ngữ ừ ả
viên các b môn cũng nh các thành viên c a các nhóm còn l i th c hi n nh ng đêầộ ư ủ ạ ự ệ ữ
tài khác Đ t đó rút kinh nghi m và hoàn thi n bài báo cáo tôết h n trong tể ừ ệ ệ ơ ương lai Chúng em xin chân thành c m n !ả ơ
Nhóm th c hi n đềề tài ! ự ệ
Trang 6L I NÓI ĐẦẦU Ờ
Trí tu nhân t o là lĩnh v c đệ ạ ự ược các nhà khoa h c râết quan tâm đ gi i quyêết ọ ể ả
các yêu câầu trong cu c sôếng hi n nay, có nhiêầu lĩnh v c độ ệ ự ượ ức ng d ng trí tu ụ ệ
nhân t o nh trong y têế, trong ngân hàng, trong v n t i và trong nông nghi p.Vâến ạ ư ậ ả ệ
đêầ giá nhà đang là m t trong nh ng bài toán khó gi i nộ ữ ả ở ước ta
Để d đoán giá nhàự , có nhiêầu phương pháp và kyỗ thu t khác nhau nh : h c ậ ư ọ
máy, mô hình time series, mô hình xác xuâết thôếng kê, mô hình m ng n ron Đã có ạ ơ
nhiêầu công trình nghiên c u vêầ d đoán giá nhà có kêết qu cao, tuy nhiên, các ng ứ ự ả ứ
d ng vâỗn ch a đáp ng hoàn toàn các yêu câầu c a ngụ ư ứ ủ ười dùng.
Hi n nay v i s phát tri n không ng ng c a máy tính, phệ ớ ự ể ừ ủ ương pháp H c ọ
máy ra đ i đã đáp ng c b n trong vi c phân lo i và x lý nh H c máy là m t ờ ứ ơ ả ệ ạ ử ả ọ ộ
thu t toán d a trên m t sôế ý tậ ự ộ ưởng t não b t i vi c tiêếp thu nhiêầu tâầng bi u ừ ộ ớ ệ ể
đ t, c c th lâỗn tr u tạ ả ụ ể ừ ượng, qua đó làm rõ nghĩa c a các lo i d li u H c máy ủ ạ ữ ệ ọ
đượ ức ng d ng trong nh n di n truyêần thông, ngân hàng, tài chính tiêần t Hi n ụ ậ ệ ệ ệ
nay râết nhiêầu các bài toán nh n d ng s d ng H c máy đ gi i quyêết do H c máy ậ ạ ử ụ ọ ể ả ọ
có th gi i quyêết các bài toán v i sôế lể ả ớ ượng l n, kích thớ ước đâầu vào l n v i hi u ớ ớ ệ
nắng cũng nh đ chính xác vư ộ ượt tr i so v i các phộ ớ ương pháp phân l p truyêần ớ
thôếng.
Trong báo cáo , nhóm em ch n nghiên c u đêầ tài ọ ứ : “D đoán ự khách hàng vỡ
n ợ trên thu t toán h c máy” ậ ọ , chúng em seỗ s d ng nh ng kiêến th c nêần t ng đãử ụ ữ ứ ả
được tìm hi u trể ước đó đ hoàn thành các chể ương sau:
Trang 7CH ƯƠ NG 1 H C MÁY C B N Ọ Ơ Ả
Ch ươ ng 1 H c máy ọ
Ch ươ ng 2 Gi i thi u vêầ Machine ớ ệ Learning
- Nh ng nắm gâần đây, AI - Artificial Intelligence (Trí Tu Nhân T o), và c ữ ệ ạ ụ
th h n là Machine Learning (H c Máy ho c Máy H c) n i lên nh m t bắầng ể ơ ọ ặ ọ ổ ư ộ
ch ng c a cu c cách m ng công nghi p lâần th t (1 - đ ng c h i nứ ủ ộ ạ ệ ứ ư ộ ơ ơ ước, 2 - nắng lượng đi n, 3 - công ngh thông tin) Trí Tu Nhân T o đang len l i vào ệ ệ ệ ạ ỏ
m i lĩnh v c trong đ i sôếng mà có th chúng ta không nh n ra Xe t hành c a ọ ự ờ ể ậ ự ủ
Google và Tesla, h thôếng t tag khuôn m t trong nh c a Facebook, tr lý o ệ ự ặ ả ủ ợ ả
Siri c a Apple, h thôếng g i ý s n ph m c a Amazon, h thôếng g i ý phim c a ủ ệ ợ ả ẩ ủ ệ ợ ủ
Netflix, máy ch i c vây AlphaGo c a Google DeepMind, …, ch là m t vài trong ơ ờ ủ ỉ ộ
vô vàn nh ng ng d ng c a AI/Machine Learning.ữ ứ ụ ủ
- Machine Learning là m t t p con c a AI Theo đ nh nghĩa c a ộ ậ ủ ị ủ
Wikipedia, Machine learning is the subfield of computer science that “gives computers the ability to learn without being explicitly programmed” Nói đ n ơ
gi n, Machine Learning là m t lĩnh v c nh c a Khoa H c Máy Tính, nó có kh ả ộ ự ỏ ủ ọ ả
nắng t h c h i d a trên d li u đ a vào mà không câần ph i đự ọ ỏ ự ữ ệ ư ả ượ ậc l p trình c ụ
th ể
- Nh ng nắm gâần đây, khi mà kh nắng tính toán c a các máy tính đữ ả ủ ược nâng lên m t tâầm cao m i và lộ ớ ượng d li u kh ng lôầ đữ ệ ổ ược thu th p b i các ậ ở
hãng công ngh l n, Machine Learning đã tiêến thêm m t bệ ớ ộ ước dài và m t lĩnh ộ
v c m i đự ớ ược ra đ i g i là Deep Learning (H c Sâu -ờ ọ ọ th c s tôi không muôến ự ự
d ch t này ra tiêếng Vi t ị ừ ệ ) Deep Learning đã giúp máy tính th c thi nh ng vi c ự ữ ệ
tưởng ch ng nh không th vào 10 nắm trừ ư ể ước: phân lo i c ngàn v t th khác ạ ả ậ ể
nhau trong các b c nh, t t o chú thích cho nh, bắết chứ ả ự ạ ả ước gi ng nói và ch ọ ữ
viêết c a con ngủ ười, giao tiêếp v i con ngớ ười, hay th m chí c sáng tác vắn hay ậ ả
âm nh cạ
Trang 8Hình 1.1 nh minh h a vêầ h c máyẢ ọ ọ
Ch ươ ng 3 Phần nhóm các thu t toán ậ Machine Learning
- Có hai cách ph biêến phân nhóm các thu t toán Machine learning M t làổ ậ ộ
d a trên phự ương th c h c (learning style), hai là d a trên ch c nắng (function)ứ ọ ự ứ
(c a môỗi thu t toán):ủ ậ
a Phân nhóm d a trền ph ự ươ ng th c h c ứ ọ
Supervised Learning( H c có giám sát) ọ
Supervised learning là thu t toán d đoán đâầu ra ậ ự
(outcome) c a m t d li u m i (new input) d a trên các ủ ộ ữ ệ ớ ự
c p (ặ input, outcome) đã biêết t trừ ước C p d li u này cònặ ữ ệ
được g i là (ọ data, label), t c ( ứ d li u, nhãn ữ ệ ) Supervised learning là nhóm ph biêến nhâết trong các thu t toán ổ ậ
Machine Learning
M t cách toán h c, Supervised learning là khi chúng ra có ộ ọ
m t t p h p biêến đâầu vàoộ ậ ợ X={x1,x2,…,xN}X={x1,x2,
…,xN} và m t t p h p nhãn tộ ậ ợ ương ng ứ Y={y1,y2,
…,yN}Y={y1,y2,…,yN}, trong đó xi,yixi,yi là các vector Các
c p d li u biêết trặ ữ ệ ướ (xi,yi)∈X×Y(xi,yi)∈X×Y đ c ược g i làọ
t p ậ training data (d li u huâến luy n) T t p training ữ ệ ệ ừ ậ
data này, chúng ta câần t o ra m t hàm sôế ánh x môỗi ạ ộ ạ
phâần t t t p ử ừ ậ X sang m t phâần t (xâếp x ) tộ ử ỉ ương ng ứ
c a t p ủ ậ Y.
Trang 9 M c đích là xâếp x hàm sôếụ ỉ ff th t tôết đ khi có m t d ậ ể ộ ữ
li u ệ xx m i, chúng ta có th tính đớ ể ược nhãn tương ng ứ
c a nóủ y=f(x).
Unsupervised Learning( H c không giám sát) ọ
Trong thu t toán này, chúng ta không biêết ậ
đ ượ outcome hay nhãn mà ch có d li u đâầu vào Thu t c ỉ ữ ệ ậ
toán unsupervised learning seỗ d a vào câếu trúc c a d ự ủ ữ
li u đ th c hi n m t công vi c nào đó, ví d nh phân ệ ể ự ệ ộ ệ ụ ư
nhóm (clustering) ho c gi m sôế chiêầu c a d li u ặ ả ủ ữ ệ
(dimension reduction) đ thu n ti n trong vi c l u tr và ể ậ ệ ệ ư ữ
tính toán.
M t cách toán h c, Unsupervised learning là khi chúng ta ộ ọ
ch có d li u vàoỉ ữ ệ XX mà không biêết nhãn YY tương ng.ứ
Nh ng thu t toán lo i này đữ ậ ạ ược g i là Unsupervised ọ
learning vì không giôếng nh Supervised learning, chúng ta ư
không biêết câu tr l i chính xác cho môỗi d li u đâầu vào ả ờ ữ ệ
Giôếng nh khi ta h c, không có thâầy cô giáo nào ch cho ta ư ọ ỉ
biêết đó là ch A hay ch B C mữ ữ ụ không giám sát được đ t ặ
tên theo nghĩa này
Semi-Supervised Learning( H c bán giám sát) ọ
Các bài toán khi chúng ta có m t lộ ượng l n d ớ ữ
li u ệ XX nh ng ch m t phâần trong chúng đư ỉ ộ ược gán nhãn
được g i là Semi-Supervised Learning Nh ng bài toán ọ ữ
thu c nhóm này nắầm gi a hai nhóm độ ữ ược nêu bên trên
M t ví d đi n hình c a nhóm này là ch có m t phâần nh ộ ụ ể ủ ỉ ộ ả
ho c vắn b n đặ ả ược gán nhãn (ví d b c nh vêầ ngụ ứ ả ười,
đ ng v t ho c các vắn b n khoa h c, chính tr ) và phâần l nộ ậ ặ ả ọ ị ớ
các b c nh/vắn b n khác ch a đứ ả ả ư ược gán nhãn được thu
th p t internet Th c têế cho thâếy râết nhiêầu các bài toán ậ ừ ự
Machine Learning thu c vào nhóm này vì vi c thu th p d ộ ệ ậ ữ
Trang 10li u có nhãn tôến râết nhiêầu th i gian và có chi phí cao Râết ệ ờ
nhiêầu lo i d li u th m chí câần ph i có chuyên gia m i gánạ ữ ệ ậ ả ớ
nhãn đượ ảc ( nh y h c ch ng h n) Ngọ ẳ ạ ượ ạc l i, d li u ch aữ ệ ư
có nhãn có th để ược thu th p v i chi phí thâếp t internetậ ớ ừ
Reinforcement Learning( H c c ng côố) ọ ủ
Reinforcement learning là các bài toán giúp cho m t h ộ ệ
thôếng t đ ng xác đ nh hành vi d a trên hoàn c nh đ ự ộ ị ự ả ể
đ t đạ ượ ợc l i ích cao nhâết (maximizing the performance).
Hi n t i, Reinforcement learning ch yêếu đệ ạ ủ ược áp d ng ụ
vào Lý Thuyêết Trò Ch i (Game Theory), các thu t toán ơ ậ
câần xác đ nh nị ước đi tiêếp theo đ đ t để ạ ược đi m sôế cao ể
nhâết.
CH ƯƠ NG 2 CÁC THU T TOÁN S D NG Ậ Ử Ụ 2.1 Linear Regression
2.1.1 Gi i thi u ớ ệ
- "Hôầi quy tuyêến tính" là m t phộ ương pháp thôếng kê đ hôầi quy d li u ể ữ ệ
v i biêến ph thu c có giá tr liên t c trong khi các biêến đ c l p có th có m tớ ụ ộ ị ụ ộ ậ ể ộ
trong hai giá tr liên t c ho c là giá tr phân lo i Nói cách khác "Hôầi quy ị ụ ặ ị ạ
tuyêến tính" là m t phộ ương pháp đ d đoán biêến ph thu cể ự ụ ộ (Y) d a trên giá ự
tr c a biêến đ c l pị ủ ộ ậ (X) Nó có th để ượ ử ục s d ng cho các trường h p chúng ợ
ta muôến d đoán m t sôế lự ộ ượng liên t c Ví d , d đoán giao thông m t c aụ ụ ự ở ộ ử
hàng bán l , d đoán th i gian ngẻ ự ờ ười dùng d ng l i m t trang nào đó ho c ừ ạ ộ ặ
sôế trang đã truy c p vào m t website nào đó v.v ậ ộ
- Gi s cắn nhà r ngả ử ộ x1 m2x1 m2, có x2x2 phòng ng và cách trung tâm ủ
thành phôế x3 kmx3 km có giá là bao nhiêu Gi s chúng ta đã có sôế li u thôếng ả ử ệ
kê t 1000 cắn nhà trong thành phôế đó, li u rắầng khi có m t cắn nhà m i v i ừ ệ ộ ớ ớ
các thông sôế vêầ di n tích, sôế phòng ng và kho ng cách t i trung tâm, chúng ta ệ ủ ả ớ
có th d đoán để ự ược giá c a cắn nhà đó không? Nêếu có thì hàm d ủ ự
Trang 11đoán y=f(x)y=f(x) seỗ có d ng nh thêế nào đâyạ ư Ở x=[x1,x2,x3]x=[x1,x2,x3] là m tộ
vector hàng ch a thông tinứ input, yy là m t sôế vô hộ ướng (scalar) bi u ể
diêỗn output (t c giá c a cắn nhà trong ví d này).ứ ủ ụ
- M t cách đ n gi n nhâết, chúng ta có th thâếy rắầng: i) di n tích nhà càng ộ ơ ả ể ệ
l n thì giá nhà càng cao; ii) sôế lớ ượng phòng ng càng l n thì giá nhà càng cao; ủ ớ
iii) càng xa trung tâm thì giá nhà càng gi m M t hàm sôế đ n gi n nhâết có th ả ộ ơ ả ể
mô t môếi quan h gi a giá nhà và 3 đ i lả ệ ữ ạ ượng đâầu vào là:
trong đó, w1,w2,w3,w0w1,w2,w3,w0 là các hắầng sôế, w0w0 còn được g i là bias ọ
Môếi quan hệ y≈f(x)y≈f(x) bên trên là m t môếi quan h tuyêến tính (linear) Bài ộ ệ
toán chúng ta đang làm là m t bài toán thu c lo i regression Bài toán đi tìm ộ ộ ạ
các h sôế tôếi uệ ư {w1,w2,w3,w0}{w1,w2,w3,w0} chính vì v y đậ ược g i là bài toánọ
được thêm vào đ phép tính đ n gi n h n và thu n ti n cho vi c tính toán Khi ể ơ ả ơ ậ ệ ệ
đó, phương trình (1) có th để ược viêết l i dạ ướ ại d ng:
- Trong khi s d ng hôầi quy tuyêến tính, m c tiêu c a chúng ta là đ làmử ụ ụ ủ ể
sao m t độ ường th ng có th t o đẳ ể ạ ượ ực s phân bôế gâần nhâết v i hâầu hêết các ớ
đi m Do đó làm gi m kho ng cách (sai sôế) c a các đi m d li u cho đêến ể ả ả ủ ể ữ ệ
đường đó.
Trang 12Hình 1.2 nh minh h a hôầi quy tuyêến tínhẢ ọ
2.2 LGBMClassifier
2.2.1 Gi i thi u ớ ệ
- M c dù đ t đặ ạ ược nh ng kêết qu vữ ả ượt tr i, XGBoost g p m t vâến đêầ là ộ ặ ộ
th i gian training khá lâu, đ c bi t v i nh ng b d li u l n Đêến tháng 1 ờ ặ ệ ớ ữ ộ ữ ệ ớ
nắm 2016, Microsoft lâần đâầu realease phiên b n th nghi m LightGBM, và ả ử ệ
LightGBM nhanh chóng thay thêế v trí c a XGBoost, tr thànhị ủ ở thu t toán ậ ensemble đ ượ ư c a chu ng nhầết ộ
- LightGBM là m t khung tắng cộ ường đ dôếc d a trên cây quyêết đ nh ộ ự ị
đ tắng hi u qu c a mô hình và gi m m c s d ng b nh ể ệ ả ủ ả ứ ử ụ ộ ớ
- Nó s d ng hai kyỗ thu t m i:ử ụ ậ ớ Lầếy mầẫu m t bên d a trên ộ ự
Gradient (GOSS) Gradient Based One Side Sampling và Gói tính năng
đ c quyêần (EFB) ộ Exclusive Feature Bundling, đáp ng các h n chêế c a ứ ạ ủ
thu t toán d a trên bi u đôầ đậ ự ể ược s d ng ch yêếu trong tâết c các khung ử ụ ủ ả
GBDT (Cây quyêết đ nh tắng cị ường đ dôếc).ộ
2.2.2 Phần tích toán h c ọ
- GOSS (Lâếy mâỗu m t m t d a trên Gradient) là m t phộ ặ ự ộ ương pháp lâếy mâỗu m i đ lâếy mâỗu các th hi n trên c s gradient.ớ ể ể ệ ơ ở Nh chúng ta biêết các ư
trường h p có đ dôếc nh đợ ộ ỏ ược đào t o tôết (lôỗi đào t o nh ) và nh ng ạ ạ ỏ ữ
trường h p có đ dôếc l n đang đợ ộ ớ ược đào t o ạ M t cách tiêếp c n đ n gi n đôếiộ ậ ơ ả
v i mâỗu gi m là lo i b các trớ ả ạ ỏ ường h p có đ dôếc nh bắầng cách ch t p ợ ộ ỏ ỉ ậ
trung vào các trường h p có đ dôếc l n nh ng điêầu này seỗ làm thay đ i phânợ ộ ớ ư ổ
Trang 13phôếi d li u ữ ệ Tóm l i, GOSS gi l i các trạ ữ ạ ường h p có đ dôếc l n trong khi ợ ộ ớ
th c hi n lâếy mâỗu ngâỗu nhiên trên các trự ệ ường h p có đ dôếc nh ợ ộ ỏ
- Các b ướ c tính GOSS tr c quan: ự
1.Sắếp xêếp các trường h p theo đ dôếc tuy t đôếi theo th t gi m dâầnợ ộ ệ ứ ự ả
2 Ch n các trọ ường h p a * 100% trên cùng.ợ [Dướ ội đ dôếc được đào t o / ạ
l n]ớ
3 Lâếy mâỗu ngâỗu nhiên b * 100% các trường h p t phâần còn l i c a d ợ ừ ạ ủ ữ
li u ệ Điêầu này seỗ làm gi m s đóng góp c a các ví d đả ự ủ ụ ược đào t o tôết theo ạ
h sôế b (b <1)ệ
4 Nêếu không có đi m 3, sôế lể ượng mâỗu có đ dôếc nh seỗ là 1-a (hi n t i là ộ ỏ ệ ạ
b) Đ duy trì phân phôếi ban đâầu, LightGBM khuêếch đ i s đóng góp c a cácể ạ ự ủ
mâỗu có đ dôếc nh bắầng hắầng sôế (1-a) / b đ t p trung nhiêầu h n vào các ộ ỏ ể ậ ơ
cá th ch a để ư ược đào t o ạ Điêầu này t p trung nhiêầu h n vào các trậ ơ ường
h p ch a đợ ư ược đào t o mà không làm thay đ i nhiêầu phân phôếi d li uạ ổ ữ ệ
- Thu t toán chính th c cho GOSSậ ứ
Hình 1.3 nh minh h a thu t toán GossẢ ọ ậ
- Gói tính năng đ c quyêần (EFB) ộ D li u chiêầu cao thữ ệ ường râết th a ư
th t, điêầu này cung câếp cho chúng tôi kh nắng thiêết kêế m t cách tiêếp c n ớ ả ộ ậ
gâần nh không mâết d li u đ gi m sôế lư ữ ệ ể ả ượng tính nắng C th , trong m tụ ể ộ
không gian đôếi tượng th a th t, nhiêầu đôếi tư ớ ượng lo i tr lâỗn nhau, t c là ạ ừ ứ
Trang 14chúng không bao gi nh n các giá tr khác không đôầng th i.ờ ậ ị ờ Các tính nắng
đ c quyêần có th độ ể ược gói m t cách an toàn vào m t tính nắng duy nhâết ộ ộ
(được g i là Gói tính nắng đ c quyêần).ọ ộ Do đó, đ ph c t p c a vi c xây ộ ứ ạ ủ ệ
d ng bi u đôầ thay đ i tự ể ổ ừ O (#data × #feature) thành O (#data × #bundle) , trong khi #bundle << # feature Do đó, tôếc đ cho khung huâến luy n độ ệ ược
c i thi n mà không nh hả ệ ả ưởng đêến đ chính xác.ộ
- Thu t toán EFB : ậ LightGBM tách cây thông theo câếp đ trái ngộ ược
v i các thu t toán thúc đ y khác phát tri n theo câếp đ cây.ớ ậ ẩ ể ộ Nó ch n lá b ọ ị
r ng tôếi đa đ phát tri n.ụ ể ể Vì lá được côế đ nh nên thu t toán theo lá có t n ị ậ ổ
thâết thâếp h n so v i thu t toán theo câếp.ơ ớ ậ S phát tri n c a cây khôn có lá ự ể ủ
có th làm tắng đ ph c t p c a mô hình và có th dâỗn đêến vi c trang b ể ộ ứ ạ ủ ể ệ ị
quá nhiêầu trong các t p d li u nh ậ ữ ệ ỏ
Hình 1.4 nh minh h a thu t toán EFBẢ ọ ậ