Xây dựng mô hình dự báo độ phố biến của xu hướng mua sắm của khách hàng sử dụng các công cụ học máy là một phần quan trọng trong cuộc cách mạng khai phá dữ liệu và học máy.. Tính ứng dụn
Trang 1
TRƯỜNG ĐẠI HỌC NGÂN HANG THANH PHO HO CHi MINH
SU DUNG CAC CONG CU HOC MAY XÂY DỰNG MÔ HÌNH DỰ BÁO ĐỘ PHỎ
BIEN XU HUONG MUA SAM CUA KHACH HANG
Giảng viên hướng dẫn : ThS Tran Doan Hiéu
Nhóm thực hiện
Tp Hồ Chí Minh ngày 18 tháng 11 năm 2023
Trang 2
Thành viên thực hiện
Giới thiệu, cơ sở lý thuyết
3 Lê Ngô Như Quỳnh |050610220497 | mục tổng quan, thuật toán Linear Regression 100%
Cong viéc chung:
Phân tích dữ liệu, dùng công cụ học máy dé dur bao
Tháo luận và kết luận, tài liệu tham kháo
Trang 3MUC LUC
Thành viên thực hiện <5 5< <3 S935 9.0 9.91 0H H1 HH 1 T01 0.5001 0.5050 1.50858
(00100.1.8119)/0)89:010 000 n
a Tính cấp thiết của đề tài: -s-s- sex re he reersree 3
b Ý nghĩa khoa học và thực tiỄn: s- scss©csecseexserseerserssersersrsssssrsee 3
c Mục tiêu báo CáO co Q0 HT TH TT HT 4 0 0 010 80 4
d Phạm vi của báo CÁO Q0 cọ HH TH HH T0 0 1 04008 8 01 08 4
1.1, Khoa học dữ liệu: dc G5 G3.” Y9 cà 9 ng 6 1.2 Học máy: c Go 1.1 HH HT In nà TH 04 1 00401 8 160804 7 1.3 Lãnh vực liên quan đến bộ dữ liệu đã được thu thập: tập dữ liệu xu hướng mua sắm của khách hàng:, - co 1 300930100301 3 1 TH 0 H14 9 mg 7
2 Thuật toán Linear Ñ€gr€sSÌOH: 5< SH TH Họ HH ni 8 2.1 Giới thiỆu: ch THỂ TH HO HH HH HH TH HA hư 8 2.2 Dạng của Linear ÑegØr€ssÏ0H: co ó0 nọ HS TY ng gà v58 9
3 Thuật toán Bagging «cọ TH TH TH 01.01 9.080550 11
3.3 Ưu điểm và nhure di@min.ccccccssssscsssesssssessessessssscsssssssscssssesssssssescsssssensseenes 12
4, Thuật toán Gradienf BO0SfÏTg: 7 << ng HH 13 4.1 Giới thiệu về Gradient BOOSfTHD: 0G Go HH Y pH Ý Y9, 13
4.3 Ưu điểm vả nhược didmi cccccccssssscsssssssssssscsscssssscssessssscsssscssssnsscsnsssscsssscsseees 14 Chương III: MÔ TẢ DỮ LIỆU - 2-2-2 2< s£SS£€Ss£E+s€EsEEEZEEsEEsSxEEeEsevsexeseresrsers
2 Đặc điểm của bộ dữ liệu: -. s-s-s-csceesevsetxe+teExExeersEksererkrererrereree 16
Trang 43 Nội dung của bộ dữ liệu wee 7
4 Mô tả dữ liệu bằng các công cụ trực quan hóa: s s- sec secssessesesee 18 4.1 Biểu đồ thể hiện tông số tiền mua sắm theo CA(CDOTi cuc krex 18
4.2 Biểu đồ thể hiện tổng số tiền mua sắm theo mùa và PTTT 18 4.3 Biểu đồ phân bố độ tuổi với đường cong mật độ: -. 5-5-5 <5 19
4.4 Biểu đồ Box Plot of Purchase Amount by Gender: «-««s« «<< c« «+ 20
4.5 Biểu đồ phân tán giữa độ tuổi và đánh giá của khách hàng: 20
1 Quá trình phân tích dữ liệu: - 5 G5 G SG 3 90 3n ng vn, 22 1.1 Khám phá dữ liệu: << 5 + 4 KH TH HH HH hy 22
1.2 Kiểm tra dữ liệu: os< sex rxEEsExeErsEEserkEssersrreerereerereereree 23
" - 23 1.3 Làm sạch bộ dữ liỆU: - Ă- <1 1 To nh 23 1.4 Phân tích dữ liệu - (<0 1h HS 903 01 0001165051588 0805 88 g3 si 24
2 Sử dụng các công cụ học máy xây dựng mô hình dự báo: - - 24 2.1 Mô hình Linear Ñegre€ssỈOH: - Ăn km, 25
2.2 Mô hình Bagging Ñegr©sSOF 5 co 0 TH TH HH HT n9 ng 25 2.3 Mô hình Gradient Boosfing - o c - co nọ gọn ng 1v 26
Chương V: THẢO LUẬN VÀ KẾT LUẬN s- <<2ss©cscssessEEssexsersseserkesersrssesere
1 Thảo luận về kết quả: - 5c 5£ ©< se ©seEEsEEEEsEEsEEEEsEEeersEEsererserkrsrrkrsrrsree 28
2.1 Các kết quả đã thực biện: - o2 se seExsExEvsEEsErsersersreersrersrrsre 28
IV 180i90091/09 86407 001577
Trang 5DANH MUC HiNH ANH
Trang 61
Chương I: GIỚI THIỆU
Lý do chọn đề tài:
Trong thời đại hiện đại, khai phá đữ liệu và học máy đã trở thành một lĩnh vực quan
trọng với nhiều ứng dụng thủ vị Một trong những ứng dụng quan trọng của học máy là phân loại và dự đoán, có thê áp dụng trong nhiều lĩnh vực, bao gồm khoa học dữ liệu, thị trường tài chính, y tế, và cả lĩnh vực giải trí
Xây dựng mô hình dự báo độ phố biến của xu hướng mua sắm của khách hàng sử dụng các công cụ học máy là một phần quan trọng trong cuộc cách mạng khai phá dữ liệu và học máy Ứng dụng này đem lại nhiều lợi ích quan trọng và có sự ảnh hưởng đáng kể trong thị trường tiêu dùng
Mô hình này cho phép chúng ta dự đoán mức độ phô biến của các loại quần áo đựa trên nhiều thuộc tính khác nhau, bao gồm thong tin về tudi, giới tính, các mùa, mức độ đánh
giá và nhiều khía cạnh khác
Ứng dụng của mô hình này có thể mở ra nhiều cơ hội và tiềm năng trong ngành công nghiệp may mặc Nó có thê giúp các hãng sản xuất quần áo hoặc các thương hiệu thời trang hiểu rõ hơn về sở thích của khán giả và thị trường, từ đó cải thiện quá trình sản xuất Ngoài
ra, dự đoán độ phổ biến của tý lệ mua sắm có thê hỗ trợ việc quảng cáo và tiếp thị
Tính thực tế: Dataset này được thu thập từ một công ty thương mại điện tử lớn ở Ấn
Độ, bao gồm đữ liệu mua sắm của hơn l triệu khách hàng trong thời gian l năm Điều này đảm bảo tính thực tế của dữ liệu và có thê áp dụng cho các doanh nghiệp thương mại điện tử
khác ở Việt Nam và trên thế giới
Tính đa đạng: Dataset bao gồm nhiều thông tin về khách hàng, bao gồm nhân khâu học, hành vi mua sắm, sở thích, v.v Điều này giúp chúng ta có cái nhìn toàn điện về khách hàng và có thê đưa ra các phân tích sâu sắc hơn
Tính ứng dụng: Dataset này có thê được sử dụng cho nhiều mục đích khác nhau,
chăng hạn như:
° Phân tích xu hướng mua sắm của khách hàng
Trang 72
° Xây dựng mô hình dự đoán hành vi mua sắm
« Tối ưu hóa chiến lược tiếp thị
Nhiệm vụ đồ án:
a — Tính cấp thiết của đề tài:
Đề tài "Customer Shopping Trends Dataset" có tính cấp thiết cao đối với các doanh nghiệp kinh doanh bán lẻ Trong bối cảnh thị trường ngày càng cạnh tranh, việc hiểu được
xu hướng mua sắm của khách hàng là vô cùng quan trọng đề doanh nghiệp có thê đưa ra các chiến lược tiếp thị và bán hàng hiệu quả
Dữ liệu trong đề tài này bao gồm các thông tin về nhân khâu học, hành vi mua sắm,
sở thích của khách hàng Các thông tin này có thể được sử đụng đề phân tích xu hướng mua săm của khách hàng, từ đó đưa ra các chiến lược tiếp thị phù hợp với từng phân khúc khách hàng
Cu thé, các doanh nghiệp có thê sử dụng đữ liệu này đề:
° Tạo các phân khúc khách hàng dựa trên hành vi mua sắm, sở thích, nhân khâu học, Điều này giúp doanh nghiệp hiểu rõ hơn về nhu cầu của từng nhóm
khách hàng, từ đó đưa ra các sản pham, dịch vụ và chương trỉnh khuyến mãi
phù hợp
° Tạo các chiến địch tiếp thị cá nhân hóa Bằng cách hiểu rõ hành vi mua sắm của từng khách hàng, doanh nghiệp có thê gửi các thông điệp tiếp thị phù hợp
và hiệu quả hơn
° Tăng cường lòng trung thành của khách hàng Bằng cách cung cấp các trải nghiệm mua sắm tốt hơn, doanh nghiệp có thê giữ chân khách hàng và thúc đây họ mua sắm nhiều hơn
b Y nghĩa khoa học và thực tiến:
- Y nghia khoa hoc:
Trang 8° Đề tài cung cấp một tập dữ liệu lớn và đa dạng về hành vi mua sắm của khách hàng Tập đữ liệu này có thể được sử dụng để nghiên cứu các xu hướng mua sam của khách hàng, chăng hạn như các sản phâm được mua phô biến nhất, các kênh mua sắm được ưa chuộng nhất, và các yêu tô ảnh hưởng đến quyết định mua sắm của khách hàng
° Đề tài giúp các nhà khoa học có thê phát triển các mô hình dự đoán hành vi mua sắm của khách hàng Các mô hình này có thê được sử dụng đề tối ưu hóa các chiến lược tiếp thị và bán hàng, nhằm tăng doanh số bán hàng và thu hút khách hàng mới
- Y nghĩa thực tiễn:
° Đề tài có thể được sử dụng bởi các doanh nghiệp đề hiệu rõ hơn về hành vi mua sắm của khách hàng Điều này giúp các doanh nghiệp có thê đưa ra các
quyết định kinh doanh hiệu quả hơn, chăng hạn như cải thiện sản phẩm và dịch
vụ, phát triển các chương trình khuyến mãi phù hợp, và phân phối sản phẩm và
dịch vụ đến đúng đối tượng khách hàng
° Đề tài cũng có thê được sử dụng bởi các cơ quan chính phủ đề xây dựng các chính sách kinh tế và thương mại phù hợp với nhu cầu của người tiêu ding Mục tiêu báo cáo
Mục tiêu của báo cáo này là cung cấp một cái nhìn tổng quan về đữ liệu xu hướng mua sắm của khách hàng trên Kaggle Báo cáo sẽ thảo luận về các biến đữ
liệu, các phân tích có thê được thực hiện và các ứng dụng tiềm năng của đữ liệu
Phạm vi của báo cáo
Báo cáo này sẽ tập trung vào các phân tích đữ liệu có thê được thực hiện cho dữ liệu
xu hướng mua sắm của khách hàng trên Kaggle Báo cáo sẽ không bao gồm các khía
cạnh kỹ thuật của việc xây dựng và đánh giá mô hình học máy
Dưới đây là một số mục tiêu cụ thê của báo cáo:
Trang 9° Mô tả các biến dữ liệu trong tập đữ liệu
« Thảo luận về các phân tích đữ liệu có thê được thực hiện
« Cung cấp các ví dụ về cách đữ liệu có thể được sử dụng trong thực tế
Báo cáo này sẽ được viết cho các nhà lãnh đạo doanh nghiệp, nhà tiếp thị và nhà phân tích đữ liệu Báo cáo sẽ cung cấp thông tin cần thiết để các doanh nghiệp có thể sử
dụng đữ liệu xu hướng mua săm của khách hàng dé cải thiện hoạt động của họ
Mục tiêu của báo cáo "Customer Shopping Trends Dataset" là cung cấp thông tin về các xu hướng mua sắm của khách hàng tại một cửa hàng bán lẻ trực tuyến tại Ấn Độ
Báo cáo này có thể được sử dụng đề hiểu rõ hơn về sở thích và hành vi mua sắm của
khách hàng, từ đó giúp các nhà quản lý đưa ra các quyết định kinh doanh sáng suốt hơn
Pham vi cua bao cáo này bao gôm các thông tin sau:
° Các sản phẩm được mua phổ biến nhất
° Sự thay đổi của số lượng giao dịch mua hàng theo thời gian
° Sự khác biệt về hành vi mua sắm giữa các nhóm khách hàng khác nhau Báo cáo này được xây dựng dựa trên đữ liệu được thu thập từ một cửa hàng bán lẻ trực tuyên tại Ân Độ trong khoảng thời gian từ ngày 1 tháng l năm 2023 đến ngày 31 tháng 12 năm 2023 Dữ liệu này bao gồm 10.000 bản ghi, mỗi bán ghi đại điện cho
một giao dịch mua hàng của một khách hàng
Trang 10Chương II: CƠ SỞ LÝ THUYÉT
1 Tổng quan về khoa học dữ liệu và học máy:
1.1 Khoa học dữ liệu:
Khoa học đữ liệu (Data science) là công nghệ thống trị hiện tại đã chính phục các ngành công nghiệp trên toàn thế giới Nó đã mang lại một cuộc cách mạng công nghiệp lần thứ tư trên thế giới ngày nay Đây là kết quả của đóng góp sự bùng nô đữ liệu lớn - big đata và nhu cầu ngày càng tăng của các ngành công nghiệp dựa vào dữ
liệu đề tạo ra các sản phâm tốt hơn Hiện nay chúng đã trở thành một phan của xã hội
dựa trên dữ liệu Data đã trở thành một nhu cầu quan trọng đối với các ngành công nghiệp cần data để đưa ra các quyết định cần thận Là một lĩnh vực nghiên cứu liên
quan đến việc thu thập, xử lý, phân tích và khai thác đữ liệu đề tìm ra những thông tin
hữu ích, hỗ trợ cho việc ra quyết định
Quy trình khoa học dữ liệu bao gồm các bước chính như thu thập đữ liệu, tiền
xử lý đữ liệu, mô hình hóa, đào tạo mô hình, đánh giá, và triển khai Đây là quá trình
giúp biến dữ liệu thành thông tin hữu ích
Quy trình khoa học đữ liệu OSEMN:
° O-Thu thập dữ liệu (Obtain data): Dữ liệu có thê tồn tại từ trước, mới được thu
thập hoặc là một kho đữ liệu có thể tải xuống từ Internet Các nhà khoa học đữ liệu có thể trích xuất đữ liệu từ những cơ sở đữ liệu nội bộ hoặc bên ngoài,
phần mềm CRM của công ty, nhật ký máy chủ web, mạng xã hội hoặc mua đữ liệu từ các nguồn bên thứ ba đáng tin cậy
« S-Lam sach dir ligu (Scrub data): Làm sạch đữ liệu là quy trình chuẩn hóa dữ
liệu dựa theo một định dạng được định trước Quy trình này bao gồm xử lý dữ liệu còn thiếu, sửa lỗi đữ liệu và loại bỏ mọi dữ liệu ngoại lai Một số ví dụ như
Thay đổi toàn bộ các giá trị ngày thành một định dạng tiêu chuẩn pho bién,
Sửa lỗi chính tả hoặc thừa khoảng trống, Sửa lỗi tính toán không chính xác hoặc xóa dấu phây khỏi các số lớn
° E-Khám phá dữ liệu (Explore data): Kham pha dtr liéu la thao tác phân tích sơ
bộ dữ liệu được sử dụng dé lap ké hoach kỹ hơn cho các chiến lược mô hình
Trang 111.2
1.3
hóa dữ liệu Các nhà khoa học đữ liệu nắm được hiểu biết ban đầu về dữ liệu
bằng cách sử dụng thông kê mô tá và các công cụ trực quan hóa đữ liệu Sau
đó họ khám phá dữ liệu để xác định các mẫu thú vị có thể được nghiên cứu
hoặc tận dụng
° M-Mô hình hóa dữ liệu (Model data): Phần mềm và các thuật toán máy học được sử dụng đề thu thập thông tin chuyên sâu hơn, dự đoán kết quả và đề xuất hướng hành động tốt nhất Các kỹ thuật máy học như liên kết, phân loại và
phân nhóm được áp dụng cho tập dữ liệu đào tạo Mô hình có thể được thử nghiệm so với đữ liệu thử nghiệm định trước đề đánh giá độ chính xác của kết quả Mô hình đữ liệu có thê được tinh chỉnh nhiều lần để cải thiện kết quả thu
được
° I-Diễn giải kết quả (Interpret results): Các nhà khoa học đữ liệu hợp tác cùng các chuyên gia phân tích và doanh nghiệp đề chuyên đôi thông tin chỉ tiết về
dữ liệu thành hành động Họ tạo ra các sơ đồ, đồ thị và biểu đồ để thể hiện
những xu hướng và dự đoán Tóm tắt đữ liệu giúp các bên liên quan hiểu rõ và
triển khai kết quả một cách hữu hiệu
học cách dự đoán dựa trên các ví dụ, hay học cách tạo ra các hành vi phù hợp dựa trên
quan sát trong quá khứ
Có nhiều loại học máy, bao gồm học có giám sát, học không giám sát, học tăng cường Mỗi loại học máy có ứng dụng riêng trong việc giải quyết các vấn đề khác nhau
Lĩnh vực liên quan đến bộ dữ liệu đã được thu thập: tập dữ liệu xu hướng mua săm của khách hàng:
Trang 12hàng, từ đó giúp các doanh nghiệp phát triển các chiến lược marketing hiệu quả hơn
- Dự bao: Tập đữ liệu này có thể được sử dụng để dự đoán nhu cầu của khách hàng trong tương lai Điều này có thể giúp các doanh nghiệp lập kế hoạch sản xuất và nguồn cung hiệu quả hơn
- Tối ưu hóa: Tập đữ liệu này có thể được sử dụng đề tối ưu hóa trải nghiệm mua sam
cua khach hang
Thuật toán Linear Regression:
2.1 Giới thiệu:
Hồi quy tuyến tính là một thuật toán cung cấp mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc đề dự đoán kết quả của các sự kiện trong tương lai Đây là một phương pháp thống kê được sử dụng trong khoa học dữ liệu và học máy để phân tích dự đoán
Biến độc lập cũng là biến dự đoán hoặc biến giải thích không thay đổi do sự thay đổi
của các biến khác Tuy nhiên, biến phụ thuộc thay đổi theo biến động của biến độc lập Mô hình hồi quy dự đoán giá trị của biến phụ thuộc, là biến phản hồi hoặc biến kết quả đang
được phân tích hoặc nghiên cứu
Do đó, hồi quy tuyến tính là một thuật toán học có giám sát mô phỏng mối quan hệ
toán học giữa các biến và đưa ra dự đoán cho các biến số hoặc liên tục như doanh số, tiền
lương, tuôi tác, giá sản phẩm, v.v
Phương pháp phân tích này thuận lợi khi có ít nhất hai biến trong dữ liệu, như được
quan sát thay trong dy bao thi trường chứng khoán, quản lý danh mục đầu tư, phân tích khoa
học, v.v
Một đường thăng đốc đại điện cho mô hình hồi quy tuyến tính.
Trang 13Dependent Variable
| ớớ 4
fe
/ 7
/ ⁄ / re
Trục Y = Đầu ra / biến phụ thuộc
Đường hồi quy = Đường phù hợp nhất cho mô hình
Ở đây, một đường được vẽ cho các điểm đữ liệu nhất định phù hợp với tất cả các vẫn
dé Do đó, nó được gọi là 'đường phù hợp nhất Mục tiêu của thuật toán hồi quy tuyến tinh là tìm đường phù hợp nhất được thấy trong hình trên
2.2 Dạng của Linear Regression:
Dạng chung của mô hình hồi quy tuyến tính (Linear Regression) có thể được biêu điện như sau:
Trong đó:
y = wix1 + w2x2 + + wnxn + b
y la gia tri dau ra dy doan
X1, X2, ., Xn la các biến đầu vào (đặc trưng hoặc thuộc tính)
W1, W2, , Wn là các trọng sô tương ứng với các biên đầu vào
b là độ dời (bias) hoặc hệ số chặn
Dạng chung này thể hiện một mô hình tuyến tính đơn giản, trong đó mỗi biến đầu vào
13
Trang 14đoán y
Dạng chung của mô hình cũng có thê được mở rộng bằng cách thêm các thành phần khác như các biểu thức phi tuyến (ví dụ: x2, sin(x2), log(x2) ) hoặc các tương tác giữa các biến (ví dụ: xix2) Điều này tạo ra các biến đầu vào mới và mở rộng phạm vi mô hình hồi quy tuyến tính đề mô hình hóa mối quan hệ phi tuyến giữa các biến đầu vào và đầu ra Dạng chung của mô hình hỏi quy tuyến tính cung cấp một cách đơn giản và trực quan
để mô hình hóa mối quan hệ giữa biên đầu vào và đầu ra trong bài toán dự đoán Qua quá trình huấn luyện, các trọng số w1, w2, wn và độ dời b được tìm ra đề tối thiểu hóa sai số
giữa giá trị dự đoán và giá trị thực tế trên tập dữ liệu huấn luyện
2.3 Cac tinh nang quan trong:
° Giả định tuyến tính: Hồi quy tuyến tính dựa trên giá định rằng có mối quan hệ tuyến
tính giữa biến độc lập và biến phụ thuộc
° Hệ số góc (slope): Hệ số góc (đôi khi được gọi là hệ số hồi quy) biểu thị mức độ thay
đôi của biến phụ thuộc khi biến độc lập thay đổi một đơn vi
° Hệ số độ đời (intercept): Hệ số độ dời là giá trị của biến phụ thuộc khi biến độc lập
bằng không Nó là một điểm mà đường hỗi quy giao với trục y
° Xác định R-squared (R?): Xác định R-squared là một thước đo để đánh giá hiệu suất của mô hình hồi quy tuyến tính Giá trị R-squared càng gần 1 thì mô hình càng tốt
° Sai số tiêu chuẩn (Standard Error): Sai số tiêu chuẩn là thước đo đo lường độ biến đổi của đữ liệu quanh đường hồi quy
° Sai số bình phương trung bình (Mean Squared Error - MSE): MSE là một thước đo đánh giá hiệu suất của mô hình bằng cách tính trung bình của bình phương sai số giữa
giá trị thực tế và giá trị dự đoán
° F-statistic: F-statistic là một thống kê thước đo để đánh giá mức độ ý nghĩa của mô
hình hồi quy tuyến tính
° Phân tích sai số: Hồi quy tuyến tính cho phép phân tích sai số để xác định mức độ
biến đôi không thể giải thích bởi mô hình
14
Trang 15° Khả năng giải thích mô hình: Hồi quy tuyến tính cho phép xác định mức độ giải thích của biến độc lập đối với biến phụ thuộc, giúp hiểu rõ tác động của các yếu tô khác nhau
° Độ tin cậy và khoảng tin cậy cho hệ số hồi quy: Các khoảng tin cậy cho hệ số hồi quy
giúp xác định mức độ tin cậy của ước tính hệ 36
2.4 Ưu điểm và nhược điểm:
Ưu điểm:
Dễ hiểu và triển khai: Hồi quy tuyến tính là một trong những phương pháp đơn giản nhất trong học máy
Ứng dụng rộng rãi: Hồi quy tuyến tính có thê áp dụng cho nhiều loại đữ liệu và lĩnh vực, từ
tài chính đến y học và khoa học xã hội
Tính liên tục và mịn: Mô hình hồi quy tuyến tính tạo ra các dự đoán liên tục và mịn, giúp hiểu rõ các mối quan hệ giữa biến độc lập và biến phụ thuộc
Ít tham số đề điều chính: Hồi quy tuyến tính có ít tham số cần điều chỉnh, điều này giúp dễ dàng tối ưu hóa mô hình và tránh overfitting
Nhược điểm:
Giả định về mối quan hệ tuyến tính: Mô hình hồi quy tuyến tính giả định mối quan hệ giữa
biến độc lập và biến phụ thuộc là tuyến tính
Nhạy cảm với đữ liệu nhiễu: Hồi quy tuyến tính để bi ảnh hưởng bởi đữ liệu nhiễu và điểm
ngoại lai Dữ liệu nhiễu có thê gây ra sai sót lớn trong dự đoán
Khả năng underñtting: Nếu mối quan hệ giữa biến độc lập và biến phụ thuộc không tuyến
tính, mô hình hồi quy tuyến tính có thể dẫn đến underñtting, nghĩa là nó không thể mô hình hóa đữ liệu tốt
Khó khăn trong việc xử lý biến độc lập phức tạp: Khi có nhiều biến độc lập hoặc biến độc lập phức tạp, việc xử lý và chọn biến có thể trở nên phức tạp
Chú trọng đồng dạng: Hồi quy tuyến tính đặc biệt nhạy với chú trọng đồng dang (homoscedasticity), có nghĩa là biến thê của sai số phải ôn định và độc lập với giá trị dự đoán
Thuật toán Bagzing
Trang 163.1
3.2
3.3
Giới thiệu về Bagging:
Bagging, hay Bootstrap Aggregating, là một thuật toán tổng hợp trong machine learning duge phat trién boi Leo Breiman vao nam 1996 Nó được sử dụng đề tăng
cường hiệu suất của các mô hình dự đoán bằng cách kết hợp nhiều mô hình dự đoán
yếu thành một mô hình mạnh Bagging hoạt động bằng cách tạo ra nhiều phiên bản của tập dữ liệu huấn luyện thông qua tái lầy mẫu ngẫu nhiên và sau đó huấn luyện các
mô hình dự đoán độc lập trên các phiên bản này Cuối cùng, kết quả từ tất cả các mô
hình con được kết hợp dé tạo ra dự đoán cuối cùng
Các tính năng quan trọng:
Tái lấy mẫu ngẫu nhiên: Bagging sử dụng phương phap bootstrap dé tao ra nhiéu
phiên bản của tập dữ liệu huấn luyện
Mô hình con độc lập: Bagging huấn luyện nhiều mô hình dự đoán con độc lập trên
các phiên bản của tập dữ liệu con
Kết hợp dự đoán: Kết quả dự đoán cuối cùng được tính toán bằng cách kết hợp dự đoán từ tất cả các mô hình con
Giảm overfitting: Bagging giúp giảm nguy cơ overfitting, tức là mô hình không chi học "mắt tích" đữ liệu huấn luyện mà còn tổng quát hóa tốt hơn cho đữ liệu mới Tăng tính 6n định: Khi kết hợp nhiều dự đoán từ các mô hình con, Bagging tạo ra dự
đoán cuối cùng có tính ôn định hơn, đặc biệt khi dữ liệu huấn luyện có nhiễu hoặc
Ưu điểm và nhược điểm:
Ưu điểm:
Giảm overftting: Bagging g1Iúp giảm nguy cơ overfitting, tức là mô hình không chỉ học
"mắt tích" dữ liệu huấn luyện mà còn tông quát hóa tốt hơn cho đữ liệu mới