Sử dụng các công cụ học máy xây dựng mô hình dự báo Độ phổ biến xu hướng mua sắm của khách hàng

Xây dựng mô hình dự báo độ phố biến của xu hướng mua sắm của khách hàng sử dụng các công cụ học máy là một phần quan trọng trong cuộc cách mạng khai phá dữ liệu và học máy.. Tính ứng dụn

Trang 1

TRƯỜNG ĐẠI HỌC NGÂN HANG THANH PHO HO CHi MINH

SU DUNG CAC CONG CU HOC MAY XÂY DỰNG MÔ HÌNH DỰ BÁO ĐỘ PHỎ

BIEN XU HUONG MUA SAM CUA KHACH HANG

Giảng viên hướng dẫn : ThS Tran Doan Hiéu

Nhóm thực hiện

Tp Hồ Chí Minh ngày 18 tháng 11 năm 2023

Trang 2

Thành viên thực hiện

Giới thiệu, cơ sở lý thuyết

3 Lê Ngô Như Quỳnh |050610220497 | mục tổng quan, thuật toán Linear Regression 100%

Cong viéc chung:

Phân tích dữ liệu, dùng công cụ học máy dé dur bao

Tháo luận và kết luận, tài liệu tham kháo

Trang 3

MUC LUC

Thành viên thực hiện <5 5< <3 S935 9.0 9.91 0H H1 HH 1 T01 0.5001 0.5050 1.50858

(00100.1.8119)/0)89:010 000 n

a Tính cấp thiết của đề tài: -s-s- sex re he reersree 3

b Ý nghĩa khoa học và thực tiỄn: s- scss©csecseexserseerserssersersrsssssrsee 3

c Mục tiêu báo CáO co Q0 HT TH TT HT 4 0 0 010 80 4

d Phạm vi của báo CÁO Q0 cọ HH TH HH T0 0 1 04008 8 01 08 4

1.1, Khoa học dữ liệu: dc G5 G3.” Y9 cà 9 ng 6 1.2 Học máy: c Go 1.1 HH HT In nà TH 04 1 00401 8 160804 7 1.3 Lãnh vực liên quan đến bộ dữ liệu đã được thu thập: tập dữ liệu xu hướng mua sắm của khách hàng:, - co 1 300930100301 3 1 TH 0 H14 9 mg 7

2 Thuật toán Linear Ñ€gr€sSÌOH: 5< SH TH Họ HH ni 8 2.1 Giới thiỆu: ch THỂ TH HO HH HH HH TH HA hư 8 2.2 Dạng của Linear ÑegØr€ssÏ0H: co ó0 nọ HS TY ng gà v58 9

3 Thuật toán Bagging «cọ TH TH TH 01.01 9.080550 11

3.3 Ưu điểm và nhure di@min.ccccccssssscsssesssssessessessssscsssssssscssssesssssssescsssssensseenes 12

4, Thuật toán Gradienf BO0SfÏTg: 7 << ng HH 13 4.1 Giới thiệu về Gradient BOOSfTHD: 0G Go HH Y pH Ý Y9, 13

4.3 Ưu điểm vả nhược didmi cccccccssssscsssssssssssscsscssssscssessssscsssscssssnsscsnsssscsssscsseees 14 Chương III: MÔ TẢ DỮ LIỆU - 2-2-2 2< s£SS£€Ss£E+s€EsEEEZEEsEEsSxEEeEsevsexeseresrsers

2 Đặc điểm của bộ dữ liệu: -. s-s-s-csceesevsetxe+teExExeersEksererkrererrereree 16

Trang 4

3 Nội dung của bộ dữ liệu wee 7

4 Mô tả dữ liệu bằng các công cụ trực quan hóa: s s- sec secssessesesee 18 4.1 Biểu đồ thể hiện tông số tiền mua sắm theo CA(CDOTi cuc krex 18

4.2 Biểu đồ thể hiện tổng số tiền mua sắm theo mùa và PTTT 18 4.3 Biểu đồ phân bố độ tuổi với đường cong mật độ: -. 5-5-5 <5 19

4.4 Biểu đồ Box Plot of Purchase Amount by Gender: «-««s« «<< c« «+ 20

4.5 Biểu đồ phân tán giữa độ tuổi và đánh giá của khách hàng: 20

1 Quá trình phân tích dữ liệu: - 5 G5 G SG 3 90 3n ng vn, 22 1.1 Khám phá dữ liệu: << 5 + 4 KH TH HH HH hy 22

1.2 Kiểm tra dữ liệu: os< sex rxEEsExeErsEEserkEssersrreerereerereereree 23

" - 23 1.3 Làm sạch bộ dữ liỆU: - Ă- <1 1 To nh 23 1.4 Phân tích dữ liệu - (<0 1h HS 903 01 0001165051588 0805 88 g3 si 24

2 Sử dụng các công cụ học máy xây dựng mô hình dự báo: - - 24 2.1 Mô hình Linear Ñegre€ssỈOH: - Ăn km, 25

2.2 Mô hình Bagging Ñegr©sSOF 5 co 0 TH TH HH HT n9 ng 25 2.3 Mô hình Gradient Boosfing - o c - co nọ gọn ng 1v 26

Chương V: THẢO LUẬN VÀ KẾT LUẬN s- <<2ss©cscssessEEssexsersseserkesersrssesere

1 Thảo luận về kết quả: - 5c 5£ ©< se ©seEEsEEEEsEEsEEEEsEEeersEEsererserkrsrrkrsrrsree 28

2.1 Các kết quả đã thực biện: - o2 se seExsExEvsEEsErsersersreersrersrrsre 28

IV 180i90091/09 86407 001577

Trang 5

DANH MUC HiNH ANH

Trang 6

1

Chương I: GIỚI THIỆU

Lý do chọn đề tài:

Trong thời đại hiện đại, khai phá đữ liệu và học máy đã trở thành một lĩnh vực quan

trọng với nhiều ứng dụng thủ vị Một trong những ứng dụng quan trọng của học máy là phân loại và dự đoán, có thê áp dụng trong nhiều lĩnh vực, bao gồm khoa học dữ liệu, thị trường tài chính, y tế, và cả lĩnh vực giải trí

Xây dựng mô hình dự báo độ phố biến của xu hướng mua sắm của khách hàng sử dụng các công cụ học máy là một phần quan trọng trong cuộc cách mạng khai phá dữ liệu và học máy Ứng dụng này đem lại nhiều lợi ích quan trọng và có sự ảnh hưởng đáng kể trong thị trường tiêu dùng

Mô hình này cho phép chúng ta dự đoán mức độ phô biến của các loại quần áo đựa trên nhiều thuộc tính khác nhau, bao gồm thong tin về tudi, giới tính, các mùa, mức độ đánh

giá và nhiều khía cạnh khác

Ứng dụng của mô hình này có thể mở ra nhiều cơ hội và tiềm năng trong ngành công nghiệp may mặc Nó có thê giúp các hãng sản xuất quần áo hoặc các thương hiệu thời trang hiểu rõ hơn về sở thích của khán giả và thị trường, từ đó cải thiện quá trình sản xuất Ngoài

ra, dự đoán độ phổ biến của tý lệ mua sắm có thê hỗ trợ việc quảng cáo và tiếp thị

Tính thực tế: Dataset này được thu thập từ một công ty thương mại điện tử lớn ở Ấn

Độ, bao gồm đữ liệu mua sắm của hơn l triệu khách hàng trong thời gian l năm Điều này đảm bảo tính thực tế của dữ liệu và có thê áp dụng cho các doanh nghiệp thương mại điện tử

khác ở Việt Nam và trên thế giới

Tính đa đạng: Dataset bao gồm nhiều thông tin về khách hàng, bao gồm nhân khâu học, hành vi mua sắm, sở thích, v.v Điều này giúp chúng ta có cái nhìn toàn điện về khách hàng và có thê đưa ra các phân tích sâu sắc hơn

Tính ứng dụng: Dataset này có thê được sử dụng cho nhiều mục đích khác nhau,

chăng hạn như:

° Phân tích xu hướng mua sắm của khách hàng

Trang 7

2

° Xây dựng mô hình dự đoán hành vi mua sắm

« Tối ưu hóa chiến lược tiếp thị

Nhiệm vụ đồ án:

a — Tính cấp thiết của đề tài:

Đề tài "Customer Shopping Trends Dataset" có tính cấp thiết cao đối với các doanh nghiệp kinh doanh bán lẻ Trong bối cảnh thị trường ngày càng cạnh tranh, việc hiểu được

xu hướng mua sắm của khách hàng là vô cùng quan trọng đề doanh nghiệp có thê đưa ra các chiến lược tiếp thị và bán hàng hiệu quả

Dữ liệu trong đề tài này bao gồm các thông tin về nhân khâu học, hành vi mua sắm,

sở thích của khách hàng Các thông tin này có thể được sử đụng đề phân tích xu hướng mua săm của khách hàng, từ đó đưa ra các chiến lược tiếp thị phù hợp với từng phân khúc khách hàng

Cu thé, các doanh nghiệp có thê sử dụng đữ liệu này đề:

° Tạo các phân khúc khách hàng dựa trên hành vi mua sắm, sở thích, nhân khâu học, Điều này giúp doanh nghiệp hiểu rõ hơn về nhu cầu của từng nhóm

khách hàng, từ đó đưa ra các sản pham, dịch vụ và chương trỉnh khuyến mãi

phù hợp

° Tạo các chiến địch tiếp thị cá nhân hóa Bằng cách hiểu rõ hành vi mua sắm của từng khách hàng, doanh nghiệp có thê gửi các thông điệp tiếp thị phù hợp

và hiệu quả hơn

° Tăng cường lòng trung thành của khách hàng Bằng cách cung cấp các trải nghiệm mua sắm tốt hơn, doanh nghiệp có thê giữ chân khách hàng và thúc đây họ mua sắm nhiều hơn

b Y nghĩa khoa học và thực tiến:

- Y nghia khoa hoc:

Trang 8

° Đề tài cung cấp một tập dữ liệu lớn và đa dạng về hành vi mua sắm của khách hàng Tập đữ liệu này có thể được sử dụng để nghiên cứu các xu hướng mua sam của khách hàng, chăng hạn như các sản phâm được mua phô biến nhất, các kênh mua sắm được ưa chuộng nhất, và các yêu tô ảnh hưởng đến quyết định mua sắm của khách hàng

° Đề tài giúp các nhà khoa học có thê phát triển các mô hình dự đoán hành vi mua sắm của khách hàng Các mô hình này có thê được sử dụng đề tối ưu hóa các chiến lược tiếp thị và bán hàng, nhằm tăng doanh số bán hàng và thu hút khách hàng mới

- Y nghĩa thực tiễn:

° Đề tài có thể được sử dụng bởi các doanh nghiệp đề hiệu rõ hơn về hành vi mua sắm của khách hàng Điều này giúp các doanh nghiệp có thê đưa ra các

quyết định kinh doanh hiệu quả hơn, chăng hạn như cải thiện sản phẩm và dịch

vụ, phát triển các chương trình khuyến mãi phù hợp, và phân phối sản phẩm và

dịch vụ đến đúng đối tượng khách hàng

° Đề tài cũng có thê được sử dụng bởi các cơ quan chính phủ đề xây dựng các chính sách kinh tế và thương mại phù hợp với nhu cầu của người tiêu ding Mục tiêu báo cáo

Mục tiêu của báo cáo này là cung cấp một cái nhìn tổng quan về đữ liệu xu hướng mua sắm của khách hàng trên Kaggle Báo cáo sẽ thảo luận về các biến đữ

liệu, các phân tích có thê được thực hiện và các ứng dụng tiềm năng của đữ liệu

Phạm vi của báo cáo

Báo cáo này sẽ tập trung vào các phân tích đữ liệu có thê được thực hiện cho dữ liệu

xu hướng mua sắm của khách hàng trên Kaggle Báo cáo sẽ không bao gồm các khía

cạnh kỹ thuật của việc xây dựng và đánh giá mô hình học máy

Dưới đây là một số mục tiêu cụ thê của báo cáo:

Trang 9

° Mô tả các biến dữ liệu trong tập đữ liệu

« Thảo luận về các phân tích đữ liệu có thê được thực hiện

« Cung cấp các ví dụ về cách đữ liệu có thể được sử dụng trong thực tế

Báo cáo này sẽ được viết cho các nhà lãnh đạo doanh nghiệp, nhà tiếp thị và nhà phân tích đữ liệu Báo cáo sẽ cung cấp thông tin cần thiết để các doanh nghiệp có thể sử

dụng đữ liệu xu hướng mua săm của khách hàng dé cải thiện hoạt động của họ

Mục tiêu của báo cáo "Customer Shopping Trends Dataset" là cung cấp thông tin về các xu hướng mua sắm của khách hàng tại một cửa hàng bán lẻ trực tuyến tại Ấn Độ

Báo cáo này có thể được sử dụng đề hiểu rõ hơn về sở thích và hành vi mua sắm của

khách hàng, từ đó giúp các nhà quản lý đưa ra các quyết định kinh doanh sáng suốt hơn

Pham vi cua bao cáo này bao gôm các thông tin sau:

° Các sản phẩm được mua phổ biến nhất

° Sự thay đổi của số lượng giao dịch mua hàng theo thời gian

° Sự khác biệt về hành vi mua sắm giữa các nhóm khách hàng khác nhau Báo cáo này được xây dựng dựa trên đữ liệu được thu thập từ một cửa hàng bán lẻ trực tuyên tại Ân Độ trong khoảng thời gian từ ngày 1 tháng l năm 2023 đến ngày 31 tháng 12 năm 2023 Dữ liệu này bao gồm 10.000 bản ghi, mỗi bán ghi đại điện cho

một giao dịch mua hàng của một khách hàng

Trang 10

Chương II: CƠ SỞ LÝ THUYÉT

1 Tổng quan về khoa học dữ liệu và học máy:

1.1 Khoa học dữ liệu:

Khoa học đữ liệu (Data science) là công nghệ thống trị hiện tại đã chính phục các ngành công nghiệp trên toàn thế giới Nó đã mang lại một cuộc cách mạng công nghiệp lần thứ tư trên thế giới ngày nay Đây là kết quả của đóng góp sự bùng nô đữ liệu lớn - big đata và nhu cầu ngày càng tăng của các ngành công nghiệp dựa vào dữ

liệu đề tạo ra các sản phâm tốt hơn Hiện nay chúng đã trở thành một phan của xã hội

dựa trên dữ liệu Data đã trở thành một nhu cầu quan trọng đối với các ngành công nghiệp cần data để đưa ra các quyết định cần thận Là một lĩnh vực nghiên cứu liên

quan đến việc thu thập, xử lý, phân tích và khai thác đữ liệu đề tìm ra những thông tin

hữu ích, hỗ trợ cho việc ra quyết định

Quy trình khoa học dữ liệu bao gồm các bước chính như thu thập đữ liệu, tiền

xử lý đữ liệu, mô hình hóa, đào tạo mô hình, đánh giá, và triển khai Đây là quá trình

giúp biến dữ liệu thành thông tin hữu ích

Quy trình khoa học đữ liệu OSEMN:

° O-Thu thập dữ liệu (Obtain data): Dữ liệu có thê tồn tại từ trước, mới được thu

thập hoặc là một kho đữ liệu có thể tải xuống từ Internet Các nhà khoa học đữ liệu có thể trích xuất đữ liệu từ những cơ sở đữ liệu nội bộ hoặc bên ngoài,

phần mềm CRM của công ty, nhật ký máy chủ web, mạng xã hội hoặc mua đữ liệu từ các nguồn bên thứ ba đáng tin cậy

« S-Lam sach dir ligu (Scrub data): Làm sạch đữ liệu là quy trình chuẩn hóa dữ

liệu dựa theo một định dạng được định trước Quy trình này bao gồm xử lý dữ liệu còn thiếu, sửa lỗi đữ liệu và loại bỏ mọi dữ liệu ngoại lai Một số ví dụ như

Thay đổi toàn bộ các giá trị ngày thành một định dạng tiêu chuẩn pho bién,

Sửa lỗi chính tả hoặc thừa khoảng trống, Sửa lỗi tính toán không chính xác hoặc xóa dấu phây khỏi các số lớn

° E-Khám phá dữ liệu (Explore data): Kham pha dtr liéu la thao tác phân tích sơ

bộ dữ liệu được sử dụng dé lap ké hoach kỹ hơn cho các chiến lược mô hình

Trang 11

1.2

1.3

hóa dữ liệu Các nhà khoa học đữ liệu nắm được hiểu biết ban đầu về dữ liệu

bằng cách sử dụng thông kê mô tá và các công cụ trực quan hóa đữ liệu Sau

đó họ khám phá dữ liệu để xác định các mẫu thú vị có thể được nghiên cứu

hoặc tận dụng

° M-Mô hình hóa dữ liệu (Model data): Phần mềm và các thuật toán máy học được sử dụng đề thu thập thông tin chuyên sâu hơn, dự đoán kết quả và đề xuất hướng hành động tốt nhất Các kỹ thuật máy học như liên kết, phân loại và

phân nhóm được áp dụng cho tập dữ liệu đào tạo Mô hình có thể được thử nghiệm so với đữ liệu thử nghiệm định trước đề đánh giá độ chính xác của kết quả Mô hình đữ liệu có thê được tinh chỉnh nhiều lần để cải thiện kết quả thu

được

° I-Diễn giải kết quả (Interpret results): Các nhà khoa học đữ liệu hợp tác cùng các chuyên gia phân tích và doanh nghiệp đề chuyên đôi thông tin chỉ tiết về

dữ liệu thành hành động Họ tạo ra các sơ đồ, đồ thị và biểu đồ để thể hiện

những xu hướng và dự đoán Tóm tắt đữ liệu giúp các bên liên quan hiểu rõ và

triển khai kết quả một cách hữu hiệu

học cách dự đoán dựa trên các ví dụ, hay học cách tạo ra các hành vi phù hợp dựa trên

quan sát trong quá khứ

Có nhiều loại học máy, bao gồm học có giám sát, học không giám sát, học tăng cường Mỗi loại học máy có ứng dụng riêng trong việc giải quyết các vấn đề khác nhau

Lĩnh vực liên quan đến bộ dữ liệu đã được thu thập: tập dữ liệu xu hướng mua săm của khách hàng:

Trang 12

hàng, từ đó giúp các doanh nghiệp phát triển các chiến lược marketing hiệu quả hơn

- Dự bao: Tập đữ liệu này có thể được sử dụng để dự đoán nhu cầu của khách hàng trong tương lai Điều này có thể giúp các doanh nghiệp lập kế hoạch sản xuất và nguồn cung hiệu quả hơn

- Tối ưu hóa: Tập đữ liệu này có thể được sử dụng đề tối ưu hóa trải nghiệm mua sam

cua khach hang

Thuật toán Linear Regression:

2.1 Giới thiệu:

Hồi quy tuyến tính là một thuật toán cung cấp mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc đề dự đoán kết quả của các sự kiện trong tương lai Đây là một phương pháp thống kê được sử dụng trong khoa học dữ liệu và học máy để phân tích dự đoán

Biến độc lập cũng là biến dự đoán hoặc biến giải thích không thay đổi do sự thay đổi

của các biến khác Tuy nhiên, biến phụ thuộc thay đổi theo biến động của biến độc lập Mô hình hồi quy dự đoán giá trị của biến phụ thuộc, là biến phản hồi hoặc biến kết quả đang

được phân tích hoặc nghiên cứu

Do đó, hồi quy tuyến tính là một thuật toán học có giám sát mô phỏng mối quan hệ

toán học giữa các biến và đưa ra dự đoán cho các biến số hoặc liên tục như doanh số, tiền

lương, tuôi tác, giá sản phẩm, v.v

Phương pháp phân tích này thuận lợi khi có ít nhất hai biến trong dữ liệu, như được

quan sát thay trong dy bao thi trường chứng khoán, quản lý danh mục đầu tư, phân tích khoa

học, v.v

Một đường thăng đốc đại điện cho mô hình hồi quy tuyến tính.

Trang 13

Dependent Variable

| ớớ 4

fe

/ 7

/ ⁄ / re

Trục Y = Đầu ra / biến phụ thuộc

Đường hồi quy = Đường phù hợp nhất cho mô hình

Ở đây, một đường được vẽ cho các điểm đữ liệu nhất định phù hợp với tất cả các vẫn

dé Do đó, nó được gọi là 'đường phù hợp nhất Mục tiêu của thuật toán hồi quy tuyến tinh là tìm đường phù hợp nhất được thấy trong hình trên

2.2 Dạng của Linear Regression:

Dạng chung của mô hình hồi quy tuyến tính (Linear Regression) có thể được biêu điện như sau:

Trong đó:

y = wix1 + w2x2 + + wnxn + b

y la gia tri dau ra dy doan

X1, X2, ., Xn la các biến đầu vào (đặc trưng hoặc thuộc tính)

W1, W2, , Wn là các trọng sô tương ứng với các biên đầu vào

b là độ dời (bias) hoặc hệ số chặn

Dạng chung này thể hiện một mô hình tuyến tính đơn giản, trong đó mỗi biến đầu vào

13

Trang 14

đoán y

Dạng chung của mô hình cũng có thê được mở rộng bằng cách thêm các thành phần khác như các biểu thức phi tuyến (ví dụ: x2, sin(x2), log(x2) ) hoặc các tương tác giữa các biến (ví dụ: xix2) Điều này tạo ra các biến đầu vào mới và mở rộng phạm vi mô hình hồi quy tuyến tính đề mô hình hóa mối quan hệ phi tuyến giữa các biến đầu vào và đầu ra Dạng chung của mô hình hỏi quy tuyến tính cung cấp một cách đơn giản và trực quan

để mô hình hóa mối quan hệ giữa biên đầu vào và đầu ra trong bài toán dự đoán Qua quá trình huấn luyện, các trọng số w1, w2, wn và độ dời b được tìm ra đề tối thiểu hóa sai số

giữa giá trị dự đoán và giá trị thực tế trên tập dữ liệu huấn luyện

2.3 Cac tinh nang quan trong:

° Giả định tuyến tính: Hồi quy tuyến tính dựa trên giá định rằng có mối quan hệ tuyến

tính giữa biến độc lập và biến phụ thuộc

° Hệ số góc (slope): Hệ số góc (đôi khi được gọi là hệ số hồi quy) biểu thị mức độ thay

đôi của biến phụ thuộc khi biến độc lập thay đổi một đơn vi

° Hệ số độ đời (intercept): Hệ số độ dời là giá trị của biến phụ thuộc khi biến độc lập

bằng không Nó là một điểm mà đường hỗi quy giao với trục y

° Xác định R-squared (R?): Xác định R-squared là một thước đo để đánh giá hiệu suất của mô hình hồi quy tuyến tính Giá trị R-squared càng gần 1 thì mô hình càng tốt

° Sai số tiêu chuẩn (Standard Error): Sai số tiêu chuẩn là thước đo đo lường độ biến đổi của đữ liệu quanh đường hồi quy

° Sai số bình phương trung bình (Mean Squared Error - MSE): MSE là một thước đo đánh giá hiệu suất của mô hình bằng cách tính trung bình của bình phương sai số giữa

giá trị thực tế và giá trị dự đoán

° F-statistic: F-statistic là một thống kê thước đo để đánh giá mức độ ý nghĩa của mô

hình hồi quy tuyến tính

° Phân tích sai số: Hồi quy tuyến tính cho phép phân tích sai số để xác định mức độ

biến đôi không thể giải thích bởi mô hình

14

Trang 15

° Khả năng giải thích mô hình: Hồi quy tuyến tính cho phép xác định mức độ giải thích của biến độc lập đối với biến phụ thuộc, giúp hiểu rõ tác động của các yếu tô khác nhau

° Độ tin cậy và khoảng tin cậy cho hệ số hồi quy: Các khoảng tin cậy cho hệ số hồi quy

giúp xác định mức độ tin cậy của ước tính hệ 36

2.4 Ưu điểm và nhược điểm:

Ưu điểm:

Dễ hiểu và triển khai: Hồi quy tuyến tính là một trong những phương pháp đơn giản nhất trong học máy

Ứng dụng rộng rãi: Hồi quy tuyến tính có thê áp dụng cho nhiều loại đữ liệu và lĩnh vực, từ

tài chính đến y học và khoa học xã hội

Tính liên tục và mịn: Mô hình hồi quy tuyến tính tạo ra các dự đoán liên tục và mịn, giúp hiểu rõ các mối quan hệ giữa biến độc lập và biến phụ thuộc

Ít tham số đề điều chính: Hồi quy tuyến tính có ít tham số cần điều chỉnh, điều này giúp dễ dàng tối ưu hóa mô hình và tránh overfitting

Nhược điểm:

Giả định về mối quan hệ tuyến tính: Mô hình hồi quy tuyến tính giả định mối quan hệ giữa

biến độc lập và biến phụ thuộc là tuyến tính

Nhạy cảm với đữ liệu nhiễu: Hồi quy tuyến tính để bi ảnh hưởng bởi đữ liệu nhiễu và điểm

ngoại lai Dữ liệu nhiễu có thê gây ra sai sót lớn trong dự đoán

Khả năng underñtting: Nếu mối quan hệ giữa biến độc lập và biến phụ thuộc không tuyến

tính, mô hình hồi quy tuyến tính có thể dẫn đến underñtting, nghĩa là nó không thể mô hình hóa đữ liệu tốt

Khó khăn trong việc xử lý biến độc lập phức tạp: Khi có nhiều biến độc lập hoặc biến độc lập phức tạp, việc xử lý và chọn biến có thể trở nên phức tạp

Chú trọng đồng dạng: Hồi quy tuyến tính đặc biệt nhạy với chú trọng đồng dang (homoscedasticity), có nghĩa là biến thê của sai số phải ôn định và độc lập với giá trị dự đoán

Thuật toán Bagzing

Trang 16

3.1

3.2

3.3

Giới thiệu về Bagging:

Bagging, hay Bootstrap Aggregating, là một thuật toán tổng hợp trong machine learning duge phat trién boi Leo Breiman vao nam 1996 Nó được sử dụng đề tăng

cường hiệu suất của các mô hình dự đoán bằng cách kết hợp nhiều mô hình dự đoán

yếu thành một mô hình mạnh Bagging hoạt động bằng cách tạo ra nhiều phiên bản của tập dữ liệu huấn luyện thông qua tái lầy mẫu ngẫu nhiên và sau đó huấn luyện các

mô hình dự đoán độc lập trên các phiên bản này Cuối cùng, kết quả từ tất cả các mô

hình con được kết hợp dé tạo ra dự đoán cuối cùng

Các tính năng quan trọng:

Tái lấy mẫu ngẫu nhiên: Bagging sử dụng phương phap bootstrap dé tao ra nhiéu

phiên bản của tập dữ liệu huấn luyện

Mô hình con độc lập: Bagging huấn luyện nhiều mô hình dự đoán con độc lập trên

các phiên bản của tập dữ liệu con

Kết hợp dự đoán: Kết quả dự đoán cuối cùng được tính toán bằng cách kết hợp dự đoán từ tất cả các mô hình con

Giảm overfitting: Bagging giúp giảm nguy cơ overfitting, tức là mô hình không chi học "mắt tích" đữ liệu huấn luyện mà còn tổng quát hóa tốt hơn cho đữ liệu mới Tăng tính 6n định: Khi kết hợp nhiều dự đoán từ các mô hình con, Bagging tạo ra dự

đoán cuối cùng có tính ôn định hơn, đặc biệt khi dữ liệu huấn luyện có nhiễu hoặc

Ưu điểm và nhược điểm:

Ưu điểm:

Giảm overftting: Bagging g1Iúp giảm nguy cơ overfitting, tức là mô hình không chỉ học

"mắt tích" dữ liệu huấn luyện mà còn tông quát hóa tốt hơn cho đữ liệu mới

Định dạng
Số trang	33
Dung lượng	3,1 MB