Mục đích nghiên cứu Chuyên đề được thực hiện với mục đích phân tích dự báo quyết định mua mỹ phẩm online của khách hàng dựa trên phương pháp Học máy, từ đó đưa ra kiến nghịdé giúp các cử
Trang 1TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TE
OBS 518 địt fe dc c3 c oo ok ok
CHUYEN DE THUC TAP UNG DUNG HOC MAY DE PHAN TICH VA DU BAO Y DINH MUA
MY PHAM ONLINE CUA KHACH HANGTAI
Sinh viên thực hiện: Nguyễn Thị Hồng Yến
Trang 2Chuyên đề thực tập chuyên ngành Toán Kinh tế
LỜI CẢM ƠN
Em xin gửi lời cảm ơn sâu sắc nhất tới PGS.TS Nguyễn Thi Minh — người đãtận tình hướng dẫn và giúp đỡ em trong suốt quá trình làm chuyên đề tốt nghiệp Em
cũng xin được gửi lời cảm ơn tới các thầy, cô trong khoa Toán Ứng dụng trong Kinh
Tế - Trường Đại học Kinh Tế Quốc dân đã giảng dạy, truyền đạt rất nhiều kiến thứcquý giá cho em trong suốt 4 năm học vừa qua Nhờ sự hỗ trợ của các thầy cô, em đãmở mang thêm rất nhiều điều, không chỉ về kiến thức mà còn về cả những kinh nghiệmsống, góp phần làm hành trang vững chắc trên con đường tương lai sau này Tuy đãcố gang hết sức song kiến thức ban thân còn nhiều hạn chế nên bài nghiên cứu không
thê tránh khỏi những sai sót nhất định, mong thầy cô thông cảm và đóng góp cho em
để bài làm được hoàn thiện hơn
Em xin chân thành cảm ơn!
Tác giả
Nguyễn Thị Hồng Yến
Trang 3Chuyên đề thực tập chuyên ngành Toán Kinh tế
Chuong 1 CO SO LY LUAN VA TONG QUAN NGHIEN CUU 11
1.1 MOT SO KHAI NIEM 11
1.1.1 Khái quát về thương mại điện tử 111.1.2 Khai quat vé my pham 141.2 CƠ SỞ LY THUYET VE HANH VI CUA NGƯỜI TIEU DUNG 19
1.2.1 Mô hình thuyết hành động hợp li (Theory of Reasoned Acion — TRA) 191.2.2 Mô hình thuyết hành vi dự định (Theory of Planned Behavior — TPB) 191.2.3 Mô hình chấp nhận công nghệ (TAM) 201.3 TONG QUAN NGHIÊN CỨU 22Chương 2 PHƯƠNG PHÁP NGHIÊN CỨU 25
2.1 PHƯƠNG PHÁP HOC MAY 25
2.1.1 Khái niệm của Học Máy 25
2.1.2 Lịch sử ra đời và sự phát triển của Học máy 26
2.2 PHAN LOẠI CÁC BÀI TOÁN CUA HỌC MAY 282.3 MỘT SỐ THUẬT TOÁN HỌC MÁY PHÂN LOẠI 29
2.3.1 Thuật toán Hồi quy Logistic 292.3.2 Thuật toán Cây quyết định (Decision Tree) 31
2.3.3 Thuật toán Rừng ngẫu nhiên (Random Forrest) 43
Chương 3 UNG DUNG MACHINE LEARNING DE DU BAO QUYẾT ĐỊNH
MUA MY PHAM ONLINE CUA KHACH HANG 50
3.1 DU LIEU VA CHON BIEN 50
Trang 4Chuyên đề thực tập chuyên ngành Toán Kinh tế
3.3 THUẬT TOÁN CAY QUYET ĐỊNH VÀ KET QUA 3.4 THUẬT TOÁN RUNG NGAU NHIÊN VA KET QUA 3.5 SO SANH KET QUA CAC MÔ HÌNH
Chuong 4 KET LUAN VA KIEN NGHI
4.1 KET LUAN
4.2 KHUYEN NGHI4.3 HAN CHE CUA DE TÀI VA HƯỚNG NGHIÊN CỨU TIẾP THEOTAI LIEU THAM KHAO
PHU LUC
11175405 — Nguyễn Thị Hồng Yến
59 64 66 67 67 68 69 70 72
Trang 5Chuyên đề thực tập chuyên ngành Toán Kinh tế
DANH MỤC TỪ VIET TAT
Trang 6Chuyên đề thực tập chuyên ngành Toán Kinh tế
DANH MỤC HINH, BIEU DO
Hình 1.1 Mô hình thuyết hành động hợp ly (TRA) 19Hình 1.2 Mô hình thuyết hành vi dự định (TPB) 20Hình 1.3 Mô hình chấp nhận công nghệ (TAM) 21Hình 1.4 Mối quan hệ giữa 3 mô hình TRA, TPB va TAM 21Hình 1.5 Mô hình nghiên cứu dé xuất 22Biểu đồ 2.1 Máy học là một tập con của AI (Artificial Intelligence — Trí tuệ nhân
11175405 — Nguyễn Thị Hồng Yến 6
Trang 7Chuyên đề thực tập chuyên ngành Toán Kinh tế
DANH MỤC BANG
Bảng 3.1 Giải thích các biến trong mô hình
Bảng 3.2 Mô tả dữ liệu
Bảng 3.3 Các tham số kết quả của thuật toán Hồi quy Logsistic
Bảng 3.4 Chỉ số Mean Decrease Gini
Bang 3.5 Confusion Matrix and Statistic
Bang 3.6 Mô hình Cây quyết định
Bang 3.7 Confusion Matrix
Bang 3.8 Thông số đo lường thuật toán Rừng ngẫu nhiên
Bảng 3.9 Confusion Matrix
Bảng 3.10 Chỉ số đánh giá các mô hình nghiên cứu
11175405 — Nguyễn Thị Hồng Yến
50 51 57 59 59 61 64 65
65
66
Trang 8Chuyên dé thực tập chuyên ngành Toán Kinh tê
MỞ ĐẦU
1 Lý do lựa chọn đề tài
Trong xã hội hiện đại ngày nay, xu thế hội nhập cùng với sự phát triển nhanhchóng của thế giới đã khiến nhu cầu của con người về tiêu dùng và dịch vụ ngày càngtăng cao Trong mấy năm trở lại đây, sự phát triển vượt bậc của công nghệ thông tinvà Internet trong thời đại Công nghiệp 4.0 đã giúp cho hình thức mua sắm online tiếngần hơn với thị hiếu người tiêu dùng Đặc biệt, khi tình hình dịch bệnh đang diễn biếnrất phức tạp, thị trường thương mại điện tử càng hoạt động sôi nổi hơn bao giờ hết.Ké từ khi nhiều quốc gia trên thế giới buộc phải áp đặt lệnh phong tỏa nhằm kiềm chế
sự lây lan của virus Corona, thuật ngữ trạng thái “bình thường mới” đã được ra mat
tại nhiều khu vực khác nhau trên khắp thế giới Mục tiêu đạt được trạng thái “bìnhthường mới” đó đã khiến mọi người tim kiếm các lựa chọn tốt hơn và an toàn hơn,bao gồm cả trải nghiệm mua sắm của họ Tại thời điểm bắt đầu bùng phát của đại dịch
COVID-19, đã xảy ra nhiều bất ôn và xáo trộn trong toàn ngành tiêu dùng Tuy nhiên,khi mọi người bắt đầu thay đổi và thích nghi được với trạng thái bình thường mới,
nhiều lựa chọn thay thế bắt đầu được khám phá và sử dụng và cuối cùng trở nên phổ
biến hơn, đặc biệt là trong lĩnh vực kinh doanh trực tuyến.
Mặc dù vậy, ngoài những tiện ích mà tiêu dùng online đem lại, trên thị trường
van còn nhiều kẽ hở, những mặt hàng kém chất lượng và những thông tin giả mạo cóthé tràn vào thị trường một cách dé dàng gây ra những tác hại nhất định cho ngườitiêu dùng, ảnh hưởng không nhỏ đến sự tin tưởng của người tiêu đối với thị trườngthương mại điện tử Điều này có thé nhận thấy rất rõ ràng thông qua việc những mỹphẩm giá rẻ chất lượng kém tran lan trên thị trường, người tiêu dùng rất khó có thénhận biết giữa hàng nhái và hàng thật Hay nói cách khác, tồn tại sự bất đối xứngthông tin giữa người mua mỹ phẩm và người bán mỹ phẩm, trong đó người mua mỹphẩm biết ít thông tin về mỹ phẩm hơn so với người bán Nam được những thực tiễntồn đọng đó, nhiều công ty thương mại điện tử và dịch vụ viễn thông vẫn đang phảiđối mặt với bài toán hóc búa là làm thé nào dé khách hang có thé yên tâm giao dịchbăng hình thức trực tuyến? Đối với những mặt hàng chứa thông tin bất đối xứng như
mỹ phẩm thì việc tạo dựng lòng tin với người tiêu dung sẽ càng thêm khó khăn
Dựa trên tính thiết thực cũng như nhu cầu thực tiễn của doanh nghiệp, em quyếtđịnh chọn đề tài “Ứng dụng Học máy để phân tích và dự báo quyết định mua mỹ
Trang 9Chuyên dé thực tập chuyên ngành Toán Kinh tê
phẩm online của khách hàng” Em hy vọng rằng đây sẽ là một đề tài mang tính ứng
dụng cao trên thị trường tiêu dùng trực tuyến, góp cải thiện các chiến lược kinh doanhnhằm dự báo được quyết định mua hàng của người tiêu dùng
2 Mục đích nghiên cứu
Chuyên đề được thực hiện với mục đích phân tích dự báo quyết định mua mỹ
phẩm online của khách hàng dựa trên phương pháp Học máy, từ đó đưa ra kiến nghịdé giúp các cửa hang, trang web bán mỹ phẩm online cải thiện về chiến lược bán hang,
cụ thể là các chiến lược giúp dự báo quyết định mua sắm của khách hàng.
3 Câu hỏi nghiên cứu
Đề thực hiện việc nghiên cứu đề tài, ta sẽ cần phải giải quyết các câu hỏi sau
đây:
- Céu hỏi nghiên cứu 1: Tác động của các yếu tỗ đến ý định mua mỹ phẩm
theo phương thức trực truyền của khách hàng?- _ Câu hỏi nghiên cứu 2: Làm thé nào dé dự báo ý định mua hàng online của
khách hàng một cách có hiệu quả?
4 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứuCác nhân tố ảnh hưởng đến quyết định của khách hàng đối với việc mua sắmmỹ phẩm online
Pham vi nghiên cứu
Những khách hàng có thé là sinh viên hoặc người đã đi làm đã từng trải nghiệmmua mỹ phẩm theo phương thức trực tuyến
5 Phương pháp nghiên cứu
5.1 Phương pháp thu thập thông tin, số liệu
Dữ liệu được thu thập từ một cửa hàng đang kinh doanh mỹ phẩm theo hình
thức trực tuyến trên địa bàn Hà Nội
5.2 Phương pháp phân tích, xứ lý thông tin dữ liệu
® Tìm hiểu đề tài và tổng kết lý thuyết có liên quan đến dự báo quyết định
® Sử dụng chương trình phân tích chuyên dụng trên máy tính (R, SPSS,
Weka, )
11175405 — Nguyễn Thị Hồng Yến 9
Trang 10Chuyên đề thực tập chuyên ngành Toán Kinh tế
® Ứng dụng thuật toán Học Máy vào việc dự báo quyết định mua hàng của
người tiêu dùng
6 Cấu trúc chuyên đề
Đề tài được chia làm 4 phần chính:
Chương 1: Cơ sở lý luận và tổng quan nghiên cứu
Trong chương 1, chuyên đề trình bày khái quát các van dé lý thuyết liên quanđến thị trường thương mại điện tử, bao gồm khái niệm và các đặc trưng cơ bản; kháiniệm về mỹ phâm và thị trương tiêu dùng mỹ phẩm trong thương mại điện tử
Chương 2: Phương pháp nghiên cứu
Chương 2 nêu ra khái quát về phương pháp Học máy, cũng như những lýthuyết có liên quan về các thuật toán điển hình trong phương pháp Hoc máy dùng dé
định của khách hàng trong việc mua sắm mỹ phâm băng phương thức trực tuyến
Chương 4: Kết luận và kiến nghị
Kết quả của Chương 3 sẽ là cơ sở dé Chương 4 đưa ra những kết luận và
đóng góp ý kiến cho các cửa hàng đang kinh doanh mỹ phẩm trực tuyến, giúp các
cửa hàng thấu hiểu ý định của khách hàng, tăng doanh thu va lợi nhuận.
11175405 — Nguyễn Thi Hồng Yến 10
Trang 11Chuyên dé thực tập chuyên ngành Toán Kinh tê
Chương 1 CƠ SỞ LÝ LUẬN VÀ TONG QUAN NGHIÊN CUU
Nghiên cứu “Ứng dụng thuật toán Học máy dé phân tích và dự báo quyết địnhmua hàng online” là một phương pháp hiệu quả nhằm dự báo quyết định mua của
người tiêu dùng, từ đó xác định ra những yếu tố cần thay đổi hay cải thiện dé đáp ứng được nhu cầu mua sắm của khách hàng Nắm bắt được lợi thế đó, trong suốt thời gian
qua đã có rất nhiều nghiên cứu xoay quanh việc dự báo quyết định mua sắm trên mọilĩnh vực, bởi với bất kì một hoạt động kinh doanh nào muốn tồn tại và phát triển, việclắng nghe khách hàng đề hoàn thiện chất lượng là điều tiên quyết Chương 1 của đềtài sẽ đề cập tới một số khái niệm liên quan tới việc dự báo quyết định mua hàng cũng
như một số nghiên cứu có ứng dụng Hoc máy dé nghiên cứu van đề này Từ đó lựa
chọn được hướng đi phù hợp nhất với nghiên cứu “Ứng dụng Học máy để dự báoquyết định mua mỹ phẩm online của khách hàng” Một số khái niệm về thương mạiđiện tử, mỹ phẩm và thực trạng thị trường tiêu dùng hiện nay cũng được đề cập đến
trong chương này.
1.1 MOT SO KHÁI NIỆM
1.1.1 Khai quat về thương mại điện tử1.1.1.1 Khái niệm về thương mại điện tử
Thương mại điện tử là hình thức mua và bán hàng hóa và dịch vụ, chuyền tiềnhay dữ liệu trên môi trường Internet qua nền tảng hoặc website bán hàng (còn gọi làwebsite Thương mại điện tử) Phạm vi của Thương mại điện tử rất rộng và bao quấthầu hết các lĩnh vực của hoạt động kinh tế (việc mua bán hàng hóa và dich vụ chỉ làmột trong rất nhiều lĩnh vực áp dụng của Thương mại điện tử) Các giao dịch kinhdoanh Thương mại điện tử này xảy ra với nhiều tư cách khác nhau: doanh nghiệp với
doanh nghiệp (B2B), doanh nghiệp với người tiêu dùng (B2C), người tiêu dùng với
người tiêu dùng hoặc người tiêu dùng với doanh nghiệp Với sự phát triển bùng nỗ
hiện nay, thương mại điện tử đã trở thành một phần quan trọng trong hoạt động mua
sắm tiêu dung của nhiều người tiêu dùng Ngoài việc mua trực tiếp từ một nhà bán lẻ,
người dùng ngày cảng ưa chuộng mô hình thương mại điện tử với 93% ở khu vựcchâu Á - Thái Bình Dương đã thực hiện giao dịch tại các trang thương mại điện tử
trong 3 tháng vừa qua Tuy nhiên, khác với hình thức mua sắm truyền thống, có rất
11175405 — Nguyễn Thị Hồng Yến 11
Trang 12Chuyên đề thực tập chuyên ngành Toán Kinh tế
nhiều yếu tố quan trọng sẽ tác động tới quyết định mua hang của người tiêu dùngtrong mua sắm trực tuyến
Theo nghĩa hẹp, thương mại điện tử chỉ gồm các hoạt động thương mại được
tiến hành trên mang máy tính mở như Internet, trên thực tế chính các hoạt động thương
mại thông qua mạng Internet đã phát sinh thuật ngữ Thương mại điện tử.
Thương mại điện tử được thực hiện đối với cả thương mại hàng hóa (ví dụ nhưhàng tiêu dùng, các thiết bị y té chuyén dung) va thuong mai dich vu (vi du nhu dich
vu cung cấp thông tin, dịch vụ pháp lý, tài chính); các hoạt động truyền thống (như
chăm sóc sức khỏe, giáo dục) và các hoạt động mới (ví dụ như siêu thị ảo) Thương
mại điện tử đang trở thành một cuộc cách mạng làm thay đôi cách thức mua sắm của
COn người.
Hiện nay có rất nhiều tranh cãi về các hình thức và cách phân chia các hình
thức này trong thương mại điện tử.
e Dựa theo đối tượng chính (Chính phủ, Doanh Nghiệp và Khách hàng), thương
mại điện tử được chia là 9 hình thức chính:
o Doanh nghiệp với Doanh nghiệp (B2B)
Doanh nghiệp với Khách hàng (B2C) Doanh nghiệp với Nhân viên (B2E) Doanh nghiệp với Chính phủ (B2G) Chính phủ với Doanh nghiệp (G2B) Chính phủ với Chính phủ (G2G)
Chính phủ với Công dân (G2C) Khách hàng với Khách hàng (C2C)
o Khách hàng với Doanh nghiệp (C2B)
e Dựa theo hình thức kinh doanh, thương mại điện tử được chia làm 2 loại:
© O 0 0 0 0 0
o Thương mại điện tử truyền thống
o Thương mại điện tự hiện đại
+ T-commerce (thương mại truyền hình)
» M-commerce (thương mại di động)
Thị trường thương mại điện tử là thị trường có tính bất đối xứng về thông tinrất lớn Việc chênh lệch về thông tin giữa người bán hàng và người mua hàng gây rarất nhiều rủi ro trong việc giao dịch hàng hóa trên thị trường này Đây là một vấn đề
11175405 — Nguyễn Thị Hồng Yến 12
Trang 13Chuyên đề thực tập chuyên ngành Toán Kinh tế
nhức nhối với các nhà danh nghiệp trực tuyến, khi vừa phải giảm thiểu rủi ro trong
giao dịch trực tuyến, vừa phải đảm bảo tăng lượng giao dịch trên các sàn giao dịchđiện tử để từ đó giúp tăng doanh thu bán hàng
1.1.1.2 Đặc trưng của thương mại điện tử
So với các hoạt động thương mại truyền thống, thương mại điện tử có một 36
diém khac biét co ban sau:
© Các bên tiến hành giao dich trong thương mai điện tử không tiếp xúc trực tiếp
với nhau và không đòi hỏi phải biết nhau từ trước
Trong Thương mại truyền thống, các giao dịch được tiến hành trực tiếp và thựchiện chủ yếu theo nguyên tắc vật lý như chuyên tiền, séc hóa đơn, vận đơn, gửi báocáo Các phương tiện viễn thông như: fax, telex, chỉ được sử dụng dé trao đôi sốliệu kinh doanh Việc sử dụng các phương tiện điện tử trong thương mại truyền thongchỉ dé truyền tải thông tin một cách trực tiếp giữa các đối tác trong cùng một giaodịch, cho phép mọi người tham gia từ các vùng xa xôi hẻo lánh đến các khu đô thịlớn, tạo điều kiện cho tất cả mọi người ở khắp mọi nơi đều có cơ hội ngang nhau thamgia vào thị trường giao dịch toàn cầu và không đòi hỏi nhất thiết phải có mối quan hệ
quen biét với nhau.
e@ Cac giao dịch thương mại truyền thống được thực hiện với sự ton tại của khái
niệm biên giới quốc gia, con thương mại điện tử được thực hiện trong một thị trườngkhông có biên giới (thị trường thong nhất toàn cau) Thương mại điện tử trực tiếp tác
động tới môi trường cạnh tranh toàn cau.
Việc thương mại điện tử phát triển giúp cho máy tính cá nhân trở thành cửa sốcho doanh nghiệp hướng ra ngoài thị trường trên khắp thế giới
e Trong hoạt động giao dịch thương mại điện tử đều có sự tham ra của ít nhất
ba chủ thể, trong đó có một bên không thể thiếu được là người cung cấp dịch vụ mạng,
các cơ quan chứng thực.
Trong Thương mại điện tử, ngoài các chủ thê tham gia quan hệ giao dịch giốngnhư giao dịch thương mại truyền thống đã xuất hiện một bên thứ ba đó là nhà cung
11175405 — Nguyễn Thị Hồng Yến 13
Trang 14Chuyên đề thực tập chuyên ngành Toán Kinh tế
cấp dịch vụ mạng, các cơ quan chứng thực là những người tạo môi trường cho cácgiao địch thương mại điện tử Nhà cung cấp dịch vụ mạng và cơ quan chứng thực cónhiệm vụ chuyền đi, lưu giữ các thông tin giữa các bên tham gia giao dịch thương mạiđiện tử, đồng thời họ cũng xác nhận độ tin cậy của các thông tin trong giao dịch thương
mại điện tử.
e Đối với thương mại truyền thống thì mạng lưới thông tin chỉ là phương tiện
dé trao đồi dữ liệu, còn đối với thương mại điện tử thì mạng lưới thông tin chính la
thị trường.
Nhiều loại hình kinh doanh mới được hình thành thông qua Thương mại điệntử Các trang Web khá nổi tiếng như Yahoo hay Google đóng vai trò quan trọng cungcấp thông tin trên mạng, trở thành các “khu chợ” khổng lồ trên internet Với mỗi lầnnhấn chuột, khách hàng có khả năng truy cập vào hàng ngàn cửa hang ảo khác nhauvà tỷ lệ khách hàng vào thăm rồi mua hàng là rất cao Người tiêu dùng đã bắt đầu muatrên mạng một số các loại hàng trước đây được coi là khó bán trên mạng Nhiều ngườisẵn sàng trả thêm một chút tiền còn hơn là phải đi tới tận cửa hàng Một số công ty đãmời khách may đo quan áo trên mạng, tức là khách hàng chọn kiểu, gửi số đo theohướng dẫn tới cửa hàng (qua Internet) rồi sau một thời gian nhất định nhận được bộ
quan áo theo đúng yêu cầu của mình Điều tưởng như không thé thực hiện được nàycũng có rất nhiều người hưởng ứng
1.1.2 Khái quát về mỹ phẩm1.1.2.1 Khái niệm về mỹ phẩm
Mỹ phẩm ngày nay đã trở thành một món hàng tiêu dùng không thé thiếutrong giỏ hàng của mọi người, đặc biệt là với chị em phụ nữ Phụ nữ dùng mỹ phẩmđể chăm sóc và làm đẹp cho bản thân, khiến họ luôn cảm thấy rạng rỡ và tự tin hơn.Hiện nay có rất nhiều khái niệm khác nhau đề định nghĩa về mỹ phẩm Ở Mỹ, cục
quan lí thực phẩm và được phẩm (FDA) định nghĩa: "Mj phẩm là chất dùng để bôi
thoa vào cơ thể người nhằm tẩy sạch, tô điểm, tăng cường độ thu hút hoặc thay đổidiện mạo mà không ảnh hưởng đến cấu trúc hoặc chức năng của cơ thể” Định
nghĩa rộng này bao gồm bat ky chất liệu nào được sử dụng làm thành phần của mộtsản phẩm mỹ phẩm, trừ xà phòng Ở Việt Nam, theo Bộ Y tế quy định thì: “San
phẩm mỹ phẩm là một chất hay chế phẩm được sử dụng để tiếp xúc với những bộ
11175405 — Nguyễn Thị Hồng Yến 14
Trang 15Chuyên đề thực tập chuyên ngành Toán Kinh tế
phận bên ngoài cơ thể con người (da, hệ thống lông tóc, móng tay, móng chân, môivà cơ quan sinh duc ngoài) hoặc răng và niêm mạc miệng với mục dich chính là délam sach, lam thom, thay đổi diện mao, hình thức, điều chỉnh mùi cơ thé, bảo vệ cơthể hoặc giữ cơ thể trong điều kiện tot”
Các loại mỹ phẩm phô biến gom CÓ son môi, mascara, phan mat, kem nén, phanmá hồng, phan phủ, sữa rửa mặt va sữa dưỡng thé, dau gội, sản pham tạo kiểu tóc (gelvuốt tóc, gôm xịt tóc, ), nước hoa
1.1.2.2 Đặc điểm, đặc tính của mỹ phẩm
Thành phân của mỹ phẩm
Một loạt các hợp chất hữu cơ và hợp chat vô cơ có trong mỹ phẩm điên hình.
Hợp chất hữu cơ điền hình là dầu và mỡ tự nhiên đã tinh chế cũng như một loạt tácnhân có gốc hóa dầu Hợp chất vô cơ là những khoáng chất được xử lý như oxit sat,talc và oxit kẽm Oxit kẽm và sắt được phân loại là sắc tố, nghĩa là chất tao màu không
khả năng hòa tan trong dung môi.
Tiêu chí phân loại mỹ phẩmDựa vào tính năng, mục đích sử dụng, thành phần công thức được dùng củasản phẩm và định nghĩa về mỹ phẩm, hiện nay trên thị trường, mỹ phẩm được chia
thành 2 loại chính:
e Dược mỹ phâm: Là sự kết hợp đan xen giữa “mỹ phẩm” (Cosmetics) và “đượcpham” (Pharmaceuticals), vừa có tac dụng làm dep, chăm sóc da vừa có tac dụng nhưthuốc điều trị đối với làn da Hiện nay Dược mỹ pham đang được biết đến và sử dungrộng rãi trong nhiều ngành hang mỹ pham, đặc biệt là mỹ phẩm ngành spa
e Hóa mỹ pham: Là một dạng mỹ phẩm sử dụng chăm sóc da hàng ngày, trong
đó hóa mỹ phẩm thưởng sử dụng các hoạt chất tạo mùi hương thơm, dưỡng da khỏe,đẹp Thành phần cấu tạo chủ yếu của hóa mỹ phẩm thường sử dụng các nguyên liệudưới dạng sáp, bột, dầu, chất lỏng, và một số dạng nguyên liệu khác giúp tạo mùi,màu sắc đặc biệt Hóa mỹ phẩm giúp làm sạch da, làm trắng, dưỡng da, bảo vệ dachống nẻ, khô, bong tróc, bảo vệ da và tóc, thường có ở kem đánh răng, nước hoa,
son môi, thuốc nhuộm tóc, bút kẻ mắt,
Đặc tính của mỹ phẩm:Mỹ phẩm là một mặt hàng có tính bất đối xứng cao Sở dĩ có thể nói như vậybởi vì những người tiêu dùng mỹ phẩm không thể biết hết toàn bộ về chất lượng củamột món đồ mỹ phẩm mà họ mua Bắt đối xứng thông tin tồn tại giữa người bán và
11175405 — Nguyễn Thị Hồng Yến 15
Trang 16Chuyên dé thực tập chuyên ngành Toán Kinh tê
người mua mỹ phẩm, trong đó người mua mỹ phẩm biết ít thông tin về hàng hóa hơnso với người bán Khách hàng rất khó có thê kiêm nghiệm được đặc tính của mỹ phẩmkhi đưa ra quyết định tiêu dùng, bởi lẽ mặt hàng mỹ pham không giống như nhữngmặt hang thông thường có thể kiểm chứng trực tiếp (vai vóc, quần áo, ) mà nó chỉthé hiện kết quả sau một thời gian dài khi sử dụng Chính vi sự bất đối xứng khiếnngười tiêu dùng gặp rất nhiều rủi ro khi mua mỹ phẩm, đặc biệt là mua hang thôngqua hình thức trực tuyên Đề giảm thiêu được sự bất đối xứng thì chúng ta phải hiểubiết rõ những đặc điểm của mỹ phẩm:
e Mỹ phẩm tạo nên các ảnh hưởng/hiệu qua không vĩnh viễn và cần phải sử dụngthưởng xuyên dé duy trì hiệu qua Các sản phâm điều chỉnh vĩnh viễn, phục hồi hoặclàm thay đôi chức năng cơ thê băng cơ chế miễn dịch, trao đổi chất hoặc cơ chế đượclý không được phân loại là mỹ phẩm
e Sản phẩm dùng băng cách uống, tiêm hoặc tiếp xúc với những phần khác của
cơ thê thì không được phân loại là mỹ phẩm
e Một số cụm từ thường không được chấp nhận trong việc công bồ tính năng mỹ
phẩm theo từng loại sản phẩm:
o Cac từ mang ý nghĩa cho chữa khỏi như “tri”, “điều trị”, “chữa trị”,không được chấp nhận trong việc công bố tính năng cũng như đặt tên sản phẩm mỹphẩm
o Những sản phẩm có mục đích sử dụng khử trùng, khử khuẩn, kháng
khuẩn chỉ được chấp nhận phù hợp với tính năng sản phâm mỹ phẩm nếu được công
bố là công dụng thứ hai của sản phẩm.
Phân loại mỹ phẩm:Mỹ phẩm thường được chia thành 3 loại chính:e Mỹ phẩm bề ngoài: các sản phẩm trang điểm bề mặt (sản phẩm make up, sơnmóng tay, thuốc nhuộm tóc, ) Các sản phẩm này chỉ tác động đến vẻ bề ngoài chứ
không di sâu vào sinh lí da.
e Mỹ phẩm dự phòng, bao gồm các sản phẩm chăm sóc da, dưỡng da dành choviệc làm chậm lại các biến đổi sinh lý của da (lão hóa, khô da) và bảo vệ chống lạicác tác nhân bên ngoài (ô nhiễm, ánh nắng, chất kích ứng)
e Các sản phâm sửa chữa được dùng khi người ta đã thất bại trong dự phòng va đối mặt với các ton thương phải chăm sóc, khắc phục chúng bằng các sản phâm như
lam căng, làm 4m, làm láng, tái sinh, giảm béo, chong rụng tóc,
11175405 — Nguyễn Thị Hồng Yến 16
Trang 17Chuyên đề thực tập chuyên ngành Toán Kinh tế
Ngoài ra còn có thể phân loại mỹ phảm theo các bộ phận mà nó cho tác dụng
như sau:
o Mỹ phẩm dành cho mặt gồm: sữa rửa mặt, nước hoa hồng, son, serum, sản
pham tri mun, nam,
o My pham dành cho cơ thé: lăn khử mùi, sữa dưỡng thể, nước hoa,
o_ Mỹ phâm dành cho móng: sơn móng tay, dung dịch rửa tay khô, sữa rửa
tay,
o My pham dành cho trẻ sơ sinh: dầu tắm, phắm rôm,
o Mỹ phẩm dành cho tóc: Thuốc nhuộm tóc, đầu gội, dầu xả, gel xit toc, kem
dưỡng tóc,
1.1.2.3 Thực trạng tiêu dùng mỹ phẩm
Việt Nam là một thị trường đây hứa hẹn trong việc đầu tư về ngành mỹ phẩm.Với tình hình kinh tế ngày càng 6n định và phát triển, thế hệ trẻ lại chiếm đến 60%dân sé, thị trường Việt Nam đang là một những những miếng môi ngon được các tậpđoàn mỹ phẩm hàng dau thế giới hướng đến Hàng nghìn thương hiệu mỹ phẩm đãxuất hiện đưới nhiều hình thức khác nhau (mở văn phòng đại diện, đặt đại lý, nhàphân phối bán hàng, thành lập công ty và xây dựng nhà máy sản xuất), trong đó cónhiều dong mỹ phẩm cao cấp như Shiseido, Fendi, Lower, Clairins, L’oreal Ngoaira một số thương hiệu nội dia cũng tạo dựng được một vi thế nhất định như Thorakao,
Lana, Biona, Xmen, Thai Dương,
Dau năm 2020, một cuộc khảo sát 458 nữ từ 16 tuổi trở lên được tiến hành bởiQ&Me đã cho thấy kết quả:
e Số tiền chi tiêu trung bình cho mỹ phẩm chăm sóc da là 436.000 VNĐ Trong
đó, 21% số người khảo sat chi tiêu 200.000VNĐ mỗi tháng cho mỹ phâm, 8% chihơn 50.000VND và chi hơn 1.000.000VNĐ chiếm 7%
e Người ta sẵn sàng chi tiêu nhiều hơn cho việc tiêu ding mỹ phẩm ở hai thành
phố lớn là Hà Nội và Hồ Chí Minh
e Các cửa hang trong trung tâm thương mại và các cửa hàng bên ngoài của
thương hiệu là nơi mua sắm mỹ pham phô biến nhất Bên cạnh đó, các trang thươngmại điện tử cũng dan trở thành một kênh quan trọng với 73% đã từng mua sim mỹphẩm tại đây
11175405 — Nguyễn Thị Hồng Yến 17
Trang 18Chuyên đề thực tập chuyên ngành Toán Kinh tế
e Độ tuôi là yếu tô ảnh hưởng lớn đến nhu cầu tiêu thụ mỹ phẩm (người từ 23tuôi trở lên có nhu cầu lớn — chiếm 61%)
e Thói quen sử dụng mỹ phẩm khác biệt theo từng độ tuổi Hơn một nửa số người
từ 23 tudi trở lên trang điểm thường xuyên khi đi làm/đi học, đi chơi hoặc tham dự
e Đối tượng không dùng trang điểm thường là những người trẻ (dưới 30 tuổi),
không biết cách trang điểm đúng cách hoặc không có thời gian cho trang điểm
e Son môi va sửa rita mặt (bao gồm tay trang) là hai sản phẩm được sử dụng
nhiêu nhất trong nhóm các sản phâm trang điêm và dưỡng da.
Từ năm 2019 lên đầu năm 2020, nhu cầu mỹ phẩm có sự tăng trưởng rõ rệt từ57% lên 63% Những khách hàng mua sắm trực tuyến sẵn sàng chỉ tiền nhiều hơn khicó khuyến mại trên các trang web bán hàng và khi họ nhìn thấy được nhiều đánh giátích cực từ những người đã sử dụng Một trong những lý do khiến người tiêu dùng từchối mua sắm mỹ phẩm online là do họ không tin tưởng vào chất lượng (56%) va tính
trung thực của thông tin mà họ nhận được.
Mặc dù thị trường mỹ phâm Việt Nam hiện có doanh thu 15.000 tỷ đồng mộtnăm (xấp xỉ 700 triệu USD), các doanh nghiệp mỹ phẩm Việt Nam chỉ chiếm 10% thịtrường Các doanh nghiệp mỹ phẩm hiện nay chi trụ được ở phân khúc giá rẻ và xuấtkhẩu sang một số thị trường lân cận (90% các doanh nghiệp mỹ phâm Việt Nam làđại lý phân phối của các nhà mỹ phẩm nước ngoài) Hầu hết mỹ pham ngoại đềuchiếm lĩnh các trung tâm thương mại tại Việt Nam
11175405 — Nguyễn Thị Hồng Yến 18
Trang 19Chuyên dé thực tập chuyên ngành Toán Kinh tê
1.2 CƠ SỞ LÝ THUYET VE HANH VI CUA NGƯỜI TIEU DUNG1.2.1 Mô hình thuyết hành động hợp lí (Theory of Reasoned Acion — TRA)
Một trong những mô hình nỗi tiếng nhất trong lĩnh vực xác định hành vi tiêudùng là mô hình thuyết hành động hợp lý (TRA) Mô hình TRA cho rằng có 2 nhântố tác động đến ý định hành vi (Behaviour Intension — BI) là thái độ cá nhân đối vớihành vi (Attitude Toward The Behavior — ATT) và sự ảnh hưởng của chuẩn chủ quan
(Subjective Norm — SN) xung quanh việc thực hiện các hành vi đó (Fishbein và Ajzen,
1975) Trong đó, Thái độ và Chuan chủ quan có tầm quan trọng trong ý định hành vi.
Tuy nhiên, mô hình này hoạt động không hiệu quả khi sử dụng với những người tiêudùng không thé kiểm soát hành vi (hành động theo thói quen hay ý thức không làmchủ được hành vi).
® Thái độ là một trong những yếu tố tiên quyết ảnh hưởng đến ý định hành vi,nó biểu thị cách mà mọi người cảm nhận một hành vi cụ thể Thái độ về hành vi đượcphản ánh qua hai yếu tố: sức mạnh của niềm tin về kết quả mà hành vi đem lại vàđánh giá kết quả tiềm năng Và tùy thuộc vào kỳ vọng về kết quả mà hành vi đó đem
11175405 — Nguyễn Thị Hồng Yến 19
Trang 20Chuyên đề thực tập chuyên ngành Toán Kinh tế
lại của một người sẽ dẫn đến thái độ về hành vi của người đó, có thể là tích cực, tiêu
cực hoặc trung tính.
® Chuẩn chủ quan cũng là một yếu tố nằm trong nhân tổ chính quyết định đến ýđịnh hành vi, nó đề cập đến mức độ ảnh hưởng của những nhóm hoặc cá nhân có liênquan như thành viên trong gia đình, bạn vè, đồng nghiép, có thé ảnh hưởng đến ý
định hành vi của một người Theo AJzen — người sáng lập ra mô hình TPB đã định
nghĩa chuẩn chủ quan là áp lực xã hội để hành vi được thực hiện hoặc không thực
hiện.
® Một yếu tố quan trọng khác là nhận thức kiểm soát hành vi, một nhân tố phản
ánh việc thực hiện hành vi là dé dàng hay khó khăn Vì khả năng thực hiện được hành
vi của một người được đánh giá qua nguồn lực và những cơ hội sẵn có mà người đó
1.2.3 Mô hình chấp nhận công nghệ (TAM)
Mô hình chấp nhận cộng nghệ (TAM) là một trong những phần mở rộng có
ảnh hưởng nhất của thuyết hành động hợp lý (TRA) TAM thay thế nhiều yếu tô về
thái độ của TRA bang hai yếu tố chấp nhận công nghệ là tinh dé sử dung (Perceived
11175405 — Nguyễn Thị Hồng Yến 20
Trang 21Chuyên đề thực tập chuyên ngành Toán Kinh tế
Usefulness — PU) và nhận thức sự hữu ich (Perceived Ease Of Use - PEOU) Theo tác
gia cua mô hình — Fred Davis:
e Nhận thức su hữu ích được định nghĩa là: “mức độ mà một người tin rằng su
dụng một hệ thống cụ thể có thể sẽ làm nâng cao hiệu suất công việc của người đó”
e Tính dễ sử dụng được định nghĩa là: “mức độ mà một người tin rằng việc sử
dụng một hệ thống cụ thé không cần phải nỗ lực và dé dang sử dụng hệ thống đó”
Hình 1.3 Mô hình chấp nhận công nghệ (TAM)
Hình 1.4 Mắi quan hệ giữa 3 mô hình TRA, TPB và TAM
11175405 — Nguyễn Thị Hồng Yến 21
Trang 22Chuyên dé thực tập chuyên ngành Toán Kinh tê
1.3 TONG QUAN NGHIÊN CỨU
Có khá nhiều nghiên cứu về ý định mua hàng trực tuyến của người tiêu dùngtrên thế giới cũng như tại Việt Nam Mỗi đề tài được nghiên cứu ở lĩnh vực khác nhau,
đối tượng và mục tiêu khác nhau Tùy theo những yếu tố đó mà tác giả đưa ra những
nhân tố ảnh hưởng tới ý định mua hàng theo hình thức trực tuyến và xây dựng phương
pháp nghiên cứu phù hợp cho đề tài của mình
Một số nghiên cứu về các nhân tô ảnh hưởng tới ý định mua hàng trực tuyến
của người tiêu dùng
Nghiên cứu của Hà Mạnh Thắng (2015) trên tạp chí VNU Journal of Science
Economics and Business thảo luận các yếu tố ảnh hưởng đến ý định mua trực tuyến của người tiêu dùng Việt Nam dựa trên lý thuyết hành vi có hoạch định Phiếu câu hỏi
được gửi trực tiếp đến các đối tượng điều tra và thông qua mạng Internet Sau 5 thángthu thập, có 423 phiếu trả lời hợp lệ được đưa vào phân tích Dữ liệu được phân tíchtheo quy trình từ phân tích nhân tố đến kiểm định độ tin cậy và phân tích hồi quy Kếtquả cho thấy, thái độ và nhận thức kiểm soát hành vi của người tiêu dùng có ảnh
hưởng tích cực đến ý định mua trực tuyến Trong khi đó, rủi ro cảm nhận có ảnh
hưởng tiêu cực đên ý định mua trực tuyên của người tiêu dùng.
Nguyễn Thị Kim Vân, Quách Thị Khánh Ngọc (2013) nghiên cứu về các nhântố ảnh hưởng đến thái độ và ý định mua hàng trực tuyến tại thành phố Nha Trang
Mục đích của nghiên cứu nhằm xác định và nhận dạng các yếu tố chính ảnh hưởng
đến thái độ của người tiêu dùng đối với việc mua hàng trực tuyến và xem xét thái độ
của người tiêu dùng ảnh hưởng như thế nào đến ý định mua hàng trực tuyến Thông
qua các thử nghiệm của mô hình nghiên cứu đã được đề xuất, nghiên cứu đã xác địnhđược ba trong sáu nhân tố có tác động mạnh nhất đến thái độ, từ đó hình thành nên ýđịnh mua hàng trực tuyến của người tiêu dùng, đó là: (1) Sự hữu dụng, (2) Hệ thống
thanh toán và (3) Sự tin tưởng Tuy nhiên các biến của thành phần “Hệ thống thanh
toán” có tác động mạnh nhất, tiếp đến là yếu tô “Sự hữu dụng” và sau cùng là yếu tô
“Sự tin tưởng”, điều này cho thấy “Hệ thống thanh toán” đóng vai trò rất quan trọng
trong việc hướng người tiêu dùng có thái độ tích cực đối với việc mua hàng trực tuyến.
Nguyễn Quang Thu & Lưu Thị Kim Tuyến (2018) nghiên cứu về vai trò của yếu
tố ảnh hưởng xã hội trong mối quan hệ với niềm tin, thái độ, nhận thức rủi ro đến ýđịnh mua hàng trực tuyến của người tiêu dùng tại Thành phố Hồ Chí Minh Nghiên
Trang 23Chuyên dé thực tập chuyên ngành Toán Kinh tê
cứu này kiêm định vai trò trung gian của yếu tô ảnh hưởng xã hội trong mối quan hệ
với niềm tin, thái độ, nhận thức rủi ro đến ý định mua hàng trực tuyến của người tiêudùng tại TP Hồ Chí Minh Mối quan hệ này được kiểm chứng qua 337 khách hàng
đã từng mua hay có ý định mua hàng trực tuyến tại TP Hồ Chí Minh thông qua hìnhthức khảo sát băng bảng câu hỏi trực tiếp Bang phương pháp SEM dé kiểm định môhình lý thuyết và các giả thuyết, kết quả nghiên cứu cho thấy yếu tô ảnh hưởng xã hộitác động dương đến niềm tin, thái độ và ý định mua hàng trực tuyến Yếu tố niềm tin
có tác động dương mạnh đến thái độ và ý định mua hàng trực tuyến Cảm nhận rủi ro
có tác động âm mạnh đến niềm tin, thái độ và ý định mua hàng trực tuyến Yếu tổ tháiđộ cũng có tác động dương trực tiếp khá mạnh đến ý định mua hàng trực tuyến Saucùng, nghiên cứu đã kết luận và trình bày hàm ý chính sách cho các nhà bán lẻ trựctuyến nhằm xây dựng các chiến lược hiệu quả dé có thé thu hút khách hàng và địnhhướng nghiên cứu tiếp theo
Nguyễn Đinh Yến Oanh, Quách Lý Xuân An (2018) nghiên cứu về thái độ đốivới quảng cáo trực tuyến và ý định tiếp tục mua của người tiêu dùng: Một nghiên cứutrong ngành hàng tiêu dùng nhanh Dựa trên Thuyết hành động hợp lý TRA và môhình Ducoffe (1996), nghiên cứu này phân tích các yếu tố tác động đến thái độ, đồngthời kiểm định anh hưởng của thái độ đối với quảng cáo trực tuyên đến ý định tiếp tụcmua sản phẩm nước giải khát có ga Dữ liệu được thu thập từ 557 người tiêu dùng tạiĐồng băng sông Cửu Long Kết quả phân tích cho thấy ý định tiếp tục mua chịu ảnhhưởng bởi 3 yếu tố (1) Thái độ của người tiêu dùng đối với quảng cáo trực tuyến, (2)Giá trị cảm nhận, (3) Tính thông tin Ngoài ra, có 4 yếu tố ảnh hưởng đến thái độ củangười tiêu dùng đối với hoạt động quảng cáo trực tuyến: (1) Giá trị cảm nhận, (2)Tính thông tin, (3) Tính giải trí, (4) Danh tiếng của công ty Kết quả nghiên cứu có ýnghĩa quan trọng về mặt học thuật và là cơ sở khoa học giúp các doanh nghiệp kinhdoanh ngành hàng nước giải khát có ga giữ chân khách hàng trong thời đại số hóa, từđó phát triển các chiến lược quảng cáo trực tuyến một cách hiệu quả
Một số nghiên cứu sử dụng thuật toán Hoc máyNghiên cứu của Ljiljanka Kvesi’c về ứng dụng cây quyết định trong tin dụngngân hàng Croatia (2013) Nghiên cứu sử dụng cây quyết định với thuật toán CHAIDtoàn điện Cuộc khảo sát bao gồm 200 khách hàng, trong đó có 100 khách hàng là cótín dụng xấu và 100 khách hàng có tín dụng tốt Các biến số độc lập được sử dụng
11175405 — Nguyễn Thị Hồng Yến 23
Trang 24Chuyên dé thực tập chuyên ngành Toán Kinh tê
trong nghiên cứu là: giới tính, tuổi, tinh trạng khách hàng, thấu chi tối thiểu trong 6
tháng, số tiền thanh toán thẻ trung bình, số lượng thấu chi khách hàng được phép, sốdư trung bình cho tất cả 6 tháng (trung bình tài khoản), số tiền trung bình mà kháchhàng van được phép thấu chi Kết quả mô hình cho biết dự báo chính xác tới 92.5%,và đưa ra một số kết luận là đại đa số khách hàng có tín dụng xấu gặp ít nhất một lầntrong thấu chi bat hợp pháp, cũng như những khách hàng có độ tuôi trên 55 và chưatừng vượt quá mức cho phép thấu chi Với kết quả đó, mô hình khá phù hợp với dữliệu cần phần tích
Nghiên cứu của S.S.Satchidananda và Jay B.Simba về so sánh cây quyết định
với hồi quy logit dé phân tích rủi ro tín dụng (2006) Nghiên cứu sử dung dit liệu từ
hai ngân hang ở An Độ liên quan đến các khoản vay sản xuất nông nghiệp được cung
cấp cho nông dân trong và xung quanh Honavar, một khối lạc hậu ở Karnataka, ẤnĐộ Nghiên cứu bao gồm biến chính là rủi ro (cao hay thấp) và 24 biến quan sát khác:số người trong gia đình, thu nhập, đất đai, mua săm đầu vào, công trình phát triển đấtđã hoàn thanh, Kết quả chạy mô hình từ cây quyết định với thuật toán C4.5 và môhình logit cho biết các chỉ số về sai số của mô hình cây nhỏ hơn đồng thời phân trămdự báo chính xác cao hơn, cho thay mô hình cây quyết định vượt trội hon han trên tatcả các tham số
Trong các nghiên cứu thực nghiệm trên, mỗi nghiên cứu đều đưa ra các nhân6, phương pháp nghiên cứu dé phân tích phù hợp với lĩnh vực, mục tiêu và phạm vi
nghiên cứu Do đó mà kết quả từ mỗi nghiên cứu là khác nhau Từ những kết quả
nghiên cứu thực nghiệm trên kết hợp với bộ dữ liệu sẵn có, tôi chọn 7 nhân tố: độ
tuôi, giới tính, nghề nghiệp, thu nhập, thương hiệu, tình trạng kết hôn và số lần mua
dé xây dựng mô hình dự báo ý định mua mỹ phẩm online của khách hàng trong chuyên
đề này.
Về phương pháp nghiên cứu, việc ứng dụng các thuật toán Học máy trong dựđoán ý định mua hàng trực tuyến của người tiêu dùng đã được nghiên cứu nhiều trênthế giới Còn tại Việt Nam, việc áp dụng áp dụng này vẫn còn khá mới mẻ, chưa đượcáp dụng nhiều Do đó trong nghiên cứu này, tôi sẽ sử dụng các thuật toán Học máy làthuật toán Hồi quy Logistic, Cây quyết định và Rừng ngẫu nhiên dé dự báo ý địnhmua mỹ phẩm online tại một cửa hang, so sánh kết quả các mô hình để lựa chọn rathuật toán tối ưu nhất
11175405 — Nguyễn Thị Hồng Yến 24
Trang 25Chuyên đề thực tập chuyên ngành Toán Kinh tế
Chương 2 PHƯƠNG PHÁP NGHIÊN CỨU
2.1 PHƯƠNG PHÁP HỌC MAY
2.1.1 Khái niệm của Học Máy
Trong thời gian trở lại đây, Học Máy hoặc Máy Học (Machine Learning) nổilên như một băng chứng của cuộc cách mạng công nghiệp lần thứ tư (lần 1 - động cơhơi nước, lần 2 - năng lượng điện, lần 3 - công nghệ thông tin) Máy học góp mặttrong mọi lĩnh vực trong đời sống của con người: Hệ thông nhận diện khuôn mặt trongảnh của Facebook, trợ lý ảo Siri của Apple, trợ lý ảo Google Assistant, hệ thống gợi
ý phim cua Netflix,
Biểu đồ 2.1 Máy học là một tập con của AI
(Artificial Intelligence — Trí tuệ nhân tạo)
11175405 — Nguyễn Thị Hồng Yến 25
Trang 26Chuyên đề thực tập chuyên ngành Toán Kinh tế
Hình 2.1 May học là một tập con của AI
(Artificial Intelligence — Trí tuệ nhân tạo)
Năm 1959, Arthur Samuel, người tiên phong trong lĩnh vực máy học định nghĩa
Máy học như sau: máy tính có khả năng học độc lập, không phụ thuộc quá nhiều vào
lập trình của con người Máy tính hoặc thuật toán sẽ dựa vào kinh nghiệm có được
khi xử lý các nhiệm vụ cụ thé Nhờ việc lặp lại nhiệm vụ nhiều 1an/bé sung dit liệumới, cải tiến và giải pháp mới có thé tạo điều kiện cho máy tự học, tự khám phá dé
giai quyết van đề Ung dung này xây dựng một nền tang quan trọng cho trí tuệ nhân
tạo.
2.1.2 Lịch sử ra đời và sự phát triển của Học may
Các cột mốc phát triển của Học máy:
e Thế ky 18 - Nhà thống kê người Anh Thomas Bayes đã đặt ra định ly Bayes,một khái niệm trung tâm trong một số phương pháp tiếp cận hiện đại đối với học máy
e 1950 — Nhà toán học người Anh Alan Turing đề xuất một bài kiểm tra về trí thông minh thực sự của máy móc, được gọi là Kiểm tra Turing.
e 1952 —- Nhà nghiên cứu Arthur Samuel đã tạo ra một cỗ máy có khả năng học
chơi cờ, sử dụng các hướng dẫn của các chuyên gia dé học cách phân biệt nước đi trên
bàn cờ.
e 1956 — Thuật ngữ “trí tuệ nhân tao” ra đời trong Hội thao Dartmouth
11175405 — Nguyễn Thị Hồng Yến 26
Trang 27Chuyên dé thực tập chuyên ngành Toán Kinh tê
e 1957 — Nhà tâm lý học người Mỹ Frank Rosenblatt’s Perceptron tao ra mộtmạng lưới thần kinh băng điện trở quay (chiết áp), có thé nhận đầu vào (pixel hình
ảnh) và tạo đầu ra (nhãn)
e 1979 — Các sinh viên trường Đại học Stanford phát minh ra một robot có tên
Xe đây, được liên kết vô tuyến với một máy tính lớn, có thê tự điều hướng các chướng
ngại vật trong phòng.
e 1981 — Gerald Dejong đưa ra khái niệm Học tập dựa trên giải thích (EBL),
bằng cách loại bỏ đữ liệu đề phân tích đữ liệu và tạo ra quy tắc chung mà nó có thê
tuân theo.
e 1985 — Giáo su Terry Sejnowski của Francis Crick đã phat minh ra NetTalk,
mét chuong trinh hoc cach phat 4m van ban tiéng Anh
e 1986 — David Rumelhart va James McClelland đã xuất ban Xử ly phan tán
song song, nâng cao việc su dung các mô hình mang no-ron cho học may.
e 1992 — Nhà nghiên cứu Gerald Tesauro đã tạo ra một chương trình dựa trên
một mạng thần kinh nhân tạo, có khả năng chơi backgammon với những khả năngphù hợp với những người chơi hàng đầu của con người
e 1997-~ Deep Blue: IBM’s Deep Blue trở thành hệ thống chơi cờ máy tinh đầutiên đánh bại một đương kim vô địch cờ vua thế giới Deep Blue đã sử dụng sức mạnhtính toán trong những năm 1990 dé thực hiện các cuộc tìm kiếm quy mô lớn về cácnước đi tiềm năng và chọn nước đi tốt nhất
e 2006 — Geoffrey Hinton đã tao ra thuật ngữ “học sâu” dé giai thich cac thuat
toán mới giúp máy tinh phân biệt các đối tượng và văn ban trong hình ảnh và video
e 2010— Microsoft đã phát triển thiết bị đầu vào cảm biến chuyên “Kinect” có
thê theo dõi 20 đặc điểm của con người với tốc độ 30 lần mỗi giây.
e 2011 — Google Brain đã được phát triển mạng nơ-ron sâu có thé khám phá vàphân loại các đối tượng theo cách của một con mẻo
e 2012- Google”s X Lab phat triển một thuật toán máy học có khả năng tự động
duyệt các video trên YouTube dé xác định các video có méo.
e 2014- Facebook đã phat triển một thuật toán phần mềm DeepFace, có thé nhận
dạng và xác minh các cá nhân trên ảnh với độ chính xác của con người.
e 2015 — Microsoft đã tạo ra Bộ công cụ học máy phân tan, cho phép phan phối
hiệu quả các vân đê học máy trên nhiêu máy tính.
11175405 — Nguyễn Thi Hồng Yến 27
Trang 28Chuyên dé thực tập chuyên ngành Toán Kinh tê
e 2016— AlphaGo, được tạo ra bởi các nhà nghiên cứu tại Google DeepMind dé
chơi trò chơi cờ vây cô đại của Trung Quốc, đã thắng 4/5 trận dau với Lee Sedol,
người đã trở thành kỳ thủ cờ vây hàng đầu thế giới trong hơn một thập kỷ
e 2017-— Các nhà nghiên cứu tại Dai học Carnegie Mellon đã tạo ra một hệ thống
có tên là Libratus và nó đã đánh bại bốn người choi hang dau tại No Limit Texas Hold
‘em, sau 20 ngày chơi vào năm 2017.
2.2 PHAN LOẠI CÁC BÀI TOÁN CUA HỌC MAY
Có hai cách phô biến phân nhóm các thuật toán Học máy: Một là dựa trên
phương thức học (learning style), hai là dựa trên chức năng (function) của mỗi thuật
toán.
Dựa trên phương thức học, Học máy được chia thành 3 dạng bài toán chính là Học có giám sát (Supervised Learning), Học không giám sát (Unsupervised Learning) và Học tăng cường (Reinforcement Learning).
Thuật toán Học có giám sát là nhóm phổ biến nhất trong các thuật toán Họcmáy Supervised Learning là thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới(new input) dựa trên các cặp (input, outcome) đã biết từ trước Cặp dit liệu này còn
được gọi là (data, label) hay gọi là (dữ liệu, nhãn).
Vi du: Thuật toán dò khuôn mặt trong một bức anh, Facebook đã từng sử dụng
thuật toán này dé chi ra các khuôn mặt trong một bức ảnh và yêu cầu người ding gắnnhãn bạn bè hay còn gọi tag friends Số lượng (dữ liệu, nhãn) tức là (khuôn mặt, tênngười) càng lớn, độ chính xác của những lần tự động gán nhãn tiếp theo sẽ càng lớn
Trong Học có giám sát, có 2 loại bài toán phổ biến:
e Bài toán hồi quy (Regression Problem): đầu ra (output) cần dự đoán là các số
thực có thé là nhiều giá trị khác nhau
Ví dụ: Cần thiết lập một mô hình với dữ liệu đầu vao là hãng xe, số chỗ ngồi, động
cơ, nội thất trang bị của một chiếc xe ô tô và dữ liệu đầu ra là giá bán của chiếc ô tôđó Giá chiếc xe không thể đoán trước, có thé là 600 triệu, 700 triệu, 1 tỷ, 5 ty,
e Bài toán phân loại (Classification Problem): đầu ra (output) là một trong các
lớp (class) mà ta đã biết từ trước
Ví dụ: Mô hình Học máy dự đoán khả năng trả nợ đúng hạn của khách hàng, như vậy
dau ra cần dự đoán có thé là một trong hai trường hợp: có trả nợ đúng hạn (y=0), hoặc
không tra nợ đúng hạn (y=1).
11175405 — Nguyễn Thị Hồng Yến 28
Trang 29Chuyên dé thực tập chuyên ngành Toán Kinh tê
2.3 MOT SO THUẬT TOÁN HOC MAY PHAN LOẠI
Mục tiêu của bài chuyên dé là dự báo quyết định mua mỹ phẩm online củakhách hàng (khách hàng có quyết định mua mỹ phẩm hay không), đây là bài toán phân
loại Bài chuyên đề sẽ sử dụng một số thuật toán phân loại điển hình, từ đó chọn ra
một thuật toán tốt nhất dé áp dụng vào mô hình.2.3.1 Thuật toán Hồi quy Logistic
2.3.1.1 Khái niệm về thuật toán Hồi quy Logistic
Thuật toán hồi quy Logistic (Logistic Regression) là thuật toán phổ biến nhấtdùng dé dự báo phân loại các biến nhị phân theo xác suất Việc phân loại này đượcthực hiện bang cach su dung ham logit dé ước tinh xác suất xảy ra của biến phụ thuộc,với các nhãn của biến này được thay thế bằng các mã hóa giả (0 và 1)
Ví dụ điển hình là phân loại email, gồm có email gia đình, email công việc,email rác/spam, ; giao dịch trực tuyến có là an toàn hay không,
2.3.1.2 Dạng mô hình và lý thuyết toán học của mô hình
Gọi biến phụ thuộc là Y (Y là biến nhị phân), khi đó hai giá trị của Y được mãhóa thành 0 và 1 Với các biến độc lập là những biến có tác động đến khả năng Y = 1
được ký hiệu là: xạ, xạ, 4s, , X„ Ý tưởng của mô hình hồi quy Logistic là dy báo xác
suất déY = 1(P(Y = 1))
Như vậy ta có xác suất dé Y = 0 là: P(Y = 0) = 1- P(Y = 1).Phương trình hồi quy Logistic có dạng:
qg†4IXI+a2x2-† -tanXm
PY = |y )= : doT4Ix|T4212T tdnXn
+e
trong đó e là hằng số Euler (2.718), Pe [0:1]
Nhiệm vụ của bài toán này là thực hiện hồi quy các hệ số 40:J:>#n dura
trên phương pháp ước lượng hợp lý tối đa Tuy nhiên, rất khó dé đánh giá tác động
của các biến độc lập lên biến phụ thuộc dựa trên dạng mô hình trên, vì vậy, người ta
đánh giá chúng thông qua một tỷ số được gọi là tỷ số nguy cơ (odds ratio):
P đgT†4IxT42%2+ .-+đnXn
odd = —— =e
1-P
11175405 — Nguyễn Thị Hồng Yến
Trang 30Chuyên đề thực tập chuyên ngành Toán Kinh tế
Từ đây ta có thé thấy rang: Khi x; ‘1 don vị và các yếu tố khác không đôi
In(odd ) † a;
, Gy
thi ty sô odd Te?! lần hay don vi.
2.3.1.3 Nguyên lý hoạt động của mô hình
Mô hình Logistic hoạt động tốt nhất khi nó đạt được độ phân loại cao nhất hay
nói cách khác sai số dự báo là bé nhất Thật vậy, gia sử như một đối tượng nhận giá
Y = 1 ^ ` Ỳ CO ¬ ` ` AK rs z lệ ` lệ AK
tri 1, vậy ta ky vọng rang Y, càng gan 1 càng tot, hay nói cach khác là xác suât
=1 ` k ¬ ak, ` na z.: =0 „ đê ¡ càng cao cảng tot Ngược lại, nêu đôi tượng này nhận gia trị “7 , Vậy ta
` x Đa x ` k x oe xs, an Y,=1, Án SA hk ua
kỳ vọng rang Y, càng gân 0 càng tot, hoặc xác suat dé “1 cang thap cang tot Vay
nên, ta cần một hàm đề đánh giá độ tốt của kết quả dự báo được gọi là “Hàm mat mát
— Loss Function”.
Với mỗi đối tượng (x! -Y;) , ta có ham Loss được biểu diễn đưới dạng:
L = —Œ, xm Im(#) + (1— Y,) xin In(1— Ÿ))
Hình 2.2 Dé thị ham Loss của vi dụ 1
11175405 — Nguyễn Thi Hong Yến 30
Trang 31Chuyên đề thực tập chuyên ngành Toán Kinh tế
Như vậy, ta thay răng khi Ÿ càng gan 1 thì giá trị hàm Loss càng bé, ngược lại khi ¥,
càng xa 1 thì ham Loss trả về giá trị rat lớn
Hình 2.3 Đồ thị ham Loss của ví du 2
Như vậy, ta thay rang khi Ÿ càng gần 0 thì giá trị ham Loss càng bé, ngược lại khi /,
càng xa 0 thì hàm Loss trả về giá trị rất lớn.Từ đó ta có thê kết luận rằng, khi kết quả dự báo càng gần với thực tế thì giá trị hàm
Loss càng nhỏ Vậy bài toán trở thành tìm giá trị nhỏ nhất của ham Loss.2.3.1.4 Ưu điểm và nhược điểm của thuật toán Hồi quy Logistic
Uu điểm
e Thuật toán hỏi quy logistic dé thực hiện, diễn giải hơn và rất hiệu qua dé dao tạo.
e Thuật toán có thể phân tích được tác động của các biến độc lập lên biến phụ
thuộc, phân loại nhanh các bản ghi không xác định.
e Thuật toán không chỉ cung cấp thước đo về mức độ phù hợp của một yếu tố
dự đoán (kích thước hệ số), mà còn cả hướng tác động của nó (tích cực hoặc tiêu
cục), giải thích được các hệ số của mô hình.2.3.2 Thuật toán Cây quyết định (Decision Tree)
2.3.2.1 Khái niệm về Cây quyết định
11175405 — Nguyễn Thi Hồng Yến 3]
Trang 32Chuyên dé thực tập chuyên ngành Toán Kinh tê
Thuật toán Cây quyết định (Decision Tree) là một trong những thuật toán mạnhmẽ và phô biến nhất trong việc phân loại và dự báo, thuộc loại Thuật toán có giám sat(Supervised Learning) Mỗi Cây quyết định là một tượng trưng cho một sự quyết địnhcủa một lớp các dữ kiện nào đó Cây quyết định được sử dụng dé xây dựng một kếhoạch nhăm đạt được mục tiêu mong muốn Các Cây quyết định được dùng đề hỗ trợquá trình ra quyết định Kết quả hay biến mục tiêu của Cây quyết định chủ yếu là biến
Mỗi tập con được phân chia của phép thử là không gian con của các sự kiện, nó tương
ứng với một vấn đề con của sự phân lớp
Trong lĩnh vực Học máy, Cây quyết định là một kiêu mô hình dự báo (Predictivemodel), nghĩa là một ánh xạ từ các quan sat về một sự vật /hiện tượng tới các kết luậnvề giá trị mục tiêu của sự vật/hiện tượng Mỗi nút trong (Internal node) tương ứng vớimột biến; đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó.Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các gia tri dự doan
của biến được biéu diễn bởi đường di từ nút gốc tới nút lá đó Kỹ thuật học máy dùng
trong Cây quyết định được gọi là học bằng Cây quyết định, hay chỉ gọi với cái tênngắn gọn là Cây quyết định Cây quyết định có thê được mô tả như là sự kết hợp củacác kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hoá
một tập dữ liệu cho trước.
Xét về số nhanh thì Cây quyết định được chia thành 2 loại:e Cây quyết định chi phân được 2 nhánh;
e Cây quyết định phân được nhiều nhánh khác nhau.
Ngoài ra, Cây quyết định còn có hai tên gọi khác là:
e Cây hồi quy (Regression Tree) ước lượng các hàm giá trị là số thực thay vì
được sử dụng cho các nhiệm vụ phân loại.
Ví dụ: Ước tính giá của một mảnh đất hoặc ước tính khoảng thời gian một cây hoa
nở.
e_ Cây phân loại (Classification Tree)
Trang 33Chuyên đề thực tập chuyên ngành Toán Kinh tế
Ví dụ: Kết quả của việc trúng x6 số (tring, không trúng), giới tính (nam, nữ), 2.3.2.2 Cấu trúc của Cây Quyết Dinh
Một Cây quyết định bao gồm:
e “Root Node”: Nút cấp cao nhất này đại diện cho mục tiêu chính hoặc quyết
định lớn bạn đang muốn thực hiện.e “Branches”: Các nhánh, xuất phát từ gốc, đại diện cho các lựa chọn khác nhau
khi đưa ra một quyết định cu thé Chúng thường được biểu thị bằng một đường
mũi tên và bao gồm các khả năng xảy ra.
e “Internal node”: Nút nội bộ — mỗi nút đều có chính xác 1 đầu vào (gồm các
thuộc tính, giá tri dit liệu được dùng đề xét cho các phân nhánh tiếp theo) và
hai hoặc nhiều đầu ra (chứa giá trị của bién phân loại)
e “Leaf node”: Các nút 14 — được gắn cuối các nhánh — đại điện cho các kết qua
có thé xảy ra cho mỗi một quyết định Là các lá chứa giá trị của biến phân loại
Body Temperature
Internal node
Yes
Non-Mammals [
mammals
Hình 2.4 Ví dụ về sơ đồ thuật toán Cây quyết định (Decision Tree)
Vị dụ: Xét một bài toán phân loại như hình vẽ dưới đây:
Trang 34Chuyên đề thực tập chuyên ngành Toán Kinh tế
thuộc lớp màu đỏ (vuông).
Hình (b) là mô tả quyết định trên Cây quyết định bao gồm:
e Hình ellipse nền vàng thé hiện quyết định cần được đưa ra.
e@ Các 6 màu xám (chữ nhật), lục (yes), đỏ (no) được gọi là các node.
o “Leaƒnode”: là các lá cây chứa giá trị của biến phân loại sau cùng
(Ví dụ như trong hình (b) các leafnode là các ô tròn thể hiện màu lục và
màu đỏ.
o “Root node (node góc): Diém ngọn chứa giá trị của biến đầu tiên dùng
dé phân nhánh(Vi dụ: Ở 6 đầu tiên chứa x1 < ti)o_ Các internal node: Là những 6 chứa thé hiện câu hỏi ở phân lớp dưới
Root Node (Ví dụ: Những 6 chứa xa > tz và xi < ts)
2.3.2.3 Thiết kế Cây quyết định
Xử lý dữ liệu:
11175405 — Nguyễn Thị Hồng Yến 34
Trang 35Chuyên đề thực tập chuyên ngành Toán Kinh tế
Công việc cụ thê của bước tiền xử lý đữ liệu gồm các công việc:
o Lọc thuộc tính (Filtering Attributes)
Lọc các mẫu (Filtering samples)Lọc các mẫu (Instances, Patterns)
Chuyền đổi dit liệu (Transformation)
Tao cây:Cây quyết định được tao thành bằng cách lần lượt chia (theo phương pháp đệ
quy) một tập dữ liệu thành các tập dữ liệu con, mỗi tập con được tạo thành từ các phầntử của cùng một lớp Các nút (không phải là nút lá) là các điểm phân nhánh của cây.Việc phân nhánh tại các nút có thé dựa trên việc kiểm tra một hay nhiều thuộc tính để
xác định việc phân chia dữ liệu.
Tiêu chuẩn tách cây:Chúng ta mong muốn chọn thuộc tính sao cho việc phân lớp tập mẫu là tốt nhất.Như vậy chúng ta cần phải có một tiêu chuẩn dé đánh giá van dé này Có rất nhiều
tiêu chuẩn được đánh giá được sử dụng đó là: Lượng thông tin thu thêm IG
(information Gain), thuật toán ID3 của John Ross Quilan Công thức Gini với thuật
toán CART hay công thức entropy với thuật toán ID3,
Tiêu chuẩn dừng:Trong các thuật toán của Cây quyết định, nếu ở các node chưa có “pure” thì ta
sẽ phải chia mãi các node, vì thé ta sẽ thu được một cây mà mọi điểm trong tập training đều được dự đoán đúng, lúc này cây sẽ rất phức tạp và nhiều node con, nếu cứ tiếp
diễn như thế thì nhiều khả năng sẽ xảy ra overfitting Còn nếu việc phân nhánh dừngquá sớm, lỗi về dữ liệu tập training không đủ cao và hiệu suất sẽ bị ảnh hưởng do sự
sai lệch lớn giữa những giá trị mô hình chúng ta dự đoán được với giá tri thật, gây ra
hiện tượng underfitting.
Do vậy, chúng ta tập trung một số tiêu chuẩn dừng chung nhất được sử dụng
trong Cây quyết định Tiêu chuẩn dừng truyền thống sử dụng các tập kiểm tra Chúng
ta có thê thay ngưỡng như là giảm nhiễu, số các mẫu trong một nút, tỉ lệ các mẫu trongnút, hay chiều sâu của cây
Tia cây:
Sau giai đoạn tạo cây chúng ta có thé dùng phương pháp “Độ dài mô tả ngắn
nhất” (Minimum Description Length) hay giá trị tối thiêu của IG đề tia cây (chúng ta
Trang 36Chuyên đề thực tập chuyên ngành Toán Kinh tế
có thé chọn giá trị tối thiểu của IG trong giai đoạn tạo cây đủ nhỏ dé cho cây pháttriển tương đối sâu, sau đó lại nâng giá trị này lên dé tia cây)
2.3.2.4 Các bước tổng quát xây dựng Cây quyết định
Quá trình xây dựng Decision Tree — phân chia nhánh trong mô hình Cây quyết
định đều dựa trên các thuật toán, được định lượng rõ ràng dé cho quá trình này dem
lại kết quả tối ưu nhất
Việc xây dựng thuật toán Cây quyết định bao gồm các bước:Bước 1: Chọn lựa thuộc tinh đữ liệu dé chia dữ liệu, sử dung Attribute SelectionMeasures (ASM: Chỉ số đánh giá lựa chọn thuộc tính)
Bước 2: Tạo Internal Node với đặc tính và điều kiện ở trên.
Bước 3: Phân nhánh data tạo các Child node (Node con) và lặp lại tiến trình ở
trên cho đến khi một trong các điều kiện sau thỏa mãn, ta sẽ có Leaf node:
o_ Tất cả data của Node đều thỏa mãn điều kiện của Internal nodeo Không có đặc tính với điều kiện nào có thé được chọn nữa
o_ Không còn data nào thỏa mãn điều kiện của Internal node
Sinh cây quyết định
Lựa chọn thuộc tính Tách dữ liệu thành các
tôt nhât dựa vào chỉ sô > tap nhỏ hơn theo thuộc
Gain, Gini tinh cha
bạ Test top boinne 2 precision - dự đoán
— 3 recall — độ hồi tưởng
Hình 2.6 Các bước xây dựng Cây quyết địnhCác thuật toán của cây quyết định hoạt động dựa trên nguyên lý làm sao chọnra các node chứa các đối tượng dit liệu có khả năng tương đồng với nhau dé xác địnhcác nhóm, các lớp phù hợp cho các đối tượng này Do đó khi xây dựng một thuật toánCây quyết định, các chuyên gia phải sử dụng dé tính toán và dùng kết quả có được détìm ra phân nhánh tối ưu nhất
11175405 — Nguyễn Thi Hồng Yến 36
Trang 37Chuyên dé thực tập chuyên ngành Toán Kinh tê
2.3.2.5 Uu điểm của Cây quyết định
So với các phương pháp khai phá đữ liệu khác, Cây quyết định là phương phápcó một số ưu điểm:
e Thuật toán đơn giản, trực quan, không qua phức tạp để hiểu
e Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết.
Các kỹ thuật khác thường đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến phụ (dummy
variable) và loại bỏ các giá trị rỗng.
e Cây quyết định là một mô hình hộp trang Nếu có thé quan sát một tình huốngcho trước trong một mô hình, thì có thé dé dàng giải thích điều kiện đó bang logicBoolean Mạng Nơ-ron là một ví dụ về mô hình hộp đen, đo lời giải thích cho kết quảquá phức tạp dé có thé hiểu được
e Cây quyết định có thé xử lý cả dữ liệu có giá trị bằng số và dit liệu có giá trị là
tên thé loại Các kỹ thuật khác thường chuyên dé phân tích các bộ dữ liệu chỉ gồmmột loại biến Chăng hạn, các luật quan hệ chỉ có thể dùng cho các biến tên, trong khimạng nơ-ron chỉ có thé dùng cho các biến có giá trị bằng số
e_ Một số thuật toán của Cây quyết định có kha năng xử lý dữ liệu bị mat và dit
liệu bị lỗi mà không cần áp dụng phương pháp “Imputting Missing Values” hay loạibỏ Bên cạnh đó Cây quyết định ít bị ảnh hưởng bởi các dữ liệu ngoại lệ
e_ Có thể thâm định một mô hình bằng các kiểm tra thống kê Điều này làm cho
ta có thể tin tưởng vào mô hình Thuật toán không sử dụng tham số nên không cầnphải có các giả định ban đầu về các quy luật phân phối như trong thống kê, vì thế kết
quả phân tích có được là khách quan.
e Cây quyết định có thé xử lý tốt một lượng dé liệu lớn trong thời gian ngắn Cóthé dùng máy tính cá nhân dé phân tích các lượng dữ liệu lớn trong một thời gian đủngắn dé cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của câyquyết định
e Thuật toán giúp phân lại đối tượng dit liệu theo biến mục tiêu có nhiều lớp,
nhiều nhóm khác nhau, đặc biệt nếu biến mục tiêu là dạng biến định lượng phức tạp2.3.2.6 Một số thuật toán xây dựng Cây quyết định
Ý trởng chung của các thuật toánĐề xây dựng Cây quyết định, cần xác định thứ tự của thuộc tính cần được xem
xét tại mỗi bước Với các bài toán có nhiêu thuộc tính và môi thuộc tính có nhiêu giá
11175405 — Nguyễn Thị Hồng Yến 37