1. Trang chủ
  2. » Luận Văn - Báo Cáo

Chuyên đề thực tập: Ứng dụng học máy để phân tích và dự báo ý định mua mỹ phẩm online của khách hàng

74 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng học máy để phân tích và dự báo ý định mua mỹ phẩm online của khách hàng
Tác giả Nguyễn Thị Hồng Yến
Người hướng dẫn PGS.TS Nguyễn Thị Minh
Trường học Trường Đại học Kinh tế Quốc dân
Chuyên ngành Toán Kinh tế
Thể loại Chuyên đề thực tập
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 74
Dung lượng 19,72 MB

Nội dung

Mục đích nghiên cứu Chuyên đề được thực hiện với mục đích phân tích dự báo quyết định mua mỹ phẩm online của khách hàng dựa trên phương pháp Học máy, từ đó đưa ra kiến nghịdé giúp các cử

Trang 1

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TE

OBS 518 địt fe dc c3 c oo ok ok

CHUYEN DE THUC TAP UNG DUNG HOC MAY DE PHAN TICH VA DU BAO Y DINH MUA

MY PHAM ONLINE CUA KHACH HANGTAI

Sinh viên thực hiện: Nguyễn Thị Hồng Yến

Trang 2

Chuyên đề thực tập chuyên ngành Toán Kinh tế

LỜI CẢM ƠN

Em xin gửi lời cảm ơn sâu sắc nhất tới PGS.TS Nguyễn Thi Minh — người đãtận tình hướng dẫn và giúp đỡ em trong suốt quá trình làm chuyên đề tốt nghiệp Em

cũng xin được gửi lời cảm ơn tới các thầy, cô trong khoa Toán Ứng dụng trong Kinh

Tế - Trường Đại học Kinh Tế Quốc dân đã giảng dạy, truyền đạt rất nhiều kiến thứcquý giá cho em trong suốt 4 năm học vừa qua Nhờ sự hỗ trợ của các thầy cô, em đãmở mang thêm rất nhiều điều, không chỉ về kiến thức mà còn về cả những kinh nghiệmsống, góp phần làm hành trang vững chắc trên con đường tương lai sau này Tuy đãcố gang hết sức song kiến thức ban thân còn nhiều hạn chế nên bài nghiên cứu không

thê tránh khỏi những sai sót nhất định, mong thầy cô thông cảm và đóng góp cho em

để bài làm được hoàn thiện hơn

Em xin chân thành cảm ơn!

Tác giả

Nguyễn Thị Hồng Yến

Trang 3

Chuyên đề thực tập chuyên ngành Toán Kinh tế

Chuong 1 CO SO LY LUAN VA TONG QUAN NGHIEN CUU 11

1.1 MOT SO KHAI NIEM 11

1.1.1 Khái quát về thương mại điện tử 111.1.2 Khai quat vé my pham 141.2 CƠ SỞ LY THUYET VE HANH VI CUA NGƯỜI TIEU DUNG 19

1.2.1 Mô hình thuyết hành động hợp li (Theory of Reasoned Acion — TRA) 191.2.2 Mô hình thuyết hành vi dự định (Theory of Planned Behavior — TPB) 191.2.3 Mô hình chấp nhận công nghệ (TAM) 201.3 TONG QUAN NGHIÊN CỨU 22Chương 2 PHƯƠNG PHÁP NGHIÊN CỨU 25

2.1 PHƯƠNG PHÁP HOC MAY 25

2.1.1 Khái niệm của Học Máy 25

2.1.2 Lịch sử ra đời và sự phát triển của Học máy 26

2.2 PHAN LOẠI CÁC BÀI TOÁN CUA HỌC MAY 282.3 MỘT SỐ THUẬT TOÁN HỌC MÁY PHÂN LOẠI 29

2.3.1 Thuật toán Hồi quy Logistic 292.3.2 Thuật toán Cây quyết định (Decision Tree) 31

2.3.3 Thuật toán Rừng ngẫu nhiên (Random Forrest) 43

Chương 3 UNG DUNG MACHINE LEARNING DE DU BAO QUYẾT ĐỊNH

MUA MY PHAM ONLINE CUA KHACH HANG 50

3.1 DU LIEU VA CHON BIEN 50

Trang 4

Chuyên đề thực tập chuyên ngành Toán Kinh tế

3.3 THUẬT TOÁN CAY QUYET ĐỊNH VÀ KET QUA 3.4 THUẬT TOÁN RUNG NGAU NHIÊN VA KET QUA 3.5 SO SANH KET QUA CAC MÔ HÌNH

Chuong 4 KET LUAN VA KIEN NGHI

4.1 KET LUAN

4.2 KHUYEN NGHI4.3 HAN CHE CUA DE TÀI VA HƯỚNG NGHIÊN CỨU TIẾP THEOTAI LIEU THAM KHAO

PHU LUC

11175405 — Nguyễn Thị Hồng Yến

59 64 66 67 67 68 69 70 72

Trang 5

Chuyên đề thực tập chuyên ngành Toán Kinh tế

DANH MỤC TỪ VIET TAT

Trang 6

Chuyên đề thực tập chuyên ngành Toán Kinh tế

DANH MỤC HINH, BIEU DO

Hình 1.1 Mô hình thuyết hành động hợp ly (TRA) 19Hình 1.2 Mô hình thuyết hành vi dự định (TPB) 20Hình 1.3 Mô hình chấp nhận công nghệ (TAM) 21Hình 1.4 Mối quan hệ giữa 3 mô hình TRA, TPB va TAM 21Hình 1.5 Mô hình nghiên cứu dé xuất 22Biểu đồ 2.1 Máy học là một tập con của AI (Artificial Intelligence — Trí tuệ nhân

11175405 — Nguyễn Thị Hồng Yến 6

Trang 7

Chuyên đề thực tập chuyên ngành Toán Kinh tế

DANH MỤC BANG

Bảng 3.1 Giải thích các biến trong mô hình

Bảng 3.2 Mô tả dữ liệu

Bảng 3.3 Các tham số kết quả của thuật toán Hồi quy Logsistic

Bảng 3.4 Chỉ số Mean Decrease Gini

Bang 3.5 Confusion Matrix and Statistic

Bang 3.6 Mô hình Cây quyết định

Bang 3.7 Confusion Matrix

Bang 3.8 Thông số đo lường thuật toán Rừng ngẫu nhiên

Bảng 3.9 Confusion Matrix

Bảng 3.10 Chỉ số đánh giá các mô hình nghiên cứu

11175405 — Nguyễn Thị Hồng Yến

50 51 57 59 59 61 64 65

65

66

Trang 8

Chuyên dé thực tập chuyên ngành Toán Kinh tê

MỞ ĐẦU

1 Lý do lựa chọn đề tài

Trong xã hội hiện đại ngày nay, xu thế hội nhập cùng với sự phát triển nhanhchóng của thế giới đã khiến nhu cầu của con người về tiêu dùng và dịch vụ ngày càngtăng cao Trong mấy năm trở lại đây, sự phát triển vượt bậc của công nghệ thông tinvà Internet trong thời đại Công nghiệp 4.0 đã giúp cho hình thức mua sắm online tiếngần hơn với thị hiếu người tiêu dùng Đặc biệt, khi tình hình dịch bệnh đang diễn biếnrất phức tạp, thị trường thương mại điện tử càng hoạt động sôi nổi hơn bao giờ hết.Ké từ khi nhiều quốc gia trên thế giới buộc phải áp đặt lệnh phong tỏa nhằm kiềm chế

sự lây lan của virus Corona, thuật ngữ trạng thái “bình thường mới” đã được ra mat

tại nhiều khu vực khác nhau trên khắp thế giới Mục tiêu đạt được trạng thái “bìnhthường mới” đó đã khiến mọi người tim kiếm các lựa chọn tốt hơn và an toàn hơn,bao gồm cả trải nghiệm mua sắm của họ Tại thời điểm bắt đầu bùng phát của đại dịch

COVID-19, đã xảy ra nhiều bất ôn và xáo trộn trong toàn ngành tiêu dùng Tuy nhiên,khi mọi người bắt đầu thay đổi và thích nghi được với trạng thái bình thường mới,

nhiều lựa chọn thay thế bắt đầu được khám phá và sử dụng và cuối cùng trở nên phổ

biến hơn, đặc biệt là trong lĩnh vực kinh doanh trực tuyến.

Mặc dù vậy, ngoài những tiện ích mà tiêu dùng online đem lại, trên thị trường

van còn nhiều kẽ hở, những mặt hàng kém chất lượng và những thông tin giả mạo cóthé tràn vào thị trường một cách dé dàng gây ra những tác hại nhất định cho ngườitiêu dùng, ảnh hưởng không nhỏ đến sự tin tưởng của người tiêu đối với thị trườngthương mại điện tử Điều này có thé nhận thấy rất rõ ràng thông qua việc những mỹphẩm giá rẻ chất lượng kém tran lan trên thị trường, người tiêu dùng rất khó có thénhận biết giữa hàng nhái và hàng thật Hay nói cách khác, tồn tại sự bất đối xứngthông tin giữa người mua mỹ phẩm và người bán mỹ phẩm, trong đó người mua mỹphẩm biết ít thông tin về mỹ phẩm hơn so với người bán Nam được những thực tiễntồn đọng đó, nhiều công ty thương mại điện tử và dịch vụ viễn thông vẫn đang phảiđối mặt với bài toán hóc búa là làm thé nào dé khách hang có thé yên tâm giao dịchbăng hình thức trực tuyến? Đối với những mặt hàng chứa thông tin bất đối xứng như

mỹ phẩm thì việc tạo dựng lòng tin với người tiêu dung sẽ càng thêm khó khăn

Dựa trên tính thiết thực cũng như nhu cầu thực tiễn của doanh nghiệp, em quyếtđịnh chọn đề tài “Ứng dụng Học máy để phân tích và dự báo quyết định mua mỹ

Trang 9

Chuyên dé thực tập chuyên ngành Toán Kinh tê

phẩm online của khách hàng” Em hy vọng rằng đây sẽ là một đề tài mang tính ứng

dụng cao trên thị trường tiêu dùng trực tuyến, góp cải thiện các chiến lược kinh doanhnhằm dự báo được quyết định mua hàng của người tiêu dùng

2 Mục đích nghiên cứu

Chuyên đề được thực hiện với mục đích phân tích dự báo quyết định mua mỹ

phẩm online của khách hàng dựa trên phương pháp Học máy, từ đó đưa ra kiến nghịdé giúp các cửa hang, trang web bán mỹ phẩm online cải thiện về chiến lược bán hang,

cụ thể là các chiến lược giúp dự báo quyết định mua sắm của khách hàng.

3 Câu hỏi nghiên cứu

Đề thực hiện việc nghiên cứu đề tài, ta sẽ cần phải giải quyết các câu hỏi sau

đây:

- Céu hỏi nghiên cứu 1: Tác động của các yếu tỗ đến ý định mua mỹ phẩm

theo phương thức trực truyền của khách hàng?- _ Câu hỏi nghiên cứu 2: Làm thé nào dé dự báo ý định mua hàng online của

khách hàng một cách có hiệu quả?

4 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứuCác nhân tố ảnh hưởng đến quyết định của khách hàng đối với việc mua sắmmỹ phẩm online

Pham vi nghiên cứu

Những khách hàng có thé là sinh viên hoặc người đã đi làm đã từng trải nghiệmmua mỹ phẩm theo phương thức trực tuyến

5 Phương pháp nghiên cứu

5.1 Phương pháp thu thập thông tin, số liệu

Dữ liệu được thu thập từ một cửa hàng đang kinh doanh mỹ phẩm theo hình

thức trực tuyến trên địa bàn Hà Nội

5.2 Phương pháp phân tích, xứ lý thông tin dữ liệu

® Tìm hiểu đề tài và tổng kết lý thuyết có liên quan đến dự báo quyết định

® Sử dụng chương trình phân tích chuyên dụng trên máy tính (R, SPSS,

Weka, )

11175405 — Nguyễn Thị Hồng Yến 9

Trang 10

Chuyên đề thực tập chuyên ngành Toán Kinh tế

® Ứng dụng thuật toán Học Máy vào việc dự báo quyết định mua hàng của

người tiêu dùng

6 Cấu trúc chuyên đề

Đề tài được chia làm 4 phần chính:

Chương 1: Cơ sở lý luận và tổng quan nghiên cứu

Trong chương 1, chuyên đề trình bày khái quát các van dé lý thuyết liên quanđến thị trường thương mại điện tử, bao gồm khái niệm và các đặc trưng cơ bản; kháiniệm về mỹ phâm và thị trương tiêu dùng mỹ phẩm trong thương mại điện tử

Chương 2: Phương pháp nghiên cứu

Chương 2 nêu ra khái quát về phương pháp Học máy, cũng như những lýthuyết có liên quan về các thuật toán điển hình trong phương pháp Hoc máy dùng dé

định của khách hàng trong việc mua sắm mỹ phâm băng phương thức trực tuyến

Chương 4: Kết luận và kiến nghị

Kết quả của Chương 3 sẽ là cơ sở dé Chương 4 đưa ra những kết luận và

đóng góp ý kiến cho các cửa hàng đang kinh doanh mỹ phẩm trực tuyến, giúp các

cửa hàng thấu hiểu ý định của khách hàng, tăng doanh thu va lợi nhuận.

11175405 — Nguyễn Thi Hồng Yến 10

Trang 11

Chuyên dé thực tập chuyên ngành Toán Kinh tê

Chương 1 CƠ SỞ LÝ LUẬN VÀ TONG QUAN NGHIÊN CUU

Nghiên cứu “Ứng dụng thuật toán Học máy dé phân tích và dự báo quyết địnhmua hàng online” là một phương pháp hiệu quả nhằm dự báo quyết định mua của

người tiêu dùng, từ đó xác định ra những yếu tố cần thay đổi hay cải thiện dé đáp ứng được nhu cầu mua sắm của khách hàng Nắm bắt được lợi thế đó, trong suốt thời gian

qua đã có rất nhiều nghiên cứu xoay quanh việc dự báo quyết định mua sắm trên mọilĩnh vực, bởi với bất kì một hoạt động kinh doanh nào muốn tồn tại và phát triển, việclắng nghe khách hàng đề hoàn thiện chất lượng là điều tiên quyết Chương 1 của đềtài sẽ đề cập tới một số khái niệm liên quan tới việc dự báo quyết định mua hàng cũng

như một số nghiên cứu có ứng dụng Hoc máy dé nghiên cứu van đề này Từ đó lựa

chọn được hướng đi phù hợp nhất với nghiên cứu “Ứng dụng Học máy để dự báoquyết định mua mỹ phẩm online của khách hàng” Một số khái niệm về thương mạiđiện tử, mỹ phẩm và thực trạng thị trường tiêu dùng hiện nay cũng được đề cập đến

trong chương này.

1.1 MOT SO KHÁI NIỆM

1.1.1 Khai quat về thương mại điện tử1.1.1.1 Khái niệm về thương mại điện tử

Thương mại điện tử là hình thức mua và bán hàng hóa và dịch vụ, chuyền tiềnhay dữ liệu trên môi trường Internet qua nền tảng hoặc website bán hàng (còn gọi làwebsite Thương mại điện tử) Phạm vi của Thương mại điện tử rất rộng và bao quấthầu hết các lĩnh vực của hoạt động kinh tế (việc mua bán hàng hóa và dich vụ chỉ làmột trong rất nhiều lĩnh vực áp dụng của Thương mại điện tử) Các giao dịch kinhdoanh Thương mại điện tử này xảy ra với nhiều tư cách khác nhau: doanh nghiệp với

doanh nghiệp (B2B), doanh nghiệp với người tiêu dùng (B2C), người tiêu dùng với

người tiêu dùng hoặc người tiêu dùng với doanh nghiệp Với sự phát triển bùng nỗ

hiện nay, thương mại điện tử đã trở thành một phần quan trọng trong hoạt động mua

sắm tiêu dung của nhiều người tiêu dùng Ngoài việc mua trực tiếp từ một nhà bán lẻ,

người dùng ngày cảng ưa chuộng mô hình thương mại điện tử với 93% ở khu vựcchâu Á - Thái Bình Dương đã thực hiện giao dịch tại các trang thương mại điện tử

trong 3 tháng vừa qua Tuy nhiên, khác với hình thức mua sắm truyền thống, có rất

11175405 — Nguyễn Thị Hồng Yến 11

Trang 12

Chuyên đề thực tập chuyên ngành Toán Kinh tế

nhiều yếu tố quan trọng sẽ tác động tới quyết định mua hang của người tiêu dùngtrong mua sắm trực tuyến

Theo nghĩa hẹp, thương mại điện tử chỉ gồm các hoạt động thương mại được

tiến hành trên mang máy tính mở như Internet, trên thực tế chính các hoạt động thương

mại thông qua mạng Internet đã phát sinh thuật ngữ Thương mại điện tử.

Thương mại điện tử được thực hiện đối với cả thương mại hàng hóa (ví dụ nhưhàng tiêu dùng, các thiết bị y té chuyén dung) va thuong mai dich vu (vi du nhu dich

vu cung cấp thông tin, dịch vụ pháp lý, tài chính); các hoạt động truyền thống (như

chăm sóc sức khỏe, giáo dục) và các hoạt động mới (ví dụ như siêu thị ảo) Thương

mại điện tử đang trở thành một cuộc cách mạng làm thay đôi cách thức mua sắm của

COn người.

Hiện nay có rất nhiều tranh cãi về các hình thức và cách phân chia các hình

thức này trong thương mại điện tử.

e Dựa theo đối tượng chính (Chính phủ, Doanh Nghiệp và Khách hàng), thương

mại điện tử được chia là 9 hình thức chính:

o Doanh nghiệp với Doanh nghiệp (B2B)

Doanh nghiệp với Khách hàng (B2C) Doanh nghiệp với Nhân viên (B2E) Doanh nghiệp với Chính phủ (B2G) Chính phủ với Doanh nghiệp (G2B) Chính phủ với Chính phủ (G2G)

Chính phủ với Công dân (G2C) Khách hàng với Khách hàng (C2C)

o Khách hàng với Doanh nghiệp (C2B)

e Dựa theo hình thức kinh doanh, thương mại điện tử được chia làm 2 loại:

© O 0 0 0 0 0

o Thương mại điện tử truyền thống

o Thương mại điện tự hiện đại

+ T-commerce (thương mại truyền hình)

» M-commerce (thương mại di động)

Thị trường thương mại điện tử là thị trường có tính bất đối xứng về thông tinrất lớn Việc chênh lệch về thông tin giữa người bán hàng và người mua hàng gây rarất nhiều rủi ro trong việc giao dịch hàng hóa trên thị trường này Đây là một vấn đề

11175405 — Nguyễn Thị Hồng Yến 12

Trang 13

Chuyên đề thực tập chuyên ngành Toán Kinh tế

nhức nhối với các nhà danh nghiệp trực tuyến, khi vừa phải giảm thiểu rủi ro trong

giao dịch trực tuyến, vừa phải đảm bảo tăng lượng giao dịch trên các sàn giao dịchđiện tử để từ đó giúp tăng doanh thu bán hàng

1.1.1.2 Đặc trưng của thương mại điện tử

So với các hoạt động thương mại truyền thống, thương mại điện tử có một 36

diém khac biét co ban sau:

© Các bên tiến hành giao dich trong thương mai điện tử không tiếp xúc trực tiếp

với nhau và không đòi hỏi phải biết nhau từ trước

Trong Thương mại truyền thống, các giao dịch được tiến hành trực tiếp và thựchiện chủ yếu theo nguyên tắc vật lý như chuyên tiền, séc hóa đơn, vận đơn, gửi báocáo Các phương tiện viễn thông như: fax, telex, chỉ được sử dụng dé trao đôi sốliệu kinh doanh Việc sử dụng các phương tiện điện tử trong thương mại truyền thongchỉ dé truyền tải thông tin một cách trực tiếp giữa các đối tác trong cùng một giaodịch, cho phép mọi người tham gia từ các vùng xa xôi hẻo lánh đến các khu đô thịlớn, tạo điều kiện cho tất cả mọi người ở khắp mọi nơi đều có cơ hội ngang nhau thamgia vào thị trường giao dịch toàn cầu và không đòi hỏi nhất thiết phải có mối quan hệ

quen biét với nhau.

e@ Cac giao dịch thương mại truyền thống được thực hiện với sự ton tại của khái

niệm biên giới quốc gia, con thương mại điện tử được thực hiện trong một thị trườngkhông có biên giới (thị trường thong nhất toàn cau) Thương mại điện tử trực tiếp tác

động tới môi trường cạnh tranh toàn cau.

Việc thương mại điện tử phát triển giúp cho máy tính cá nhân trở thành cửa sốcho doanh nghiệp hướng ra ngoài thị trường trên khắp thế giới

e Trong hoạt động giao dịch thương mại điện tử đều có sự tham ra của ít nhất

ba chủ thể, trong đó có một bên không thể thiếu được là người cung cấp dịch vụ mạng,

các cơ quan chứng thực.

Trong Thương mại điện tử, ngoài các chủ thê tham gia quan hệ giao dịch giốngnhư giao dịch thương mại truyền thống đã xuất hiện một bên thứ ba đó là nhà cung

11175405 — Nguyễn Thị Hồng Yến 13

Trang 14

Chuyên đề thực tập chuyên ngành Toán Kinh tế

cấp dịch vụ mạng, các cơ quan chứng thực là những người tạo môi trường cho cácgiao địch thương mại điện tử Nhà cung cấp dịch vụ mạng và cơ quan chứng thực cónhiệm vụ chuyền đi, lưu giữ các thông tin giữa các bên tham gia giao dịch thương mạiđiện tử, đồng thời họ cũng xác nhận độ tin cậy của các thông tin trong giao dịch thương

mại điện tử.

e Đối với thương mại truyền thống thì mạng lưới thông tin chỉ là phương tiện

dé trao đồi dữ liệu, còn đối với thương mại điện tử thì mạng lưới thông tin chính la

thị trường.

Nhiều loại hình kinh doanh mới được hình thành thông qua Thương mại điệntử Các trang Web khá nổi tiếng như Yahoo hay Google đóng vai trò quan trọng cungcấp thông tin trên mạng, trở thành các “khu chợ” khổng lồ trên internet Với mỗi lầnnhấn chuột, khách hàng có khả năng truy cập vào hàng ngàn cửa hang ảo khác nhauvà tỷ lệ khách hàng vào thăm rồi mua hàng là rất cao Người tiêu dùng đã bắt đầu muatrên mạng một số các loại hàng trước đây được coi là khó bán trên mạng Nhiều ngườisẵn sàng trả thêm một chút tiền còn hơn là phải đi tới tận cửa hàng Một số công ty đãmời khách may đo quan áo trên mạng, tức là khách hàng chọn kiểu, gửi số đo theohướng dẫn tới cửa hàng (qua Internet) rồi sau một thời gian nhất định nhận được bộ

quan áo theo đúng yêu cầu của mình Điều tưởng như không thé thực hiện được nàycũng có rất nhiều người hưởng ứng

1.1.2 Khái quát về mỹ phẩm1.1.2.1 Khái niệm về mỹ phẩm

Mỹ phẩm ngày nay đã trở thành một món hàng tiêu dùng không thé thiếutrong giỏ hàng của mọi người, đặc biệt là với chị em phụ nữ Phụ nữ dùng mỹ phẩmđể chăm sóc và làm đẹp cho bản thân, khiến họ luôn cảm thấy rạng rỡ và tự tin hơn.Hiện nay có rất nhiều khái niệm khác nhau đề định nghĩa về mỹ phẩm Ở Mỹ, cục

quan lí thực phẩm và được phẩm (FDA) định nghĩa: "Mj phẩm là chất dùng để bôi

thoa vào cơ thể người nhằm tẩy sạch, tô điểm, tăng cường độ thu hút hoặc thay đổidiện mạo mà không ảnh hưởng đến cấu trúc hoặc chức năng của cơ thể” Định

nghĩa rộng này bao gồm bat ky chất liệu nào được sử dụng làm thành phần của mộtsản phẩm mỹ phẩm, trừ xà phòng Ở Việt Nam, theo Bộ Y tế quy định thì: “San

phẩm mỹ phẩm là một chất hay chế phẩm được sử dụng để tiếp xúc với những bộ

11175405 — Nguyễn Thị Hồng Yến 14

Trang 15

Chuyên đề thực tập chuyên ngành Toán Kinh tế

phận bên ngoài cơ thể con người (da, hệ thống lông tóc, móng tay, móng chân, môivà cơ quan sinh duc ngoài) hoặc răng và niêm mạc miệng với mục dich chính là délam sach, lam thom, thay đổi diện mao, hình thức, điều chỉnh mùi cơ thé, bảo vệ cơthể hoặc giữ cơ thể trong điều kiện tot”

Các loại mỹ phẩm phô biến gom CÓ son môi, mascara, phan mat, kem nén, phanmá hồng, phan phủ, sữa rửa mặt va sữa dưỡng thé, dau gội, sản pham tạo kiểu tóc (gelvuốt tóc, gôm xịt tóc, ), nước hoa

1.1.2.2 Đặc điểm, đặc tính của mỹ phẩm

Thành phân của mỹ phẩm

Một loạt các hợp chất hữu cơ và hợp chat vô cơ có trong mỹ phẩm điên hình.

Hợp chất hữu cơ điền hình là dầu và mỡ tự nhiên đã tinh chế cũng như một loạt tácnhân có gốc hóa dầu Hợp chất vô cơ là những khoáng chất được xử lý như oxit sat,talc và oxit kẽm Oxit kẽm và sắt được phân loại là sắc tố, nghĩa là chất tao màu không

khả năng hòa tan trong dung môi.

Tiêu chí phân loại mỹ phẩmDựa vào tính năng, mục đích sử dụng, thành phần công thức được dùng củasản phẩm và định nghĩa về mỹ phẩm, hiện nay trên thị trường, mỹ phẩm được chia

thành 2 loại chính:

e Dược mỹ phâm: Là sự kết hợp đan xen giữa “mỹ phẩm” (Cosmetics) và “đượcpham” (Pharmaceuticals), vừa có tac dụng làm dep, chăm sóc da vừa có tac dụng nhưthuốc điều trị đối với làn da Hiện nay Dược mỹ pham đang được biết đến và sử dungrộng rãi trong nhiều ngành hang mỹ pham, đặc biệt là mỹ phẩm ngành spa

e Hóa mỹ pham: Là một dạng mỹ phẩm sử dụng chăm sóc da hàng ngày, trong

đó hóa mỹ phẩm thưởng sử dụng các hoạt chất tạo mùi hương thơm, dưỡng da khỏe,đẹp Thành phần cấu tạo chủ yếu của hóa mỹ phẩm thường sử dụng các nguyên liệudưới dạng sáp, bột, dầu, chất lỏng, và một số dạng nguyên liệu khác giúp tạo mùi,màu sắc đặc biệt Hóa mỹ phẩm giúp làm sạch da, làm trắng, dưỡng da, bảo vệ dachống nẻ, khô, bong tróc, bảo vệ da và tóc, thường có ở kem đánh răng, nước hoa,

son môi, thuốc nhuộm tóc, bút kẻ mắt,

Đặc tính của mỹ phẩm:Mỹ phẩm là một mặt hàng có tính bất đối xứng cao Sở dĩ có thể nói như vậybởi vì những người tiêu dùng mỹ phẩm không thể biết hết toàn bộ về chất lượng củamột món đồ mỹ phẩm mà họ mua Bắt đối xứng thông tin tồn tại giữa người bán và

11175405 — Nguyễn Thị Hồng Yến 15

Trang 16

Chuyên dé thực tập chuyên ngành Toán Kinh tê

người mua mỹ phẩm, trong đó người mua mỹ phẩm biết ít thông tin về hàng hóa hơnso với người bán Khách hàng rất khó có thê kiêm nghiệm được đặc tính của mỹ phẩmkhi đưa ra quyết định tiêu dùng, bởi lẽ mặt hàng mỹ pham không giống như nhữngmặt hang thông thường có thể kiểm chứng trực tiếp (vai vóc, quần áo, ) mà nó chỉthé hiện kết quả sau một thời gian dài khi sử dụng Chính vi sự bất đối xứng khiếnngười tiêu dùng gặp rất nhiều rủi ro khi mua mỹ phẩm, đặc biệt là mua hang thôngqua hình thức trực tuyên Đề giảm thiêu được sự bất đối xứng thì chúng ta phải hiểubiết rõ những đặc điểm của mỹ phẩm:

e Mỹ phẩm tạo nên các ảnh hưởng/hiệu qua không vĩnh viễn và cần phải sử dụngthưởng xuyên dé duy trì hiệu qua Các sản phâm điều chỉnh vĩnh viễn, phục hồi hoặclàm thay đôi chức năng cơ thê băng cơ chế miễn dịch, trao đổi chất hoặc cơ chế đượclý không được phân loại là mỹ phẩm

e Sản phẩm dùng băng cách uống, tiêm hoặc tiếp xúc với những phần khác của

cơ thê thì không được phân loại là mỹ phẩm

e Một số cụm từ thường không được chấp nhận trong việc công bồ tính năng mỹ

phẩm theo từng loại sản phẩm:

o Cac từ mang ý nghĩa cho chữa khỏi như “tri”, “điều trị”, “chữa trị”,không được chấp nhận trong việc công bố tính năng cũng như đặt tên sản phẩm mỹphẩm

o Những sản phẩm có mục đích sử dụng khử trùng, khử khuẩn, kháng

khuẩn chỉ được chấp nhận phù hợp với tính năng sản phâm mỹ phẩm nếu được công

bố là công dụng thứ hai của sản phẩm.

Phân loại mỹ phẩm:Mỹ phẩm thường được chia thành 3 loại chính:e Mỹ phẩm bề ngoài: các sản phẩm trang điểm bề mặt (sản phẩm make up, sơnmóng tay, thuốc nhuộm tóc, ) Các sản phẩm này chỉ tác động đến vẻ bề ngoài chứ

không di sâu vào sinh lí da.

e Mỹ phẩm dự phòng, bao gồm các sản phẩm chăm sóc da, dưỡng da dành choviệc làm chậm lại các biến đổi sinh lý của da (lão hóa, khô da) và bảo vệ chống lạicác tác nhân bên ngoài (ô nhiễm, ánh nắng, chất kích ứng)

e Các sản phâm sửa chữa được dùng khi người ta đã thất bại trong dự phòng va đối mặt với các ton thương phải chăm sóc, khắc phục chúng bằng các sản phâm như

lam căng, làm 4m, làm láng, tái sinh, giảm béo, chong rụng tóc,

11175405 — Nguyễn Thị Hồng Yến 16

Trang 17

Chuyên đề thực tập chuyên ngành Toán Kinh tế

Ngoài ra còn có thể phân loại mỹ phảm theo các bộ phận mà nó cho tác dụng

như sau:

o Mỹ phẩm dành cho mặt gồm: sữa rửa mặt, nước hoa hồng, son, serum, sản

pham tri mun, nam,

o My pham dành cho cơ thé: lăn khử mùi, sữa dưỡng thể, nước hoa,

o_ Mỹ phâm dành cho móng: sơn móng tay, dung dịch rửa tay khô, sữa rửa

tay,

o My pham dành cho trẻ sơ sinh: dầu tắm, phắm rôm,

o Mỹ phẩm dành cho tóc: Thuốc nhuộm tóc, đầu gội, dầu xả, gel xit toc, kem

dưỡng tóc,

1.1.2.3 Thực trạng tiêu dùng mỹ phẩm

Việt Nam là một thị trường đây hứa hẹn trong việc đầu tư về ngành mỹ phẩm.Với tình hình kinh tế ngày càng 6n định và phát triển, thế hệ trẻ lại chiếm đến 60%dân sé, thị trường Việt Nam đang là một những những miếng môi ngon được các tậpđoàn mỹ phẩm hàng dau thế giới hướng đến Hàng nghìn thương hiệu mỹ phẩm đãxuất hiện đưới nhiều hình thức khác nhau (mở văn phòng đại diện, đặt đại lý, nhàphân phối bán hàng, thành lập công ty và xây dựng nhà máy sản xuất), trong đó cónhiều dong mỹ phẩm cao cấp như Shiseido, Fendi, Lower, Clairins, L’oreal Ngoaira một số thương hiệu nội dia cũng tạo dựng được một vi thế nhất định như Thorakao,

Lana, Biona, Xmen, Thai Dương,

Dau năm 2020, một cuộc khảo sát 458 nữ từ 16 tuổi trở lên được tiến hành bởiQ&Me đã cho thấy kết quả:

e Số tiền chi tiêu trung bình cho mỹ phẩm chăm sóc da là 436.000 VNĐ Trong

đó, 21% số người khảo sat chi tiêu 200.000VNĐ mỗi tháng cho mỹ phâm, 8% chihơn 50.000VND và chi hơn 1.000.000VNĐ chiếm 7%

e Người ta sẵn sàng chi tiêu nhiều hơn cho việc tiêu ding mỹ phẩm ở hai thành

phố lớn là Hà Nội và Hồ Chí Minh

e Các cửa hang trong trung tâm thương mại và các cửa hàng bên ngoài của

thương hiệu là nơi mua sắm mỹ pham phô biến nhất Bên cạnh đó, các trang thươngmại điện tử cũng dan trở thành một kênh quan trọng với 73% đã từng mua sim mỹphẩm tại đây

11175405 — Nguyễn Thị Hồng Yến 17

Trang 18

Chuyên đề thực tập chuyên ngành Toán Kinh tế

e Độ tuôi là yếu tô ảnh hưởng lớn đến nhu cầu tiêu thụ mỹ phẩm (người từ 23tuôi trở lên có nhu cầu lớn — chiếm 61%)

e Thói quen sử dụng mỹ phẩm khác biệt theo từng độ tuổi Hơn một nửa số người

từ 23 tudi trở lên trang điểm thường xuyên khi đi làm/đi học, đi chơi hoặc tham dự

e Đối tượng không dùng trang điểm thường là những người trẻ (dưới 30 tuổi),

không biết cách trang điểm đúng cách hoặc không có thời gian cho trang điểm

e Son môi va sửa rita mặt (bao gồm tay trang) là hai sản phẩm được sử dụng

nhiêu nhất trong nhóm các sản phâm trang điêm và dưỡng da.

Từ năm 2019 lên đầu năm 2020, nhu cầu mỹ phẩm có sự tăng trưởng rõ rệt từ57% lên 63% Những khách hàng mua sắm trực tuyến sẵn sàng chỉ tiền nhiều hơn khicó khuyến mại trên các trang web bán hàng và khi họ nhìn thấy được nhiều đánh giátích cực từ những người đã sử dụng Một trong những lý do khiến người tiêu dùng từchối mua sắm mỹ phẩm online là do họ không tin tưởng vào chất lượng (56%) va tính

trung thực của thông tin mà họ nhận được.

Mặc dù thị trường mỹ phâm Việt Nam hiện có doanh thu 15.000 tỷ đồng mộtnăm (xấp xỉ 700 triệu USD), các doanh nghiệp mỹ phẩm Việt Nam chỉ chiếm 10% thịtrường Các doanh nghiệp mỹ phẩm hiện nay chi trụ được ở phân khúc giá rẻ và xuấtkhẩu sang một số thị trường lân cận (90% các doanh nghiệp mỹ phâm Việt Nam làđại lý phân phối của các nhà mỹ phẩm nước ngoài) Hầu hết mỹ pham ngoại đềuchiếm lĩnh các trung tâm thương mại tại Việt Nam

11175405 — Nguyễn Thị Hồng Yến 18

Trang 19

Chuyên dé thực tập chuyên ngành Toán Kinh tê

1.2 CƠ SỞ LÝ THUYET VE HANH VI CUA NGƯỜI TIEU DUNG1.2.1 Mô hình thuyết hành động hợp lí (Theory of Reasoned Acion — TRA)

Một trong những mô hình nỗi tiếng nhất trong lĩnh vực xác định hành vi tiêudùng là mô hình thuyết hành động hợp lý (TRA) Mô hình TRA cho rằng có 2 nhântố tác động đến ý định hành vi (Behaviour Intension — BI) là thái độ cá nhân đối vớihành vi (Attitude Toward The Behavior — ATT) và sự ảnh hưởng của chuẩn chủ quan

(Subjective Norm — SN) xung quanh việc thực hiện các hành vi đó (Fishbein và Ajzen,

1975) Trong đó, Thái độ và Chuan chủ quan có tầm quan trọng trong ý định hành vi.

Tuy nhiên, mô hình này hoạt động không hiệu quả khi sử dụng với những người tiêudùng không thé kiểm soát hành vi (hành động theo thói quen hay ý thức không làmchủ được hành vi).

® Thái độ là một trong những yếu tố tiên quyết ảnh hưởng đến ý định hành vi,nó biểu thị cách mà mọi người cảm nhận một hành vi cụ thể Thái độ về hành vi đượcphản ánh qua hai yếu tố: sức mạnh của niềm tin về kết quả mà hành vi đem lại vàđánh giá kết quả tiềm năng Và tùy thuộc vào kỳ vọng về kết quả mà hành vi đó đem

11175405 — Nguyễn Thị Hồng Yến 19

Trang 20

Chuyên đề thực tập chuyên ngành Toán Kinh tế

lại của một người sẽ dẫn đến thái độ về hành vi của người đó, có thể là tích cực, tiêu

cực hoặc trung tính.

® Chuẩn chủ quan cũng là một yếu tố nằm trong nhân tổ chính quyết định đến ýđịnh hành vi, nó đề cập đến mức độ ảnh hưởng của những nhóm hoặc cá nhân có liênquan như thành viên trong gia đình, bạn vè, đồng nghiép, có thé ảnh hưởng đến ý

định hành vi của một người Theo AJzen — người sáng lập ra mô hình TPB đã định

nghĩa chuẩn chủ quan là áp lực xã hội để hành vi được thực hiện hoặc không thực

hiện.

® Một yếu tố quan trọng khác là nhận thức kiểm soát hành vi, một nhân tố phản

ánh việc thực hiện hành vi là dé dàng hay khó khăn Vì khả năng thực hiện được hành

vi của một người được đánh giá qua nguồn lực và những cơ hội sẵn có mà người đó

1.2.3 Mô hình chấp nhận công nghệ (TAM)

Mô hình chấp nhận cộng nghệ (TAM) là một trong những phần mở rộng có

ảnh hưởng nhất của thuyết hành động hợp lý (TRA) TAM thay thế nhiều yếu tô về

thái độ của TRA bang hai yếu tố chấp nhận công nghệ là tinh dé sử dung (Perceived

11175405 — Nguyễn Thị Hồng Yến 20

Trang 21

Chuyên đề thực tập chuyên ngành Toán Kinh tế

Usefulness — PU) và nhận thức sự hữu ich (Perceived Ease Of Use - PEOU) Theo tác

gia cua mô hình — Fred Davis:

e Nhận thức su hữu ích được định nghĩa là: “mức độ mà một người tin rằng su

dụng một hệ thống cụ thể có thể sẽ làm nâng cao hiệu suất công việc của người đó”

e Tính dễ sử dụng được định nghĩa là: “mức độ mà một người tin rằng việc sử

dụng một hệ thống cụ thé không cần phải nỗ lực và dé dang sử dụng hệ thống đó”

Hình 1.3 Mô hình chấp nhận công nghệ (TAM)

Hình 1.4 Mắi quan hệ giữa 3 mô hình TRA, TPB và TAM

11175405 — Nguyễn Thị Hồng Yến 21

Trang 22

Chuyên dé thực tập chuyên ngành Toán Kinh tê

1.3 TONG QUAN NGHIÊN CỨU

Có khá nhiều nghiên cứu về ý định mua hàng trực tuyến của người tiêu dùngtrên thế giới cũng như tại Việt Nam Mỗi đề tài được nghiên cứu ở lĩnh vực khác nhau,

đối tượng và mục tiêu khác nhau Tùy theo những yếu tố đó mà tác giả đưa ra những

nhân tố ảnh hưởng tới ý định mua hàng theo hình thức trực tuyến và xây dựng phương

pháp nghiên cứu phù hợp cho đề tài của mình

Một số nghiên cứu về các nhân tô ảnh hưởng tới ý định mua hàng trực tuyến

của người tiêu dùng

Nghiên cứu của Hà Mạnh Thắng (2015) trên tạp chí VNU Journal of Science

Economics and Business thảo luận các yếu tố ảnh hưởng đến ý định mua trực tuyến của người tiêu dùng Việt Nam dựa trên lý thuyết hành vi có hoạch định Phiếu câu hỏi

được gửi trực tiếp đến các đối tượng điều tra và thông qua mạng Internet Sau 5 thángthu thập, có 423 phiếu trả lời hợp lệ được đưa vào phân tích Dữ liệu được phân tíchtheo quy trình từ phân tích nhân tố đến kiểm định độ tin cậy và phân tích hồi quy Kếtquả cho thấy, thái độ và nhận thức kiểm soát hành vi của người tiêu dùng có ảnh

hưởng tích cực đến ý định mua trực tuyến Trong khi đó, rủi ro cảm nhận có ảnh

hưởng tiêu cực đên ý định mua trực tuyên của người tiêu dùng.

Nguyễn Thị Kim Vân, Quách Thị Khánh Ngọc (2013) nghiên cứu về các nhântố ảnh hưởng đến thái độ và ý định mua hàng trực tuyến tại thành phố Nha Trang

Mục đích của nghiên cứu nhằm xác định và nhận dạng các yếu tố chính ảnh hưởng

đến thái độ của người tiêu dùng đối với việc mua hàng trực tuyến và xem xét thái độ

của người tiêu dùng ảnh hưởng như thế nào đến ý định mua hàng trực tuyến Thông

qua các thử nghiệm của mô hình nghiên cứu đã được đề xuất, nghiên cứu đã xác địnhđược ba trong sáu nhân tố có tác động mạnh nhất đến thái độ, từ đó hình thành nên ýđịnh mua hàng trực tuyến của người tiêu dùng, đó là: (1) Sự hữu dụng, (2) Hệ thống

thanh toán và (3) Sự tin tưởng Tuy nhiên các biến của thành phần “Hệ thống thanh

toán” có tác động mạnh nhất, tiếp đến là yếu tô “Sự hữu dụng” và sau cùng là yếu tô

“Sự tin tưởng”, điều này cho thấy “Hệ thống thanh toán” đóng vai trò rất quan trọng

trong việc hướng người tiêu dùng có thái độ tích cực đối với việc mua hàng trực tuyến.

Nguyễn Quang Thu & Lưu Thị Kim Tuyến (2018) nghiên cứu về vai trò của yếu

tố ảnh hưởng xã hội trong mối quan hệ với niềm tin, thái độ, nhận thức rủi ro đến ýđịnh mua hàng trực tuyến của người tiêu dùng tại Thành phố Hồ Chí Minh Nghiên

Trang 23

Chuyên dé thực tập chuyên ngành Toán Kinh tê

cứu này kiêm định vai trò trung gian của yếu tô ảnh hưởng xã hội trong mối quan hệ

với niềm tin, thái độ, nhận thức rủi ro đến ý định mua hàng trực tuyến của người tiêudùng tại TP Hồ Chí Minh Mối quan hệ này được kiểm chứng qua 337 khách hàng

đã từng mua hay có ý định mua hàng trực tuyến tại TP Hồ Chí Minh thông qua hìnhthức khảo sát băng bảng câu hỏi trực tiếp Bang phương pháp SEM dé kiểm định môhình lý thuyết và các giả thuyết, kết quả nghiên cứu cho thấy yếu tô ảnh hưởng xã hộitác động dương đến niềm tin, thái độ và ý định mua hàng trực tuyến Yếu tố niềm tin

có tác động dương mạnh đến thái độ và ý định mua hàng trực tuyến Cảm nhận rủi ro

có tác động âm mạnh đến niềm tin, thái độ và ý định mua hàng trực tuyến Yếu tổ tháiđộ cũng có tác động dương trực tiếp khá mạnh đến ý định mua hàng trực tuyến Saucùng, nghiên cứu đã kết luận và trình bày hàm ý chính sách cho các nhà bán lẻ trựctuyến nhằm xây dựng các chiến lược hiệu quả dé có thé thu hút khách hàng và địnhhướng nghiên cứu tiếp theo

Nguyễn Đinh Yến Oanh, Quách Lý Xuân An (2018) nghiên cứu về thái độ đốivới quảng cáo trực tuyến và ý định tiếp tục mua của người tiêu dùng: Một nghiên cứutrong ngành hàng tiêu dùng nhanh Dựa trên Thuyết hành động hợp lý TRA và môhình Ducoffe (1996), nghiên cứu này phân tích các yếu tố tác động đến thái độ, đồngthời kiểm định anh hưởng của thái độ đối với quảng cáo trực tuyên đến ý định tiếp tụcmua sản phẩm nước giải khát có ga Dữ liệu được thu thập từ 557 người tiêu dùng tạiĐồng băng sông Cửu Long Kết quả phân tích cho thấy ý định tiếp tục mua chịu ảnhhưởng bởi 3 yếu tố (1) Thái độ của người tiêu dùng đối với quảng cáo trực tuyến, (2)Giá trị cảm nhận, (3) Tính thông tin Ngoài ra, có 4 yếu tố ảnh hưởng đến thái độ củangười tiêu dùng đối với hoạt động quảng cáo trực tuyến: (1) Giá trị cảm nhận, (2)Tính thông tin, (3) Tính giải trí, (4) Danh tiếng của công ty Kết quả nghiên cứu có ýnghĩa quan trọng về mặt học thuật và là cơ sở khoa học giúp các doanh nghiệp kinhdoanh ngành hàng nước giải khát có ga giữ chân khách hàng trong thời đại số hóa, từđó phát triển các chiến lược quảng cáo trực tuyến một cách hiệu quả

Một số nghiên cứu sử dụng thuật toán Hoc máyNghiên cứu của Ljiljanka Kvesi’c về ứng dụng cây quyết định trong tin dụngngân hàng Croatia (2013) Nghiên cứu sử dụng cây quyết định với thuật toán CHAIDtoàn điện Cuộc khảo sát bao gồm 200 khách hàng, trong đó có 100 khách hàng là cótín dụng xấu và 100 khách hàng có tín dụng tốt Các biến số độc lập được sử dụng

11175405 — Nguyễn Thị Hồng Yến 23

Trang 24

Chuyên dé thực tập chuyên ngành Toán Kinh tê

trong nghiên cứu là: giới tính, tuổi, tinh trạng khách hàng, thấu chi tối thiểu trong 6

tháng, số tiền thanh toán thẻ trung bình, số lượng thấu chi khách hàng được phép, sốdư trung bình cho tất cả 6 tháng (trung bình tài khoản), số tiền trung bình mà kháchhàng van được phép thấu chi Kết quả mô hình cho biết dự báo chính xác tới 92.5%,và đưa ra một số kết luận là đại đa số khách hàng có tín dụng xấu gặp ít nhất một lầntrong thấu chi bat hợp pháp, cũng như những khách hàng có độ tuôi trên 55 và chưatừng vượt quá mức cho phép thấu chi Với kết quả đó, mô hình khá phù hợp với dữliệu cần phần tích

Nghiên cứu của S.S.Satchidananda và Jay B.Simba về so sánh cây quyết định

với hồi quy logit dé phân tích rủi ro tín dụng (2006) Nghiên cứu sử dung dit liệu từ

hai ngân hang ở An Độ liên quan đến các khoản vay sản xuất nông nghiệp được cung

cấp cho nông dân trong và xung quanh Honavar, một khối lạc hậu ở Karnataka, ẤnĐộ Nghiên cứu bao gồm biến chính là rủi ro (cao hay thấp) và 24 biến quan sát khác:số người trong gia đình, thu nhập, đất đai, mua săm đầu vào, công trình phát triển đấtđã hoàn thanh, Kết quả chạy mô hình từ cây quyết định với thuật toán C4.5 và môhình logit cho biết các chỉ số về sai số của mô hình cây nhỏ hơn đồng thời phân trămdự báo chính xác cao hơn, cho thay mô hình cây quyết định vượt trội hon han trên tatcả các tham số

Trong các nghiên cứu thực nghiệm trên, mỗi nghiên cứu đều đưa ra các nhân6, phương pháp nghiên cứu dé phân tích phù hợp với lĩnh vực, mục tiêu và phạm vi

nghiên cứu Do đó mà kết quả từ mỗi nghiên cứu là khác nhau Từ những kết quả

nghiên cứu thực nghiệm trên kết hợp với bộ dữ liệu sẵn có, tôi chọn 7 nhân tố: độ

tuôi, giới tính, nghề nghiệp, thu nhập, thương hiệu, tình trạng kết hôn và số lần mua

dé xây dựng mô hình dự báo ý định mua mỹ phẩm online của khách hàng trong chuyên

đề này.

Về phương pháp nghiên cứu, việc ứng dụng các thuật toán Học máy trong dựđoán ý định mua hàng trực tuyến của người tiêu dùng đã được nghiên cứu nhiều trênthế giới Còn tại Việt Nam, việc áp dụng áp dụng này vẫn còn khá mới mẻ, chưa đượcáp dụng nhiều Do đó trong nghiên cứu này, tôi sẽ sử dụng các thuật toán Học máy làthuật toán Hồi quy Logistic, Cây quyết định và Rừng ngẫu nhiên dé dự báo ý địnhmua mỹ phẩm online tại một cửa hang, so sánh kết quả các mô hình để lựa chọn rathuật toán tối ưu nhất

11175405 — Nguyễn Thị Hồng Yến 24

Trang 25

Chuyên đề thực tập chuyên ngành Toán Kinh tế

Chương 2 PHƯƠNG PHÁP NGHIÊN CỨU

2.1 PHƯƠNG PHÁP HỌC MAY

2.1.1 Khái niệm của Học Máy

Trong thời gian trở lại đây, Học Máy hoặc Máy Học (Machine Learning) nổilên như một băng chứng của cuộc cách mạng công nghiệp lần thứ tư (lần 1 - động cơhơi nước, lần 2 - năng lượng điện, lần 3 - công nghệ thông tin) Máy học góp mặttrong mọi lĩnh vực trong đời sống của con người: Hệ thông nhận diện khuôn mặt trongảnh của Facebook, trợ lý ảo Siri của Apple, trợ lý ảo Google Assistant, hệ thống gợi

ý phim cua Netflix,

Biểu đồ 2.1 Máy học là một tập con của AI

(Artificial Intelligence — Trí tuệ nhân tạo)

11175405 — Nguyễn Thị Hồng Yến 25

Trang 26

Chuyên đề thực tập chuyên ngành Toán Kinh tế

Hình 2.1 May học là một tập con của AI

(Artificial Intelligence — Trí tuệ nhân tạo)

Năm 1959, Arthur Samuel, người tiên phong trong lĩnh vực máy học định nghĩa

Máy học như sau: máy tính có khả năng học độc lập, không phụ thuộc quá nhiều vào

lập trình của con người Máy tính hoặc thuật toán sẽ dựa vào kinh nghiệm có được

khi xử lý các nhiệm vụ cụ thé Nhờ việc lặp lại nhiệm vụ nhiều 1an/bé sung dit liệumới, cải tiến và giải pháp mới có thé tạo điều kiện cho máy tự học, tự khám phá dé

giai quyết van đề Ung dung này xây dựng một nền tang quan trọng cho trí tuệ nhân

tạo.

2.1.2 Lịch sử ra đời và sự phát triển của Học may

Các cột mốc phát triển của Học máy:

e Thế ky 18 - Nhà thống kê người Anh Thomas Bayes đã đặt ra định ly Bayes,một khái niệm trung tâm trong một số phương pháp tiếp cận hiện đại đối với học máy

e 1950 — Nhà toán học người Anh Alan Turing đề xuất một bài kiểm tra về trí thông minh thực sự của máy móc, được gọi là Kiểm tra Turing.

e 1952 —- Nhà nghiên cứu Arthur Samuel đã tạo ra một cỗ máy có khả năng học

chơi cờ, sử dụng các hướng dẫn của các chuyên gia dé học cách phân biệt nước đi trên

bàn cờ.

e 1956 — Thuật ngữ “trí tuệ nhân tao” ra đời trong Hội thao Dartmouth

11175405 — Nguyễn Thị Hồng Yến 26

Trang 27

Chuyên dé thực tập chuyên ngành Toán Kinh tê

e 1957 — Nhà tâm lý học người Mỹ Frank Rosenblatt’s Perceptron tao ra mộtmạng lưới thần kinh băng điện trở quay (chiết áp), có thé nhận đầu vào (pixel hình

ảnh) và tạo đầu ra (nhãn)

e 1979 — Các sinh viên trường Đại học Stanford phát minh ra một robot có tên

Xe đây, được liên kết vô tuyến với một máy tính lớn, có thê tự điều hướng các chướng

ngại vật trong phòng.

e 1981 — Gerald Dejong đưa ra khái niệm Học tập dựa trên giải thích (EBL),

bằng cách loại bỏ đữ liệu đề phân tích đữ liệu và tạo ra quy tắc chung mà nó có thê

tuân theo.

e 1985 — Giáo su Terry Sejnowski của Francis Crick đã phat minh ra NetTalk,

mét chuong trinh hoc cach phat 4m van ban tiéng Anh

e 1986 — David Rumelhart va James McClelland đã xuất ban Xử ly phan tán

song song, nâng cao việc su dung các mô hình mang no-ron cho học may.

e 1992 — Nhà nghiên cứu Gerald Tesauro đã tạo ra một chương trình dựa trên

một mạng thần kinh nhân tạo, có khả năng chơi backgammon với những khả năngphù hợp với những người chơi hàng đầu của con người

e 1997-~ Deep Blue: IBM’s Deep Blue trở thành hệ thống chơi cờ máy tinh đầutiên đánh bại một đương kim vô địch cờ vua thế giới Deep Blue đã sử dụng sức mạnhtính toán trong những năm 1990 dé thực hiện các cuộc tìm kiếm quy mô lớn về cácnước đi tiềm năng và chọn nước đi tốt nhất

e 2006 — Geoffrey Hinton đã tao ra thuật ngữ “học sâu” dé giai thich cac thuat

toán mới giúp máy tinh phân biệt các đối tượng và văn ban trong hình ảnh và video

e 2010— Microsoft đã phát triển thiết bị đầu vào cảm biến chuyên “Kinect” có

thê theo dõi 20 đặc điểm của con người với tốc độ 30 lần mỗi giây.

e 2011 — Google Brain đã được phát triển mạng nơ-ron sâu có thé khám phá vàphân loại các đối tượng theo cách của một con mẻo

e 2012- Google”s X Lab phat triển một thuật toán máy học có khả năng tự động

duyệt các video trên YouTube dé xác định các video có méo.

e 2014- Facebook đã phat triển một thuật toán phần mềm DeepFace, có thé nhận

dạng và xác minh các cá nhân trên ảnh với độ chính xác của con người.

e 2015 — Microsoft đã tạo ra Bộ công cụ học máy phân tan, cho phép phan phối

hiệu quả các vân đê học máy trên nhiêu máy tính.

11175405 — Nguyễn Thi Hồng Yến 27

Trang 28

Chuyên dé thực tập chuyên ngành Toán Kinh tê

e 2016— AlphaGo, được tạo ra bởi các nhà nghiên cứu tại Google DeepMind dé

chơi trò chơi cờ vây cô đại của Trung Quốc, đã thắng 4/5 trận dau với Lee Sedol,

người đã trở thành kỳ thủ cờ vây hàng đầu thế giới trong hơn một thập kỷ

e 2017-— Các nhà nghiên cứu tại Dai học Carnegie Mellon đã tạo ra một hệ thống

có tên là Libratus và nó đã đánh bại bốn người choi hang dau tại No Limit Texas Hold

‘em, sau 20 ngày chơi vào năm 2017.

2.2 PHAN LOẠI CÁC BÀI TOÁN CUA HỌC MAY

Có hai cách phô biến phân nhóm các thuật toán Học máy: Một là dựa trên

phương thức học (learning style), hai là dựa trên chức năng (function) của mỗi thuật

toán.

Dựa trên phương thức học, Học máy được chia thành 3 dạng bài toán chính là Học có giám sát (Supervised Learning), Học không giám sát (Unsupervised Learning) và Học tăng cường (Reinforcement Learning).

Thuật toán Học có giám sát là nhóm phổ biến nhất trong các thuật toán Họcmáy Supervised Learning là thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới(new input) dựa trên các cặp (input, outcome) đã biết từ trước Cặp dit liệu này còn

được gọi là (data, label) hay gọi là (dữ liệu, nhãn).

Vi du: Thuật toán dò khuôn mặt trong một bức anh, Facebook đã từng sử dụng

thuật toán này dé chi ra các khuôn mặt trong một bức ảnh và yêu cầu người ding gắnnhãn bạn bè hay còn gọi tag friends Số lượng (dữ liệu, nhãn) tức là (khuôn mặt, tênngười) càng lớn, độ chính xác của những lần tự động gán nhãn tiếp theo sẽ càng lớn

Trong Học có giám sát, có 2 loại bài toán phổ biến:

e Bài toán hồi quy (Regression Problem): đầu ra (output) cần dự đoán là các số

thực có thé là nhiều giá trị khác nhau

Ví dụ: Cần thiết lập một mô hình với dữ liệu đầu vao là hãng xe, số chỗ ngồi, động

cơ, nội thất trang bị của một chiếc xe ô tô và dữ liệu đầu ra là giá bán của chiếc ô tôđó Giá chiếc xe không thể đoán trước, có thé là 600 triệu, 700 triệu, 1 tỷ, 5 ty,

e Bài toán phân loại (Classification Problem): đầu ra (output) là một trong các

lớp (class) mà ta đã biết từ trước

Ví dụ: Mô hình Học máy dự đoán khả năng trả nợ đúng hạn của khách hàng, như vậy

dau ra cần dự đoán có thé là một trong hai trường hợp: có trả nợ đúng hạn (y=0), hoặc

không tra nợ đúng hạn (y=1).

11175405 — Nguyễn Thị Hồng Yến 28

Trang 29

Chuyên dé thực tập chuyên ngành Toán Kinh tê

2.3 MOT SO THUẬT TOÁN HOC MAY PHAN LOẠI

Mục tiêu của bài chuyên dé là dự báo quyết định mua mỹ phẩm online củakhách hàng (khách hàng có quyết định mua mỹ phẩm hay không), đây là bài toán phân

loại Bài chuyên đề sẽ sử dụng một số thuật toán phân loại điển hình, từ đó chọn ra

một thuật toán tốt nhất dé áp dụng vào mô hình.2.3.1 Thuật toán Hồi quy Logistic

2.3.1.1 Khái niệm về thuật toán Hồi quy Logistic

Thuật toán hồi quy Logistic (Logistic Regression) là thuật toán phổ biến nhấtdùng dé dự báo phân loại các biến nhị phân theo xác suất Việc phân loại này đượcthực hiện bang cach su dung ham logit dé ước tinh xác suất xảy ra của biến phụ thuộc,với các nhãn của biến này được thay thế bằng các mã hóa giả (0 và 1)

Ví dụ điển hình là phân loại email, gồm có email gia đình, email công việc,email rác/spam, ; giao dịch trực tuyến có là an toàn hay không,

2.3.1.2 Dạng mô hình và lý thuyết toán học của mô hình

Gọi biến phụ thuộc là Y (Y là biến nhị phân), khi đó hai giá trị của Y được mãhóa thành 0 và 1 Với các biến độc lập là những biến có tác động đến khả năng Y = 1

được ký hiệu là: xạ, xạ, 4s, , X„ Ý tưởng của mô hình hồi quy Logistic là dy báo xác

suất déY = 1(P(Y = 1))

Như vậy ta có xác suất dé Y = 0 là: P(Y = 0) = 1- P(Y = 1).Phương trình hồi quy Logistic có dạng:

qg†4IXI+a2x2-† -tanXm

PY = |y )= : doT4Ix|T4212T tdnXn

+e

trong đó e là hằng số Euler (2.718), Pe [0:1]

Nhiệm vụ của bài toán này là thực hiện hồi quy các hệ số 40:J:>#n dura

trên phương pháp ước lượng hợp lý tối đa Tuy nhiên, rất khó dé đánh giá tác động

của các biến độc lập lên biến phụ thuộc dựa trên dạng mô hình trên, vì vậy, người ta

đánh giá chúng thông qua một tỷ số được gọi là tỷ số nguy cơ (odds ratio):

P đgT†4IxT42%2+ .-+đnXn

odd = —— =e

1-P

11175405 — Nguyễn Thị Hồng Yến

Trang 30

Chuyên đề thực tập chuyên ngành Toán Kinh tế

Từ đây ta có thé thấy rang: Khi x; ‘1 don vị và các yếu tố khác không đôi

In(odd ) † a;

, Gy

thi ty sô odd Te?! lần hay don vi.

2.3.1.3 Nguyên lý hoạt động của mô hình

Mô hình Logistic hoạt động tốt nhất khi nó đạt được độ phân loại cao nhất hay

nói cách khác sai số dự báo là bé nhất Thật vậy, gia sử như một đối tượng nhận giá

Y = 1 ^ ` Ỳ CO ¬ ` ` AK rs z lệ ` lệ AK

tri 1, vậy ta ky vọng rang Y, càng gan 1 càng tot, hay nói cach khác là xác suât

=1 ` k ¬ ak, ` na z.: =0 „ đê ¡ càng cao cảng tot Ngược lại, nêu đôi tượng này nhận gia trị “7 , Vậy ta

` x Đa x ` k x oe xs, an Y,=1, Án SA hk ua

kỳ vọng rang Y, càng gân 0 càng tot, hoặc xác suat dé “1 cang thap cang tot Vay

nên, ta cần một hàm đề đánh giá độ tốt của kết quả dự báo được gọi là “Hàm mat mát

— Loss Function”.

Với mỗi đối tượng (x! -Y;) , ta có ham Loss được biểu diễn đưới dạng:

L = —Œ, xm Im(#) + (1— Y,) xin In(1— Ÿ))

Hình 2.2 Dé thị ham Loss của vi dụ 1

11175405 — Nguyễn Thi Hong Yến 30

Trang 31

Chuyên đề thực tập chuyên ngành Toán Kinh tế

Như vậy, ta thay răng khi Ÿ càng gan 1 thì giá trị hàm Loss càng bé, ngược lại khi ¥,

càng xa 1 thì ham Loss trả về giá trị rat lớn

Hình 2.3 Đồ thị ham Loss của ví du 2

Như vậy, ta thay rang khi Ÿ càng gần 0 thì giá trị ham Loss càng bé, ngược lại khi /,

càng xa 0 thì hàm Loss trả về giá trị rất lớn.Từ đó ta có thê kết luận rằng, khi kết quả dự báo càng gần với thực tế thì giá trị hàm

Loss càng nhỏ Vậy bài toán trở thành tìm giá trị nhỏ nhất của ham Loss.2.3.1.4 Ưu điểm và nhược điểm của thuật toán Hồi quy Logistic

Uu điểm

e Thuật toán hỏi quy logistic dé thực hiện, diễn giải hơn và rất hiệu qua dé dao tạo.

e Thuật toán có thể phân tích được tác động của các biến độc lập lên biến phụ

thuộc, phân loại nhanh các bản ghi không xác định.

e Thuật toán không chỉ cung cấp thước đo về mức độ phù hợp của một yếu tố

dự đoán (kích thước hệ số), mà còn cả hướng tác động của nó (tích cực hoặc tiêu

cục), giải thích được các hệ số của mô hình.2.3.2 Thuật toán Cây quyết định (Decision Tree)

2.3.2.1 Khái niệm về Cây quyết định

11175405 — Nguyễn Thi Hồng Yến 3]

Trang 32

Chuyên dé thực tập chuyên ngành Toán Kinh tê

Thuật toán Cây quyết định (Decision Tree) là một trong những thuật toán mạnhmẽ và phô biến nhất trong việc phân loại và dự báo, thuộc loại Thuật toán có giám sat(Supervised Learning) Mỗi Cây quyết định là một tượng trưng cho một sự quyết địnhcủa một lớp các dữ kiện nào đó Cây quyết định được sử dụng dé xây dựng một kếhoạch nhăm đạt được mục tiêu mong muốn Các Cây quyết định được dùng đề hỗ trợquá trình ra quyết định Kết quả hay biến mục tiêu của Cây quyết định chủ yếu là biến

Mỗi tập con được phân chia của phép thử là không gian con của các sự kiện, nó tương

ứng với một vấn đề con của sự phân lớp

Trong lĩnh vực Học máy, Cây quyết định là một kiêu mô hình dự báo (Predictivemodel), nghĩa là một ánh xạ từ các quan sat về một sự vật /hiện tượng tới các kết luậnvề giá trị mục tiêu của sự vật/hiện tượng Mỗi nút trong (Internal node) tương ứng vớimột biến; đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó.Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các gia tri dự doan

của biến được biéu diễn bởi đường di từ nút gốc tới nút lá đó Kỹ thuật học máy dùng

trong Cây quyết định được gọi là học bằng Cây quyết định, hay chỉ gọi với cái tênngắn gọn là Cây quyết định Cây quyết định có thê được mô tả như là sự kết hợp củacác kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hoá

một tập dữ liệu cho trước.

Xét về số nhanh thì Cây quyết định được chia thành 2 loại:e Cây quyết định chi phân được 2 nhánh;

e Cây quyết định phân được nhiều nhánh khác nhau.

Ngoài ra, Cây quyết định còn có hai tên gọi khác là:

e Cây hồi quy (Regression Tree) ước lượng các hàm giá trị là số thực thay vì

được sử dụng cho các nhiệm vụ phân loại.

Ví dụ: Ước tính giá của một mảnh đất hoặc ước tính khoảng thời gian một cây hoa

nở.

e_ Cây phân loại (Classification Tree)

Trang 33

Chuyên đề thực tập chuyên ngành Toán Kinh tế

Ví dụ: Kết quả của việc trúng x6 số (tring, không trúng), giới tính (nam, nữ), 2.3.2.2 Cấu trúc của Cây Quyết Dinh

Một Cây quyết định bao gồm:

e “Root Node”: Nút cấp cao nhất này đại diện cho mục tiêu chính hoặc quyết

định lớn bạn đang muốn thực hiện.e “Branches”: Các nhánh, xuất phát từ gốc, đại diện cho các lựa chọn khác nhau

khi đưa ra một quyết định cu thé Chúng thường được biểu thị bằng một đường

mũi tên và bao gồm các khả năng xảy ra.

e “Internal node”: Nút nội bộ — mỗi nút đều có chính xác 1 đầu vào (gồm các

thuộc tính, giá tri dit liệu được dùng đề xét cho các phân nhánh tiếp theo) và

hai hoặc nhiều đầu ra (chứa giá trị của bién phân loại)

e “Leaf node”: Các nút 14 — được gắn cuối các nhánh — đại điện cho các kết qua

có thé xảy ra cho mỗi một quyết định Là các lá chứa giá trị của biến phân loại

Body Temperature

Internal node

Yes

Non-Mammals [

mammals

Hình 2.4 Ví dụ về sơ đồ thuật toán Cây quyết định (Decision Tree)

Vị dụ: Xét một bài toán phân loại như hình vẽ dưới đây:

Trang 34

Chuyên đề thực tập chuyên ngành Toán Kinh tế

thuộc lớp màu đỏ (vuông).

Hình (b) là mô tả quyết định trên Cây quyết định bao gồm:

e Hình ellipse nền vàng thé hiện quyết định cần được đưa ra.

e@ Các 6 màu xám (chữ nhật), lục (yes), đỏ (no) được gọi là các node.

o “Leaƒnode”: là các lá cây chứa giá trị của biến phân loại sau cùng

(Ví dụ như trong hình (b) các leafnode là các ô tròn thể hiện màu lục và

màu đỏ.

o “Root node (node góc): Diém ngọn chứa giá trị của biến đầu tiên dùng

dé phân nhánh(Vi dụ: Ở 6 đầu tiên chứa x1 < ti)o_ Các internal node: Là những 6 chứa thé hiện câu hỏi ở phân lớp dưới

Root Node (Ví dụ: Những 6 chứa xa > tz và xi < ts)

2.3.2.3 Thiết kế Cây quyết định

Xử lý dữ liệu:

11175405 — Nguyễn Thị Hồng Yến 34

Trang 35

Chuyên đề thực tập chuyên ngành Toán Kinh tế

Công việc cụ thê của bước tiền xử lý đữ liệu gồm các công việc:

o Lọc thuộc tính (Filtering Attributes)

Lọc các mẫu (Filtering samples)Lọc các mẫu (Instances, Patterns)

Chuyền đổi dit liệu (Transformation)

Tao cây:Cây quyết định được tao thành bằng cách lần lượt chia (theo phương pháp đệ

quy) một tập dữ liệu thành các tập dữ liệu con, mỗi tập con được tạo thành từ các phầntử của cùng một lớp Các nút (không phải là nút lá) là các điểm phân nhánh của cây.Việc phân nhánh tại các nút có thé dựa trên việc kiểm tra một hay nhiều thuộc tính để

xác định việc phân chia dữ liệu.

Tiêu chuẩn tách cây:Chúng ta mong muốn chọn thuộc tính sao cho việc phân lớp tập mẫu là tốt nhất.Như vậy chúng ta cần phải có một tiêu chuẩn dé đánh giá van dé này Có rất nhiều

tiêu chuẩn được đánh giá được sử dụng đó là: Lượng thông tin thu thêm IG

(information Gain), thuật toán ID3 của John Ross Quilan Công thức Gini với thuật

toán CART hay công thức entropy với thuật toán ID3,

Tiêu chuẩn dừng:Trong các thuật toán của Cây quyết định, nếu ở các node chưa có “pure” thì ta

sẽ phải chia mãi các node, vì thé ta sẽ thu được một cây mà mọi điểm trong tập training đều được dự đoán đúng, lúc này cây sẽ rất phức tạp và nhiều node con, nếu cứ tiếp

diễn như thế thì nhiều khả năng sẽ xảy ra overfitting Còn nếu việc phân nhánh dừngquá sớm, lỗi về dữ liệu tập training không đủ cao và hiệu suất sẽ bị ảnh hưởng do sự

sai lệch lớn giữa những giá trị mô hình chúng ta dự đoán được với giá tri thật, gây ra

hiện tượng underfitting.

Do vậy, chúng ta tập trung một số tiêu chuẩn dừng chung nhất được sử dụng

trong Cây quyết định Tiêu chuẩn dừng truyền thống sử dụng các tập kiểm tra Chúng

ta có thê thay ngưỡng như là giảm nhiễu, số các mẫu trong một nút, tỉ lệ các mẫu trongnút, hay chiều sâu của cây

Tia cây:

Sau giai đoạn tạo cây chúng ta có thé dùng phương pháp “Độ dài mô tả ngắn

nhất” (Minimum Description Length) hay giá trị tối thiêu của IG đề tia cây (chúng ta

Trang 36

Chuyên đề thực tập chuyên ngành Toán Kinh tế

có thé chọn giá trị tối thiểu của IG trong giai đoạn tạo cây đủ nhỏ dé cho cây pháttriển tương đối sâu, sau đó lại nâng giá trị này lên dé tia cây)

2.3.2.4 Các bước tổng quát xây dựng Cây quyết định

Quá trình xây dựng Decision Tree — phân chia nhánh trong mô hình Cây quyết

định đều dựa trên các thuật toán, được định lượng rõ ràng dé cho quá trình này dem

lại kết quả tối ưu nhất

Việc xây dựng thuật toán Cây quyết định bao gồm các bước:Bước 1: Chọn lựa thuộc tinh đữ liệu dé chia dữ liệu, sử dung Attribute SelectionMeasures (ASM: Chỉ số đánh giá lựa chọn thuộc tính)

Bước 2: Tạo Internal Node với đặc tính và điều kiện ở trên.

Bước 3: Phân nhánh data tạo các Child node (Node con) và lặp lại tiến trình ở

trên cho đến khi một trong các điều kiện sau thỏa mãn, ta sẽ có Leaf node:

o_ Tất cả data của Node đều thỏa mãn điều kiện của Internal nodeo Không có đặc tính với điều kiện nào có thé được chọn nữa

o_ Không còn data nào thỏa mãn điều kiện của Internal node

Sinh cây quyết định

Lựa chọn thuộc tính Tách dữ liệu thành các

tôt nhât dựa vào chỉ sô > tap nhỏ hơn theo thuộc

Gain, Gini tinh cha

bạ Test top boinne 2 precision - dự đoán

— 3 recall — độ hồi tưởng

Hình 2.6 Các bước xây dựng Cây quyết địnhCác thuật toán của cây quyết định hoạt động dựa trên nguyên lý làm sao chọnra các node chứa các đối tượng dit liệu có khả năng tương đồng với nhau dé xác địnhcác nhóm, các lớp phù hợp cho các đối tượng này Do đó khi xây dựng một thuật toánCây quyết định, các chuyên gia phải sử dụng dé tính toán và dùng kết quả có được détìm ra phân nhánh tối ưu nhất

11175405 — Nguyễn Thi Hồng Yến 36

Trang 37

Chuyên dé thực tập chuyên ngành Toán Kinh tê

2.3.2.5 Uu điểm của Cây quyết định

So với các phương pháp khai phá đữ liệu khác, Cây quyết định là phương phápcó một số ưu điểm:

e Thuật toán đơn giản, trực quan, không qua phức tạp để hiểu

e Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết.

Các kỹ thuật khác thường đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến phụ (dummy

variable) và loại bỏ các giá trị rỗng.

e Cây quyết định là một mô hình hộp trang Nếu có thé quan sát một tình huốngcho trước trong một mô hình, thì có thé dé dàng giải thích điều kiện đó bang logicBoolean Mạng Nơ-ron là một ví dụ về mô hình hộp đen, đo lời giải thích cho kết quảquá phức tạp dé có thé hiểu được

e Cây quyết định có thé xử lý cả dữ liệu có giá trị bằng số và dit liệu có giá trị là

tên thé loại Các kỹ thuật khác thường chuyên dé phân tích các bộ dữ liệu chỉ gồmmột loại biến Chăng hạn, các luật quan hệ chỉ có thể dùng cho các biến tên, trong khimạng nơ-ron chỉ có thé dùng cho các biến có giá trị bằng số

e_ Một số thuật toán của Cây quyết định có kha năng xử lý dữ liệu bị mat và dit

liệu bị lỗi mà không cần áp dụng phương pháp “Imputting Missing Values” hay loạibỏ Bên cạnh đó Cây quyết định ít bị ảnh hưởng bởi các dữ liệu ngoại lệ

e_ Có thể thâm định một mô hình bằng các kiểm tra thống kê Điều này làm cho

ta có thể tin tưởng vào mô hình Thuật toán không sử dụng tham số nên không cầnphải có các giả định ban đầu về các quy luật phân phối như trong thống kê, vì thế kết

quả phân tích có được là khách quan.

e Cây quyết định có thé xử lý tốt một lượng dé liệu lớn trong thời gian ngắn Cóthé dùng máy tính cá nhân dé phân tích các lượng dữ liệu lớn trong một thời gian đủngắn dé cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của câyquyết định

e Thuật toán giúp phân lại đối tượng dit liệu theo biến mục tiêu có nhiều lớp,

nhiều nhóm khác nhau, đặc biệt nếu biến mục tiêu là dạng biến định lượng phức tạp2.3.2.6 Một số thuật toán xây dựng Cây quyết định

Ý trởng chung của các thuật toánĐề xây dựng Cây quyết định, cần xác định thứ tự của thuộc tính cần được xem

xét tại mỗi bước Với các bài toán có nhiêu thuộc tính và môi thuộc tính có nhiêu giá

11175405 — Nguyễn Thị Hồng Yến 37

Ngày đăng: 26/09/2024, 09:33

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w