Vai trò, tính ứng dụng của Khoa học dữ liệu trong thời kỳ công nghệ hiện nay Khoa học dữ liệu rất quan trọng đói với nèn kinh tế, được con người ứng dụng đa dạng vào từng lĩnh vực như:
Trang 1
ĐẠI HỌC UEH
TRƯỜNG CÔNG NGHE VA THIET KE
KHOA CONG NGHE THONG TIN KINH DOANH
KKK
UNIVERSITY BAO CAO CUO! KY
DE TAL UNG DUNG KHOA HOC DU LIEU VAO VIEC TANG KHA NANG GIU CHAN KHÁCH HÀNG CỦA DOANH NGHIỆP
STARBUCK
Giảng viên hướng dẫn: Thầy Nguyễn An Tế
Môn học: Khoa học dữ liệu
Trang 2
DANH SÁCH THÀNH VIÊN NHÓM 1
Họ và tên MSSV Phần trăm đóng góp Ghi chú
LỜI CAM ĐOAN Nhóm tác giá xin cam đoan bài báo cáo “Ứng dung Khoa học dữ liệu vào việc đăng khả năng
giữ chân khách hàng ca doanh nghiệp Starbucks” la công trình học tập và nghiên cứu that
Sự nghiêm túc dưới sự hướng dẫn khoa học của TS Nguyễn An Tế Kết quả nêu ra trong nghiên cứu này là trung thực và chưa từng công bố trước đây Các số liệu trong bài nghiên cứu
có nguồn góc rõ ràng, được tông hợp từ những nguồn thông tin đáng tin cậy được ghi ở phần tài liệu tham khảo Nếu có bát kỳ sai phạm nào xay ra, nhóm tác giá xin chịu hoàn toàn trách
nhiệm, ký luật từ giáo viên bộ môn cũng như Nhà trường.
Trang 3Nhĩ A4 a5 ốẽ .ẽ(‹-4dữúŒL,LH H ,.)HẬH,HẬHA,H,) 9 1.1.2 Tổng quan về khoa học dữ liệu -22- 22222 22x x2 E2 E121 111.111.111 9
1.1.3 Vai tro, tính ứng dụng của Khoa học dữ liệu trong thời kỳ công nghệ hiện nay 10
Tố ốc ố hố H), 11
1.2.1 Khái niệm Starbucks safisfacfory SUV@V HH1 11
1.2.2 Lý do chọn đề tài 5s th TH HH 11c 1p E1 ekerrrrrie 11
AT 0) 12
1.2.4 Đối tượng và phạm vi nghiên cứu -222ccs 2 k2 x21 TE11 2111.11.11.11 prrrrerrie 12
1.2.5 Mô tả bài toán và mô tả dữ liệU - c2 rkt 12 1.2.5.1 M6 ta Dai TON ồ.ồ 12 1.2.5.2 MG ted Git LGU oe ee eee eee eseeeeeeeeeeeesesesesevesscsescsesecasasacace casssasasassesesesavassesesseecaseeeseeeesns 13
CHUONG Il: CO SO LY THUYET o sseesssssssssssssssseessssessecsnnssnnnvvssesecceessssnsssieeeeseansnsnnnnieeseeeesesnnnnnenisesees 14
2.1 Sử dung Phan MEM Orange .cccccccccscssssessssssssesssseessssssussessessucsssecsussssnsesssessucessusssecssseesssessusessuesseceeses 14
Na) 0ð na 14 2.2.1 810) 0/09) 09i 8 số: 8 15 2.2.2 Phân loại bài toán phân lớp - cn tt HH2 111111111111 E11111111KEEEEEEHkHkrkrkrk 16 2.2.3 M6t $6 phurong phap phan 16 8 n 17 2.2.3.1 Hai quy Logistic ( Logistic Regression) .ccccccssessssesssessssessssessusessuesseesssessssessusersneesecssses 17 2.2.3.2 SP ÔÔÔG -HÂ33 17
2.2.3.3 Cây quyết định - chà tr ng 1n 111111 ekerrreree 18
2.2.4 II -IN) —: sỉ ồẦÖỐỐ 20
Trang 42.2.5 Các phương pháp đánh giá mô hình phân lớp + 5-5-5 23tr rrrrrrrsrrrrrrrrxre 20
2.2.5.1 Ma trận nhằm lẫn 222c+ s22 HH ng re 21
2.2.5.2 Độ chính xác (ACCUFACY) HH HT HT HH 22 2.2.5.3 Precision, Recall, da ssoi na 22 2.2.5.4 Cross Validation: Holdout và K-fold cross validafion ccsriirie 24
3.4.2 Quá trình và kết quả các mô hình - 2-2222 2x2 HE 2111 11.111.11.11 29
FAN in) nh ee 41
VI NT on 3c nh s (Ở-44 41 00:0019) 1900/9500 10) 6 5 ‹:.4ddấagŒ.BH), ,.)H)HậH, ,, 41 Bid .: "a 4334:g.,.,.,.,., )H,)HgH,.),)HDHỤH Ỏ 41 5.2 _ Hướng phát triển của đề tài - 2 5sc nt tt HH HH1 111011 711.1 crkerre 42 G4), /1454ŸŸẼỶ3ẼẢ ,Ỏ 42
5.4 _ Hệ thống gợi ý: Digital flywhheel sccccs cọ t0 711.111 Tp erke 43
Trang 5DANH MỤC HÌNH ÁNH
Hình 1 1]: Mơ hình các lĩnh vực của khoa học đữ liệu - Q02 S 1S ST ng ng n ky ra 10 Hình 2 1: Xây dựng m6 hinh phan lop di liU oc cc ececccenecensteeeeeeeeeeeeeeeeeeeeeettttnnnees 15
0/10 60/0 a.Ả 18
Hình 2 7: Minh hoạ các phương pháp đánh giá mơ hình phân ÌớP ằẶẶc cành sssseee 21
Hình 2 9: Minh hoạ đzởng cong RĨC Q0 nQQ HT TH TH ng Tnhh kg 23 Hình 2 10: Minh hoạ diện zích ä:zớ; đường cong ROC - ÁÚC Q.22 rea 24 Hình 2 11: Minh hoa vé K - fold cross validatfion 1c 1 s1 1111111551111 1 11115111111 1111151 tk ay 25
Hình 3 4: Kết quá czz độ liên quan giữa priceRate và Loyal ¿2S St Su 28 Hình 3 5: Kết quá czz độ liên quan giữa productRate và Loyal ca 28 Hình 3 6: Kết qu czz độ liên quan giữa spendPurchase và Loyal ¿2 2c sex ca 29
Hình 3 9- Lưu đữ liệu thành file training datasefs.xÏsx nhe, 31 Hình 3 10: Máu dữ liệu training datasets khơng cĩ missing value . -ccs+sx+sss2 32
Hình 3 12: Lưu đữ liệu 20% thành file forecasf - LLLQQ ST HH TT HT HH nghe rry 33 Hình 3 13: Máu dữ liệu forecast khơng cĩ missing value - ¿6 S22 S1 S E2 xkz 33
Hình 3 15: A⁄ơ hình các thuật lỐIH oc occccccccccceeeecccccceueccececcuucnececscuaueeseseeeanevereersuvaseseesevaneeseveneanenes 34
Hình 3 22: Dudng cong ROC với biến target lờ loyal + + + +2 3322x232 E2E2EEEEEzErxrerree 38
Hình 3 24: Mĩ hình dự báo dữ liệu forecasf - L TH ST TH HT ng 40
Trang 6Hình 3 25: Kết quớ dự báo xong
Trang 7DANH MỤC BÁNG BIÊU Bang 1.1: Bang m6 ta dé liéu
Bang 4.1: Bang téng hop két qua ca m6 hinh hdi quy Logistics
Trang 8TOM TAT DE TAI
Với sự phát triển vượt bậc của cách mạng công nghiệp 4.0, việc áp dụng khoa học dữ liệu như
tự động hóa dây chuyên sản xuất, dùng dữ liệu để dự đoán hành vi khách hàng vào quy trình kinh doanh là một bước tiến lớn khi các doanh nghiệp có thẻ tối ưu hoá chi phi ma van cho ra
năng suất vượt trội
Vì thế các doanh nghiệp thuộc lĩnh vực F&B như Starbucks cũng không là ngoại lệ Starbucks hiện tại cũng đã từng bước áp dụng khoa học dữ liệu vào nhiều lĩnh vực như phương diện
truyền thông, vận chuyên, sản xuắt, Thế nhưng để thay đổi thói quen ngòi lề đường và uông
những ly cà phê đậm đặc không phải là điều dễ dàng đặc biệt với thị trường Việt Nam Và một
trong những bước giải quyết vấn đề này là phải hiểu được tâm lý khách hàng, nhu cầu sử dụng của người dân ở mỗi vùng từ đó năm bắt mấu chốt khiến khách hàng muốồn tiếp tục mua hàng ở Starbucks Và đó là lý do để nhóm nghiên cứu quyết định lựa chọn đề tài “Ứng dựng Khoa
học dữ liệu vào việc tăng khả năng giữ chân khách hàng cZa doanh nghiệp Starbucks”, sir
dụng yếu tó tỷ lệ khách hàng rời bỏ, đánh giá đánh giá hành vi khách hàng và đưa ra khuyến nghị cho một chiến lược giữ chân khách hàng tót nhát
Như vậy nhóm nghiên cứu đưa ra 2 mục đích chính để thẻ hiện bài báo cáo:
Mục đích 1: Dánh giá những đặc điểm của hành vi khách hàng ảnh hưởng đến khả năng ở lại
hay rời bỏ doanh nghiệp được chọn Ở đây nhóm nghiên cứu thông qua sự trợ giúp của phần mèm Orange sử dụng Distributions Widget để xem sự phân bó của những thuộc tính liên quan đến biến mục tiêu nhất Từ đó đưa ra các phương hướng giải quyết các nhóm khách hàng muôn
rời bỏ doanh nghiệp
Mục đích 2: Dự báo khá năng khách hàng rời bỏ hay tiếp tục đồng hành với doanh nghiệp
thông qua sử dụng phương pháp phân lớp dữ liệu Dựa vào việc huấn luyện dữ liệu với hai
phương pháp là hồi quy Logistic và SVM từ đó chọn ra phương pháp tốt nhất để đánh giá khả năng ở lại của đối tượng Kết quả là phương pháp hồi quy Logistic hiệu quả hơn giúp chọn ra
được những khuyến nghị chính xác, hỗ trợ doanh nghiệp tăng khả năng giữ chân khách hàng.
Trang 9CHƯƠNG I: GIỚI THIỆU TỎNG QUAN 1.1 Khái quát về khoa học dữ liệu
1.1.1 Khái niệm về dữ liệu
Dữ liệu (Data) là các giá trị của thông tin định lượng hoặc định tính của các sự vật, hiện tượng trong cuộc sóng Trong khoa học dữ liệu, dữ liệu được dùng như
một cách biểu diễn hình thức hoá của thông tin liên quan đến các sự kiện, hiện tượng thích ứng với các yêu cầu truyền nhận, thẻ hiện và xử lí bằng máy tính.Dữ liệu chia làm 2 phân: dữ liệu có cầu trúc và dữ liệu không có cấu trúc:
Structured data (Dữ liệu có cấu trúc): Là dữ liệu định lượng, ở dạng số hoặc ngày tháng hoặc chuỗi: được lưu trữ trong Excel, Google Sheet; dễ dàng thu thập, truy xuất, lưu trữ và sắp xép, yêu cầu ít không gian lưu trữ
Ví dụ: số thẻ tín dụng, tên sản phẩm và số lượng, số điện thoại, tên khách
hang
Unstructured data (Dữ liệu không có cấu trúc): Là dữ liệu định tính; ở dạng hình ảnh, video, ñle văn bản, trang tính; khó thu thập, gây khó khăn
cho việc xuất, lưu trữ Ví dụ: Báo cáo, email, tin nhắn, nội dung truyền
thông trên mạng xã hội,
Tổng quan về khoa học dữ liệu
Khoa học dữ liệu (data science) là một lĩnh vực nghiên cứu và ứng dụng dữ liệu
đề tạo ra kiến thức, thông tin, và dự đoán từ dữ liệu Nó kết hợp kiến thức từ
nhiều lĩnh vực như thông kê, toán học, khoa học máy tính, và lĩnh vực cụ thê như tàichính, y học, và ngành công nghiệp
Khoa học dữ liệu gồm ba phản chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu,và chuyền kết quá phân tích thành giá trị của hành động Việc phân tích và dùng dữ liệu lại dựa vào ba nguồn tri thức: toán học (thông kê toán học), công
nghệ thông tin (máy học) và tri thức của lĩnh vực ứng dụng cụ thẻ
Khoa học dữ liệu giúp chúng ta phân tích và hiệu sâu hơn về dữ liệu Chúng ta có thể tìm ra các mô hình, xu hướng và sự kết nói trong dữ liệu để có cái nhìn rõ ràng và chỉ tiết hơn về sự kiện và hiện tượng.Một trong những mục đích quan
trọng của khoa học dữ liệu là dự đoán và tiên đoán tương lai Thông qua việc Sử dụng các mô hình học máy va phân tích thời gian, chúng ta có thẻ dự đoán sự
kiện và xu hướng trong tương lai, như dự đoán thời tiết, lưu lượng truy cập trang
web, hoặc xu hướng thị trường
Các lĩnh vực của khoa học dữ liệu: Khai thác dữ liệu (Data mining), Thong kê(Statistic), Hoc may (Machine learning), Phan tích (Analyze) và Lập trinh(Programming).
Trang 10
Hình 1 1: Mô hình các lĩnh vực của khoa học dữ liệu
1.1.3 Vai trò, tính ứng dụng của Khoa học dữ liệu trong thời kỳ công nghệ hiện
nay
Khoa học dữ liệu rất quan trọng đói với nèn kinh tế, được con người ứng dụng đa
dạng vào từng lĩnh vực như:
Dự đoán thị trường tài chính: Khoa học dữ liệu được sử dụng để dự
đoán biến động giá cô phiếu, thực hiện giao dịch tự động, và tối ưu hóa quản lý danh mục được đầu tư
Ứng dụng trong ngành y tế: Xây dựng hệ thông hỗ trợ giải đáp thắc mắc
và cung cấp dịch vụ chăm sóc sức khỏe ảo Đây là ứng dụng của khoa học
dữ liệu trong lĩnh vực y tế mà bạn quen thuộc và phục vụ cho xã hội nhiều nhát Trong thời đại kỹ thuật số, bệnh nhân thường không nhát thiết phải đến gặp trực tiếp bác sĩ hoặc không thẻ di chuyên thăng đến bệnh viện ngay Ứng dụng di động có thê cung cấp các giải pháp hiệu quả hơn bằng cách đưa bác sĩ đến gần hơn với bệnh nhân của họ Bệnh nhân có thẻ nhận được thông tin gần như chính xác về bệnh tật và cách điều trị của mình chỉ
bằng cách mô tá các triệu chứng và đặt câu hỏi.Những ứng dụng này còn
nhắc nhở bạn uóng thuốc đúng giờ hoặc đặt lịch hẹn với bác sĩ hay bệnh viện gần nhát néu cần Cách tiếp cận này giúp tiết kiệm thời gian chờ đợi
khám bệnh, giảm quá tái bệnh viện và giúp các bác sĩ tập trung vào những
ca bệnh quan trọng hơn
Ứng dụng trong giao thông vận tải: Ngày nay các hãng giao thông công nghệ lớn như Grab, Uber, Be đang sử dụng khoa học đữ liệu để tối ưu hóa chọn lọc các tuyến giao thông đông đúc, giá cả và mang lại những trai
nghiệm tốt hơn cho khách hàng của họ Nhờ vào các công cụ dự đoán tiên tiền, có thê dự đoán chính xác giá của từng chuyền đi dựa trên các só liệu
về khoảng cách, thời tiết, sô lượng khách hàng Qua đó có thê thấy rằng
khoa học dữ liệu đã và đang được ứng dụng và phát triên rộng rãi trong
10
Trang 11hau hét cac lĩnh vực của cuộc sóng và công nghiệp, giúp tạo ra giá trị, kiến thức và tối ưu những quyết định
1.2 Giới thiệu về đề tài
1.2.1
1.2.2
Khái niệm Starbucks satisfactory survey
Nhóm tác giả sử dụng bộ dữ liệu mang tên “Starbucks satisfactory survey” để
khảo sát những yếu tó khiến khách hàng hài lòng từ đó thúc đây khách hàng tiếp
tục sử dụng dịch vụ và mua hàng tại doanh nghiệp
Lý do chọn đề tài
Cà phê là thức uống không thẻ thiếu trong đời sông, văn hóa của người Việt Bởi
thế nhiều quán cà phê trở thành điểm đến hấp dẫn và phải đến với con người Việt
Nam Song song đó, đôi người dân tại Việt Nam luôn yêu thích cà phê via hè bởi
sự đậm đà chỉ có hạt Arabica và mức giá phải chăng đã thức uống này trở nên ngày càng đặc trưng, còn những dòng cà phê khác là tương đôi nhẹ, chưa hợp
khâu vị của đa số người Việt Nam Theo dẫn chứng của báo Vietnam express cho
ta thấy rằng: Vào những năm 1990, cà phê cóc trở thành một hình ảnh đặc trưng của đô thị Việt Nam - không đề tên hay treo bảng hiệu, quán chi có ghế nhựa, bàn
dã chiến xếp ngẫu hứng trên via hè
Ngoài sở thích của người dân Việt Nam ra thì trải qua giai đoạn Covid 19 - một
đại dịch trong lịch sử đã tác động lên nên kinh té làm cho hệ thống bị suy thoái -
và mọi người hiện nay có xu hướng là tiết kiệm, mua những thứ phải chăng hợp
với túi tiền Đại dịch COVID-19 đã ảnh hưởng nghiêm trọng đến hoạt động kinh doanh của Starbucks trén toan thé gidi Cụ thẻ, tại Việt Nam, Starbucks cũng chịu
ảnh hưởng không nhỏ từ đại dịch COVID-19 Doanh thu của công ty trong năm
2020 giảm 20% so với năm 2019 Starbucks đã đóng cửa 3 cửa hàng tại Việt
Nam trong năm 2020 Chính vì vậy, hệ thông cà phê Starbucks là 1 hệ thóng cà phê cao cấp du nhập vào Việt Nam đã từng khuấy đáo trong thị trường thi dang
có nguy cơ bị mắt khách hàng bởi các yếu tó trên
Như vậy xét trong bồi cảnh thị trường cạnh tranh và đầy biến động như ngày nay, nhiều công ty doanh nghiệp F&B cung cáp các loại dịch v ụ với các chính sách ưu đãi hấp dẫn đề thu hút khách hàng Chính vì thế khách hàng đang sử dụng dịch vụ của một doanh nghiệp này có thẻ thay đổi quyết định để chuyên sang doanh
nghiệp khác vì nhiều lý do khác nhau, bởi tâm lý của khách hàng là luôn ưu tiên
những gì có lợi nhất cho mình Và để tránh hiện tượng khách hàng rời bỏ gây nhiều tồn thất to lớn cho doanh nghiệp như doanh thu lỗ hay các khoản chỉ phí có định, nhóm nghiên cứu đã chọn đề tài “Ứng dụng khoa học dữ liệu vào việc tăng
khả năng giữ chân khách hàng của doanh nghiệp Starbucks” nhằm mục đích phân tích dữ liệu và dự đoán xu hướng trung thành của khách hàng đề doanh nghiệp có
thể có những hành động kịp thời phát hiện nguyên nhân, lường trước rủi ro khách
11
Trang 12hàng có nguy cơ đôi dịch vụ F&B khác và cái thiện chất lượng dịch vụ với mục đích khiến khách hàng không thay đối ý định và luôn gắn bó sử dụng dịch vụ của
Starbucks
1.2.3 Mục tiêu nghiên cứu
Mục tiêu tông quát:
Hiêu rõ khái niệm của Khoa học dữ liệu, sự ánh hưởng của khoa học dữ liệu
đến đời sóng hiện tại của nhân loại và nắm được các quy trình trong phân tích
dữ liệu, tiền xử lý dữ liệu, phân lớp dữ liệu cũng như các điều kiện khi sử dung phan mém Orange;
Xử lý vấn đề mục tiêu của dé bài được đặt ra là phân tích hành vi mua sắm của khách hàng, dự báo lòng trung thành của khách hàng đổi với sản phẩm
của doanh nghiệp; từ đó tìm được nguyên nhân khách hàng từ bỏ doanh
nghiệp và đưa ra các khuyến nghị trong việc tăng khả năng giữ chân khách
hàng
Mục tiêu cụ thẻ:
Để đưa ra các khuyến nghị cho việc tăng khá năng khách hàng tiếp tục mua hàng ở Starbucks, nhóm tác giả đưa ra 2 mục tiêu nghiên cứu chính:
Mục tiêu L: Phân tích đặc điểm hành vi mua sắm của khách hàng;
Mục tiêu 2: Phân lớp dữ liệu đề dự báo khách hàng có nhu cầu tiếp tục sử
dụng dịch vụ và mua sắm ở Starbucks hay không
1.2.4 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Các nhân tố ảnh hưởng đến sự hài lòng của khách hàng vẻ sản phẩm và dich vụ của doanh nghiệp Starbucks
Đối tượng khảo sát: Khách hàng từng sử dụng dịch vụ và sản phẩm của Starbucks tir 20 tudi trở lên, sinh sống tại địa bàn thành phó Hò Chí Minh
Phạm vi nghiên cứu: Dữ liệu được thu thập trên nèn tảng Kaggle với sự tỉnh chinh những dữ liệu dư thừa từ nhóm nghiên cứu đề đưa ra một bảng dữ liệu hoàn chỉnh
1.2.5 Mô tả bài toán và mô tả dữ liệu
1.2.5.1 Mô tả bài toán
Sử dụng Distrubutions Widget và Rank Widget đề tìm sự liên quan giữa biến muc tiéu (target) va các thuộc tính liên quan;
Sử dụng các công cụ thông kê, lược đô, biểu đồ của phần mềm Orange dé xtr
lý dữ liệu và giái quyết bài toán được đưa ra là: Đánh giá mức độ trung thành
của khách hàng thông qua hai mô hình là Hỏi quy Logistic và Support vector machine ( SVM)
12
Trang 131.2.5.2 Mô tá dữ liệu
STT Tên thuéc tinh Giai thich Chu thich
gender Gidi tinh 0 là nam, 1 là nữ
3 - 30 đến 40 triệu VNĐ 4- Hơn 40 triệu VNĐ
VisitNo Tân suất đên cửa hàng 0 - Hàng ngày
timeSpend Thoi gian danh ra dé su dung
spendPurchase Mức chỉ tiêu trung bình môi lần
mua hàng ở Starbucks 1 - 30 phút đến 1 giờ
2 - 1 giờ đến 2 giờ
3 - 2 giờ đến 3 giờ
4 - Hơn 3 giờ
productRate Đánh giá chât lượng sản phâm
so với những thương hiệu khác
Trang 14
(1 Rất kém, 5 Xuất sắc)
(1 Rất kém, 5 Xuất sắc)
12 ambianceRate Đánh giá không gian Thang diém 1-5
(1 Rat kém, 5 Xuat sac)
(1 Rat kém, 5 Xuat sac)
không?
Bang 1.1: Bang m6 ta dế liệu
CHUONG II: CO SO LY THUYET
2 1 Sử dụng phần mém Orange
Data Mining và Machine Learning là những lĩnh vực tương đối phức tạp đê khám phá
và tìm hiệu Do đó đã có rất nhiều phần mềm ra đời với mục tiêu giúp cho người dùng
dễ dàng nghiên cứu các bài toán trong lĩnh vực khó khăn này Một trong những phan
mềm tương đối phỏ biến hiện nay có thẻ kẻ đến là Orange
Orange là hệ điều hành nhân bản của Linux (dòng Minimal X cua OpenSUSE) Hé
điều hành này dựa trên kiến trúc x86 (32-bit) của Intel và chạy được dưới bộ vi xử x86 cua Intel hay AMD Phan mém Orange duoc biét đến bởi việc tích hợp các công cụ
khai phá dữ liệu, mã nguồn mở và hoc may théng minh,don gian, vi thé ma ngwoi dung
có thể thực hiện mọi tác vụ ngay từ khi chuẩn bị dữ liệu cho đến đánh giá mô hình ma không cần viết một mã dich nao Orange là một giải pháp khai thác dữ liệu giúp các
doanh nghiệp từ vừa và nhỏ (SMES) tạo quy trình công việc phân tích và trực quan hóa
dữ liệu để tạo các phép chiêu tuyến tính bản đồ nhiệt, MDS, trên nèn táng tập trung
Orange giúp người sử dụng phân tích dữ liệu bằng các tiện ích được tích hợp nhỏ gọn,
đơn giản bao gém cac tién ich (widgets) co ban sau:
Data: Rút trích, biến đôi, và nạp dữ liệu (ETL process)
Visualize: Biểu diễn dữ liệu dưới dạng biểu đồ để có thể quan sát trực quan, sinh
động hơn
Model: Gồm các hàm máy học (machine learning) phân lớp dữ liệu với Tree, Logistics Regression, SVM
Evaluate: Đánh giá độ hiệu quá các mô hình
Unsupervised: Gồm các hàm máy học (machine learning) phân cụm dữ liệu như: Distance, K-means
Nếu cần sử dụng các tiện ích bồ sung khác, người dùng có thẻ tái thêm chúng ở
mục Options > Add ons
2.2 Phương pháp phân lớp dữ liệu
14
Trang 15Phân lớp dữ liệu là việc xác định lớp (hoặc loại) mà một đối tượng dữ liệu thuộc về
bằng cách sử dụng một mô hình phân lớp Mô hình này được xây dựng trên cơ sở của một tập dữ liệu đã được gán nhãn trước đó (dữ liệu sẵn có đã được tiền xử lý) Việc gán nhãn cho đối tượng hoặc dữ liệu chính là quy trình phân lớp dữ liệu Mỗi thuật
toán có đặc điểm và ưu điểm riêng và tùy thuộc vào bộ dữ liệu cụ thể và mục đích phân
tích, một phương pháp có thê được sử dụng hiệu quá hơn so với các phương pháp khác
2.2.1 Quy trình phân lớp dữ liệu
Có hai giai đoạn chính trong quá trình phân lớp dữ liệu:
Giai đoạn 1: Huán luyện dữ liệu
Trong giai đoạn này, với dữ liệu đầu vào là các mẫu dữ liệu đã được gán nhãn và
đã qua quá trình tiền xử lý để loại bỏ nhiễu, thiếu hoặc sai sót, chúng ta áp dụng các thuật toán phân lớp như cây quyết định, hàm số toán học, hoặc tập luật Kết quả, ta thu được một mô hình phân lớp đã được huần luyện
“(-}Xt then Risk = High
classifier
Hình 2 1: Xây dựng mô hình phân lớp dZ liệu
Giai đoạn 2: Sử dụng mô hình
Giai đoạn 2.1: Đánh giá mô hình phân lớp (kiêm tra tính chính xác của
mô hình)
Ở bước này, ta sử dụng dữ liệu mới đã được gán nhãn và tiền xử lý Tuy
nhiên, ta tạm thời không xem xét thuộc tính đã gán nhãn khi đưa dữ liệu này vào mô hình phân lớp Bằng cách so sánh thuộc tính đã gán nhãn với
kết quả phân lớp của m ô hình, ta xác định tính đúng đăn của mô hình Nếu
mô hình đạt độ chính xác ở mức độ có thể chấp nhận được, mô hình này sẽ được sử dụng đề phân lớp các dữ liệu mới chưa biết thuộc tính
15
Trang 16» —— tỉ} then Risk = High
Hình 2 2: Kiểm tra tính chính xác ca mô hình
Giai đoạn 2.2: Phân lớp dữ liệu mới
Ta sử dụng dữ liệu mới chưa có thông tin thuộc tính và cần được dự đoán gán nhãn Dữ liệu được phân lớp (được gán nhãn) tự động bởi mô hình,
dựa trên dữ liệu huấn luyện từ giai đoạn 1
` if (age < 31 or Car Type = Sports)
C ae ‹©›) then Risk = High
Lh Hình 2 3: Áp dựng mô hình phân lớp vào dế liều mới
2.2.2 Phân loại bài toán phân lớp
Bài toán phân lớp đặt ra mục tiêu phân chia các đối tượng dữ liệu thành n lớp đã được xác định trước Có 2 hình thức phân loại chính:
Phân loại nhị phân (n = 2): Trong trường hợp này, mỗi dữ liệu chí thuộc về một
lớp duy nhát
Phân loại đa lớp (n > 2): Ở dạng này, một đối tượng dữ liệu có thể thuộc đồng thời vào nhiều lớp khác nhau
16
Trang 172.2.3 Một số phương pháp phân lớp
2.2.3.1 Hồi quy Logistic ( Logistic Regression)
Phương pháp hỏi quy logistic là một trong những phương pháp phân tích dữ
liệu phô biến, được sử dụng để dự đoán các biến phụ thuộc rời rạc dựa trên các biến độc lập Điều này khác với hồi quy tuyến tính, nơi biến phụ thuộc là liên
tục Mục tiêu của phương pháp này là tìm ra các hệ $6 tối ưu trong mô hình,
sao cho mô hình có thẻ dự đoán một cách chính xác xác suất của biến phụ
thuộc rời rạc, dựa trên các giá trị của các biến độc lập
Các ứng dụng của phương pháp hỏi quy logistic la rat rộng rãi, bao gồm việc
dự đoán khả năng một khách hàng mua sản phâm, khả năng một người dùng
trả tiền cho một dịch vụ trực tuyến, hay khả năng một bệnh nhân mắc một căn bệnh nhất định
Ưu điểm phương phép Hồi quy Logistic:
Phân lớp nhanh chóng
Không cần thông tin về phân phối của các lớp trong không gian đặc trưng Tinh chất đơn giản: dễ dàng cài đặt, dễ diễn giải kết quá phân tích, quy trình huấn
luyện đơn giản
Nhược điểm:
Giá thuyết tuyến tính giữa biến phụ thuộc và các biến độc lập
Chi áp dụng với biến phụ thuộc rời rac
Dễ bị overfitting (quá khớp) đổi với dữ liệu có số chiều (đặc trưng) cao
8= (GhXiasse)
+6)
a /ZE` Pl
*2 Net input —Sigmoid activation Threshold
H function function function
đ ⁄⁄
Hình 2 4: Ví dự mô hình Hỏi quy Logistic
2.2.3.2.SVM
17
Trang 18Phương pháp SVMI (Support Vector Machine) là một phương pháp học máy được sử dụng rộng rãi trong phân loại và dự đoán SVMI dựa trên việc tìm kiếm
đường biên phân chia tối ưu giữa các nhóm dữ liệu
“SVM (Support Vector Machine) la mot thuat toan co giám sát, nó nhận dữ liệu đầu vào và xem chúng như các vector trong không gian Sau đó, SVM phân loại các dữ liệu này vào các lớp khác nhau bằng cách xây dựng một siêu
phang trong không gian nhiều chiều Siêu phăng này hoạt động như mặt phân cách giữa các lớp dữ liệu Đề tối ưu hóa kết quả phân lớp, SVM có gắng xác định siêu phắng (hyperplane) có khoảng cách xa nhát tới các điểm dữ liệu của các lớp (được gọi là margin) SVM có nhiều biến thẻ phù hợp với các loại bài
toán phân loại khác nhau.”
SVM có thẻ áp dụng cho cả bài toán phân loại nhị phân (binary
classification) và phân loại đa lớp (multiclass classification) Ngoài ra, SVM cũng có thể được sử dụng cho bài toán dự đoán (regression) bằng cách sử dụng một phiên bản của phương pháp gọi là Support Vector Regression (SVR)
biên cực đại vectơ hỗ trợ ——|
siêu phẳng phân cách „⁄ˆ
NÓ
Hình 2 5: Ví dự về mô hình SVM
Ư% điểm phương pháp SVM:
Tính hiệu quả cao: xử lý dữ liệu trong không gian nhiều chiều
Xử lý dữ liệu được phân tách thành tuyến tính lẫn phi tuyến tính
Phân lớp nhanh và tiết kiệm bộ nhớ
Nhược điểm:
Nhạy cảm với nhiễu
Thiếu thông tin xác suất phân lớp
Kém hiệu quả với tập dữ liệu lớn
Nếu số chiều lớn hơn sô mẫu dữ liệu huần luyện, mô hình sẽ kém hiệu quả
hơn
2.2.3.3 Cây quyết định
18
Trang 19Phương pháp cây quyết định là một phương pháp quan trọng trong khoa học
dữ liệu để phân loại hoặc dự đoán kết quả dựa trên các đặc trưng của đữ liệu
đầu vào.Phương pháp này hoạt động bằng cách xây dựng một cây quyét định
từ tập dữ liệu huần luyện, trong đó mỗi nút trên cây đại diện cho một thuộc
tính của dữ liệu và các nhánh đại diện cho các giá trị có thê của thuộc tính đó
“Trong lý thuyết quản trị, cây quyết định đề cập đến đồ thị các quyết định và các kết quả có thê xảy ra, nhằm hỗ trợ quá trình đưa ra quyết định”
“Trong lĩnh vực khai thác dữ liệu, cây quyết định là một phương pháp được sử dụng đề mô tá, phân loại và tông quát hóa tập dữ liệu đã cho”
Hình 2 6: Ví dự mô hình cây quyéz đ;nh
Đề xây dựng cây quyết định, thuật toán bát đầu bằng cách chọn thuộc tính tốt nhất dé chia tập dữ liệu thành các tập con Quá trình này được lặp lại cho mỗi tập con đến khi tất cá các thuộc tính đều đã được sử dụng hoặc các tập con chỉ chứa các mẫu thuộc cùng một lớp
Sau khi cây được xây dựng, nó có thê được sử dụng đề phân loại hoặc dự đoán các dữ liệu mới bằng cách đi từ gốc cây đến các lá của cây Mỗi lá đại diện cho một lớp hoặc kết quả dự đoán
Uu điểm phương phép Cây quyếr định:
Không cân chuẩn hóa dữ liệu
Phân lớp nhanh hơn
Dễ hiệu, dễ diễn giái kết qua
Co thé ap dung cho nhiều loại dữ liệu khác nhau
Không bị ảnh hưởng khi thiếu dữ liệu
Khuyét diém:
19
Trang 20Chi phi ton kém, cần nhiều thời gian xây dựng mô hình
Tính ôn định kém: training set thay đôi dù nhỏ cũng sẽ gây sự thay đổi lớn đến
cầu trúc của Cây quyết định
Tính hiệu quá kém hơn đồi với dữ liệu định lượng
2.2.4 Neural Network
Mạng nơ-ron (Neural Network) là một phương pháp phô biến trong khoa học dữ liệu đề học máy và giái quyết các vấn đè phân loại hoặc dự đoán Phương pháp
này dựa trên mô hình của hệ thống noron sinh học trong não của con người để xử
lý thông tin và học hỏi từ dữ liệu
Mạng nơ-ron bao gòm một số lượng lớn các noron liên kết với nhau đề tạo thành
một mạng Mỗi nơron nhận đầu vào từ các nơron khác và xử lý thông tin bằng
cách áp dụng một hàm kích hoạt đề tính toán đầu ra của nó Các noron được tô chức thành các lớp, trong đó lớp đầu tiên là lớp đầu vào, lớp cuối cùng là lớp đầu
ra và các lớp trung gian được gọi là lớp ấn
Đề huấn luyện mạng nơ-ron, thuật toán sử dụng một tập dữ liệu huần luyện đề điều chinh các trọng só liên kết giữa các nơ-ron Quá trình này được thực hiện bang cach tính toán độ lỗi giữa kết quả đầu ra dự đoán của mạng và kết quả đầu
ra thực tế từ dữ liệu huấn luyện, sau đó điều chính các trọng số để giám thiểu độ lỗi đó Quá trình này được lặp lại cho đến khi độ lỗi được giám đến một mức chấp nhận được hoặc khi só làn lặp lại đã đạt đến một giới hạn trước đó
Mạng nơ-ron có thê được sử dụng đề giái quyết nhiều loại vấn đề khác nhau, bao gòm phân loại, dự đoán và phân tích hình ánh và âm thanh Nó có nhiều ưu điểm, bao gồm khả năng học từ dữ liệu phức tạp, khả năng xử lý các đầu vào phi tuyến
tính và khả năng tự động học các đặc trưng quan trọng từ dữ liệu Tuy nhiên, nó
cũng có một sô hạn chế, bao gồm khả năng bị overñtting, đòi hỏi nhiều tài nguyên tính toán và khó giải thích kết quả dự đoán của nó
2.2.5 Các phương pháp đánh giá mô hình phân lớp
Các kết quả đánh giá mô hình bao gồm:
Good Fitting (vira khép): Đây là trường hợp mô hinh lý tưởng, mang tính
tông quát, cho ra kết quá hợp lý đồng thời phù hợp với cá tập dữ liệu huấn
luyện và các giá trị mới
Underfitting (chưa khớp): Đây là trường hợp mô hình cho ra kết quá dự
đoán không phù hợp với dữ liệu huấn luyện Nguyên nhân có thể là mô hình chưa đủ phức tạp dẫn đến độ chính xác thấp
Overfitting (quá khớp): Đây là hiện tượng mô hình quả khớp với dữ liệu
huán luyện, dẫn đến việc dự đoán cả nhiễu nên mô hình không còn hiệu
quả khi phân lớp trên dữ liệu mới Quá khớp xảy ra khi lượng dữ liệu huấn
20
Trang 21luyện quá nhỏ trong khi độ phức tạp của mô hình quá cao, cho ra độ chính xác cao nhưng không mô tả được xu hướng tông quát của dữ liệu mới
Hình 2 7: Minh hoạ các phương pháp đánh giá mô hình phần lop
2.2.5.1.Ma trận nhằm lẫn
Khái niệm: “Ma trận nhằm lẫn chỉ ra có bao nhiêu điểm dữ liệu thực sự
thuộc vào một lớp cụ thẻ, và được dự đoán là rơi vào lớp nào; có kích
thước k x k, với k là số lượng lớp của dữ liệu”
Dự đoán Positive Negative loai | ?
Kết luận đúng Sai lầm loại II
Positive | True Positive | False Negative
(TP) (FN) Sai làm loại I Kết luận đúng
Negative | False Positive\ | True Negative
Lớp bị ung thư: được chuân đoán Positive
Lớp không bị ung thư: được chuân đoán là Negative
Mô hình bài toán cho ra 4 kết quá chân đoán:
TP (True Positive): Số lượng dự đoán chính xác, dự đoán đúng một
người bị mắc bệnh ung thư
TN (True Negative): Số lượng dự đoán chính xác một cách gián tiếp, dự
đoán đúng một người không bị ung thư
21
Trang 22FP (False Positive - Type 1 Error): S6 long các dự đoán sai lệch, dự đoán một người khỏe mạnh bị ung thư
FN (False Negative - Type 2 Error): Số lượng các dự đoán sai lệch một
cách gián tiếp, dự đoán một người bị ung thư không mắc bệnh
2.2.5.2.Độ chính xac (Accuracy)
Độ chính xác (Accuracy) là một phương pháp đánh giá hiệu suất mô hình phân loại bằng cách tính toán tỷ lệ phân loại chính xác trên tất cả các điểm dữ liệu trong tập kiêm tra Độ chính xác được tính bằng tông số điểm dữ liệu được phân loại chính xác chia cho tổng số điểm dữ liệu
TP+LTN TP + TN
số lượngmẫu TP +TN + FP + FN
Accuracy =
2.2.5.3.Precision, Recall, F1-Score
Precision và Recall là hai phương pháp đánh giá hiệu suất mô hình phân loại bằng cách tính toán tỷ lệ các điểm dữ liệu được phân loại đúng trong lớp Positive.Precision là tý lệ số lượng điểm dữ liệu Positive được phân loại đúng trên tông số điểm dữ liệu được phân loại vào lớp Positive
Recall là tý lệ số lượng điểm dữ liệu Positive Được phân loại đúng trên
tong s6 diém dir ligu thie té thude lop Positive Precision va Recall thường được sử dụng đề đánh giá hiệu suất của mô hình phân loại trong
các tác vụ phân loại không cân bằng lớp
Precision: Trong tất cả các dự đoán Positive được đưa ra, bao nhiêu dự
đoán là chính xác Chí số này được tính theo công thức
F1-score: Là một độ đo để đánh giá hiệu suất của một mô hình phân loại
dựa trênsự kết hợp giữa độ chính xac (precision) va d6 bao phu (recall)
F1-score là trungbinh điều hòa giữa precision và recall, giá tri của nó năm trong khoảng từ 0 đến Ivà được tính bằng công thức:
22