Ứng dụng mô hình học máy trong việc xác định khách hàngtiềm năng thông qua các chiến lược marketing

Khai phá dữ liệu là gì?Khai phá dữ liệu Data Mining là quá trình sắp xếp, phân loại một tập hợp các dữ liệu lớn để xác định các mẫu và thành lập một mối quan hệ nhằm giải quyết nhiều vấn

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM

TIỂU LUẬNMÔN HỌC: KHOA HỌC DỮ LIỆU

Đề tài: Ứng dụng mô hình học máy trong việc xác định khách hàng

tiềm năng thông qua các chiến lược Marketing

Giảng viên hướng dẫn: TS Thái Kim Phụng

Nhóm sinh viên thực hiện:

Trần Thanh Sơn - 31211021963 Trương Nguyễn Phương Thy - 31211024776

Châu Tuyết Hoa - 31211024927 Nguyễn Hoàng Bảo Lân - 87221020146 Lớp học phần: 22C1INF50905918 – Chiều thứ 3

TP.HCM, ngày 28 tháng 10 năm 2022

Trang 2

MỤC LỤC

I GIỚI THIỆU ĐỀ TÀI 4

1 Lý do chọn đề tài 4

2 Mục đích nghiên cứu 4

3 Phương pháp thực hiện 5

4 Đối tượng nghiên cứu 5

5 Cấu trúc của bài nghiên cứu 5

II CƠ SỞ LÝ LUẬN 5

1 Giới thiệu về khai phá dữ liệu 5

1.1 Khai phá dữ liệu là gì? 6

1.2 Quy trình khai phá dữ liệu 6

1.3 Ứng dụng của khai phá dữ liệu 7

1.4 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu – Orange 7 2 Một số thuật toán sử dụng trong bài nghiên cứu 7

2.1 Phương pháp cây ra quyết định (Decision Tree) 7

2.2 Phương pháp hồi quy logistic (Logistic Regression) 8

2.3 Phương pháp Mạng Nơ ron nhân tạo (Neural Network) 9

III MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT 10

1 Mô tả dữ liệu: 10

2 Xử lý dữ liệu: 13

3 Trực quan hóa dữ liệu: 13

3.1 Năm sinh: 13

3.2 Trình độ học vấn: 14

3.3 Tình trạng hôn nhân: 14

3.4 Thu nhập hộ gia đình hàng năm: 15

3.5 Hộ gia đình có con: 16

3.6 Ngày khách hàng gia nhập: 17

3.7 Lượt truy cập: 18

3.8 Số tiền khách hàng chi tiêu trong 2 năm: 18

3.9 Thói quen mua hàng của khách: 19

2

Trang 3

3.10 Phản hồi của khách hàng: 20

IV KẾT QUẢ THỰC HIỆN 20

1 Phân tích kết quả dựa trên Orange 20

2 Đánh giá kết quả và mô hình 24

V KẾT LUẬN VÀ NHẬN XÉT 24

Trang 4

I GIỚI THIỆU ĐỀ TÀI

1 Lý do chọn đề tài

Trong thời đại công nghiệp 4.0 bùng nổ, hàng loạt các thiết bị máy móc hiện đại ra đời, và cùng với đó là sự xuất hiện đa dạng của các ngành nghề mới đang dẫn đầu trong công nghiệp Và công nghệ thông tin tại Việt Nam ngày nay cũng dần phát triển và bùng nổ khiến cho việc thu thập một lượng lớn dữ liệu tăng lên nhanh chóng Trước tình hình bùng nổ thông tin đang diễn ra, những người ra quyết định trong các

tổ chức tài chính, thương mại, khoa học, không muốn bỏ sót bất cứ thông tin nào thu thập được Họ muốn lưu trữ tất cả thông tin vì cho rằng trong đó ẩn chứa những giá trị tiềm ẩn cần được phát hiện

Những lí do trên đây chính là tiền đề cho sự ra đời kỹ thuật khai phá dữ liệu (KPDL) (Data Mining) khi nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phân tích

dữ liệu, … đòi hỏi kỹ thuật xử lý thông minh và hiệu quả hơn ngày một tăng cao Nhờ

đó, chúng ta có khả năng khai thác những tri thức hữu dụng và thật sự cần thiết từ kho

dữ liệu khổng lồ Việc chọn lọc đúng đắn không những giúp cải thiện kết quả đầu ra trong hiện tại mà còn hỗ trợ việc ra quyết định một cách chính xác hơn

Phân tích tính cách khách hàng là một phân tích chi tiết về những khách hàng lýtưởng của một doanh nghiệp Nó giúp doanh nghiệp hiểu rõ hơn về khách hàng của mình và giúp họ dễ dàng sửa đổi sản phẩm theo nhu cầu, hành vi và mối quan tâm cụ thể của các loại khách hàng khác nhau Dựa vào đó, doanh nghiệp có thể sửa đổi sản phẩm của mình thông qua những mục tiêu của khách hàng ở những phân khúc khác nhau Nhằm tiết kiệm chi phí trong việc quảng cáo thông tin sản phẩm cũng như đánh trọng tâm vào tâm lý người dùng, đem lại hiệu quả cao trong kinh doanh

Bởi sự quan trọng tất yếu đó, sinh viên nghiên cứu quyết định thực hiện đề tài

về phân tích về phân khúc khách hàng tiềm năng của ngành thực phẩm thông qua biến tính cách khách hàng, để từ đó đưa ra được những chiến lược kinh doanh tốt nhất

2 Mục đích nghiên cứu

Với đề tài nghiên cứu “Ứng dụng mô hình máy tính học vào việc xác định khách hàng tiềm năng trong ngành thực phẩm” tập trung vào hai mục tiêu chính:

4

Trang 5

- Khai phá được ứng dụng Data Mining, tìm ra được phương pháp chuẩn xác nhất và phù hợp trong việc sử dụng mô hình máy tính học vào phân tích kinh

tế

- Nghiên cứu về các phương pháp của cụ thể, phương pháp phân lớp dữ liệu(phương pháp phân lớp đưa ra các dự báo, phân loại và cũng như phân lớp cácđối tượng) Nghiên cứu sẽ đưa các phương pháp phân lớp dữ liệu, và từ đó sẽchọn ra một phương pháp tối ưu và đảm bảo nhất cho quá trình dự báo dữ liệu

Cụ thể là thuật toán phân lớp dữ liệu bằng Neural Network

- Dự báo các mô hình hoạt động kinh doanh sẽ dựa vào bộ dữ liệu đã được huấnluyện, từ đó sẽ đưa ra những mô hình hoạt động kinh doanh tốt nhất cho cácdoanh nghiệp

3 Phương pháp thực hiện

Sử dụng công cụ khai phá dữ liệu Orange để xử lý dữ liệu, biểu diễn dữ liệucũng như so sánh các mô hình Dùng phần mền Excel để phân tích mô tả chi tiết từngbiến dữ liệu

4 Đối tượng nghiên cứu

Đối tượng nghiên cứu là những khách hàng mua sản phẩm lương thực thiết yếu của công ty Bộ dữ liệu cho dự án này được cung cấp bởi Tiến sĩ Omar Romero-Hernandez, và được tải xuống từ web Kaggle.com Tập dữ liệu bao gồm thông tin dữ liệu thô chứa 2240 hàng dữ liệu (khách hàng) và 29 cột (đặc tính)

5 Cấu trúc của bài nghiên cứu

Gồm có 4 chương

Chương 1: GIỚI THIỆU

Chương 2: CƠ SỞ LÝ LUẬN

Chương 3: PHÂN TÍCH VÀ DỰ BÁO

Chương 4: KẾT LUẬN VÀ GIẢI PHÁP

Trang 6

II CƠ SỞ LÝ LUẬN

1 Giới thiệu về khai phá dữ liệu

1.1 Khai phá dữ liệu là gì?

Khai phá dữ liệu (Data Mining) là quá trình sắp xếp, phân loại một tập hợp các

dữ liệu lớn để xác định các mẫu và thành lập một mối quan hệ nhằm giải quyết nhiềuvấn đề thông qua việc phân tích dữ liệu Các MCU khai phá dữ liệu cho phép các công

ty hay các doanh nghiệp có thể dự báo được xu hướng trong tương lai

Quá trình để khai phá dữ liệu là một quá trình rất phức tạp đòi hỏi dữ liệu cầnphải chuyên sâu và yêu cầu nhiều kỹ năng tính toán khác nhau Hơn nữa, khai phá dữliệu không chỉ giới hạn trong việc trích xuất các dữ liệu mà còn sử dụng để làm sạch,chuyển đổi, tích hợp dữ liệu và phân tích các mẫu

1.2 Quy trình khai phá dữ liệu

Quy trình khai phá dữ liệu bao gồm 7 bước như sau:

- Bước 1: Làm sạch dữ liệu Đây là bước loại bỏ nhiễu và các dữ liệu không cần thiết

và được đánh giá là khá quan trọng vì những dữ liệu bẩn nếu được sử dụng trực tiếptrong khai phá dữ liệu có thể sẽ gây ra kết quả nhầm lẫn, dự báo và tạo ra các kết quảkhông được chính xác

- Bước 2 Tích hợp dữ liệu.: Đây là quá trình hợp nhất dữ liệu thành những kho dữ liệusau khi đã làm sạch và xử lý Ở bước này, có thể giúp cho dữ liệu của chúng ta cảithiện về độ chính xác cũng như tốc độ của quá trình khai phá dữ liệu

- Bước 3 Làm giảm dữ liệu : Trích chọn dữ liệu từ những kho dữ liệu sau đó chuyểnđổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc

xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), v.v.Mục đích ở bước này là giúp kích thước của dữ liệu có khối lượng nhỏ hơn nhưng nóvẫn đảm bảo và vẫn duy trì về tính toàn vẹn

- Bước 4 Chuyển đổi dữ liệu : Trong bước này, dữ liệu được chuyển thành một dạngphù hợp với quy trình khai phá dữ liệu Dữ liệu được hợp nhất để quy trình khai phá

dữ liệu có thể hiệu quả hơn và các mẫu dễ hiểu hơn

- Bước 5 Khai thác dữ liệu : Đây là một trong các bước quan trọng nhất, trong đó sửdụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu Ở bước này,chúng ta đi khai thác dữ liệu là để xác định các mẫu và một lượng lớn dữ liệu từ nhữngsuy luận

6

Trang 7

- Bước 6: Đánh giá mẫu Bước này bao gồm việc xác định các mẫu đại diện cho nhiềukiến thức dựa trên những thước đo, cho biết những kiến thức nào là cần thiết, kiếnthức nào là dư thừa và sẽ bị loại bỏ Các phương pháp trực quan hóa và tóm tắt dữ liệuđược sử dụng để người dùng có thể hiểu được bộ dữ liệu của mình.

- Bước 7: Trình bày thông tin Quá trình này sử dụng các kỹ thuật để biểu diễn và thể

hiện trực quan cho người dùng Dữ liệu sẽ được diễn giải lại dưới các báo cáo, hoặccác báo cáo dạng bảng,…

1.3 Ứng dụng của khai phá dữ liệu

Khai phá dữ liệu được ứng dụng rất nhiều trong đời sống xã hội tiêu biểu ở một

số những lĩnh vực như sau: phân tích thị trường – chứng khoán, phát hiện gian lận,quản trị rủi ro doanh nghiệp, bán lẻ, trí tuệ nhân tạo, thương mại điện tử, phòng chốngtội phạm,… và còn rất nhiều các lĩnh vực khác

Ở lĩnh vực thương mại điện tử nhiều công ty thương mại điện tử đang áp dụngứng dụng của Data Mining để bán hàng qua nhiều nước thông qua các trang web của

họ Một trong những công ty nổi tiếng nhất ứng dụng điều này là Amazon Họ sử dụngcác kỹ thuật khai phá dữ liệu để lái “những người đã xem sản phẩm đó cũng thích sảnphẩm được giới thiệu này”

1.4 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu – Orange Orange là phần mềm dùng để khai thác dữ liệu theo phương diện mã nguồn mở.Orange giúp cho người dùng có một giao diện lập trình sinh động và trực, dễ theo dõichi tiết để phân tích dữ một một cách nhân nhất, chính xác, cụ thể Orange là gói phầnmềm dựa trên những công cụ dùng để trực quan hóa dữ liệu, khai thác và phân tích dữliệu chính xác thông qua ngôn ngữ lập trình Orange cũng là một phần mềm kết hợpcông cụ khai phá dữ liệu và học máy, và cung cấp những trực quan tương tác, thẩm mỹcho người dùng phần mềm, nó được viết bằng Python

Orange là phần mềm hướng tới mục tiêu tự động hóa Đây là một trong nhữngphần mềm khai phá dữ liệu tiện dụng, dễ dàng trong việc sử dụng nhờ giao diện nhỏgọn, các toolbox được sắp xếp một cách mạch lạc, hợp lý, bất kỳ ai cũng có thể sửdụng Vì vậy, Orange là phần mềm mà nhóm tôi sẽ sử dụng trong bài nghiên cứu

Trang 8

2 Một số thuật toán sử dụng trong bài nghiên cứu

2.1 Phương pháp cây ra quyết định (Decision Tree)

Cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượngdựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khácnhau như Nhị phân (Binary), Định danh (Nominal),Thứ tự (Ordinal), Số lượng(Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặcOrdinal

Từ dữ liệu về các đối tượng sẵn có, phương pháp cây quyết định sẽ giúp chúng ta mô

tả, phân loại, tổng quan dữ liệu cho trước này Cụ thể hơn, cây quyết định sẽ đưa racác dự đoán cho từng đối tượng

Hình 2.1: Minh họa thuật toán phân lớp cây quyết định (Decision tree)

2.2 Phương pháp hồi quy logistic (Logistic Regression)

Hồi quy logistic là một mô hình thống kê ở dạng cơ bản sử dụng một hàm logistic đểlập mô hình một biến phụ thuộc nhị phân, mặc dù tồn tại nhiều phần mở rộng phức tạphơn Trong phân tích hồi quy, hồi quy logistic (hay hồi quy logit) là ước lượng cáctham số của mô hình logistic (một dạng của hồi quy nhị phân) Về mặt toán học, môhình logistic nhị phân có một biến phụ thuộc với hai giá trị có thể có, chẳng hạn như

8

Trang 9

đạt / không đạt được đại diện bởi một biến chỉ báo, trong đó hai giá trị được gắn nhãn

"0" và "1"

Hình 2.2: Minh họa thuật toán phân lớp Hồi quy Logistic (Logistic Regression)

Nguồn: ANALYTICS VIDHYA Understanding Logistic Regression

2.3 Phương pháp Mạng Nơ ron nhân tạo (Neural Network)

Mạng Nơ ron nhân tạo (hay Neural Network) là mạng sử dụng một loạt các thuật toánphức tạp nhằm xác định, xử lý thông tin và tìm ra các mối quan hệ cơ bản tiềm ẩntrong bộ dữ liệu Lấy cảm hứng từ mô hình hoạt động của các tế bào thần kinh và khớpthần kinh trong não của con người, Neural Network là sự kết nối các nút đơn giản, cònđược gọi là tế bào thần kinh Và một tập hợp các nút như vậy tạo thành một mạng lướicác nút Mỗi nút có một cấu trúc tương thích với hàm hồi quy tuyến tính đa biến.Chúng sẽ được sắp xếp với các lớp liên kết với nhau Lớp đầu vào sẽ thu nhập các dữliệu đầu vào và các lớp đầu ra sẽ nhận các phân loại hoặc tín hiệu đầu ra mà các mẫuđầu vào có thể phản ánh lại

Thuật toán này có khả năng thích ứng được với mọi thay đổi từ dữ liệu đầu vào và đưa

ra được mọi kết quả chính xác nhất mà có thể giữ nguyên những tiêu chí đầu ra

Trang 10

Hình 2.3: Minh họa thuật toán phân lớp Mạng Nơ ron nhân tạo (Neural Network)

10

Trang 11

III MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT

Marital Status Tình trạng hôn nhân của khách hàng

Income Thu nhập hộ gia đình hàng năm của khách hàng

Kid home Nhà có con trong độ tuổi trẻ em

Teen home Nhà có con trong độ tuổi thanh thiếu niên

Dt Customer Ngày khách hàng gia nhập

Recency Lần truy cập gần đây

Mnt Wines Số tiền chi cho rượu vang trong 2 năm qua

Mnt Fruits Số tiền chi cho trái cây trong 2 năm qua

Mnt Meat Products Số tiền chi cho thịt trong 2 năm qua

Mnt Fish Products Số tiền chi cho cá trong 2 năm qua

Mnt Sweet Products Số tiền chi cho đồ ngọt trong 2 năm qua

Trang 12

Mnt Gold Prods Số tiền chi cho vàng trong 2 năm qua

Num Deals

Purchases

Số lần mua hàng được giảm giá

Num Web Purchases Số lần mua hàng được thực hiện thông qua trang web của

công tyNum Catalog

Purchases

Số lần mua hàng được thực hiện thông qua catalog

Num Store

Purchases

Số lần mua hàng được thực hiện trực tiếp tại cửa hàng

Num Web Visits

Month

Số lần truy cập vào trang web của công ty trong tháng trước

Accepted Cmp1 Cho biết khách hàng chấp nhận ưu đãi trong chiến dịch đầu

tiên hay không(1 = có, 0 = không)

Accepted Cmp2 Cho biết khách hàng chấp nhận ưu đãi trong chiến dịch thứ 2

hay không(1 = có, 0 = không)

12

Trang 13

hay không(1 = có , 0 = không)

Complain Phản ánh của khách hàng

(1 = có , 0 = không)

Z_Cost Contact Chi phí liên hệ

Z_Revenue Doanh thu

Response Khách hàng có chấp nhận ưu đãi trong chiến dịch cuối

cùng hay không (1 = có , 0 = không)

2 Xử lý dữ liệu:

Quan sát dữ liệu sinh viên nhận thấy dữ liệu của các cột ID, Dt Customer, Z_Cost Contact, Z_Revenue, Accepted Cmp 1,2,3,4,5 không ảnh hưởng đến việc đưa ra đánh giá, vì vậy sinh viên không sử dụng các đặc tính này vào quá trình huấn luyện

3 Trực quan hóa dữ liệu:

Sinh viên sử dụng công cụ Excel để trực quan hóa dữ liệu dưới dạng biểu đồ cho các biến như sau:

Trang 14

3.1 Năm sinh:

Hình 1: Trực quan hóa dữ liệu theo độ tuổi

- Dựa vào năm sinh để phân loại khách hàng, những khách hàng có năm sinh từ 1962trở về sau được xếp vào nhóm độ tuổi lao động Từ 1962 trở về trước sẽ được xếp vào nhóm hết tuổi lao động

- Kết quả trực quan cho thấy người trong độ tuổi lao động chiếm phần lớn trong dữ liệu vì thường là nguồn thu nhập chính trong gia đình Tỷ lệ không đồng ý trong dữliệu nhận được nhiều đánh giá hơn

3.2 Trình độ học vấn:

Hình 2: Trực quan hóa dữ liệu theo trình độ học vấn

Không có khác biệt nhiều về trình độ của khách hàng đồng ý và không đồng ý Khách hàng có bằng cấp đại học và tiến sĩ chiếm phần lớn dữ liệu Khách hàng có phản hồi không đồng ý cao hơn khách hàng đồng ý

14

Trang 15

3.3 Tình trạng hôn nhân:

- Đối với biến này sinh viên sẽ phân loại khách hàng thành hai nhóm Những người trong tình trạng alone, single, divorced, widow được xếp vào nhóm độc thân, những người trong tình trạng married, together được xếp vào nhóm đã lập gia đình

Hình 3: Trực quan hóa dữ liệu theo tình trạng hôn nhân

- Nhóm khách hàng đã lập gia đình có nhiều đánh giá hơn đối với ngành hàng thực phẩm Tỷ lệ không đồng ý cao hơn tỷ lệ đồng ý ở cả hai nhóm

3.4 Thu nhập hộ gia đình hàng năm:

- Đối với biến này sinh viên phân nhóm khách hàng theo thu nhập trung bình nước

Mỹ Thu nhập hộ gia đình trung bình hằng năm (2021) khoảng 60.000 $ Vậy nhóm khách hàng có thu nhập dưới 60.000 $ sẽ xếp vào nhóm thu nhập dưới trung bình, nhóm có thu nhập trên 60.000 $ xếp vào nhóm thu nhập trên trung bình

Tiêu đề	Ứng Dụng Mô Hình Học Máy Trong Việc Xác Định Khách Hàng Tiềm Năng Thông Qua Các Chiến Lược Marketing
Tác giả	Trần Thanh Sơn, Trương Nguyễn Phương Thy, Châu Tuyết Hoa, Nguyễn Hoàng Bảo Lân
Người hướng dẫn	TS. Thái Kim Phụng
Trường học	Trường Đại Học Kinh Tế Tp.Hcm
Chuyên ngành	Khoa Học Dữ Liệu
Thể loại	tiểu luận
Năm xuất bản	2022
Thành phố	Tp.Hcm

Định dạng
Số trang	26
Dung lượng	2,68 MB