Bởi sự quan trọng tất yếu đó, sinh viên nghiên cứu quyết định thực hiện đề tài về phân tích về phân khúc khách hàng tiềm năng của ngành thực phẩm thông qua biến tính cách khách hàng, để
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM
TIỂU LUẬNMÔN HỌC: KHOA HỌC DỮ LIỆU
Đề tài: Ứng dụng mô hình học máy trong việc xác định khách hàng tiềm năng thông qua các chiến lược Marketing
Trang 2MỤC LỤC
I GIỚI THIỆU ĐỀ TÀI 4
1 Lý do chọn đề tài 4
2 Mục đích nghiên cứu 4
3 Phương pháp thực hiện 5
4 Đối tượng nghiên cứu 5
5 Cấu trúc của bài nghiên cứu 5
II CƠ SỞ LÝ LUẬN 5
1 Giới thiệu về khai phá dữ liệu 5
1.1 Khai phá dữ liệu là gì? 6
1.2 Quy trình khai phá dữ liệu 6
1.3 Ứng dụng của khai phá dữ liệu 7
1.4 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu – Orange 7 2 Một số thuật toán sử dụng trong bài nghiên cứu 7
2.1 Phương pháp cây ra quyết định (Decision Tree) 7
2.2 Phương pháp hồi quy logistic (Logistic Regression) 8
2.3 Phương pháp Mạng Nơ ron nhân tạo (Neural Network) 9
III MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT 10
1 Mô tả dữ liệu: 10
2 Xử lý dữ liệu: 13
3 Trực quan hóa dữ liệu: 13
3.1 Năm sinh: 13
3.2 Trình độ học vấn: 14
3.3 Tình trạng hôn nhân: 14
3.4 Thu nhập hộ gia đình hàng năm: 15
3.5 Hộ gia đình có con: 16
3.6 Ngày khách hàng gia nhập: 17
3.7 Lượt truy cập: 18
3.8 Số tiền khách hàng chi tiêu trong 2 năm: 18
3.9 Thói quen mua hàng của khách: 19
3.10 Phản hồi của khách hàng: 20
Trang 3IV KẾT QUẢ THỰC HIỆN 20
1 Phân tích kết quả dựa trên Orange 20
2 Đánh giá kết quả và mô hình 24
V KẾT LUẬN VÀ NHẬN XÉT 24
Trang 4I GIỚI THIỆU ĐỀ TÀI
1 Lý do chọn đề tài
Trong thời đại công nghiệp 4.0 bùng nổ, hàng loạt các thiết bị máy móc hiện đại
ra đời, và cùng với đó là sự xuất hiện đa dạng của các ngành nghề mới đang dẫn đầu trong công nghiệp Và công nghệ thông tin tại Việt Nam ngày nay cũng dần phát triển
và bùng nổ khiến cho việc thu thập một lượng lớn dữ liệu tăng lên nhanh chóng Trướctình hình bùng nổ thông tin đang diễn ra, những người ra quyết định trong các tổ chức tài chính, thương mại, khoa học, không muốn bỏ sót bất cứ thông tin nào thu thập được Họ muốn lưu trữ tất cả thông tin vì cho rằng trong đó ẩn chứa những giá trị tiềm
ẩn cần được phát hiện
Những lí do trên đây chính là tiền đề cho sự ra đời kỹ thuật khai phá dữ liệu (KPDL) (Data Mining) khi nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phân tích
dữ liệu, … đòi hỏi kỹ thuật xử lý thông minh và hiệu quả hơn ngày một tăng cao Nhờ
đó, chúng ta có khả năng khai thác những tri thức hữu dụng và thật sự cần thiết từ kho
dữ liệu khổng lồ Việc chọn lọc đúng đắn không những giúp cải thiện kết quả đầu ra trong hiện tại mà còn hỗ trợ việc ra quyết định một cách chính xác hơn
Phân tích tính cách khách hàng là một phân tích chi tiết về những khách hàng lýtưởng của một doanh nghiệp Nó giúp doanh nghiệp hiểu rõ hơn về khách hàng của mình và giúp họ dễ dàng sửa đổi sản phẩm theo nhu cầu, hành vi và mối quan tâm cụ thể của các loại khách hàng khác nhau Dựa vào đó, doanh nghiệp có thể sửa đổi sản phẩm của mình thông qua những mục tiêu của khách hàng ở những phân khúc khác nhau Nhằm tiết kiệm chi phí trong việc quảng cáo thông tin sản phẩm cũng như đánh trọng tâm vào tâm lý người dùng, đem lại hiệu quả cao trong kinh doanh
Bởi sự quan trọng tất yếu đó, sinh viên nghiên cứu quyết định thực hiện đề tài
về phân tích về phân khúc khách hàng tiềm năng của ngành thực phẩm thông qua biến tính cách khách hàng, để từ đó đưa ra được những chiến lược kinh doanh tốt nhất
2 Mục đích nghiên cứu
Với đề tài nghiên cứu “Ứng dụng mô hình máy tính học vào việc xác định khách hàng tiềm năng trong ngành thực phẩm” tập trung vào hai mục tiêu chính:
Trang 5- Khai phá được ứng dụng Data Mining, tìm ra được phương pháp chuẩn xác nhất và phù hợp trong việc sử dụng mô hình máy tính học vào phân tích kinh
tế
- Nghiên cứu về các phương pháp của cụ thể, phương pháp phân lớp dữ liệu(phương pháp phân lớp đưa ra các dự báo, phân loại và cũng như phân lớp cácđối tượng) Nghiên cứu sẽ đưa các phương pháp phân lớp dữ liệu, và từ đó sẽchọn ra một phương pháp tối ưu và đảm bảo nhất cho quá trình dự báo dữ liệu
Cụ thể là thuật toán phân lớp dữ liệu bằng Neural Network
- Dự báo các mô hình hoạt động kinh doanh sẽ dựa vào bộ dữ liệu đã được huấnluyện, từ đó sẽ đưa ra những mô hình hoạt động kinh doanh tốt nhất cho cácdoanh nghiệp
3 Phương pháp thực hiện
Sử dụng công cụ khai phá dữ liệu Orange để xử lý dữ liệu, biểu diễn dữ liệucũng như so sánh các mô hình Dùng phần mền Excel để phân tích mô tả chi tiết từngbiến dữ liệu
4 Đối tượng nghiên cứu
Đối tượng nghiên cứu là những khách hàng mua sản phẩm lương thực thiết yếu của công ty Bộ dữ liệu cho dự án này được cung cấp bởi Tiến sĩ Omar Romero-Hernandez, và được tải xuống từ web Kaggle.com Tập dữ liệu bao gồm thông tin dữ liệu thô chứa 2240 hàng dữ liệu (khách hàng) và 29 cột (đặc tính)
5 Cấu trúc của bài nghiên cứu
Gồm có 4 chương
Chương 1: GIỚI THIỆU
Chương 2: CƠ SỞ LÝ LUẬN
Chương 3: PHÂN TÍCH VÀ DỰ BÁO
Chương 4: KẾT LUẬN VÀ GIẢI PHÁP
Trang 6II CƠ SỞ LÝ LUẬN
1 Giới thiệu về khai phá dữ liệu
1.1 Khai phá dữ liệu là gì?
Khai phá dữ liệu (Data Mining) là quá trình sắp xếp, phân loại một tập hợp các
dữ liệu lớn để xác định các mẫu và thành lập một mối quan hệ nhằm giải quyết nhiềuvấn đề thông qua việc phân tích dữ liệu Các MCU khai phá dữ liệu cho phép các công
ty hay các doanh nghiệp có thể dự báo được xu hướng trong tương lai
Quá trình để khai phá dữ liệu là một quá trình rất phức tạp đòi hỏi dữ liệu cầnphải chuyên sâu và yêu cầu nhiều kỹ năng tính toán khác nhau Hơn nữa, khai phá dữliệu không chỉ giới hạn trong việc trích xuất các dữ liệu mà còn sử dụng để làm sạch,chuyển đổi, tích hợp dữ liệu và phân tích các mẫu
1.2 Quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu bao gồm 7 bước như sau:
- Bước 1: Làm sạch dữ liệu Đây là bước loại bỏ nhiễu và các dữ liệu không cần thiết
và được đánh giá là khá quan trọng vì những dữ liệu bẩn nếu được sử dụng trực tiếptrong khai phá dữ liệu có thể sẽ gây ra kết quả nhầm lẫn, dự báo và tạo ra các kết quảkhông được chính xác
- Bước 2 Tích hợp dữ liệu.: Đây là quá trình hợp nhất dữ liệu thành những kho dữ liệusau khi đã làm sạch và xử lý Ở bước này, có thể giúp cho dữ liệu của chúng ta cảithiện về độ chính xác cũng như tốc độ của quá trình khai phá dữ liệu
- Bước 3 Làm giảm dữ liệu : Trích chọn dữ liệu từ những kho dữ liệu sau đó chuyểnđổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc
xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), v.v.Mục đích ở bước này là giúp kích thước của dữ liệu có khối lượng nhỏ hơn nhưng nóvẫn đảm bảo và vẫn duy trì về tính toàn vẹn
- Bước 4 Chuyển đổi dữ liệu : Trong bước này, dữ liệu được chuyển thành một dạngphù hợp với quy trình khai phá dữ liệu Dữ liệu được hợp nhất để quy trình khai phá
dữ liệu có thể hiệu quả hơn và các mẫu dễ hiểu hơn
- Bước 5 Khai thác dữ liệu : Đây là một trong các bước quan trọng nhất, trong đó sửdụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu Ở bước này,chúng ta đi khai thác dữ liệu là để xác định các mẫu và một lượng lớn dữ liệu từ nhữngsuy luận
Trang 7- Bước 6: Đánh giá mẫu Bước này bao gồm việc xác định các mẫu đại diện cho nhiềukiến thức dựa trên những thước đo, cho biết những kiến thức nào là cần thiết, kiếnthức nào là dư thừa và sẽ bị loại bỏ Các phương pháp trực quan hóa và tóm tắt dữ liệuđược sử dụng để người dùng có thể hiểu được bộ dữ liệu của mình.
- Bước 7: Trình bày thông tin Quá trình này sử dụng các kỹ thuật để biểu diễn và thể
hiện trực quan cho người dùng Dữ liệu sẽ được diễn giải lại dưới các báo cáo, hoặccác báo cáo dạng bảng,…
1.3 Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu được ứng dụng rất nhiều trong đời sống xã hội tiêu biểu ở một
số những lĩnh vực như sau: phân tích thị trường – chứng khoán, phát hiện gian lận,quản trị rủi ro doanh nghiệp, bán lẻ, trí tuệ nhân tạo, thương mại điện tử, phòng chốngtội phạm,… và còn rất nhiều các lĩnh vực khác
Ở lĩnh vực thương mại điện tử nhiều công ty thương mại điện tử đang áp dụngứng dụng của Data Mining để bán hàng qua nhiều nước thông qua các trang web của
họ Một trong những công ty nổi tiếng nhất ứng dụng điều này là Amazon Họ sử dụngcác kỹ thuật khai phá dữ liệu để lái “những người đã xem sản phẩm đó cũng thích sảnphẩm được giới thiệu này”
1.4 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu – Orange Orange là phần mềm dùng để khai thác dữ liệu theo phương diện mã nguồn mở.Orange giúp cho người dùng có một giao diện lập trình sinh động và trực, dễ theo dõichi tiết để phân tích dữ một một cách nhân nhất, chính xác, cụ thể Orange là gói phầnmềm dựa trên những công cụ dùng để trực quan hóa dữ liệu, khai thác và phân tích dữliệu chính xác thông qua ngôn ngữ lập trình Orange cũng là một phần mềm kết hợpcông cụ khai phá dữ liệu và học máy, và cung cấp những trực quan tương tác, thẩm mỹcho người dùng phần mềm, nó được viết bằng Python
Orange là phần mềm hướng tới mục tiêu tự động hóa Đây là một trong nhữngphần mềm khai phá dữ liệu tiện dụng, dễ dàng trong việc sử dụng nhờ giao diện nhỏgọn, các toolbox được sắp xếp một cách mạch lạc, hợp lý, bất kỳ ai cũng có thể sửdụng Vì vậy, Orange là phần mềm mà nhóm tôi sẽ sử dụng trong bài nghiên cứu
Trang 82 Một số thuật toán sử dụng trong bài nghiên cứu
2.1 Phương pháp cây ra quyết định (Decision Tree)
Cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượngdựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khácnhau như Nhị phân (Binary), Định danh (Nominal),Thứ tự (Ordinal), Số lượng(Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặcOrdinal
Từ dữ liệu về các đối tượng sẵn có, phương pháp cây quyết định sẽ giúp chúng ta mô
tả, phân loại, tổng quan dữ liệu cho trước này Cụ thể hơn, cây quyết định sẽ đưa ra các
dự đoán cho từng đối tượng
Hình 2.1: Minh họa thuật toán phân lớp cây quyết định (Decision tree)
2.2 Phương pháp hồi quy logistic (Logistic Regression)
Hồi quy logistic là một mô hình thống kê ở dạng cơ bản sử dụng một hàm logistic đểlập mô hình một biến phụ thuộc nhị phân, mặc dù tồn tại nhiều phần mở rộng phức tạphơn Trong phân tích hồi quy, hồi quy logistic (hay hồi quy logit) là ước lượng cáctham số của mô hình logistic (một dạng của hồi quy nhị phân) Về mặt toán học, môhình logistic nhị phân có một biến phụ thuộc với hai giá trị có thể có, chẳng hạn như
Trang 9đạt / không đạt được đại diện bởi một biến chỉ báo, trong đó hai giá trị được gắn nhãn
"0" và "1"
Hình 2.2: Minh họa thuật toán phân lớp Hồi quy Logistic (Logistic Regression)
Nguồn: ANALYTICS VIDHYA Understanding Logistic Regression
2.3 Phương pháp Mạng Nơ ron nhân tạo (Neural Network)
Mạng Nơ ron nhân tạo (hay Neural Network) là mạng sử dụng một loạt các thuật toánphức tạp nhằm xác định, xử lý thông tin và tìm ra các mối quan hệ cơ bản tiềm ẩntrong bộ dữ liệu Lấy cảm hứng từ mô hình hoạt động của các tế bào thần kinh và khớpthần kinh trong não của con người, Neural Network là sự kết nối các nút đơn giản, cònđược gọi là tế bào thần kinh Và một tập hợp các nút như vậy tạo thành một mạng lướicác nút Mỗi nút có một cấu trúc tương thích với hàm hồi quy tuyến tính đa biến.Chúng sẽ được sắp xếp với các lớp liên kết với nhau Lớp đầu vào sẽ thu nhập các dữliệu đầu vào và các lớp đầu ra sẽ nhận các phân loại hoặc tín hiệu đầu ra mà các mẫuđầu vào có thể phản ánh lại
Thuật toán này có khả năng thích ứng được với mọi thay đổi từ dữ liệu đầu vào và đưa
ra được mọi kết quả chính xác nhất mà có thể giữ nguyên những tiêu chí đầu ra
Trang 10Hình 2.3: Minh họa thuật toán phân lớp Mạng Nơ ron nhân tạo (Neural Network)
Trang 11III MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT
Marital Status Tình trạng hôn nhân của khách hàng
Income Thu nhập hộ gia đình hàng năm của khách hàng
Kid home Nhà có con trong độ tuổi trẻ em
Teen home Nhà có con trong độ tuổi thanh thiếu niên
Dt Customer Ngày khách hàng gia nhập
Recency Lần truy cập gần đây
Mnt Wines Số tiền chi cho rượu vang trong 2 năm qua
Mnt Fruits Số tiền chi cho trái cây trong 2 năm qua
Mnt Meat Products Số tiền chi cho thịt trong 2 năm qua
Mnt Fish Products Số tiền chi cho cá trong 2 năm qua
Mnt Sweet Products Số tiền chi cho đồ ngọt trong 2 năm qua
Trang 12Mnt Gold Prods Số tiền chi cho vàng trong 2 năm qua
Num Deals
Purchases
Số lần mua hàng được giảm giá
Num Web Purchases Số lần mua hàng được thực hiện thông qua trang web của công
tyNum Catalog
Purchases
Số lần mua hàng được thực hiện thông qua catalog
Num Store Purchases Số lần mua hàng được thực hiện trực tiếp tại cửa hàng
Num Web Visits
Month
Số lần truy cập vào trang web của công ty trong tháng trước
Accepted Cmp1 Cho biết khách hàng chấp nhận ưu đãi trong chiến dịch đầu
tiên hay không(1 = có, 0 = không)
Accepted Cmp2 Cho biết khách hàng chấp nhận ưu đãi trong chiến dịch thứ 2
hay không(1 = có, 0 = không)
Accepted Cmp3 Cho biết khách hàng chấp nhận ưu đãi trong chiến dịch thứ 3
hay không(1 = có, 0 = không)
Accepted Cmp4 Cho biết khách hàng chấp nhận ưu đãi trong chiến dịch thứ 4
hay không(1 = có, 0 = không)
Accepted Cmp5 Cho biết khách hàng chấp nhận ưu đãi trong chiến dịch thứ 5
hay không(1 = có , 0 = không)
Trang 13Complain Phản ánh của khách hàng
(1 = có , 0 = không)
Z_Cost Contact Chi phí liên hệ
Z_Revenue Doanh thu
Response Khách hàng có chấp nhận ưu đãi trong chiến dịch cuối
cùng hay không (1 = có , 0 = không)
2 Xử lý dữ liệu:
Quan sát dữ liệu sinh viên nhận thấy dữ liệu của các cột ID, Dt Customer, Z_Cost Contact, Z_Revenue, Accepted Cmp 1,2,3,4,5 không ảnh hưởng đến việc đưa ra đánh giá, vì vậy sinh viên không sử dụng các đặc tính này vào quá trình huấn luyện
3 Trực quan hóa dữ liệu:
Sinh viên sử dụng công cụ Excel để trực quan hóa dữ liệu dưới dạng biểu đồ cho các biến như sau:
Trang 143.1 Năm sinh:
Hình 1: Trực quan hóa dữ liệu theo độ tuổi
- Dựa vào năm sinh để phân loại khách hàng, những khách hàng có năm sinh từ 1962trở về sau được xếp vào nhóm độ tuổi lao động Từ 1962 trở về trước sẽ được xếp vào nhóm hết tuổi lao động
- Kết quả trực quan cho thấy người trong độ tuổi lao động chiếm phần lớn trong dữ liệu vì thường là nguồn thu nhập chính trong gia đình Tỷ lệ không đồng ý trong dữliệu nhận được nhiều đánh giá hơn
3.2 Trình độ học vấn:
Hình 2: Trực quan hóa dữ liệu theo trình độ học vấn
Không có khác biệt nhiều về trình độ của khách hàng đồng ý và không đồng ý Khách hàng có bằng cấp đại học và tiến sĩ chiếm phần lớn dữ liệu Khách hàng có phản hồi không đồng ý cao hơn khách hàng đồng ý
Trang 153.3 Tình trạng hôn nhân:
- Đối với biến này sinh viên sẽ phân loại khách hàng thành hai nhóm Những người trong tình trạng alone, single, divorced, widow được xếp vào nhóm độc thân, những người trong tình trạng married, together được xếp vào nhóm đã lập gia đình
Hình 3: Trực quan hóa dữ liệu theo tình trạng hôn nhân
- Nhóm khách hàng đã lập gia đình có nhiều đánh giá hơn đối với ngành hàng thực phẩm Tỷ lệ không đồng ý cao hơn tỷ lệ đồng ý ở cả hai nhóm
3.4 Thu nhập hộ gia đình hàng năm:
- Đối với biến này sinh viên phân nhóm khách hàng theo thu nhập trung bình nước
Mỹ Thu nhập hộ gia đình trung bình hằng năm (2021) khoảng 60.000 $ Vậy nhóm khách hàng có thu nhập dưới 60.000 $ sẽ xếp vào nhóm thu nhập dưới trung bình, nhóm có thu nhập trên 60.000 $ xếp vào nhóm thu nhập trên trung bình