Khai phá dữ liệu là gì?Khai phá dữ liệu Data Mining là quá trình sắp xếp, phân loại một tập hợp các dữ liệu lớn để xác định các mẫu và thành lập một mối quan hệ nhằm giải quyết nhiều vấn
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM
TIỂU LUẬN
MÔN HỌC: KHOA HỌC DỮ LIỆU
Đề tài: Ứng dụng mô hình học máy trong việc xác định khách hàngtiềm năng thông qua các chiến lược Marketing
Giảng viên hướng dẫn: TS Thái Kim PhụngNhóm sinh viên thực hiện:Trần Thanh Sơn - 31211021963Trương Nguyễn Phương Thy - 31211024776
Châu Tuyết Hoa - 31211024927Nguyễn Hoàng Bảo Lân - 87221020146Lớp học phần: 22C1INF50905918 – Chiều thứ 3
TP.HCM, ngày 28 tháng 10 năm 2022
Trang 24 Đối tượng nghiên cứu 5
5 Cấu trúc của bài nghiên cứu 5
II CƠ SỞ LÝ LUẬN 5
1 Giới thiệu về khai phá dữ liệu 5
1.1 Khai phá dữ liệu là gì? 6
1.2 Quy trình khai phá dữ liệu 6
1.3 Ứng dụng của khai phá dữ liệu 7
1.4 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu – Orange 72 Một số thuật toán sử dụng trong bài nghiên cứu 7
2.1 Phương pháp cây ra quyết định (Decision Tree) 7
2.2 Phương pháp hồi quy logistic (Logistic Regression) 8
2.3 Phương pháp Mạng Nơ ron nhân tạo (Neural Network) 9
III MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT 10
3.8 Số tiền khách hàng chi tiêu trong 2 năm: 18
3.9 Thói quen mua hàng của khách: 19
2
Trang 33.10 Phản hồi của khách hàng: 20
IV KẾT QUẢ THỰC HIỆN 20
1.Phân tích kết quả dựa trên Orange 20
2.Đánh giá kết quả và mô hình 24
V KẾT LUẬN VÀ NHẬN XÉT 24
Trang 4I GIỚI THIỆU ĐỀ TÀI 1 Lý do chọn đề tài
Trong thời đại công nghiệp 4.0 bùng nổ, hàng loạt các thiết bị máy móc hiện đại ra đời, và cùng với đó là sự xuất hiện đa dạng của các ngành nghề mới đang dẫn đầu trong công nghiệp Và công nghệ thông tin tại Việt Nam ngày nay cũng dần phát triển và bùng nổ khiến cho việc thu thập một lượng lớn dữ liệu tăng lên nhanh chóng Trước tình hình bùng nổ thông tin đang diễn ra, những người ra quyết định trong các tổ chức tài chính, thương mại, khoa học, không muốn bỏ sót bất cứ thông tin nào thu thập được Họ muốn lưu trữ tất cả thông tin vì cho rằng trong đó ẩn chứa những giá trị tiềm ẩn cần được phát hiện
Những lí do trên đây chính là tiền đề cho sự ra đời kỹ thuật khai phá dữ liệu (KPDL) (Data Mining) khi nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phân tích dữ liệu, … đòi hỏi kỹ thuật xử lý thông minh và hiệu quả hơn ngày một tăng cao Nhờ đó, chúng ta có khả năng khai thác những tri thức hữu dụng và thật sự cần thiết từ kho dữ liệu khổng lồ Việc chọn lọc đúng đắn không những giúp cải thiện kết quả đầu ra trong hiện tại mà còn hỗ trợ việc ra quyết định một cách chính xác hơn
Phân tích tính cách khách hàng là một phân tích chi tiết về những khách hàng lý tưởng của một doanh nghiệp Nó giúp doanh nghiệp hiểu rõ hơn về khách hàng của mình và giúp họ dễ dàng sửa đổi sản phẩm theo nhu cầu, hành vi và mối quan tâm cụ thể của các loại khách hàng khác nhau Dựa vào đó, doanh nghiệp có thể sửa đổi sản phẩm của mình thông qua những mục tiêu của khách hàng ở những phân khúc khác nhau Nhằm tiết kiệm chi phí trong việc quảng cáo thông tin sản phẩm cũng như đánh trọng tâm vào tâm lý người dùng, đem lại hiệu quả cao trong kinh doanh
Bởi sự quan trọng tất yếu đó, sinh viên nghiên cứu quyết định thực hiện đề tài về phân tích về phân khúc khách hàng tiềm năng của ngành thực phẩm thông qua biến tính cách khách hàng, để từ đó đưa ra được những chiến lược kinh doanh tốt nhất
2 Mục đích nghiên cứu
Với đề tài nghiên cứu “Ứng dụng mô hình máy tính học vào việc xác định kháchhàng tiềm năng trong ngành thực phẩm” tập trung vào hai mục tiêu chính:
4
Trang 5- Khai phá được ứng dụng Data Mining, tìm ra được phương pháp chuẩn xác nhất và phù hợp trong việc sử dụng mô hình máy tính học vào phân tích kinh tế
- Nghiên cứu về các phương pháp của cụ thể, phương pháp phân lớp dữ liệu (phương pháp phân lớp đưa ra các dự báo, phân loại và cũng như phân lớp các đối tượng) Nghiên cứu sẽ đưa các phương pháp phân lớp dữ liệu, và từ đó sẽ chọn ra một phương pháp tối ưu và đảm bảo nhất cho quá trình dự báo dữ liệu Cụ thể là thuật toán phân lớp dữ liệu bằng Neural Network
- Dự báo các mô hình hoạt động kinh doanh sẽ dựa vào bộ dữ liệu đã được huấn luyện, từ đó sẽ đưa ra những mô hình hoạt động kinh doanh tốt nhất cho các doanh nghiệp.
3 Phương pháp thực hiện
Sử dụng công cụ khai phá dữ liệu Orange để xử lý dữ liệu, biểu diễn dữ liệu cũng như so sánh các mô hình Dùng phần mền Excel để phân tích mô tả chi tiết từng biến dữ liệu.
4 Đối tượng nghiên cứu
Đối tượng nghiên cứu là những khách hàng mua sản phẩm lương thực thiết yếu của công ty Bộ dữ liệu cho dự án này được cung cấp bởi Tiến sĩ Omar Romero-Hernandez, và được tải xuống từ web Kaggle.com Tập dữ liệu bao gồm thông tin dữ liệu thô chứa 2240 hàng dữ liệu (khách hàng) và 29 cột (đặc tính).
5 Cấu trúc của bài nghiên cứu
Gồm có 4 chương
Chương 1: GIỚI THIỆUChương 2: CƠ SỞ LÝ LUẬNChương 3: PHÂN TÍCH VÀ DỰ BÁOChương 4: KẾT LUẬN VÀ GIẢI PHÁP
Trang 6II CƠ SỞ LÝ LUẬN 1 Giới thiệu về khai phá dữ liệu1.1 Khai phá dữ liệu là gì?
Khai phá dữ liệu (Data Mining) là quá trình sắp xếp, phân loại một tập hợp các dữ liệu lớn để xác định các mẫu và thành lập một mối quan hệ nhằm giải quyết nhiều vấn đề thông qua việc phân tích dữ liệu Các MCU khai phá dữ liệu cho phép các công ty hay các doanh nghiệp có thể dự báo được xu hướng trong tương lai.
Quá trình để khai phá dữ liệu là một quá trình rất phức tạp đòi hỏi dữ liệu cần phải chuyên sâu và yêu cầu nhiều kỹ năng tính toán khác nhau Hơn nữa, khai phá dữ liệu không chỉ giới hạn trong việc trích xuất các dữ liệu mà còn sử dụng để làm sạch, chuyển đổi, tích hợp dữ liệu và phân tích các mẫu.
1.2 Quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu bao gồm 7 bước như sau:
- Bước 1: Làm sạch dữ liệu Đây là bước loại bỏ nhiễu và các dữ liệu không cần thiết
và được đánh giá là khá quan trọng vì những dữ liệu bẩn nếu được sử dụng trực tiếp trong khai phá dữ liệu có thể sẽ gây ra kết quả nhầm lẫn, dự báo và tạo ra các kết quả không được chính xác.
- Bước 2 Tích hợp dữ liệu.: Đây là quá trình hợp nhất dữ liệu thành những kho dữ liệu sau khi đã làm sạch và xử lý Ở bước này, có thể giúp cho dữ liệu của chúng ta cải thiện về độ chính xác cũng như tốc độ của quá trình khai phá dữ liệu.
- Bước 3 Làm giảm dữ liệu : Trích chọn dữ liệu từ những kho dữ liệu sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), v.v Mục đích ở bước này là giúp kích thước của dữ liệu có khối lượng nhỏ hơn nhưng nó vẫn đảm bảo và vẫn duy trì về tính toàn vẹn.
- Bước 4 Chuyển đổi dữ liệu : Trong bước này, dữ liệu được chuyển thành một dạng phù hợp với quy trình khai phá dữ liệu Dữ liệu được hợp nhất để quy trình khai phá dữ liệu có thể hiệu quả hơn và các mẫu dễ hiểu hơn.
- Bước 5 Khai thác dữ liệu : Đây là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu Ở bước này, chúng ta đi khai thác dữ liệu là để xác định các mẫu và một lượng lớn dữ liệu từ những suy luận.
6
Trang 7- Bước 6: Đánh giá mẫu Bước này bao gồm việc xác định các mẫu đại diện cho nhiều kiến thức dựa trên những thước đo, cho biết những kiến thức nào là cần thiết, kiến thức nào là dư thừa và sẽ bị loại bỏ Các phương pháp trực quan hóa và tóm tắt dữ liệu được sử dụng để người dùng có thể hiểu được bộ dữ liệu của mình.
- Bước 7: Trình bày thông tin Quá trình này sử dụng các kỹ thuật để biểu diễn và thể
hiện trực quan cho người dùng Dữ liệu sẽ được diễn giải lại dưới các báo cáo, hoặc các báo cáo dạng bảng,…
1.3 Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu được ứng dụng rất nhiều trong đời sống xã hội tiêu biểu ở một số những lĩnh vực như sau: phân tích thị trường – chứng khoán, phát hiện gian lận, quản trị rủi ro doanh nghiệp, bán lẻ, trí tuệ nhân tạo, thương mại điện tử, phòng chống tội phạm,… và còn rất nhiều các lĩnh vực khác
Ở lĩnh vực thương mại điện tử nhiều công ty thương mại điện tử đang áp dụng ứng dụng của Data Mining để bán hàng qua nhiều nước thông qua các trang web của họ Một trong những công ty nổi tiếng nhất ứng dụng điều này là Amazon Họ sử dụng các kỹ thuật khai phá dữ liệu để lái “những người đã xem sản phẩm đó cũng thích sản phẩm được giới thiệu này”.
1.4 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu – Orange Orange là phần mềm dùng để khai thác dữ liệu theo phương diện mã nguồn mở Orange giúp cho người dùng có một giao diện lập trình sinh động và trực, dễ theo dõi chi tiết để phân tích dữ một một cách nhân nhất, chính xác, cụ thể Orange là gói phần mềm dựa trên những công cụ dùng để trực quan hóa dữ liệu, khai thác và phân tích dữ liệu chính xác thông qua ngôn ngữ lập trình Orange cũng là một phần mềm kết hợp công cụ khai phá dữ liệu và học máy, và cung cấp những trực quan tương tác, thẩm mỹ cho người dùng phần mềm, nó được viết bằng Python.
Orange là phần mềm hướng tới mục tiêu tự động hóa Đây là một trong những phần mềm khai phá dữ liệu tiện dụng, dễ dàng trong việc sử dụng nhờ giao diện nhỏ gọn, các toolbox được sắp xếp một cách mạch lạc, hợp lý, bất kỳ ai cũng có thể sử dụng Vì vậy, Orange là phần mềm mà nhóm tôi sẽ sử dụng trong bài nghiên cứu.
Trang 82 Một số thuật toán sử dụng trong bài nghiên cứu2.1 Phương pháp cây ra quyết định (Decision Tree)
Cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary), Định danh (Nominal),Thứ tự (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal.
Từ dữ liệu về các đối tượng sẵn có, phương pháp cây quyết định sẽ giúp chúng ta mô tả, phân loại, tổng quan dữ liệu cho trước này Cụ thể hơn, cây quyết định sẽ đưa ra các dự đoán cho từng đối tượng
Hình 2.1: Minh họa thuật toán phân lớp cây quyết định (Decision tree)
2.2 Phương pháp hồi quy logistic (Logistic Regression)
Hồi quy logistic là một mô hình thống kê ở dạng cơ bản sử dụng một hàm logistic để lập mô hình một biến phụ thuộc nhị phân, mặc dù tồn tại nhiều phần mở rộng phức tạp hơn Trong phân tích hồi quy, hồi quy logistic (hay hồi quy logit) là ước lượng các tham số của mô hình logistic (một dạng của hồi quy nhị phân) Về mặt toán học, mô hình logistic nhị phân có một biến phụ thuộc với hai giá trị có thể có, chẳng hạn như
8
Trang 9đạt / không đạt được đại diện bởi một biến chỉ báo, trong đó hai giá trị được gắn nhãn "0" và "1".
Hình 2.2: Minh họa thuật toán phân lớp Hồi quy Logistic (Logistic Regression)
Nguồn: ANALYTICS VIDHYA Understanding Logistic Regression.
2.3 Phương pháp Mạng Nơ ron nhân tạo (Neural Network)
Mạng Nơ ron nhân tạo (hay Neural Network) là mạng sử dụng một loạt các thuật toán phức tạp nhằm xác định, xử lý thông tin và tìm ra các mối quan hệ cơ bản tiềm ẩn trong bộ dữ liệu Lấy cảm hứng từ mô hình hoạt động của các tế bào thần kinh và khớp thần kinh trong não của con người, Neural Network là sự kết nối các nút đơn giản, còn được gọi là tế bào thần kinh Và một tập hợp các nút như vậy tạo thành một mạng lưới các nút Mỗi nút có một cấu trúc tương thích với hàm hồi quy tuyến tính đa biến Chúng sẽ được sắp xếp với các lớp liên kết với nhau Lớp đầu vào sẽ thu nhập các dữ liệu đầu vào và các lớp đầu ra sẽ nhận các phân loại hoặc tín hiệu đầu ra mà các mẫu đầu vào có thể phản ánh lại.
Thuật toán này có khả năng thích ứng được với mọi thay đổi từ dữ liệu đầu vào và đưa ra được mọi kết quả chính xác nhất mà có thể giữ nguyên những tiêu chí đầu ra.
Trang 10Hình 2.3: Minh họa thuật toán phân lớp Mạng Nơ ron nhân tạo (Neural Network)
10
Trang 11III MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT 1 Mô tả dữ liệu:
Trong các cột dữ liệu, cột Response là mục tiêu của bài nghiên cứu, cho biết khách hàng có chấp nhận ưu đãi trong chiến dịch cuối cùng hay không Sinh viên sử dụng 80% dữ liệu để huấn luyện và 20% để kiểm tra dữ liệu Các biến bao
Marital Status Tình trạng hôn nhân của khách hàng
Income Thu nhập hộ gia đình hàng năm của khách hàng
Kid home Nhà có con trong độ tuổi trẻ em
Teen home Nhà có con trong độ tuổi thanh thiếu niên
Dt Customer Ngày khách hàng gia nhập
Recency Lần truy cập gần đây
Mnt Wines Số tiền chi cho rượu vang trong 2 năm qua
Mnt Fruits Số tiền chi cho trái cây trong 2 năm qua
Mnt Meat Products Số tiền chi cho thịt trong 2 năm qua
Mnt Fish Products Số tiền chi cho cá trong 2 năm qua
Mnt Sweet Products Số tiền chi cho đồ ngọt trong 2 năm qua
Trang 12Mnt Gold Prods Số tiền chi cho vàng trong 2 năm qua
Num Deals Purchases
Số lần mua hàng được giảm giá
Num Web Purchases Số lần mua hàng được thực hiện thông qua trang web của
Số lần mua hàng được thực hiện trực tiếp tại cửa hàng
Num Web Visits Month
Số lần truy cập vào trang web của công ty trong tháng trước
Accepted Cmp1 Cho biết khách hàng chấp nhận ưu đãi trong chiến dịch đầu tiên hay không
Trang 13Accepted Cmp5 Cho biết khách hàng chấp nhận ưu đãi trong chiến dịch thứ 5 hay không
(1 = có , 0 = không)
Complain Phản ánh của khách hàng (1 = có , 0 = không)
Z_Cost Contact Chi phí liên hệ
Z_Revenue Doanh thu
ResponseKhách hàng có chấp nhận ưu đãi trong chiến dịch cuối cùng hay không
(1 = có , 0 = không)
2 Xử lý dữ liệu:
Quan sát dữ liệu sinh viên nhận thấy dữ liệu của các cột ID, Dt Customer, Z_Cost Contact, Z_Revenue, Accepted Cmp 1,2,3,4,5 không ảnh hưởng đến việc đưa ra đánh giá, vì vậy sinh viên không sử dụng các đặc tính này vào quá trình huấn luyện.
3 Trực quan hóa dữ liệu:
Sinh viên sử dụng công cụ Excel để trực quan hóa dữ liệu dưới dạng biểu đồ cho các biến như sau:
Trang 143.1 Năm sinh:
Hình 1: Trực quan hóa dữ liệu theo độ tuổi
- Dựa vào năm sinh để phân loại khách hàng, những khách hàng có năm sinh từ 1962 trở về sau được xếp vào nhóm độ tuổi lao động Từ 1962 trở về trước sẽ được xếp vào nhóm hết tuổi lao động.
- Kết quả trực quan cho thấy người trong độ tuổi lao động chiếm phần lớn trong dữ liệu vì thường là nguồn thu nhập chính trong gia đình Tỷ lệ không đồng ý trong dữ liệu nhận được nhiều đánh giá hơn
3.2 Trình độ học vấn:
Hình 2: Trực quan hóa dữ liệu theo trình độ học vấn
Không có khác biệt nhiều về trình độ của khách hàng đồng ý và không đồng ý Khách hàng có bằng cấp đại học và tiến sĩ chiếm phần lớn dữ liệu Khách hàng có phản hồi không đồng ý cao hơn khách hàng đồng ý.
14
Trang 153.3 Tình trạng hôn nhân:
- Đối với biến này sinh viên sẽ phân loại khách hàng thành hai nhóm Những người trong tình trạng alone, single, divorced, widow được xếp vào nhóm độc thân, những người trong tình trạng married, together được xếp vào nhóm đã lập gia đình.
Hình 3: Trực quan hóa dữ liệu theo tình trạng hôn nhân
- Nhóm khách hàng đã lập gia đình có nhiều đánh giá hơn đối với ngành hàng thực phẩm Tỷ lệ không đồng ý cao hơn tỷ lệ đồng ý ở cả hai nhóm.
3.4 Thu nhập hộ gia đình hàng năm:
- Đối với biến này sinh viên phân nhóm khách hàng theo thu nhập trung bình nước Mỹ Thu nhập hộ gia đình trung bình hằng năm (2021) khoảng 60.000 $ Vậy nhóm khách hàng có thu nhập dưới 60.000 $ sẽ xếp vào nhóm thu nhập dưới trung bình, nhóm có thu nhập trên 60.000 $ xếp vào nhóm thu nhập trên trung bình.
Trang 16Hình 4: Trực quan hóa dữ liệu theo thu nhập hộ gia đình
- Số lượng đánh giá thuộc về nhóm khách hàng có thu nhập dưới trung bình vì họ có nhu cầu thực phẩm cao hơn dựa trên lý thuyết thang đo nhu cầu Maslow Số lượng khách hàng không đồng ý cao hơn số lượng khách hàng đồng ý ở cả hai nhóm.
3.5 Hộ gia đình có con:
Hình 5: Gia đình có con trong độ tuổi trẻ em
16