BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH ---o0o---THI KẾT THÚC HỌC PHẦN Môn: Khoa học dữ liệu NGHIÊN
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
-o0o -THI KẾT THÚC HỌC PHẦN
Môn: Khoa học dữ liệu
NGHIÊN CỨU VÀ ỨNG DỤNG PHÂN LỚP DỮ LIỆU
ĐỂ DỰ ĐOÁN NHÓM KHÁCH HÀNG TIỀM NĂNG
TRÊN THỊ TRƯỜNG Ô TÔ MỚI
Trang 2BẢNG PHÂN CÔNG CÔNG VIỆC
Nguyễn Ngọc Phương
Anh
31221021848 - Soạn thảo nội dung + Powerpoint
Chương 1: Giới thiệu
- Thuyết trình
100%
Lê Phạm Đăng Khoa 31221023152 - Soạn thảo nội dung + Powerpoint
Chương 3: Tiền xử lý dữ liệu
- Thuyết trình
100%
Lê Nguyễn Thiện Mỹ 31221022170 - Soạn thảo nội dung + Powerpoint
Chương 4: Xây dựng và đánh giá kết quả mô hình
- Thuyết trình
100%
Mai Thị Diệu Thanh 31221024599 - Soạn thảo nội dung + Powerpoint
Chương 2: Tìm hiểu dữ liệu
Trang 3MỤC LỤC
LỜI MỞ ĐẦU 1
CHƯƠNG 1 GIỚI THIỆU 2
1 Lý do chọn đề tài: 2
2 Mục tiêu nghiên cứu: 2
3 Đối tượng và phạm vi nghiên cứu: 3
4 Phương pháp nghiên cứu 6 bước: 3
5 Ý nghĩa: 4
CHƯƠNG 2 TÌM HIỂU DỮ LIỆU 4
1 Thu thập dữ liệu: 4
2 Mô tả dữ liệu: 5
3 Tìm hiểu về dữ liệu: 7
CHƯƠNG 3 TIỀN XỬ LÝ DỮ LIỆU 10
1 Tích hợp dữ liệu: 11
2 Làm sạch dữ liệu: 12
2.1 Loại bỏ dữ liệu không cần thiết: 12
2.2 Tiến hành xử lý dữ liệu bị thiếu (missing data): 12
2.3 Tiến hành xử lý dữ liệu bị nhiễu (noisy data): 14
CHƯƠNG 4: XÂY DỰNG VÀ ĐÁNH GIÁ KẾT QUẢ MÔ HÌNH 16
1 Xây dựng mô hình: 16
2 Sử dụng mô hình: 18
3 Kết quả phân tích và đánh giá: 19
3.1 Test and Score: 19
3.2 Ma trận nhầm lẫn: 20
3.3 Đánh giá kết quả: 21
3.4 Lựa chọn mô hình: 22
CHƯƠNG 5 KẾT LUẬN 22
1 Kết luận: 22
2 Những hạn chế và cách khắc phục: 23
2.1 Hạn chế: 23
2.2 Cách khắc phục: 23
TÀI LIỆU THAM KHẢO 23
LỜI CẢM ƠN 24
Trang 5LỜI MỞ ĐẦU
Cùng với sự bùng nổ công nghệ thông tin hiện nay, nơi điện toán đámmây, AI, Blockchain, IoT đang phát triển nhanh chóng và được tích hợp vàonhiều khía cạnh khác nhau trong đời sống thì song song đó, việc ứng dụngphân lớp dữ liệu và dự đoán khách hàng tiềm năng đóng vai trò quan trọngtrong các lĩnh vực kinh doanh và tiếp thị Đặc biệt, với thị trường ô tô, dự đoánnhóm khách hàng tiềm năng là một trong những nhiệm vụ quan trọng, đượcquan tâm hàng đầu bởi lẽ việc hiểu rõ khách hàng và khả năng dự đoán hành vimua hàng của họ là yếu tố cốt lõi để các doanh nghiệp ô tô phát triển chiếnlược tiếp thị hiệu quả, tạo môi trường kinh doanh lâu dài và tối ưu hóa kinhdoanh
Trong nghiên cứu này, chúng em tập trung vào ứng dụng phương phápphân lớp dữ liệu để dự đoán nhóm khách hàng tiềm năng ở thị trường ô tô mới.Phương pháp phân lớp dữ liệu là một công cụ mạnh mẽ trong lĩnh vực học máy
và khoa học dữ liệu, giúp chúng ta tìm ra các mẫu và đặc điểm chung củakhách hàng, từ đó xác định nhóm khách hàng tiềm năng
Hi vọng rằng đề tài này sẽ mang lại cái nhìn mới về việc dự đoán nhómkhách hàng tiềm năng trong thị trường ô tô mới và đóng góp vào phát triểnchiến lược tiếp thị, kinh doanh hiệu quả cho các doanh nghiệp ô tô
Trang 6CHƯƠNG 1 GIỚI THIỆU
Hơn hết, ngành công nghiệp ô tô luôn có sự nâng cấp công nghệ mới và tiêntiến, sự đa dạng hóa mẫu mã, làm tăng khả năng cạnh tranh gay gắt giữa nhiều hãng
xe uy tín, đòi hỏi doanh nghiệp cần phải tìm hiểu và đáp ứng đúng nhu cầu của từngphân khúc khách hàng Vì thế, mở rộng thị trường ô tô là một bước quan trọng trongviệc phát triển quy mô công ty, nâng cao chất lượng sản phẩm và mang lại nhiều lợiích kinh tế
Nhận thấy được những dấu hiệu chuyển biến tích cực của khách hàng trongviệc mua sắm loại phương tiện di chuyển này và nhằm nâng cao vị thế của doanhnghiệp trên thị trường cạnh tranh khốc liệt, cho nên, với kinh nghiệm lâu năm trên thịtrường thương mại ô tô hiện tại, công ty tiếp tục thực hiện kế hoạch thâm nhập vàphát triển thị trường mới với các sản phẩm hiện có như P1, P2, P3, P4 và P5.Dựa trên những ưu thế đã có của mình, công ty đã tiến hành nghiên cứuchuyên sâu và đưa ra suy luận rằng hành vi mua sắm của khách hàng trên thị trườngmới tương tự như thị trường hiện tại Do đó, tại thị trường hiện tại, đội ngũ nhân viênbán hàng đã tiến hành khảo sát và phân loại tất cả khách hàng thành bốn phân khúcgồm A, B, C và D Sau đó, doanh nghiệp thực hiện chiến lược tiếp cận các phân khúcnày và truyền thông sao cho phù hợp với từng phân khúc khách hàng khác nhau đểtiến hành khảo sát Theo đó, doanh nghiệp sẽ đưa ra kế hoạch sử dụng chiến lượcthâm nhập thị trường tương lai bằng cách nỗ lực tiếp thị với các sản phẩm hiện tại.Tóm lại, đề tài "Nghiên cứu và ứng dụng phân lớp dữ liệu để dự đoán nhómkhách hàng tiềm năng trên thị trường ô tô mới" được chọn vì sự quan trọng của việcthu hút và duy trì nhóm khách hàng tiềm năng trong ngành ô tô, tiết kiệm thời gian
và nguồn lực, nâng cao chất lượng sản phẩm và tăng tính cạnh tranh cho công ty
2 Mục tiêu nghiên cứu:
Mục tiêu của bài tiểu luận về “Nghiên cứu và ứng dụng phương pháp phân lớp
dữ liệu để dự đoán nhóm khách hàng tiềm năng ở thị trường ô tô mới” là cung cấpthông tin và phân tích chi tiết về mô hình tiềm năng của khách hàng trong lĩnh vựckinh doanh xe ô tô ở thị trường mới thông qua tập trung tìm hiểu, sử dụng cácphương pháp phân lớp dữ liệu tối ưu và đảm bảo nhất cho quá trình dự báo dữ liệu,
Trang 7kết hợp với mô hình đã được huấn luyện trong quá trình nghiên cứu Điều này sẽgiúp doanh nghiệp hiểu rõ hơn về nhu cầu và yêu cầu của khách hàng, góp phần cungcấp thông tin hữu ích vào việc nâng cao hiệu quả trong việc dự đoán nhóm kháchhàng tiềm năng ở thị trường ô tô mới Bài tiểu luận hy vọng sẽ đóng góp vào việcđưa ra kết luận chính xác, tăng cường hiệu quả quảng cáo, tiếp thị trong việc tiếp cậncũng như phục vụ khách hàng tiềm năng trong thị trường ô tô mới, qua đó, công ty
có thể sáng tạo ra những cách thức, chiến lược phát triển sao cho phù hợp, tăng tínhcạnh tranh trên thị trường mới này
3 Đối tượng và phạm vi nghiên cứu:
Đối tượng trong bài nghiên cứu này là các khách hàng tiềm năng, tức là nhữngngười có tiềm năng và khả năng trở thành khách hàng của một doanh nghiệp ô tôtrong thị trường mới, đó có thể bao gồm khách hàng cá nhân, doanh nghiệp hoặc tổchức có nhu cầu mua xe ô tô mới hoặc sử dụng dịch vụ liên quan đến xe ô tô.Phạm vi nghiên cứu sẽ tập trung vào việc nghiên cứu và phân loại các nhómkhách hàng tiềm năng trong thị trường mới, tiến hành tìm hiểu các yếu tố quan trọngnhư thông tin cá nhân, tài chính, hành vi tiêu dùng, nghề nghiệp và các đặc điểmkhác của khách hàng để phân loại và đánh giá khả năng tiềm ẩn của họ trong việcmua xe ô tô Đồng thời, việc nghiên cứu cũng có thể xem xét các yếu tố thị trường,
xu hướng tiêu dùng, cạnh tranh và các yếu tố khác để định hình chiến lược kinhdoanh và tiếp thị nhằm hướng đến nhóm khách hàng tiềm năng ở thị trường mới
4 Phương pháp nghiên cứu 6 bước:
Tiến hành vận dụng những lý thuyết đã được đưa
ra vào các phương pháp nghiên cứu thực tiễn Tuy nhiên,
quy trình 6 bước này không phải cứng nhắc bởi các số
thứ tự của quy trình mà có nhiều giai đoạn được quay lại
● Yếu tố quan trọng của nghiên cứu khai thác
dữ liệu là phải biết được nghiên cứu để làm gì Trong bài
tiểu luận này, nhận dạng mục đích kinh doanh có ý nghĩa
là nhận dạng loại khách hàng nào được kỳ vọng giải đáp
được những câu hỏi như “Từng nhóm khách hàng nào
quan tâm đến từng dòng xe nào?” hay “Khả năng tài
chính của khách hàng phù hợp với sản phẩm nào?” từ đó
thiết lập các chính sách mở rộng quy mô, tối đa hóa lợi
nhuận trên thị trường mới, giúp nâng cao suất sinh lợi khi
công ty gia nhập thị trường mới
● Sau khi mục tiêu kinh doanh và kế hoạch dự án được thiết lập, đội ngũnhân viên tiến hành thu thập dữ liệu ban đầu, mô tả, khảo sát và kiểm tra chất lượng
dữ liệu Trong quá trình thu thập dữ liệu cần lưu ý các biến được chọn cho những dữliệu liên quan phải độc lập với nhau, thông tin không được trùng lặp
● Khi nguồn dữ liệu được xác định, dữ liệu cần được chọn lọc, làm sạch,gắn vào các mẫu mong muốn và định dạng bằng cách sử dụng các phương phápthống kê, phân tích dữ liệu, hồi quy… để dự báo mô hình kinh tế thông qua các chỉ
Trang 8số với sự hỗ trợ của phần mềm Orange và Excel Qua đó, dữ liệu được biến đổi saocho thuận tiện nhất trong việc sử dụng khi khai thác dữ liệu.
● Xây dựng mô hình dữ liệu là lúc phần mềm khai thác dữ liệu Orangeđược sử dụng để tạo ra kết quả Ở đây chủ yếu sử dụng kỹ thuật phân lớp với chủđích đưa ra kết quả đánh giá phân lớp sai và năng lực tự động dự báo Một khi hiểuhơn về dữ liệu, nhiều mô hình chi tiết, hợp lý cho dữ liệu có thể được sử dụng Ngoài
ra, phân chia dữ liệu thành bộ dữ liệu huấn luyện và bộ dữ liệu dự báo cũng cần thiếtcho xây dựng mô hình, giúp các nhà quản lý có quyết định chính xác hơn khi đầu tư
mở rộng thị trường sao cho hiệu quả
● Các kết quả mô hình cần được đánh giá trong bối cảnh mục tiêu kinhdoanh được thiết lập ở giai đoạn đầu tiên Để diễn giải một cách hợp lý mô hình trithức, điều quan trọng là phải chọn được công cụ trực quan thích hợp như biểu đồtròn, biểu đồ phân phối tần số, biểu đồ hộp, đồ thị phân tán… Thông thường, diễndịch bằng đồ thị càng đơn giản thì người sử dụng càng dễ hiểu
● Thông qua việc tri thức được khám phá trong các giai đoạn trước đócủa quy trình, các mô hình có thể được áp dụng cho hoạt động kinh doanh trongnhiều mục đích, bao gồm dự báo hoặc nhận dạng các tình hình quan trọng Những
mô hình này cần được giám sát với các thay đổi trong điều kiện vận hành doanhnghiệp bởi vì hành vi khách hàng thay đổi theo thời gian và dữ liệu có thể đã bị thayđổi Do đó, điều quan trọng là thông tin khách hàng phải được giám sát trong thờigian triển khai
CHƯƠNG 2 TÌM HIỂU DỮ LIỆU
1 Thu thập dữ liệu:
Nguồn dữ liệu: Bộ dữ liệu được thu thập và tạo ra bởi công ty , được
đăng tải trên trang web Kaggle bởi Kash Tập dữ liệu bao gồm thông tin dữ liệu thôchứa 8068 hàng dữ liệu (khách hàng) và 22 cột (đặc tính)
Trang 9 Phân loại khách hàng: Đào tạo dữ liệu về thông tin của khách hàng
cùng với phân khúc của họ: giới tính, đã kết hôn chưa, tuổi của khách hàng, nghềnghiệp của khách hàng, kinh nghiệm làm làm việc, phạm vi chi tiêu, quy mô mô của
khách hàng,
2 Mô tả dữ liệu:
Đây là tập dữ liệu mô tả các đặc điểm của các khách hàng của công ty (phânloại phân khúc khách hàng)
- Loại dữ liệu: Dữ liệu thu thập bao gồm cả dữ liệu số (numerical) và dữ
liệu danh mục (categorical).Mỗi dòng tương ứng với một tương tác của kháchhàng cụ thể Dữ liệu số bao gồm phạm vi chi tiêu,quy mô gia đình,tuổi củakhách hàng, kinh nghiệm làm việc, Dữ liệu chữ bao gồm nghề nghiệp củakhách hàng, giới tính, tính trạng hôn nhân của khách hàng,
- Kích thước tập dữ liệu: Tập dữ liệu bao gồm khoảng 8068 dòng và 22
cột Mỗi dòng tương ứng với một giao dịch hoặc tương tác của khách hàng cụthể
- Cấu trúc dữ liệu: Dữ liệu được lưu trữ dưới dạng bảng, với mỗi hàng
chứa thông tin về một giao dịch hoặc tương tác và mỗi cột đại diện cho mộtbiến cụ thể như: Mỗi dòng tương ứng với ID khách hàng, giới tính, Đã từngkết hôn, Tuổi Tốt nghiệp, Nghề nghiệp, Kinh nghiệm việc làm, Chi tiêu, Quy
mô gia đình,biến và cuối cùng là Phân khúc Mỗi cột là dữ liệu số hoặc dữ liệuchữ về kết quả kiểm tra của từng tương tác hoặc từng giao dịch của từngkhách hàng
Trang 10- Nguồn dữ liệu: Dữ liệu này được thu thập từ kaggle ghi lại thông tin
về các giao dịch và tương tác của khách hàng trong một khoảng thời gian cụthể
- Dataset Characteristic (Đặc điểm của tập dữ liệu): Đa biến
- Số lượng mẫu:
Tranning data: 8068
Test data: 2627
- Số lượng thuộc tính; bao gồm 11 thuộc tính
- Attribute Chacteristics (đặc điểm thuộc tính): categorical
- Missing value (giá trị bị thiếu): bằng không
- Các thuộc tính:
Gender (Male/Female) Giới tính (Nam/Nữ)
Ever_married Tình trạng hôn nhân
Family_size Số lượng thành viên trong gia đình (đã bao gồm khách hàng)
Var_1 Danh mục ẩn danh dành cho khách hàngSegmentation Phân khúc khách hàng
3 Tìm hiểu về dữ liệu:
Phương pháp thu thập dữ liệu: Giải thích cách đã thu thập dữ liệu.Dữ
liệu được thu thập tự động từ hệ thống theo một lịch trình định kỳ Quá trình thu thập
dữ liệu được tự động hóa để đảm bảo tính đồng nhất và liên tục của dữ liệu
Trang 11 Kiểm tra chất lượng dữ liệu: Đề cập đến bất kỳ vấn đề nào liên quan
đến chất lượng dữ liệu, như giá trị thiếu, giá trị trùng lặp, hoặc các vấn đề khác đãphát hiện và xử lý
Tạo Data Dictionary: Đưa ra một danh sách hoặc bảng mô tả các biến
trong tập dữ liệu, bao gồm tên biến, loại dữ liệu, ý nghĩa, và các thông tin khác cầnthiết để người đọc hiểu dữ liệu
Mô tả các biến chính: Đặc biệt mô tả các biến mà công ty dự định sử
dụng trong phân loại khách hàng, bao gồm mô tả về ý nghĩa của từng biến trong ngữcảnh của dự án
Biểu đồ và trực quan hóa: gồm biểu đồ hoặc hình ảnh minh họa cho dữliệu được thể hiện dưới đây:
Trang 12Giới tính:
Đã từng hết hôn:
Đã tốt nghiệp:
Trang 13Nghề nghiệp:
Độ tuổi:
Kinh nghiệm làm việc:
Trang 14Phạm vi chi tiêu:
Quy mô gia đình:
Biến bên ngoài:
CHƯƠNG 3 TIỀN XỬ LÝ DỮ LIỆU
Tệp tài liệu đã tạo sẵn tập dữ liệu đào tạo (Train) và tập dữ liệu thử nghiệm
(Test) nên chúng ta sẽ bỏ qua phần phân tách dữ liệu bằng Data Sampler, tiến hànhcác thực hiện các bước tiền xử lý dữ liệu khác trên cả 2 file Train and Test
Trang 151 Tích hợp dữ liệu:
- Tải file dữ liệu excel của dự án và đưa vào Orange
Hình 3.1 Bộ dữ liệu ban đầu khi đưa vào phần mềm Orange
- Dựa vào phần mềm Orange, ta có được màn hình tùy chọn cho bộ dữliệu cần tiền xử lý Bộ dữ liệu hiện tại có 8068 quan sát (instances), 1,8% tỷ lệ có dữliệu bị thiếu (missing values), không có biến mục tiêu (no target variable) đồng
thời không có biến meta (biến biến đổi).
- Mục tiêu của dự án là dự đoán phân khúc khách hàng theo từng cấp độ(A,B,C,D) nên thay đổi đặc trưng Segmentation (Phân khúc khách hàng) thành biếnmục tiêu (target)
Hình 3.2 Thay đổi biến feature Segmentation thành biến mục tiêu.
Trang 162 Làm sạch dữ liệu:
Đây là một bước vô cùng quan trọng để chúng ta có thể tiến hành phân tíchmột bộ dữ liệu trên Orange Đa số các bộ dữ liệu ban đầu đều có thể chứa những giátrị bị thiếu (missing values) và những giá trị bị nhiễu (noisy values) Chúng cần được
xử lý và làm sạch trước khi tiến hành phân tích bằng các công cụ chuyên dụng có sẵntrên Orange
2.1 Loại bỏ dữ liệu không cần thiết:
- Hầu hết các bộ dữ liệu đều có từ ít nhất 1 danh mục dữ liệu không cầnthiết trong quá trình phân tích Từ bộ dữ liệu gốc, ta có thể nhận thấy feature ID (Mã
khách hàng) và feature Var_1 (Danh mục ẩn danh dành cho khách hàng) không gây
ảnh hưởng đến kết quả phân lớp, không tác động đến quá trình phân tích dữ liệu, nên
chúng ta sẽ loại bỏ đặc trưng ID và Var_1 trong file dữ liệu bằng cách ignored
features trong lệnh Select columns trên phần mềm Orange
Hình 3.3 Bỏ qua đặc trưng ID và Var_1 do không ảnh hưởng đến kết quả phân
tích.
2.2 Tiến hành xử lý dữ liệu bị thiếu (missing data):
- Sử dụng công cụ Preprocess của Orange, ta chọn Impute Missing Values để gán các giá trị bị thiếu Dùng lệnh Replace with random value trong thẻtùy chọn để gán các giá trị ngẫu nhiên nằm trong khoảng giá trị của dữ liệu vàonhững phần dữ liệu bị thiếu
Trang 17Hình 3.4 Sử dụng Preprocess để xử lý các giá trị bị thiếu.
Hình 3.5 Gán các giá trị bị thiếu bằng các giá trị ngẫu nhiên.