đề tài dự đoán khách hàng tiềm năng tham gia chương trình thành viên siêu thị

52 0 0
Tài liệu đã được kiểm tra trùng lặp
đề tài dự đoán khách hàng tiềm năng tham gia chương trình thành viên siêu thị

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Lời mở đầuKhoa học dữ liệu là một thuật ngữ đang dần thâm nhập vào Việt Nam và trở thànhmột xu hướng quan trọng mà các doanh nghiệp đang hướng tới để thúc đẩy hoạt độngkinh doanh thông q

Trang 1

ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINHTRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾKHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

BỘ MÔN CÔNG NGHỆ THÔNG TIN

BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU

Đề tài: DỰ ĐOÁN KHÁCH HÀNG TIỀM NĂNG THAM GIA CHƯƠNG TRÌNH THÀNH VIÊN SIÊU THỊ

GVHD: TS.GVC Nguyễn Quốc HùngNhóm thực hiện: NHÓM 5

Nguyễn Mai Như 31211025135 Hoàng Ngọc Phương Uyên 31211022264 Lê Nguyễn Thái Ân 31211026379 Ngô Phạm Thuỷ Trúc 31211024596 Nguyễn Thị Kim Chi 31211022194

TP Hồ Chí Minh, Tháng 10/2023

Trang 2

MỤC LỤC

DANH MỤC HÌNH ẢNH 4

DANH MỤC BIỂU ĐỒ 5

Lời mở đầu 6

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN 7

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 8

1.1GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU 8

1.1.1 Dữ liệu (Data) 8

1.1.2 Kết hợp khoa học vào dữ liệu 8

1.1.3 Quy trình phân tích dữ liệu 9

1.2GIỚI THIỆU ĐỀ TÀI 10

1.2.1 Lý do chọn đề tài 10

1.2.2 Tổng quan về đề tài 11

1.2.3 Mục tiêu nghiên cứu 11

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 12

2.2.5 Huấn luyện và đánh giá mô hình 25

Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 28

3.2.2 Trực quan hoá dữ liệu 35

3.2.3 Phân tích tương quan 38

2

Trang 3

3.2.4 Tiền xử lý dữ liệu 39

3.2.5 Huấn luyện mô hình 40

Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH 43

4.1ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH 43

4.2ÁP DỤNG MÔ HÌNH TỐT NHẤT VÀO BÀI TOÁN DỰ ĐOÁN 47

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50

Trang 4

DANH MỤC HÌNH ẢN

Hình 2 1 Công thức tính hệ số tương quan 14

Hình 2 2 Công thức Z – scores 15

Hình 2 3 Công thức tính LOF(A) 16

Hình 2 4 Minh hoạ thuật toán K-means 17

Hình 2 5 Minh hoạ Mô hình Hồi quy Logistic 18

Hình 2 6 Minh hoạ Mô hình thuật toán SVM 19

Hình 2 7 Mô hình thuật toán SVM chuyển dữ liệu 20

Hình 2 8 Các công thức tính khoảng cách trong K-NN 21

Hình 2 9 Ví dụ bài toán sử dụng KNN 21

Hình 2 10 Minh hoạ một cây quyết định 23

Hình 2 11 Minh hoạ Rừng Ngẫu nhiên 24

Hình 2 12 Mô tả cách thức hoạt động 25

YHình 3 1 Mô hình mô tả trực quan hoá dữ liệu 34

Hình 3 2 Mô hình phân tích tương quan 37

Hình 3 3 Bộ dữ liệu phân tích tương quan đa biến 37

Hình 3 4 Mô hình tiền xử lý dữ liệu và loại bỏ giá trị ngoại lai 38

Hình 3 5 Bộ dữ liệu (Minh hoạ 21 khách hàng đầu tiên) 38

Hình 3 6 Công cụ Impute Missing Values 39

Hình 3 7 Công cụ Outliers 39

Hình 3 8 Kiểm tra dữ liệu trước khi tiến hành huấn luyện 40

Hình 3 9 Công cụ Data Simpler 40

Hình 3 10 Thực hiện huấn luyện 5 mô hình phân loại khác nhau 41

Hình 4 1 Evalution results trên tập train 42

Hình 4 2 Evaluations Results trên tập test 42

Hình 4 3 Ma trận nhầm lẫn phương pháp Logistic regression trên tập train và tập test 43

Hình 4 4 Ma trận nhầm lẫn phương pháp KNN trên tập train và tập test 44

Hình 4 5 Ma trận nhầm lẫn phương pháp SVM trên tập train và tập test 44

Hình 4 6 Ma trận nhầm lẫn phương pháp Decision Tree trên tập train và tập test 44

Hình 4 7 Ma trận nhầm lẫn phương pháp Bayes trên tập train và tập test 45

Save to a Studylist

Trang 5

DANH MỤC BIỂU ĐỒ

Biểu đồ 3 1 Thống kê trình độ học vấn của khách hàng đã mua hàng tại siêu thị 28

Biểu đồ 3 2 Thống kê tình trạng hôn nhân của khách hàng 29

Biểu đồ 3 3 Thống kê tình trạng trẻ nhỏ trong hộ gia đình của khách hàng 29

Biểu đồ 3 4 Thống kê tình trạng trẻ vị thành niên trong hộ gia đình của khách hàng 30Biểu đồ 3 5 Thống kê số lần khách hàng mua hàng trực tiếp 30

Biểu đồ 3 6 Thống kê số lần khách hàng mua hàng với mã giảm giá 31

Biểu đồ 3 7 Thống kê số lần khách hàng mua hàng thông qua web siêu thị 31

Biểu đồ 3 8 Thống kê số lần khách hàng mua hàng qua thư đường bưu điện 32

Biểu đồ 3 9 Thống kê số lần khách hàng truy cập vào web siêu thị trong tháng 32

Biểu đồ 3 10 Thống kê phản hồi của khách hàng ở chương trình Thành viên Vàng 33

Biểu đồ 3 11 Thống kê phản hồi của khách hàng về chất lượng phục vụ 33

Biểu đồ 3 12 Biểu đồ phân phôi biến Year_birth theo Response 34

Biểu đồ 3 13 Biểu đồ phân phôi Income theo Response 35

Biểu đồ 3 14 Biểu đồ phân phối số tiền khách hàng bỏ ra cho những sản phẩm vàng trong 2 năm qua 35

Biểu đồ 3 15 Biểu đồ phân phối số tiền khách hàng bỏ ra cho những sản phẩm đồ ngọt trong 2 năm qua 36

Biểu đồ 3 16 Biểu đồ phân phối số tiền khách hàng bỏ ra cho những sản phẩm thịt các loại trong 2 năm qua 36

5

Trang 6

Lời mở đầu

Khoa học dữ liệu là một thuật ngữ đang dần thâm nhập vào Việt Nam và trở thànhmột xu hướng quan trọng mà các doanh nghiệp đang hướng tới để thúc đẩy hoạt độngkinh doanh thông qua việc sử dụng thông tin được phân tích bằng công nghệ này Khicuộc cách mạng công nghiệp 4.0 bùng nổ, tất cả các quốc gia và doanh nghiệp đềuphải dựa vào khoa học và công nghệ cũng như sử dụng dữ liệu một cách hiệu quả hơn.Trong cuộc đua công nghệ số, người chiến thắng chính là người kiểm soát cácnguồn dữ liệu lớn Thông qua việc phân tích dữ liệu hoặc dữ liệu lớn, con người có thểcó cái nhìn sâu sắc và hiểu rõ hơn về các hoạt động trong quá khứ, từ đó đưa ra các lờikhuyên và kết luận quan trọng cho tương lai Khoa học dữ liệu là một lĩnh vực nghiêncứu về việc quản lý và phân tích dữ liệu để tìm kiếm thông tin, tri thức hành động vàđưa ra các quyết định hướng dẫn hành động Nó bao gồm ba phần chính: quá trình tạovà quản lý dữ liệu, phân tích dữ liệu, và chuyển đổi kết quả phân tích thành giá trị thựcsự trong các quyết định và hành động.

Chúng em đã tìm thấy một bộ dữ liệu “Khách hàng đã từng mua hàng tại siêu thị”.Trong bài Khoa học dữ liệu, chúng em sử dụng công cụ Orange để phân tích thông tintừ bộ dữ liệu này Mục tiêu của chúng em là đánh giá những khách hàng tiềm năng cókhả năng tham gia chương trình thành viên Vàng siêu thị T đ đ a ra đ cnh ng k t lu n v các ph ơng h ớng phát triển để giúp ch ơng trình

thành công

Vì kiến thức cnn hạn hop nên dù chúng em đã cố gắng hết mức để hoàn thànhnhưng chắc chắn không thể tránh khpi những thiếu xót Rất mong nhận được sự góp ýcủa Thầy Nguyễn Quốc Hùng – Giảng viên hướng dẫn môn Khoa học dữ liệu.

6

Trang 7

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN

3.2.1: Thống kê mô tảHoàn thành bài báo cáo.

3.2.3: Phân tích tương quan3.2.4: Tiền xử lý dữ liệu3.2.5: Huấn luyện mô hình

4 Ngô Phạm Thuỷ Trúc - 31211024596

Nghiên cứu, viết và trình bày:Chương 1

Kết luận và Hướng phát triển

100%5 Nguyễn Thị Kim Chi

Trang 8

1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU

Khoa học dữ liệu là một lĩnh vực nghiên cứu và ứng dụng khoa học máy tính, thốngkê, và kiến thức ngành để hiểu và phân tích dữ liệu Khoa học dữ liệu nghiên cứu xử lýdữ liệu để thực hiện các hoạt động tìm kiếm, phân tích, thu thập được thông tin có ýnghĩa và hỗ trợ đưa ra quyết định

Khoa học dữ liệu đang trở thành một lĩnh vực quan trọng và phát triển nhanh chóngtrong nhiều ngành, với nhiều cơ hội nghề nghiệp và ứng dụng rộng rãi Trước khi thựcsự tìm hiểu sâu vào lĩnh vực khoa học dữ liệu, trước tiên chúng ta cần nắm bắt đượcnhững khái niệm cơ bản để cấu thành nên nó

1.1.1 Dữ liệu (Data)

Dữ liệu (data) là tập hợp các kí tự (số, chữ, phép đo, phép quan sát hoặc chỉ mô tảvề sự vật, ) được thu thập cho mục đích nào đó, thường là để phân tích Có thể nói, dữliệu sẽ là nền tảng của DS, là tài liệu mà tất cả các phân tích đều phải dựa vào.

Nhiều người hay nhầm lẫn giữa Dữ liệu với thông tin (information) Khái niệm củahai thuật ngữ này hoàn toàn khác nhau Thông tin có thể nói là dữ liệu sau khi đượcphân tích Tức là sau khi thu thập được dữ liệu, người ta sẽ tiến hành xử lý, giải thích,sắp xếp cấu trúc, để dữ liệu, để những con số trong dữ liệu “có thể biết nói”, làm chodữ liệu có ý nghĩa hơn, hữu ích thì khi đó mới là thông tin Một trong những cách thựchiện được điều đó là ứng dụng khoa học dữ liệu vào trong quá trình phân tích.

1.1.2 Kết hợp khoa học vào dữ liệu

Khoa học dữ liệu hay cnn gọi là Data science, tập trung vào việc khai thác, quản lývà phân tích thông tin để dự báo các xu hướng tương lai và đưa ra quyết định, chiếnlược hành động dựa trên dữ liệu đã được thu thập

Ba phần chính trong lĩnh vực này: Thu thập và quản lý dữ liệu, phân tích dữ liệu,cuối cùng là áp dụng kết quả phân tích vào các hoạt động mang lại giá trị Việc thựchiện phân tích và sử dụng dữ liệu có thể phụ thuộc vào ba nguồn tri thức: toán học(bao gồm cả thống kê toán học), công nghệ thông tin (bao gồm cả máy học) và kiếnthức chuyên môn về lĩnh vực cụ thể

Khoa học dữ liệu có nhiều ứng dụng quan trọng trong các lĩnh vực khác nhau Vídụ, trong lĩnh vực tài chính và ngân hàng, nó được sử dụng để phát hiện gian lận tronggiao dịch, quản lý rủi ro tài chính liên quan đến các khoản vay và hạn mức tín dụng.Ngoài ra, khoa học dữ liệu giúp đánh giá danh mục khách hàng để tìm ra các cơ hộităng lợi nhuận Cũng trong lĩnh vực này, nó hỗ trợ quản lý chuỗi cung ứng và tối ưuhóa phân phối, đồng thời dự báo và ngăn trước các lỗi thiết bị.

8

Trang 9

Không những thế, khoa học dữ liệu cnn có rất nhiều ứng dụng trong lĩnh vực y họcbao gồm phân tích hình ảnh y tế như phát hiện khối u và hop động mạch Nó cũngđược áp dụng trong phát triển thuốc, di truyền và nghiên cứu về bộ gen Sử dụng cácphương pháp như máy học và máy vectơ hỗ trợ, khoa học dữ liệu giúp phân loại kếtcấu khối và phân tích nội dung hình ảnh y tế Các cơ quan chính phủ và tổ chức chínhsách công cộng cũng sử dụng khoa học dữ liệu để nắm vững thông tin và đưa ra quyếtđịnh chính sách Trong ngành hàng không, nó hỗ trợ dự đoán trễ và hủy chuyến bay,cũng như phát hiện bất thường để theo dõi tình trạng các chuyến bay và dự đoán sốlượng hành khách.

1.1.3 Quy trình phân tích dữ liệu

Quy trình phân tích dữ liệu trong lĩnh vực Khoa học Dữ liệu (Data Science) đóngvai trn quan trọng trong việc chuyển đổi dữ liệu thô thành thông tin hữu ích và hỗ trợquyết định Quy trình được diễn thực hiện một cách tuần tự để đảm bảo những giá trịoutput đem lại nhiều giá trị nhất cho một bài toán thực tế

1.1.3.1 Thu thập dữ liệu:

Quy trình phân tích dữ liệu bắt đầu bằng việc thu thập dữ liệu từ các nguồn khácnhau Dữ liệu này có thể bao gồm thông tin từ cơ sở dữ liệu, tệp tin văn bản, dữ liệutrực tuyến hoặc cả dữ liệu hình ảnh và âm thanh Việc thu thập dữ liệu đúng và đủ lớnquan trọng để đảm bảo tính đáng tin cậy của kết quả phân tích

1.1.3.2 Khám phá dữ liệu:

Bước tiếp theo là khám phá dữ liệu, nơi các nhà phân tích tìm hiểu về tính chất vàcấu trúc của dữ liệu Điều này bao gồm việc thống kê mô tả, visualizations và các phântích sơ bộ như tần suất, phân phối, và các xu hướng trong dữ liệu

1.1.3.3 Tiền xử lý dữ liệu:

Trong bước này, dữ liệu được chuẩn bị để có thể được sử dụng trong các mô hìnhphân tích Các công việc tiền xử lý có thể bao gồm loại bp dữ liệu trùng lặp, xử lý giátrị cnn thiếu, chuẩn hóa dữ liệu và mã hóa các biến phân loại

1.1.3.4 Xây dựng mô hình:

Ở bước này, các mô hình phân tích dữ liệu được xây dựng dựa trên mục tiêu cụ thể củanghiên cứu Có thể sử dụng nhiều loại mô hình khác nhau như hồi quy, phân loại, hay mô hình học sâu (deep learning) tùy thuộc vào bản chất của dữ liệu và mục tiêu của nghiên cứu

1.1.3.5 Huấn luyện và Đánh giá mô hình:

Sau khi xây dựng, mô hình được huấn luyện trên dữ liệu huấn luyện và sau đó đánhgiá hiệu suất của mô hình trên tập dữ liệu kiểm tra Các phương pháp đánh giá bao9

Trang 10

gồm độ chính xác (accuracy), độ nhạy (sensitivity), độ cụ thể (specificity) và các độ đokhác phù hợp với loại mô hình và bài toán cụ thể

1.1.3.6 Tối ưu hoá và điều chỉnh mô hình:

Nếu cần, mô hình sẽ được điều chỉnh và tối ưu hóa để cải thiện hiệu suất Điều nàycó thể bao gồm thay đổi các siêu tham số (hyperparameters), sử dụng các kỹ thuật tốiưu hóa khác nhau và thực hiện các phương pháp điều chỉnh mô hình.

1.1.3.7 Triển khai và giám sát:

Cuối cùng, mô hình được triển khai vào môi trường thực tế và được giám sát đểđảm bảo rằng nó hoạt động đúng đắn và mang lại giá trị thực tế cho tổ chức hoặcdoanh nghiệp Quy trình phân tích dữ liệu không chỉ là một chuỗi các bước mà là mộtquá trình linh hoạt, yêu cầu sự linh hoạt và sáng tạo của nhà phân tích dữ liệu để tìm racác giải pháp phù hợp nhất với mỗi tình huống cụ thể.

1.2 GIỚI THIỆU ĐỀ TÀI1.2.1 Lý do chọn đề tài

Toàn cầu hoá hiện là xu hướng tất yếu trong mọi lĩnh vực đời sống xã hội của toànnhân loại, đồng thời chi phối đến mọi mặt của nền kinh tế Việt Nam đẩy mạnh sự pháttriển và không ngừng hội nhập sâu rộng và nền kinh tế, chứng kiến mọi sự biếnchuyển của thị trường Nền kinh tế nước ta đã và đang tiếp tục mở cửa, tạo ra một xuhướng kinh doanh phức tạp mà yếu tố cạnh tranh là yếu tố thiết yếu nhất đối với bất kểngành kinh doanh nào Đời sống của người dân ngày càng được cải thiện cùng với sựphát triển của nền kinh tế, và nhu cầu là vô hạn Điều đó là nguyên do thúc đẩy sự rađời và phát triển của các loại hình kinh doanh có chuyên môn cao, tập trung đa dạngloại hàng hoá từ trong đến ngoài nước, xoá tan đi mọi sự thiếu hụt và sự đơn điệu vềhàng hoá Hiện nay, loại hình kinh doanh siêu thị đang làm rất tốt vai trn của mình vàngày càng phát triển mạnh mẽ hơn, đáp ứng tốt các nhu cầu của người dân về hànghoá, lương thực, thực phẩm, và ngày càng nhiều những chuỗi siêu thị được xây dựngvà đưa vào hoạt động.

Song, câu chuyện cạnh tranh đã phác hoạ lên bức tranh cạnh tranh giữa các siêu thị.Các siêu thị chủ trương đẩy mạnh lợi thế cạnh tranh thông qua các chương trình kháchhàng thân thiết, bởi “Lợi thế cạnh tranh nằm ở khả năng thu thập và xử lý dữ liệukhách hàng” Tại Việt Nam, một số chuỗi bán lẻ không chỉ đầu tư vào các chươngtrình tiếp thị, quảng cáo mà cnn đầu tư vào các chương trình khách hàng thân thiết,chiết khấu trực tiếp trên hóa đơn cho khách hàng thành viên như một phần chia sẻ khókhăn với khách hàng trong thời điểm kinh tế khó khăn, lạm phát, khó khăn của ngườitiêu dùng với tâm lý thắt lưng buộc bụng Các chuỗi bán lẻ lớn như AEON,CoopMart, Tops Market, WinCommerce và các chuỗi khác đều có chương trình thànhviên mang lại nhiều lợi ích cho người tiêu dùng Vì vậy, ngày càng xuất hiện nhiều10

Trang 11

chương trình ưu đãi hấp dẫn cho người tiêu dùng từ các chuỗi bán lẻ, người tiêu dùngcó thể tham gia chỉ bằng những thao tác đơn giản.

Với xu hướng ấy, chúng em quyết định chọn đề tài “Dự đoán khách hàng tiềm năngtham gia chương trình thành viên của siêu thị” nhằm theo dõi hành vi của người tiêudùng cũng như đưa ra cái nhìn tổng quan cho các doanh nghiệp trên đường đua cạnhtranh và giữ chân khách hàng thân thiết.

1.2.2 Tổng quan về đề tài

Làm thế nào để một siêu thị có thể tối ưu hóa chiến lược tiếp thị của mình để thuhút và duy trì những khách hàng trung thành? Đây là một câu hpi quan trọng và tháchthức đối với hầu hết các doanh nghiệp trong lĩnh vực bán lẻ Chúng ta đang sống trongmột thế giới số hóa với sự cạnh tranh gay gắt, và việc nắm bắt khách hàng tiềm năngđang ngày càng trở nên quan trọng hơn bao giờ hết.

Để giải quyết vấn đề này, chúng em đã chọn đề tài "Dự đoán khách hàng tiềm năngtham gia chương trình thành viên của siêu thị." Chương trình thành viên không chỉ làmột cách để khách hàng tiếp cận các ưu đãi độc quyền và giảm giá, mà cnn là cơ hộiđể xây dựng mối quan hệ chặt chẽ với họ, theo dõi hành vi mua sắm của họ và cungcấp giá trị dựa trên cá nhân hóa.

Trong đề tài này, chúng em sẽ nghiên cứu và phát triển các phương pháp và mô hìnhđể dự đoán khách hàng nào có khả năng tham gia chương trình thành viên của siêu thị.Từ đó có thể xem xét dữ liệu từ các khách hàng hiện tại và tiềm năng, và sau đó ápdụng các kỹ thuật phân tích dữ liệu và học máy để tìm ra những đặc điểm và xu hướngquyết định sự quyết định của họ.

Mục tiêu cuối cùng của đề tài này là giúp siêu thị tạo ra các chiến dịch tiếp thị hiệuquả hơn, tối ưu hóa nguồn lực và tăng doanh số bán hàng bằng cách tập trung vàonhững người có khả năng trở thành khách hàng trung thành và đóng góp nhiều hơn chosự phát triển kinh doanh

1.2.3 Mục tiêu nghiên cứu- Khám phá dữ liệu- Làm sạch dữ liệu- Phân cụm, phân lớp dữ liệu

- Phân tích và cung cấp thông tin tổng quát về hoạt động khuyến mãi của siêu

Chúng em hy vọng rằng thông qua việc áp dụng các phương pháp và mô hình phântích dữ liệu hiệu quả, có thể đóng góp cho việc nâng cao hiệu suất tiếp thị và sự thànhcông của siêu thị.

11

Trang 12

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀCÁC PHƯƠNG PHÁP SỬ DỤNG

2.1 CHƯƠNG TRÌNH SỬ DỤNG2.1.1 Orange

Trong dự án này, nhóm đã quyết định sử dụng Orange để xử lý mô hình Đặc điểmnhận diện của mô hình là một quả cam với khuôn mặt đang cười và đeo kính.

Orange là một nền tảng được thiết kế để tạo ra các luồng làm việc học máy thôngqua giao diện đồ họa người dùng (GUI) Mục tiêu của Orange là giúp người dùng đơngiản hóa các bài toán phức tạp trong các lĩnh vực như Khai thác dữ liệu (Data Mining)hoặc Học máy (Machine Learning) Điều này cung cấp một cơ hội cho những ngườikhông có kỹ năng lập trình hoặc kỹ năng xử lý dữ liệu để dễ dàng sử dụng Orange.

Chúng ta có thể thực hiện mọi nhiệm vụ từ chuẩn bị dữ liệu cho đến đánh giá môhình mà không cần viết bất kỳ đoạn mã nào

Với Orange, quá trình xây dựng mô hình trở nên đơn giản và trực quan hơn bao giờhết Người dùng có thể kéo và thả các thành phần, kết nối chúng với nhau để tạo ramột workflow học máy hoàn chỉnh Điều này cho phép tùy chỉnh và thử nghiệm nhanhchóng, giúp cải thiện hiệu suất của mô hình

Một trong những điều thú vị về Orange là tích hợp nhiều công cụ và thuật toán tiêntiến Người dùng có thể dễ dàng chuyển đổi giữa các phương pháp khác nhau để tìm racách tiếp cận phù hợp nhất với bài toán của mình Tất cả những điều này được thựchiện một cách trực quan và không đni hpi kiến thức sâu về lập trình Không chỉ giúptiết kiệm thời gian mà cnn mang lại hiệu quả cao, Orange là một công cụ hữu ích đốivới cả những người mới bắt đầu và những chuyên gia kỳ cựu trong lĩnh vực học máyvà khai thác dữ liệu Điều này mở ra một cánh cửa rộng lớn cho nhiều người muốn tậndụng sức mạnh của Machine Learning mà không gặp khó khăn về mặt kỹ thuật.

2.1.2 Python

Python là một ngôn ngữ lập trình mạnh mẽ và linh hoạt, cho phép chúng ta trựcquan hóa dữ liệu một cách dễ dàng và hiệu quả Đặc biệt, thư viện Seaborn trongPython là một công cụ mạnh để tạo ra các biểu đồ và đồ thị trực quan đop mắt

Trong dự án lần này, nhóm sử dụng thư viện Seaborn để vẽ những biểu đồ liênquan Điều này giúp chúng ta nhanh chóng nhận ra các mẫu và xu hướng trong dữ liệu.Hơn nữa, Seaborn cung cấp nhiều tùy chọn tùy chỉnh để điều chỉnh giao diện và màusắc của biểu đồ, giúp tạo ra những trực quan hóa phù hợp với mục tiêu cụ thể Mộtđiều đáng chú ý, Seaborn cnn kết hợp tốt với các thư viện khác trong hệ sinh tháiPython như Pandas và NumPy, giúp xử lý dữ liệu một cách thuận lợi trước khi trực12

Trang 13

quan hóa Việc kết hợp mạnh mẽ này cho phép chúng ta thực hiện các phân tích sâuhơn và tạo ra các biểu đồ có ý nghĩa thống kê.

2.2 PHƯƠNG PHÁP SỬ DỤNG2.2.1 Thu thập dữ liệu

Có nhiều phương pháp thu thập dữ liệu phù hợp với các mục tiêu và tình huốngkhác nhau Một trong những phương pháp phổ biến trong thực tế cũng như được rấtnhiều sinh viên Đại học UEH áp dụng đó là đưa ra những Khảo sát, nơi người nghiêncứu tạo ra các câu hpi được gửi đến người tham gia để thu thập ý kiến và thông tin

Hoặc quan sát (Observation) liên quan đến việc theo dõi và ghi lại hành vi, sự kiệnvà tương tác trong một môi trường cụ thể Đây là một phương pháp hiệu quả để nghiêncứu các hoạt động thực tế và không yêu cầu sự tương tác trực tiếp với người tham gia.Mỗi phương pháp thu thập dữ liệu đều mang lại thông tin độc đáo và cần được lựachọn một cách cẩn thận tùy thuộc vào mục tiêu cụ thể của nghiên cứu.

Do thời gian dành cho bài nghiên cứu có hạn nên nhóm sinh viên không thể thựchiện các khảo sát cũng như nghiên cứu nhằm phục vụ dự án Thay vào đó, nhóm sinhviên chúng em sẽ sử dụng bộ dữ liệu (dataset) có sẵn và được chia sẻ rộng rãi trêninternet Đây cũng là những dữ liệu được thực hiện bằng phương pháp Quan sát(Observation) tại một chuỗi siêu thị trong một khoảng thời gian nhất định.

2.2.2 Khám phá dữ liệu

Sau quá trình thu thập dữ liệu, bước quan trọng tiếp theo là khám phá dữ liệu (DataExploration) Quy trình này đóng vai trn quan trọng trong việc hiểu rõ hơn về tính chấtvà cấu trúc dữ liệu thu thập được.

2.2.2.1 Thống kê mô tả

Sử dụng các đơn vị thống kê mô tả như trung bình, trung vị, phương sai, và cácpercentiles cho phép nhóm nghiên cứu có cái nhìn tổng quan về phân phối của dữ liệu.Điều này cung cấp thông tin quan trọng về trung tâm và biến động của dữ liệu.

2.2.2.2 Trực quan hoá dữ liệu

Sử dụng biểu đồ và đồ thị để hình dung dữ liệu Các biểu đồ như biểu đồ cột, biểuđồ đường, biểu đồ hộp và biểu đồ phân tán giúp nhìn rõ hơn về mẫu dữ liệu và tươngtác giữa các biến.

2.2.2.3 Phân tích tương quan

Xem xét mối tương quan giữa các biến để hiểu sự ảnh hưởng của chúng lên nhau.Sử dụng ma trận tương quan hoặc biểu đồ phân tán có thể giúp nhìn thấy mối quan hệnày

13

Trang 14

Trong nghiên cứu này, nhóm quyết định sử dụng hệ số tương quan Pearson Là mộtphép đo thống kê được sử dụng để đo lường mức độ tương quan tuyến tính giữa haibiến số liên tục Được đặt theo tên của nhà thống kê người Anh, Karl Pearson, hệ sốtương quan Pearson có giá trị nằm trong khoảng -1 đến 1

- 1 là tương quan hoàn toàn thuận lợi: Có một mối tương quan tuyến tính hoàntoàn dương giữa hai biến Nghĩa là, khi một biến tăng, biến cnn lại cũng tăngtheo

- 0 là không có tương quan tuyến tính: Không có mối tương quan tuyến tínhgiữa hai biến

- -1 là tương quan hoàn toàn nghịch lý: Có một mối tương quan tuyến tínhhoàn toàn âm giữa hai biến Nghĩa là, khi một biến tăng, biến cnn lại giảm.Hệ số tương quan Pearson được tính bằng công thức:

Hình 2 1 Công thức tính hệ số tương quan

2.2.3 Tiền xử lý dữ liệu

2.2.3.1 Loại bỏ dữ liệu trùng lặp và xử lý giá trị thiếu:

Trong quá trình thu thập dữ liệu, việc xảy ra sai xót là không thể tránh khpi Sẽ cónhững giá trị bị lặp lại và những giá trị bị khuyết do nhiều nguyên nhân khách quankhác nhau Có nhiều cách để xử lý vấn đề này.

Đối với dữ liệu bị trùng lặp, chúng ta nên kiểm tra và loại bp hoàn toàn ra khpidataset để đảm bảo tính duy nhất của dữ liệu.

Đối với các giá trị bị thiếu, tùy vào tình hình thực tế mà chúng ta có thể điền giá trịbị thiếu bằng các giá trị trung bình, trung vị hoặc sử dụng các thuật toán để dự báo giátrị cnn thiếu Trong trường hợp xấu nhất, chúng ta hoàn toàn có thể bp những giá trị bịthiếu ra khpi dataset để đảm bảo tính liên tục của dữ liệu

2.2.3.2 Chuẩn hoá dữ liệu:

14

Trang 15

Chuẩn hóa dữ liệu (Data Standardization), cnn được gọi là z-score normalizationhoặc z-score scaling, là quy trình biến đổi dữ liệu ban đầu thành một tỷ lệ chuẩn

Công cụ Orange cho phép chúng ta lựa chọn nhiều phương pháp chuẩn hóa dữ liệukhác nhau Tuy nhiên với tình hình bài toán, nhóm quyết định thực hiện chuẩn hóa dữliệu thành tỉ 1 tỉ lệ chuẩn trong đó: giá trị trung bình (μ) của dữ liệu trở thành 0 và độlệch chuẩn (σ) trở thành 1.

Chuẩn hóa dữ liệu có nhiều lợi ích khác nhau:

So sánh dễ dàng hơn: Khi các biến có đơn vị đo khác nhau hoặc phạm vi giá trị

khác nhau, chuẩn hóa giúp đảm bảo rằng chúng có cùng một phạm vi và đơn vị, từ đódễ dàng so sánh và đánh giá

Ổn định hơn cho các thuật toán học máy: Một số thuật toán học máy như k-NN,

SVM, hay k-means clustering dựa vào khoảng cách giữa các điểm dữ liệu Chuẩn hóagiúp cân nhắc đóng góp của các biến một cách công bằng và ngăn việc biến nào cóphạm vi giá trị lớn hơn ảnh hưởng quá nhiều.

2.2.3.3 Xử lý giá trị ngoại lai:

Giá trị ngoại lai (Outliers) là các điểm dữ liệu mà giá trị của chúng rất khác biệt sovới các điểm dữ liệu khác trong tập dữ liệu Đây không phải là dữ liệu bị lỗi, tuy nhiêndo một số lí do đặc biệt mà những giá trị này tách hoàn toàn ra khpi phân phối bìnhthường của dữ liệu Việc xử lý các giá trị này giúp cải thiện đáng kể độ chính xác củamô hình

Công cụ Orange cũng cho phép chúng ta 4 phương pháp xử lý những giá trị ngoạilai Nhóm đã quyết định sử dụng phương pháp Local Outlier Factor (LOF) để loại bpnhững dữ liệu ngoại lai (nếu có) ra khpi dataset

15

Trang 16

LOF là một thuật toán phát hiện giá trị ngoại lệ dựa trên cách tiếp cận từng điểm dữ

liệu cụ thể và xem xét xem có bao nhiêu điểm dữ liệu xung quanh đó mà xa lạ so vớilân cận của nó Nếu có nhiều điểm dữ liệu xung quanh đó mà xa lạ, điều này gợi ýrằng điểm đó có thể là một giá trị ngoại lệ.

Để hiểu rõ hơn, chúng ta có công thức tính LOF như sau:

Hình 2 3 Công thức tính LOF(A)

Trong đó:

(A): Là giá trị LOF được tính cho điểm dữ liệu A trong ngữ cảnh của k k làsố nguyên dương được chọn trước, đại diện cho số lượng hàng xóm gần nhấtcủa điểm A trong không gian dữ liệu

(A): Tập hợp k hàng xóm gần nhất của điểm A

(B): Là độ mật độ cục bộ của điểm B trong ngữ cảnh của k Nó được tínhbằng cách lấy trung bình khoảng cách từ B đến mỗi điểm trong tập hợp (B)sau đó lấy nghịch đảo của giá trị này Công thức (B)được tính như sau:

(B) =

2.2.3.4 Chọn đặc trưng:

Đây là bước cuối cùng trong quá trình tiền xử lý dữ liệu Sau tất cả những phươngpháp ở trên, đây là là bước loại bp những gì đã bị xử lí Từ đó chúng ta chọn ra đượccác biến quan trọng nhất để giảm số lượng biến và cải thiện hiệu xuất mô hình.

2.2.4 Xây dựng mô hình

Ở bước này, các mô hình phân tích dữ liệu được xây dựng dựa trên mục tiêu cụ thểcủa nghiên cứu Có thể sử dụng nhiều loại mô hình khác nhau như hồi quy, phân loại,phân cụm hay mô hình học sâu (deep learning) tùy thuộc vào bản chất của dữ liệu vàmục tiêu của nghiên cứu.

Các mô hình cho học máy (Machine learning) được chia làm 2 loại.

Học có giám sát (Supervised Learning): Bài toán đặc trưng là phân lớp dữ liệu

trong đó chứa biến phụ thuộc y (target y) và biến phụ thuộc x (features x), mục tiêu làphân loại dữ liệu vào các y phù hợp Những mô hình phân lớp phổ biến như: Hồi quyLogistic, Cây quyết định, SVM,…

16

Trang 17

Học không giám sát (Unsupervised Learning): Bài toán đặc trưng là phân cụm dữ

liệu trong đó không có biến phụ thuộc y mà chỉ có biến độc lập x Được sử dụng khiđưa ra dự báo trên số liệu “chưa gán nhãn” Những mô hình phổ biến như: Phân cụmphân cấp (Hierarchical clustering) và Phân cụm phân hoạch (K-means, kmedoids,fuzzy C-means)

Để phục vụ cho mục đích của bài nghiên cứu đó là phân loại khách hàng.

2.2.4.1 Mô hình phân cụm:

Ý tưởng chính của K-means là phân cụm dữ liệu đặc trưng bởi các tâm (centroids).Tâm đại diện cho mỗi cụm và bằng trung bình các điểm dữ liệu nằm trong cụm.Khoảng cách từ các điểm dữ liệu đến các tâm sẽ xác định xem điểm dữ liệu đó thuộctâm nào

Hình 2 4 Minh hoạ thuật toán K-means

Khi thực hiện phân cụm K-means, chúng ta có những bước chính như sau: + Khởi tạo ngẫu nhiên k tâm cụm ban đầu

+ Tạo vnng lặp quá trình cập nhật tâm:

● Xác định khoảng cách từ từng điểm dữ liệu đến tâm

● Xác định lại các tâm theo trung bình khoảng cách của các điểm dữ liệu trong 1cụm

★ Về mặt toán học: Giả sử ta có N điểm dữ liệu là X = [x1, x2, ,xN] và k cụm dữliệu (k < N) Với mỗi điểm dữ liệu x có label vector y cho nó đặc trưng có cho x thuộccụm nào nếu xj có vector yj = [1,0,0, ,0] thì x thuộc cụm 1 Vì mỗi điểm dữ liệu chỉthuộc 1 cụm đồng nghĩa với việc chỉ có 1 phần tử của vector y có giá trị = 1.

2.2.4.2 Mô hình phân loại (Classification):

Logistic Regression

17

Trang 18

Logistic Regression (Hồi quy Logistic) là một kỹ thuật thống kê để xem xét mốiliên hệ giữa biến độc lập (biến số hoặc biến phân loại) với biến phụ thuộc là biến nhịphân Mô hình hồi quy Logistic có tính phi tuyến với giá trị dự báo được chiếu lênkhông gian xác suất nằm trong khoảng [0,1] có dạng như sau:

Hình 2 5 Minh hoạ Mô hình Hồi quy Logistic

Vì là bài toán phân loại nhị phân, ta sử dụng hàm Sigmoid hay cnn gọi là hàmLogistic là một hàm biến đổi phi tuyến có dạng đường cong chữ S và đơn điệu tăng đểdự báo xác suất với công thức:

Sau đó ta tìm đường biên phân chia của hàm Sigmoid dựa vào ngưỡng xác suất giảđịnh là 0,5, khi đó ta có dự báo nhãn sẽ là:

Trong trường hợp y = 1Trong trường hợp y = 0

Từ đó, ta vẽ đường biên phân chia wtx với những điểm thuộc nhãn hủy đặt phnng sẽnằm bên phải đường biên phân chia trong khi những điểm thuộc nhãn không hủy đặtsẽ nằm ở bên trái Đường biên phân chia wtx là một phương trình tuyến tính.

18

Trang 19

Logistic Regression là một kỹ thuật thống kê được sử dụng rộng rãi cho các bài toánphân loại, cụ thể trong đồ án bài toán phân loại nhị phân về việc khách hàng có tiềmnăng tham gia chương trình khuyễn mãi hay không Những ưu điểm nổi bật của môhình này cần kể đến chính là tính đơn giản về mặt toán học so với các mô hình khác,khiến cho tốc độ giải quyết tính toán dữ liệu cũng nhanh hơn và khả năng hiển thị tốigiản, dễ hiểu Với mô hình hồi quy Logistic, siêu thị có thể giảm được phần nào chiphí hoạt động với độ hiệu quả cao, cũng như khiến cho việc chuyển đổi quy mô nhanhchóng hơn rất nhiều.

Song, mô hình hồi quy Logistic cũng cnn nhiều hạn chế do cnn yêu cầu các điểm dữliệu được tạo ra phải độc lập với nhau mà trên thực tế để cho các điểm dữ liệu độc lậphoàn toàn thường là bất khả thi trong nhiều trường hợp Ngoài ra mô hình hoàn toàndựa trên các biến độc lập đã xác định trước, vì vậy mà nếu việc xác định biến độc lậplà không chính xác sẽ dễ dàng khiến cho mô hình không cnn giá trị phân loại.

Support vector machine

SVM (Support Vector Machines) là một thuật toán học máy dùng để phân loại vàhồi quy SVM xây dựng một mô hình phân loại bằng cách tìm ra siêu phẳng(hyperplane) trong không gian đặc trưng (feature space) tốt nhất để phân tách các lớpdữ liệu Siêu phẳng này được xác định bằng cách tìm ra đường thẳng (2 chiều) hoặcmặt phẳng (3 chiều) mà có khoảng cách lớn nhất đến các điểm dữ liệu của hai lớp.

Hình 2 6 Minh hoạ Mô hình thuật toán SVM

Công thức toán học dựa trên phương pháp tối ưu hóa bậc 2 (quadratic optimization),với mục tiêu tìm ra siêu phẳng (hyperplane) tối ưu để phân loại dữ liệu Công thứcchính của SVM được biểu diễn như sau:

19

Trang 20

Trong trường hợp dữ liệu không thể phân chia tuyến tính dẫn đến không thể phântách hoàn toàn bằng siêu phẳng, SVM sử dụng kỹ thuật kernel trick để chuyển dữ liệuvào một không gian có số chiều lớn hơn (không cần tính toán trực tiếp các chiều này),từ đó có thể tìm được siêu phẳng phân tách dữ liệu.

Hình 2 7 Mô hình thuật toán SVM chuyển dữ liệu

K Nearest neighbors

K-nearest neighbor là một trong những thuật toán supervised-learning đơn giảnnhất Khi training, thuật toán này không học một điều gì từ dữ liệu training, thay vàođó, mọi tính toán được thực hiện khi nó cần dự đoán kết quả của dữ liệu mới (đây cũnglà lý do thuật toán này được xếp vào loại lazy learning) K-nearest neighbor có thể ápdụng được vào cả hai loại của bài toán là học có giám sát Classification và Regression.KNN cnn được gọi là một thuật toán Instance-based hay Memory-based learning.

20

Trang 21

Với KNN, trong bài toán phân loại nhị phân, nhãn của một điểm dữ liệu mới đượcsuy ra trực tiếp từ K điểm dữ liệu gần nhất trong training set Nhãn của một test datacó thể được quyết định bằng major voting (bầu chọn theo số phiếu) giữa các điểm gầnnhất sau tính khoảng cách đến tất cả các điểm trong tập huấn luyện (khoảng cách cóthể được tính bằng nhiều cách) hoặc nó có thể được suy ra bằng cách đánh trọng sốkhác nhau cho mỗi trong các điểm gần nhất đó rồi suy ra label

Hình 2 8 Các công thức tính khoảng cách trong K-NN

Trong bài toán Regression, đầu ra của một điểm dữ liệu sẽ bằng chính đầu ra củađiểm dữ liệu đã biết gần nhất (trong trường hợp K=1), hoặc là trung bình có trọng sốcủa đầu ra của những điểm gần nhất, hoặc bằng một mối quan hệ dựa trên khoảng cáchtới các điểm gần nhất đó Một cách ngắn gọn, KNN là thuật toán đi tìm đầu ra của mộtđiểm dữ liệu mới bằng cách chỉ dựa trên thông tin của K điểm dữ liệu trong trainingset gần nó nhất (K-lân cận), không quan tâm đến việc có một vài điểm dữ liệu trongnhững điểm gần nhất này là nhiễu.

Cách k-NN hoạt động rất đơn giản và không yêu cầu quá nhiều giả định về dữ liệu.Tuy nhiên, điều quan trọng là chọn giá trị k phù hợp và đảm bảo rằng dữ liệu đã đượcchuẩn bị và chuẩn hóa đúng cách để tránh ảnh hưởng của các biến không cân nhắc

Hình 2 9 Ví dụ bài toán sử dụng KNN

21

Trang 22

Ví dụ trên đây là bài tốn Classification với 3 classes: Đp, Lam, Lục Mỗi điểm dữliệu mới sẽ được gán label theo màu của điểm mà nĩ thuộc về Trong hình này, cĩ mộtvài vùng nhp xem lẫn vào các vùng lớn hơn khác màu Ví dụ cĩ một điểm màu Lục ởgần gĩc 11 giờ nằm giữa hai vùng lớn với nhiều dữ liệu màu Đp và Lam Điểm này rấtcĩ thể là nhiễu Dẫn đến nếu dữ liệu test rơi vào vùng này sẽ cĩ nhiều khả năng chokết quả khơng chính xác.

Naive bayes

Thuật tốn Naive Bayes là một thuật tốn học cĩ giám sát trong lĩnh vực học máyđược sử dụng để phân loại dữ liệu Thuật tốn Naive Bayes được đặt tên theo tên củanhà tốn học thế kỷ 18 Thomas Bayes và được gọi là "naive" (ngây thơ) vì nĩ giả địnhrằng các đặc trưng của dữ liệu là độc lập với nhau

Bộ phân lớp Bayes là một giải thuật thuộc lớp giải thuật thống kê, nĩ cĩ thể dựđốn xác suất của một phần tử dữ liệu thuộc vào một lớp là bao nhiêu Phân lớp Bayesđược dựa trên định lý Bayes (định lý được đặt theo tên tác giả của nĩ là ThomasBayes)

Thuật tốn Naive Bayes được sử dụng trong các bài tốn phân loại dữ liệu, ví dụnhư phân loại email vào hộp thư rác hoặc thư khơng rác, phân loại văn bản thành cácchủ đề khác nhau, hoặc phân loại sản phẩm trong các cửa hàng trực tuyến Cnn trongtrường hợp này, Nạve Bayes sẽ phân loại xem khách hàng sẽ hủy phnng hay khơnghủy phnng

Ví dụ trong bài tốn dự đốn khách hàng cĩ tiếm năng tham gia chương trình thànhviên hay khơng, thuật tốn Naive Bayes sẽ tính tốn xác suất của mỗi thuộc tính (nhưgiá tiền, đánh giá của khách hàng, loại phnng, v.v ) trong trường hợp khách hàng hủyphnng và khơng hủy phnng Sau đĩ, dựa trên đĩ, thuật tốn sẽ tính tốn xác suất củaviệc khách hàng cĩ thể hủy phnng hoặc khơng Thuật tốn Naive Bayes giả định rằngcác thuộc tính là độc lập với nhau, điều này cĩ thể khơng hồn tồn chính xác trongthực tế như đã đề cập ở trên, tuy nhiên, nĩ vẫn cho kết quả khá chính xác và là mộtthuật tốn phổ biến trong bài tốn phân loại dữ liệu.

Decision Tree

Thuật tốn Decision Tree (cây quyết định) là một phương pháp học cĩ giám sát,được sử dụng để phân loại và dự đốn giá trị của một biến đích dựa trên các thuộc tínhcủa dữ liệu Cây quyết định được xây dựng dựa trên việc tìm kiếm thuộc tính quantrọng nhất để phân tách các trường hợp và dự đốn giá trị đầu ra.

Để xây dựng một cây phân loại nhị phân, thuật tốn sẽ phân tích dữ liệu đào tạo vàtìm ra thuộc tính phân tách tốt nhất để tạo ra quy tắc phân tách ở nút quyết định Quátrình này được thực hiện bằng cách sử dụng các tiêu chí đo lường độ tinh khiết của cácnhĩm dữ liệu sau khi phân tách, ví dụ như độ khơng chắc chắn (entropy) hoặc độ lệch22

Trang 23

Gini (Gini impurity) Thuật toán tiếp tục phân tách các nhóm con cho đến khi mỗi nútlá chỉ chứa các điểm dữ liệu của cùng một lớp.

Các cây phân loại nhị phân có ưu điểm là dễ hiểu, dễ triển khai và thường cho kếtquả tốt trên các bài toán phân loại đơn giản Tuy nhiên, chúng cũng có nhược điểm làcó xu hướng bị quá khớp (overfitting) với dữ liệu đào tạo, không thể xử lý các mốiquan hệ phức tạp giữa các thuộc tính và khó khăn trong việc xử lý dữ liệu không đầyđủ hoặc thiếu sót Để tránh khpi tình trạng bị overfitting này, ta có một vài cách thứcđơn giản có thể thực thi, tiêu biểu nhất có thể kể đến đó chính là việc ta sẽ giới hạn độcao của cây, hoặc có nhiều phương pháp pruning (cắt bớt nhánh cây) Cây quyết địnhcó thể được xây dựng bằng các thư viện như Scikit-learn và được đánh giá bằng cácchỉ số như độ chính xác, độ phủ, độ đo F1.

Hình 2 10 Minh hoạ một cây quyết định

Cây phân loại là một trong những phương pháp phân loại được sử dụng rộng rãitrong các bài toán phân loại dữ liệu Tuy nhiên, đánh giá của cây phân loại trong vấnđề dự đoán khách hàng có tiềm năng tham gia chương trình thành viên có thể khôngđạt hiệu quả cao do một số lý do như:

- Cây phân loại không thể xử lý được các mối quan hệ phi tuyến giữa cácthuộc tính của dữ liệu, khiến cho việc dự đoán chính xác khách hàng tiềmnăng khó khăn hơn.

- Tập dữ liệu có sự mất cân bằng giữa các lớp, tức là số lượng khách hàngkhông rời bp chiếm đa số trong tập dữ liệu Điều này dẫn đến việc cây phânloại có thể dự đoán tốt trên lớp đa số nhưng không hiệu quả trên lớp thiểu số.- Cây phân loại cũng có thể gặp phải vấn đề overfitting khi áp dụng trên tập dữ

liệu nhp hoặc khi cây quá phức tạp Random Forest

23

Trang 24

Random Forest là một trong những công cụ mạnh mẽ và phổ biến trong lĩnh vựchọc máy và khoa học dữ liệu Được giới thiệu bởi Leo Breiman vào năm 2001, thuậttoán này nhanh chóng trở thành một trong những phương pháp ưa thích cho các bàitoán phân loại và dự đoán Cách Rừng ngẫu nhiên hoạt động như sau:

Lấy một mẫu ngẫu nhiên từ tập dữ liệu huấn luyện với việc thay thế (bootstrap) Xây Dựng Cây Quyết Định Sử dụng mẫu ngẫu nhiên thu được để xây dựng một câyquyết định Chọn ngẫu nhiên một số đặc trưng để đánh giá ở mỗi nút

Xây Dựng Rừng Lặp lại bước 1 và bước 2 để tạo ra nhiều cây quyết định khác nhau.Rừng Ngẫu Nhiên hoạt động bằng cách kết hợp nhiều cây quyết định (decisiontrees) để tạo thành một "rừng" Mỗi cây quyết định được huấn luyện trên một phần nhpvà ngẫu nhiên của dữ liệu đào tạo, và sau đó được sử dụng để đưa ra dự đoán Quátrình này giúp giảm thiểu sự quá khớp (overfitting) và cung cấp một mô hình mạnh mẽvà ổn định

Hình 2 11 Minh hoạ Rừng Ngẫu nhiên

Một ưu điểm lớn của Rừng Ngẫu Nhiên là khả năng xử lý cả dữ liệu số học lẫnphân loại Nó cũng có khả năng đánh giá mức độ quan trọng của các đặc trưng (featureimportance), giúp chúng ta hiểu rõ hơn về tác động của mỗi đặc trưng lên kết quả dựđoán Bên cạnh đó, Rừng Ngẫu Nhiên cũng khá linh hoạt và dễ sử dụng Không cầnnhiều điều chỉnh phức tạp, thuật toán này thường đem lại kết quả tốt ngay cả khikhông tinh chỉnh nhiều tham số.

24

Trang 25

2.2.5 Huấn luyện và đánh giá mô hình

Cross-validation (kiểm tra chéo) là một kỹ thuật trong machine learning được sử

dụng để đánh giá hiệu suất của một mô hình học máy và đảm bảo rằng mô hình đógeneralizes (tổng quát hóa) tốt cho dữ liệu mới, không chỉ tốt trên dữ liệu huấn luyện.Cơ bản, cross-validation hoạt động như sau:

Chia tập dữ liệu thành K phần bằng nhau, gọi là "folds" (chấm điểm) Mỗi fold đạidiện cho một phần tương đối nhp của dữ liệu Huấn luyện và đánh giá: Mô hình đượchuấn luyện K lần, mỗi lần sử dụng K-1 folds để huấn luyện và fold cnn lại để đánh giámô hình

Tính trung bình các kết quả của K lần đánh giá được kết hợp lại, thường bằng cáchtính trung bình, để có một chỉ số đánh giá tổng thể của mô hình Cross-validation giúpđảm bảo rằng mô hình không bị overfitting (quá khớp) hoặc underfitting (quá tối giản)với dữ liệu Nó cũng hữu ích khi tập dữ liệu có kích thước nhp và cần tận dụng mọimẫu có sẵn

Một trong những phương pháp cross-validation phổ biến nhất là K-Fold Validation, trong đó dữ liệu được chia thành K folds, và mỗi fold được sử dụng đểđánh giá mô hình đang huấn luyện trên K-1 folds cnn lại Kết quả được tính toán bằngcách lấy trung bình của các kết quả này.

Cross-Hình 2 12 Mô tả cách thức hoạt động

Ma trận nhầm lẫn, cnn được gọi là ma trận confusion hay confusion matrix, làmột công cụ quan trọng trong lĩnh vực đánh giá hiệu suất của các mô hình học máy vàhọc sâu Được sử dụng rộng rãi trong phân loại và các tác vụ liên quan đến dự đoán,ma trận này giúp đánh giá mức độ chính xác của mô hình Ma trận nhầm lẫn bao gồmcác hàng và cộ

Giả sử chúng ta có một tập dữ liệu với N mẫu được phân thành hai lớp: Positive(dương tính) và Negative (âm tính) Mô hình của chúng ta đưa ra các dự đoán cho mỗi25

Trang 26

mẫu, được ký hiệu bằng Predicted Positive (PP), Predicted Negative (PN), TruePositive (TP) và True Negative (TN) True Positive (TP): Đây là số lượng các mẫuthực tế thuộc lớp Positive mà mô hình dự đoán đúng True Negative (TN): Số lượngcác mẫu thực tế thuộc lớp Negative mà mô hình dự đoán đúng False Positive (FP):Đây là số lượng các mẫu thực tế thuộc lớp Negative nhưng mô hình dự đoán sai rằngchúng thuộc lớp Positive False Negative (FN): Số lượng các mẫu thực tế thuộc lớpPositive nhưng mô hình dự đoán sai rằng chúng thuộc lớp Negative

Sau khi có các giá trị TP, TN, FP và FN, chúng ta có thể sử dụng chúng để tính toáncác chỉ số quan trọng khác như:

26

Ngày đăng: 19/06/2024, 10:21