Lời mở đầuKhoa học dữ liệu là một thuật ngữ đang dần thâm nhập vào Việt Nam và trở thànhmột xu hướng quan trọng mà các doanh nghiệp đang hướng tới để thúc đẩy hoạt độngkinh doanh thông q
GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU
Khoa học dữ liệu là một lĩnh vực nghiên cứu và ứng dụng khoa học máy tính, thống kê, và kiến thức ngành để hiểu và phân tích dữ liệu Khoa học dữ liệu nghiên cứu xử lý dữ liệu để thực hiện các hoạt động tìm kiếm, phân tích, thu thập được thông tin có ý nghĩa và hỗ trợ đưa ra quyết định
Khoa học dữ liệu đang trở thành một lĩnh vực quan trọng và phát triển nhanh chóng trong nhiều ngành, với nhiều cơ hội nghề nghiệp và ứng dụng rộng rãi Trước khi thực sự tìm hiểu sâu vào lĩnh vực khoa học dữ liệu, trước tiên chúng ta cần nắm bắt được những khái niệm cơ bản để cấu thành nên nó
Dữ liệu (data) là tập hợp các kí tự (số, chữ, phép đo, phép quan sát hoặc chỉ mô tả về sự vật, ) được thu thập cho mục đích nào đó, thường là để phân tích Có thể nói, dữ liệu sẽ là nền tảng của DS, là tài liệu mà tất cả các phân tích đều phải dựa vào. Nhiều người hay nhầm lẫn giữa Dữ liệu với thông tin (information) Khái niệm của hai thuật ngữ này hoàn toàn khác nhau Thông tin có thể nói là dữ liệu sau khi được phân tích Tức là sau khi thu thập được dữ liệu, người ta sẽ tiến hành xử lý, giải thích, sắp xếp cấu trúc, để dữ liệu, để những con số trong dữ liệu “có thể biết nói”, làm cho dữ liệu có ý nghĩa hơn, hữu ích thì khi đó mới là thông tin Một trong những cách thực hiện được điều đó là ứng dụng khoa học dữ liệu vào trong quá trình phân tích.
1.1.2 Kết hợp khoa học vào dữ liệu
Khoa học dữ liệu hay cnn gọi là Data science, tập trung vào việc khai thác, quản lý và phân tích thông tin để dự báo các xu hướng tương lai và đưa ra quyết định, chiến lược hành động dựa trên dữ liệu đã được thu thập
Ba phần chính trong lĩnh vực này: Thu thập và quản lý dữ liệu, phân tích dữ liệu, cuối cùng là áp dụng kết quả phân tích vào các hoạt động mang lại giá trị Việc thực hiện phân tích và sử dụng dữ liệu có thể phụ thuộc vào ba nguồn tri thức: toán học (bao gồm cả thống kê toán học), công nghệ thông tin (bao gồm cả máy học) và kiến thức chuyên môn về lĩnh vực cụ thể
Khoa học dữ liệu có nhiều ứng dụng quan trọng trong các lĩnh vực khác nhau Ví dụ, trong lĩnh vực tài chính và ngân hàng, nó được sử dụng để phát hiện gian lận trong giao dịch, quản lý rủi ro tài chính liên quan đến các khoản vay và hạn mức tín dụng.Ngoài ra, khoa học dữ liệu giúp đánh giá danh mục khách hàng để tìm ra các cơ hội tăng lợi nhuận Cũng trong lĩnh vực này, nó hỗ trợ quản lý chuỗi cung ứng và tối ưu hóa phân phối, đồng thời dự báo và ngăn trước các lỗi thiết bị.
Không những thế, khoa học dữ liệu cnn có rất nhiều ứng dụng trong lĩnh vực y học bao gồm phân tích hình ảnh y tế như phát hiện khối u và hop động mạch Nó cũng được áp dụng trong phát triển thuốc, di truyền và nghiên cứu về bộ gen Sử dụng các phương pháp như máy học và máy vectơ hỗ trợ, khoa học dữ liệu giúp phân loại kết cấu khối và phân tích nội dung hình ảnh y tế Các cơ quan chính phủ và tổ chức chính sách công cộng cũng sử dụng khoa học dữ liệu để nắm vững thông tin và đưa ra quyết định chính sách Trong ngành hàng không, nó hỗ trợ dự đoán trễ và hủy chuyến bay, cũng như phát hiện bất thường để theo dõi tình trạng các chuyến bay và dự đoán số lượng hành khách.
1.1.3 Quy trình phân tích dữ liệu
Quy trình phân tích dữ liệu trong lĩnh vực Khoa học Dữ liệu (Data Science) đóng vai trn quan trọng trong việc chuyển đổi dữ liệu thô thành thông tin hữu ích và hỗ trợ quyết định Quy trình được diễn thực hiện một cách tuần tự để đảm bảo những giá trị output đem lại nhiều giá trị nhất cho một bài toán thực tế
Quy trình phân tích dữ liệu bắt đầu bằng việc thu thập dữ liệu từ các nguồn khác nhau Dữ liệu này có thể bao gồm thông tin từ cơ sở dữ liệu, tệp tin văn bản, dữ liệu trực tuyến hoặc cả dữ liệu hình ảnh và âm thanh Việc thu thập dữ liệu đúng và đủ lớn quan trọng để đảm bảo tính đáng tin cậy của kết quả phân tích
Bước tiếp theo là khám phá dữ liệu, nơi các nhà phân tích tìm hiểu về tính chất và cấu trúc của dữ liệu Điều này bao gồm việc thống kê mô tả, visualizations và các phân tích sơ bộ như tần suất, phân phối, và các xu hướng trong dữ liệu
1.1.3.3 Tiền xử lý dữ liệu:
Trong bước này, dữ liệu được chuẩn bị để có thể được sử dụng trong các mô hình phân tích Các công việc tiền xử lý có thể bao gồm loại bp dữ liệu trùng lặp, xử lý giá trị cnn thiếu, chuẩn hóa dữ liệu và mã hóa các biến phân loại
1.1.3.4 Xây dựng mô hình: Ở bước này, các mô hình phân tích dữ liệu được xây dựng dựa trên mục tiêu cụ thể của nghiên cứu Có thể sử dụng nhiều loại mô hình khác nhau như hồi quy, phân loại, hay mô hình học sâu (deep learning) tùy thuộc vào bản chất của dữ liệu và mục tiêu của nghiên cứu
1.1.3.5 Huấn luyện và Đánh giá mô hình:
Sau khi xây dựng, mô hình được huấn luyện trên dữ liệu huấn luyện và sau đó đánh giá hiệu suất của mô hình trên tập dữ liệu kiểm tra Các phương pháp đánh giá bao gồm độ chính xác (accuracy), độ nhạy (sensitivity), độ cụ thể (specificity) và các độ đo khác phù hợp với loại mô hình và bài toán cụ thể
1.1.3.6 Tối ưu hoá và điều chỉnh mô hình:
Nếu cần, mô hình sẽ được điều chỉnh và tối ưu hóa để cải thiện hiệu suất Điều này có thể bao gồm thay đổi các siêu tham số (hyperparameters), sử dụng các kỹ thuật tối ưu hóa khác nhau và thực hiện các phương pháp điều chỉnh mô hình.
1.1.3.7 Triển khai và giám sát:
Cuối cùng, mô hình được triển khai vào môi trường thực tế và được giám sát để đảm bảo rằng nó hoạt động đúng đắn và mang lại giá trị thực tế cho tổ chức hoặc doanh nghiệp Quy trình phân tích dữ liệu không chỉ là một chuỗi các bước mà là một quá trình linh hoạt, yêu cầu sự linh hoạt và sáng tạo của nhà phân tích dữ liệu để tìm ra các giải pháp phù hợp nhất với mỗi tình huống cụ thể.
GIỚI THIỆU ĐỀ TÀI
1.2.1 Lý do chọn đề tài
Toàn cầu hoá hiện là xu hướng tất yếu trong mọi lĩnh vực đời sống xã hội của toàn nhân loại, đồng thời chi phối đến mọi mặt của nền kinh tế Việt Nam đẩy mạnh sự phát triển và không ngừng hội nhập sâu rộng và nền kinh tế, chứng kiến mọi sự biến chuyển của thị trường Nền kinh tế nước ta đã và đang tiếp tục mở cửa, tạo ra một xu hướng kinh doanh phức tạp mà yếu tố cạnh tranh là yếu tố thiết yếu nhất đối với bất kể ngành kinh doanh nào Đời sống của người dân ngày càng được cải thiện cùng với sự phát triển của nền kinh tế, và nhu cầu là vô hạn Điều đó là nguyên do thúc đẩy sự ra đời và phát triển của các loại hình kinh doanh có chuyên môn cao, tập trung đa dạng loại hàng hoá từ trong đến ngoài nước, xoá tan đi mọi sự thiếu hụt và sự đơn điệu về hàng hoá Hiện nay, loại hình kinh doanh siêu thị đang làm rất tốt vai trn của mình và ngày càng phát triển mạnh mẽ hơn, đáp ứng tốt các nhu cầu của người dân về hàng hoá, lương thực, thực phẩm, và ngày càng nhiều những chuỗi siêu thị được xây dựng và đưa vào hoạt động.
Song, câu chuyện cạnh tranh đã phác hoạ lên bức tranh cạnh tranh giữa các siêu thị.Các siêu thị chủ trương đẩy mạnh lợi thế cạnh tranh thông qua các chương trình khách hàng thân thiết, bởi “Lợi thế cạnh tranh nằm ở khả năng thu thập và xử lý dữ liệu khách hàng” Tại Việt Nam, một số chuỗi bán lẻ không chỉ đầu tư vào các chương trình tiếp thị, quảng cáo mà cnn đầu tư vào các chương trình khách hàng thân thiết,chiết khấu trực tiếp trên hóa đơn cho khách hàng thành viên như một phần chia sẻ khó khăn với khách hàng trong thời điểm kinh tế khó khăn, lạm phát, khó khăn của người tiêu dùng với tâm lý thắt lưng buộc bụng Các chuỗi bán lẻ lớn như AEON,CoopMart, Tops Market, WinCommerce và các chuỗi khác đều có chương trình thành viên mang lại nhiều lợi ích cho người tiêu dùng Vì vậy, ngày càng xuất hiện nhiều chương trình ưu đãi hấp dẫn cho người tiêu dùng từ các chuỗi bán lẻ, người tiêu dùng có thể tham gia chỉ bằng những thao tác đơn giản.
Với xu hướng ấy, chúng em quyết định chọn đề tài “Dự đoán khách hàng tiềm năng tham gia chương trình thành viên của siêu thị” nhằm theo dõi hành vi của người tiêu dùng cũng như đưa ra cái nhìn tổng quan cho các doanh nghiệp trên đường đua cạnh tranh và giữ chân khách hàng thân thiết.
1.2.2 Tổng quan về đề tài
Làm thế nào để một siêu thị có thể tối ưu hóa chiến lược tiếp thị của mình để thu hút và duy trì những khách hàng trung thành? Đây là một câu hpi quan trọng và thách thức đối với hầu hết các doanh nghiệp trong lĩnh vực bán lẻ Chúng ta đang sống trong một thế giới số hóa với sự cạnh tranh gay gắt, và việc nắm bắt khách hàng tiềm năng đang ngày càng trở nên quan trọng hơn bao giờ hết. Để giải quyết vấn đề này, chúng em đã chọn đề tài "Dự đoán khách hàng tiềm năng tham gia chương trình thành viên của siêu thị." Chương trình thành viên không chỉ là một cách để khách hàng tiếp cận các ưu đãi độc quyền và giảm giá, mà cnn là cơ hội để xây dựng mối quan hệ chặt chẽ với họ, theo dõi hành vi mua sắm của họ và cung cấp giá trị dựa trên cá nhân hóa.
Trong đề tài này, chúng em sẽ nghiên cứu và phát triển các phương pháp và mô hình để dự đoán khách hàng nào có khả năng tham gia chương trình thành viên của siêu thị.
Từ đó có thể xem xét dữ liệu từ các khách hàng hiện tại và tiềm năng, và sau đó áp dụng các kỹ thuật phân tích dữ liệu và học máy để tìm ra những đặc điểm và xu hướng quyết định sự quyết định của họ.
Mục tiêu cuối cùng của đề tài này là giúp siêu thị tạo ra các chiến dịch tiếp thị hiệu quả hơn, tối ưu hóa nguồn lực và tăng doanh số bán hàng bằng cách tập trung vào những người có khả năng trở thành khách hàng trung thành và đóng góp nhiều hơn cho sự phát triển kinh doanh
- Phân cụm, phân lớp dữ liệu
- Phân tích và cung cấp thông tin tổng quát về hoạt động khuyến mãi của siêu thị
Chúng em hy vọng rằng thông qua việc áp dụng các phương pháp và mô hình phân tích dữ liệu hiệu quả, có thể đóng góp cho việc nâng cao hiệu suất tiếp thị và sự thành công của siêu thị.
TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG
CHƯƠNG TRÌNH SỬ DỤNG
Trong dự án này, nhóm đã quyết định sử dụng Orange để xử lý mô hình Đặc điểm nhận diện của mô hình là một quả cam với khuôn mặt đang cười và đeo kính. Orange là một nền tảng được thiết kế để tạo ra các luồng làm việc học máy thông qua giao diện đồ họa người dùng (GUI) Mục tiêu của Orange là giúp người dùng đơn giản hóa các bài toán phức tạp trong các lĩnh vực như Khai thác dữ liệu (Data Mining) hoặc Học máy (Machine Learning) Điều này cung cấp một cơ hội cho những người không có kỹ năng lập trình hoặc kỹ năng xử lý dữ liệu để dễ dàng sử dụng Orange. Chúng ta có thể thực hiện mọi nhiệm vụ từ chuẩn bị dữ liệu cho đến đánh giá mô hình mà không cần viết bất kỳ đoạn mã nào
Với Orange, quá trình xây dựng mô hình trở nên đơn giản và trực quan hơn bao giờ hết Người dùng có thể kéo và thả các thành phần, kết nối chúng với nhau để tạo ra một workflow học máy hoàn chỉnh Điều này cho phép tùy chỉnh và thử nghiệm nhanh chóng, giúp cải thiện hiệu suất của mô hình
Một trong những điều thú vị về Orange là tích hợp nhiều công cụ và thuật toán tiên tiến Người dùng có thể dễ dàng chuyển đổi giữa các phương pháp khác nhau để tìm ra cách tiếp cận phù hợp nhất với bài toán của mình Tất cả những điều này được thực hiện một cách trực quan và không đni hpi kiến thức sâu về lập trình Không chỉ giúp tiết kiệm thời gian mà cnn mang lại hiệu quả cao, Orange là một công cụ hữu ích đối với cả những người mới bắt đầu và những chuyên gia kỳ cựu trong lĩnh vực học máy và khai thác dữ liệu Điều này mở ra một cánh cửa rộng lớn cho nhiều người muốn tận dụng sức mạnh của Machine Learning mà không gặp khó khăn về mặt kỹ thuật.
Python là một ngôn ngữ lập trình mạnh mẽ và linh hoạt, cho phép chúng ta trực quan hóa dữ liệu một cách dễ dàng và hiệu quả Đặc biệt, thư viện Seaborn trongPython là một công cụ mạnh để tạo ra các biểu đồ và đồ thị trực quan đop mắt Trong dự án lần này, nhóm sử dụng thư viện Seaborn để vẽ những biểu đồ liên quan Điều này giúp chúng ta nhanh chóng nhận ra các mẫu và xu hướng trong dữ liệu.Hơn nữa, Seaborn cung cấp nhiều tùy chọn tùy chỉnh để điều chỉnh giao diện và màu sắc của biểu đồ, giúp tạo ra những trực quan hóa phù hợp với mục tiêu cụ thể Một điều đáng chú ý, Seaborn cnn kết hợp tốt với các thư viện khác trong hệ sinh tháiPython như Pandas và NumPy, giúp xử lý dữ liệu một cách thuận lợi trước khi trực quan hóa Việc kết hợp mạnh mẽ này cho phép chúng ta thực hiện các phân tích sâu hơn và tạo ra các biểu đồ có ý nghĩa thống kê.
PHƯƠNG PHÁP SỬ DỤNG
Có nhiều phương pháp thu thập dữ liệu phù hợp với các mục tiêu và tình huống khác nhau Một trong những phương pháp phổ biến trong thực tế cũng như được rất nhiều sinh viên Đại học UEH áp dụng đó là đưa ra những Khảo sát, nơi người nghiên cứu tạo ra các câu hpi được gửi đến người tham gia để thu thập ý kiến và thông tin Hoặc quan sát (Observation) liên quan đến việc theo dõi và ghi lại hành vi, sự kiện và tương tác trong một môi trường cụ thể Đây là một phương pháp hiệu quả để nghiên cứu các hoạt động thực tế và không yêu cầu sự tương tác trực tiếp với người tham gia. Mỗi phương pháp thu thập dữ liệu đều mang lại thông tin độc đáo và cần được lựa chọn một cách cẩn thận tùy thuộc vào mục tiêu cụ thể của nghiên cứu.
Do thời gian dành cho bài nghiên cứu có hạn nên nhóm sinh viên không thể thực hiện các khảo sát cũng như nghiên cứu nhằm phục vụ dự án Thay vào đó, nhóm sinh viên chúng em sẽ sử dụng bộ dữ liệu (dataset) có sẵn và được chia sẻ rộng rãi trên internet Đây cũng là những dữ liệu được thực hiện bằng phương pháp Quan sát (Observation) tại một chuỗi siêu thị trong một khoảng thời gian nhất định.
Sau quá trình thu thập dữ liệu, bước quan trọng tiếp theo là khám phá dữ liệu (Data Exploration) Quy trình này đóng vai trn quan trọng trong việc hiểu rõ hơn về tính chất và cấu trúc dữ liệu thu thập được.
Sử dụng các đơn vị thống kê mô tả như trung bình, trung vị, phương sai, và các percentiles cho phép nhóm nghiên cứu có cái nhìn tổng quan về phân phối của dữ liệu. Điều này cung cấp thông tin quan trọng về trung tâm và biến động của dữ liệu.
2.2.2.2 Trực quan hoá dữ liệu
Sử dụng biểu đồ và đồ thị để hình dung dữ liệu Các biểu đồ như biểu đồ cột, biểu đồ đường, biểu đồ hộp và biểu đồ phân tán giúp nhìn rõ hơn về mẫu dữ liệu và tương tác giữa các biến.
Xem xét mối tương quan giữa các biến để hiểu sự ảnh hưởng của chúng lên nhau.
Sử dụng ma trận tương quan hoặc biểu đồ phân tán có thể giúp nhìn thấy mối quan hệ này
Trong nghiên cứu này, nhóm quyết định sử dụng hệ số tương quan Pearson Là một phép đo thống kê được sử dụng để đo lường mức độ tương quan tuyến tính giữa hai biến số liên tục Được đặt theo tên của nhà thống kê người Anh, Karl Pearson, hệ số tương quan Pearson có giá trị nằm trong khoảng -1 đến 1
- 1 là tương quan hoàn toàn thuận lợi: Có một mối tương quan tuyến tính hoàn toàn dương giữa hai biến Nghĩa là, khi một biến tăng, biến cnn lại cũng tăng theo
- 0 là không có tương quan tuyến tính: Không có mối tương quan tuyến tính giữa hai biến
- -1 là tương quan hoàn toàn nghịch lý: Có một mối tương quan tuyến tính hoàn toàn âm giữa hai biến Nghĩa là, khi một biến tăng, biến cnn lại giảm.
Hệ số tương quan Pearson được tính bằng công thức:
Hình 2 1 Công thức tính hệ số tương quan
2.2.3 Tiền xử lý dữ liệu
2.2.3.1 Loại bỏ dữ liệu trùng lặp và xử lý giá trị thiếu:
Trong quá trình thu thập dữ liệu, việc xảy ra sai xót là không thể tránh khpi Sẽ có những giá trị bị lặp lại và những giá trị bị khuyết do nhiều nguyên nhân khách quan khác nhau Có nhiều cách để xử lý vấn đề này. Đối với dữ liệu bị trùng lặp, chúng ta nên kiểm tra và loại bp hoàn toàn ra khpi dataset để đảm bảo tính duy nhất của dữ liệu. Đối với các giá trị bị thiếu, tùy vào tình hình thực tế mà chúng ta có thể điền giá trị bị thiếu bằng các giá trị trung bình, trung vị hoặc sử dụng các thuật toán để dự báo giá trị cnn thiếu Trong trường hợp xấu nhất, chúng ta hoàn toàn có thể bp những giá trị bị thiếu ra khpi dataset để đảm bảo tính liên tục của dữ liệu
Chuẩn hóa dữ liệu (Data Standardization), cnn được gọi là z-score normalization hoặc z-score scaling, là quy trình biến đổi dữ liệu ban đầu thành một tỷ lệ chuẩn Công cụ Orange cho phép chúng ta lựa chọn nhiều phương pháp chuẩn hóa dữ liệu khác nhau Tuy nhiên với tình hình bài toán, nhóm quyết định thực hiện chuẩn hóa dữ liệu thành tỉ 1 tỉ lệ chuẩn trong đó: giá trị trung bình (μ) của dữ liệu trở thành 0 và độ lệch chuẩn (σ) trở thành 1.
● z là giá trị sau chuẩn hóa
● x là giá trị ban đầu
● μ là giá trị trung bình của dữ liệu
● σ là độ lệch chuẩn của dữ liệu.
Chuẩn hóa dữ liệu có nhiều lợi ích khác nhau:
So sánh dễ dàng hơn: Khi các biến có đơn vị đo khác nhau hoặc phạm vi giá trị khác nhau, chuẩn hóa giúp đảm bảo rằng chúng có cùng một phạm vi và đơn vị, từ đó dễ dàng so sánh và đánh giá Ổn định hơn cho các thuật toán học máy: Một số thuật toán học máy như k-NN,
SVM, hay k-means clustering dựa vào khoảng cách giữa các điểm dữ liệu Chuẩn hóa giúp cân nhắc đóng góp của các biến một cách công bằng và ngăn việc biến nào có phạm vi giá trị lớn hơn ảnh hưởng quá nhiều.
2.2.3.3 Xử lý giá trị ngoại lai:
Giá trị ngoại lai (Outliers) là các điểm dữ liệu mà giá trị của chúng rất khác biệt so với các điểm dữ liệu khác trong tập dữ liệu Đây không phải là dữ liệu bị lỗi, tuy nhiên do một số lí do đặc biệt mà những giá trị này tách hoàn toàn ra khpi phân phối bình thường của dữ liệu Việc xử lý các giá trị này giúp cải thiện đáng kể độ chính xác của mô hình
Công cụ Orange cũng cho phép chúng ta 4 phương pháp xử lý những giá trị ngoại lai Nhóm đã quyết định sử dụng phương pháp Local Outlier Factor (LOF) để loại bp những dữ liệu ngoại lai (nếu có) ra khpi dataset
LOF là một thuật toán phát hiện giá trị ngoại lệ dựa trên cách tiếp cận từng điểm dữ liệu cụ thể và xem xét xem có bao nhiêu điểm dữ liệu xung quanh đó mà xa lạ so với lân cận của nó Nếu có nhiều điểm dữ liệu xung quanh đó mà xa lạ, điều này gợi ý rằng điểm đó có thể là một giá trị ngoại lệ. Để hiểu rõ hơn, chúng ta có công thức tính LOF như sau:
Hình 2 3 Công thức tính LOF(A)
ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ
THU THẬP DỮ LIỆU
Nghiên cứu, viết và trình bày:
Nghiên cứu, viết và trình bày:
Chương 3 3.2 Khám phá dữ liệu 3.2.2: Trực quan hoá dữ liệu
3.2.3: Phân tích tương quan 3.2.4: Tiền xử lý dữ liệu 3.2.5: Huấn luyện mô hình
Nghiên cứu, viết và trình bày:
Chương 1 Kết luận và Hướng phát triển
Nghiên cứu, viết và trình bày:
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI
KHÁM PHÁ DỮ LIỆU
Nghiên cứu, viết và trình bày:
Nghiên cứu, viết và trình bày:
Chương 3 3.2 Khám phá dữ liệu 3.2.2: Trực quan hoá dữ liệu
3.2.3: Phân tích tương quan 3.2.4: Tiền xử lý dữ liệu 3.2.5: Huấn luyện mô hình
Nghiên cứu, viết và trình bày:
Chương 1 Kết luận và Hướng phát triển
Nghiên cứu, viết và trình bày:
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI
1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU
Khoa học dữ liệu là một lĩnh vực nghiên cứu và ứng dụng khoa học máy tính, thống kê, và kiến thức ngành để hiểu và phân tích dữ liệu Khoa học dữ liệu nghiên cứu xử lý dữ liệu để thực hiện các hoạt động tìm kiếm, phân tích, thu thập được thông tin có ý nghĩa và hỗ trợ đưa ra quyết định
Khoa học dữ liệu đang trở thành một lĩnh vực quan trọng và phát triển nhanh chóng trong nhiều ngành, với nhiều cơ hội nghề nghiệp và ứng dụng rộng rãi Trước khi thực sự tìm hiểu sâu vào lĩnh vực khoa học dữ liệu, trước tiên chúng ta cần nắm bắt được những khái niệm cơ bản để cấu thành nên nó
Dữ liệu (data) là tập hợp các kí tự (số, chữ, phép đo, phép quan sát hoặc chỉ mô tả về sự vật, ) được thu thập cho mục đích nào đó, thường là để phân tích Có thể nói, dữ liệu sẽ là nền tảng của DS, là tài liệu mà tất cả các phân tích đều phải dựa vào. Nhiều người hay nhầm lẫn giữa Dữ liệu với thông tin (information) Khái niệm của hai thuật ngữ này hoàn toàn khác nhau Thông tin có thể nói là dữ liệu sau khi được phân tích Tức là sau khi thu thập được dữ liệu, người ta sẽ tiến hành xử lý, giải thích, sắp xếp cấu trúc, để dữ liệu, để những con số trong dữ liệu “có thể biết nói”, làm cho dữ liệu có ý nghĩa hơn, hữu ích thì khi đó mới là thông tin Một trong những cách thực hiện được điều đó là ứng dụng khoa học dữ liệu vào trong quá trình phân tích.
1.1.2 Kết hợp khoa học vào dữ liệu
Khoa học dữ liệu hay cnn gọi là Data science, tập trung vào việc khai thác, quản lý và phân tích thông tin để dự báo các xu hướng tương lai và đưa ra quyết định, chiến lược hành động dựa trên dữ liệu đã được thu thập
Ba phần chính trong lĩnh vực này: Thu thập và quản lý dữ liệu, phân tích dữ liệu, cuối cùng là áp dụng kết quả phân tích vào các hoạt động mang lại giá trị Việc thực hiện phân tích và sử dụng dữ liệu có thể phụ thuộc vào ba nguồn tri thức: toán học (bao gồm cả thống kê toán học), công nghệ thông tin (bao gồm cả máy học) và kiến thức chuyên môn về lĩnh vực cụ thể
Khoa học dữ liệu có nhiều ứng dụng quan trọng trong các lĩnh vực khác nhau Ví dụ, trong lĩnh vực tài chính và ngân hàng, nó được sử dụng để phát hiện gian lận trong giao dịch, quản lý rủi ro tài chính liên quan đến các khoản vay và hạn mức tín dụng.Ngoài ra, khoa học dữ liệu giúp đánh giá danh mục khách hàng để tìm ra các cơ hội tăng lợi nhuận Cũng trong lĩnh vực này, nó hỗ trợ quản lý chuỗi cung ứng và tối ưu hóa phân phối, đồng thời dự báo và ngăn trước các lỗi thiết bị.
Không những thế, khoa học dữ liệu cnn có rất nhiều ứng dụng trong lĩnh vực y học bao gồm phân tích hình ảnh y tế như phát hiện khối u và hop động mạch Nó cũng được áp dụng trong phát triển thuốc, di truyền và nghiên cứu về bộ gen Sử dụng các phương pháp như máy học và máy vectơ hỗ trợ, khoa học dữ liệu giúp phân loại kết cấu khối và phân tích nội dung hình ảnh y tế Các cơ quan chính phủ và tổ chức chính sách công cộng cũng sử dụng khoa học dữ liệu để nắm vững thông tin và đưa ra quyết định chính sách Trong ngành hàng không, nó hỗ trợ dự đoán trễ và hủy chuyến bay, cũng như phát hiện bất thường để theo dõi tình trạng các chuyến bay và dự đoán số lượng hành khách.
1.1.3 Quy trình phân tích dữ liệu
Quy trình phân tích dữ liệu trong lĩnh vực Khoa học Dữ liệu (Data Science) đóng vai trn quan trọng trong việc chuyển đổi dữ liệu thô thành thông tin hữu ích và hỗ trợ quyết định Quy trình được diễn thực hiện một cách tuần tự để đảm bảo những giá trị output đem lại nhiều giá trị nhất cho một bài toán thực tế
Quy trình phân tích dữ liệu bắt đầu bằng việc thu thập dữ liệu từ các nguồn khác nhau Dữ liệu này có thể bao gồm thông tin từ cơ sở dữ liệu, tệp tin văn bản, dữ liệu trực tuyến hoặc cả dữ liệu hình ảnh và âm thanh Việc thu thập dữ liệu đúng và đủ lớn quan trọng để đảm bảo tính đáng tin cậy của kết quả phân tích
Bước tiếp theo là khám phá dữ liệu, nơi các nhà phân tích tìm hiểu về tính chất và cấu trúc của dữ liệu Điều này bao gồm việc thống kê mô tả, visualizations và các phân tích sơ bộ như tần suất, phân phối, và các xu hướng trong dữ liệu
1.1.3.3 Tiền xử lý dữ liệu:
Trong bước này, dữ liệu được chuẩn bị để có thể được sử dụng trong các mô hình phân tích Các công việc tiền xử lý có thể bao gồm loại bp dữ liệu trùng lặp, xử lý giá trị cnn thiếu, chuẩn hóa dữ liệu và mã hóa các biến phân loại
1.1.3.4 Xây dựng mô hình: Ở bước này, các mô hình phân tích dữ liệu được xây dựng dựa trên mục tiêu cụ thể của nghiên cứu Có thể sử dụng nhiều loại mô hình khác nhau như hồi quy, phân loại, hay mô hình học sâu (deep learning) tùy thuộc vào bản chất của dữ liệu và mục tiêu của nghiên cứu
1.1.3.5 Huấn luyện và Đánh giá mô hình:
Sau khi xây dựng, mô hình được huấn luyện trên dữ liệu huấn luyện và sau đó đánh giá hiệu suất của mô hình trên tập dữ liệu kiểm tra Các phương pháp đánh giá bao gồm độ chính xác (accuracy), độ nhạy (sensitivity), độ cụ thể (specificity) và các độ đo khác phù hợp với loại mô hình và bài toán cụ thể
1.1.3.6 Tối ưu hoá và điều chỉnh mô hình:
Nếu cần, mô hình sẽ được điều chỉnh và tối ưu hóa để cải thiện hiệu suất Điều này có thể bao gồm thay đổi các siêu tham số (hyperparameters), sử dụng các kỹ thuật tối ưu hóa khác nhau và thực hiện các phương pháp điều chỉnh mô hình.
1.1.3.7 Triển khai và giám sát:
Cuối cùng, mô hình được triển khai vào môi trường thực tế và được giám sát để đảm bảo rằng nó hoạt động đúng đắn và mang lại giá trị thực tế cho tổ chức hoặc doanh nghiệp Quy trình phân tích dữ liệu không chỉ là một chuỗi các bước mà là một quá trình linh hoạt, yêu cầu sự linh hoạt và sáng tạo của nhà phân tích dữ liệu để tìm ra các giải pháp phù hợp nhất với mỗi tình huống cụ thể.
1.2.1 Lý do chọn đề tài
ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH
ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH
Điểm số đạt được trên tập train:
Hình 4 1 Evalution results trên tập train Điểm số đạt được trên tập test.
Hình 4 2 Evaluations Results trên tập test
Sử dụng công cụ Confusion Matrix và ROC Analysis để tiếp tục đánh giá sâu hơn nhằm tìm ra mô hình tốt nhất. Đánh giá các chỉ số AUC, CA, F1, Precision, recall trên tập Train.
Tại Evaluation results sẽ cho ta biết các chỉ số AUC, CA, F1, Precision, Recall của
5 phương pháp xem chỉ số nào cao nhất Sau khi quan sát, có thể thấy tất cả các chỉ số của phương pháp Decision Tree là cao nhất trong cả 5 phương pháp
Diện tích dưới đường cong (AUC): 0.931
Giá trị trung bình điều hna (F1-score): 0,944 Độ chính xác (Precision): 0,944 Độ phủ (recall): 0,946
Có thể thấy được điểm số AUC, CA, F1, Precision, Recall của các mô hình khi được huấn luyện trên tập train có độ chính xác cao hơn tập test Điều này có thể dễ dàng hiểu được vì các mô hình máy học được huấn luyện để học cách ánh xạ đầu vào sang đầu ra bằng cách sử dụng dữ liệu huấn luyện Trong quá trình huấn luyện, mô hình cố gắng tìm cách tối ưu hóa hàm mất mát (loss function) bằng cách điều chỉnh các tham số của mô hình.
Khi huấn luyện trên tập train, mô hình sẽ được đào tạo trên tập dữ liệu mà nó đã nhìn thấy và trở nên tốt hơn trong việc phân loại các điểm dữ liệu trong tập huấn luyện Do đó, độ chính xác trên tập huấn luyện sẽ cao hơn so với trên tập kiểm tra. Bên cạnh đó, khi sử dụng Ma trận nhầm lẫn, chỉ số cần chú ý đến nhất để so sánh cácphương pháp phân lớp với nhau là tỷ lệ của sai lầm loại 1 và sai lầm loại 2 (tương ứngvới False Positive và False Negative), một mô hình được đánh giá là tốt và chính xácnhất khi có hai tỷ lệ sai lầm này là thấp nhất Thông qua ma trận nhầm lẫn, ta thu được các kết quả sau đây:
Hình 4 3 Ma trận nhầm lẫn phương pháp Logistic regression trên tập train và tập test
Hình 4 4 Ma trận nhầm lẫn phương pháp KNN trên tập train và tập test
Hình 4 5 Ma trận nhầm lẫn phương pháp SVM trên tập train và tập test
Hình 4 6 Ma trận nhầm lẫn phương pháp Decision Tree trên tập train và tập test
Hình 4 7 Ma trận nhầm lẫn phương pháp Bayes trên tập train và tập test
Hình 4 8 Đồ thì ROC Đánh giá ma trận nhầm lẫn và đồ thị ROC:
Từ kết quả bảng ma trận nhầm lẫn của 5 phương pháp SVM, Logistic Regression,Decision Tree, Naive Bayes, kNN, ta có nhận xét sau: Tổng các chỉ số sai lầm loại I và loại II của mô hình Decision Tree là thấp nhất trong 3 mô hình với chỉ số sai lầm loại I là 4.9% trong tập Train, 13.1% trong tập Test, và sai lầm loại II là 4.1%, 4.6% trong tập Test
Từ kết quả đồ thị ROC, ta có thể thấy đường ROC màu hồng (đại diện cho mô hìnhDecision Tree) là tiệm cận với điểm (0;1) nhất nên mô hình này là hiệu quả nhất.
ÁP DỤNG MÔ HÌNH TỐT NHẤT VÀO BÀI TOÁN DỰ ĐOÁN
Sau nhiều kết quả, nhóm quyết định nhóm mô hình tốt nhất để tiến hàng bài toán thực tế đó là Cây quyết định
Hình 4 9 Mô hình mô tả tổng quan quá trình Cây quyết định
Tiến hành cho mô hình dự đoán với 200 khách hàng
Hình 4 10 Bảng dữ liệu dự đoán 200 khách hàng
Trong quá trình xây dựng mô hình để dự đoán tốt nhất cho bộ dữ liệu, mô hình Decision Tree đã cho ra kết quả tốt nhất và đã được lựa chọn để dự báo 200 mẫu ngẫu nhiên Cũng như các mô hình khác, mô hình nào cũng có những ưu và nhược điểm riêng, nhưng dưới đây là một số điểm mạnh và yếu của mô hình Decision Tree: Ưu điểm:
Mô hình Decision Tree có các chỉ số (bao gồm diện tích dưới đường cong, độ phủ, tính chính xác, giá trị trung bình điều hna, độ phủ) cao nhất, đường cong ROC tiệm cận với điểm (0;1) nhất đồng thời có tổng phần trăm sai lầm loại I và loại II thấp nhất.
Do đó, nó phù hợp để đưa ra dự báo nhất trong 5 mô hình đã được đánh giá.
Việc áp dụng mô hình Decision Tree khiến cho việc quan sát kết quả dự báo trở nên đơn giản Nó cũng là một mô hình dễ hiểu về mặt bản chất và có thể giúp người dùng dễ dàng tìm hiểu quy trình dự đoán của mô hình.
Mô hình Decision Tree không yêu cầu chuẩn hóa dữ liệu (mặc dù nhóm đã chuẩn hóa rồi), có thể xử lý đa dạng dữ liệu và xử lý được dữ liệu lớn trong khoảng thời gian ngắn.
Mô hình Decision Tree cũng có thể dễ dàng được tùy chỉnh và điều chỉnh các siêu tham số, giúp cải thiện kết quả dự đoán và tối ưu hóa hiệu suất của mô hình.
Dễ bị overfitting: Nếu không được căn chỉnh đúng, Decision Decision Tree có thể dẫn đến hiện tượng overfitting, tức là quá khớp dữ liệu huấn luyện.
Không phù hợp cho dữ liệu có nhiễu: Decision Decision Tree dễ bị ảnh hưởng bởi các giá trị nhiễu trong dữ liệu Cũng chính vì vậy mà nhóm đã xử lí outlier trước khi cho data vào mô hình
Tính nhất quán: Các thuật toán Decision Tree không đảm bảo rằng các quyết định được đưa ra là tối ưu nhất mặc dù các kết quả mà Decision Tree cho ra là có thể chấp nhận được
Cách khắc phục: Dựa vào các nhược điểm đã đề cập ở trên, nhóm đề xuất được 2 hướng khắc phục, hướng khắc phục đầu tiên là khắc phục mô hình (hướng khắc phục này mang tính kĩ thuật) và hướng khắc phục thứ hai là khắc phục các yếu tố khách quan.
Khắc phục hạn chế của Decision Tree:
Sử dụng ensemble learning: Kết hợp nhiều decision tree để tạo ra một mô hình mạnh hơn (như là Random Forest, mặc dù Random Forest cũng có nhược điểm nhưng nó nằm ngoài phạm vi của đồ án nên nhóm không đề cập) và giảm thiểu các lỗi của một cây phân loại đơn lẻ.
Sử dụng pruning: Đây là kỹ thuật cắt tỉa để giảm thiểu độ sâu của cây phân loại và tránh overfitting Các nhánh cây có đóng góp nhp cho kết quả cuối cùng sẽ bị cắt bp để giảm thiểu độ phức tạp của mô hình.
Sử dụng các phép đo lỗi khác nhau: Thay vì sử dụng chỉ số entropy hoặc Gini, ta có thể sử dụng các phép đo lỗi khác như Information gain ratio, chi-square để tối ưu hóa cây phân loại.
Tái cân bằng mẫu dữ liệu: Nếu tập dữ liệu bị mất cân bằng, ta có thể tăng cường các mẫu thiếu hoặc giảm số lượng các mẫu chồng chéo để tạo ra một tập dữ liệu cân bằng hơn Ngoài ra cũng cnn nhiều cách khác để xử lí imbalance data nhưng nhóm không đề cập
Tối ưu hóa siêu tham số: Ta có thể tối ưu hóa các siêu tham số của mô hình decision tree như độ sâu của cây, số lượng mẫu tối thiểu để phân chia nút, hoặc số lượng tối thiểu các mẫu tối đa ở lá để cải thiện độ chính xác của mô hình.
Sử dụng các thuật toán khác: Ngoài decision tree, ta có thể sử dụng các thuật toán khác như Random Forest, Gradient Boosting hoặc Neural Networks để tăng độ chính xác của mô hình.
Sử dụng các kỹ thuật phân tích dữ liệu mới: Các kỹ thuật mới như Deep Learning hoặc Reinforcement Learning cung cấp một phương pháp khác để xử lý các tập dữ liệu phức tạp.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Tóm tắt
Nhóm làm đồ án đã tìm cách dự đoán khách hàng tiềm năng tham gia chương trình Thành viên Vàng dựa vào việc phân tích dữ liệu Khách hàng đã mua hàng tại siêu thị. Đồng thời chỉ ra sự tương quan giữa tình độ học vấn, tình trạng hôn nhân cũng như số tiền khách hàng chi trả các sản phẩm tại siêu thị,
Sau khi thực hiện các bước phân tích, thống kê, sử dụng các phương pháp của Khoa học dữ liệu để phân loại, phân cụm dữ liệu chúng em đã đưa ra được những thực trạng về nhu cầu tham gia chương trình Thành viên Vàng.
Kết luận
Mục tiêu của nhóm là dự báo về khả năng khách hàng tham gia và không tham gia chương trình Thành viên Vàng của siêu thị Các phần lý thuyết được đề cập ở Chương
2 được áp dụng để xây dựng mô hình dự đoán có thể đảm bảo các ước tính từ phân tích và có tính chính xác cao.
Hướng phát triển
Mô hình này có thể được dùng để dự đoán khách hang tham gia chương trình Thành viên Vàng dựa trên các yếu tố khác nhau như trình độ học vấn, trình trạng hôn nhân, mức mua hàng của khách hàng,
Từ đó có thể giúp cho các công ty đưa ra các quyết định phù hợp Chẳng hạn: Phân bố trình độ học vấn của khách hàng gần như giống nhau Đa số các khách hàng đều là những người có học thức Những khách hàng có trình độ Tốt nghiệp là đối tượng khách hàng nhiều nhất của siêu thị này Bằng cách này, siêu thị cung cấp các chiến dịch đặc biệt cho những khách hàng này.
Nhu cầu mua hàng của các khách hàng là cặp đôi có xu hướng cao hơn tình trạng độc thân Điều đó có nghĩa là siêu thị nên có những chương trình dành cho người độc thân để thuyết phục họ mua hàng tại siêu thị.
Ngoài ra, việc mua hàng thông qua website siêu thị của khách hàng cũng là điều đáng phát triển, khi số lần khách hàng vào website siêu thị cũng như mua hàng qua đó cũng đạt được những con số ấn tượng.
Giải pháp
Đối với những khách hàng được dự đoán sẽ tham gia chương trình thành viên Vàng: Chăm sóc và cung cấp dịch vụ tốt cho khách hàng tiềm năng Tạo ra các chiến dịch tiếp thị và quảng bá đặc biệt dành riêng cho nhóm này Cung cấp nội dung và sản phẩm phù hợp với đặc điểm của khách hàng tiềm năng Đưa ra các ưu đãi và chương trình khuyến mãi hấp dẫn. Đối với những khách hàng được dự đoán sẽ không tham gia chương trình thành viên Vàng Siêu thị cần phát triển sản phẩm hoặc dịch vụ mới dựa trên thông tin về khách hàng tiềm năng để mở rộng thị trường Tập trung vào việc xây dựng mối quan hệ lâu dài với khách hàng tiềm năng thay vì chỉ tập trung vào việc bán hàng ngắn hạn.Siêu thị nên kết hợp sử dụng khoa học dữ liệu với các giải pháp khác như chương trình khuyến mãi, quản lý dịch vụ khách hàng tốt để đảm bảo rằng khách hàng sẽ hài lnng và tiếp tục gắn bó với siêu thị.
Lời đầu tiên, nhóm em xin gửi lời cảm ơn chân thành đến thầy Nguyễn Quốc Hùng
- giảng viên bộ môn Khoa học dữ liệu Trong quá trình học tập thầy đã truyền đạt cho em những kiến thức bổ ích và quý báu trong suốt thời gian vừa qua Khi học Khoa học dữ liệu của thầy thì em nhận được rất nhiều sự quan tâm, nhiệt huyết và tận tâm của thầy trong từng bài giảng và đó luôn là động lực thúc đẩy nhóm em trong quá trình học tập và rèn luyện Những kiến thức thầy truyền đạt chính là hành trang quý báu của chúng em trong hành trình dài phía trước.
Bộ môn Khoa học dữ liệu là môn học thiết thực, mang đến cho chúng em nhiều kiến thức môn học áp dụng nhiều khi bắt đầu công việc Đảm bảo cung cấp đủ kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên Tuy nhiên, do vốn kiến thức của nhóm em cnn nhiều hạn chế và khả năng tiếp thu thực tế cnn nhiều bỡ ngỡ Mặc dù nhóm em đã cố gắng hết sức nhưng chắc chắn bài tiểu luận khó có thể tránh khpi những thiếu sót và nhiều chỗ cnn chưa chính xác, kính mong thầy xem xét và góp ý để bài tiểu luận của nhóm được hoàn thiện hơn
Lời cuối cùng, nhóm em xin kính chúc Thầy nhiều sức khpe, thành công và hạnh phúc.