1. Trang chủ
  2. » Công Nghệ Thông Tin

Nhóm 06 file báo cáo

53 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI (10)
    • 1.2 Mục tiêu nghiên cứu (10)
    • 1.3 Phương pháp nghiên cứu (10)
    • 1.4 Công cụ nghiên cứu (11)
  • CHƯƠNG 2. CƠ SỞ LÝ THUYẾT (7)
    • 2.1 Tổng quan (9)
      • 2.1.1 Phân cụm dữ liệu (12)
      • 2.1.2 Thuật toán Optics (16)
      • 2.1.3 So sánh thuật toán OPTICS và DBSCAN (18)
    • 2.2 Các định nghĩa trong thuật toán Optics (9)
      • 2.2.1 Mật độ (20)
      • 2.2.2 Khả năng kết nối (20)
      • 2.2.3 Điểm trung tâm (core point) (20)
      • 2.2.4 Điểm biên (border point) (20)
      • 2.2.5 Điểm nhiễu (noise) (20)
      • 2.2.6 Eps-neighborhood (21)
      • 2.2.7 Cụm (cluster) (22)
      • 2.2.8 Khoảng cách lõi (Core - distance) (22)
      • 2.2.9 Khoảng cách tiếp cận (reachability - distance) (23)
      • 2.2.10 Biểu đồ khả năng tiếp cận (24)
    • 3.1 Mô tả tập dữ liệu (9)
      • 3.1.1 Data exploration (28)
      • 3.1.2 Data visualization (30)
    • 3.2 Tiền xử lý dữ liệu (34)
      • 3.2.1 Kiểm tra giá trị dữ liệu bị thiếu (34)
      • 3.2.2 Mã hóa dữ liệu sang kiểu số (35)
      • 3.2.3 Kết quả của quá trình tiền xử lý dữ liệu (35)
    • 3.3 Python và ví dụ minh họa (0)
      • 3.3.1 Ma trận tương quan (0)
      • 3.3.2 Phân tích và trực quan hóa thu nhập hàng năm (37)
      • 3.3.3 Phân tích và trực quan hóa điểm chi tiêu (Spending Score) (39)
      • 3.3.4 Phân tích và trực quan hóa độ tuổi (40)
      • 3.3.5 Phân tích và trực quan hóa sự phân bổ giới tính (41)
      • 3.3.6 Thực hiện phân cụm (42)
  • CHƯƠNG 4. ĐÁNH GIÁ HIỆU QUẢ VÀ KẾT LUẬN (7)
    • 4.1 Đánh giá về phương pháp phân cụm Optics (8)
      • 4.1.1 Về ưu điểm (50)
      • 4.1.2 Về nhược điểm (50)
    • 4.2 Kết luận (7)

Nội dung

CƠ SỞ LÝ THUYẾT

Các định nghĩa trong thuật toán Optics

5 Nguyễn Thanh Phong 31211022658 Nghiên cứu và phát triển đề tài.

Chương 2 Cơ sở lý thuyết

- Tìm hiểu về lý thuyết của thuật toán.

Mô tả tập dữ liệu

Kiểm tra danh mục hình ảnh, bảng biểu.

CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI 1 1 Giới thiệu đề tài.

Phân cụm (Clustering) là một kỹ thuật quan trọng trong học máy và khám phá dữ liệu, mang lại nhiều lợi ích khi các chuyên gia cần khám phá kiến thức từ dữ liệu Đặc biệt, trong khoa học dữ liệu, các thuật toán phân cụm đóng vai trò quan trọng trong việc phân biệt và hiểu rõ các nhóm dữ liệu khác biệt.

Thuật toán OPTICS (Ordering Points To Identify the Clustering Structure) là một thuật toán phân cụm dựa trên mật độ, được tạo ra để giải quyết các hạn chế của thuật toán DBSCAN OPTICS có khả năng xử lý dữ liệu phân cụm có mật độ khác nhau và tạo ra biểu đồ đặc trưng cho cấu trúc phân cụm của dữ liệu Trong nghiên cứu này, nhóm nghiên cứu đã áp dụng thuật toán OPTICS vào bộ dữ liệu phân khúc khách hàng để phát hiện các nhóm khách hàng có đặc điểm tương tự.

Trong thời đại số hóa hiện nay, việc phân tích dữ liệu khách hàng trở nên vô cùng quan trọng Giao dịch mua sắm không chỉ đơn giản là mua và bán, mà còn cung cấp thông tin quý giá về hành vi, sở thích và xu hướng tiêu dùng của khách hàng Sử dụng thuật toán OPTICS, chúng ta có thể phân tích chi tiết những giao dịch này để xác định mối liên kết mạnh mẽ giữa các sản phẩm.

Thuật toán OPTICS có khả năng xử lý dữ liệu có mật độ khác nhau, là công cụ mạnh mẽ để phân loại khách hàng Khi áp dụng thuật toán này vào dữ liệu giao dịch mua sắm, chúng ta có thể phát hiện những nhóm khách hàng có đặc điểm tương tự Từ đó, xác định được các quy luật kết hợp quan trọng, giúp đưa ra quyết định cải thiện chiến lược tiếp thị.

Sử dụng phương pháp nghiên cứu định lượng, bao gồm việc thu thập dữ liệu từ bộ dữ liệu “Customer Segmentation”, tiền xử lý dữ liệu, thực hiện phân cụm bằng thuật toánOPTICS, và cuối cùng là phân tích và diễn giải kết quả.

Công cụ chính được sử dụng trong nghiên cứu là Python và các thư viện liên quan như SKlearn, Pandas và Matplotlib.

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 2.1 Tổng quan.

Dữ liệu là kho tàng tri thức vô giá, nhưng ẩn sau vô số con số và thông tin là những bí ẩn mà con người chưa thể giải mã hoàn toàn Phân cụm dữ liệu, tựa như một chiếc chìa khóa vạn năng, giúp ta mở ra cánh cửa dẫn đến những hiểu biết sâu sắc hơn về bản chất của dữ liệu, từ đó khai thác tối đa tiềm năng ẩn chứa bên trong.

Hay theo Wikipedia: “Phân tích cụm (hay phân nhóm, gom cụm, tiếng Anh: cluster analysis) là một tác vụ gom nhóm một tập các đối tượng theo cách các đối tượng cùng nhóm (gọi là cụm, cluster) sẽ có tính giống nhau (theo các đặc tính nào đó) hơn so với các đối tượng ngoài nhóm hoặc thuộc các nhóm khác”.

Nói một cách đơn giản, phân cụm dữ liệu là nghệ thuật sắp xếp các đối tượng có những đặc điểm chung lại với nhau Giống như việc ta phân loại học sinh trong lớp, phân loại đất đai hay phân loại tài sản, phân cụm dữ liệu giúp ta nhóm các điểm dữ liệu có sự tương đồng về mặt tính chất thành những tập con gọi là cụm.

Phân cụm dữ liệu đóng vai trò quan trọng trong nhiều lĩnh vực, từ kinh doanh, khoa học đến công nghệ như:

- Hiểu rõ hơn về dữ liệu: Khi dữ liệu được phân chia thành các cụm, ta có thể dễ dàng nắm bắt được đặc điểm riêng biệt của mỗi cụm, từ đó đưa ra những đánh giá, dự đoán chính xác hơn.

- Tăng hiệu quả ra quyết định: Dựa trên thông tin thu thập được từ các cụm dữ liệu, ta có thể đưa ra những quyết định sáng suốt, hiệu quả hơn trong kinh doanh, quản lý hay nghiên cứu khoa học.

- Phát hiện những điều mới mẻ: Phân cụm dữ liệu có thể giúp ta phát hiện ra những mối liên hệ, quy luật ẩn giấu mà ta chưa từng biết đến, từ đó mở ra những hướng nghiên cứu mới, những cơ hội kinh doanh tiềm năng.

Phân cụm dữ liệu ứng dụng trong nhiều lĩnh vực như:

- Phân loại khách hàng: Phân chia khách hàng thành các nhóm dựa trên thói quen mua sắm, sở thích, nhân khẩu học, để đưa ra chiến lược marketing phù hợp.

- Phân tích thị trường: Nhóm các sản phẩm hoặc dịch vụ cạnh tranh nhau dựa trên giá cả, chất lượng, tính năng, để đánh giá vị trí của doanh nghiệp trên thị trường.

- Phát hiện gian lận: Xác định các giao dịch bất thường trong dữ liệu tài chính để ngăn chặn hành vi gian lận.

- Phân tích văn bản: Nhóm các tài liệu văn bản có nội dung tương đồng để tóm tắt thông tin hoặc xác định chủ đề chính.

- Phân tích hình ảnh: Nhóm các hình ảnh có đặc điểm chung như màu sắc, hình dạng, kết cấu, để tự động sắp xếp ảnh hoặc nhận dạng đối tượng.

 Quy trình phân cụm dữ liệu

Phân cụm dữ liệu được tiến hành theo các bước sau:

- Chuẩn bị dữ liệu: Bước đầu tiên là chuẩn bị dữ liệu cho quá trình phân cụm, bao gồm việc loại bỏ nhiễu, xử lý giá trị thiếu và chuẩn hóa dữ liệu.

- Lựa chọn phương pháp phân cụm: Có nhiều phương pháp phân cụm khác nhau, mỗi phương pháp có ưu và nhược điểm riêng.

- Thực hiện phân cụm: Sử dụng phương pháp đã chọn để phân chia dữ liệu thành các cụm.

- Đánh giá kết quả: Đánh giá chất lượng của các cụm bằng các biện pháp thống kê như Silhouette Coefficient hoặc Calinski-Harabasz Index.

- Diễn giải kết quả: Phân tích và diễn giải ý nghĩa của các cụm được tìm thấy.

Hình 1 Các bước của quá trình phân cụm dữ liệu

Nguồn: Kamber và cộng sự (2011).

 Các phương pháp gom cụm phổ biến.

❖ Phương pháp dựa trên phân hoạch (Partitioning approach):

 Mô tả: Chia tập dữ liệu thành một số cụm cố định (k) mà không có sự chồng chéo giữa các cụm.

- k-Means: Thuật toán phổ biến nhất, chia dữ liệu thành k cụm bằng cách gán mỗi điểm dữ liệu vào cụm có tâm gần nhất.

- k-Medoids: Tương tự như k-Means nhưng sử dụng điểm trung vị (medoid) của mỗi cụm thay vì tâm (mean).

Python và ví dụ minh họa

STT Họ và tên MSSV Công việc Mức độ đóng góp

31211022943 Nghiên cứu và phát phát triển đề tài.

Chương 2 Cơ sở lý thuyết.

- Tìm hiểu về lý thuyết của thuật toán.

- 2.3 Ví dụ minh họa cho thuật toán Optics.

- Python và các demo minh họa, đưa ra nhận xét.

ĐÁNH GIÁ HIỆU QUẢ VÀ KẾT LUẬN

Kết luận

Chỉnh sửa hình thức bài.

2 Nguyễn Trung Nguyên 31211026558 Nghiên cứu và phát 100%

Chương 2 Cơ sở lý thuyết

- Tìm hiểu về lý thuyết của thuật toán.

- Python và các demo minh họa, đưa ra nhận xét.

Chương 4 Đánh giá và kết luận.

- 4.1 Đánh giá về phương pháp phân cụm Optics.

3 Nguyễn Thị Ngọc Nhi 31211021156 Chương 1 Tổng quan đề tài.

Chương 2 Cơ sở lý thuyết

- Tìm hiểu lý thuyết của thuật toán.

- Tiền xử lý dữ liệu.

4 Đặng Thị Tuyết Nhi 31211026559 Nghiên cứu và phát triển đề tài.

100% thuyết - Tìm hiểu về lý thuyết của thuật toán.

- 2.2 Các định nghĩa. trong thuật toán Optics.

5 Nguyễn Thanh Phong 31211022658 Nghiên cứu và phát triển đề tài.

Chương 2 Cơ sở lý thuyết

- Tìm hiểu về lý thuyết của thuật toán.

- 3.1 Mô tả tập dữ liệu

Kiểm tra danh mục hình ảnh, bảng biểu.

CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI 1 1 Giới thiệu đề tài.

Phân cụm (Clustering) là một kỹ thuật quan trọng trong học máy và khám phá dữ liệu, mang lại nhiều lợi ích khi các chuyên gia cần khám phá kiến thức từ dữ liệu Đặc biệt, trong khoa học dữ liệu, các thuật toán phân cụm đóng vai trò quan trọng trong việc phân biệt và hiểu rõ các nhóm dữ liệu khác biệt.

Thuật toán OPTICS (Ordering Points To Identify the Clustering Structure) là một thuật toán phân cụm dựa trên mật độ, được tạo ra để giải quyết các hạn chế của thuật toán DBSCAN OPTICS có khả năng xử lý dữ liệu phân cụm có mật độ khác nhau và tạo ra biểu đồ đặc trưng cho cấu trúc phân cụm của dữ liệu Trong nghiên cứu này, nhóm nghiên cứu đã áp dụng thuật toán OPTICS vào bộ dữ liệu phân khúc khách hàng để phát hiện các nhóm khách hàng có đặc điểm tương tự.

Trong thời đại số hóa hiện nay, việc phân tích dữ liệu khách hàng trở nên vô cùng quan trọng Giao dịch mua sắm không chỉ đơn giản là mua và bán, mà còn cung cấp thông tin quý giá về hành vi, sở thích và xu hướng tiêu dùng của khách hàng Sử dụng thuật toán OPTICS, chúng ta có thể phân tích chi tiết những giao dịch này để xác định mối liên kết mạnh mẽ giữa các sản phẩm.

Thuật toán OPTICS có khả năng xử lý dữ liệu có mật độ khác nhau, là công cụ mạnh mẽ để phân loại khách hàng Khi áp dụng thuật toán này vào dữ liệu giao dịch mua sắm, chúng ta có thể phát hiện những nhóm khách hàng có đặc điểm tương tự Từ đó, xác định được các quy luật kết hợp quan trọng, giúp đưa ra quyết định cải thiện chiến lược tiếp thị.

Sử dụng phương pháp nghiên cứu định lượng, bao gồm việc thu thập dữ liệu từ bộ dữ liệu “Customer Segmentation”, tiền xử lý dữ liệu, thực hiện phân cụm bằng thuật toánOPTICS, và cuối cùng là phân tích và diễn giải kết quả.

Công cụ chính được sử dụng trong nghiên cứu là Python và các thư viện liên quan như SKlearn, Pandas và Matplotlib.

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 2.1 Tổng quan.

Dữ liệu là kho tàng tri thức vô giá, nhưng ẩn sau vô số con số và thông tin là những bí ẩn mà con người chưa thể giải mã hoàn toàn Phân cụm dữ liệu, tựa như một chiếc chìa khóa vạn năng, giúp ta mở ra cánh cửa dẫn đến những hiểu biết sâu sắc hơn về bản chất của dữ liệu, từ đó khai thác tối đa tiềm năng ẩn chứa bên trong.

Hay theo Wikipedia: “Phân tích cụm (hay phân nhóm, gom cụm, tiếng Anh: cluster analysis) là một tác vụ gom nhóm một tập các đối tượng theo cách các đối tượng cùng nhóm (gọi là cụm, cluster) sẽ có tính giống nhau (theo các đặc tính nào đó) hơn so với các đối tượng ngoài nhóm hoặc thuộc các nhóm khác”.

Nói một cách đơn giản, phân cụm dữ liệu là nghệ thuật sắp xếp các đối tượng có những đặc điểm chung lại với nhau Giống như việc ta phân loại học sinh trong lớp, phân loại đất đai hay phân loại tài sản, phân cụm dữ liệu giúp ta nhóm các điểm dữ liệu có sự tương đồng về mặt tính chất thành những tập con gọi là cụm.

Phân cụm dữ liệu đóng vai trò quan trọng trong nhiều lĩnh vực, từ kinh doanh, khoa học đến công nghệ như:

- Hiểu rõ hơn về dữ liệu: Khi dữ liệu được phân chia thành các cụm, ta có thể dễ dàng nắm bắt được đặc điểm riêng biệt của mỗi cụm, từ đó đưa ra những đánh giá, dự đoán chính xác hơn.

- Tăng hiệu quả ra quyết định: Dựa trên thông tin thu thập được từ các cụm dữ liệu, ta có thể đưa ra những quyết định sáng suốt, hiệu quả hơn trong kinh doanh, quản lý hay nghiên cứu khoa học.

- Phát hiện những điều mới mẻ: Phân cụm dữ liệu có thể giúp ta phát hiện ra những mối liên hệ, quy luật ẩn giấu mà ta chưa từng biết đến, từ đó mở ra những hướng nghiên cứu mới, những cơ hội kinh doanh tiềm năng.

Phân cụm dữ liệu ứng dụng trong nhiều lĩnh vực như:

- Phân loại khách hàng: Phân chia khách hàng thành các nhóm dựa trên thói quen mua sắm, sở thích, nhân khẩu học, để đưa ra chiến lược marketing phù hợp.

- Phân tích thị trường: Nhóm các sản phẩm hoặc dịch vụ cạnh tranh nhau dựa trên giá cả, chất lượng, tính năng, để đánh giá vị trí của doanh nghiệp trên thị trường.

- Phát hiện gian lận: Xác định các giao dịch bất thường trong dữ liệu tài chính để ngăn chặn hành vi gian lận.

- Phân tích văn bản: Nhóm các tài liệu văn bản có nội dung tương đồng để tóm tắt thông tin hoặc xác định chủ đề chính.

- Phân tích hình ảnh: Nhóm các hình ảnh có đặc điểm chung như màu sắc, hình dạng, kết cấu, để tự động sắp xếp ảnh hoặc nhận dạng đối tượng.

 Quy trình phân cụm dữ liệu

Phân cụm dữ liệu được tiến hành theo các bước sau:

- Chuẩn bị dữ liệu: Bước đầu tiên là chuẩn bị dữ liệu cho quá trình phân cụm, bao gồm việc loại bỏ nhiễu, xử lý giá trị thiếu và chuẩn hóa dữ liệu.

- Lựa chọn phương pháp phân cụm: Có nhiều phương pháp phân cụm khác nhau, mỗi phương pháp có ưu và nhược điểm riêng.

- Thực hiện phân cụm: Sử dụng phương pháp đã chọn để phân chia dữ liệu thành các cụm.

- Đánh giá kết quả: Đánh giá chất lượng của các cụm bằng các biện pháp thống kê như Silhouette Coefficient hoặc Calinski-Harabasz Index.

- Diễn giải kết quả: Phân tích và diễn giải ý nghĩa của các cụm được tìm thấy.

Hình 1 Các bước của quá trình phân cụm dữ liệu

Nguồn: Kamber và cộng sự (2011).

 Các phương pháp gom cụm phổ biến.

❖ Phương pháp dựa trên phân hoạch (Partitioning approach):

 Mô tả: Chia tập dữ liệu thành một số cụm cố định (k) mà không có sự chồng chéo giữa các cụm.

- k-Means: Thuật toán phổ biến nhất, chia dữ liệu thành k cụm bằng cách gán mỗi điểm dữ liệu vào cụm có tâm gần nhất.

- k-Medoids: Tương tự như k-Means nhưng sử dụng điểm trung vị (medoid) của mỗi cụm thay vì tâm (mean).

Ngày đăng: 09/09/2024, 10:59

w