1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Tiểu luận) đề tài ứng dụng thuật toán k means trong phân tích cụm rượu vang ý

29 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Thuật Toán K-Means Trong Phân Tích Cụm Rượu Vang Ý
Tác giả Nguyễn Trung Phong, Hồ Sỹ Duy, Nguyễn Việt Dũng, Nguyễn Trọng Hiếu Đan, Hoàng Văn Trung
Người hướng dẫn Trần Thị Bích
Trường học Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành Thống Kê
Thể loại Bài Tập Nhóm
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 29
Dung lượng 4,02 MB

Nội dung

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN KHOA THỐNG KÊ BÀI TẬP NHĨM HỌC PHẦN: PHÂN TÍCH DỮ LIỆU Đề tài: Ứng dụng thuật tốn K-means Trong phân tích cụm rượu vang Ý Giảng viên hướng dẫn: Trần Thị Bích Nhóm 7: Nguyễn Trung Phong :11204312 Hồ Sỹ Duy :11201015 Nguyễn Việt Dũng :11201960 Nguyễn Trọng Hiếu Đan :11201490 Hoàng Văn Trung :11200895 Hà Nội - 2023 PHẦN I: TÓM TẮT CÁC NGHIÊN CỨU 1.ĐỀ TÀI: Ứng dụng thuật toán K-Means phân cụm khách hàng mục tiêu -Tác giả: Phạm Kiên Trung , Nguyễn Đức Thắng, Lê Văn Chiến, Nguyễn Văn Thưởng -Đơn vị: Khoa Kinh tế Quản trị kinh doanh, Trường Đại học Mỏ - Địa chất, Việt Nam - Thời gian : 31/10/2020 1.1 Đặt vấn đề Phân cụm khách hàng trình phân chia khách hàng thành nhiều cụm/nhóm chung tương đồng theo tiêu chí giới tính, tuổi tác, sở thích, thu nhập thói quen chi tiêu, hành vi mua sắm,… để doanh nghiệp có phương thức tiếp thị hiệu Khi thực phân cụm khách hàng giúp đơn vị giải yêu cầu khách hàng, giúp tăng lợi nhuận, giữ chân khách hàng quan trọng, thực chiến dịch, chiến lược marketing hiệu (Khajvand and Tarokh, 2011) Hiện nay, có nhiều phương pháp giúp doanh nghiệp thực việc phân cụm khách hàng mục tiêu dựa hiểu biết hành vi (behavior), thói quen (habits), sở thích (preferences) khách hàng tiềm KMeans, MeanShift, Density-Based Spatial, Expectation-Maximization, Agglomerative Hierarchical Clustering (Chen et al., 2012) Trong phạm vi nghiên cứu, tác giả lựa chọn phương pháp phân cụm theo thuật toán K-Means, thuật toán quan trọng sử dụng phổ biến nghiên cứu (Chapman and Feit 2019) Bài báo thu thập số liệu từ 272 khách hàng showroom ô tô với thông tin thu thập dòng xe quan tâm, kênh tiếp cận khách hàng, độ tuổi, thu nhập bình quân điểm chi tiêu để thực phân cụm theo thuật toán K-Means 1.2 Phương pháp nghiên cứu Phương pháp thống kê: Thu thập xử lý số liệu, điều tra chọn mẫu nhóm tác giả sửdụng để có hình ảnh tổng quát mẫu nghiên cứu - Phương pháp phân cụm K-means: Thuật tốn K-Means tìm cách phân nhóm đối tượng (objects) cho vào K cụm (K số cụm xác đinh trước, K nguyên dương) cho tổng bình phương khoảng cách đối tượng đến tâm nhóm (centroid ) nhỏ Thuật tốn K-Means thực qua bước sau Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm đại diện tâm cụm Trong nghiên cứu, để xác định số cụm tối ưu nhóm sử dụng phương pháp Elbow Tiến hành chạy phân cụm tập liệu cho phạm vi giá trị k (k từ đến 10), vị trí k tạo thành khúc cua khuỷa tay chọn k tối ưu (Shmueli et al., 2017) Tính khoảng cách đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean) Nhóm đối tượng vào nhóm gần Xác định lại tâm cho nhóm Thực lại bước khơng có thay đổi nhóm đối tượng 1.3 Dữ liệu nghiên cứu Nghiên cứu thu thập thông tin 272 khách hàng điểm bán hàng công ty Trường Hải Auto, thông tin tập hợp gồm cột: mã khách hàng ID, Chủng loại xe quan tâm, Kênh thông tin phản hồi, độ tuổi, thu nhập bình quân/tháng điểm chi tiêu ID …0648 …6353 LOAIXE MORNING- KENH Showro SI-AT- o 1.25 CERATO1.6-AT …6467 CERATO- m Showro AGE 20 TNHAP 8.8 DIEM 55 35 78 32 8.6 55 o m Showro 1.6-AT …6486 CERATO- o m Showro 1.6-AT 52 10 52 24 8.7 53 o m …6487 SEDONA- Điện 2.2- th DAT oạ i a, Mô tả độ tuổi nhóm khách hàng Độ tuổi bình qn khách hàng 36,1 tuổi, khách hàng có tuổi lớn 52 tuổi, nhỏ 20 tuổi, với độ lệnh chuẩn 6,7 tuổi Min 20.00 1stQu 33.00 Median 35.00 Mean 36.06 3rQu 40.00 Max 52.00 Std 6.72281 Hình thể phân bố độ tuổi qua biểu đồ cột biểu đồ hộp Với Hình cho thấy độ tuổi chủ yếu từ 33 đến 40 tuổi, Hình thể độ tuổi trung bình, trung vị, bách phân vị 25% 75%, biểu đồ cho thấy có giá trị ngoại vi b, Mô tả thu nhập khách hàng Thu nhập bình quân khách hàng 9,95 triệu đồng/tháng, người thấp 7,5 triệu đồng/tháng cao 14 triệu đồng/tháng Nhìn chung, nhóm khách hàng quan tâm đến mua xe có mức thu nhập trung bình trở lên Thu nhập khách hàng khơng có giá trị nằm ngồi khoảng bách phân vị 25% 75% thể Hình Hình cho thấy rõ phân bố thu nhập khách hàng tập trung mức từ triệu đồng/tháng đến mức 11 triệu đồng/tháng Mức thu nhập 12 triệu đồng/tháng tương đối nhiều khách hàng c, Mô tả điểm chi tiêu Điểm chi tiêu cho biết mức độ chi tiêu so với thu nhập khách hàng, đánh giá từ đến 100 điểm Với liệu, Hình thể khách hàng có điểm chi tiêu cao 95 điểm, thể mức sẵn sàng chi tiêu cao Khách hàng thấp 17 điểm trung bình 66,28 điểm, điểm trung vị 70,5 điểm thể Hình Nhìn chung, nhóm khách hàng có điểm chi tiêu mức trung bình so với thu nhập bình quân chung Document continues below Discover more Quản trị tài from: chính KET307.1 Đại học Kinh tế… 146 documents Go to course Phân tích tình hình 39 tài cơng ty… Quản trị tài chính 90% (31) CLB KỸ NĂNG Doanh 61 NHÂN DNTS2021 ĐỀ… Quản trị tài chính 100% (3) Bai tap N1 - Bài tập 25 Lập Báo cáo lưu… Quản trị tài chính 100% (2) Chính sách mua CPQ Techcombank… Quản trị tài chính 100% (1) Phân Tích Tình Hình 45 Tài Chính Tại Cơng… Quản trị tài chính 100% (1) Phân Tích Hoạt Động 47 Chăm Sóc Khách… Quản trị tài chính 100% (1) 1.4 Kết nghiên cứu Bằng phương pháp Elbow Method: Nghiên cứu xác định số cụm tối ưu để phân bổ khách hàng cụm Hình 8a 8b Đây số cụm nên phân bổ theo phương pháp (Shmueli et al., 2017) Tuy nhiên, cần doanh nghiệp phân cụm với k=3, k=4,… Sau xác định số lượng cụm tối ưu 2, nhóm nghiên cứu thực phân vùng ngẫu nhiên khác 50 lần (Chapman and Feit, 2019) Thực số lần lặp 100 lần để chọn kết tốt Cụ thể: K-means clustering with clusters of sizes 86, 186 Cluster means: AGE TNHAP DIEM 37.63953 35.32258 8.753607 10.506385 41.41860 77.76882 Kích thước cụm 186 đối tượng cụm 86 đối tượng quan sát Tâm điểm cụm (centroid cluster 1): độ tuổi 37,6 tuổi; thu nhập 8,75 triệu đồng/tháng; điểm chi tiêu 41,4 điểm Tâm điểm cụm (centroid cluster 2): độ tuổi 35,3 tuổi, thu nhập 10,5 triệu đồng/táng; điểm chi tiêu 77,7 điểm Within cluster sum of squares by cluster: [1] 13458.24 18036.95 (between_SS / total_SS = 71.3 %) Như vậy, 71,3% khác biệt khách hàng giải thích khác biệt nhóm Mơ kết phân cụm Qua Hình cho thấy cụm khách hàng khách thu nhập điểm chi tiêu: Cụm 1: Cụm khách hàng màu đỏ thuộc nhóm khách hàng có điểm chi tiêu cao (trên 60 điểm) có thu nhập từ 7,5 triệu đồng đến 14 triệu đồng/tháng Cụm 2: Cụm khách hàng màu xanh thuộc nhóm có điểm chi tiêu thấp (dưới 60 điểm) có thu nhập tập trung từ 7,5 đến 10 triệu đồng/tháng -Với số cụm k =4, kết cho 24 học sinh nằm vùng có số học lực “Tốt” bảng (50,08%), cịn 16 học sinh có kết học tập vùng “Rất tốt” (65,00%) 30 sinh viên xếp loại Khá (58,89%) có học sinh đạt xếp loại Khá (43,65%) - Với số cụm k = 5, Có 19 học sinh vượt qua vùng học lực Khá (49,85%), 17 học sinh đạt học lực Khá (60,97%) học sinh đạt học lực Khá (43,65%), 14 học sinh đạt học lực Khá (64,93%) 20 học sinh cịn lại đạt học lực Khá (55,79%) Nhìn chung, thuật toán phân cụm ứng dụng tốt để theo dõi tiến hiệu suất học tập sinh viên Nó nâng cao khả đưa định nhà hoạch định học thuật để theo dõi hiệu suất học tập nhờ cải thiện hiệu suất học tập sinh viên tương lai qua sách giáo dục 3.Ứng dụng thuật toán K-Means Clustering để phân cụm tỉnh Indonesia Tên đề tài: Using K-Means Clustering to Cluster Provinces in Indonesia Tác giả: Ansari Saleh Ahmar1,2*, Darmawan Napitupulu3 , Robbi Rahim4 , Rahmat Hidayat5 , Yance Sonatha6 , and Meri Azmi7 Tạp chí: IOP Conf Series: Journal of Physics: Conf Series 1028 (2018) 012006 Đặt vấn đề Một vấn đề lớn Indonesia vấn đề liên quan đến dân số Dựa Ủy ban Tự Tôn giáo Quốc tế Hoa Kỳ, Indonesia năm 2017 quốc gia có dân số đông giới quốc gia có dân số theo đạo Hồi lớn giới Chúng ta tự hào phủ khơng lường trước vấn đề liên quan đến dân số Hệ thống quản lý Indonesia thường chia thành cấp quyền, cụ thể quyền trung ương, quyền cấp tỉnh quyền huyện/thành phố Mỗi cấp 13 quyền có thẩm quyền riêng Căn vào cấp quyền mà việc quản lý vùng phân tầng theo cấp độ Để giúp phủ khắc phục vấn đề dân số cách tốt thực nhóm tỉnh Indonesia lại thành cụm từ dễ dàng quản lý có cố xảy Trong nghiên cứu , việc phân cụm tỉnh Indonesia dựa mật độ dân số, tỷ lệ học 13-15, số phát triển người tỷ lệ thất nghiệp mở Việc lựa chọn biến dựa lý biến ảnh hưởng đến vấn đề dân số Indonesia Mục đích nghiên cứu Phân cụm tỉnh có đặc tính giống từ giúp quyền địa phương dễ dàng quản lý đưa sách nhằm nâng cao chất lượng đời sống nhân dân Phương pháp nghiên cứu Dữ liệu sử dụng nghiên cứu mật độ dân số, tỷ lệ học từ 13-15, số phát triển người tỷ lệ thất nghiệp tỉnh Indonesia bao gồm 34 tỉnh Trong nghiên cứu này, tỉnh Indonesia nhóm lại dựa liệu mật độ dân số, tỷ lệ học từ 13-15, số phát triển người tỷ lệ thất nghiệp mở Nhóm tỉnh sử dụng phương pháp phân cụm K-Means Kết nghiên cứu Dựa phân cụm liệu liệu mật độ dân số, tỷ lệ học 13-15, số phát triển người, tỷ lệ thất nghiệp mở theo tỉnh sử dụng phân cụm KMeans thu cụm với cụm sau: cụm gồm 12 tỉnh (Aceh, Tây Sumatera, Riau, Jambi, Nam Sumatera, Bengkulu, Quần đảo Bangka Belitung, Đông Nusa Tenggara, Nam Kalimantan, Đông Nam Sulawesi, Gorontalo, Tây Sulawesi), cụm gồm tỉnh (Bắc Sumatra, Lampung, Quần đảo Riau, Tây Nusa Tenggara , Bắc Sulawesi, Nam Sulawesi), cụm gồm tỉnh (DKI 14 Jakarta), cụm gồm tỉnh (Tây Java, Trung Java, DI Yogyakarta, Đông Java, Banten, Bali), cụm gồm tỉnh (Tây Kalimantan, Trung Kalimantan, Đông Kalimantan, Bắc Kalimantan, Trung Sulawesi, Maluku, Bắc Maluku, Tây Papua, Papua) Việc phân nhóm tỉnh dựa khoảng cách tỉnh khác với tỉnh trung tâm: (Nam Sumatra), (Lampung), (DKI Jakarta), (Trung Java) (Tây Kalimantan) Dựa kết phân cụm từ K-Means Clustering, người ta thấy nhóm tỉnh dựa mật độ dân số, tỷ lệ học 13-15, số phát triển người tỷ lệ thất nghiệp mở cụm tập trung Nam Sumatera, Lampung, DKI Jakarta, Các tỉnh miền Trung Java, Tây Kalimantan Phần II Ứng dụng thuật toán Kmeans phân cụm loại rượu vang Ý 2.1 Giới thiê bu bô b dd liê bu Bơ • liê •u Wines có chứa kết mơ •t c c• phân tích chất hóa học có rượu vang trồng vùng Italya có nguồn gốc từ giống khác Mơ •t c •c phân tích 178 loại rượu vang • từ giống khác tiến hành 13 phép đo Số liê •u thường sử dụng để kiểm tra so sánh thực hiê •n th •t tốn phân loại khác Các phân tích xác định ảnh hưởng 13 thành phần tìm thấy ba loại rượu vang Gồm có: Alcohol (nồng độ cồn), Malic acid (tạo độ chua), Ash (hàm lượng tro xác định bay rượu), Alcalinity of ash (độ kiềm ), Magnesium(Magie), Total phenols(phenol), Flavanoids(tác động đến thần 15 kinh), Nonflavanoid phenols(tạo màu,vị đắng), Proanthocyanins(nồng độ), Color Intensity(cường độ màu), Hue(tạo màu,vị cay), OD280(enzym), Proline(tạo hương vị) 2.2 Mục tiêu nghiên cứu Mục tiêu đề tài phân cụm loại rượu vang để từ phân loại theo sở thích người dùng từ đề xuất giải pháp nhằm nâng cao chất lượng hương vị cải thiện phương pháp trình sản xuất chưng cất, lên men, trồng chăm sóc nho,… 2.3 Xử lý dd liệu 2.3.2 Chọn biến Do liệu ban đầu kiểm định thực nhiều phép đo khác nên nhóm định đưa 13 biến vào mơ hình phân tích 2.3.3 Đánh giá phù hợp dd liệu dùng để phân cụm Hệ số Hopkín sử dụng để đánh giá mức độ phù hợp phân cụm liệu Hệ số hopkins đo lường mức độ tập trung liệu phân cụm Nếu hệ số hopkins cao (>0.5) phản ánh mức độ tập trung liệu lớn trung bình việc sử dụng phương pháp phân cụm cho liệu phù hợp Kết tính hệ số Hopkin phần mềm R trường hợp số cụm hình thành 178 ( số 178 loại rượu) 0.714 >0.5 Kết phản ánh 16 liệu nghiên cứu phù hợp cho phân cụm liệu 2.3.4 Chuẩn hóa dd liệu Chúng ta phải chuẩn hóa biến để biểu thị chúng phạm vi giá trị Nói cách khác, chuẩn hóa có nghĩa điều chỉnh giá trị đo thang đo khác thành thang đo chung 2.3.5 Xác định số cụm - Phân cụm phân cấp Tư tưởng phương pháp xác định số cụm tốt tổng bình phương sai lệch khoảng cách ( Within Cluster Sum of Square – WSS ) cụm nhỏ Trong phần nhóm tác giả sử dụng phương pháp khuỷu tay elbow chọn số cụm k cho thêm vào cụm khác khơng làm cho WSS thay đổi nhiều Kết hiển thị sau: 17 Sau cho k chạy từ đến 10, ta thấy k=3, k=4 hoă c• k=5 vị trí gấp khúc giống khuỷu tay nên ta xét giá trị nhằm lựa chọn số lượng cụm tối ưu 18 Với k=3 cluster size ave.sil.width 1 51 0.35 2 65 0.18 3 62 0.34 19 Với k=4 cluster size ave.sil.width 1 56 0.36 2 28 -0.02 3 49 0.32 4 45 0.23 20 Với k=5 cluster size ave.sil.width 1 20 0.14 2 47 0.28 3 57 0.34 4 32 0.12 5 22 0.03 Có thể thấy, với k=3 có giá trị silhouette trung bình lớn 0.28 cụm có giá trị silhouette lớn giá trị silhouette trung bình Vây• nên k=3 số cụm cần chia Với k= cụm có 51 quan sát, cụm có 65 quan sát, cụm có 62 quan sát 21 -Phân cụm phân đoạn Phân cụm phân đoạn thực với lựa chọn cụm Kết phân cụm phân đoạn cho liệu chuẩn hóa theo thuật tốn Kmeans sau 22 -Kết từ bảng ta thấy, phân cụm K- Means với cụm hình thành tương ứng với số quan sát cụm 51,62,65 loại rượu 23 +Giá trị Cluster means tọa độ tâm cụm ( tức tâm cụm thứ có tọa độ ( 0.16,0.86, -+Clustering Vector kết phân bố quan sát vào cụm tương ứng ( từ loại rượu thứ quan sát 27 có 50 loại rượu thuộc cụm ) +Tổng bình phương khoảng cách từ điểm cá thể đến tâm cụm WSS tương ứng cho cụm , 2, 326.3537,385.6983, 558.6971 + Kết phân cụm K-means cho tỉ lệ Bss/Tss = 44.8%, cho thấy khác biệt nhóm đạt tỉ lệ tương đối thấp < 50% MÔ TẢ CỤM Như đề cập trên, Mục tiêu đề tài phân cụm loại rượu vang để từ phân loại theo sở thích người dùng, từ đề xuất giải pháp nhằm nâng cao chất lượng hương vị cải thiện phương pháp trình sản xuất chưng cất, lên men,trồng chăm sóc nho… Vậy khía cạnh màu sắc rượu, ta xét biến để phân loại như: Cường độ màu (Color Intensity), tạo độ chua (Malic acid) Vậy kết phân cụm mơ tả theo biến sau:  Cụm rượu vang đỏ với cường độ màu cao, độ chua cao  Cụm rượu vang trắng với cường độ màu thấp, độ chua thấp 24  Cụm rượu vang hồng với cường độ màu trung bình, độ chua trung bình ĐỒ THỊ XÁC ĐỊNH SỐ CỤM Trong đó:  N1: Rượu vang Đỏ  N2: Rượu vang Trắng 25  N3: Rượu vang Hồng KẾT LUẬN Tóm lại, sau thực thuật toán K-means clustering liệu 178 loại rượu vang gồm 13 biến tương ứng với 13 thành phần hóa học có rượu Nhóm đưa cụm tương ứng với loại rươu Rượu vang đỏ, Rượu vàng hồng rượu vang trắng Từ đưa nhìn tổng quát loại rượu giúp người tiêu dùng đơn vị sản xuất dễ dàng việc đưa định sử dụng Tuy nhiên, thành phần rượu nhiều nguyên tố cấu thành mà liệu chưa đề cập đến Nếu nêu đầy đủ ngun tố kết nghiên cứu có ý nghĩa đào sâu nhiều khía cạnh khác rượu 26 TÀI LIỆU THAM KHẢO https://vi.wikipedia.org/wiki/R%C6%B0%E1%BB%A3u_vang Giáo trình Phân tích liệu https://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/312339/CVv294V61 S05CD12020145.pdf https://arxiv.org/ftp/arxiv/papers/1002/1002.2425.pdf https://iopscience.iop.org/article/10.1088/1742-6596/1028/1/012006/pdf 27

Ngày đăng: 12/12/2023, 14:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w