1. Trang chủ
  2. » Tất cả

Đề tài sử dụng dataset wine quality white sử dụng các phương pháp đã học để đề suất các mô hình phân cụm phù hợp với dữ liệu và nhận xét các cụm dữ liệu

18 30 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 3,41 MB

Nội dung

Trường Đại học Kinh tế Thành phố Hồ Chí Minh University of Economics Ho Chi Minh City TIỂU LUẬN KẾT THÚC HỌC PHẦN Đề tài: Sử dụng dataset Wine quality - white Sử dụng phương pháp học để đề̀ suất mơ hình phân cụm phù hợp với liệu và̀ nhận xét cụm liệu MÔN HỌC: KHOA HỌC DỮ LIỆU GIẢNG VIÊN: TRẦN LÊ ĐỨC THỊNH NHÓM SINH VIÊN THỰC HIỆN: NHÓM TP.HCM, Ngày 16 Tháng Năm 2022 TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Mục lục Mở đầu ……………………………………………………………………………… Lý chọn đề tài………………………………………………………………… Đối tượng nghiên cứu phạm vi nghiên cứu…………………………………… Phương pháp nghiên cứu………………………………………………………… Mục tiêu nghiên cứu đề tài……………………………………………………… Một số khái niệm………………………….……………………………………… Nội dung… ……………………………….……………………………………… Chương 1: Giới thiệu khoa học dữu liệu giới thiệu đề tài…………………… Giới thiệu khoa học liệu ………………………….………………… Giới thiệu đề tài ……………………………….………………………… Chương 2: Tổng quan phần mềm Orange … ………………… ……………… Orange……………………………………………………………………… Quy trình thực hiện……………………………………………………… Giới thiệu thuật toán K-means…………………………………………… Tổng quan Hierarchical clustering (HC)…………………………………… Chương 3: Áp dụng thuật toán vào liệu dataset Wine quality - white ……… … Tiền xử lý liệu…………………………………………………………… Tổng quan chạy Orange………………………………………………… Hierarchical clustering……………………………………………………… K-means…………………………………………………………………… Trang TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH MỞ ĐẦU Lý chọn đề tài mục tiêu đề tài: Ngày phát triển mạnh mẽ công nghệ thông tin làm cho khả thu thập lưu trữ thông tincuar hệ thống thông tin tăng nhanh Bên cạnh hoạt động sản xuất, kinh doanh nhiều linh vực khác tạo cho lượng liệu lưu trữ khổng lồ Hàng triệu sở liệu sửu dụng hoạt động sản xuất, kinh doanh, quản lý… có nhiều sở lệu cực lớn Để đáp ứng nhu cầu này, cấp thiết phải có kỹ thuật cơng cụ để chuyển đổi đữ liệu khổng lồ tri thức có ích Từ kỹ thuật khai phá liệu trở thành linh vực quan tâm hàng đầu ngành công nghệ thông tin Khai phá liệu ngày áp dụng rộng rãi nhiều linh vực khác Phân cụm sở liệu phương pháp quan trọng trinh tìm hiểu tri thức Phân cụm đặc biệt hiệu ta thông tin cụm, ta quan tâm tới thuộc tính cụm mà ta chưa biết biết thơng tin Phân cụm coi công cụ độc lập để xem xét phân bố liệu, làm bước tiền đề xử lý cho thuật toán khác Việc phân cụm liệu có nhiều ứng dụng tiếp thị, sử dụng đất, bảo hiểm, hoạch định phố… Hiện nay, phân cụm liệu hướng nghiên cứu nhiều cơng nghệ thơng tin => Chính nghiên cứu đề suất số mơ hình phân cụm phù hợp với liệu nhận xét cụm liệu Đối tượng nghiên cứu phạm vi nghiên cứu: Đối tượng nghiên cứu: Các mơ hình phân cụm Cụm liệu Các mạng xã hội Phạm vi nghiên cứu: Data mining lĩnh vực thu hút nhiều người quan tâm nghiên cứu với nhiều nhanh ứng dụng Một hướng phân cụm dữ liệu với mơ hình phân cụm liệu Phương pháp nghiên cứu: Trang TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Kết hợp lý thuyết thu thập từ nhiều nguồn báo, tài liệu, công trinh nghiên cứu trước liên quan đến mô hình phân cụm liệu Tiến hành xây dựng, ứng dụng thử nghiệm đánh giá hiệu mô hình phân cụm làm bật kết nghiên cứu tiểu luận Mục tiêu đề tài: Áp dụng số phương pháp để đề xuất, phát triển số phân cụm liệu phù hợp nhằm ứng dụng vào việc phân tích đánh giá liệu cách nhanh chóng, xác hiệu Một số khái niệm: Phân cụm liệu phương pháp phân hoạch tập hợp liệu nhiều tập cho tập chứa phần tử có tinh chất giống theo tiêu chuẩn đó, tập gọi cụm Khai phá liệu (data-mining) trinh xuất thông tin có giá trị tiềm ẩn bên tập liệu lớn lưu trữ sở liệu, kho liệu… NỘI DUNG CHƯƠNG I GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI: Giới thiệu khoa học liệu: Khoa học liệu khoa học việc quản trị phân tích liệu, trích xuất giá trị từ liệu để tìm hiểu biết, tri thức hành động, định dẫn dắt hành động Khoa học liệu gồm có ba phần chính: Tạo quản trị liệu, phân tích liệu chuyển kết phân tích thành giá trị hành động Việc phân tích dùng liệu lại dựa vào ba nguồn tri thức: toán học (thống kê tốn học), cơng nghệ thơng tin (máy học) tri thức lĩnh vực ứng dụng cụ thể Cũng hình thức thí nghiệm khác, khoa học liệu yêu cầu bạn thực quan sát, đặt câu hỏi, hình thành giả thuyết, tạo kiểm tra, phân tích kết đưa khuyến nghị thực tế Chính mà mục đích Khoa học liệu biến đổi lượng lớn liệu chưa qua xử lý, làm để định vị thành mơ hình kinh doanh, từ giúp đỡ tổ chức tiết giảm chi phí, gia tăng hiệu làm việc, nhìn nhận hội, rủi ro thị trường làm gia tăng lợi cạnh tranh doanh nghiệp Trang TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Giới thiệu đề tài: Với lượng lớn thông tin, liệu đồ sộ Với phương pháp khai thác liệu truyền thống chưa đáp ứng đầy đủ nhu cầu người dùng Vì yêu cầu đặt với để tổ chức tìm kiếm thơng tin cách hiệu chinh xác Phân loại thông tin giải pháp hợp lý cho nhu cầu Do việc nghiên cứu mơ hình phân cụm liệu nhằm thuận tiện cho việc quản lý thông tin xu tất yếu, vừa có ý nghĩa khoa học lại vừa mang ý nghĩa thực tiễn cao Đề tài “nghiên cứu đề xuất số mơ hình phân cụm liệu” sử dụng kỹ thuật khai phá liệu để tạo nên mơ hình phân cụm liệu theo chủ đề cụ thể CHƯƠNG II TỔNG QUAN VỀ PHẦN MỀM ORANGE Orange Khai phá liệu (Data Mining) học máy (Machine Learning) lĩnh vực khó để khám phá nghiên cứu Do đó, nhiều phần mềm đời với mục tiêu giúp cho người dùng dễ dàng nghiên cứu tốn lĩnh vực khó nhằn Một phần mềm kể đến Orange Phần mềm Orange biết đến việc tích hợp cơng cụ khai phá liệu mã nguồn mở học máy thơng minh, đơn giản, lập trình Python với giao diện trực quan tương tác dễ dàng Với nhiều chức năng, phần mềm phân tích liệu từ đơn giản đến phức tạp, tạo đồ họa đẹp mắt thú vị giúp việc khai thác liệu học máy trở nên dễ dàng cho người dùng chuyên gia Các công cụ (widgets) cung cấp chức đọc liệu, hiển thị liệu dạng bảng , lựa chọn thuộc tính đặc điểm liệu, huấn luyện liệu để dự đoán, so sánh thuật toán máy học , trực quan hóa phần tử liệu, … Quy trình thực Trang TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Giới thiệu thuật toán K – Means Thuật toán phân cụm k-means phương pháp sử dụng phân tích tính chất cụm liệu Nó đặc biệt sử dụng nhiều khai phá liệu thống kê Nó phân vùng liệu thành k cụm khác Giải thuật giúp xác định liệu thực sử thuộc nhóm Thuộc nhóm thuật tốn phân cụm dựa phân hoạch Ta xem đối tượng tập liệu điểm không gian d chiều (với d số lượng thuộc tính đối tượng) Bước 1: Chọn k điểm làm trung tâm ban đầu k cụm Bước 2: Phân điểm liệu vào cụm có trung tâm gần Nếu điểm liệu cụm vừa phân chia không thay đổi so với kết lần phân chia trước ta dừng thuật toán Bước 3: Cập nhật lại trung tâm cho cụm cách lấy trung bình cộng tất các điểm liệu gán vào cụm sau phân chia bước Bước 4: Quay lại bước Đánh giá thuật toán K – Means: Cần biết trước số lượng cụm k Nhạy cảm với nhiễu ngoại biên (outliers) Không phù hợp với phân bố liệu dạng không lồi (non-convex) Kết (nghiệm) toán phụ thuộc vào cách khởi tạo trung tâm cụm ban đầu + Trường hợp 1: tốc độ hội tụ chậm + Trường hợp 2: kết gom cụm khơng xác (do tìm cực trị địa phương khơng phải tồn cục) Khắc phục: + Áp dụng số phương pháp tính số cụm + Chạy thuật toán nhiều lần với trung tâm khác để tìm giá trị cực tiểu hàm mát Tổng quan Hierarchical clustering (HC) Hierarchical clustering (HC) phương pháp phân tích qua tập liệu phân thành nhiều cụm/ nhóm khác nhau, cụm/ nhóm điểm liệu hay quan sát giống cụm/ nhóm có khác biệt Trang TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Phân cụm phân cấp ( Hierarchical clustering ): Xây dựng phân cấp cho liệu cần gom cụm dựa trên: Ma trận khoảng cách phần tử (similarity matrix dissimilarity matrix) Độ đo khoảng cách cụm (single link, complete link…) Phương pháp không cần xác định trước số cụm cần xác định điều kiện dừng Các phương pháp điển hình: Diana, Agnes… Phương pháp Diana: Theo chiến lược bottom up: - - Bắt đầu với cụm phần tử Ở bước, gom cụm gần thành cụm (Khoảng cách cụm khoảng cách điểm gần từ hai cụm, khoảng cách trung bình.) Quá trình lặp lại tất phần tử thuộc cụm lớn Kết trình phát dendrogram (cây phân cấp) Phương pháp Agnes: Theo chiến lược top down: - Bắt đầu với cụm gồm tất phần tử Ở bước, chia cụm ban đầu thành cụm (Khoảng cách cụm khoảng cách điểm gần từ hai cụm, khoảng cách trung bình.) Thực đệ quy cụm tách lặp lại phần tử cụm Kết phát sinh phân cấp (dendrogram) CHƯƠNG III ÁP DỤNG THUẬT TOÁN VÀO DỮ LIỆU DATASET WINE QUALITY - WHITE Tiền xử lý liệu: Trang TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Bảng liệu thô dataset wine quality - white Dữ liệu dataset wine quality - white khơng có liệu missing data nên khơng cần dùng tiền xử lý liệu input Để liệu xác hơn, Nhóm dùng tiền xử lý số liệu Outliers dùng để loại bỏ liệu có mối liên kết với liệu khác với phần bỏ khoảng 10% liệu ban đầu Outliers – Lọc liệu Tổng quan chạy Orange Trang TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Hierarchical Clustering Việc tiến hành lựa chọn cách để phân loại Linkage số lượng nhóm Top N để liệu phân chia cân đối phù hợp nhất: Linkage Single – Khơng phù hợp liệu Nhóm nhận thấy Linkage Single khơng phù hợp với liệu Vì cụm C1, C2 q nhỏ so với nhóm cịn lại Tạo bất cân xứng cụm, điều khiến cho việc so sánh Trang TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH cụm bị sai lệch không khách quan Tiếp theo Nhóm thử Linkage Average để xem có phù hợp với liệu không: Linkage average - không phù hợp với liệu Tương tự Linkage Single, Linkage average không phù hợp với liệu cụm không đồng số lượng liệu với Tiếp tục thử Linkage Weighted hình sau: Trang TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Linkage Weighted - không phù hợp với liệu Linkage Weighted tệ cụm C1 có liệu lại chiếm riêng cụm, Linkage Weighted khơng phù hợp với liệu mẫu Tiếp tục thử Linkage complete: Linkage complete - không phù hợp với liệu Trang 10 TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Theo bảng Linkage complete không phù hợp liệu, tiếp tục thử Linkage Linkage Ward Linkage cuối Linkage thường sử dụng: Linkage Ward – cụm phù hợp với liệu Sau thử Linkage tìm linkage phù hợp với liệu dataset wine quality – white Các cụm cân phù hợp hơn, chia cho cụm lượng liệu gần Sau xác định linkage phù hợp Nhóm chọn số cụm phù hợp với liệu nhất: Trang 11 TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Bảng sau bảng Silhouette cụm, nhìn bảng thấy số Silhouette nằm khoảng -0,5 đến 0,5 Sử dụng select rows với điều kiện silhouette < bảng liệu data table gồm 955 liệu có số Silhouette âm Silhouette plot – cụm liệu Dữ liệu bảng Silhouette < cụm Trang 12 TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Bảng sau bảng Silhouette cụm, nhìn bảng thấy số Silhouette nằm khoảng -0,5 đến 0,4 Sử dụng select rows với điều kiện silhouette < bảng liệu data table gồm 1113 liệu có số Silhouette âm Silhouette plot – cụm liệu Dữ liệu bảng Silhouette < cụm Trang 13 TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Bảng sau bảng Silhouette cụm, nhìn bảng thấy số Silhouette nằm khoảng -0,6 đến 0,3 Sử dụng select rows với điều kiện silhouette < bảng liệu data table gồm 1986 liệu có số Silhouette âm Silhouette plot – cụm liệu Dữ liệu bảng Silhouette < cụm Trang 14 TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Dựa vào thực nghiệm trên, Nhóm chia liệu thành cụm cụm có số phần tử liệu Silhouette âm với có 955 liệu bị số Silhouette âm Silhouette cụm nằm khoảng -0,5 đến 0,5 phù hợp trường hợp Vì lý trên, theo phương pháp Hierarchical Clustering Nhóm chọn chia liệu dataset wine quality – white thành cụm bảng sau liệu đại diện cho cụm Kết đại diện cụm theo Hierarchical Clustering Trang 15 TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH K-means Bảng K-means – từ đến cụm Chọn số lượng cụm so sánh từ đến cụm thấy số Silhouette Scores cụm cao (0.224) Vì Nhóm định chọn cụm số cụm tốt phương pháp K-means Bảng Silhouette cụm Trang 16 TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH Kết đại diện cụm theo K-Means Trang 17

Ngày đăng: 04/04/2023, 09:43

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w