Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 17 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
17
Dung lượng
580,85 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG ************************** BÁO CÁO BÀI TẬP LỚN KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU Đề tài: Tìm hiểu xây dựng thuật tốn K-means KNN Giảng viên hướng dẫn: (Cơ) Nguyễn Quỳnh Chi Nhóm thực hiện: Nhóm 10 Thành viên: Bùi Trung Hiếu B17DCCN224 Trần Minh Tân B17DCCN552 Bùi Văn Đông B17DCCN132 Nguyễn Như Tuấn B17DCCN659 Vương Đình Hiếu B17DCCN247 Phân công công việc: Thành viên Bùi Trung Hiếu Trần Minh Tân Bùi Văn Đơng Nguyễn Như Tuấn Vương Đình Hiếu Cơng việc Tìm hiểu code dataset Tìm hiểu xây dựng code, tài liệu Tìm hiểu code xây dựng tài liệu Xây dựng tài liệu Xây dựng tài liệu Giới thiệu Data mining lĩnh vực đóng vai trị quan trọng việc phân tích quản lý liệu Dựa vào đưa dự đoán cho kế hoạch tương lai Trong thời buổi công nghệ ngày phát triển nay, việc áp dụng khoa học công nghệ thông tin vào q trình xử lý phân tích liệu vơ cần thiết Data mining số Sau tìm hiểu Data mining Contents I Data mining Khái niệm Các kỹ thuật quan trọng II a Kỹ thuật phân tích phân loại (Classification Analysis) b Kỹ thuật Association Rule Learning: c Kỹ thuật phát bất thường (Anomaly or Outlier Detection) d Kỹ thuật phân tích theo cụm (Clustering Analysis) e Kỹ thuật dự báo (prediction) f Kỹ thuật Sequential Patterns: g Kỹ thuật Decision Trees K-Mean Khái niệm: Ý tưởng thuật toán k-means Một số lưu ý: a Lựa chọn số cụm: b Khởi tạo K vị trí ban đầu: c Về vấn đề tính dừng (hội tụ) KNN (K-Nearest Neighbors) Giới thiệu: Khái niệm: Thuật toán: 10 Ứng dụng: 10 III I Data mining Data Mining là thuật ngữ xuất đầu kỷ 21, hệ bùng nổ Internet đạt tới đỉnh điểm Theo công bố Intel vào tháng năm 2013 11 giây trơi qua có thêm Petabybe liệu, tương đương với video chất lượng HD dài 13 năm Và để khai phá, trích xuất nó Data Mining ra đời, khái niệm Data Mining gì? Khái niệm Data mining – khai phá liệu trình phân loại, xếp tập hợp liệu lớn để xác định mẫu thiết lập mối liên hệ nhằm giải vấn đề nhờ phân tích liệu Các MCU khai phá liệu cho phép doanh nghiệp dự đốn xu hướng tương lai Q trình khai phá liệu trình phức tạp bao gồm kho liệu chuyên sâu công nghệ tính tốn Hơn nữa, Data Mining khơng giới hạn việc trích xuất liệu mà cịn sử dụng để chuyển đổi, làm sạch, tích hợp liệu phân tích mẫu Có nhiều tham số quan trọng khác Data Mining, chẳng hạn quy tắc kết hợp, phân loại, phân cụm dự báo Một số tính Data Mining: ● Dự đốn mẫu dựa xu hướng liệu ● Tính tốn dự đốn kết ● Tạo thơng tin phản hồi để phân tích ● Tập trung vào sở liệu lớn ● Phân cụm liệu trực quan Các kỹ thuật quan trọng Về bản, Data Mining hay khai phá liệu việc xử lý, nhận biết xu hướng từ thông tin liệu để đưa định đánh giá Thơng thường, bạn thấy có kỹ thuật cốt lõi, sử dụng nhiều việc khai phá liệu: a Kỹ thuật phân tích phân loại (Classification Analysis) Kỹ thuật khai phá liệu kỹ thuật phân tích phân loại Đây kỹ thuật cho phép phân loại đối tượng vào lớp cho trước. Chúng ta thường sử dụng kỹ thuật khai thác liệu để lấy thông tin quan trọng từ liệu siêu liệu. Vì vậy, phân tích phân loại, cần áp dụng thuật toán khác tùy thuộc vào mục tiêu sử dụng b Kỹ thuật Association Rule Learning: Kỹ thuật Association Rule Learning khai phá liệu sử dụng để xác định mối quan hệ biến khác sở liệu Ngồi ra, cịn sử dụng để “giải nén” mẫu ẩn liệu Association Rule hữu ích để kiểm tra, dự đốn hành vi thường áp dụng ngành bán lẻ c Kỹ thuật phát bất thường (Anomaly or Outlier Detection) Về bản, kỹ thuật khai phá liệu (Data Mining) dùng để nhấn mạnh vào việc quan sát mục liệu liệu để tìm tập liệu khơng khớp với mẫu dự kiến Bất thường đề cập đến độ lệch, khác thường, nhiễu ngoại lệ. Sự bất thường xem quan trọng cung cấp số thơng tin cần thiết Nó liệu khác biệt so với mức trung bình chung tập liệu Điều khác thường xảy nhà phân tích liệu cần ý d Kỹ thuật phân tích theo cụm (Clustering Analysis) “Cụm” có nghĩa nhóm đối tượng liệu Các đối tượng tương tự nằm cụm Kết đối tượng tương tự nhóm. Về bản, kỹ thuật khai phá liệu thường ứng dụng để tạo hồ sơ khách hàng Hoặc lĩnh vực Marketing, xem việc chia phân khúc khách hàng e Kỹ thuật dự báo (prediction) Trong khai phá liệu, kỹ thuật dự báo ứng dụng số trường hợp đặc biệt Nó sử dụng để khám phá mối quan hệ biến độc lập phụ thuộc f Kỹ thuật Sequential Patterns: Đây kỹ thuật quan trọng khai phá liệu Kỹ thuật giúp tìm cách khám phá mẫu tương tự g Kỹ thuật Decision Trees Decision Trees thuật ngữ quan trọng khai phá liệu Nó đóng vai trị quan trọng q trình khai phá liệu mơ hình dễ hiểu cho người dùng Trong kỹ thuật Decision Trees, gốc câu hỏi đơn giản có nhiều câu trả lời Ngoài ra, câu hỏi dẫn đến câu hỏi khác Và giúp xác định liệu Vì vậy, đưa định cuối nhờ vào kỹ thuật II K-Mean Khái niệm: K-means thuật toán phân cụm đơn giản thuộc loại học không giám sát(tức liệu khơng có nhãn) sử dụng để giải toán phân cụm Ý tưởng thuật toán phân cụm k-means phân chia liệu thành cụm khác Trong số lượng cụm cho trước k Công việc phân cụm xác lập dựa nguyên lý: Các điểm liệu cụm phải có số tính chất định Tức điểm cụm phải có liên quan lẫn Đối với máy tính điểm cụm điểm liệu gần Thuật toán phân cụm k-means phương pháp sử dụng phân tích tính chất cụm liệu Nó đặc biệt sử dụng nhiều khai phá liệu thống kê Nó phân vùng liệu thành k cụm khác Giải thuật giúp xác định liệu thực sử thuộc nhóm Ý tưởng thuật toán k-means Một số lưu ý: a Lựa chọn số cụm: Chỉ việc lựa chọn số cụm k tách thành tốn riêng Khơng có số k hợp lý cho tất tốn Bạn đọc hiểu tập liệu để xác định xem có cụm? Nhưng khơng phải lúc bạn làm Cách làm bạn thử với giá trị k=1,2,3,4,5,… để xem kết phân cụm thay đổi Một số nghiên cứu cho thấy việc thay đổi k có hiệu dừng lại số Như bạn hồn tồn thử xem liệu tốt với giá trị k b Khởi tạo K vị trí ban đầu: Bằng cách đó, có gắng khởi tạo k tâm cụm phân bố đồng không gian liệu Điều làm bạn xác định khơng gian tính chất liệu Nhưng nhất, tâm cụm mà bạn khởi tạo đừng gần nhau, đừng trùng Còn cách cuối bạn chạy thuật toán nhiều lần để lấy kết tốt lần chạy Với điều kiện bạn khởi tạo tâm k cụm ngẫu nhiên c Về vấn đề tính dừng (hội tụ) Đối với trường hợp liệu phức tạp, thuật toán k-means lâu không hội tụ Tức không xác định tâm cụm cố định để kết thúc toán Hoặc phải chạy qua nhiều bước lặp Trong trường hợp vậy, thay phải tìm k tâm cụm cố định ta dừng toán thay đổi số chấp nhận Tức hai lần cập nhật tâm cụm chênh lệch vị trí tâm cũ nhỏ số delta cho phép Cài đặt a Khởi tạo liệu Khởi tạo liệu dựa số lượng cụm nhập vào (k) Mỗi cụm random 500 điểm tọa độ không gian Oxy Thêm tất cụm vào tập liệu tổng 10 Khởi tạo tâm cụm (ramdom) b Lặp phân cụm hoàn thành 11 Kết sau chạy xong 12 III KNN (K-Nearest Neighbors) Giới thiệu: K-Nearest Neighbors algorithm (K-NN) sử dụng phổ biến lĩnh vực Data Mining K-NN phương pháp để phân lớp đối tượng dựa vào khoảng cách gần đối tượng cần xếp lớp (Query point) tất đối tượng Training Data Một đối tượng phân lớp dựa vào K láng giềng K là số nguyên dương xác định trước thực thuật tốn Người ta thường dùng khoảng cách Euclidean để tính khoảng cách đối tượng Khái niệm: Thuật tốn KNN phương pháp học có giám sát “Supervised Learning” tức dựa biến mục tiêu xác định trước đó, thuật tốn xem xét liệu chứa biến mục tiêu (đã phân loại) để “học” tìm biến d tác động đến biến mục tiêu KNN dựa giả định thứ tương tự hay có tính chất gần giống nằm vị trí gần nhau, với giả định vậy, KNN xây dựng cơng thức tốn học phục vụ để tính khoảng cách điểm liệu (gọi Data points) để xem xét mức độ giống chúng KNN cịn gọi “Lazy learning method” tính đơn giản nó, có nghĩa q trình training khơng q phức tạp để hồn thiênhj mơ hình (tất liệu đào tạo sử dụng để kiểm tra mơ hình KNN) Điều làm cho việc xây dựng mơ hình nhanh giai đoạn thử nghiệm chậm tốn 13 mặt thời gian nhớ lưu trữ, đặc biệt liệu lớn phức tạp với nhiều biến khác Trong trường hợp xấu nhất, KNN cần thêm thời gian để quét tất điểm liệu việc cần nhiều không gian nhớ để lưu trữ liệu Ngoài KNN không cần dựa tham số khác để tiến hành phân loại liệu, không đưa kết luận cụ thể biến đầu vào biến mục tiêu, mà dựa khoảng cách data point cần phân loại với data point phân loại trước Đây đặc điểm hữu ích hầu hết liệu giới thực không thực tuân theo giả định lý thuyết ví dụ phân phối chuẩn thống kê Thuật toán: a) Xác định giá trị tham số K (số láng giềng gần nhất) b) Tính khoảng cách đối tượng cần phân lớp (Query Point) với tất đối tượng training data (thường sử dụng khoảng Euclidean) c) Sắp xếp khoảng cách theo thứ tự tăng dần xác định K láng giềng gần với Query Point d) Lấy tất lớp K láng giềng gần xác định e) Dựa vào phần lớn lớp láng giềng gần để xác định lớp cho Query Point Ứng dụng: Trong y tế Trong lĩnh vực ngân hàng Trong giáo dục Trong thương mại điện tử Trong kinh tế Cài đặt a Load liệu từ file excel 14 Lấy 100 ghi đầu làm tập tranning Lấy ghi lại làm tập testing b Lặp qua ghi testing, dự đoán nhãn 15 Tìm k hàng xóm gần với ghi thử Lấy nhãn đa số tập k hang xóm Gán nhãn cho ghi thử 16 Sau lặp qua tất ghi thử, tính tốn tỉ lệ dự đốn xác 17