Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 45 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
45
Dung lượng
1,44 MB
Nội dung
TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN VIỆN CÔNG NGHỆ THÔNG TIN VÀ KINH TẾ SỐ - - BÁO CÁO CHUYÊN ĐỀ TỰ CHỌN ĐỀ TÀI: TÌM HIỂU VỀ KĨ THUẬT PHÂN CỤM Sinh viên thực hiện: Lớp: Nguyễn Văn Hoàng Lê Đăng Huy Nguyễn Văn Hưng Hồng Thị Hường 11171822 11172090 11171945 11172044 Cơng nghệ thơng tin 59A Giảng viên hướng dẫn: TS NGUYỄN TRUNG TUẤN HÀ NỘI – 5/2020 Mục lục LỜI NÓI ĐẦU CHƯƠNG – TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .5 1.1 Giới thiệu chung 1.2 Khám Phá tri thức Quá trình Khám phá tri thức 1.2.1 Khám phá tri thức .5 1.2.2 Quá trình khám phá tri thức 1.3 Khai phá liệu 1.3.1 Khai phá liệu 1.3.2 Quy trình Khai phá liệu 1.3.3 Các hướng tiếp cận kỹ thuật áp dụng khai phá liệu 10 CHƯƠNG – PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU .12 2.1 Phân cụm liệu 13 2.1.1 Định nghĩa 13 2.1.2 Một số ví dụ Phân cụm liệu 14 2.1.3 Các kiểu liệu độ đo tương tự 15 2.1.4 Một số kỹ thuật tiếp cận phân cụm liệu 16 2.1.5 Các yêu cầu cho kỹ thuật Phân cụm liệu .18 2.2 Một số thuật tốn phân cụm liệu điển hình 19 CHƯƠNG - ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU 21 3.1 Phân đoạn ảnh 22 3.1.1 Định nghĩa phân đoạn ảnh: .22 3.1.2 Phân đoạn ảnh dựa vào phân cụm liệu: .24 3.2 Nhận dạng đối tượng ký tự: 28 3.2.1 Nhận dạng đối tượng: 28 3.2.2 Nhận dạng ký tự: .31 3.3 Khai phá liệu: 32 3.3.1 Khai phá liệu phương pháp tiếp cận: 33 3.3.2 Khai phá liệu có cấu trúc lớn: 34 3.3.3 Khai phá liệu Cơ sở liệu địa chất: 35 CHƯƠNG – HẠN CHẾ CỦA PHÂN CỤM DỮ LIỆU 37 KẾT LUẬN .39 TÀI LIỆU THAM KHẢO 40 LỜI NÓI ĐẦU Từ vài thập niên trở lại đây, với tác động mạnh mẽ tiến công nghệ phần cứng truyền thông, hệ thống liệu phục vụ cho lĩnh vực kinh tế - xã hội phát triển bùng nổ, lượng liệu tạo ngày lớn Sự phong phú liệu, thông tin với khả kịp thời khai thác chúng mang đến suất chất lượng cho công tác quản lý, hoạt động kinh doanh, yêu cầu thông tin lĩnh vực hoạt động đó, đặc biệt lĩnh vực định, ngày địi hỏi cao hơn, người định khơng cần liệu mà cịn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc định mình… Cho đến năm 90 kỷ trước, nhu cầu khám phá tri thức thực bùng nổ, theo đó, hàng loạt lĩnh vực nghiên cứu tổ chức kho liệu kho thông tin, hệ trợ giúp định, thuật toán nhận dạng mẫu phân lớp mẫu, đời, số phân cụm liệu (Data Clustering) Phân cụm liệu trình tìm kiếm phát cụm mẫu liệu tự nhiên sở liệu lớn Các kỹ thuật áp dụng phân cụm liệu phần lớn kế thừa từ lĩnh vực thống kê, học máy, nhận dạng, lượng hoá,… Đến nay, có nhiều ứng dụng phân cụm liệu cho việc giải vấn đề lĩnh vực tài chính, thơng tin địa lý, sinh học, nhận dạng ảnh, Trong thời gian gần đây, lĩnh vực Phân cụm liệu, người ta tập trung chủ yếu vào nghiên cứu, phân tích mơ hình liệu phức tạp liệu văn bản, Website, hình ảnh… Khai phá liệu (Data Mining) bước trình khám phá tri thức định nghĩa q trình trích xuất thơng tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ Cơ sở liệu, kho liệu… Hiện nay, thuật ngữ khai phá liệu, người ta dùng số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ Cơ sở liệu (knowledge mining from database), trích lọc liệu (knowledge extraction), phân tích liệu/mẫu (data/pattern analysis), khảo cổ liệu (data archaeology), nạo vét liệu (data dredging) Phân cụm liệu trình nhóm đối tượng liệu tương đồng với thành cụm Một cụm tập hợp đối tượng liệu tương đồng với liệu thuộc cụm khác không tương đồng với Phân cụm liệu nhằm mục đích tìm kiếm phát cụm mẫu liệu tự nhiên sở liệu lớn, theo đó, cho phép người ta sâu vào phân tích nghiên cứu cho cụm liệu nhằm khám phá thơng tin tiềm ẩn hữu ích, phục vụ cho việc định Các kỹ thuật áp dụng phân cụm liệu thường phần lớn kế thừa từ lĩnh vực thống kê, học máy, nhận dạng,… Đến nay, phân cụm liệu ứng dụng rộng rãi cho việc giải vấn đề nhiều lĩnh vực khác tài chính, thơng tin địa lý, sinh học, nhận dạng ảnh… Nhóm em phân cơng tìm hiểu đề tài “Tìm hiểu kỹ thuật phân cụm” Nhóm em gồm thành viên: - Lê Đăng Huy - Nguyễn Văn Hoàng - Nguyễn Văn Hưng - Hoàng Thị Hường Dưới nội dung nhóm em tìm hiểu phân cụm liệu CHƯƠNG – TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 GIỚI THIỆU CHUNG Cách mạng khoa học kỹ thuật tạo bước nhảy vọt tất lĩnh vực đời sống kinh tế, xã hội,… Một thành công không kể đến cách mạng bùng nổ thông tin, khiến cho khối lượng thông tin mà người thu thập lưu trữ ngày khổng lồ, kích thước CSDL tăng cách chóng mặt Trong CSDL tiềm ẩn nhiều tri thức mà người chưa khám phá Đứng trước núi liệu khổng lồ thu thập Đứng trước núi liệu khổng lồ thu thập được, việc khám phá tri thức thông tin trở lên khó khan Chính lý nhu cầu tìm kiếm tri thức khối CSDL nảy sinh, nhu cầu ngày cấp thiết dẫn tới hình thành lĩnh vực – Khai phám liệu (Data Mining) 1.2 KHÁM PHÁ TRI THỨC VÀ QUÁ TRÌNH KHÁM PHÁ TRI THỨC 1.2.1 Khám phá tri thức Khám phá tri thức CSDL coi q trình tìm tri thức có ích, cần thiết, tiềm ẩn chưa biết trước CSDL lớn Tuy đời khám phá tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng năm gần Những vấn đề quan tâm phân lớp nhận dạng mẫu, luật kết hợp, phân cụm liệu, phần tử dị biệt, … Theo Fayyad, Piatetsky-Shapiro, Smyth, việc nghiên cứu phát triển lĩnh vực khám phá tri thức CSDL (Knowledge Discovery in Database) nhằm giải tình trạng “ngập tràn thơng tin mà thiếu thốn tri thức” Khám phá tri thức CSDL lĩnh vực , quan tâm triển khai nghiên cứu, phát triển cách nhanh chóng rộng rãi Đã có nhiều thuật ngữ khác mà coi mang nghĩa Khám phá tri thức CSDL Chiết lọc tri thức (Knowledge Extraction), Phát thông tin (Information Discovery), Thu hoạch thông tin (Inforation Harvesting), Khai quật liệu (Data Archaeology), Xử lý mẫu liệu (Data Pattern Processing) Năm 1989, Fayyad, Smyth Piatestsky-Shapiro định nghĩa cách đầy đủ khái niệm Khám phá tri thức sở liệu sau: “Khám phá tri thức Cơ sở liệu (đơi cịn gọi khai phá liệu) trình khơng tầm thường nhận mẫu có giá trị, mới, hữu ích tiềm hiểu liệu.” 1.2.2 Quá trình khám phá tri thức Quá trình Khám phá tri thức CSDL gồm bước: - Trích lọc liệu (Data Selection) Là bước trích chọn tập liệu cần khai thác từ tập liệu lớn (Databases, Datawarehouses) banđầu theo số tiêu chí định - Tiền xử lý liệu (Data Preprocessing) Giai đoạn hay bị xao lãng, thực tế bước quan trọng trình khai phá liệu Tiền xử lý liệu bước làm liệu (xử lý liệu không đầy đủ, liệu nhiễu, liệu không quán,…), rút gọn liệu (sử dụng phương pháp nén liệu, histograms, entropy,…), rời rạc hóa liệu (dựa vào histograms, dựa vào phân khoảng,…) Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hóa Có thể nói, bước quan trọng liệu không “làm – tiền xử lý – chuẩn bị trước” gây nên kết sai lệch nghiêm trọng - Biến đổi liệu (Data transformation) Là bước chuẩn hóa làm mịn liệu để đưa dạng thuận lợi nhằm phục vụ cho mục đích khai thác bước sau - Khai phá liệu (Data Mining) Đây bước quan trọng tốn nhiều thời gian trình khám phá tri thức, áp dụng kỹ thuật phân tích (phần lớn kỹ thuật Machine Learning) nhằm khai thác, trích chọn mẫu thơng tin, mối liên hệ đặc biệt liệu - Đánh giá biểu diễn tri thức (Knowledge Representation & Evaluation) Dùng kỹ thuật hiển thị liệu để trình bày mẫu thông tin (tri thức) mối liên hệ đặc biệt liệu khai thác bước theo dạng gần gũi với người dùng đồ thị, cây, bảng biểu, luật,… Đồng thời, bước đánh giá tri thức khám phá theo tiêu chí định 1.3 KHAI PHÁ DỮ LIỆU 1.3.1 Khai phá liệu Có nhiều nguồn định nghĩ khái niệm Data Mining: - Theo Wikipedia: “Khai phá liệu (data mining) Là q trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp giao điểm máy học, thống kê hệ thống sở liệu Mục tiêu tổng thể trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc dễ hiểu để sử dụng tiếp. Ngoài bước phân tích thơ, cịn liên quan tới sở liệu khía cạnh quản lý liệu, xử lý liệu trước, suy xét mơ hình suy luận thống kê, thước đo thú vị, cân nhắc phức tạp, xuất kết cấu trúc phát hiện, hình hóa cập nhật trực tuyến. Khai thác liệu bước phân tích trình "khám phá kiến thức sở liệu" KDD.” - Theo Data-Flair, trang web cung cấp khóa học, kiến thức Big Data Data Science: “Data mining tập hợp, hệ thống phương pháp tính tốn, thuật tốn áp dụng cho sở liệu lớn phức tạp với mục đích loại bỏ chi tiết ngẫu nhiên, chi tiết ngoại lệ, khám phá mẫu, mô hình, quy luật tiềm ẩn, thơng tin có giá trị liệu Data mining thành cơng nghệ tiên tiến ngày nay, q trình khám phá kiến thức vơ giá cách phân tích khối lượng lớn liệu đồng thời lưu trữ chúng nhiều CSDL khác nhau.” - Theo trang Investopedia: “Data mining q trình cơng ty sử dụng để biến liệu thô thành thông tin hữu ích Bằng cách sử dụng phần mềm chuyên dụng để tìm kiếm quy luật, mẫu, thơng tin có giá trị, mối tương quan tiềm ẩn khối lượng lớn liệu, cơng ty tìm hiểu thêm khách hàng để phát triển chiến lược tiếp thị hiệu hơn, tăng doanh số giảm chi phí.” Tóm lại, Data Mining hiểu theo cách tổng quát sau: “Data mining q trình khám phá phân tích khối lượng lớn liệu để tìm mẫu liệu quy tắc có ý nghĩa Data mining lĩnh vực nghiên cứu khoa học liệu, khai thác sử dụng kiện, thơng tin có giá trị từ liệu để phục vụ đưa dự báo, định tương lai 1.3.2 Quy trình Khai phá liệu Quy trình Khai phá liệu thông thường gồm 10 bước (theo tiến trình KDD): - Nghiên cứu lĩnh vực Ta cần nghiên cứu lĩnh vực cần sử dụng Data mining để xác định tri thức ta cần chắt lọc, từ định hướng để tránh tốn thời gian cho tri thức không cần thiết - Tạo tập tin liệu đầu vào Ta xây dựng tập tin để lưu trữ liệu đầu vào để máy tính lưu trữ xử lý - Tiền xử lý, làm sạch, mã hóa Ở bước ta tiến hành bỏ bớt liệu rườm rà, không cần thiết, tinh chỉnh lại cấu trúc liệu mã hóa chúng để tiện cho q trình xử lý - Rút gọn chiều Thơng thường tập liệu có chiều lớn sinh lượng liệu khổng lồ, ví dụ với n chiều ta có 2^n tổ hợp Do đó, bước quan trọng giúp giảm đáng kể hao tổn tài nguyên q trình xử lý tri thức Thơng thường ta dùng set(http://en.wikipedia.org/wiki/Rough_set) để giảm số chiều Rough ... em phân cơng tìm hiểu đề tài ? ?Tìm hiểu kỹ thuật phân cụm? ?? Nhóm em gồm thành viên: - Lê Đăng Huy - Nguyễn Văn Hoàng - Nguyễn Văn Hưng - Hoàng Thị Hường Dưới nội dung nhóm em tìm hiểu phân cụm. .. kỹ thuật tiếp cận phân cụm liệu Các kỹ thuật áp dụng để giải vấn đề phân cụm liệu hướng tới mục tiêu chung: Chất lượng cụm khám phá tốc độ thực thuật toán Hiện nay, kỹ thuật phân cụm liệu phân. .. giúp định, thuật toán nhận dạng mẫu phân lớp mẫu, đời, số phân cụm liệu (Data Clustering) Phân cụm liệu trình tìm kiếm phát cụm mẫu liệu tự nhiên sở liệu lớn Các kỹ thuật áp dụng phân cụm liệu