1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm các tập dữ liệu tương tự bigdata

32 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 1,45 MB

Nội dung

BÁO CÁO môn Khai phá tập dữ liệu lớn của đại học Khoa học tự nhiên. Tập trung vào giảm số chiều và trực quan hoá. Giới thiệu các phương pháp Principalcomponent analysis , SingularValue Decomposition (SVD), Giảm kích thước của tập dự liệu lớn, bigdata

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HÀ NỘI KHOA TOÁN – CƠ – TIN HỌC _🙞🙜 _ BÁO CÁO NHẬP MÔN KHAI PHÁ CÁC TẬP DỮ LIỆU LỚN ĐỀ TÀI TÌM CÁC TẬP DỮ LIỆU TƯƠNG TỰ MỤC LỤC MỞ ĐẦU CHƯƠNG : TỔNG QUAN I Giới thiệu II Dimensionality Reduction III Trực quan hoá liệu CHƯƠNG : PRINCIPAL-COMPONENT ANALYSIS 13 I Giới thiệu 13 II Ví dụ minh hoạ 13 III Sử dụng vectơ riêng để giảm kích thước 16 CHƯƠNG 3: SINGULAR-VALUE DECOMPOSITION 19 I Định nghĩa cho SVD 19 II Giải thích cho SVD 21 III Giảm kích thước SVD 23 IV Tính tốn SVD ma trận 23 CHƯƠNG 4: CUR DECOMPOSITION 25 I Định nghĩa CUR 25 II Chọn hàng cột cách 26 III Xây dựng ma trận 27 IV Quá trình CUR Decomposition hoàn chỉnh 28 V Loại bỏ hàng cột trùng lặp 28 TỔNG KẾT 30 TÀI LIỆU THAM KHẢO 31 MỞ ĐẦU Trước đây, biết đến liệu có cấu trúc (structure data) Ngày nay, với kết hợp liệu internet, xuất dạng liệu khác Big data (Dữ liệu lớn) Dữ liệu từ nguồn như: hồ sơ hành chính, giao dịch điện tử, dịng trạng thái, bình luận, tin nhắn chúng ta, nói cách khác chúng liệu sản sinh qua trình chia sẻ thông tin trực tuyến liên tục người sử dụng Dữ liệu lớn đề cập đến liệu thông tin mà xử lý xử lý thông qua hệ thống phần mềm truyền thống Dữ liệu lớn liệu có cấu trúc phi cấu trúc lớn cần xử lý kỹ thuật phân tích nâng cao kỹ thuật trừu tượng để khám phá mẫu ẩn tìm mối tương quan chưa biết giúp cải thiện tiến trình đưa định. Một vấn đề khai thác liệu lớn khám phá liệu để tìm mục tương tự với Tiếp nối với kì, báo cáo cuối kì chúng em nghiên cứu giảm số chiều trực quan hóa liệu để dễ quan sát Giảm số chiều kỹ thuật học máy thống kê để giảm số lượng biến ngẫu nhiên vấn đề cách thu tập hợp biến chính. Q trình thực số phương pháp giúp đơn giản hóa việc mơ hình hóa vấn đề phức tạp, loại bỏ dư thừa giảm khả mơ hình bị khớp q mức  và bao gồm kết khơng phù hợp Trực quan hóa liệu biểu diễn liệu thông qua việc sử dụng đồ họa phổ biến, chẳng hạn biểu đồ, sơ đồ, đồ họa thơng tin chí hoạt ảnh Những hiển thị thông tin trực quan truyền đạt mối quan hệ liệu phức tạp thông tin chi tiết dựa liệu theo cách dễ hiểu CHƯƠNG : TỔNG QUAN I Giới thiệu Như biết, tốn học máy liệu có kích thước lớn Máy tính hiểu thực thi thuật toán liệu này, nhiên người để "nhìn" liệu nhiều chiều thật khó Vì tốn giảm chiều liệu đời giúp đưa nhìn cho người liệu nhiều chiều Ngoài để trực quan liệu, phương pháp giảm chiều liệu cịn giúp đưa liệu khơng gian giúp khai phá thuộc tính ẩn mà chiều liệu ban đầu rõ, đơn giản giảm kích thước liệu để tăng tốc độ thực thi cho máy tính Vì thế, khám phá ý tưởng giảm kích thước chi tiết Chúng ta bắt đầu thảo luận giá trị riêng việc sử dụng chúng “phân tích thành phần chính” (PCA) Chúng ta phân tách giá trị số ít, phiên mạnh mẽ phân hủy UV Cuối cùng, ln quan tâm đến kích thước liệu lớn mà xử lý, xem xét hình thức khác phân tách, gọi phân tách CUR, biến thể phân tách giá trị đơn giúp giữ cho ma trận phân tách thưa thớt ma trận ban đầu thưa thớt II Dimensionality Reduction Giới thiệu Dimensionality Reduction (giảm chiều liệu hay dimension reduction) kỹ thuật quan trọng Machine Learning Các feature vectors tốn thực tế có số chiều lớn, tới vài nghìn Ngồi ra, số lượng điểm liệu thường lớn Nếu thực lưu trữ tính tốn trực tiếp liệu có số chiều cao gặp khó khăn việc lưu trữ tốc độ tính tốn Vì vậy, giảm số chiều liệu bước quan trọng nhiều toán Đây coi phương pháp nén liệu Giảm chiều liệu biến đổi liệu từ không gian chiều cao thành không gian chiều thấp để biểu diễn dạng chiều thấp đồng thời giữ lại số thuộc tính có ý nghĩa liệu gốc, có ý tưởng gần với chiều nội (intrinsic dimension) Giảm chiều liệu học máy (machine learning) đề cập đến kỹ thuật làm giảm số lượng biến đầu vào (input variable) đặc trưng (feature) tập liệu (dataset) Nói cách đơn giản, việc tìm hàm số, hàm số lấy đầu vào điểm liệu ban đầu x ∈ RD với D lớn, tạo điểm liệu z ∈ RK có số chiều K < D Mục đích giảm chiều liệu Những liệu lớn thường tiêu tốn nhiều nhớ lưu trữ thời gian huấn luyện Do đối mặt với liệu kích thước lớn thường tìm cách giảm chiều liệu từ không gian cao chiều (high dimensionality) xuống không gian thấp chiều (low dimensionality) mà giữ đặc trưng liệu tiết kiệm chi phí huấn luyện dự báo Giảm chiều liệu phổ biến lĩnh vực có số lượng quan sát lớn và/hoặc số lượng biến lớn, chẳng hạn xử lí tín hiệu, nhận dạng tiếng nói, thơng tin học thần kinh (tin học thần kinh, neuroinformatics), tin sinh học Ưu điểm phương pháp bao gồm: - Cải thiện độ xác model giảm thiểu điểm liệu dư thừa, nhiễu - Model huấn luyện nhanh (do dimension giảm) giảm tài ngun sử dụng để tính tốn - Kết mơ hình phân tích dễ dàng - Giảm overfitting nhiều trường hợp Với q nhiều feature liệu, mơ hình trở nên phức tạp có xu hướng overfit tập huấn luyện - Giảm thiểu trường hợp multicollinearity (đa cộng tuyến tính) Trong tốn regression, multicollinearity xảy biến độc lập mơ hình phụ thuộc tuyến tính lẫn Q trình giảm chiều liệu chia thành hai thành phần, lựa chọn tính trích xuất tính năng. Trong lựa chọn tính năng, tập hợp nhỏ tính chọn từ tập liệu nhiều chiều để thể mơ hình cách lọc, gói nhúng. Trích xuất tính làm giảm số lượng thứ nguyên tập liệu để mơ hình hóa biến thực phân tích thành phần Có nhiều phương pháp để giảm chiều liệu Ở báo cáo này, chúng em tập trung nghiên cứu phương pháp đại số tuyến tính Phương pháp Đại số tuyến tính Đại số tuyến tính nhóm phương pháp tiếng nhất, bao gồm kỹ thuật: - Principal component analysis (PCA): Đây thuật toán học máy khơng giám sát, làm giảm kích thước tập liệu giữ lại nhiều thông tin Để làm điều này, thuật tốn tạo tập hợp tính từ tập hợp tính có - Linear Discriminatory Analysis (LDA): LDA kỹ thuật học máy có giám sát, tìm cách giữ lại khả phân biệt cho biến phụ thuộc Để làm điều này, đầu tiên, thuật toán LDA tính tốn khả phân tách lớp Thứ hai, tính tốn khoảng cách mẫu lớp giá trị trung bình Cuối cùng, LDA tạo tập liệu khơng gian có kích thước thấp - Singular Value Composition (SVD): SVD trích xuất tính quan trọng từ tập liệu Phương pháp đặc biệt phổ biến dựa mơ hình đại số tuyến tính đơn giản, dễ hiểu Ở chương sau nói chi tiết kỹ thuật PCA, SVD CUR III Trực quan hoá liệu Lĩnh vực trực quan hóa liệu thơng tin xuất "từ nghiên cứu khoa học máy tính, đồ hoạ, thiết kế trực quan, … Nó ngày ứng dụng thành phần quan trọng nghiên cứu khoa học, thư viện số, khai thác liệu, phân tích liệu tài chính, nghiên cứu thị trường kiểm sốt sản xuất" Giới thiệu Trực quan hóa liệu thông tin giả định "các kỹ thuật tương tác biểu diễn trực quan tận dụng đường dẫn băng thơng rộng mắt người vào tâm trí phép người dùng xem, khám phá hiểu lượng lớn thông tin lúc Trực quan hóa thơng tin tập trung vào việc tạo phương pháp cho truyền đạt thông tin trừu tượng theo cách trực quan." Phân tích liệu phần thiếu nghiên cứu ứng dụng giải vấn đề công nghiệp Các phương pháp phân tích liệu trực quan hóa ( biểu đồ, biểu đồ phân tán, biểu đồ bề mặt, đồ cây, biểu đồ tọa độ song song, v.v ), thống kê ( kiểm tra giả thiết, hồi quy, PCA, v.v) khai thác liệu ( khai thác liên kết ,v.v.), phương pháp học máy ( phân cụm, phân loại ,v.v) Trong số phương pháp này, trực quan hóa thơng tin phân tích liệu trực quan, phụ thuộc nhiều vào kỹ nhận thức nhà phân tích người cho phép khám phá hiểu biết hành động phi cấu trúc bị giới hạn trí tưởng tượng sáng tạo người Nhà phân tích khơng cần phải học phương pháp phức tạp để diễn giải hình ảnh trực quan liệu Trực quan hóa thơng tin sơ đồ tạo giả thuyết, thường theo sau phân tích thức phân tích hơn, chẳng hạn kiểm tra giả thuyết thống kê Ý nghĩa Để truyền đạt thông tin rõ ràng hiệu quả, trực quan hóa liệu sử dụng đồ hoạ thơng kê, sơ đồ, đồ hoạ thông tin công cụ khác Dữ liệu số mã hóa cách sử dụng dấu chấm, đường để truyền đạt thông điệp định lượng cách trực quan Trực quan hóa hiệu giúp người dùng phân tích lập luận liệu chứng Nó làm cho liệu phức tạp trở nên dễ tiếp cận, dễ hiểu sử dụng hơn, rút gọn Các bảng thường sử dụng người dùng tra cứu phép đo cụ thể, loại biểu đồ khác sử dụng để hiển thị mẫu mối quan hệ liệu cho nhiều biến Trực quan hóa liệu đề cập đến kỹ thuật sử dụng để truyền đạt liệu thơng tin cách mã hóa dạng đối tượng trực quan (điểm, đường thanh) có đồ họa Mục tiêu truyền đạt thông tin rõ ràng hiệu tới người dùng Trực quan hóa liệu có liên quan chặt chẽ với đồ hoạ thơng tin, trực quan hố thơng tin, trực quan hóa khoa học, phân tích liệu khám phá đồ hoạ thống kê Trong thiên niên kỷ mới, trực quan hóa liệu trở thành lĩnh vực nghiên cứu, giảng dạy phát triển tích cực Nó thống trực quan hóa khoa học thơng tin Trực quan hóa liệu với Python Python cung cấp nhiều thư viện kèm với tính khác để trực quan hóa liệu Tất thư viện có tính khác hỗ trợ nhiều loại biểu đồ khác Trong báo cáo này, tìm hiểu hai thư viện sau: Matplotlib Plotly a) Matplotlib Matplotlib thư viện trực quan hóa liệu cấp thấp, dễ sử dụng xây dựng mảng NumPy Nó bao gồm nhiều biểu đồ khác biểu đồ phân tán, biểu đồ đường,… Matplotlib cung cấp nhiều tính linh hoạt Để cài đặt thư viện này, ta gõ lệnh sau terminal: pip install matplotlib Để sử dụng, ta cần import thư viện: import matplotlib.pyplot as plt Các loại biểu đồ sử dụng phổ biến thư viện này: ● Biểu đồ phân tán: ● Biểu đồ đường: Biểu đồ đường sử dụng để biểu thị mối quan hệ hai liệu X Y trục khác Nó vẽ hàm plot() ● Biểu đồ cột Dùng để biểu thị loại liệu hình chữ nhật có chiều dài chiều cao tỷ lệ thuận với giá trị mà chúng biểu thị Nó tạo phương thức bar() ● Histogram: sử dụng để biểu diễn liệu dạng số nhóm Hàm hist() sử dụng để tính tốn tạo biểu đồ b) Plotly Plotly có khả công cụ di chuột cho phép phát điểm ngoại lệ điểm bất thường nhiều điểm liệu, Plotly cho phép tùy chỉnh nhiều hơn, làm cho biểu đồ trực quan hấp dẫn Để cài đặt, ta gõ lệnh sau terminal: pip install plotly Để sử dụng, cần import thư viện: import plotly.express as px Các loại biểu đồ sử dụng thư viện này: Biểu đồ phân tán: tạo phương thức scatter().method plotly.express: 10 IV Ma trận khoảng cách Ta có ma trận: Thay bắt đầu với MTM, kiểm tra giá trị riêng MMT Vì ví dụ M có nhiều hàng cột, sau ma trận lớn trước, M có nhiều cột hàng, thực nhận ma trận nhỏ Trong ví dụ chạy, có: Cũng MTM, ta thấy MMT đối xứng Mục hàng thứ i cột thứ j có cách hiểu đơn giản; tích vơ hướng vectơ biểu diễn điểm thứ i thứ j (hàng M) Có mối quan hệ chặt chẽ giá trị riêng MTM MMT Giả sử e véc tơ riêng MTM: Nhân hai vế phương trình với M bên trái ta được: Do đó, cần Me khơng phải vectơ khơng 0, vectơ riêng MM T λ giá trị riêng MMT MTM Điều ngược lại Nghĩa là, e véc tơ riêng MMT với giá trị riêng tương ứng λ, sau bắt đầu với MM Te= λe nhân bên trái MT để kết luận MTM(MTe) = λ(MTe) Do đó, MTe khơng 0, λ giá trị riêng MTM 18 Điều xảy MTe = Trong trường hợp đó, MMTe 0, e khơng khơng thể vectơ riêng Tuy nhiên, kể từ = λe, kết luận λ = Chúng kết luận giá trị riêng MMT giá trị riêng MTM cộng thêm số Nếu kích thước MMT nhỏ kích thước MTM, điều ngược lại đúng; giá trị riêng MTM MMT cộng với số bổ sung 19 CHƯƠNG 3: SINGULAR-VALUE DECOMPOSITION Singular-Value Decomposition (SVD - phân tách giá trị đơn), phân tích ma trận thứ hai dẫn đến chiều thấp biểu diễn ma trận nhiều chiều, cho phép biểu diễn xác ma trận giúp dễ dàng loại bỏ phần quan trọng biểu diễn để tạo biểu diễn gần với số thứ nguyên mong muốn Tất nhiên, kích thước ta chọn, độ xác xấp xỉ Ta bắt đầu với định nghĩa cần thiết Sau khám phá ý tưởng SVD định nghĩa số lượng nhỏ “khái niệm” kết nối hàng cột ma trận Ta cách loại bỏ khái niệm quan trọng mang lại cho biểu diễn nhỏ gần với ma trận ban đầu Tiếp theo xem khái niệm sử dụng để truy vấn ma trận ban đầu hiệu hơn, cuối đưa thuật toán để tự thực SVD I Định nghĩa cho SVD Cho M ma trận m × n, xếp hạng M r Nhắc lại hạng ma trận số lượng lớn hàng (hoặc cột tương đương) mà chọn mà khơng có tổ hợp tuyến tính khác hàng véc tơ tồn khơng (chúng ta giả sử tập hợp hàng cột độc lập) Sau đó, tìm thấy ma trận U, Σ V Hình với tính chất sau: - U ma trận trực giao cột m × r; nghĩa là, cột vectơ đơn vị tích vơ hướng hai cột - V ma trận trực giao cột n × r Lưu ý ta ln sử dụng V dạng hốn vị nó, hàng VT trực giao - Σ ma trận đường chéo; nghĩa tất phần tử không nằm đường chéo Các phần tử Σ gọi giá trị riêng M 20

Ngày đăng: 25/06/2023, 15:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w