1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(TIỂU LUẬN) tích hợp dữ liệu data integration

26 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Tích hợp liệu Data Integration 191201999 191203508 191212289 191203129 191202253 Đồng Văn Dương Trần Văn Tú Nguyễn Thành Long Nguyễn Minh Hiệp Dương Đình Hùng Tổng quát chung : -Mục đích : +Tích hợp cẩn thận giúp giảm tránh dư thừa không quán tập liệu kết Điều giúp cải thiện độ xác tốc độ trình khai thác liệu 1 Vấn đề nhận dạng thực thể - Kết hợp liệu từ nhiều nguồn vào kho liệu quán Các nguồn bao gồm nhiều sở liệu, khối liệu tệp phẳng.Một số tài nguyên liệu khớp với nhau, trở nên có giá trị chúng tích hợp - Vậy vấn đề nhận dạng thực thể ? +Tích hợp lược đồ đối sánh đối tượng phức tạp + Làm cách để đối sánh thực thể tương đương giới thực từ nhiều nguồn liệu Ví dụ: A.cust-id = B.cust-number Ở A, B hai bảng sở liệu khác Custid thuộc tính bảng A, cust-number thuộc tính bảng B Ở cust-id custnumber thuộc tính bảng khác khơng có mối quan hệ bảng này, thuộc tính cust-id Thuộc tính cust-number nhận giá trị giống Đây ví dụ Vấn đề Nhận dạng Thực thể mối quan hệ select *from A,B where A.cust-id=B.cust-number - Khi kết hợp thuộc tính từ sở liệu sang sở liệu khác q trình tích hợp, phải đặc biệt ý đến cấu trúc liệu Ví dụ: Trong hệ thống, chiết khấu áp dụng cho đơn đặt hàng, trong hệ thống khác, chiết khấu áp dụng cho mục hàng riêng lẻ đơn đặt hàng Nếu điều không nắm bắt trước tích hợp, mặt hàng hệ thống bị giảm giá cách khơng thích hợp Phân tích dự phịng tương quan 2.1 Dư Thừa tương quan liệu Một thuộc tính bị dư thừa : + Được “bắt nguồn” từ thuộc tính tập hợp thuộc tính khác +Sự khơng qn cách đặt tên thuộc tính 2.2 phân tích tương quan thuộc tính danh nghĩa Một số điểm dư thừa phát phân tích tương quan Ví dụ:Phân tích tương quan thuộc tính danh nghĩa cách sử dụng χ2 (cịn gọi thống kê Pearson ) Ta tìm mối quan hệ tương quan hai thuộc tính, A B (với A giới tính thể loại đọc sách) A[i] : gồm Nam Nữ B[j] : gồm hư cấu phi hư cấu Nam Hư cấu 250(90) Phi hư cấu 50(210) Tổng Giá trị χ2 tính 300 Oij:là tần xuất thưc Eij: tần xuất dự kiến Cơng thức tính Eij Áp Dụng cơng thức: Tính tần xuất dự kiến(Eij) Nam – Hư cấu A[1]B[1]: Ứng dụng kết thu Đối với bảng × này, bậc tự (2 - 1) (2 - 1) = Đối với bậc dom tự do, giá trị χ2 cần thiết để bác bỏ giả thuyết mức ý nghĩa 0,001 10,828 Vì giá trị tính tốn chúng tơi cao giá trị này, chúng tơi bác bỏ giả thuyết giới tính cách đọc ưa thích độc lập kết luận hai thuộc tính có tương quan (mạnh) với nhóm người định Lưu ý −1 ≤ rA, B ≤ +1 • Nếu rA, B lớn 0, A B có tương quan thuận, nghĩa giá trị A tăng giá trị B tăng Giá trị cao, mối tương quan mạnh • Nếu giá trị kết 0, A B độc lập khơng có mối tương quan chúng • Nếu giá trị kết nhỏ 0, A B âm tương quan, giá trị thuộc tính tăng lên giá trị thuộc tính khác giảm bớt Điều có nghĩa thuộc tính khơng khuyến khích thuộc tính Biểu đồ phân tán : 10 Ví Dụ: Giả sử có sinh viên hỏi điểm trung bình trung học điểm trung bình đại học họ, với câu trả lời sau: Chúng tơi muốn biết: điểm trung bình trường trung học đại học có liên quan với theo liệu không, chúng có liên quan với nhau, làm cách tơi sử dụng điểm trung bình trung học để dự đốn điểm trung bình đại học? Có hai câu trả lời để đưa ra: đầu tiên, chúng có liên quan với không thứ hai, chúng liên quan với 11 • Nhìn vào liệu này, thấy rõ ràng điểm trung bình đại học điểm trung học phổ thông, điểm trung bình trung học nhỏ điểm trung bình đại học nhỏ • Nhưng mối quan hệ bền chặt nào, có, dường khó để định lượng • Đầu tiên thảo luận cách tính tốn diễn giải gọi hệ số tương quan để giúp định xem hai biến số có liên quan hay khơng Nói cách khác, trả lời câu hỏi • Chúng tơi trả lời câu hỏi thứ hai phần sau Đầu tiên, xác định hệ số tương quan mặt tốn học 12 Trong ví dụ trên, hệ số tương quan gần với +1 Do đó, kết luận thực có mối quan hệ tích cực mạnh mẽ điểm trung bình trung học điểm trung bình đại học ví dụ cụ thể 2.4 Phương sai liệu số Trong lý thuyết xác suất thống kê, tương quan hiệp phương sai hai thước đo tương tự để đánh giá mức độ thay đổi hai thuộc tính Xem xét hai thuộc tính số A B, tập hợp n quan sát {(a1, b1), , (an, bn)} Giá trị trung bình A B, tương ứng, cịn gọi giá trị mong đợi A B, nghĩa là, Hiệp phương sai A B định nghĩa 14 Nếu so sánh Eq (3.3) cho rA, B (hệ số tương quan) với Eq (3.4) hiệp phương sai, thấy 15 Trong σA σB độ lệch chuẩn A B Nó Phương trình đơn giản hóa phép tính Đối với hai thuộc tính A B có xu hướng thay đổi nhau, A lớn A¯ (giá trị kỳ vọng A), B có khả lớn B¯ (giá trị kỳ vọng B) Do đó, hiệp phương sai A B dương Mặt khác, thuộc tính có xu hướng cao giá trị mong đợi thuộc tính thấp giá trị mong đợi, hiệp phương sai A B số âm Nếu A B độc lập (tức chúng khơng có mối tương quan) E (A · B) = E (A) · E (B) Do đó, hiệp phương sai Cov (A, B) = E (A · B) - A¯ B¯ = E (A) · E (B) - A¯ B¯ = Tuy nhiên, điều ngược lại không Một số cặp biến ngẫu nhiên (thuộc tính) có hiệp phương sai không độc lập Chỉ theo số giả định bổ sung 16 Ví Dụ: Phân tích hiệp phương sai thuộc tính số Hãy xem bảng 3.2, trình bày ví dụ mơ giá cổ phiếu quan sát thời điểm AllElectronics HighTech, công ty công nghệ cao Nếu phiếu cổ ảnh hưởng xu hướng ngành, giá họ tăng hay giảm giống nhau? 17 Do đó, với hiệp phương sai dương, nói giá cổ phiếu hai cơng ty tăng Phương sai trường hợp đặc biệt hiệp phương sai, hai thuộc tính giống hệt (tức hiệp phương sai thuộc tính với nó) Phương sai thảo luận Chương 18 Sự trùng lặp (dữ liệu) Ngoài việc phát dư thừa thuộc tính, trùng lặp phải phát mức giá Việc sử dụng bảng khơng chuẩn hóa (thường thực để cải thiện hiệu suất cách tránh phép nối) nguồn liệu dư thừa khác Sự không quán thường phát sinh khác nhau, nhập liệu khơng xác cập nhật số không tất lần xuất liệu Ví dụ: sở liệu đơn đặt hàng chứa thuộc tính cho tên địa người mua thay khóa thơng tin sở liệu người mua, khác biệt xảy ra, chẳng hạn tên người mua xuất với địa khác sở liệu đơn đặt hàng Khi liệu tích hợp từ số sở liệu ứng dụng thuộc tính liệu dư thừa thường xảy Lượng dư thừa trùng lặp bộ(dữ liệu) vấn đề quan trọng tích hợp liệu q trình khai thác liệu 19 S.No 01 02 03 04 Chúng ta xem xét bảng tập liệu tập hợp giá trị Bộ giá trị cuối giống bảng Vì vậy, Bộ giá trị cuối coi Chúng ta coi giá trị trùng lặp tất giá trị thuộc tính hai hàng giống Các dư thừa thuộc tính giá trị trùng lặp phải phát Các liệu trùng lặp cho kết giống riêng lẻ điều ảnh hưởng đến hiệu suất tổng thể thuật toán học máy tập liệu chứa liệu trùng lặp Các giá trị trùng lặp dẫn đến khó khăn việc bảo trì sở liệu 20 Phát giải xung đột giá trị liệu Tích hợp liệu liên quan đến việc phát giải xung đột giá trị liệu Đối với thực thể giới thực, giá trị thuộc tính từ nguồn khác khác VD: chương trình giảng dạy chương trình chấm điểm riêng Một trường đại học áp dụng hệ thống phần tư, cung cấp ba khóa học hệ thống sở liệu ấn định điểm từ A + đến F, trường đại học khác áp dụng hệ thống học kỳ, cung cấp hai khóa học sở liệu ấn định điểm từ Rất khó để đưa quy tắc chuyển đổi khóa học xác hai trường đại học, làm cho việc trao đổi thơng tin trở nên khó khăn 21 Các thuộc tính khác cấp độ trừu tượng, thuộc tính tem hệ thống ghi mức trừu tượng thấp so với thuộc tính hệ thống khác Ví dụ: tổng doanh số bán hàng sở liệu đề cập đến chi nhánh Tất cửa hàng điện tử, thuộc tính tên sở liệu khác đề cập đến tổng doanh số bán hàng cho Tất cửa hàng Điện tử khu vực định 22 Tài liệu tham khảo https://www.javatpoint.com/entity-identification-problem-in-data-mining [1] 2011 Data Mining - Concepts and Techniques https://www.geeksforgeeks.org/tuple-duplication-in-data-mining/ 23 ... thường xảy Lượng dư thừa trùng lặp bộ (dữ liệu) vấn đề quan trọng tích hợp liệu trình khai thác liệu 19 S.No 01 02 03 04 Chúng ta xem xét bảng tập liệu tập hợp giá trị Bộ giá trị cuối giống bảng... Các nguồn bao gồm nhiều sở liệu, khối liệu tệp phẳng.Một số tài nguyên liệu khớp với nhau, trở nên có giá trị chúng tích hợp - Vậy vấn đề nhận dạng thực thể ? +Tích hợp lược đồ đối sánh đối tượng... thay khóa thơng tin sở liệu người mua, khác biệt xảy ra, chẳng hạn tên người mua xuất với địa khác sở liệu đơn đặt hàng Khi liệu tích hợp từ số sở liệu ứng dụng thuộc tính liệu dư thừa thường xảy

Ngày đăng: 14/12/2022, 10:32

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w