1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tích hợp dữ liệu data integration

24 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 612,16 KB

Nội dung

PowerPoint Presentation Tích hợp dữ liệu Data Integration 191201999 Đồng Văn Dương 191203508 Trần Văn Tú 191212289 Nguyễn Thành Long 191203129 Nguyễn Minh Hiệp 191202253 Dương Đình Hùng Tổng quát chun.

Tích hợp liệu Data Integration 191201999 191203508 191212289 191203129 191202253 Đồng Văn Dương Trần Văn Tú Nguyễn Thành Long Nguyễn Minh Hiệp Dương Đình Hùng Tổng quát chung : -Mục đích : +Tích hợp cẩn thận giúp giảm tránh dư thừa không quán tập liệu kết Điều giúp cải thiện độ xác tốc độ trình khai thác liệu 1 Vấn đề nhận dạng thực thể - Kết hợp liệu từ nhiều nguồn vào kho liệu quán Các nguồn bao gồm nhiều sở liệu, khối liệu tệp phẳng.Một số tài nguyên liệu khớp với nhau, trở nên có giá trị chúng tích hợp - Vậy vấn đề nhận dạng thực thể ? +Tích hợp lược đồ đối sánh đối tượng phức tạp + Làm cách để đối sánh thực thể tương đương giới thực từ nhiều nguồn liệu Ví dụ: A.cust-id = B.cust-number. Ở A, B hai bảng sở liệu khác nhau. Custid thuộc tính bảng A, cust-number thuộc tính bảng B Ở cust-id custnumber thuộc tính bảng khác khơng có mối quan hệ bảng này, thuộc tính cust-id Thuộc tính cust-number nhận giá trị giống nhau. Đây ví dụ Vấn đề Nhận dạng Thực thể mối quan hệ select *from A,B where A.cust-id=B.cust-number - Khi kết hợp thuộc tính từ sở liệu sang sở liệu khác trình tích hợp, phải đặc biệt ý đến cấu trúc liệu Ví dụ: Trong hệ thống, chiết khấu áp dụng cho đơn đặt hàng, trong hệ thống khác, chiết khấu áp dụng cho mục hàng riêng lẻ đơn đặt hàng Nếu điều không nắm bắt trước tích hợp, mặt hàng hệ thống bị giảm giá cách khơng thích hợp Phân tích dự phịng tương quan 2.1 Dư Thừa tương quan liệu Một thuộc tính bị dư thừa : + Được “bắt nguồn” từ thuộc tính tập hợp thuộc tính khác +Sự khơng qn cách đặt tên thuộc tính 2.2 phân tích tương quan thuộc tính danh nghĩa Một số điểm dư thừa phát phân tích tương quan Ví dụ:Phân tích tương quan thuộc tính danh nghĩa cách sử dụng χ2 (còn gọi thống kê Pearson ) Ta tìm mối quan hệ tương quan hai thuộc tính, A B (với A giới tính thể loại đọc sách) A[i] : gồm Nam Nữ B[j] : gồm hư cấu phi hư cấu Nam Nữ Tổng Hư cấu 250(90) 200(360) 450 Phi hư cấu 50(210) 1000(840) 1050 Tổng 300 1200 1500 Giá trị χ2 tính Oij:là tần xuất thưc Eij: tần xuất dự kiến Công thức tính Eij Áp Dụng cơng thức: Tính tần xuất dự kiến(Eij) Nam – Hư cấu A[1]B[1]: Ứng dụng kết thu Đối với bảng × này, bậc tự (2 - 1) (2 - 1) = Đối với bậc dom tự do, giá trị χ2 cần thiết để bác bỏ giả thuyết mức ý nghĩa 0,001 10,828 Vì giá trị tính tốn chúng tơi cao giá trị này, chúng tơi bác bỏ giả thuyết giới tính cách đọc ưa thích độc lập kết luận hai thuộc tính có tương quan (mạnh) với nhóm người định 2.3 Hệ số tương quan cho liệu số Đối với thuộc tính số, đánh giá mối tương quan hai thuộc tính A B cách tính tốn hệ số tương quan (cịn gọi hệ số mô men sản phẩm Pearson, đặt theo tên người phát minh nó, Karl Pearson) Trong • n số giá trị, • bi giá trị tương ứng A B giá trị i, • A¯ B¯ giá trị trung bình tương ứng A B, • σA σB độ lệch chuẩn tương ứng A B • Tổng (aibi) tổng tích chéo AB (nghĩa bộ, giá trị A nhân với giá trị B đó) Lưu ý −1 ≤ rA, B ≤ +1 • Nếu rA, B lớn 0, A B có tương quan thuận, nghĩa giá trị A tăng giá trị B tăng Giá trị cao, mối tương quan mạnh • Nếu giá trị kết 0, A B độc lập khơng có mối tương quan chúng • Nếu giá trị kết nhỏ 0, A B âm tương quan, giá trị thuộc tính tăng lên giá trị thuộc tính khác giảm bớt Điều có nghĩa thuộc tính khơng khuyến khích thuộc tính Biểu đồ phân tán : 10 Ví Dụ: Giả sử có sinh viên hỏi điểm trung bình trung học điểm trung bình đại học họ, với câu trả lời sau: Chúng muốn biết: điểm trung bình trường trung học đại học có liên quan với theo liệu không, chúng có liên quan với nhau, làm cách tơi sử dụng điểm trung bình trung học để dự đốn điểm trung bình đại học? Có hai câu trả lời để đưa ra:  đầu tiên, chúng có liên quan với không  thứ hai, chúng liên quan với nhau như 11 • Nhìn vào liệu này, thấy rõ ràng điểm trung bình đại học ln điểm trung học phổ thơng, điểm trung bình trung học nhỏ điểm trung bình đại học nhỏ.  • Nhưng mối quan hệ bền chặt nào, có, dường khó để định lượng • Đầu tiên thảo luận cách tính tốn diễn giải gọi là hệ số tương quan để giúp định xem hai biến số có liên quan hay khơng. Nói cách khác, trả lời câu hỏi đầu tiên của   • Chúng tơi trả lời câu hỏi thứ hai phần sau. Đầu tiên, xác định hệ số tương quan mặt toán học 12   Trong ví dụ trên, hệ số tương quan gần với +1. Do đó, kết luận thực có mối quan hệ tích cực mạnh mẽ điểm trung bình trung học điểm trung bình đại học ví dụ cụ thể 13 2.4 Phương sai liệu số Trong lý thuyết xác suất thống kê, tương quan hiệp phương sai hai thước đo tương tự để đánh giá mức độ thay đổi hai thuộc tính Xem xét hai thuộc tính số A B, tập hợp n quan sát {(a1, b1), , (an, bn)} Giá trị trung bình A B, tương ứng, gọi giá trị mong đợi A B, nghĩa là, Hiệp phương sai A B định nghĩa 14 Nếu so sánh Eq (3.3) cho rA, B (hệ số tương quan) với Eq (3.4) hiệp phương sai, thấy 15 Trong σA σB độ lệch chuẩn A B Nó Phương trình đơn giản hóa phép tính Đối với hai thuộc tính A B có xu hướng thay đổi nhau, A lớn A¯ (giá trị kỳ vọng A), B có khả lớn B¯ (giá trị kỳ vọng B) Do đó, hiệp phương sai A B dương Mặt khác, thuộc tính có xu hướng cao giá trị mong đợi thuộc tính thấp giá trị mong đợi, hiệp phương sai A B số âm Nếu A B độc lập (tức chúng khơng có mối tương quan) E (A · B) = E (A) · E (B) Do đó, hiệp phương sai Cov (A, B) = E (A · B) - A¯ B¯ = E (A) · E (B) - A¯ B¯ = Tuy nhiên, điều ngược lại không Một số cặp biến ngẫu nhiên (thuộc tính) có hiệp phương sai khơng độc lập Chỉ theo số giả định bổ sung 16 Ví Dụ: Phân tích hiệp phương sai thuộc tính số Hãy xem bảng 3.2, trình bày ví dụ mô giá cổ phiếu quan sát thời điểm AllElectronics HighTech, công ty công nghệ cao Nếu phiếu cổ ảnh hưởng xu hướng ngành, giá họ tăng hay giảm giống nhau? 17 Do đó, với hiệp phương sai dương, nói giá cổ phiếu hai công ty tăng Phương sai trường hợp đặc biệt hiệp phương sai, hai thuộc tính giống hệt (tức hiệp phương sai thuộc tính với nó) Phương sai thảo luận Chương 18 Sự trùng lặp (dữ liệu) Ngoài việc phát dư thừa thuộc tính, trùng lặp phải phát mức giá Việc sử dụng bảng khơng chuẩn hóa (thường thực để cải thiện hiệu suất cách tránh phép nối) nguồn liệu dư thừa khác Sự không quán thường phát sinh khác nhau, nhập liệu khơng xác cập nhật số không tất lần xuất liệu Ví dụ: sở liệu đơn đặt hàng chứa thuộc tính cho tên địa người mua thay khóa thông tin sở liệu người mua, khác biệt xảy ra, chẳng hạn tên người mua xuất với địa khác sở liệu đơn đặt hàng Khi liệu tích hợp từ số sở liệu ứng dụng thuộc tính liệu dư thừa thường xảy Lượng dư thừa trùng lặp bộ(dữ liệu) vấn đề quan trọng tích hợp liệu trình khai thác liệu 19 S.No Petal length 01 02 03 04 Petal Width Sepal Length Sepal Width 3.4 5.6 4.7 4.5 4.4 5.8 6.7 5.9 5.9 6.9 7.8 5.8 3.4 5.6 4.7 4.5 Chúng ta xem xét bảng tập liệu tập hợp giá trị Bộ giá trị cuối giống bảng Vì vậy, Bộ giá trị cuối coi Chúng ta coi giá trị trùng lặp tất giá trị thuộc tính hai hàng giống Các dư thừa thuộc tính giá trị trùng lặp phải phát Các liệu trùng lặp cho kết giống riêng lẻ điều ảnh hưởng đến hiệu suất tổng thể thuật toán học máy tập liệu chứa liệu trùng lặp Các giá trị trùng lặp dẫn đến khó khăn việc bảo trì sở liệu 20 Phát giải xung đột giá trị liệu Tích hợp liệu liên quan đến việc phát giải xung đột giá trị liệu Đối với thực thể giới thực, giá trị thuộc tính từ nguồn khác khác VD: chương trình giảng dạy chương trình chấm điểm riêng Một trường đại học áp dụng hệ thống phần tư, cung cấp ba khóa học hệ thống sở liệu ấn định điểm từ A + đến F, trường đại học khác áp dụng hệ thống học kỳ, cung cấp hai khóa học sở liệu ấn định điểm từ Rất khó để đưa quy tắc chuyển đổi khóa học xác hai trường đại học, làm cho việc trao đổi thơng tin trở nên khó khăn 21 Các thuộc tính khác cấp độ trừu tượng, thuộc tính tem hệ thống ghi mức trừu tượng thấp so với thuộc tính hệ thống khác Ví dụ: tổng doanh số bán hàng sở liệu đề cập đến chi nhánh Tất cửa hàng điện tử, thuộc tính tên sở liệu khác đề cập đến tổng doanh số bán hàng cho Tất cửa hàng Điện tử khu vực định 22 Tài liệu tham khảo https://www.javatpoint.com/entity-identification-problem-in-data-mining [1] 2011 Data Mining - Concepts and Techniques https://www.geeksforgeeks.org/tuple-duplication-in-data-mining/ 23 ... : +Tích hợp cẩn thận giúp giảm tránh dư thừa không quán tập liệu kết Điều giúp cải thiện độ xác tốc độ trình khai thác liệu 1 Vấn đề nhận dạng thực thể - Kết hợp liệu từ nhiều nguồn vào kho liệu. .. Các nguồn bao gồm nhiều sở liệu, khối liệu tệp phẳng.Một số tài nguyên liệu khớp với nhau, trở nên có giá trị chúng tích hợp - Vậy vấn đề nhận dạng thực thể ? +Tích hợp lược đồ đối sánh đối tượng... thay khóa thơng tin sở liệu người mua, khác biệt xảy ra, chẳng hạn tên người mua xuất với địa khác sở liệu đơn đặt hàng Khi liệu tích hợp từ số sở liệu ứng dụng thuộc tính liệu dư thừa thường xảy

Ngày đăng: 21/10/2022, 15:17

HÌNH ẢNH LIÊN QUAN

Đối với bảng ×2 này, bậc tự do là (2 - 1) (2 - 1) = 1. Đối với 1 bậc dom tự do, giá trị χ2 cần thiết để bác bỏ giả thuyết ở mức ý nghĩa 0,001 là 10,828  - Tích hợp dữ liệu data integration
i với bảng ×2 này, bậc tự do là (2 - 1) (2 - 1) = 1. Đối với 1 bậc dom tự do, giá trị χ2 cần thiết để bác bỏ giả thuyết ở mức ý nghĩa 0,001 là 10,828 (Trang 9)
Hãy xem bảng 3.2, trình bày một ví dụ mơ phỏng về giá cổ phiếu được quan sát tại thời điểm của AllElectronics và HighTech, một công ty công nghệ cao - Tích hợp dữ liệu data integration
y xem bảng 3.2, trình bày một ví dụ mơ phỏng về giá cổ phiếu được quan sát tại thời điểm của AllElectronics và HighTech, một công ty công nghệ cao (Trang 18)
Chúng ta hãy xem xét bảng trên của tập dữ liệu là một tập hợp các giá trị. Bộ giá trị đầu tiên và cuối cùng giống nhau trong bảng - Tích hợp dữ liệu data integration
h úng ta hãy xem xét bảng trên của tập dữ liệu là một tập hợp các giá trị. Bộ giá trị đầu tiên và cuối cùng giống nhau trong bảng (Trang 21)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w