Bài giảng Kho dữ liệu và kỹ thuật khai phá: Phần 1 có nội dung trình bày giới thiệu về kho dữ liệu và khai phá dữ liệu; các bài toán và phương pháp cơ bản trong khai phá dữ liệu; sự tích hợp của khai phá dữ liệu với cơ sở dữ liệu hay kho dữ liệu; các công nghệ và kỹ thuật tích hợp cơ sở dữ liệu; tích hợp các lược đồ dữ liệu; chuyển đổi và tích hợp dữ liệu;... Mời các bạn cùng tham khảo!
Học viện Cơng nghệ Bưu Chính Viễn thơng- Khoa Cơng nghệ thông tin I KHO DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ BÀI GIẢNG DÀNH CHO SINH VIÊN CÔNG NGHỆ THÔNG TIN NGUYỄN QUỲNH CHI GIỚI THIỆU Học phần Kho liệu kỹ thuật khai phá cung cấp phương pháp luận lý thuyết sở liệu việc xây dựng kho liệu ứng dụng vào xử lý phân tích trực tuyến, đồng thời cung cấp kiến thức phương pháp tích hợp sở liệu phương pháp khai phá liệu để hỗ trợ cho hệ trợ giúp định Do đối tượng sinh viên năm cuối đại học nên trình bày phương pháp khai phá Đối tượng giảng sinh viên ngành Công nghệ thông tin hệ đại học, sinh viên hệ chuyên ngành khác dùng làm tài liệu tham khảo cần Để hiểu sâu thêm kiến thức trình bày giảng này, sinh viên cần đọc thêm sách nêu phần tài liệu tham khảo Sinh viên cần hồn thành mơn học: Cơ sở liệu, kỹ thuật lập trình, có khả làm việc với hệ quản trị CSDL, nhập môn xác suất thống kê trước tham gia học mơn học Đây mơn học tính điểm trung bình sau kết thúc cuối kỳ học, kiểm tra cuối kỳ chiếm 70%, kiểm tra kỳ chiếm 20%, trình tham dự lớp chiếm 10% Tổng số gồm tín 44 tiết lý thuyết giảng lớp, tiết cho việc giảng viên giải đáp thắc mắc tập tiết ôn tập trước thi cuối kỳ Yêu cầu đọc sách để chuẩn bị làm tập lớn theo hướng dẫn giảng viên trước buổi tham gia lớp học Nói chung sinh viên khuyến khích đặt câu hỏi phát biểu ý kiến riêng với vấn đề đặt trình nghe giảng lớp, tránh thái độ thụ động ngồi nghe Nội dung mơn học trình bày mục lục giảng Mục lục CHƯƠNG I: Giới thiệu kho liệu khai phá liệu .7 1.1 Khai phá liệu 1.2 Các loại liệu kiểu mẫu liệu khai phá 1.3 Các toán phương pháp khai phá liệu .10 Định nghĩa toán phân loại 10 Định nghĩa toán phân cụm 11 Định nghĩa toán phát luật kết hợp 12 Bài toán phân loại cho liệu hồi quy 12 Phát sai lệch hay dị thường 13 Khai phá liệu Nguyên lý quy nạp 13 1.4 Sự tích hợp khai phá liệu với sở liệu hay kho liệu 14 Vai trò khai phá liệu trình phát tri thức từ liệu 14 Các bước trình phát tri thức từ liệu .14 Các chuyên ngành khác liên quan tới khai phá liệu 16 So sánh khai phá liệu với phân tích thống kê .16 So sánh khai phá liệu với sở liệu 17 So sánh khai phá liệu với công nghệ kho liệu .17 Kiến trúc mơ tơ phân tích trực tuyến (OLAM) 17 So sánh Cơ sở liệu, xử lý phân tích trực tuyến khai phá liệu 18 1.5 Ứng dụng kho liệu khai phá liệu 21 Ứng dụng toán phân lớp (phân loại) 21 Ứng dụng toán phân cụm 22 Ứng dụng toán phát luật kết hợp 22 Những vấn đề lĩnh vực cơng nghệ kho liệu khai phá liệu .23 Câu hỏi ôn tập chương 24 Chương 2: Các cơng nghệ kỹ thuật tích hợp sở liệu 26 2.1 Giới thiệu Mơ hình liệu mở rộng XML 26 Giới thiệu ngôn ngữ XML (Extensible Markup Language) .26 Một hệ thống XML điển hình 27 Cú pháp XML 28 Khai báo kiểu văn – Data Type Declaration (DTD) 31 Nhắc lại kiến thức mơ hình thực thể liên kết mở rộng 39 Kiến trúc tích hợp nhiều sở liệu .46 Kỹ thuật chuyển đổi lược đồ quan hệ sang mơ hình thực thể liên kết mở rộng 46 Ví dụ việc chuyển đổi từ lược đồ quan hệ sang mơ hình thực thể liên kết 49 2.3 Tích hợp lược đồ liệu 53 Khái niệm tích hợp liệu 53 Các bước tích hợp ngữ nghĩa liệu .54 Bài thực hành 65 2.4 Chuyển đổi tích hợp liệu 67 Phương pháp luận cho công nghệ kho liệu OLAP 67 Các cách chuyển đổi liệu 67 Một ví dụ việc chuyển đổi 71 Tích hợp liệu .75 Câu hỏi ôn tập chương 81 Chương 3: Công nghệ kho liệu xử lý phân tích trực tuyến .83 3.1 Khái niệm kho liệu 83 3.2 Mơ hình liệu đa chiều 86 3.3 Kiến trúc kho liệu 95 3.4 Cài đặt kho liệu .97 3.5 Liên hệ công nghệ kho liệu với khai phá liệu .104 3.6 Xây dựng kho liệu với mục đích hỗ trợ định (DSS) 106 Nhắc lại chút khái niệm kho liệu tác nhân liên quan 106 Các giai đoạn xây dựng 106 Thiết kế sở liệu với lược đồ hình 109 Nghiên cứu xây dựng kho liệu 110 Câu hỏi ôn tập chương 114 Chương 4: Khai phá liệu 116 4.1 Tiền xử lý liệu trước khai phá .116 Khái niệm liệu 116 Tiền xử lý liệu 124 4.2 Phương pháp khai phá luật kết hợp 129 Nguồn gốc khai phá luật kết hợp 129 Các ứng dụng luật kết hợp 129 Khái niệm tốn tìm luật kết hợp 130 Cách tiếp cận theo kiểu vét cạn (Brute-force approach) 130 Khai phá luật kết hợp với cách tiếp cận hai bước 132 Phương thức giảm số lượng ứng cử viên: thuật toán Apriori 133 Một phương pháp sinh tập mặt hàng thường xuyên FP-growth 139 Sinh luật kết hợp 143 4.3 Phương pháp định 145 Những khái niệm toán phân loại 145 Phương pháp phân loại định 146 Các thuật tốn tìm định 149 Đánh giá mơ hình phân loại 160 4.4 Phương pháp phân nhóm phân đoạn 164 Khái niệm phân tích phân cụm 164 Độ đo phân cụm 166 Phân loại phân cụm 170 Phương pháp phân cụm 173 Câu hỏi ôn tập chương 178 Tài liệu tham khảo 188 CHƯƠNG I: Giới thiệu kho liệu khai phá liệu Vấn đề bùng nổ liệu: công cụ thu thập liệu tự động công nghệ sở liệu trở nên hoàn thiện, lượng lớn liệu thu thập lưu trữ sở liệu, kho liệu kho lưu trữ thông tin khác Lúc này, có nhiều liệu, chưa mang tính phục vụ có mục đích cho người sử dụng Chúng ta thiếu tri thức, liệu qua xử lý phục vụ riêng cho mục đích người sử dụng Vấn đề làm để khai thác tri thức từ đống liệu khổng lồ có tay Giải pháp cho việc khai phá tri thức đời công nghệ kho liệu phương pháp khai phá liệu Giải pháp liên quan tới khía cạnh sau đây: - Cơng nghệ để xây dựng kho liệu lớn phương thức để xử lý phân tích trực tuyến (sẽ nghiên cứu học sau) - Trích lọc tri thức có ích cho người bao gồm luật, thể chế, mẫu, ràng buộc từ khối lượng lớn liệu hay nhiều sở liệu có kích cỡ lớn Các lý cần khai phá liệu quan điểm thương mại giới thực - Rất nhiều liệu thu thập giới thực lưu trữ cách hệ thống kho liệu bao gồm: o Các liệu web, liệu thương mại điện tử o Các liệu mua bán cửa hàng, gian hàng siêu thị o Các liệu giao dịch ngân hàng, thẻ tín dụng - Máy tính trở nên rẻ có sức mạnh xử lý liệu - Sức ép cạnh tranh mạnh mẽ hơn: cần cung cấp dịch vụ tốt tùy biến với khách hàng (nhất quan hệ với khách hàng) Các lý cần khai phá liệu quan điểm khoa học - Các liệu thu thập lưu trữ với tốc độ nhanh (GB/h) thông qua o Bộ cảm biến (sensor) điều khiển từ xa trạm vệ tinh o Kính viễn vọng quan sát bầu trời o Dùng công cụ microarray để sinh liệu thể đặc tính gene (gene expression data) o Dùng mô khoa học để tạo hàng tera byte liệu - Các kỹ thuật truyền thống khơng cịn khả thi cho lượng lớn liệu thô - Các kỹ thuật khai phá liệu giúp ích nhà khoa học công việc o Phân loại phân mảnh liệu o Hình thành giả thuyết nghiên cứu khoa học 1.1 Khai phá liệu Khai phá liệu (phát tri thức sở liệu sẵn có) việc trích lọc thơng tin có ích (khơng hiển nhiên, khơng tường minh, khơng biết trước, có ích cách tiềm năng), mẫu liệu sở liệu lớn Khai phá liệu có số tên gọi khác sử dụng đề cập đến sống sách tạp chí khoa học như: - Khám phá tri thức (knowledge discovery) sở liệu (thường viết tắt theo tiếng anh KDD) - Trích lọc tri thức - Phân tích mẫu/dữ liệu - Khảo cổ liệu - Tri thức kinh doanh (business intelligence) cịn nhiều tên khác dùng Xem xét ví dụ sau để phân biệt khái niệm khai phá liệu với khái niệm sở liệu, mà dễ nhầm tưởng khai phá liệu Những xử lý khai phá liệu Những xử lý khai phá liệu Tra cứu số điện thoại danh bạ điện Xác định tên cho phổ biến thoại địa danh cụ thể Truy vấn mơ tơ tìm kiếm thơng tin Gộp nhóm tài liệu giống trả Web liên quan tới từ “Amazon” cơng cụ tìm kiếm thơng tin dựa vào ngữ cảnh chúng (ví dụ rừng Amazon, hay vùng miền Amazon.com) 1.2 Các loại liệu kiểu mẫu liệu khai phá Khi thực công việc khai phá liệu, để đưa định cần thiết cho công việc khai phá, cần xác định yếu tố sau: - Loại sở liệu cần khai phá Các loại sở liệu dùng cho khai phá bao gồm sở liệu quan hệ, sở liệu giao dịch, hướng đối tượng, sở liệu quan hệ- đối tượng, không gian, sở liệu văn bản, chuỗi thời gian, đa phương tiện, sở liệu hỗn tạp, sở liệu luật, sở liệu Web, loại sở liệu khác - Loại tri thức cần phát Bao gồm tri thức miêu tả đặc điểm cá thể tập cá thể xét, phân biệt cá thể với cá thể khác, luật kết hợp, tìm xu hướng, phân loại cá thể tập hợp, phân cụm gộp nhóm cá thể giống nhau, phân tích tìm cá thể ngoại lai khác biệt phần đông cá thể khác, v.v… Ngồi ra, tri thức cịn chức tích hợp, đa chức khai phá nhiều mức độ khác - Loại kỹ thuật cần sử dụng để giải vấn đề Bao gồm kỹ thuật theo hướng sở liệu, kỹ thuật kho liệu (xử lý phân tích trực tuyến), phương pháp học máy, phương pháp thống kê, biểu diễn trực quan, mạng nơron nhân tạo, phương pháp khác - Loại ứng dụng cần xây dựng, áp dụng cho vấn đề khai phá Bao gồm ứng dụng lĩnh vực bán lẻ, truyền thơng, ngân hàng, phân tích lỗi, khai phá liệu gen, phân tích thị trường chứng khốn, khai phá liệu Web, phân tích Weblog Một cơng việc cần xác định nhận thức rõ nhiệm vụ toán khai phá liệu thuộc loại hai loại sau đây: - Bài toán khai phá liệu dạng mơ tả Nhiệm vụ tốn dạng tìm mẫu mơ tả liệu mà người hiểu - Bài toán khai phá liệu dạng tiên đoán Sử dụng vài biến để tiên đoán giá trị chưa biết tương lai biến khác Các nhiệm vụ thường gặp việc khai phá liệu - Phân loại: thuộc loại toán tiên đoán - Phân cụm: thuộc loại tốn mơ tả - Phát luật kết hợp: thuộc loại tốn mơ tả - Phát mẫu dạng liên tục: thuộc loại tốn mơ tả - Bài tốn hồi quy: thuộc loại toán tiên đoán - Phát khác biệt: thuộc loại toán tiên đoán 1.3 Các toán phương pháp khai phá liệu Định nghĩa toán phân loại - Cho tập ghi gọi tập huấn luyện, ghi chứa tập thuộc tính, thuộc tính gắn nhãn phân loại gọi thuộc tính lớp - Nhiệm vụ tốn phân loại tìm mơ hình thể thuộc tính lớp hàm giá trị thuộc tính khác - Sau tìm mơ hình thích hợp cho tốn, mục đích cuối áp dụng mơ hình (hàm tìm được) để tiên đoán ghi chưa biết đến trước thuộc lớp cách xác tốt - Một tập ghi kiểm thử dùng để xác định độ xác mơ hình Thông thường, tập liệu đưa chia thành tập huấn luyện tập kiểm thử, tập huấn luyện dùng để xây dựng mơ hình tập kiểm thử dùng để kiểm tra Một ví dụ minh họa cho tốn phân loại: Cho tập ghi coi tập huấn luyện hình vẽ Tid Refund Marital Status Taxable Income Cheat Yes Single 125K No No Married 100K No No Single 70K No Yes Married 120K No No Divorced 95K Yes No Married 60K No Yes Divorced 220K No No Single 85K Yes No Married 75K No 10 No Single 90K Yes 10 10 - Một cách tiếp cận chung cho việc chuyển đổi liệu xây dựng chương trình tùy biến để chuyển liệu từ môi trường sang môi trường khác Tuy nhiên, cách tiếp cận tốn địi hỏi chương trình riêng biệt viết cho M tập nguồn N tập đích Hơn nữa, chương trình sử dụng lần Kết là, việc hoàn toàn phụ thuộc vào chương trình tùy biến cho liệu chuyển đổi quản lý, tốn thời gian Chuyển đổi liệu chuyển đổi phiên dịch Cách thức thể hình vẽ Định nghĩa nguồn, đích cách ánh xạ Bộ chuyển đổi phiên dịch nguồn Ví dụ cấu trúc Cobol sau thể sử dụng báo cáo Level PERSO N NAME AG E LIC#1 CARS MAKE ACCIDENT LIC#2 Cấu trúc liệu Thể Bộ N Mối Quan hệ Các N NAME PERSON CARS ACCIDENTS PERSON-CAR CAR-ACCIDENT Để dịch mức thành cấu trúc liệu hai mức hình vẽ Level PERSON NAME Câu lệnh TDL cần sau AGE LIC#1 CARS MAKE 71 LIC#2 NAME đích FORM NAME FROM NAME FORM LIC#1 FROM LIC#1 : FORM PERSON IF PERSON FORM CARS IF CAR AND ACCIDENT Chuyển đổi liệu chuyển đổi biên dịch Cách thức gồm bước thực hình vẽ Definitions of source, target, and mapping Translator generator source Specialized program target DEFINE CONVERT pha biên dịch thể hình vẽ DEFINE Source DEF S1 DEF S2 : : PL/1 Program Reader (DEFINE) compiler phase Reader (S1) Reader (S2) : : DEFINE Compiler Convert catalog CONVERT program Statement Statement : : PL/1 Procedure Restructurer (CONVERT) compiler phase COP COP : : DEFINE Compiler CONVE RT Catalogue E xecution S chedule DNO MGR BUDGET Xét sở liệu phân cấp sau để làm ví dụ ENO 72 JOB PJNO LEADER ITEMNO DESC Câu lệnh DEFINE mơ tả với câu lệnh DEFINE, mã nguồn tạo để dành vị trí nhớ đệm bên cho GROUP DEPT: OCCURS FROM TIMES; FOLLOWED BY EOF; PRECEDED BY HEX ‘01’; : END EMP; GROUP PROJ: OCCURS FROM TIMES; PRECEDED BY HEX ‘03’; : END PROJ; END DEPT; Cho câu lệnh CONVERT người sử dụng viết, sinh chương trình tùy biến Lấy DEPT FORM từ câu lệnh DEFINE ta có T1 = SELECT (FROM DEPT WHERE BUDGET GT ‘100’); sinh chương trình sau /* PROCESS LOOP FOR T1 */ DO WHILE (not end of file); CALL GET (DEPT); IF BUDGET > ‘100’ THEN CALL BUFFER_SWAP (T1, DEPT); END Cách chuyển đổi liệu dạng biên dịch mức logic Biểu đồ luồng hệ thống cho việc chuyển đổi liệu từ CSDL quan hệ nguồn tới CSDL quan hệ đích thể hình vẽ Lu?c d? quan h? ngu?n Lu?c d? quan h? dích L?a ch?n? CSDL quan h? ngu?n Quá trình dua Các t?p tu?n t? Chuy?n 73 d?i Các t?p tu?n t? dích Q trình dua vào CSDL quan h? dích Một ví dụ việc chuyển đổi Dưới ví dụ chuyển đổi liệu sở liệu quan hệ từ DB2 sang Oracle Yêu cầu nghiệp vụ: Một công ty có khu vực hoạt động A B - Mỗi khu vực có văn phịng riêng - Mỗi văn phòng duyệt số chuyến năm - Mỗi nhân viênđi nhiều chuyến công tác năm - Trong chuyến công tác, nhân viên cần thuê xe cho việc di chuyển - Mỗi xe thuê chở nhiều nhân viên - Một nhân viên người quản lý kỹ sư Yêu cầu liệu bao gồm quan hệ ràng buộc sau Relation Department(*Department_id, Salary) Relation Region_A (Department_id, Classification) Relation Region_B (Department_id, Classification) Relation Trip (Trip_id, *Car_model, *Staff_id, *Department_id) Relation People (Staff_id, Name, DOB) Relation Car (Car_model, Size, Description) Relation Assignment(*Car_model, *Staff_id) Relation Engineer (*Staff_id, Title) Relation Manager (*Staff_id, Title) ID: Department.Department_id Í (Region_A.Department_id È Region_B.Department_id) ID: Trip.Department_id Í Department.Department_id ID: Trip.Car_model Í Assignment.Car_model ID: Trip.Staff_id Í Assignment.Staff_id ID: Assignment.Car_model Í Car.Car_model ID: Assignment.Staff_id Í People.Staff_id ID: Engineer.Staff_id Í People.Staff_id ID: Manager.Staff_id Í People.Staff_id Với ID = Inclusion Dependence hay phụ thuộc bao gồm, Các thuộc tính gạch chân khóa dấu “*” đầu thuộc tính thể khóa ngoại 74 Mơ hình thực thể liên kết mở rộng cho liệu TRIP Được thể lược đồ Department_id Classification Region_A Region_B Department_id Classification C Department_id Department Salary R1 m Trip Trip_id m R2 Staff_id Name DOB People m Assignment n Car Car_model Size Description d Staff_id Title Manager Engineer Staff_id Title Lược đồ quan hệ cho sở liệu TRIP Tạo bảng Car (CAR_MODEL character (10), SIZE character (10), DESCRIPT character (20), STAFF_ID character (5), primary key (CAR_MODEL)) Tạo bảng Depart (DEP_ID character (5), SALARY numeric (8), primary key (DEP_ID)) Tạo bảng People (STAFF_ID character (4), NAME character (20), DOB datetime, primary key (STAFF_ID)) Tạo bảng Reg_A Tạo bảng trip (TRIP_ID character (5), primary key (TRIP_ID)) Tạo bảng Engineer (TITLE character (20), STAFF_ID character (4), Foreign Key (STAFF_ID) REFERENCES People(STAFF_ID), Primary key (STAFF_ID)) Tạo bảng Manager (TITLE character (20), STAFF_ID character (4), Foreign Key (STAFF_ID) REFERENCES People(STAFF_ID), Primary key (STAFF_ID)) Tạo bảng Assign 75 (DEP_ID character (5), DESCRIP character (20), primary key (DEP_ID)) Tạo bảng Reg_B (DEP_ID character (5), DESCRIPT character (20), primary key (DEP_ID)) ( CAR_MODEL character (10), Foreign Key (CAR_MODEL) REFERENCES Car(CAR_MODEL), STAFF_ID character (4), Foreign Key (STAFF_ID) REFERENCES People(STAFF_ID), primary key (CAR_MODEL,STAFF_ID)) ALTER TABLE trip ADD CAR_MODEL character (10) null ALTER TABLE trip ADD STAFF_ID character (4) null ALTER TABLE trip ADD Foreign Key (CAR_MODEL,STAFF_ID) REFERENCES Assign(CAR_MODEL,STAFF_ID) Chèn liệu vào sở liệu TRIP INSERT INTO trip_ora.CAR (CAR_MODEL,CAR_SIZE,DESCRIPT,STAFF_ID) VALUES ('DA-02 ', 'Long car ', '165 ', 'A001 ') INSERT INTO trip_ora.CAR (CAR_MODEL,CAR_SIZE,DESCRIPT,STAFF_ID) VALUES ('MZ-18 ', 'Small sportics ', '120 ', 'B004 ') INSERT INTO trip_ora.CAR (CAR_MODEL,CAR_SIZE,DESCRIPT,STAFF_ID) VALUES ('R-023 ', 'Long car ', '150 ', 'A002 ') INSERT INTO trip_ora.CAR (CAR_MODEL,CAR_SIZE,DESCRIPT,STAFF_ID) VALUES ('SA-38 ', 'New dark blue ', 'D001 ') INSERT INTO trip_ora.CAR (CAR_MODEL,CAR_SIZE,DESCRIPT,STAFF_ID) VALUES ('WZ-01 ', 'Middle Sportics ', '120 ', '1445 ', 'B004 ') INSERT INTO trip_ora.DEPART (DEP_ID,SALARY) VALUES ('AA001', 35670) INSERT INTO trip_ora.DEPART (DEP_ID,SALARY) VALUES ('AB001', 30010) INSERT INTO trip_ora.DEPART (DEP_ID,SALARY) VALUES ('BA001', 22500) INSERT INTO trip_ora.DEPART (DEP_ID,SALARY) VALUES ('BB001', 21500) INSERT INTO trip_ora.PEOPLE (STAFF_ID,NAME,DOB) VALUES ('A001', 'Alexender INSERT INTO trip_ora.PEOPLE (STAFF_ID,NAME,DOB) VALUES ('A002', 'April ', '7-1-1962') ', '5-24-1975') INSERT INTO trip_ora.PEOPLE (STAFF_ID,NAME,DOB) VALUES ('B001', 'Bobby ', '12-5-1987') INSERT INTO trip_ora.PEOPLE (STAFF_ID,NAME,DOB) VALUES ('B002', 'Bladder ', '1-3-1980') INSERT INTO trip_ora.PEOPLE (STAFF_ID,NAME,DOB) VALUES ('B003', 'Brent INSERT INTO trip_ora.PEOPLE (STAFF_ID,NAME,DOB) VALUES ('B004', 'Brelendar INSERT INTO trip_ora.PEOPLE (STAFF_ID,NAME,DOB) VALUES ('C001', 'Calvin INSERT INTO trip_ora.PEOPLE (STAFF_ID,NAME,DOB) VALUES ('C002', 'Cheven INSERT INTO trip_ora.PEOPLE (STAFF_ID,NAME,DOB) VALUES ('C003', 'Clevarance ', '12-15-1979') ', '8-18-1963') ', '4-3-1977') ', '2-2-1974') ', '12-6-1987') INSERT INTO trip_ora.PEOPLE (STAFF_ID,NAME,DOB) VALUES ('D001', 'Dave ', '8-17-1964') INSERT INTO trip_ora.PEOPLE (STAFF_ID,NAME,DOB) VALUES ('D002', 'Davis ', '3-19-1988') 76 INSERT INTO trip_ora.PEOPLE (STAFF_ID,NAME,DOB) VALUES ('D003', 'Denny ', '8-5-1985') INSERT INTO trip_ora.PEOPLE (STAFF_ID,NAME,DOB) VALUES ('D004', 'Denny ', '2-21-1998') INSERT INTO trip_ora.REG_A (DEP_ID,DESCRIP) VALUES ('AA001', 'Class A Manager ') INSERT INTO trip_ora.REG_A (DEP_ID,DESCRIP) VALUES ('AB001', 'Class A Manager ') INSERT INTO trip_ora.REG_A (DEP_ID,DESCRIP) VALUES ('AC001', 'Class A Manager ') INSERT INTO trip_ora.REG_A (DEP_ID,DESCRIP) VALUES ('AD001', 'Class A Assistnat ') INSERT INTO trip_ora.REG_A (DEP_ID,DESCRIP) VALUES ('AE001', 'Class A Assistnat ') INSERT INTO trip_ora.REG_A (DEP_ID,DESCRIP) VALUES ('AF001', 'Class A Assistnat ') INSERT INTO trip_ora.REG_A (DEP_ID,DESCRIP) VALUES ('AG001', 'Class A Clark ') INSERT INTO trip_ora.REG_A (DEP_ID,DESCRIP) VALUES ('AH001', 'Class A Assistant ') INSERT INTO trip_ora.REG_B (DEP_ID,DESCRIPT) VALUES ('BA001', 'Class B Manager ') INSERT INTO trip_ora.REG_B (DEP_ID,DESCRIPT) VALUES ('BB001', 'Class B Manager ') INSERT INTO trip_ora.REG_B (DEP_ID,DESCRIPT) VALUES ('BC001', 'Class B Manager ') INSERT INTO trip_ora.REG_B (DEP_ID,DESCRIPT) VALUES ('BD001', 'Class B Assistant ') INSERT INTO trip_ora.REG_B (DEP_ID,DESCRIPT) VALUES ('BE001', 'Class B Assistant ') INSERT INTO trip_ora.REG_B (DEP_ID,DESCRIPT) VALUES ('BF001', 'Class B Assistant ') INSERT INTO trip_ora.REG_B (DEP_ID,DESCRIPT) VALUES ('BG001', 'Class B Clark ') INSERT INTO trip_ora.REG_B (DEP_ID,DESCRIPT) VALUES ('BH001', 'Class B Assistant ') INSERT INTO trip_ora.TRIP (TRIP_ID) VALUES ('T0001') INSERT INTO trip_ora.TRIP (TRIP_ID) VALUES ('T0002') INSERT INTO trip_ora.TRIP (TRIP_ID) VALUES ('T0003') INSERT INTO trip_ora.TRIP (TRIP_ID) VALUES ('T0004') INSERT INTO trip_ora.ENGINEER (TITLE,STAFF_ID) VALUES ('Electronic Engineer ', 'A001') INSERT INTO trip_ora.ENGINEER (TITLE,STAFF_ID) VALUES ('Senior Engineer ', 'B003') INSERT INTO trip_ora.ENGINEER (TITLE,STAFF_ID) VALUES ('Electronic Engineer ', 'B004') INSERT INTO trip_ora.ENGINEER (TITLE,STAFF_ID) VALUES ('Junior Engineer INSERT INTO trip_ora.ENGINEER (TITLE,STAFF_ID) VALUES ('System Engineer ', 'C002') ', 'D001') INSERT INTO trip_ora.ENGINEER (TITLE,STAFF_ID) VALUES ('Material Engineer ', 'D002') INSERT INTO trip_ora.ENGINEER (TITLE,STAFF_ID) VALUES ('Parts Engineer ', 'D003') INSERT INTO trip_ora.MANAGER (TITLE,STAFF_ID) VALUES ('Sales Manager ', 'A002') INSERT INTO trip_ora.MANAGER (TITLE,STAFF_ID) VALUES ('Marketing Manager ', 'B001') INSERT INTO trip_ora.MANAGER (TITLE,STAFF_ID) VALUES ('Sales Manager ', 'B002') INSERT INTO trip_ora.MANAGER (TITLE,STAFF_ID) VALUES ('General Manager ', 'C001') INSERT INTO trip_ora.MANAGER (TITLE,STAFF_ID) VALUES ('Marketing Manager ', 'C003') INSERT INTO trip_ora.ASSIGN (CAR_MODEL,STAFF_ID) VALUES ('MZ-18 ', 'A002') INSERT INTO trip_ora.ASSIGN (CAR_MODEL,STAFF_ID) VALUES ('MZ-18 ', 'B001') INSERT INTO trip_ora.ASSIGN (CAR_MODEL,STAFF_ID) VALUES ('MZ-18 ', 'D003') INSERT INTO trip_ora.ASSIGN (CAR_MODEL,STAFF_ID) VALUES ('R-023 ', 'B004') INSERT INTO trip_ora.ASSIGN (CAR_MODEL,STAFF_ID) VALUES ('R-023 ', 'C001') 77 INSERT INTO trip_ora.ASSIGN (CAR_MODEL,STAFF_ID) VALUES ('R-023 ', 'D001') INSERT INTO trip_ora.ASSIGN (CAR_MODEL,STAFF_ID) VALUES ('SA-38 ', 'A001') INSERT INTO trip_ora.ASSIGN (CAR_MODEL,STAFF_ID) VALUES ('SA-38 ', 'A002') INSERT INTO trip_ora.ASSIGN (CAR_MODEL,STAFF_ID) VALUES ('SA-38 ', 'D002') INSERT INTO trip_ora.ASSIGN (CAR_MODEL,STAFF_ID) VALUES ('WZ-01 ', 'B002') INSERT INTO trip_ora.ASSIGN (CAR_MODEL,STAFF_ID) VALUES ('WZ-01 ', 'B003') INSERT INTO trip_ora.ASSIGN (CAR_MODEL,STAFF_ID) VALUES ('WZ-01 ', 'C002') UPDATE trip_ora52.TRIP SET DEPT_ID= 'AA001', CAR_MODEL= 'MZ-18 , CAR_MODEL= 'MZ-18 ', STAFF_ID= 'A002' WHERE TRIP_ID='T0001‘ UPDATE trip_ora52.TRIP SET DEPT_ID= 'AA001', CAR_MODEL= 'MZ-18 , CAR_MODEL= 'MZ-18 ', STAFF_ID= 'A002' ', STAFF_ID= 'A002' WHERE TRIP_ID='T0003' UPDATE trip_ora52.TRIP SET DEPT_ID= 'BB001', CAR_MODEL= 'SA-38 , CAR_MODEL= 'SA-38 ', STAFF_ID= 'B001' ', STAFF_ID= 'B001' WHERE TRIP_ID='T0002' UPDATE trip_ora52.TRIP SET DEPT_ID= 'AB001', CAR_MODEL= 'SA-38 , CAR_MODEL= 'SA-38 ', STAFF_ID= 'A002' ', STAFF_ID= 'D002' ', STAFF_ID= 'D002' WHERE TRIP_ID='T0004' Tích hợp liệu Tích hợp phép hợp Relation Ra A1 A2 a11 a21 a12 a22 Relation Rb Relation Rx A1 ==> A2 A3 a11 a21 null a12 a22 null A1 A3 a13 null a31 a13 a31 a14 null a32 a14 a32 Trộn quan hệ tổng quát hóa Relation Ra Relation Rx1 A1 A2 A1 A2 a11 a21 a11 a21 a12 a22 a12 a22 Relation Rb ==> Relation Rx2 Relation Rx A1 A2 A3 a11 a21 null a12 a22 null A1 A3 A1 A3 a13 null a31 a13 a31 a13 78a31 a14 null a32 a14 a32 a14 a32 Trộn quan hệ kế thừa Relation Rxb Relation Rb A1 A2 A1 A2 A3 a11 a21 a11 a21 a31 a12 a22 a12 a22 null Relation Ra ==> Relation Rxa A1 A3 A1 A3 a11 a31 a11 a31 Trộn quan hệ tích hợp Relation Ra A1 A2 Relation Rx A1 A3 Relation Rx’ Relation Rx1 A5 A1 A2 A1 A3 *A5 a11 a21 a11 a31 a51 a11 a21 a12 a22 a11 a31 a12 a32 a51 a51 a12 a22 a12 a32 a51 Relation Ry Relation Rb A3 A4 A5 a31 a41 a51 a61 a32 a42 a52 a62 ==> Relation Ry Relation Rx2 A6 A3 A4 A5 a31 a41 a51 a61 a32 a42 a52 a62 A6 Trộn quan hệ phân loại Relation Ra A1 Relation Ra A2 a11 a21 a12 a22 Relation Rb Relation Rx ==> A1 A4 a11 a41 a12 a42 A1 A3 a13 a43 a13 a31 a14 a44 a14 a32 79 A1 A2 a11 a21 a12 a22 Relation Rb A1 A3 a13 a31 a14 a32 Trộn quan hệ quan hệ ngụ ý chúng Relation Ra A1 Relation Rb A2 A3 Relation Xa A1 a11 a21 a31 a11 a12 a22 a32 a12 A1 ==> A2 Relation Xb A3 *A1 a11 a21 a31 a11 a12 a22 a32 a12 Trộn quan hệ kiểu Relation Ra A1 Relation Rb A2 A3 Relation Xa *A1 A1 A2 Relation Xc *A3 *A1 a11 a21 a31 a11 a11 a21 a31 a11 a12 a22 a32 a12 a12 a22 a32 a12 Relation Ra' A1 Relation Rb' A3 A2 ==> Relation Xb A1 A3 A1 a11 a21 a31 a11 a31 a11 a12 a22 a33 null a32 a12 a33 null Chuyển đổi liệu từ dạng quan hệ sang dạng XML Kiến trúc chuyển đổi ngược từ sở liệu quan hệ sang dạng văn XML thể hình vẽ Relational Schema Relational Databse Step 1: Reverse Engineering Step 2: Schema Translation EER Model Step 3: Data Conversion XML DTD & DTD Graph XML Document Phương pháp luận cho việc chuyển đổi sở liệu quan hệ sang XML Là kết việc phiên dịch lược đồ, dịch mơ hình thực thể liên kết sang khung nhìn khác lược đồ XML DTD dựa phần tử gốc lựa chọn chúng Cho lược đồ XML dịch, đọc quan hệ nguồn tương ứng cách 80 câu lệnh nhúng SQL quan hệ cha Các sau tải vào văn XML dựa vào cấu trúc DTD XML Chúng ta sau đọc quan hệ tải chúng vào văn XML Thuật toán chuyển đổi sở liệu quan hệ sang dạng XML Các bước chuyển đổi từ sở liệu quan hệ vào văn XML Bước 1: Chuyển đổi ngược lược đồ quan hệ mơ hình thực thể liên kết Bằng cách sử dụng bảng phân loại để xác định mối quan hệ phím thuộc tính tất mối quan hệ, phục hồi liệu ngữ nghĩa hình thức mơ hình EER Bước 2: Chuyển đổi liệu từ quan hệ vào văn XML Chúng ta ánh xạ ngữ nghĩa liệu mơ hình EER vào đồ thị DTD dựa ràng buộc phụ thuộc liệu Những ràng buộc sau chuyển đổi thành DTD lược đồ XML Bước 2.1 Xác định phần tử gốc Để lựa chọn phần tử gốc phải đưa thơng tin liên quan vào lược đồ XML Những thông tin liên quan liên đới tới thực thể mà liên quan đến thực thể chọn người sử dung Các quan hệ liên quan bao gồm thực thể lựa chọn tất thực thể liên quan tới chúng mà định hướng Trong mơ hình EER, từ thực thể tới thực thể khác tương ứng với mơ hình phân cấp XML Ví dụ hình vẽ, bên trái mơ hình EER chuyển đổi sang bên phải DTD XML 81 Entity A * 1 R1 n * R4 * Entity B * * n 1 Bước 2.2 Ánh xạ loại mối quan hệ từ RDB đến XML R 2chúng ta dịch R R5 Trong DTD quan hệ 1-1 vào phần tử cha phẩn tử - quan hệ 1- nhiều vào phần tử cha phần tử có xuất nhiều lần n Entity D Mappin R7 - Entity C Selected Entity Entity E n * n n Entity F Entity H Trong quan hệ nhiều-nhiều, chúng ánh xạ vào DTD cấu trúc phân cấp với định danh ID tham chiếu định danh IDREF Quan hệ 1-1 dịch hình vẽ sau EER Model Entity A DTD Graph R6 A1 A2 Element A n Entity G R Entity B Schema B1 B2 Relational Schema Relation A(A1, A2) Relation B(B1, B2, *A1) Element B Translation EER Model A1 A2 Relevant Entities B1 B2 DTD 82 Relation A A1 A2 a11 a21 a12 a22 XML Document Data Relation B B1 B2 b11 b21 b12 b22 *A1 a11 a12 Conversion Quan hệ 1-nhiều dịch hình vẽ sau EER Model Entity A DTD Graph A1 A2 Element A A1 A2 * R Schema n Entity B B1 B2 Translation Element B B1 B2 Relational Schema DTD Relation A(A1, A2) Relation B(B1, B2, *A1) Relation A A1 A2 a11 a21 a12 a22 Relation B B1 B2 b11 b21 b12 b22 b13 b23 XML Document Data *A1 a11 a12 a12 Conversion Quan hệ nhiều-nhiều dịch hình vẽ sau 83 EER Model Entity A DTD Graph A1 A2 m R A1 n Entity B B1 A2 Element A Element R Element B A_id B1 B2 B_id Schema Translation A_idref B_idref DTD Relational Schema Relation A(A1, A2) Relation B(B1, B2) Relation R(*A1, *B1) Relation A A1 A2 a11 a21 a12 a22 Relation B B1 B2 b11 b21 b12 b22 B2 XML Document Data Conversion Relation R *A1 *B1 a11 b11 a12 b12 b12 a11 Câu hỏi ôn tập chương 2.1 Trình bày giống khác định nghĩa kiểu văn (DTD XML) văn có cấu trúc tốt 2.2 Trình bày khác tổng qt hóa phân loại hóa liên quan tới thể liệu thực thể/các thực thể lớp cha lớp con? Có trường hợp đặc biệt mà hai ngữ nghĩa liệu giao khơng? 84 2.3 Các lược đồ quan hệ tích hợp lại với thành lược đồ quan hệ khơng? Giải thích câu trả lời 2.4 Trình bày bước giám sát cần thiết cuả người dùng việc tích hợp hai mơ hình thực thể liên kết mở rộng thành mơ hình thực thể liên kết mở rộng Giải thích câu trả lời 2.5 Bạn so sánh ưu điểm nhược điểm sử dụng “cách tiếp cận dịch mức logic” với “cách tiếp cận sử dụng chương trình tùy biến” công việc chuyển đổi liệu 85 ... 10 6 Thiết kế sở liệu với lược đồ hình 10 9 Nghiên cứu xây dựng kho liệu 11 0 Câu hỏi ôn tập chương 11 4 Chương 4: Khai phá liệu 11 6 4 .1 Tiền xử lý liệu. .. Chương 2: Các công nghệ kỹ thuật tích hợp sở liệu 2 .1 Giới thiệu Mơ hình liệu mở rộng XML Phần môn học vào xem xét kỹ thuật chuyển đổi tích hợp liệu vào kho liệu từ nguồn liệu khác Trước hết xem... 12 Bài toán phân loại cho liệu hồi quy 12 Phát sai lệch hay dị thường 13 Khai phá liệu Nguyên lý quy nạp 13 1. 4 Sự tích hợp khai phá liệu với sở liệu hay kho liệu