1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo Cáo Đồ Án Cơ Sở Dữ Liệu Phân Tán Đề Tài Dữ Liệu Phân Tán Trên Sql Serverdi Trú Dữ Liệu Sử Dụng Talend.pdf

91 3 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dữ Liệu Phân Tán Trên SQL Server Di Trú Dữ Liệu Sử Dụng Talend
Tác giả Nguyễn Hoàng Chương, Khưu Minh Khoa
Người hướng dẫn Nguyễn Quốc Huy
Trường học Trường Đại Học Sài Gòn
Chuyên ngành Cơ Sở Dữ Liệu Phân Tán
Thể loại đồ án
Năm xuất bản 2023 – 2024
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 91
Dung lượng 15,28 MB

Cấu trúc

  • A. Giới thiệu phân mảnh (5)
    • 1) Khái niệm (5)
    • 2) Kiến trúc của CSDL Phân tán (6)
    • 3) Tính trong suốt trong phân tán (8)
    • 4) Các loại phân mảnh (9)
  • B. Áp dụng phân mảnh trên Database của đề tài (11)
  • C. Di trú dữ liệu sử dụng Talend (55)
    • 1. Talend là gì (55)
    • 2. Lợi ích của việc sử dụng Talend (56)
    • 3. Ứng dụng của Talend (57)
    • 4. Cài đặt JDK (57)
  • D. Talend studio (75)

Nội dung

Trong ngữ cảnh này, việc sử dụng hệ quản trị cơ sở dữ liệu phân tán không chỉ trở nên cần thiết mà còn là một phần quan trọng của chiến lược kinh doanh.. Trong hệ sinh thái của các hệ th

Giới thiệu phân mảnh

Khái niệm

Các bảng được chia thành các phần nhỏ hơn và được lưu trữ tại các vị trí ưu tiên để dễ dàng truy xuất Điều này giúp đảm bảo rằng quá trình kết hợp dữ liệu diễn ra mà không bị mất mát thông tin.

+ Phân mảnh ngang: Nếu bảng có 1000 hàng, có thể phân chia thành hai bảng với 500 hàng mỗi bảng và lưu trữ trên hai nút khác nhau.

Phân mảnh dọc cho phép chia bảng thành hai nút, với các cột A và B ở một nút, trong khi các cột C và D ở nút khác Phương pháp này giúp duy trì tính nhất quán cao của dữ liệu và giảm chi phí lưu trữ Tuy nhiên, việc quản lý và kết hợp dữ liệu giữa các nút có thể tốn kém.

Một CSDL tối ưu là một CSDL được phân mảnh hợp lý, các mảnh nằm ở các site hợp lý.

Các mảnh và hình ảnh vật lý của một quan hệ toàn cục:

Các mảnh và các hình ảnh vật lý của một quan hệ toàn cục.

- Độ tin cậy cao hơn CSDL tập trung ->Hoạt động 24/7

- Chi phí truyền thông thấp (truy xuất nhanh) khi lưu trữ cục bộ.

- Khả năng phản hồi nhanh trong trường hợp nhiều truy vấn.

- Tăng chi phí license cho nhiều ứng dụng đi theo.

- Chi phí cho đồng bộ hóa các bản sao, chi phí cho quản lý phân mảnh.

- Khả năng cao ảnh hưởng đến toàn vẹn dữ liệu.

- Phân bô dữ liệu bị lệch và không phù hợp với từng thời điểm.

- Cần nhân sự am hiểu, có kiến thức để vận hành CSDLPT

Kiến trúc của CSDL Phân tán

Lược đồ toàn cục định nghĩa tất cả dữ liệu trong CSDLPT, bao gồm cả dữ liệu chưa phân tán tại các trạm trong hệ thống Nó được xác định tương tự như CSDL tập trung.

Trong mô hình quan hệ thì lược đồ toàn cục gồm định nghĩa một tập hợp các quan hệ toàn cục.

Mỗi quan hệ toàn cục có thể được chia thành nhiều phần không chồng lấn, được gọi là mảnh (fragment) Ánh xạ giữa các quan hệ toàn cục và các mảnh này được gọi là lược đồ phân mảnh, thể hiện mối quan hệ 1-n.

Các mảnh được mô tả bằng tên của quan hệ toàn cục cùng với chỉ mục Chẳng hạn,

Ri được hiểu là mảnh thứ i của quan hệ R.

Có nhiều cách khác nhau để thực hiện việc phân chia mảnh.

Xác định một mảnh được đặt tại nơi nào ( đươc định vị vật lý trên 1 hay nhiều trạm)

A physical image (Rj) is formed by placing fragments of a global relationship R at a specific location j This configuration represents the physical image of the global relationship R at that designated point j.

Bản nhân (Replica) là một mảnh dữ liệu được đặt tại một vị trí xác định, được ký hiệu bằng tên quan hệ toàn cục cùng với hai chỉ số: chỉ số mảnh và chỉ số nơi.

Tính trong suốt trong phân tán

Trong CSDLPT có 3 mức trong suốt: Trong suốt phân mảnh, Trong suốt vị trí, Trong suốt nhân bản, Trong suốt ánh xạ cục bộ và không trong suốt.

+ Trong suốt phân mảnh (Fragmentation Transparency): Là mức trong suốt cao nhất cho phép làm việc trên các quan hệ toàn cục.

- Không nhìn thấy các mảnh.

- Nhìn thấy các quan hệ toàn cục.

Làm việc trên CSDLPT hoàn toàn giống như làm việc với CSDL tập trung.

+ Trong suốt vị trí (Location Transparency):

- Không nhìn thấy các quan hệ cục.

Là làm việc trên các mảnh thay vì quan hệ toàn cục ( tuy nhiên không quan tâm mảnh đặt tại vị trí nào)

+ Trong suốt nhân bản (Replication Transparency):

- Giống Location Transparency ( User không biết có sự nhân bản giữa các mảnh)

- Bản nhân của các mảnh.

+ Trong suốt ánh xạ cục bộ (Replication Transparency):

- Nhìn thấy mảnh và vị trí.

- Không nhìn thấy CSDL vật lý.

Các ứng dụng phải xác định được truy cập vào fragmetn nào và fragment đó được đăt jtaij location nào trong hệ CSDLPT.

Ngoài ra còn có trong suốt phân bố (Distribution Transparency) bao gồm 4 tính trong suốt trên Thường áp dụng tính này cho User của Hệ thống phân tán.

- Thấy được ánh xạ cục bộ.

Các loại phân mảnh

4.1) Phân mảnh ngang (Horiziontal Fragmentation)

Phân mảnh ngang là một quan hệ tổng thể n-bộ R, được thực hiện bằng cách tách R thành các quan hệ con R1, R2, , Rn Mục tiêu của quá trình này là đảm bảo rằng quan hệ R có thể được phục hồi thông qua phép hội, tức là R = R1 ∪ R2 ∪ ∪ Rn.

- Phân mảnh ngang chính (Primary HF): Một quan hệ được thực hiện dựa trên các vị từ được định nghĩa trên quan hệ đó.

- Phân mảnh ngang dẫn xuất (Dervived HF): Một quan hệ thực hiện dựa trên các vị từ được định nghĩa trên quan hệ khác.

4.2) Phân mảnh dọc (Vertical Fragmentation )

- VF là một quan hệ tổng thể n-bộ R là tách R thành các quan hệ con n-bộ R1, R2,

… Rn sao cho R có thể phục hồi bằng phép kết (nối)

R= R1 kết R2 kết … kết Rn ( Do ta cần kết các thuộc tính lại )

- Phân mảnh ngang hỗn hợp (Mixed Fragementation): Kết hợp cả phân mảnh ngang và phân mảnh dọc.

4.3) Các điều kiện đúng đắn

- Quan hệ R được phân thành các mảnh R R 1 n

- Khi phân mảnh cần đảm bảo các quy tắc sau để CSDL đảm bảo tính nhất quán:

+ Điều kiện đầy đủ ( Completeness Condition)

- HF: mục dữ liệu là 1 bộ (tuple)

Tất cả mọi bộ thuộc R khi phân thành [1 n] mảnh thì các bộ đó phải nằm trong 1 trong các mảnh R (HF).i

- VF: mục dữ liệu là một thuộc tính

Tất cả mọi Attribute thuộc R khi phân thành [1 n] mảnh thì các Attr phải nằm trong 1 trong các mảnh Ri

Với Attr là tập thuộc tính của R

+ Điều kiện tái tạo (Reconstruction Condition)

Nếu mục dữ liệu d có trong R thì nó không có trong bất kì mảnh R nào khác ( k !i i k

Tiêu chuẩn này đảm bảo các mảnh ngang sẽ tách biệt.

-VF: Thường vi phạm vì các Primary Key phải được lặp lại trong mỗi mảnh Khi giao lại tập giao sẽ có {PK}

Áp dụng phân mảnh trên Database của đề tài

EMP(EMPNUM,NAME,TAX,SAL,MGRNUM,DEPTNUM)

DEPT(DEPTNUM,NAME,AREA,MGRNUM)

SUPPLY(SNUM,PNUM,DEPTNUM,QUAN)

2.1 Phân mảng ngang : a) Bảng SUPPLIER (theo CITY):

SUPPLIER1= σ CITY=’TP HCM’SUPPLER

SUPPLIER2 = σ CITY=’Ha Noi’ SUPPLIER

-Các vị từ định tính:

CITY=’TP HCM’ b) BẢNG DEPT(theo AREA):

-Các vị từ định tính :

-Điều kiện tái tạo đầy đủ :

2.2 Phân mảnh ngang dẫn xuất: a) Bảng SUPPLY (theo SNUM):

SUPPLY1= SUPPLY ⋉ SNUM=SNUM SUPPLIER1

SUPPLY2= SUPPLY ⋉ SNUM=SNUM SUPPLIER2

-Các vị từ định tính:

Q1:SUPPLY.SNUM=SUPPLIER.SNUM AND SUPPLIER.CITY =’TP HCM’

Q2:SUPPLY.SNUM=SUPPLIER.SNUM AND SUPPLIER.CITY =’Ha Noi’

-Điều kiện tái tạo đầy đủ :

SUPPLY = SUPPLY1 ∪ SUPPLY2 b) Bảng SUPPLY (theo DEPT)

-Các vị từ định tính:

Q1: SUPPLY.DEPTNUMT.DEPTNUM AND DEPT.AREA=’North’ Q2: SUPPLY.DEPTNUMT.DEPTNUM AND DEPT.AREA=’South’

-Điều kiện tái tạo đầy đủ :

SUPPLY = SUPPLY1 ∪ SUPPLY2 c) BẢNG EMP (theo DEPT)

-Các vị từ định tính:

Q1: DEPT.DEPTNUMT.DEPTNUM AND DEPT.AREA=’North’ Q2: DEPT.DEPTNUMT.DEPTNUM AND DEPT.AREA=’South’

-Điều kiện tái tạo đầy đủ :

EMP1= σ DEPTNUM7 π EMPNUM,NAME,MGRNUM,DEPTNUM EMP

EMP3= π EMPNUM,NAME,SAL,TAX,DEPTNUM EMP

+Điều kiện tái tạo đầy đủ :

EMP = (EMP1 ∪ EMP2) ⋈ EMPNUM=EMPNUM ( π EMPNUM,NAME,SAL,TAX,DEPTNUM EMP3)

3.Các bước cài đặt phân tán CSDL trong SSMS Để phân tán CSDL trong SSMS ta cần làm theo những bước sau (5 bước):

Bước 1: Chuẩn bị thư mục

Tạo một thư mục "REPLDATA" tại vị trí lưu trữ mong muốn để lưu trữ dữ liệu trao đổi trong quá trình cập nhật giữa các phân mảnh cơ sở dữ liệu và cơ sở dữ liệu gốc.

To create a snapshot of the folder, set up a shared folder in Windows that allows users to have read/write permissions, such as the shared folder named \\C\REPLDATA This can be done by right-clicking on the REPLDATA folder and selecting the appropriate sharing options.

Properties, chọn tab Sharing -> Share Như hình sau:

Chọn Everyone ở phần drop menu -> Add-> chọn Permission Level là

Sau khi xong ,ta chỉ việc bấm Done và có folder để chứa dữ liệu như hình bên dưới

Bước 2: Cấu hình CSDL phân tán (Configure Distribution)

In Microsoft SQL Server Management Studio, connect to the primary server, which often serves as both the Publisher and Distributor, to facilitate data distribution.

- Right click vào folder Replication, chọn Configure Distribution.

The Configure Distribution Wizard window appears To utilize a remote Distributor, select "Use the following server as Distributor" and choose a server The server must be configured as a Distributor, and the Publisher must be enabled to use the Distributor Then, click Next.

Trong cấu hình Snapshot Folder, bạn cần nhập đường dẫn cho Snapshot Folder sao chép SQL hoặc có thể giữ nguyên đường dẫn mặc định Snapshot Folder đóng vai trò quan trọng trong việc đồng bộ hóa dữ liệu ban đầu của quá trình sao chép giao dịch, đảm bảo dung lượng đủ lớn để chứa toàn bộ dữ liệu cần sao chép Ở đây, tôi sẽ giữ lại các giá trị mặc định và nhấn Next.

Distributed databases are designated for local distributors, storing metadata and historical data for all replications and transactions This setup facilitates transaction replication in a distributed environment.

Trong trang Publishers, chỉ định publishers sao chép SQL sẽ truy cập Distributor và nhấp vào Next

Trong Wizard Actions , Bạn có tùy chọn chạy ngay lập tức hoặc tạo tập lệnh có thể được thực thi sau đó và nhấp vào Next

Trong trang complete the wizard, Xem lại các cài đặt và tùy chọn cấu hình, sau đó nhấp vào Finish để kích hoạt

- Start SQL Server Agent ở các Servers thao tác.

- Tạo publication ở server gốc. chọn Replication -> right click vào Local Publications -> New Publication.

- Chọn SQL Server 2008 or later -> Next

- Chọn table sẽ phân mảnh -> Next

- Select the table to filter: chọn bảng phân mảnh -> Chọn điều kiện phân mảnh Sau đó, chọn Ok.

CITY có mã là “TP HCM”:

Next, select "SUPPLIER(dbo)," click on "Add," and choose "Add join to Extend the Selected Filter" to include all rows from both tables, provided there is a match between the columns.

Chọn xong thì ấn Next:

- Cài đặt như hình -> Ok

- Đặt tên Publictation name -> Finish Hoàn tất việc phân mảnh.

After completing the fragmentation, select a server to store the replication of the original database Navigate to Local Publications, right-click on the desired publication, and choose New Subscriptions to proceed.

- Chọn Add SQL Server Subscriber và chọn server để chứa cơ sở dữ liệu phân tán

(hoặc có thể chọn 1 Database đã tồn tại trươc đó trong \SERVER1 Đặt tên database mới giống như tên database của server gốc

Tại Merge Agent Security , chuột phải vào “ ”

Nhập tài khoản và mật khẩu của master khi mình cài đặt Microsoft SQL Server Dựa theo từng bước bên dưới

Hoàn tất quá trình tạo Subcriptions.

(VD: có 1 server gốc và 2 phần mảnh 1-2, liên kết mảnh 1 và mảnh 2 lại)

- Tạo remote login(SC) bên phân mảnh 1 Security-> Logins -> Right Click NewLogin.

- Chọn User Mapping -> Chọn db mà account này có thể tao thác -> chọn Role.

- Tạo link server từ phân mảnh 2 đến phân mảnh 1 Server Ojects->Right Click Link Server.

- Tại Product Name và Data Source điền địa chỉ server muốn kết nối.

- Tại Security chọn như hình và điền tài khoản remote của Server muốn kết nối.

- Tại server options cài đặt như hình ->Ok

Và làm ngược lại để có thể liên kết được mảnh 1 và 2, mảnh 2 và 1.

Kiểm tra dữ liệu bảng employees của SERVER 2 ở tại Server 1 bằng cách dùng LINK vừa được tạo :

4.Demo truy vấn các phân mảnh trên

Mức 1: trong suốt phân mảnh

Truy vấn CSDL dựa vào CITY

DECLARE @CITY varchar ( 100 ); set @CITY = 'TP HCM' ; select * from SUPPLIER where CITY=@CITY

Mức 2:Trong suốt vị trí dùng cho ứng dụng chỉ đọc

Kiểm tra thông tin SUPPLIER

SET @CheckSNUM = 123 Ví dụ mã nhà cung cấp cần kiểm tra ;

Supplier có ở TP HCM không?

IF EXISTS ( SELECT * FROM CompanyDB dbo SUPPLIER WHERE SNUM =

@CheckSNUM AND CITY = 'TP HCM')

SELECT @Result = CONCAT( NAME , ', ', CITY )

Supplier có ở Ha Noi không?

ELSE IF EXISTS ( SELECT * FROM CompanyDB dbo SUPPLIER WHERE SNUM =

@CheckSNUM AND CITY = 'Ha Noi')

SELECT @Result = CONCAT( NAME , ', ', CITY )

Mức 3:Trong suốt ánh xạ cục bộ

SET @SNUM = 3 Ví dụ mã nhà cung cấp cần kiểm tra ;

IF EXISTS ( SELECT * FROM LINK1 CompanyDB dbo SUPPLIER WHERE SNUM

SELECT @KQ = CONCAT( NAME , ', ', CITY )

FROM LINK1 CompanyDB dbo SUPPLIER

ELSE IF EXISTS ( SELECT * FROM LINK2 CompanyDB dbo SUPPLIER WHERESNUM @SNUM = )

SELECT @KQ = CONCAT( NAME , ', ', CITY )

FROM LINK2 CompanyDB dbo SUPPLIER

mức 1: update EMP set DEPTNUM = 8 where EMPNUM = 8 select * from EMP

Di trú dữ liệu sử dụng Talend

Talend là gì

Talend là nền tảng mã nguồn mở chuyên về tích hợp dữ liệu và quản lý quy trình dữ liệu, cung cấp bộ công cụ toàn diện cho việc phát triển, triển khai và quản lý các giải pháp tích hợp dữ liệu phức tạp Các khái niệm chính trong Talend bao gồm khả năng tích hợp, quản lý dữ liệu và tối ưu hóa quy trình.

 Job: Một job là một đơn vị thực thi logic trong Talend

Hệ thống này bao gồm một chuỗi các thành phần liên kết chặt chẽ với nhau nhằm thực hiện một nhiệm vụ cụ thể, như trích xuất dữ liệu từ nguồn, chuyển đổi dữ liệu và cuối cùng tải dữ liệu vào một điểm đến.

Component trong Talend là khối xây dựng cơ bản, thực hiện các chức năng cụ thể như đọc dữ liệu từ tệp, lọc dữ liệu và ghi dữ liệu vào cơ sở dữ liệu.

 Flow: Flow là một biểu đồ trực quan hiển thị cách các component kết nối với nhau để thực hiện job.

Talend Studio là một IDE mã nguồn mở, cho phép người dùng phát triển các giải pháp Talend một cách hiệu quả Với giao diện người dùng đồ họa thân thiện, Talend Studio hỗ trợ việc tạo job, component và flow dễ dàng, giúp tối ưu hóa quy trình làm việc.

 Exchange: Talend Exchange là một kho lưu trữ trực tuyến nơi người dùng có thể chia sẻ các component, job và flow do họ tạo.

Lợi ích của việc sử dụng Talend

Talend là một nền tảng mã nguồn mở, cho phép người dùng sử dụng và sửa đổi miễn phí Điều này khiến Talend trở thành lựa chọn hấp dẫn cho các doanh nghiệp có ngân sách hạn hẹp.

 Dễ sử dụng: Talend Studio cung cấp một giao diện người dùng đồ họa trực quan giúp dễ dàng tạo các giải pháp tích hợp dữ liệu.

 Đa dạng: Talend hỗ trợ nhiều loại nguồn dữ liệu và điểm đến, bao gồm cơ sở dữ liệu, tệp, ứng dụng đám mây và hơn thế nữa.

 Mạnh mẽ: Talend có thể được sử dụng để phát triển các giải pháp tích hợp dữ liệu phức tạp.

 Có thể mở rộng: Talend có thể được mở rộng để đáp ứng nhu cầu của các doanh nghiệp đang phát triển.

Ứng dụng của Talend

 Tích hợp dữ liệu: Talend có thể được sử dụng để tích hợp dữ liệu từ nhiều nguồn khác nhau vào một kho lưu trữ dữ liệu trung tâm.

Talend là công cụ hiệu quả trong việc quản lý quy trình dữ liệu, cho phép tự động hóa các bước quan trọng như trích xuất, chuyển đổi và tải dữ liệu.

 Phân tích dữ liệu: Talend có thể được sử dụng để chuẩn bị dữ liệu cho phân tích dữ liệu.

 Phát triển ứng dụng: Talend có thể được sử dụng để phát triển các ứng dụng dựa trên dữ liệu.

Cài đặt JDK

Bước 1: chọn tải xuống Java Downloads | Oracle

Sau khi cài đặt về máy chọn mở file vừa cài đặt về nó sẽ hiện như sau:

Bước 3: Và sau đó ấn chọn next sẽ hiện như sau, chúng ta có thể chọn thay đổi đường dẫn bằng Change

Bước 4: Sau khi ấn next sẽ hiện ra như sau:

Bước 5: Chúng ta tiến hành cài đặt biến môi trường Environment Variable bằng tổ hợp phím Window+R

Sau đó ta nhập vào sysdm.cpl

Sau đó ta chọn Advanced

Bước 6: Chọn setting và chọn theo đường dẫn bên dưới

Bước 7: sau đó chúng ta sẽ làm theo các bước bên dưới

Bước 8: Để xác minh cài đặt Java chúng ta chọn Win + R nhập cmd

Gõ java-version và chọn phím enter

Ta truy cập vào trang web sau:SQL Server Downloads | Microsoft Chọn Download Developer

Sau đó chọn vào Basic

Sau khi xong chọn Close.

Truy cập trang web Talend | A Complete, Scalable Data Management Solution | Talend chọn Free Trail.

Sau khi đăng nhập thành công vào talend chọn Develop

Sau đó chọn file talend để cài về máy.

Sau khi cài đặt thì đăng nhập bằng tài khoản đã được đăng kí trước đó

Và sau khi đăng nhập thành công sẽ hiện ra như sau:

Sau khi được chuyển tới trang sau, chúng ta sẽ không thể lấy dự án nào từ Cloud vì chưa tạo dự án nào cả Do đó, để tiếp tục, chúng ta cần truy cập vào https://app.us.cloud.talend.com/ để tạo dự án mới.

Phía trên cùng góc trái ta chọn vào “Management Console”

Ta chọn vào mục project sau đó chọn “ Add Project”

Sau khi hoàn tất việc điền thông tin và tạo dự án thành công, chúng ta quay lại ứng dụng Talend để xem dự án vừa được tạo.

Và đây sẽ là giao diện của Taland Studio sau khi ta bấm open ở bước trên

Talend studio

Đây là giao diện Talend Studio

Tại phần Metadata ở giao diện Talend Studio thì chuột phải vào Db Connections và chọn Create connection

Cửa sổ “Database Connection” hiện ra và ta nhập thông tin cần thiết, sau đó nhấn “Next”.

Tại cửa sổ này ,chọn DB Type là Microsoft SQL Server ,nhập tài khoản ,mật khẩu ,tên SERVER,Port và Database.Sau khi xong ta chọn

“Test connection “ để kiểm tra những thông tin trên có tồn tại hay không.

Nếu bạn thấy cửa sổ này, điều đó có nghĩa là bạn cần tải thêm các module để hỗ trợ kết nối và di chuyển dữ liệu trong Talend Studio.

“ Dowload and install all modules available”.

Chọn accept all ,tự động tải những modules cần thiết về và tự đóng cửa sổ này.

Sau khi xong công đoạn cài thêm những module thì hệ thống hiện thông báo kiểm tra kết nối thành công Chuột phải vào “Ok ->”Finish” để kết thúc

Sau khi tạo thành công,sẽ hiển thị trong Db connection

Sau khi tạo xong Db connection trong Metadata, ta tiến hành tạo job, ở phần “Job Designs” ta chuột phải vào “Standard” và chọn “Create

Tại cửa sổ New job ta nhập thông tin vào sau khi xong nhấn “Finish”.

Sau khi tạo xong , dưới múc Standard sẽ hiển thị job mới tạo.

To migrate data from SQL Server to MySQL using Talend, set up tPrejob, tDBConnection_1 (for Microsoft SQL Server), and tDBConnection_2 (for MySQL) Connect tPrejob to tDBConnection_1 using OnComponentOk, and link tDBConnection_1 to tDBConnection_2 via OnSubjobOk.

- tPrejob: Khởi động chuỗi con công việc đầu tiên khi công việc bắt đầu.

- tDBConnection_1(Microsoft SQL Server):Thiết lập kết nối với SQL SERVER

- tDBConnection_2(MySQL):Thiết lập kết nối với MySQl

Các thành phần trong quy trình được kết nối theo thứ tự: tPrejob, tDBConnection_1 và tDBConnection_2 Mỗi thành phần chỉ được thực hiện khi thành phần trước đó hoàn thành thành công Quy trình này chủ yếu nhằm kết nối SQL SERVER và MySQL thông qua Talend Studio.

In this section, since the SQL Server was created earlier, you can simply drag and drop it into the job The system will display the Component window where you can select tDBConnection (Microsoft SQL Server) Consequently, tDBConnection_1 will automatically contain the connection details such as host, server name, database, port, user, and password.

Trong phần Conponent của tDBConnection_2(MySQL) ,ta nhập thông tin của MySQL mà ta muốn kết nối như

Sau khi nhập thông tin kết nối, hãy chạy job để thực hiện kết nối giữa Talend với SQL Server và MySQL Nếu quá trình chạy hoàn tất mà không xuất hiện thông báo lỗi, điều đó có nghĩa là bạn đã kết nối thành công.

Tiếp theo ,ta tạo thêm tDBTableList_1 ,SQL_SERVER(tDBInput) và tDBOutput Sau đó nối tDBTableList với SQL_SERVER và nối SQL_SERVER với tDBOutput

- tDBTableList:Lấy danh sách tất cả các bảng trong cơ sở dữ liệu SQL SERVER.

- SQL_SERVER(tDBInput): Là một tDBInput được kéo thả do

- tDBOutput:Chèn,cập nhật ,update hoặc xóa dữ liệu trong một bảng output MySQL từ dữ liệu đến từ SQL_SERVER(tDBInput).

Các thành phần này được kết nối với nhau theo thứ tự :tDBTableList_1-

> SQL_SERVER-> tDBOutput.Mỗi thành phần chỉ được thực hiện sau khi thành phần đó hoàn thành thành công.

Trong phần Conponent của tDBTableList , ta tại Database t chọn vào Microsoft SQL Server , và phần Conponent List thì chọn tDBConnection_1

Tại SQL_SERVER (tDBInput), thông tin về host, database được thiết lập sẵn Bạn nhấn vào phần Edit Schema để mở cửa sổ chỉnh sửa Trong cửa sổ này, bấm thêm schema mới, đặt tên và đổi Type thành Dynamic, sau đó nhấn Ok Tiếp theo, trong phần Table Name, tìm đến Outline ở góc trái màn hình, chọn tDBTablelist_1 và kéo thả "Current Table".

CURRENT_TABLE(Flow)” vào phần Table Name.Và phần Query ,ta nhập “select * from ” + copy phần table được kéo thả Ta có hình bên dưới

In the tDBOutput_1 (MySQL) component, select "Use an existing connection." Next, in the Component List, choose tDBConnection_2, and then drag and drop the "Current Table."

CURRENT_TABLE(Flow)” và table và tại phần “Action on table” thì ta chọn Create table if does not exist”.

Ta tạo thêm tDBCommit và tDBRollback Sau đó ,ta nối tDBTableList với tDBCommit qua OnSubjobOk và nối tDBTableList với tDBRollback qua OnSubjobError.

tDBCommit là một bước quan trọng trong việc xác nhận tất cả các thay đổi đã thực hiện trong phiên làm việc hiện tại trên MySQL Nó được kết nối với tDBTableList thông qua sự kiện OnSubjobOk, đảm bảo rằng quá trình này sẽ diễn ra ngay sau khi tDBTableList hoàn thành thành công.

tDBRollback là một công cụ quan trọng trong MySQL, cho phép hủy bỏ tất cả các thay đổi trong phiên làm việc hiện tại Nó được liên kết với tDBTableList thông qua sự kiện OnSubjobError, đảm bảo rằng tDBRollback sẽ được thực hiện ngay sau khi tDBTableList gặp lỗi.

Nếu tất cả các bước được thực hiện thành công, mọi thay đổi sẽ được xác nhận Ngược lại, nếu có lỗi xảy ra, tất cả các thay đổi sẽ bị hủy bỏ Mỗi bước tiếp theo chỉ được tiến hành khi bước trước đó đã hoàn thành.

Trong phần Conponent của tDBCommit_1(MySQL) thì trong phần Component List ta chọn là tDBConnection_2

Trong phần Conponent của tDBRollback_1(MySQL) thì trong phần Component List ta chọn là tDBConnection_2

Kế tiếp ta tạo thêm tPostjob ,tDBClose_2,tDBClose_1 Sau đó nối tPostjob với tDBClose_1 bằng OnCommponentOk , và từ tDBClose_1 với tDBClose_2 bằng OnSubjobOk

-tPostjob: Bắt đầu chuỗi con công việc cuối cùng sẽ được thực hiện khi công việc của bạn kết thúc

Trong phần Conponent của tDBClose_2(Microsoft SQL Server) thì trong phần Component List ta chọn là tDBConnection_1

In the tDBClose_1 component of the MySQL migration process, selecting tDBConnection_2 from the Component List indicates that the job has completed successfully without any errors, confirming that the data migration from SQL Server to MySQL is complete.

Sau khi di trú dữ liệu thành công , ta qua MySQL WorkBench

Ngày đăng: 25/11/2024, 16:26

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w