TRÍCH XU遺T D頴 LI烏U (EXTRACT DATA, DATA INGESTION)

Một phần của tài liệu Xây dựng hệ thống trí tuệ kinh doanh cho doanh nghiệp áp dụng vào công ty sản xuất hoặc thương mại (Trang 70 - 72)

M 影E"VKçW"A陰 TÀI

4.2.1 TRÍCH XU遺T D頴 LI烏U (EXTRACT DATA, DATA INGESTION)

4.2.1.1 K蔭T N渦K"E愛"U雲 D頴 LI烏U DOANH NGHI烏P

Ak隠w"8亥u tiên ta nên làm là k院t n嘘i h羽 th嘘ng v噂k"e挨"u挨"f英 li羽u c栄c"pi逢運i dùng, 荏 8¤{"vc"u胤 g丑i d逢噂c này là thi院t l壱p d英 li羽w"8亥u vàọ Vi羽c k院t n嘘k"e挨"u荏 d英 li羽u s胤 8逢嬰c th詠c hi羽n thơng qua ODBC, ODBC là Interface tiêu chu育p"8逢嬰c vi院t b茨ng ngơn ng英 C f́pi"8吋 giao ti院p v噂i nhi隠u lo衣k"e挨"u荏 d英 li羽ụ Các lo衣k"e挨"u荏 d英 li羽w"8cpi"8逢嬰c h厩 tr嬰 bao g欝m:

‚ SQL Server (MSSQL)

‚ MySQL

‚ PostgreSQL

M瓜t s嘘 ngu欝n d英 li羽w"8亥u vào d衣ng t壱r"vkp"mjƒe"pj逢<

71

ư A吋 k院t n嘘k"8逢嬰c th詠c hi羽p"vj·"e挨"u荏 d英 li羽u ph違i cĩ 8鵜a ch雨 IP cơng c瓜ng cho phép truy c壱p k院t n嘘i t瑛 bên ngồị

Cách k院t n嘘i v噂k"e挨"u荏 d英 li羽u

Eƒej"8吋 k院t n嘘i h羽 th嘘ng v噂k"e挨"u荏 d英 li羽w"8逢嬰c th詠c hi羽p"8挨p"ik違p"vj»pi"swc"dc"d逢噂c: 1. T衣o m瓜t tài kho違p"ejq"e挨"u荏 d英 li羽w"8cpi"f́pi"*Mjw{院n khích).

2. Thi院t l壱r"v逢運ng l穎c"8吋 cho phép k院t n嘘i t瑛 hai phíạ 3. K院t n嘘i h羽 th嘘ng v噂k"e挨"u荏 d英 li羽ụ

D逢噂c 1: T衣o m瓜t tài kho違p"ejq"e挨"u荏 d英 li羽w"8ang dùng (Khuy院n khích).

D逢噂e"p {"8逢嬰c khuy院n khích th詠c hi羽n nh茨o"v<pi"mj違p<pi"d違o m壱v"8嘘i v噂k"e挨" s荏 d英 li羽u, tuy theo lo衣k"e挨"u荏 d英 li羽w"8cpi"f́pi"u胤 cĩ cách t衣o tài kho違n riêng, vì v壱y hãy tham kh違o cách t衣o tài kho違p"v逢挨pi"泳ng v噂i t瑛ng lo衣k"e挨"u荏 d英 li羽w"8cpi"f́pi0

馨A吋 th詠c hi羽p"8逢嬰c ch泳e"p<pi"e栄a h羽 th嘘ng, tài kho違p"pi逢運i dùng yêu c亥u ph違i cĩ ít nh医t quy隠p"A丑c tr荏 lên (Read-only)

D逢噂c 2: Thi院t l壱r"v逢運ng l穎c"8吋 cho phép k院t n嘘i t瑛 hai phíạ

N院w"e挨"u荏 d英 li羽w"8逢嬰e"8員v"rj c"ucw"v逢運ng l穎a, thì c亥n ph違i cho phép truy c壱p t瑛 IP c栄a h羽 th嘘ng b茨ng các l羽nh sau:

sudo ufw allow from <IP ađress>

A嘘i v噂i m瓜t s嘘e挨 s荏 d英 li羽u(MySQL, PostgreSQL) thì ta c亥n ph違i cho phép truy c壱p t瑛 xa (Remote Access) khi s穎 d映ng, các thơng tin c亥n thi院t khác cĩ th吋8丑c thêm t瑛 trang ch栄 c栄c"e挨"u荏 d英 li羽ụ

D逢噂c 3: K院t n嘘i h羽 th嘘ng v噂k"e挨"u荏 d英 li羽u

A吋 k院t n嘘k"e挨"u荏 d英 li羽u v噂i h羽 th嘘ng, ta s胤 ph違i cung c医p nh英ng thơng tin k院t n嘘i e挨"d違p"pj逢<

‚ Lo衣k"e挨"u荏 d英 li羽u (vd: MySQL, SQL Server, PostgreSQL)

‚ V‒p"e挨"u荏 d英 li羽u s胤 k院t n嘘i (vd: AdventureWorks2017)

‚ A鵜a ch雨 IP và Port k院t n嘘i

‚ V‒p"pi逢運i dùng và m壱t kh育u (n院u cĩ)

蝦A吋 ki吋m tra tình tr衣ng k院t n嘘i, th詠c hi羽n nh医p"x q"p¿v"ỊTghtgujĨ"jq員e"ỊVguv" EqppgevkqpĨ

4.2.1.2 TRÍCH XU遺T VJðPI"VJ姶云PI"XÉ"V;PI"VK蔭N

T瑛 t壱p d英 li羽w"8亥u vào, ta ti院n hành phân tích d英 li羽w"o "vc"e„."ucw"8„"vk院n hành rút trích các d英 li羽u c亥n thi院t, bi院p"8鰻k"x "ucw"8„"n "v違k"n‒p"mjq"n逢w"vt英 cu嘘ị

72

Trong quá trình trích xu医t, bi院p"8鰻i và t違i, nhĩm s穎 d映ng các cơng c映, cơng ngh羽 hi羽n th詠c bao g欝m:

‚ Ngơn ng英 l壱p trình Python

‚ Vj逢"xk羽n googlẹcloud

‚ Apache Beam

‚ Cloud Storage, Dataflow và Bigquery c栄a GCP

D逢噂e"8亥w"vk‒p"vtqpi"swƒ"vt·pj"8„"ej pj"n "vt ej"zw医t d英 li羽ụ D英 li羽u trích xu医t là d英 li羽w"8亥u vào cĩ th吋 n "e挨"u荏 d英 li羽u c栄a doanh nghi羽p ho員c là các t壱p tin CSV, GoogleSheet0"Swƒ"vt·pj"p {"8逢嬰c th詠c hi羽n ngay khi b瓜8鵜nh th運k"8逢嬰c kích ho衣t. Tồn b瓜 các d英 li羽w"8亥u vào s胤8逢嬰e"8丑c lên theo d衣ng kh嘘i (Batch), ucw"8„ các d英 li羽u này 8逢嬰e"8育y vào h欝 d英 li羽u (Datalake) và n逢w"vt英 trên Bigquerỵ

Quá trình trích xu医t d英 li羽u s胤8逢嬰e"n逢w"vt英 l衣k"f逢噂i d衣ng là m瓜t hàng trong b違ng Batch Extract Job. B違ng d英 li羽w"p {"n逢w"vt英 tình tr衣ng trích xu医t trong quá trình th詠c hi羽n ETL, cung c医p tình tr衣ng cơng vi羽c nj逢 th詠c hi羽n thành cơng, th医t b衣i ho員e"8cpi" trong quá trình x穎 lý.

Trích xu医t d英 li羽u d衣pi"v<pi"vk院n (Incremental Extract): là m瓜v"v pj"p<pi"ejq" phép ch雨 trích xu医t d英 li羽u m噂i nh医t so v噂i l亥n trích xu医t thành cơng g亥n nh医t. A吋 cĩ th吋 th詠c hi羽p"8逢嬰c ch泳e"p<pi"vt ej"zw医t d英 li羽u d衣pi"v<pi"vk院n thì yêu c亥w"8嘘i v噂i các b違ng thu瓜e"e挨"u荏 d英 li羽w"8亥u vào ph違i cĩ m瓜v"vt逢運pi"8鵜nh danh v噂k"#"pij c"t茨ng m丑i s詠 ki羽n d磯p"8院n s詠vjc{"8鰻i x違y ra trong b違pi"8隠w"8逢嬰c c壱p nh壱t l衣i th運i gian x違y ra s詠 ki羽p"8„0" Vt逢運ng d英 li羽u này cĩ th吋8逢嬰c xây d詠ng b茨ng ch泳e"p<pi"Vtkiigt"e„"vtqpi"eƒe"e挨"u荏 d英 li羽ụ

Ch泳e"p<pi"Vt ej"zw医t d英 li羽u d衣pi"v<pi"vk院n ch雨 cĩ th吋8逢嬰c áp d映ng n院u cĩ thi院t l壱p v隠 vt逢運ng th運k"ikcp"zƒe"8鵜nh s詠 ki羽p"vjc{"8鰻ị Tt逢運ng h嬰p khơng cĩ thi院t l壱p vt逢運ng th運k"ikcp"zƒe"8鵜nh s詠 ki羽n vjc{"8鰻i thì tồn b瓜 d英 li羽u s胤 8逢嬰c trích xu医t. Vi羽c này cĩ th吋 gây m医t th運i gian trong quá trình trích xu医v"pj逢pi"nw»p"8違m b違o d英 li羽u 8亥u vào là d英 li羽w"8¿pi"pj医t so v噂i d英 li羽u doanh nghi羽p.

Một phần của tài liệu Xây dựng hệ thống trí tuệ kinh doanh cho doanh nghiệp áp dụng vào công ty sản xuất hoặc thương mại (Trang 70 - 72)

Tải bản đầy đủ (PDF)

(137 trang)