LI G II THI U
P hn VI CÁC THÁCH T HC TRONG T NG LAI
S bùng n c a thông tin và d li u ã d+n n vi c b n ch t c a kh!i l ng d li u kh ng l xung quanh chúng ta c&ng thay i. i u này ,t ra cho vi c nghiên c u, phát tri n c&ng nh ng d ng công ngh CSDL các thách th c m i.
VI.1. Các thách th0c v qu#n lý d li u trong t 2ng lai
Ph#n c ng là m t thành ph#n không th thi u c tri n khai m i h th!ng thông tin. Sau vài th p k. phát tri n m nh m%, vi c phát minh ra các công ngh c&ng nh ph ng pháp i m i ã làm t ng m nh hi u su t c a ph#n c ng và ph#n m m. Ph#n c ng và ph#n m m ã thay i k t' khi CSDL quan h ra i, tuy nhiên ki n trúc ph ng pháp qu n lý thông tin không thay i k p v i b c ti n này.
T' các máy tính có b CPU v i xung ng h th p, n nay các CPU c a máy tính cá nhân ã v t quá 2+ GigaHertz. T!c tính toán c a CPU t ng m nh kho ng 100% m t n m, trong ó hi u n ng I/O, m t thông s! quan tr ng nh h ng n hi u n ng c a các CSDL c&ng t ng 5% m t n m. Các a c ng c trang b h th!ng RAID và các ph#n m m qu n lý a logíc, v i h th!ng ánh a ch 64bit, b nh RAM ã v t qua 100 GB, h th!ng m ng nh Gigabit Ethernet.
D li u hi n nay c&ng r t a d ng nh audio, video, v n b n,….L ng d li u t ng lên m nh m%, trong ó ph#n l n ( n 85%) d li u là không có c u trúc. Trong s bùng n c a d li u, chi m t ph#n nh- là các d li u do ng i t o ra tr c ti p, nh ng ó là các d li u có giá tr cao. Còn ph#n l n là các d li u c sinh ra t ng, t' các h th!ng thu, các b c m bi n. Các d li u này không thích h p v i các ki n trúc CSDL truy n th!ng. Vi c phát tri n m nh m% c a các công ngh l u tr c&ng làm t ng kh!i l ng d li u c s n sinh ra. M t không gian l u tr
S t$ng công lao ng trong ngành qu n lý thông tin, d li u
d li u t ng 100% sau m(i n m, th m chí giá l u tr còn r2 h n giá gi y in thông th ng. Do ó, kích c3 c a các CSDL c&ng t ng theo, c trình bày trong B ng 7.
Workload N m 2005 N m 2006
Giao d ch 100-500GB 10x
Kho hàng Vài tr$m GB n 10 TB 100x
C a hàng 1-50GB 100x
Di ng Vài tr$m MB 1,000x
CSDL lan t a (pervasive) Vài tr$m KB 10,000x
B ng 7: Kích c, các CSDL
Gi i pháp cho v n này là t ch c d li u theo d ng trùng l p(overlap), h n ch
hay tránh s$ d ng I/O. C th cluster theo nhi u chi u hay s$ d ng RAM a vào các vùng m gi m I/O.
Công lao ng làm vi c trong l nh v c qu n lý d li u t ng lên do nhu c#u công vi c t ng lên. Chi phí nhân công t ng d+n n chi phí phát tri n ng d ng, chi phí qu n lý và qu n tr CSDL.
Kh n ng tính toán t tr (Autonomic computing) là m t gi i pháp gi m chi phí. Kh n ng t tr có trong các s n ph m CSDL c a các hãng l n v i các tính n ng:
S$ d ng h( tr ,t c u hình (Up and running): Hàng ch c thông s! c
,t trong vài ch c giây nh : mô hình x$ lý, optimizer,… T !ng thi t k CSDL v t lý: h( tr l a ch n các index.
Th i gian th c: l a ch n t ng k ho ch truy v n, qu n lý l ng truy v n, ki m soát các câu l nh truy v n ang ch y, t ng i u ch nh t i. H ,t l ch th c hi n: thông qua các o n l nh nh- (scripts).
T s$a l(i, kh n ng d báo
Ki m soát h th!ng: thông báo s ki n qua e-mail, page, SQL. Qu n lý s c!
T ng nh ch s!
T ng phân chia l i trang lá (leaf pages) c a B-tree.
T ng xây d ng h s th!ng kê T i u ch nh sao l u
60 D li u n"m ngoài c s d li u Yêu c u c i thi n ph ng th c truy nh p d li u
Khái ni m các d li u quan tr ng hi n nay ã thay i.
D li u tr nên a d ng h n, c v ng ngh a và khuôn d ng bi u di n d li u.
Qu n lý thông tin truy n th!ng g n li n v i CSDL quan h . CSDL lo i này l u các thông tin nh kho hành s n ph m, d li u bán hàng, tài kho n nhà b ng, kho ch a,…Hi n nay qu n lý thông tin c#n x$ lý các thông tin không có c u trúc chi m t i 85% và các thông tin này không ch a trong CSDL. Ngoài ra, ph ng th c thu th p thông tin a d ng, nhi u kênh: ví d nh thông tin trong m t cu c àm tho i video-conference th ng d ng audio, video, và v n b n. Vi c phát tri n và ng d ng CSDL c#n ph i c p t i các ,c tính ang thay i c a d li u và nhu c#u ngày càng t ng qu n lý và phân tích các ki u d li u m i.
D li u phát tri n theo ba chi u: l n, tính a d ng và tính ng. Theo các
thông s!: tính ng, l n, và tính a t p và ba m c Cao (H), trung bình (M), th p (L) thì d li u v các giao d ch và d li u có c u trúc s% là: H, L, L, d li u v v n b n và d li u do con ng i t o ra là M, M, M, d li u do máy t o ra s% là L, H,
H. Gi i pháp cho v n t ng dung l ng d li u là phát tri n XML view cho d
li u quan h qua ó d li u SQL c trình di n và c p nh t nh d li u XML
Thông qua vi c t n và t h p tài li u
Dùng ch c n ng ki m tra tính úng n c a l c và DTD Và coi các tài li u XML nh các th c th n b"ng cách:
L u tr và l y ra theo n v tài li u
T ng kh n ng tìm ki m theo tài li u và full-text
Các khuôn d ng d li u nh ch ng trình x$ lý d li u. CSDL quan h , b ng tính,… c s p x p theo chi u t ng tính thu n ti n trong truy nh p và tính phong phú c aa n i dung, t ng t' chu(i và s!, v n v n, ti ng nói-hình nh-d li u o…và các ch ng trình, CSDL quan h , b ng tính, …Gi i pháp cho
v n này là a vào ph ng th c truy nh p d li u m i nh ti ng nói v i ng
Tích h p d li u và truy nh p nhanh h n t i d li u
Hình 7: Ph ng th c truy nh p d li u
Gi i pháp cho v n này là c#n phân tích, thi t k c n th n siêu d li u nh là b c nghiên c u tr ng tâm. C th c#n phân tích kh n ng truy nh p n, tìm ki m, chia s2, phân tán, t p h p nh t quá, t h p cung c p và phát tri n m i, truy v n…siêu d li u.
62
VI.2. Các công c1 liên quan /n CSDL
VI.2.1. Tình báo doanh nghi p
Trong môi tr ng c nh tranh hi n nay, y u t! s!ng còn c a các t ch c là a ra c s truy c p các thông tin kinh doanh, nghi p v m t cách nhanh chóng, v i
hi u qu chi phí. Business intelligence (BI) th ng c ch n m t t p các quy trình thu th p, truy c p và phân tích các thông tin kinh doanh nâng cao kh n ng a ra các quy t nh kinh doanh. BI bao g m các công ngh c dùng và các thông tin có c t' các quá trình này nh kho d li u (data warehousing), phân tích a chi u (multidimensional analysis) hay phân tích tr c tuy n (online analytical processing-OLAP), khai thác d li u, hi n th d li u (data visualization). Xu h ng chung là xây d ng BI vào trong CSDL. i u dó có ngh a xây d ng các hàm ch c n ng vào CSDL, làm cho các ch c n ng này có th c truy c p thông qua m t giao di n duy nh t nh là m t ph#n c a m t BI tích h p. Các hàm ch c n ng d ng này th ng là data mining, OLAP, chuy n i d li u, th!ng kê không gian và nâng cao, các hàm phân tích h i quy, l y m+u, …L i ích c a vi c a các hàm ch c n ng này vào CSDL là:
Cho phép CSDL cung c p các d li u ã c tinh l c cho các công c BI #u cu!i nh các ng d ng, ng i s$ d ng, hay các công c , m t m c phân tách theo kh!i (granularity) nh mong mu!n.
Chuy n các công vi c n,ng nh c nh duy t, s p x p, join, t ng h p vào l p ki n trúc.
Gi m kh!i l ng d li u l u chuy n trên internet Gi m l ng d li u th hi n ngoài t ng l$a
Gi m b t s m o hi m c a s không ng nh t d li u c x$ lý b i các engines khác nhau s$ d ng các thu t toán khác nhau cho cùng m t phép o kinh doanh.
VI.2.2. Kho d li u và h* tr ra quy t !nh
M t trong các xu h ng hi n nay là phân tích các d li u hi n t i và thu th p c trong quá kh xác nh ra các m+u có ích (patterns) có th c s$ d ng ph c v cho các m c ích mang tính chi n l c, c l nh v c kinh doanh và qu n lý.
H ng này t p trung vào xây d ng các phân tích ph c t p, có t ng tác và mang tính khai phá các kh!i d li u r t l n u c t o ra b i vi c tích h p d li u t' nhi u ngu n khác nhau c a m t t ch c hay trên toàn qu!c. Có ba xu h ng b sung cho nhau trong l nh v c này là:
- Data Warehousing: x$ lý phân tích d li u t' nhi u ngu n trong m t kho d li u l n. Công ngh kho d li u d ng lên các kho l n ch a d li u và các kho này là c s cho m i cách ti p c n chi n l c trong vi c nâng cao ch t l ng c a các tài s n thông tin. Công ngh này ã c c ng ng CNTT xác
nh là c#n thi t. Các v n chính là:
nh k/ ng b các phiên b n d li u Tích h p theo d ng ng ngh a
- X lý phân tích tr c tuy n
S$ d ng các câu truy v n SQL ph c t p
Các câu truy v n d a trên các tác nghi p d ng spreadsheet-style và các
view d li u d ng a chi u
Các truy v n t ng tác và tr c tuy n
- Khai phá d li u: Tìm ki m khám phá các xu th thú v và các i u b t
th ng.
Data Warehousing x$ lý d li u tích h p trong c m t quãng th i gian dài, thông th ng là các thông tin mang tính t ng k t. Kh!i l ng d li u th ng là t' m t vài gigabytes n vài terabytes. Th i gian x$ lý t c m c t ng tác !i v i các truy v n ph c t o. Tuy nhiên, các c p nh t ph c t p !i v i d li u thì không th ng xuyên. Warehousing có m t s! v n c#n gi i quy t tr nên hi u qu :
a. Tích h p ng ngh a: Khi l y d li u t' các ngu n khác nhau, c#n ph i lo i b- các d li u không kh p ví d các l c d khác nhau, các lo i ti n t khác nhau.
b. Các ngu n d li u a d ng, khó truy c p m t cách hi u qu .
c. Qu n lý Metadata: Cân ph i theo dõi các ngu n, th i gian l y d li u, và các thông tin cho t t c d li u trong kho
64
Xây d ng kho d li u th ng d a vào mô hình d li u nhi u chi u, ó là m t t p
các phép o s! (numeric measures) ph thu c vào m t s! các chi u. Ví d c a m t yêu c#u phân tích d li u nhi u chi u nh : o l ng hàng hóa bán ra theo các chi u nh lo i s n ph#m, n i bán, và th i gian. ây là các truy v n có tính th c ti n do th ng c dùng trong th c t ánh giá s nh h ng c a các nhân t! vào nhân t! m c tiêu (e.g l ng hang hóa bán ra)
S phát tri.n mang tính cách m'ng c a CSDL
Trong s phát tri n m nh m% c a ngành công nghi p CNTT, các công c x$ lý d li u c#n ph i ti p t c có cu c cách m ng k p thay i nh"m phù h p trong môi tr ng CNTT hi n i. Các xu th nh h ng n ti n trình này là các ph ng pháp m i trong quá trình phát tri n ph#n m m nh L p trình c n (Extreme Programming), Phát tri n h ng tính n ng (Feature Driven Development), Ph ng pháp phát tri n h th!ng ng (Dynamic System Development Method), Quy trình th!ng nh t Rational (Rational Unified Process), và Quy trình th!ng nh t doanh nghi p (Enterprise Unified Process). ây là các y u t! òi h-i m t cu c cách m ng. ngành công nghi p x$ lý d li u không th tách ròi vòng i phát tri n ti n hóa trong l nh v c CNTT. Các xu th này s% òi h-i nhi u n m thành hi n th c nh ng k t qu s% t ng n ng su t lao ng trong ngành CNTT lên m t t#m m i. Các h ng trong phát tri n công ngh x$ lý d li u là:
Mô hình d li u thay !i mang tính cách m ng Chuy n i CSDL (Database Refactoring)
Phát tri n theo h ng ki m th$ (Test Driven Development TTD) T ng tính linh ho t
Ph n VII. CÁC NGHIÊN C U XU T
T' các nghiên c u các ph#n trên, m t yêu c#u ,t ra là c#n có các hành ng c th c th hóa các k t q a nghiên c u d ng v n b n có tính pháp lý nh"m giúp cho các c quan qu n lý nhà n c t p trung ngu n l c trong vi c s$ d ng các thành t u công ngh CSDL và h th!ng thông tin phát tri n kinh t xã h i.
VII.1. xu&t h (ng thúc 4y phát tri.n ngu!n l c thông tin
Trong ph#n này s% trình bày các xu t nh"m a ra các bi n pháp c th thúc y phát tri n ngu n l c thông tin theo các m,t. Các xu t này c chia theo ba nhóm công ngh , t ch c, và ng d ng.
V m7t công ngh :
Nghiên c u xây d ng, ho c ch p nh n, các chu#n trao !i thông tin qu c t nh ebXML, xGIS, FIXML,…Xây d ng các b chu#n l c XML c thù cho Vi t Nam (ho c Vi t hóa) i v i t,ng ngành. Vi c này c n c ti n hành b i các c quan có th#m quy n, vi c thành l p các c quan này c xu t ph n T+
ch0c.
Xây d ng m t môi tr ng cho phép chia s- gi a các c quan chính ph bao g m ph ng th c, công ngh và chu#n s- d li u, h th ng các siêu d li u; xây d ng các quy trình chu#n l p tài li u và qu n lý ngu n d li u trong các c quan chính ph ; xây d ng quy trình theo dõi và xem xét ki m tra vi c tri n khai qu n lý d li u, xác nh và ghi nh n các thông tin chung, các ch c n$ng chung gi a các B , Ngành c a Chính ph i.
66
V m7t t+ ch0c:
B BCVT h tr thành l p các phân h i hay các nhóm quan tâm c bi t n CSDL, qu n lý thông tin,…trong thành ph n ho c c l p v i h i Tin h%c Vi t nam (DataBase Special Interest Group).
Thành l p m t c quan nghi p v có ch c n$ng qu n lý nhà n c v công tác x