KHOUANETHEVA PHOLSENA NGHIÊN CỨU CÁC GIẢI PHÁP CÔNG NGHỆ PHÂN TÁN DỮ LIỆU VÀ ỨNG DỤNG QUẢN LÝ NHÂN SỰ PHÂN TÁN TRONG CƠ QUAN NHÀ NƯỚC LÀO Chuyên ngành: Khoa học máy tính Mã số: 60.48.0
Trang 1KHOUANETHEVA PHOLSENA
NGHIÊN CỨU CÁC GIẢI PHÁP CÔNG NGHỆ PHÂN TÁN DỮ LIỆU VÀ ỨNG DỤNG QUẢN LÝ NHÂN SỰ PHÂN TÁN TRONG CƠ QUAN NHÀ NƯỚC LÀO
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ
Người hướng dẫn khoa học: TS PHẠM THẾ QUẾ
HÀ NỘI – 2013
Trang 2MỞ ĐẦU
Ở Lào, sự liên kết xã hội ngày càng trở nên chặt chẽ
hơn, sự phát triển của mỗi ngành không thể thiếu thông tin về các ngành khác Hơn nữa sự phát triển của các tổ chức xã hội không còn tập trung trong phạm vi thành phố, hoặc một số tỉnh thành, mà phân bố trên diện rộng, về mặt địa lý trải dài trên nhiều quốc gia trên thế giới Thực tế các hệ thống tập trung đã bộc lộ những nhược điểm như việc tăng khả năng lưu trữ thông tin là khó khăn và bị giới hạn bởi khả năng tối đa của một máy
cụ thể, khả năng phục vụ không đảm bảo khi số lượng người dùng tăng lên đáng kể Cơ sở dữ liệu bị ngưng trệ phục vụ khi
có sự cố xảy ra, có nghĩa là độ sẵn sàng phục vụ của cơ sở dữ liệu không còn nữa, khả năng tính toán của các máy tính đơn
lẻ đang triến dần tới giới hạn vật lý, tính đa quốc gia của các tổ chức kinh tế xã hội làm cho tổ chức dữ liệu tập trung đang gặp nhiều khó khăn trong lưu trữ cũng như xử lý
Những nhược điểm này đã được khắc phục trong các hệ cơ
sở dữ liệu phân tán, vì việc quản lý thông tin ở khắp mọi nơi là một yêu cầu cấp thiết đối với nhà quản lý cơ sở dữ liệu Ví dụ như bộ máy quản lý nhà nước sẽ quản lý dữ liệu nằm ở các tỉnh, trong ngân hàng khi gửi tiền một nơi sẽ rút tiền ở các nơi khác, trong kinh doanh có thể áp dụng vào việc quản lý các doanh nghiệp về doanh số và doanh thu Những sản phẩm của các hệ thống phân tán đã xuất hiện nhiều trên thị trường và từng bước chứng minh tính ưu việt của nó hơn hẳn các hệ
Trang 3thống tập trung truyền thống Trên thực tế, các hệ thống phân tán đã thay thế dần các hệ thống tập trung
Nhu cầu thu thập, lưu trữ, xử lý và trao đổi thông tin của các hoạt động xã hội và kinh tế ngày càng cao Yêu cầu tổ chức các hệ xử lý phân tán là yêu cầu bức thiết Vậy, để hiểu
thêm về vấn đề này em chọn đề tài “Nghiên cứu các giải pháp
công nghệ phân tán dữ liệu và ứng dụng quản lý nhân sự phân tán trong cơ quan Nhà nước Lào”
Cấu trúc của luận văn được tổ chức thành 3 chương:
dữ liệu phân tán, đặc biệt làm rõ ưu và nhược điểm của
cơ sở dữ liệu phân tán, các mô hình có thể triển khai hệ thống phân tán, các loại truy xuất, các mức trong suốt của cơ sở dữ liệu phân tán
phương pháp thiết kế, các vấn đề thiết kế, các phương pháp phân mảnh, phân bố cho các mảnh
yêu cầu quản lý của hệ thống quản lý nhân sự trong Quốc Hội nước Cộng hòa Dân chủ Nhân dân Lào ; trình bày quy trình thiết kế cơ sở dữ liệu phân tán và triển khai thử nghiệm
Trang 4CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN
1.1 Khái niệm và định nghĩa cơ sở dữ liệu phân tán
1.1.1 Mở đầu
Hệ cơ sở dữ liệu phân tán được xây dựng dựa trên sự hợp nhất của hai hướng tiếp cận quá trình xử lý dữ liệu, là lý thuyết các hệ CSDL và công nghệ mạng máy tính
Cung cấp đa dạng các loại hình dịch vụ và các dịch vụ
đa phương tiện cho người sử dụng Kết nối các máy tính thành
mạng với mục tiêu chia sẻ tài nguyên thông tin chung cho nhiều người cùng sử dụng, có hiệu quả tài nguyên thông tin, nâng cao khả năng tích hợp và trao đổi các loại dữ liệu giữa các thành phần trên mạng
1.1.2 Khái niệm xử lý phân tán
Có hai khái niệm xử lý phân tán liên quan với nhau
được chia ra thành hai phần, Server và Client và được
vận hành ở hai nơi Dữ liệu được phép truy nhập trực tiếp và xử lý dữ liệu trên Server và Client
tạp trên nhiều hệ thống Không gian nhớ và bộ xử lý của nhiều máy cùng chia nhau giao dịch xử lý Máy trung tâm sẽ giám sát và quản lý các tiến trình Hàng nghìn máy cùng xử lý một giao dịch trên mạng Internet
Trang 51.2.2 Giảm chi phí truyền thông
1.2.3 Hiệu quả công việc
thông quan việc xử lý song song Có thuận lợi trong việc phân tích dữ liệu phản ánh điều kiện phụ thuộc của các ứng dụng, cực đại hoá tính địa phương của ứng dụng
cức tiểu Công việc xử lý được phân chia cho các bộ xử lý khác nhau và tránh được các tắc nghẽn thông tin trên mạng hoặc các dịch vụ chung của toàn hệ thống
1.2.4 Độ tin cậy và tính sẵn sàng
hơn so với truy nhập tập trung Đòi hỏi kỹ thuật phức tạp Lỗi xuất hiện trong một cơ sở dữ liệu phân tán có thể xảy ra nhiều hơn, vì số các thành phần cấu thành lớn hơn, nhưng ảnh hưởng của lỗi chỉ ảnh hưởng tới các ứng dụng sử dụng các vị trí-site lỗi Sự hỏng hóc của toàn hệ thống ít khi xảy ra
hai vấn đề phân tán và hợp nhất:
sao cho chúng xuất hiện với người sử dụng giống như với cơ sở dữ liệu đơn lẻ duy nhất
trên sự phát triển của kỹ thuật tính toán, kỹ thuật truyền thông
và mạng máy tính
Trang 61.3 Đặc trưng cơ bản của cơ sở dữ liệu phân tán
liệu tập trung ở một số đặc điểm: điều khiển tập trung, sự độc lập dữ liệu, sự giảm dư thừa dữ liệu, các cấu trúc vật lý phức tạp để truy xuất hiệu quả
1.3.1 Điểu khiển tập trung
thừa dữ liệu, đảm bảo được tính độc lập của dữ liệu
dữ liệu Chức năng cơ bản là bảo đảm sự an toàn của dữ liệu Vấn đề điều khiển tập trung không được nhấn mạnh Sự điều khiển được thực hiện theo một cấu trúc điều khiển phân cấp bao gồm hai loại người quản trị cơ sở dữ liệu:
quyền độc lập riêng về cơ sở dữ liệu cục bộ của mình mà người quản trị cơ sở dữ liệu toàn cục hoàn toàn không có những quyền này Đặc điểm này được gọi là sự độc lập vị trí Từ sự
độc lập vị trí hoàn toàn đến sự điều khiển tập trung hoàn toàn
1.3.2 Độc lập dữ liệu
Là tổ chức lưu trữ dữ liệu là trong suốt đối với người lập trình ứng dụng Ưu điểm là các chương trình không bị ảnh hưởng bởi những thay đổi về tổ chức lưu trữ vật lý của dữ liệu
ảnh hưởng bởi sự di chuyển dữ liệu từ một vị trí này đến một vị
trí khác
Trang 71.3.3 Giảm dư thừa dữ liệu
dụng cục bộ được thực hiện nhanh hơn, không cần phải truy xuất dữ liệu từ xa
dữ liệu tại vị trí bị hỏng được nhân bản tại các vị trí khác
1.3.4 Độ tin cậy qua các giao dịch phân tán
qua các giao dịch phân tán, vì các thành phần được nhân bản hạn chế được các vị trí lỗi riêng lẻ Lỗi của trạm riêng, hoặc lỗi của truyền thông làm cho một hoặc nhiều trạm mất liên lạc, không đủ để phá vỡ toàn bộ hệ thống
giao thức ứng dụng, thì người sử dụng vẫn có thể truy nhập
được tới phần khác trong cơ sở dữ liệu phân tán
1.3.5 Cải tiến hiệu năng
a) Hệ quản trị cơ sở dữ liệu phân tán có khả năng phân mảnh cơ sở dữ liệu khái niệm và cho phép cục bộ hoá dữ liệu b) Tính song song của các hệ thống phân tán có thể được khai thác để thực hiện song song liên truy vấn và nội bộ
1.3.6 Dễ dàng mở rộng hệ thống
mạng Khả năng mở rộng hệ thống dễ dàng mang tính kinh tế, chi phí giảm
Trang 81.3.7 Tính toàn vẹn, phục hồi và điều khiển tương tranh
tác là một nguyên tố Giao tác nguyên tố là phương tiện để đạt
được tính toàn vẹn dữ liệu
tố của giao tác khi có sự sự cố về mặt kỹ thuật
của giao tác khi xuất hiện sự tương tranh giao tác
1.4 Các mô hình cơ sở dữ liệu phân tán
sở dữ liệu trên Server sẽ truy nhập vào cơ sở dữ liệu và xử lý theo yêu cầu và gửi trả kết quả cho máy Client
Hình 1.1 Mô hình Client-Server
DatabasTow er System
Application
Network
Application
Application
Trang 9Server – điều khiển, lưu trữ CSDL, xử lý các truy
vấn và quản lý việc khai thác tài nguyên trên mạng
của các Clients
Client – Khai thác tài nguyên qua Server
file-server nhưng trên thực tề mô hình CSDL Client/Server có nhiều thuận lợi hơn mô hình file-server
1.4.2 Mô hình CSDL phân tán
-Hai mô hình CSDL File-Server và Client/Server:dữ liệu và chương trình ứng dụng truy nhập dữ liệu nằm trên 2 bộ xử lý khác nhau
-Mô hình CSDL phân tán:CSDL ở trên nhiều máy khác nhau
Hình 1.3 Distributed database model
Trang 10CHƯƠNG II
KỸ THUẬT PHÂN TÁN DỮ LIỆU
2.1 Khái niệm và sự cần thiết phân mảnh dữ liêụ
hơn và xử lý mỗi mảnh nhận được như một CSDL độc lập, chỉ
được thực hiện khi nó tăng hiệu quả, và có độ tin cậy
CSDL con, mỗi CSDL con là một tập hợp các bộ thỏa mãn một số tính chất nào đó
gồm một tập hợp con các thuộc tính cùng với các giá trị của chúng có trong tập các thuộc tính của CSDL đã cho
toàn cục thành nhiều câu truy vấn theo các mảnh
2.2 Các quy tắc phân mảnh
mảnh sẽ đảm bảo tính không thay đổi về ngữ nghĩa, toàn vẹn
dữ liệu và đảm bảo tính độc lập dữ liệu
quan hệ:
2.2.1 Tính đầy đủ
2.2.2 Tính phục hồi
2.2.3 Tính tách biệt
Trang 112.3 Kỹ thuật phân mảnh ngang dữ liệu
2.3.1 Khái niệm
hợp Mỗi mảnh quan hệ bao gồm nhóm bộ dữ liệu thỏa một
điều kiện logic Là thực hiện các phép chọn quan hệ thỏa mãn
một biểu thức điều kiên cho trước
2.3.2 Thông tin cần thiết của phân mảnh ngang
a) Thông tin về cơ sở dữ liệu: Là các thông tin về lược
đồ khái niệm toàn cục của hệ cơ sở dữ liệu
b) Thông tin về ứng dụng: Để thực hiện việc phân
mảnh một quan hệ, cần phải có thông tin định tính và thông tin
định lượng
c) Thông tin định tính về các ứng dụng cần phải có:
quan hệ sẽ được chọn theo vị từ hội sơ cấp cho trước
Q = {q1, q2, … , qq} là tập truy vấn, ký hiệu acc(qi) là
gian đã cho
sơ cấp m, ký hiệu là acc(m)
Trang 122.3.3 Phân mảnh ngang nguyên thủy
một phép chọn trên quan hệ chủ của lược đồ cơ sở dữ liệu
mảnh ngang Ri của quan hệ R gồm tất cả các bộ của R thoả một vị từ hội sơ cấp mi
phải xác định các vị từ đơn giản sẽ tạo ra vị từ hội sơ cấp
2.3.4 Tính đầy đủ và tính cực tiểu của vị từ đơn giản
a) Tính đầy đủ: Tập các vị từ đơn giản Pr được gọi là
đầy đủ khi và chỉ khi xác suất truy xuất bởi mỗi ứng dụng tới
bộ bất kỳ của một mảnh hội sơ cấp bất kỳ được định nghĩa theo
Pr là như nhau Vị từ đầy đủ sẽ đảm bảo cho các mảnh thoả mãn các vị từ sơ cấp, nhất quán về mặt logic Sử dụng một tập
vị từ đầy đủ làm cơ sở cho việc phân mảnh ngang cơ sở
b) Tính tính cực tiểu: Đặc tính thứ 2 của tập các vị từ
có tính cực tiểu Đây là một đặc tính cảm tính.Nếu một vị từ
đơn giản có liên đới đến việc phân mảnh , phải có tính liên đới
(relevant) trong việc xác định một phân mảnh
Khi đó pi là có liên đới khi và chỉ khi:
)(
)()
(
)(
j
i card f
m acc f
card
m acc
≠
Trang 132.3.5 Phân mảnh ngang dẫn xuất
hệ theo phân mảnh của quan hệ chủ, các mảnh thu được chỉ
được định nghĩa trên các thuộc tính của quan hệ thành viên Có
thể tồn tại một số kết nối rỗng khi phân tán dữ liệu và các thuộc tính kết nối tách rời nhau Kết nối phân tán được biểu diễn bằng hai dạng đồ thị rút gọn:Đồ thị rút gọn là tách (Partitioned)
và Đồ thị nối rút gọn là đơn giản (Simple)
Hình 2.2 Đồ thị kết nối
2.4 Kỹ thuật phân mảnh dọc dữ liệu
2.4.1 Khái niệm phân mảnh dọc
để có nhiều ứng dụng có thể chỉ cần thực hiện trên một mảnh
Mảnh tối ưu sinh ra một lược đồ phân mảnh cho phép giảm tối thiểu thời gian thực hiện của ứng dụng trên mảnh đó Sử dụng hai phương pháp Heuristic: Nhóm thuộc tính và Tách mảnh
Trang 142.4.2 Thông tin cần thiết của phân mảnh dọc
giá trị sử dụng thuộc tính là use(qi, Aj), Q={q1, q2, , qq} là tập các câu truy vấn của người sử dụng Các câu truy vấn Q sẽ chạy trên quan hệ R(A1, A2,…, An)
trên cơ sở dữ liệu
b) Ma trận lực hút AA( Attribute Affinity Matrix) của
thuộc tính: R(A1,A2,…,An) là một quan hệ trên tập các thuộc
được phân tán trên mạng máy tính, tức là: R = R1∪R2∪…∪Rk
k l k l A
q use A q use k j
A
aff ( , ) ( ) ( )
) , ( ) , ( [(
refl (qk) là số lần truy xuất các thuộc tính(Ai,Aj) cho qk tại vị trí
Sl và accl (qk) là số đo tần số truy xuất ứng dụng qk tại vị trí Sl
2.4.3 Thuật toán tụ nhóm
của một quan hệ dựa trên các giá trị lực hút thuộc tính trong ma trận AA đầu vào Số đo lực hút chung lớn nhất là AM (Global Affinity Measure) Ma trận lực hút tụ CA (Cluster Affinity) là Kết quả, gồm có 3 bước :
Trang 152.4.4 Thuật toán phân mảnh
tập ứng dụng Trong ma trận tụ lực hút CA của quan hệ, trong hình 2.4 nếu một điểm trên đường chéo chính được chọn, hai tập thuộc tính sẽ được xác định Một tập {A1,A2, ,Ai} ở góc trái cao nhất, gọi là tập đỉnh TA (Top) và tập thứ hai
ưu đối với các ứng dụng
Trang 162.5.2 Bài toán phân bố
m
j I
S j
ij j j
j j
j
d x c
t c u
(min1
'
2.5.3 Thông tin cần thiết cho bài toán phân bố
Các thông tin cần cho bài toán phân bố có thể phân chia thành bốn loại: thông tin CSDL, thông tin ứng dụng, thông tin
về vị trí và thông tin về mạng
2.5.4 Mô hình phân bố dữ liệu
trữ, đáp ứng được các đòi hỏi về thời gian đáp ứng
2.6 Xử lý truy vấn phân tán dữ liệu
vấn ngôn ngữ bậc cao trên cơ sở dữ liệu phân tán thành một chuỗi các thao tác của đại số quan hệ trên các mảnh phân tán Bao gồm nhiều bước thực hiện cụ thể như sau:
chuỗi các thao tác dựa trên các phép tính đại số quan hệ
1 Nếu mảnh Fk được đặt tại vị trí Sj
0 Trong trường hợp ngược lại
xj =
Trang 17• Dữ liệu được truy nhập bởi truy vấn là những mảnh
dữ liệu được phân rã, được gọi là dữ liệu cục bộ
rộng với các thao tác truyền thông và tối ưu hoá chức năng tham chiếu các nguồn tài nguyên
2.6.1 Vấn đề xử lý truy vấn
có thể tiêu thụ tài nguyên của mạng máy tính khác nhau Vậy, cần phải lựa chọn một giải pháp khi thực hiện, nó tiêu thụ tài nguyên của mạng là tối thiểu Có hai phương pháp tối ưu hóa truy vấn cơ bản: phương pháp biến đổi một câu truy vấn phép tính đại số quan hệ thành câu truy vấn tương đương ở mức thấp hơn dưới dạng một biểu thức đại số quan hệ và phương pháp chọn lựa trong số các câu truy vấn dạng biểu thức đại số quan
hệ tương đương, một biểu thức có chi phí thời gian thực hiện
và chi phí sử dụng tài nguyên là ít nhất
2.6.2 Mục đích của việc xử lý truy vấn
dữ liệu phân tán thành một giải pháp thực hiện hiệu quả được xác định dưới dạng ngôn ngữ mức thấp trên các cơ sở dữ liệu cục bộ Ngôn ngữ mức cao có thể hiểu là các phép tính quan
hệ, các ngôn ngữ mức thấp là sự mở rộng của đại số quan hệ
và các thao tác truyền dữ liệu giữa các vị trí dữ liệu
2.6.3 Phân rã truy vấn
tính quan hệ thành câu truy vấn đại số trên quan hệ toàn cục Thông tin cần thiết cho việc biến đổi phân rã truy vấn phân tán
Trang 18được tìm thấy trong mô tả lược đồ khái niệm toàn cục và trong
mô tả các quan hệ toàn cục Vậy các kỹ thuật phân rã được áp dụng trong tầng này là những kỹ thuật của các hệ quản trị cơ sở
dữ liệu quan hệ tập trung
2.6.4 Xây dựng câu truy vấn phân tán
dạng truy vấn đại số quan hệ bằng các quy tắc biến đổi, là bước cuối cùng của việc phân rã truy vấn là viết lại truy vấn dưới dạng đại số quan hệ Chia thành các bước nhỏ sau:
3.1 Bài toán quản lý nhân sự của Quốc hội nước Cộng hòa Dân chủ Nhân dân Lào
Để áp dụng những lý thuyết đã nghiên cứu và áp dụng
vào việc Tin học hoá quản lý nhân sự của Quốc hội Lào, tôi
sự trong Văn phòng Quốc hội Lào sẽ giúp người quản lý có chức năng xem, tìm kiếm, tra cứu những thông tin của các nhân viên và báo cáo lại cho ông trưởng ban một cách nhanh chóng