võn tay theo từng yờu cầu
í tƣởng chủ đạo của giải phỏp đề xuất dựa trờn hai cụng đoạn là:Cụng đoạn thứ nhất là tổ chức đỏnh chỉ số phõn cấp theo cỏc thuộc tớnh võn tay cơ bản để rỳt ngắn thời gian tỡm kiếm theo nhúm phõn loại; Cụng đoạn thứ hai là phõn chia danh sỏch cần đối sỏnh theo ĐTCT thành cỏc gúi nhỏ, phõn cụng nhiệm vụ tớnh toỏn cho cỏc nỳt đối sỏnh song song, giỏm sỏt quỏ trỡnh tớnh toỏn và đƣa ra danh sỏch kết quả cuối cựng để rỳt ngắn thời gian đối sỏnh theo ĐTCT.
Để thực thi ý tƣởng trờn, ta tiến hành cỏc cụng đoạn nhƣ sau:
Tổ chức đỏnh chỉ số phõn cấp CSDL theo cỏc thuộc tớnh ảnh võn tay cơ bản:
Đỏnh chỉ số là kỹ thuật quen thuộc đối với cỏc bài toỏn quản lý CSDL. Thụng thƣờng cần tra tỡm theo trƣờng nào thỡ ngƣời ta sẽ tiến hành đỏnh chỉ số theo trƣờng đú, mục đớch là trỏnh phải tỡm kiếm theo kiểu vột cạn, tức là duyệt danh sỏch từ đầu đến cuối. Tuy nhiờn, đối với ảnh võn tay vấn đề nan giải là ở chỗ số thuộc tớnh cơ bản này (dạng cơ bản) rất khú trớch chọn, thƣờng cú độ tin cậy khụng cao do chất lƣợng ảnh khỏc nhau gõy ra sự nhập nhằng trong định vị và phõn loại.
Trong ứng dụng cho cỏc hệ căn cƣớc cụng dõn và căn cƣớc can phạm, mỗi võn tay đƣợc biểu diễn dƣới dạng một bản ghi gồm cỏc trƣờng cơ bản sau:
- Số căn cƣớc đối tƣợng quản lý;
- Cỏc trƣờng về thụng tin nhõn thõn (họ tờn, năm sinh, giới tớnh, địa phƣơng); - Mó số ngún;
83
- Số đếm võn trỏi, số đếm võn giữa, số đếm võn phải, mật độ đƣờng võn; - Bộ ĐTCT;
- Ảnh võn tay (độ phõn giải chuẩn 500 dpi, khoảng 5 MB cho cả bộ 10 ngún). Để đỏnh chỉ số phục vụ tra tỡm chỉ bản 10 ngún với chỉ bản 10 ngún (TP/TP), giải phỏp đề xuất là dựng kỹ thuật đỏnh chỉ số phõn cấp theo tổ hợp dạng cơ bản 10 ngún do hệ thống tự động trớch chọn và trong từng tổ hợp, tiếp tục đỏnh chỉ số theo cỏc số đếm võn và mật độ đƣờng võn của cỏc ngún. Đối với ứng dụng tỡm kiếm dấu võn tay hiện trƣờng (LP/TP), giải phỏp đề xuất dựng cỏc trƣờng: mó ngún, dạng cơ bản, cỏc số đếm võn và mật độ võn để đỏnh chỉ số.
Việc nghiờn cứu trớch chọn từ ảnh võn tay cỏc thuộc tớnh cơ bản với độ tin cậy cao hơn dựng để đỏnh chỉ số vẫn cũn là một bài toỏn mở [25,26,44,61]. Để giảm thiểu sút lọt trong quỏ trỡnh tỡm kiếm, tức là giảm thiểu sai số từ chối sai (FRR), luận ỏn đề xuất giải phỏp tỡm kiếmmờ theo cỏch dựng cả mó chớnh và cỏc mó phụ để mó cỏc thuộc tớnh nhập nhằng, cú độ tin cậy thấp. Chẳng hạn, một võn tay dạng xoỏy nhƣng do số đếm võn ớt nờn cú thể bị phõn loại nhầm sang dạng võn hỡnh quai, ta cần tỡm kiếm theo cả võn xoỏy và võn quai, mó chớnh là xoỏy tỡm trƣớc, mó phụ là quai tỡm sau. Tƣơng tự, đối với số đếm võn cũng vậy, do chất lƣợng võn kộm nờn mỗi lần đếm, hệ thống cú thể cho kết quả khỏc nhau nờn khi tỡm kiếm ta cần tỡm kiếm theo khoảng số đếm võn. Vấn đề là nếu xử lý chớnh/phụ quỏ nhiều thỡ danh sỏch đầu ra sẽ lớn theo. Trong trƣờng hợp đối sỏnh 1:N, giải phỏp đỏnh chỉ số và sắp xếp kết quả tra cứu theo thứ tự ƣu tiờn phõn cấp theo thuộc tớnh và cuối cựng theo độ giống là cỏch thức hiệu quả nhất để rỳt ngắn thời gian và danh sỏch tỡm kiếm trung bỡnh trờn thực tế, mà vẫn giảm thiểu đƣợc đồng thời hai loại sai số từ chối sai và tiếp nhận sai (FAR) vỡ sai số FARN = N* FAR [51]. Tuy nhiờn, đõy chớnh là một lợi thế của giải phỏp tra cứu song song cú thể mang lại: Lấy tốc độ để bự cho độ tin cậy, tức là lấy số lƣợng bự cho chất lƣợng.
Phõn chia danh sỏch cần đối sỏnh theo đặc điểm chi tiết thành cỏc gúi nhỏ:
Khi xử lý một khối lƣợng lớn cụng việc, "chia để trị" là nguyờn lý cơ bản thƣờng đƣợc lựa chọn nhất. Một mỏy khụng làm nổi thỡ nhiều mỏy hợp lại, nhƣng
84
phõn chia thế nào và số mỏy hợp lại nhiều đến bao nhiờu là đủ. Trờn thực tế, số nỳt song song thƣờng khụng thể mở rộng tựy ý, mà chỉ giới hạn bởi nhu cầu từng bài toỏn cụ thể, bởi kinh phớ đầu tƣ hoặc bởi số bản quyền (license) phần mềm hạn chếđƣợc trang bị.
Cỏch tiếp cận ở đõy là dựng kỹ thuật phõn chia yờu cầu xử lý trờn CSDL dung lƣợng lớn theo phƣơng thức mà ngƣời ta vẫn tiến hành phõn phối cụng việc trong một Trung tõm tiếp nhận cuộc gọi Call Center của Cảnh sỏt 113. Nếu chỉ cú một mỏy điện thoại trực thỡ tại một thời điểm Cảnh sỏt 113 chỉ xử lý đƣợc 1 cuộc gọi. Nếu cú cuộc gọi thứ hai, mỏy sẽ bỏo bận. Khi cú nhiều vụ việc xảy ra dồn dập, Trung tõm 113 với một mỏy sẽ khụng đỏp ứng đƣợc yờu cầu. Để khắc phục, ngƣời ta dựng Call Center, một tổ hợp cỏc mỏy điện thoại đƣợc kết nối với nhau thành một tổng đài con, cú khả năng tiếp nhận đồng thời nhiều cuộc gọi và phõn phối điều chuyển cụng việc lẫn nhau một cỏch linh hoạt. Với trung tõm xử lý cuộc gọi nhƣ vậy, Cảnh sỏt 113 cựng lỳc cú thể xử lý song song nhiều cụng việc và hiệu quả hệ thống bởi vậy đƣợc đo bằng số cuộc gọi đồng thời đƣợc tiếp nhận, xử lý. Để chuyờn mụn húa, ngƣời ta cũn dựng kỹ thuật phõn nhúm để xử lý. Mỗi nhúm chỉ chuyờn trỏch xử lý một lớp yờu cầu. Việc điều phối trong Nhúm và giữa cỏc nhúm cũng đƣợc đảm bảo một cỏch linh hoạt tƣơng tự nhƣ giữa cỏc mỏy.
Để xõy dựng giải phỏp đối sỏnh song song cho cụm mỏy tớnh ta tổ chức hệ thống cụm mỏy tớnh theo cỏc chức năng nhƣ sau:
Mỏy chủ tiếp nhận yờu cầu vàtỡm kiếm theo thuộc tớnh cơ bản, phõn chia danh sỏch thành cỏc gúi nhỏ và phõn phối nhiệm vụ:
Mỏy chủlàm nhiệm vụ tiếp nhận đồng thời nhiều yờu cầu tỡm kiếm từ cỏc mỏy trạm gửi đến. Một mỏy chủ sẵn sàng cao, hoàn toàn cú khả năng đảm nhận chức năng tiếp nhận, phõn gúi và phõn phối yờu cầu một cỏch hiệu quả. Nhiệm vụ của mỏy chủ này là tỡm kiếm yờu cầu theo cỏc thuộc tớnh ảnh cơ bản thƣờng đƣợc thể hiện dƣới dạng một cõu truy vấn SQL. Kết quả là mỏy chủ đƣa ra một danh sỏch cỏc chỉ bản thỏa món yờu cầu truy vấn, sẽ đƣợc gọi là danh sỏch tỡm kiếm theo nhúm.
85
Trờn cơ sở danh sỏch kết quả tỡm kiếm theo nhúm, mỏy chủ tiến hành phõn chia danh sỏch kết quả tỡm kiếm thành nhiều gúi, với số lƣợng đồng đều trong mỗi gúi để giao cho mỗi nỳt hay nhúm nỳt xử lý song song tiến hành xử lý theo nguyờn tắc cõn bằng năng lực: Nhúm/nỳt xử lý nhanh nhận đƣợc nhiều, Nhúm/nỳt xử lý chậm nhận đƣợc ớt. Cõn bằng nhiệm vụ theo năng lực là sự phõn phối yờu cầu xử lý giữa cỏc nỳt xử lý sao cho khụng xảy ra hiện tƣợng chờ đợi, trỏnh tỡnh trạng cú một số nỳt thỡ khụng làm hết cụng suất, cũn một số nỳt khỏc thỡ quỏ tải. Trƣờng hợp lý tƣởng là tất cả cỏc nỳt nhất loạt tham gia đối sỏnh và nhất loạt kết thỳc. Độ chờnh thời gian của cả hệ thống chỉ sai khỏc nhau một khoảng thời gian bằng thời gian 1 nỳt xử lý 1 gúi.
Cỏc nỳt xử lý song song nhận nhiệm vụ và tiến hành đối sỏnh:
Mỗi nỳt này cú thể là một mỏy trạm PC thụng thƣờng (khụng cần bàn phớm hay màn hỡnh) hay để tiết kiệm khụng gian và tăng hiệu năng xử lý cú thể chọn một hay một số giàn mỏy chủ phiến mỏng (bladeservers), đƣợc cài đặt phần mềm đối sỏnh theo ĐTCT để làm nhiệm vụ xử lý cỏc yờu cầu do mỏy chủ tỡm kiếm điều phối. Cỏc nỳt thành viờn đƣợc cõn bằng nhiệm vụ theo cỏch mỗi thành viờn tự bỏo trạng thỏi thể hiện mức độ sẵn sàng nhận việc, bao gồm:
- Sẵn sàng: Chờ nhận nhiệm vụ xử lý, nỳt xử lý chƣa nhận việc hoặc sau khi hoàn thành đƣợc tự động chuyển sang trạng thỏi này để chờ nhận cụng việc mới.
- Bận: Đang xử lý, xử lý xong chuyển sang trạng thỏi sẵn sàng.
- Lỗi: Đang gặp sự cố (lỗi kỹ thuật), gặp sự cố này hệ thống hủy việc, giao gúi việc mà nỳt lỗi vừa nhận cho nỳt khỏc sẵn sàng.
- Dừng (ngắt do cố ý): Khụng giao nhiệm vụ cho nỳt này.
Để phõn phối việc, mỏy chủ tỡm kiếm tiến hành điểm danh để biết những nỳt nào tham gia xử lý cụng việc và tựy theo trạng thỏi để tiến hành giao việc hay hủy việc giao cho nỳt khỏc theo từng gúi nhỏ cụng việc. Nhƣ vậy, việc phõn phối sẽ chiều theo năng lực, nếu nỳt nào xử lý nhanh hơn sẽ đƣợc làm việc nhiều hơn, nỳt nào xử lý chậm hơn sẽ đƣợc phõn cụng ớt hơn. Hỡnh 4.1 minh họa màn hỡnh giỏm sỏt trạng thỏi cỏc nỳt xử lý và theo dừi kết quả tỡm kiếm với dũng trờn cựng là mó số yờu cầu cần tỡm kiếm và số bản ghi cần đối sỏnh theo ĐTCT (144750), cột thứ nhất
86
là mó số nỳt (ComputerId), sau đú là thời gian (Tg) bắt đầu và khối lƣợng bản ghi xử lý trờn mỗi nỳt, cuối cựng là cột trạng thỏi cỏc nỳt (Status).
Hỡnh 4.1: Màn hỡnh điều phối hoạt động trờn cỏc node
Nhờ việc phõn gúi CSDL đƣợc tổ chức một cỏch "động" theo năng lực tƣơng tự nhƣ kiểu phõn luồng trờn xa lộ, nờn hệ thống đƣợc đảm bảo khai thỏc tối đa năng lực cỏc nỳt tham gia xử lý, cựng phối hợp tỡm kiếm yờu cầu và nhanh chúng đƣa ra danh sỏch kết quả cuối cựng.
Cỏc mỏy trạm nhận kết quả tỡm kiếm từ cỏc nỳt trả về để làm nhiệm vụthẩm định:
Sau khi tỡm kiếm cỏc yờu cầu gửi đến từ cỏc mỏy trạm, kết quả danh sỏch đầu ra đƣợc lƣu trờn mỏy chủ, đƣợc sắp xếp lại theo thứ tự mó ngún, mó dạng võn cơ bản, số đếm võn,độ giống của chỉ bản tỡm thấy so với chỉ bản truy vấn. Cỏc mỏy trạm tiếp nhận danh sỏch kết quả từ mỏy chủ và tiến hành thẩm định. Trong quỏ trỡnh thẩm định, mỏy trạm truy cập đến CSDL ảnh võn tay gốc lƣu trờn mỏy chủ đú (hoặc cú thể là mỏy chủ khỏc) để tải cỏc ảnh chỉ bản gốc thuộc danh sỏch tỡm thấy về mỏy trạm phục vụ thẩm định.
Tổng thời gian đối sỏnh song song húa T một yờu cầu trờn hệ thống cụm mỏy tớnh nhƣ vậy bao gồm thời gian đối sỏnh theo nhúm (t1), thời gian phõn gúi, điều phối nhiệm vụ (t2), thời gian đối sỏnh theo ĐTCT (t3) và thời gian gửi kết quả trở lại cỏc mỏy trạm yờu cầu để tiến hành thẩm định (t4).
Giải phỏp đối sỏnh đề xuất đó đƣa ra phƣơng phỏp đỏnh chỉ số theo cỏc thuộc tớnh mó ngún và dạng võn tay cơ bản để rỳt ngắn thời gian tỡm kiếm theo nhúm (t1), đƣa ra phƣơng phỏp đối sỏnh theo bộ ĐTCT song song trờn cỏc nỳt, để rỳt ngắn k lần thời gian đối sỏnh so với phƣơng phỏp đối sỏnh ĐTCT tuần tự, với k là số nỳt xử lý song song (t3 đƣợc giảm xuống k lần, tức là cũn t3/k). Do phần lớn thời gian tỡm kiếm là cụng đoạn đối sỏnh theo ĐTCT, cỏc thời gian khỏc là rất ngắn nờn tổng
87
thời gian tỡm kiếm đƣợc giảm xuống khoảng k lần (tỷ lệ thuận với số nỳt đƣa vào xử lý song song). Lƣu ý rằng giải phỏp đối sỏnh song song chỉ giải quyết đƣợc vấn đề thời gian, khụng rỳt ngắn đƣợc danh sỏch tỡm kiếm. Tuy nhiờn nhƣ đó núi ở trờn, do lợi thế “lấy tốc độ bự độ tin cậy”, giải phỏp đối sỏnh song song cú thể mở rộng danh sỏch tỡm kiếm theo hƣớng dựng thờm mó phụ để hạn chế sai số FARN.