2.1.1. Nhận dạng sinh trắc học
Nhận dạng sinh trắc học là việc sử dụng các đặc trƣng của cá thể (nhƣ vân tay, khuôn mặt, võng mạc, mống mắt) và đặc trƣng hành xử (nhƣ dáng đi, chữ ký) – gọi chung là đặc trƣng sinh trắc học (hay đơn giản là sinh trắc học) – trong việc nhận dạng tự động các cá thể riêng biệt. Có thể mọi đặc trƣng sinh trắc học là sự kết hợp của cả đặc tính cá thể lẫn đặc trƣng hành xử và không nên phân biệt quá rạch ròi đâu là đặc tính cá thể hay đâu là đặc trƣng hành vi. Ví dụ, vân tay có thể thuộc đặc trƣng cá thể về mặt tự nhiên, nhƣng việc sử dụng thiết bị nhập liệu lại tùy thuộc vào hành vi ngƣời dùng (cách thức ngƣời dùng đƣa vân tay vào thiết bị quét). Do vậy, dữ liệu vào bộ nhận dạng là sự kết hợp của đặc trƣng cá thể và đặc tính hành vi.
Hình 26. Một vài đặc trƣng sinh trắc học
a) Tai, b) khuôn mặt, c) sơ đồ nhiệt khuôn mặt, d) sơ đồ nhiệt bàn tay, e) mạch máu bàn tay, f) đồ hình bàn tay, g) vân tay, h) mống măt (tròng đen), i) võng mạc, j) chữ ký, và k) giọng nói.
Đặc trƣng sinh trắc học không thể dễ dàng nhầm lẫn, giả mạo hay chia sẻ nên chúng đƣợc xem là tin cậy trong việc nhận dạng cá thể hơn các phƣơng pháp chứng cứ truyền thống hay các phƣơng pháp dựa trên tri thức. Mục tiêu của nhận dạng sinh trắc học hƣớng tới sự tiện lợi của ngƣời sử dụng, tăng tính bảo mật và hiệu quả hơn. Sự thành công to lớn của các công nghệ nhận dạng vân tay trong ứng dụng thực thi luật pháp, việc giảm giá thành thiết bị thu nhận vân tay, việc tăng sức mạnh tính toán của hệ thống máy tính giá rẻ và sự bùng phát tội phạm đã dẫn tới kỷ nguyên nhận dạng cá thể dựa trên vân tay trong các ứng dụng thƣơng mại, dân sự và cả tài chính.
2.1.2. Hệ thống sinh trắc học
Một hệ thống sinh trắc học về bản chất là một hệ thống nhận dạng mẫu cho phép nhận dạng các đối tƣợng bằng cách quyết định tính xác thực của các đặc tính sinh học hoặc đặc tính hành vi đối tƣợng sở hữu. Một vấn đề quan trọng khi thiết kế các hệ thống trong thực tế đó là quyết định cách thức nhận diện cá thể. Phụ thuộc vào hoàn cảnh của ứng dụng, một hệ thống sinh trắc có thể là một hệ thống xác minh hoặc một hệ thống nhận dạng:
Một hệ thống xác minh (Verification System) xác thực danh tính đối tƣợng bằng cách so sánh đặc tính sinh trắc thu nhận đƣợc với các mẫu sinh trắc đã đƣợc lƣu trữ trong hệ thống. Hệ thống thực hiện so sánh một-một nhằm quyết định liệu thuộc tính đƣa ra bởi một đối tƣợng có hợp lệ hay không. Một hệ thống xác minh có thể từ chối hay chấp nhận danh tính đƣợc đƣa ra.
Một hệ thống nhận dạng (Identification System) nhận dạng cá thể bằng cách so sánh và tìm kiếm toàn các mẫu trong cơ sở dữ liệu. Hệ thống thực hiện so sánh một nhiều nhằm xác định danh tính đối tƣợng. Trong một hệ thống định danh, hệ thống đƣa ra danh tính của đối tƣợng (hoặc là báo sai nếu đối tƣợng không có trong cơ sở dữ liệu hệ thống) mà không nhất thiết đối tƣợng đƣa ra khẳng định về danh tính của mình.
Thuật ngữ xác thực đƣợc sử dụng thƣờng xuyên trong lĩnh vực sinh trắc học, nhiều khi đƣợc sử dụng đồng nghĩa với khái niệm xác minh, trong ngôn ngữ công nghệ thông tin, xác thực có nghĩa là đƣa ra danh tính ngƣời dùng tới hệ thống mà không kể tới trạng thái hệ thống là gì (xác minh hay định danh).
Hình 27. Lƣợc đồ khối các quá trình tham gia, xác minh và định danh.
Sơ đồ khối của một hệ thống xác minh và một hệ thống định danh đƣợc minh họa trong hình trên; quá trình tham gia của ngƣời dùng (nhƣ nhau với cả hai hệ thống) cũng đƣợc minh họa rõ. Module tham gia chịu trách nhiệm đăng ký cá thể với cở sở dữ liệu sinh trắc của hệ thống (system DB). Trong giai đoạn tham gia, đặc tính sinh trắc của mỗi cá thể đƣợc quét bởi thiết bị thu nhận nhận đặc tính cá thể và đƣa ra bản biểu diễn nguyên thủy ở dạng số. Một quá trình kiểm tra chất lƣợng đƣợc thực thi nhằm đảm bảo mẫu thu nhận đƣợc có thể đƣợc xử lý bởi các bƣớc tiếp theo. Để việc so sánh thuận tiện hơn, bản biểu diễn gốc thông thƣờng sẽ đƣợc xử lý bởi bộ trích chọn đặc trƣng để đƣa ra một bản biểu diễn thu gọn nhƣng có đặc trƣng ý nghĩa hơn cả gọi là các mẫu (template). Tùy thuộc vào ứng dụng, mẫu có thể đƣợc lƣu trữ trong cơ sở dữ liệu trung tâm của hệ thống sinh trắc hay đƣợc lƣu và các thẻ từ hoặc thẻ thông minh cấp cho mỗi cá nhân.
Quá trình xác minh chịu trách nhiệm xác minh các thể vào thời điểm truy nhập. Trong suốt giai đoạn thực thi, tên ngƣời dùng hoặc số PIN (Personal Identification Number) đƣợc nhập vào thông qua bàn phím (hoặc bảng tính - keypad); thiết bị thu sinh trắc thu nhận các đặc tính của cá thể cần nhận diện và chuyển đặc trƣng đó sang dạng số, các thông số nhu nhận đƣợc sẽ đƣợc xử lý thêm bởi bộ trích chọn đặc trƣng nhằm đƣa ra bản biểu diễn thu gọn. Kết quả đƣợc đƣa vào module đối sánh đặc trƣng – thực hiện so sánh với các mẫu của cá thể đó (lấy từ cơ sở dữ liệu của hệ thống dựa trên số PIN của ngƣời dùng).
Trong việc nhận diện, không một giá trị PIN nào đƣợc sử dụng và hệ thống so sánh bản mẫu thu nhận đƣợc với toàn bộ các mẫu của các ngƣời sử dụng khác trong cơ sở dữ liệu của hệ thống; kết quả trả ra là danh tính của ngƣời tham gia hoặc thông báo không tìm thấy định danh ngƣời sử dụng. Do việc so sánh trong một cơ sở dữ liệu lớn rất mất thời gian tính toán và tìm kiếm nên các cơ chế phân lớp và đánh chỉ mục đƣợc áp dụng nhằm hạn chế các mẫu cần đƣợc so sánh với giá trị đầu vào.
Một hệ thống sinh trắc học có thể đƣợc phân loại dựa vào số lƣợng các ứng dụng khác – đặc tính phụ thuộc (dependent characteristics). Wayman đƣa ra rằng mọi ứng dụng sinh trắc có thể phân loại dựa vào đặc trƣng của chúng:
hoạt động cộng tác hay không cộng tác
công khai hay bí mật
quen thuộc hay không quen thuộc
phục vụ hay không phục vụ
môi trƣờng thực thi chuẩn hay không chuẩn
công cộng hay riêng tƣ
mở hay đóng
2.1.3. Lỗi trong hệ thống sinh trắc học
Để việc mô tả đƣợc dễ dàng, các thảo luận sao đây tập trung chủ yếu vào khía cạnh vân tay, mặc dù các vấn đề đều phù hợp với mọi đặc trƣng sinh trắc khác. Phản hồi của quá trình đối sánh trong hệ thống nhận dạng vân tay thƣờng là một mức độ phù hợp s (nằm trong khoảng [0,1]) thể hiện sự tƣơng tự giữa dữ liệu vào và mẫu mô tả trong cơ sở dữ liệu. Độ phù hợp càng gần 1 thì hệ thống càng chắc chắn hai mẫu vân tay là một, độ phù hợp càng gần 0 thì mức độ khẳng định hai mẫu vân tay là một giảm xuống rất nhiều.
Quyết định của hệ thống thƣờng đƣợc điều chỉnh dựa vào một ngưỡng t: cặp vân tay mà đƣa ra độ phù hợp lớn hơn hoặc bằng mức t thì có thể coi là cặp tƣơng xứng (thuộc cùng một ngón tay); cặp vân tay đƣa ra độ phù hợp dƣới mức t đƣợc coi là không tƣơng xứng (hai mẫu vân tay thuộc hai ngón khác nhau).
Một hệ thống xác minh sinh trắc thƣờng có hai loại lỗi: lỗi đối sánh sinh trắc từ hai ngón tay khác nhau trở thành một ngón tay (còn gọi là tƣơng xứng sai) và lỗi đối sánh sinh trắc từ dữ liệu cùng một ngón tay thành dữ liệu từ hai ngón tay khác nhau (còn gọi là không tƣơng xứng sai). Chú ý rằng hai lớp lỗi này thƣờng đƣợc chỉ rõ là chấp nhận sai và từ chối sai; ranh giới giữa nhận dạng xác thực và cấm đoán (phủ nhận) cũng đƣợc chỉ rõ; trong hệ thống nhận dạng tích cực (một hệ thống quản lý truy xuất) tƣơng xứng sai sẽ quyết định việc chấp nhận “sai” một ngƣời mạo danh, với việc không tƣơng xứng sai dẫn đến từ chối “sai” một đối tƣợng hợp lệ. Mặt khác, trong ứng dụng nhận dạng cấm đoán (ngăn cản ngƣời dùng lấy trợ cấp y tế nếu dạng sai đối tƣợng), tƣơng xứng sai sẽ từ chối yêu cầu hợp lệ, trong khi đó không tƣơng xứng sai sẽ chấp nhận cố gắng kẻ lừa đảo.
Khái niệm “tƣơng xứng sai/không tƣơng xứng sai” không phụ thuộc vào ứng dụng do vậy dựa trên lý thuyết sẽ thích hợp hơn so với “chấp nhận sai/từ chối sai”. Tuy nhiên khái niệm “tỷ lệ chấp nhận sai” (FAR) và “tỷ lệ từ chối sai” (FRR) là phổ biến và đƣợc sử dụng rộng rãi trong môi trƣờng thƣơng mại.
2.1.3.1. Lỗi hệ thống xác minh
Dựa trên khía cạnh thiết kế, vấn đề của hệ thống xác minh có thể đƣợc trình bày nhƣ sau. Gọi mẫu sinh trắc đƣợc lƣu trữ của một cá nhân là T và dữ liệu thu nhận cho nhận dạng là I. Khi đó có hai giả thuyết nhƣ sau:
H0: I≠T, dữ liệu vào và mẫu lƣu trữ không thuộc cùng cá thể
H1: I=T, dữ liệu vào và mẫu lƣu trữ thuộc cùng cá thể Quyết định đƣa ra tƣơng ứng nhƣ sau
D0: cá thể không phải là ngƣời mà anh ta muốn chứng minh
D1: cá thể chính là ngƣời mà anh ta muốn chứng minh
Việc xác minh bao gồm đối sánh T và I sử dụng một độ đo tƣơng tự s(T,I). Nếu độ đo nhỏ hơn một ngƣỡng hệ thống t thì quyết định D0 đƣợc đƣa ra, ngƣợc lại quyết định D1 đƣợc đƣa ra. Thuật ngữ trên đƣợc lấy từ lý thuyết truyền thông, trong đó mục tiêu là phát hiện thông điệp với sự có mặt của nhiễu. H0 là giả thuyết nhận đƣợc tín hiệu chỉ đơn thuần là nhiễu và H1 là giả thuyết tín hiệu nhận đƣợc có bao gồm thông điệp kèm nhiễu. Công thức kiểm tra giả thuyết trên vốn đã có hai lớp lỗi:
Dạng 1: tƣơng xứng sai (D1 đƣợc quyết định trong khi H0 đúng)
Dạng 2: không tƣơng xứng sai (D0 đƣợc quyết định khi H1 đúng)
Tỷ lệ tương xứng sai (False Match Rate - FMR) là xác suất xảy ra lỗi loại 1 (còn gọi là mức ý nghĩa của kiểm tra giả thuyết)
Tỷ lệ không tương xứng sai (False Non-Match Rate - FNMR) là xác suất xảy ra lỗi loại 2: FMR=P(D1\H0=true); FNMR=P(D0\H1=true). (1-FNMR) còn đƣợc gọi là năng lực kiểm tra giả thuyết.
Để đánh giá mức độ chính xác của hệ thống sinh trắc, chúng ta cần kiểm nghiệm các giá trị thu đƣợc bởi một vài cặp vân tay lấy từ cùng ngón tay (phân bố xác suất p(s|H1=true) còn gọi là phân bố chính xác “genuine distribution”) và các giá trị thu đƣợc bởi một vài cặp vân tay lấy từ các ngón tay khác nhau (phân bố xác suất p(s|H0=true) còn gọi là phân bố giả mạo “impostor distribution”). Hình 1.4 mô tả việc tính toán FMR và FNMR thông qua hai phân bố chân thật và phân bố giả mạo:
t 1 0 FNMR= p(s|H =true)ds và 1 0 t FMR= p(s|H =true)ds
Hình 28. FMR và FNMR với ngƣỡng t
FMR và FNMR với ngưỡng t được biểu diễn thông qua phân bố xác suất của giá trị chân thật và giả mạo. Từ đồ thị trên, chúng ta có thể thấy rõ ràng FMR là phần trăm của cặp giả mạo có giá trị kiểm tra lớn hơn hoặc bằng ngưỡng t, và FNMR là phần trăm cặp hợp lệ có giá trị kiểm tra nhỏ hơn ngưỡng t.
Có một sự cân bằng chặt chẽ giữa FMR và FNMR trong mọi hệ thống sinh trắc học (Golfarelli, Maio, and Maltoni, 1997). Trong thực tế, cả FMR và FNMR đều là hàm của ngƣỡng hệ thống t, do vậy chúng ta có thể viết chúng tƣơng ứng nhƣ sau FMR(t) và FNMR(t). Nếu t giảm nhằm tăng khả năng thứ lỗi của hệ thống đối với sự thay đổi giá trị vào và nhiễu, khi đó FMR(t) tăng và ngƣợc lại. Nếu t tăng nhằm đảm bảo tính bảo mật, khi đó FNMR(t) tăng tƣơng ứng.
Ngƣời thiết kế hệ thống có thể không nắm rõ ứng dụng sẽ đƣợc sử dụng trong hoàn cảnh nào (hay một ứng dụng có thể đƣợc thiết kế và sử dụng rộng sau này). Do vậy chúng ta nên báo cáo hiệu năng thực thi của hệ thống tại mọi thời điểm hoạt động (mọi ngƣỡng t). Điều này có thể thực hiện bằng cách vẽ đƣờng cong đặc tính thực thi thu nhận đƣợc (Receiver Operating Characteristic - ROC). Một đƣờng cong ROC là một đồ thị FMR tƣơng ứng với (1-FNMR) dựa trên các ngƣỡng quyết định khác nhau (thông thƣờng FNMR dựa vào trục thẳng đứng thay vì giá trị 1-FNMR). Bên cạnh các phân bố và đƣờng cong đã đề cập, một vài chỉ số gọn hơn cũng đƣợc sử dụng để tóm lƣợc độ chính xác của một hệ thống xác minh.
Tỉ lệ lỗi bằng nhau (Equal Error Rate - EER) là giá trị tỉ lệ lỗi ứng với ngƣỡng t, tại đó tỷ lệ tƣơng xứng sai và tỷ lệ không tƣơng xứng sai là bằng nhau: FMR(t)=FNMR(t) (xem hình 28). Trong thực tế, do phân bố kết quả đối sánh không liên tục (do số lƣợng hữu hạn các cặp tƣơng xứng và vấn đề lƣợng hóa kết quả đối sánh) nên điểm EER chính xác có thể không tồn tại: trong trƣờng hợp này, chúng ta thay giá trị đơn bằng một khoảng giá trị (Maio và các tác giả, 2000).
Mặc dù EER là một chỉ số quan trọng, trong thực tế một hệ thống sinh trắc học dựa trên vân tay hiếm khi sử dụng điểm thực thi ứng với điểm EER, và thông thƣờng một ngƣỡng chặt chẽ hơn sẽ đƣợc thiết lập nhằm giảm giá trị FMR thay vì tăng giá trị FNMR.
ZeroFNMR là điểm FMR thấp nhất mà tại đó không có trƣờng hợp “không tƣơng xứng sai” nào xảy ra (Hình dƣới)
ZeroFMR là điểm FNMR thấp nhất mà tại đó không có trƣờng hợp “ tƣơng xứng sai” nào xảy ra (Hình dƣới)
Tỷ suất “không có khả năng thu nhận” (Failure To Capture - FTC) liên quan tới chức năng tự động thu nhận của thiết bị sinh trắc và có giá trị là phần trăm thời gian thiết bị không có khả năng thu nhận đặc điểm sinh trắc khi đặc điểm đó đƣợc đƣa vào thiết bị thu. Tỷ lệ này càng cao càng gây khó khăn trong việc sử dụng thiết bị sinh trắc.
Tỷ suất “không có khả năng tham gia” (Failure To Enroll - FTE) có giá trị là tỷ lệ phần trăm thời gian ngƣời dùng không thể tham gia vào hệ thống nhận dạng. Có mối liên hệ giữa tỷ lệ FTE và độ chính xác của hệ thống (FMR và FNMR). Lỗi FTE thông thƣờng xảy ra khi hệ thống nhận dạng thực hiện việc kiểm tra chất lƣợng nhằm đảm bảo chỉ có các mẫu đảm bảo chất lƣợng mới đƣợc lƣu trong cơ sở dữ liệu và từ chối các mẫu kém chất lƣợng. Khi đó, cơ sở dữ liệu chỉ có các mẫu chất lƣợng tốt và mức độ chính xác của hệ thống sẽ tăng đáng kể (FMR và FNMR).
Tỷ suất “không có khả năng đối sánh” (Failure To Match - FTM) có giá trị là tỷ lệ phần trăm thời gian giá trị vào không đƣợc xử lý hoặc không đƣợc đối sánh với giá trị mẫu hợp lệ do chất lƣợng không đảm bảo. Điều này khác với lỗi “không tƣơng xứng sai”, thực tế trong trƣờng hợp xảy ra lỗi không khả năng đối sánh, hệ thống không thể đƣa ra quyết định, với lỗi “không tƣơng xứng sai” thì hệ thống đƣa ra quyết định sai rằng hai giá trị vào xuất phát từ cùng một ngón tay.
Hình 29. FMR(t), FNMR(t), các điểm EER, ZeroFNMR và ZeroFMR.
Các yêu cầu hiệu năng thực tế của một hệ thống sinh trắc dựa rất nhiều vào ứng dụng cụ thể. Nhìn từ khía cạnh mức độ chính xác của hệ thống, một tỷ lệ “không tƣơng xứng sai” rất thấp có thể là mục tiêu chính. Trong một vài ứng dụng hình sự nhƣ nhận diện tội phạm, tỷ lệ “không tƣơng xứng sai” là một vấn đề quan tâm chính chứ không phải tỷ lệ “tƣơng xứng sai”: hơn nữa chúng ta không muốn bỏ qua một hành vi phạm tội thậm chí phải mạo hiểm kiểm tra số lƣợng lớn các đối tƣợng có khả năng phù hợp trong hệ thống sinh trắc. Trong các ứng dụng hình sự, các chuyên gia sẽ là ngƣời ra quyết định cuối cùng.
Ở một khía cạnh khác, một tỷ lệ “tƣơng xứng sai” rất thấp là một nhân tố quan trọng trong các ứng dụng quản lý truy xuất, tại các ứng dụng này bất kỳ kẻ giả mạo nào cũng không đƣợc phép truy xuất mặc dù chúng ta cũng cần xem xét việc bất tiện tới ngƣời dùng hợp lệ khi mà tỷ lệ “không tƣơng xứng sại” là quá cao. Đứng giữa hai thái cực nói trên là một vài ứng dụng dân sự, tại đó các tỷ lệ “tƣơng xứng sai” và