Để việc mô tả đƣợc dễ dàng, các thảo luận sao đây tập trung chủ yếu vào khía cạnh vân tay, mặc dù các vấn đề đều phù hợp với mọi đặc trƣng sinh trắc khác. Phản hồi của quá trình đối sánh trong hệ thống nhận dạng vân tay thƣờng là một mức độ phù hợp s (nằm trong khoảng [0,1]) thể hiện sự tƣơng tự giữa dữ liệu vào và mẫu mô tả trong cơ sở dữ liệu. Độ phù hợp càng gần 1 thì hệ thống càng chắc chắn hai mẫu vân tay là một, độ phù hợp càng gần 0 thì mức độ khẳng định hai mẫu vân tay là một giảm xuống rất nhiều.
Quyết định của hệ thống thƣờng đƣợc điều chỉnh dựa vào một ngưỡng t: cặp vân tay mà đƣa ra độ phù hợp lớn hơn hoặc bằng mức t thì có thể coi là cặp tƣơng xứng (thuộc cùng một ngón tay); cặp vân tay đƣa ra độ phù hợp dƣới mức t đƣợc coi là không tƣơng xứng (hai mẫu vân tay thuộc hai ngón khác nhau).
Một hệ thống xác minh sinh trắc thƣờng có hai loại lỗi: lỗi đối sánh sinh trắc từ hai ngón tay khác nhau trở thành một ngón tay (còn gọi là tƣơng xứng sai) và lỗi đối sánh sinh trắc từ dữ liệu cùng một ngón tay thành dữ liệu từ hai ngón tay khác nhau (còn gọi là không tƣơng xứng sai). Chú ý rằng hai lớp lỗi này thƣờng đƣợc chỉ rõ là chấp nhận sai và từ chối sai; ranh giới giữa nhận dạng xác thực và cấm đoán (phủ nhận) cũng đƣợc chỉ rõ; trong hệ thống nhận dạng tích cực (một hệ thống quản lý truy xuất) tƣơng xứng sai sẽ quyết định việc chấp nhận “sai” một ngƣời mạo danh, với việc không tƣơng xứng sai dẫn đến từ chối “sai” một đối tƣợng hợp lệ. Mặt khác, trong ứng dụng nhận dạng cấm đoán (ngăn cản ngƣời dùng lấy trợ cấp y tế nếu dạng sai đối tƣợng), tƣơng xứng sai sẽ từ chối yêu cầu hợp lệ, trong khi đó không tƣơng xứng sai sẽ chấp nhận cố gắng kẻ lừa đảo.
Khái niệm “tƣơng xứng sai/không tƣơng xứng sai” không phụ thuộc vào ứng dụng do vậy dựa trên lý thuyết sẽ thích hợp hơn so với “chấp nhận sai/từ chối sai”. Tuy nhiên khái niệm “tỷ lệ chấp nhận sai” (FAR) và “tỷ lệ từ chối sai” (FRR) là phổ biến và đƣợc sử dụng rộng rãi trong môi trƣờng thƣơng mại.
2.1.3.1. Lỗi hệ thống xác minh
Dựa trên khía cạnh thiết kế, vấn đề của hệ thống xác minh có thể đƣợc trình bày nhƣ sau. Gọi mẫu sinh trắc đƣợc lƣu trữ của một cá nhân là T và dữ liệu thu nhận cho nhận dạng là I. Khi đó có hai giả thuyết nhƣ sau:
H0: I≠T, dữ liệu vào và mẫu lƣu trữ không thuộc cùng cá thể
H1: I=T, dữ liệu vào và mẫu lƣu trữ thuộc cùng cá thể Quyết định đƣa ra tƣơng ứng nhƣ sau
D0: cá thể không phải là ngƣời mà anh ta muốn chứng minh
D1: cá thể chính là ngƣời mà anh ta muốn chứng minh
Việc xác minh bao gồm đối sánh T và I sử dụng một độ đo tƣơng tự s(T,I). Nếu độ đo nhỏ hơn một ngƣỡng hệ thống t thì quyết định D0 đƣợc đƣa ra, ngƣợc lại quyết định D1 đƣợc đƣa ra. Thuật ngữ trên đƣợc lấy từ lý thuyết truyền thông, trong đó mục tiêu là phát hiện thông điệp với sự có mặt của nhiễu. H0 là giả thuyết nhận đƣợc tín hiệu chỉ đơn thuần là nhiễu và H1 là giả thuyết tín hiệu nhận đƣợc có bao gồm thông điệp kèm nhiễu. Công thức kiểm tra giả thuyết trên vốn đã có hai lớp lỗi:
Dạng 1: tƣơng xứng sai (D1 đƣợc quyết định trong khi H0 đúng)
Dạng 2: không tƣơng xứng sai (D0 đƣợc quyết định khi H1 đúng)
Tỷ lệ tương xứng sai (False Match Rate - FMR) là xác suất xảy ra lỗi loại 1 (còn gọi là mức ý nghĩa của kiểm tra giả thuyết)
Tỷ lệ không tương xứng sai (False Non-Match Rate - FNMR) là xác suất xảy ra lỗi loại 2: FMR=P(D1\H0=true); FNMR=P(D0\H1=true). (1-FNMR) còn đƣợc gọi là năng lực kiểm tra giả thuyết.
Để đánh giá mức độ chính xác của hệ thống sinh trắc, chúng ta cần kiểm nghiệm các giá trị thu đƣợc bởi một vài cặp vân tay lấy từ cùng ngón tay (phân bố xác suất p(s|H1=true) còn gọi là phân bố chính xác “genuine distribution”) và các giá trị thu đƣợc bởi một vài cặp vân tay lấy từ các ngón tay khác nhau (phân bố xác suất p(s|H0=true) còn gọi là phân bố giả mạo “impostor distribution”). Hình 1.4 mô tả việc tính toán FMR và FNMR thông qua hai phân bố chân thật và phân bố giả mạo:
t 1 0 FNMR= p(s|H =true)ds và 1 0 t FMR= p(s|H =true)ds
Hình 28. FMR và FNMR với ngƣỡng t
FMR và FNMR với ngưỡng t được biểu diễn thông qua phân bố xác suất của giá trị chân thật và giả mạo. Từ đồ thị trên, chúng ta có thể thấy rõ ràng FMR là phần trăm của cặp giả mạo có giá trị kiểm tra lớn hơn hoặc bằng ngưỡng t, và FNMR là phần trăm cặp hợp lệ có giá trị kiểm tra nhỏ hơn ngưỡng t.
Có một sự cân bằng chặt chẽ giữa FMR và FNMR trong mọi hệ thống sinh trắc học (Golfarelli, Maio, and Maltoni, 1997). Trong thực tế, cả FMR và FNMR đều là hàm của ngƣỡng hệ thống t, do vậy chúng ta có thể viết chúng tƣơng ứng nhƣ sau FMR(t) và FNMR(t). Nếu t giảm nhằm tăng khả năng thứ lỗi của hệ thống đối với sự thay đổi giá trị vào và nhiễu, khi đó FMR(t) tăng và ngƣợc lại. Nếu t tăng nhằm đảm bảo tính bảo mật, khi đó FNMR(t) tăng tƣơng ứng.
Ngƣời thiết kế hệ thống có thể không nắm rõ ứng dụng sẽ đƣợc sử dụng trong hoàn cảnh nào (hay một ứng dụng có thể đƣợc thiết kế và sử dụng rộng sau này). Do vậy chúng ta nên báo cáo hiệu năng thực thi của hệ thống tại mọi thời điểm hoạt động (mọi ngƣỡng t). Điều này có thể thực hiện bằng cách vẽ đƣờng cong đặc tính thực thi thu nhận đƣợc (Receiver Operating Characteristic - ROC). Một đƣờng cong ROC là một đồ thị FMR tƣơng ứng với (1-FNMR) dựa trên các ngƣỡng quyết định khác nhau (thông thƣờng FNMR dựa vào trục thẳng đứng thay vì giá trị 1-FNMR). Bên cạnh các phân bố và đƣờng cong đã đề cập, một vài chỉ số gọn hơn cũng đƣợc sử dụng để tóm lƣợc độ chính xác của một hệ thống xác minh.
Tỉ lệ lỗi bằng nhau (Equal Error Rate - EER) là giá trị tỉ lệ lỗi ứng với ngƣỡng t, tại đó tỷ lệ tƣơng xứng sai và tỷ lệ không tƣơng xứng sai là bằng nhau: FMR(t)=FNMR(t) (xem hình 28). Trong thực tế, do phân bố kết quả đối sánh không liên tục (do số lƣợng hữu hạn các cặp tƣơng xứng và vấn đề lƣợng hóa kết quả đối sánh) nên điểm EER chính xác có thể không tồn tại: trong trƣờng hợp này, chúng ta thay giá trị đơn bằng một khoảng giá trị (Maio và các tác giả, 2000).
Mặc dù EER là một chỉ số quan trọng, trong thực tế một hệ thống sinh trắc học dựa trên vân tay hiếm khi sử dụng điểm thực thi ứng với điểm EER, và thông thƣờng một ngƣỡng chặt chẽ hơn sẽ đƣợc thiết lập nhằm giảm giá trị FMR thay vì tăng giá trị FNMR.
ZeroFNMR là điểm FMR thấp nhất mà tại đó không có trƣờng hợp “không tƣơng xứng sai” nào xảy ra (Hình dƣới)
ZeroFMR là điểm FNMR thấp nhất mà tại đó không có trƣờng hợp “ tƣơng xứng sai” nào xảy ra (Hình dƣới)
Tỷ suất “không có khả năng thu nhận” (Failure To Capture - FTC) liên quan tới chức năng tự động thu nhận của thiết bị sinh trắc và có giá trị là phần trăm thời gian thiết bị không có khả năng thu nhận đặc điểm sinh trắc khi đặc điểm đó đƣợc đƣa vào thiết bị thu. Tỷ lệ này càng cao càng gây khó khăn trong việc sử dụng thiết bị sinh trắc.
Tỷ suất “không có khả năng tham gia” (Failure To Enroll - FTE) có giá trị là tỷ lệ phần trăm thời gian ngƣời dùng không thể tham gia vào hệ thống nhận dạng. Có mối liên hệ giữa tỷ lệ FTE và độ chính xác của hệ thống (FMR và FNMR). Lỗi FTE thông thƣờng xảy ra khi hệ thống nhận dạng thực hiện việc kiểm tra chất lƣợng nhằm đảm bảo chỉ có các mẫu đảm bảo chất lƣợng mới đƣợc lƣu trong cơ sở dữ liệu và từ chối các mẫu kém chất lƣợng. Khi đó, cơ sở dữ liệu chỉ có các mẫu chất lƣợng tốt và mức độ chính xác của hệ thống sẽ tăng đáng kể (FMR và FNMR).
Tỷ suất “không có khả năng đối sánh” (Failure To Match - FTM) có giá trị là tỷ lệ phần trăm thời gian giá trị vào không đƣợc xử lý hoặc không đƣợc đối sánh với giá trị mẫu hợp lệ do chất lƣợng không đảm bảo. Điều này khác với lỗi “không tƣơng xứng sai”, thực tế trong trƣờng hợp xảy ra lỗi không khả năng đối sánh, hệ thống không thể đƣa ra quyết định, với lỗi “không tƣơng xứng sai” thì hệ thống đƣa ra quyết định sai rằng hai giá trị vào xuất phát từ cùng một ngón tay.
Hình 29. FMR(t), FNMR(t), các điểm EER, ZeroFNMR và ZeroFMR.
Các yêu cầu hiệu năng thực tế của một hệ thống sinh trắc dựa rất nhiều vào ứng dụng cụ thể. Nhìn từ khía cạnh mức độ chính xác của hệ thống, một tỷ lệ “không tƣơng xứng sai” rất thấp có thể là mục tiêu chính. Trong một vài ứng dụng hình sự nhƣ nhận diện tội phạm, tỷ lệ “không tƣơng xứng sai” là một vấn đề quan tâm chính chứ không phải tỷ lệ “tƣơng xứng sai”: hơn nữa chúng ta không muốn bỏ qua một hành vi phạm tội thậm chí phải mạo hiểm kiểm tra số lƣợng lớn các đối tƣợng có khả năng phù hợp trong hệ thống sinh trắc. Trong các ứng dụng hình sự, các chuyên gia sẽ là ngƣời ra quyết định cuối cùng.
Ở một khía cạnh khác, một tỷ lệ “tƣơng xứng sai” rất thấp là một nhân tố quan trọng trong các ứng dụng quản lý truy xuất, tại các ứng dụng này bất kỳ kẻ giả mạo nào cũng không đƣợc phép truy xuất mặc dù chúng ta cũng cần xem xét việc bất tiện tới ngƣời dùng hợp lệ khi mà tỷ lệ “không tƣơng xứng sại” là quá cao. Đứng giữa hai thái cực nói trên là một vài ứng dụng dân sự, tại đó các tỷ lệ “tƣơng xứng sai” và “không tƣơng xứng sai” đều cần đƣợc xem xét. Một ứng dụng nhƣ xác minh thẻ ATM, tỷ lệ “tƣơng xứng sai” cao đồng nghĩa với việc mất hàng trăm USD, nếu tỷ lệ “không tƣơng xứng sai” cao thì không khác gì việc gây phiền phức cho khách hàng. Hình dƣới mô tả mối liên hệ giữa FMR và FNMR ứng với các ứng dụng khác nhau.
Hình 30. Điểm thực thi tiêu biểu trong các ứng dụng khác nhau
2.1.3.2. Lỗi hệ thống xác thực
Từ định nghĩa các lỗi đã giới thiệu trong ứng dụng xác minh vân tay, liệu có cách nào ứng dụng sang hệ thống nhận biết vân tay hay không? Với một vài giả định đơn giản, giá trị ƣớc lƣợng hiệu năng thực thi trong chế độ định danh có thể suy ra từ các ƣớc lƣợng lỗi trong chế độ xác minh.
Chúng ta giả sử rằng không có một cơ chế đánh chỉ mục hay thu hồi nào đƣợc sử dụng (toàn bộ cơ sở dữ liệu gồm N mẫu sẽ đƣợc tìm kiếm toàn bộ) và mọi ngƣời dùng đều có một mẫu trong cơ sở dữ liệu. Gọi FNMRN và FMRN là tỷ lệ lỗi “không tƣơng xứng sai” và “tƣơng xứng sai” tƣơng ứng:
FNMRN=FMRN; trong thực tế xác suất “không tƣơng xứng sai” xảy ra giữa dữ liệu vào với mẫu của ngƣời dùng bằng xác suất này trong chế độ xác minh (ngoại trừ biểu thức không xem xét xác suất lỗi “tƣơng xứng sai” xảy ra trƣớc khi kiểm tra mẫu hợp lệ, xem Cappelli, Maio, và Maltoni (2000c)).
FMRN=1-(1-FMR)N; một “tƣơng xứng sai” xảy ra khi dữ liệu vào tƣơng xứng với một hay nhiều mẫu trong cơ sở dữ liệu. FMRN khi đó đƣợc tính toán là hiệu của một trừ đi xác suất không xảy ra “tƣơng xứng sai” với bất kỳ mẫu nào trong cơ sở dữ liệu. Trong công thức trên (1-FMR) là xác suất xảy ra trƣờng hợp dữ liệu vào là không “tƣơng xứng sai” với một mẫu nào đó, và (1-FMR)N
là xác suất để dữ liệu vào là không “tƣơng xứng sai” với bất kỳ mẫu nào trong cơ sở dữ liệu. Nếu FMR là rất nhỏ, khi đó biểu thức trên có thể xấp xỉ với FMRN≡N.FMR, từ đó chúng ta có thể thấy rằng xác xuất xảy ra “tƣơng xứng sai” tăng tuyến tính với kích cỡ của cơ sở dữ liệu.
Kết quả này có sự liên quan mật thiết với việc thiết kế hệ thống định danh kích cỡ lớn. Thông thƣờng, tốc độ tính toán xem nhƣ là vấn đề lớn nhất trong việc mở rộng ứng dụng định danh. Thực tế, mức độ chính xác thậm chí còn đáng quan tâm hơn cả tốc độ khi xét một ứng dụng định danh với 10.000 ngƣời. Chúng ta hoàn toàn có thể tìm ra một thuật toán nhanh kết hợp với kiến trúc tốc độ có khả năng xử lý và nhận biết chỉ trong vài giây.
Mặt khác, giả sử để có một tỷ lệ FNMR và FMR chấp nhận đƣợc vào khoảng 10-5
cho thuật toán đã lựa chọn (sai một trƣờng hợp trong 100000 trƣờng hợp). Khi đó xác suất chấp nhận sai một cá nhân trong giai đoạn nhận biết là FMRN
=10%; và mọi ngƣời đều có cơ hội truy xuất hệ thống bằng cách thử lần lƣợt mƣời ngón tay của họ. Khi đó hệ thống đa sinh trắc có vẻ nhƣ là một giải pháp tốt cho ứng dụng định danh tự động có kích cỡ lớn.
Nếu mẫu trong cơ sở dữ liệu đã đƣợc phân loại/đánh chỉ mục thì chỉ một phần của cơ sở dữ liệu đƣợc xem xét trong quá trình định danh và chúng ta sẽ có công thức khác cho FNMRN và FMRN:
FNMRN = RER + (1-RER).FNMR; trong đó RER (Retrieval Error Rate) là xác suất xảy ra trƣờng hợp cơ sở dữ liệu mẫu ứng với vân tay cần tìm kiếm bị loại bỏ sai do cơ chế tìm kiếm. Biểu thức đạt đƣợc nhờ sử dụng các tham số: trƣờng hợp mẫu phân loại sai (xảy ra xác suất RER), hệ thống sẽ luôn đƣa ra “không tƣơng hợp sai”; nếu cơ chế tìm kiếm trả lại mẫu đúng (xác suất xảy ra (1- RER)), tỷ suất “không tƣơng hợp sai” của hệ thống sẽ là FNMR. Biểu thức này chỉ là xấp xỉ khi không xem xét tới xác suất xảy ra “tƣơng hợp sai” với một mẫu trƣớc khi mẫu đúng đƣợc xem xét (Cappelli, Maio và Maltoni, 2000).
FMRN=1-(1-FMR)N-P; với P (còn gọi là tỷ lệ xâm nhập – penetration rate) là độ xâm nhập trung bình vào cơ sở dữ liệu cần tìm kiếm trong quá trình định danh một giá trị dữ liệu vào.