Sử dụng giọng nói cho xác thực Sinh trắc học dƣờng nhƣ rất tự nhiên và thích hợp. Từ nhỏ, chúng ta đã học cách nhận ra giọng của cha mẹ. Giọng nói cung cấp một nguồn âm thanh quan trọng cho khả năng phán đoán của thính giác. Diễn giải một giọng nói chúng ta nhận đƣợc có thể nói rất nhiều về một ai đó. Nó có thể nói với chúng ta khoảng cách tƣơng đối của họ, cảm xúc, và quan trọng nhất chúng ta có thể nhận ra giọng nói của ngƣời mà chúng ta quen biết. Những vị trí khác nhau và cách thức khác nhau sẽ cho ta những cảm nhận khác nhau về giọng nói.
Ngay cả bộ máy phức tạp nhất là bộ não vẫn có thể bị đánh lừa bởi giọng nói thế nên sinh trắc học giọng nói có thể bị đánh lừa. Thế nên việc sử dụng sinh trắc học giọng nói thƣờng đặt ra nhiều nghi vấn, liệu nó có mức độ chính xác đƣợc nhƣ những phƣơng pháp khác, và có thể phát triển trong môi trƣờng bảo mật mạng. Những vấn đề sẽ phải giải quyết về Sinh trắc học giọng nói:
• Mô tả chung về sinh trắc học giọng nói. • Giọng nói đƣợc thu lại nhƣ thế nào.
• Những thuật toán dùng để làm sáng tỏ giọng nói. • Sinh trắc học giọng nói có thể bị đánh lừa nhƣ thế nào?
1. Mô tả chung về sinh trắc học giọng nói
Khi nói, các từ sẽ bị chia ra thành nhiều phần riêng rẽ gọi là âm vị. Mỗi âm vị lại đƣợc chia thành pitch (độ cao thấp), cadence (nhịp), và inflection (sự chuyển điệu). Ba yếu tố này của giọng nói tạo ra giọng nói duy nhất của mỗi ngƣời. Mặc dù vậy những con ngƣời ở chung vùng miền là có chung đặc điểm về giọng nói, thế nên giọng nói của họ lại tƣơng tự nhau. Rồi chúng ta cũng học giọng nói từ gia đình, khi nghe giọng nói của ngƣời khác, vì vậy một ngƣời có thể nói đƣợc nhiều giọng khác nhau.
Giọng nói là một sinh trắc học vật lý và sinh trắc học hành vi. Nó ảnh hƣởng bởi cá nhân và môi trƣờng. Ví dụ trẻ con khi lớn lên sẽ thay đổi giọng nói. Giọng nói cũng sẽ khác khi nói trong một hội trƣờng lớn hoặc trong một phòng kín.Vì thế giọng nói của chúng ta không bao giờ hoàn toàn chính xác, một lần nữa nghi vấn đặt ra cho việc sử dụng sinh trắc học giọng nói cho bảo mật mạng.
2. Giọng nói đƣợc thu lại nhƣ thế nào?
Giọng nói có thể thu lại bằng cách sử dụng tài nguyên đƣợc thiết kê chuyên biệt nhƣ microphone gắn vào một PC hoặc thiết bị cơ bản có sẵn nhƣ điện thoại.
Sử dụng thiết bị thu tuỳ thuộc vào 2 loại chất lƣợng. Thứ nhất là chất lƣợng vật lý của thiết bị và thứ 2 là môi trƣờng lấy mẫu.
trừ âm nhiễu của môi trƣờng. Với microphone đa hƣớng nó có thể thu tất cả âm thanh kể cả tiếng ồn, ngƣợc lại nó chỉ thu sóng âm thanh từ khu vực âm thanh riêng biệt.
Hầu hết điện thoại đƣợc thiết lập bình thƣờng đủ để cho một cuộc đàm thoại. Chúng có một cái microphone là ống nói, có thể cũ và công nghệ kém hơn. Nói chung thiết bị cầm tay có thể đƣa vào tiếng ồn và âm thanh bị méo. Bản thân chúng không phải là tín hiệu số, chúng là những tín hiệu analog (tƣơng tự), chúng ta không thể truyền chúng, mà phải dùng công cụ để chuyển chúng thành tín hiệu số thì mới truyền đƣợc đƣợc. Bằng cách này thì chất lƣợng của tín hiệu giọng nói sẽ đƣợc bảo đảm và tín hi ệu số sẽ đƣợc dùng làm đầu vào cho thuật toán nhận diện. Dùng một microphone đơn hƣớng sẽ giúp chúng ta loại trừ tiếng ồn và tăng chất lƣợng thu. Và cũng vì vậy mà speaker phone không đƣợc khuyên dùng để làm Sinh trắc học giọng nói. Với công nghệ điện thoại không dây hiện nay, nhờ sự phát triển của công nghệ giúp tăng cƣờng âm thanh và chất lƣợng tín hiệu, chúng cũng đƣợc dùng để làm thiết bị cho các hệ thống sinh trắc học giọng nói
3. Các thuật toán dùng để phiên dịch giọng nói
a. Kiểm tra nhóm từ cố định (Fixed phrase verification)
User đăng kí và xác minh đề sử dụng một cụm từ cố định. Cách này rất dễ cho user đăng kí vì chỉ cần lặp lại 1 cụm từ trong quá trình đăng kí. Để xác minh thì cũng rất đơn giản là so sánh 2 sóng. Nếu chúng khớp trong 1 dung sai cho phép thì chúng sẽ cho là cùng một ngƣời. Để đối chiếu 2 sóng thì đơn giản là sử dụng kỹ thuật dynamic time warping (sai lệch thời gian động).
Dynamic time warping (sai lệch thời gian động) thƣờng đƣợc dùng làm nền tảng cho sự so sánh. Sự diễn giải của nó đƣợc nạp vào thông tin nền. Thuật toán cố gắng giải quyết vấn đề so sánh template tham chiếu với template so sánh khi nhịp của âm vị có sự khác nhau. Nó thực hiện bằng cách sử dụng quan hệ toán học đơn giản. Bằng việc thu hẹp khoảng cách, hi vọng rằng template có thể có sự so sánh chính xác hơn. Đề làm đƣợc nhƣ vậy, mỗi tín hiệu đƣợc ánh xạ vào một ma trận khoảng cách cục bộ. Nó đƣợc hoàn thành bằng cách lấy trị tuyệt tối của 2 ô trong cùng thời gian tham chiếu. Bây giờ ma trận chứa 1 mảng quan hệ khoảng cách giữa 2 tín hiệu. Tiếp theo một ma trân chứa khoảng cách đƣợc tạo ra. Khi là nhƣ vậy thì một giá trị đại diện đƣợc đặt vào mỗi ô hình thành nên các giá trị quan hệ và giá trị thấp nhất của hàng xóm gần nhất trong ma trận khoảng cách cục bộ. Mỗi ma trận tích luỹ khoảng cách đƣợc tao ra, đƣờng dẫn ngắn nhất đƣợc tính.Mỗi đƣờng dẫn đƣợc xác định, nó có thể đƣợc dùng nhƣ là một hàm warp (Sai lệch) để so sánh 2 tín hiệu. Bằng cách này, giờ đây tín hiệu đồng bộ hoá về thời gian để so sánh.
b. Kiểm tra từ vựng cố định
Kiểm tra từ vựng cố định dựa vào đăng kí của user và kiểm tra nhóm từ đã biết. Nhóm từ này thƣờng đƣợc tạo ra từ các số 0 đến 9 và ngẫu nhiên trong các từ liên quan. Để user đăng kí, mỗi từ trong bộ từ vựng đƣợc lặp lại để mẫu duy nhất của user đƣợc tạo ra. Khi đó user sẽ kiểm tra bằng bất kì từ nào trong bộ từ điển của user .Khi mẫu kiểm tra đƣợc so sánh với mẫu đã đăng kí và nó đƣợc khớp dựa trên việc tách mỗi từ trong bộ từ vựng liên quan với từ đăng kí mẫu. Sự khớp của mỗi từ sẽ đƣợc tổng hợp cho két quả cuối cùng.
c. Kiểm tra từ vựng linh hoạt
Dựa trên việc user có thể dùng bất kỳ từ nào trong từ vựng định trƣớc để xác thực. Để hoàn thành nó, user đƣợc yêu cầu lặp lại một chuỗi từ (lexicon)từ vựng bao gồm tất cả âm vị trong từ vựng(lexicon). Không chỉ đƣa ra toàn bộ.Không những phải đƣợc gộp vào toàn bộ xác lập của âm vị, mà âm vị còn đƣợc kiểm tra sự liên
kết với nhau. Khi user muốn xác thực, họ nói bất kì từ nào trong từ vựng, từ sẽ đƣợc tách ra thành những âm vị riêng lẽ và so sánh.
d. Kiểm tra đoạn văn độc lập
Dùng bất kỳ đoạn văn nào để xác thực. Để đăng kí, user nói một đoạn bất kì. Khi muốn kiểm tra, họ sẽ phải kiểm lại với những mẫu đã đƣợc tạo. Đây là một phƣơng thúc không đƣợc dùng trong Sinh trắc học cho bảo mật mạng.
e. Thuật toán nào là tốt nhất?
Quyết định dùng thuật toán nào là dựa vào sự tiện lợi và bảo mật. Nếu công ty muốn có sự tiện lợi thì dùng cách dể đăng kí. Còn nếu muốn bảo mật tốt hơn thì cần việc đăng kí sâu hơn và từ/đoạn xác thực rộng hơn. f. Yêu cầu của thuật toán giọng nói
Việc đăng kí phải đƣợc làm cẩn thận và lặp lại nhìêu lần để có đƣợc mẫu tốt nhất
4. Sinh trắc học giọng nói bị đánh lừa nhƣ thế nào?
Các cách tấn công dùng đồ vật, tấn công thông tin, tấn công mẫu và tấn công hệ thống thay thế có thể xem lại trong phần đánh lừa hệ thống nhận dạng vân tay
- Tấn công bằng giọng vật lý
Đối với những công ty lựa chọn sự tiện lợi thì việc bị tấn công bằng cách ghi âm giọng hoặc nhại lại là rất lớn. Nói chung tất công bằng giọng sinh trắc học là lặp lại một cụm tĩnh để đánh lừa.
-Làm giảm sự tấn công:
Cách làm giảm tấn công hay nhất là dùng một bảng từ vựng đủ lớn. Từ vựng cũng nên hạn chế những từ phổ biến với những kí tự chuẩn. Hoặc có thể đƣa ra những đoạn mà yêu cầu trong khoảng thời gian quy định.