Chúng ta có thể sử dụng các tham số để mô hình hóa khuôn mặt. Thực chất của mô hình hóa khuôn mặt theo tham số là sử dụng một mô hình khuôn mặt tổng quát để mô phỏng, trong đó nội dung mô phỏng sẽ là hình ảnh theo những đặc tính màu, vùng của khuôn mặt, hoặc theo dãy các hình ảnh các khuôn mặt. Việc lựa chọn phƣơng thức thủ công hay tự động để rút trích các tham số để mô phỏng khuôn mặt là tùy thuộc vào chúng ta. Tuy nhiên chúng ta cần chú ý các tham số đƣợc chúng ta rút trích bắt buộc phải là một trong các lựa chọn đƣợc đề cấp đến ở đây, đó là các tọa độ 3D của các điểm đặc trƣng trên khuôn mặt, hoặc các điểm của một mô hình
khuôn mặt, cũng có thể là của một lƣới 3D đầy đủ. Các tham số đƣợc rút trích có vai trò chủ đạo trong mô hình hóa khuôn mặt, có thể coi nó nhƣ bộ xƣơng của cơ thể sống.
Mô hình hóa khuôn mặt theo tham số đang có những cải tiến, nó đƣợc đƣa vào chuẩn MPEG-4 [10]. Để mô tả hình dạng và bề ngoài của khuôn mặt ngƣời ta dùng một kiểu tham số đặc trƣng, tên gọi của kiểu tham số đó là tham số định nghĩa khuôn mặt (FDP1). Ngƣời ta dựa vào các tham số định nghĩa khuôn mặt để tái hiện khuôn mặt, nó đƣợc coi là cơ sở dữ liệu cơ bản, và chỉ dựa vào đó để tái tạo khuôn mặt. Các tạo độ 3D của các điểm đặt trƣng (các điểm FDP) sẽ biểu diễn hình dạng khuôn mặt ở trạng thái cân bằng, đó là trạng thái khuôn mặt ở dạng tĩnh nhƣ mắt mở bình thƣờng miệng đóng…ở trạng thái tự nhiên và phổ biến thông thƣờng của hình mặt đang xử lý. Từ dữ liệu của các điểm FDP, bộ giải mã cần phải tái tạo lại mô hình khuôn mặt, sao cho thỏa mãn tính chất tất cả các điểm đặc trƣng trên mặt đƣợc đặt theo đúng trật tự các điểm FDP. Việc tham số hóa có ƣu điểm khi thiết kế cho các vùng mặt đặc biệt, thƣờng đƣợc áp dụng cho các đƣờng nối hoặc đƣờng biên dễ nhận thấy. Tuy nhiên quá trình lựa chọn tập tham số phụ thuộc vào đồ hình lƣới của mặt nên việc tổng quát hóa bài toán là hoàn toàn khó khăn, điều này sẽ làm cho tiến trình biểu diễn khôn mặt của các cá thể là hoàn toàn độc lập và có tỉ lệ chính xác là khác nhau, đôi khi quá trình điều chỉnh thủ công các giá trị tham số sẽ dẫn tới những khuôn mặt không phù hợp thực tế, việc thể hiện các hoạt đông của thành phần khuôn mặt sẽ không đƣợc tiến hành theo mong đợi. Sự phát triển của kỹ thuật kết hợp nhƣ mô hình hóa khuôn mặt theo cơ giả và theo thống kê mà chúng ta sẽ trình bày ở dƣới sẽ khắc phục đƣợc những hạn chế của việc tham số hóa.
Kỹ thuật nội suy là kỹ thuật sử dụng một hàm nội suy để hoạt hóa khuôn mặt theo khung hình. Quá trình biến đổi của hàm nội suy sẽ thể hiện cử động mềm dẻo giữa hai khung hình (framme) cơ bản theo thời gian thông thƣờng ở các
1
vị trí biên. Thông thƣờng với những khuôn mặt đơn giản ngƣời ta thƣờng dùng phép nội suy tuyến tính (linear). Tuy nhiên ngƣời ta thƣờng dùng một hàm nội suy cosin hay các biến thể khác, để tạo ra các hiệu ứng gia tốc và giảm tốc ở đầu và cuối hoạt ảnh. Khi sử dụng kỹ thuật nội suy, chúng ta sẽ trực tiếp thấy sự co giãn ở các đƣờng biên, đó là một cách trực quan khi chúng ta quan sát sự hoạt ảnh của khuôn mặt.
Hình 2.7. Phép nội suy tuyến tính đƣợc thực hiện trên các giá trị kết hợp cơ mặt Để cải tiến phép nội suy đạt hiệu quả hơn, ngƣời ta sử dụng phép nội suy song tuyến (bilinear). Cách làm của phép nội suy song tuyến là sử dụng bốn khung hình, gấp đôi số khung hình của phép nội suy tuyến tính. Quá trình nội suy song tuyến (bilinear) sẽ sinh ra đƣợc nhiều nét mặt hơn, đặc biệt khi nó kết hợp đồng thời với morphing ảnh cho phép chúng ta tạo nên rất nhiều thay đổi trên nét mặt.
Quá trình biến đổi tham số của hàm nội suy là quá trình biến đổi hàm nội suy, do đó để hoạt ảnh khuôn mặt chúng ta chỉ cần tác động lên các tham số của hàm. Việc thay đổi hàm nội suy, sẽ làm cho tập các điểm trên khuôn mặt thay đổi. Quá trình hoạt hóa này linh động hơn phép nội suy hình học. Phép nội suy hình học, sẽ trực tiếp tác động lên các điểm, còn phép nội suy tham số biểu điễn hàm sẽ làm
biến đổi các điểm do hàm mô tả. Điều này sẽ giống nhƣ chúng ta mô phỏng đƣờng cơ trên khuôn mặt, và hiển nhiên sự thể hiện nét mặt sẽ đạt hiệu quả hơn, rất phù hợp khi chúng ta hoạt ảnh mặt, hay nếp nhăn vùng trán…
Kỹ thuật nội suy có ƣu điểm là tốc độ hoạt ảnh nhanh, phù hợp khi hoạt ảnh các mặt cơ bản, tuy nhiên trong thực tế các nét mặt có sự biến đổi phức tạp, thì kỹ thuật nội suy tỏ ra không hiệu quả. Điều này cũng dễ hiểu, bởi bản thân kỹ thuật nội suy phụ thuộc quá nhiều vào hàm nội suy, nhƣng nét mặt ngƣời, thì không phải điểm nào cũng phụ thuộc vào nhau, có những điểm có tính ràng buộc với điểm khác, tuy nhiên lại có những điểm độc lập, tính ràng buộc hay độc lập lại phụ thuộc nhiều vào từng nét mặt thể hiện. Do đó việc kết hợp các cử động mặt độc lập sẽ khó khăn và cho chúng ta độ xác thực thấp. Bài toán hoạt ảnh khuôn mặt chỉ nên sử dụng nội suy khi nó là một bài toán nhỏ, trong đó chúng ta dùng một vài khung hình cơ bản để sinh ra một tập ảnh nhỏ, lúc này phép nội suy sẽ rất hiệu quả. Để khắc phục hạn chế phép nội suy đơn giản, chúng ta dùng kỹ thuật tham số hóa để hoạt hóa khuôn mặt. Bằng việc kết hợp các giá trị tham số hóa đặt biệt các phép tham số hóa lý tƣởng có thể biểu diễn đƣợc bất kỳ khuôn mặt và nét mặt nào. Tuy nhiên, theo tính toán của Waters, khi xử lý các vấn đề giữa hai tham số mâu thuẫn thì không có phƣơng pháp nào để kết hợp các trạng thái mặt ảnh hƣởng đến cùng các điểm. Quá trình sinh các khuôn mặt có nét mặt tự nhiên là hoàn toàn khó khăn khi gặp sự mâu thuẫn giữa các tham số kỹ thuật. Mặt khác, quá trình lựa chọn tham số hóa phụ thuộc rất nhiều vào đồ hình lƣới của mặt, nên không có phép tham số hóa tổng quát. Chúng ta chỉ dùng phép tham số hóa để hoạt hóa các vùng mặt, quá trình thiết kế cần chú ý, vì nếu không tính toán tốt sẽ tạo nên các biên độ cử động lớn, ảnh hƣớng tới quá trình hoạt hóa khuôn mặt.
Quá trình điều khiển các tham số thủ công nhiều khi không đƣợc tốt lắm, nhiều trƣờng hợp sinh ra các cấu hình, hoặc cử động mặt phi thực tế. Các kỹ thuật nhƣ là morphing giữa hai ảnh, hoạt ảnh dựa trên cơ giả… sẽ giúp chúng ta hạn chế các
nhƣợc điểm của phƣơng pháp tham số hoá, tạo nên những kỹ thuật phát triển hơn trong việc xử lý khuôn mặt.
Morphing2 là một kỹ thuật biến đổi hình dáng, nó tác động biến đổi giữa hai ảnh hay mô hình. Phép biến đổi morphing ảnh 2D bao gồm phép dịch chuyển (warp) giữa các các điểm tƣơng ứng trong các ảnh đích và phép làm mờ chồng chéo3
(cross disolve) đồng bộ. Các điểm tƣơng ứng sẽ đƣợc lựa chọn thủ công để phù hợp với yêu cầu của ứng dụng. Phép morphing sử dụng hàm dịch chuyển dựa trên một trƣờng ảnh hƣởng xung quanh các đặc điểm tƣơng ứng, từ các ảnh có tƣơng quan sẽ sinh ra các hoạt ảnh rất thực tế. Với kỹ thuật này, yêu cầu có các tƣơng tác để trung hòa màu sắc, lựa chọn các tƣơng quan, và điều chỉnh các tham số dịch chuyển và làm mờ chồng. Việc lựa chọn các tƣơng quan sẽ trở nên phức tạp hơn rất nhiều nếu các điểm đặc trƣng có biến thể, vì lúc đó các điểm đặc trƣng sẽ trở nên mờ hoặc rõ trong suốt hoạt ảnh.
Pighin et al. đã đƣa ra một cải tiến rất hay để khắc phục hạn chế của morphing 2D, đó là việc kết hợp phép morphing 2D với các phép biến đổi mô hình 3D [5]. Pighin et al. tiến hành morphing ảnh đƣợc thực hiện giữa các ánh xạ kết cấu bề mặt tƣơng ứng, và dùng phép nội suy hình học 3D để tạo hoạt ảnh cho các nét mặt chính. Cải tiến này, cho ta các khung hình tƣơng đối thực tế, tuy nhiên các phép nội suy giữa hai trạng thái mặt cơ bản định nghĩa trƣớc, sẽ tạo nên giới hạn đối với các khung hình trong hoạt ảnh.
Khi sử dụng phƣơng pháp morphing 2D và 3D , chúng ta có thể tạo ra các trạng thái mặt thực tế, tuy nhiên phƣơng pháp morphing cũng có những hạn chế nhƣ hạn chế của tiếp cận nội suy. Kết quả cuối cùng của quá trình hoạt hóa, phụ thuộc rất nhiều vào tính đặc trƣng của khuôn mặt, cho nên quá trình áp dụng morphing chỉ mang tính cá biệt, không đặc trƣng tổng quá. Quá trình hoạt hóa, bị ràng buộc chặt chẽ với
2 morph, bắt nguồn từ từ Tiếng Anh là metamorphosis, là quá trình biến đổi từ từ hình dáng của đối tƣợng
3
ảnh đích, nên thƣờng xuyên dùng phép xấp xỉ, do đó dẫn đến các sai số không mong muốn. Xét trên tổng thể, morphing phù hợp hơn khi chúng ta thiết kế các mô hình, bởi ƣu thế của morphing chính là sự mô phỏng rõ nét tổng thể.
Chuẩn MPEG-4 [11] là một chuẩn nén đa phƣơng tiện dựa trên đối tƣợng phát triển của chuẩn MPEG, ngƣời ta dùng chuẩn MPEG-4 để hoạt ảnh. Trong chuẩn MPEG- 4, ngƣời ta sử dụng 2 tham số chính đó là: tham số định nghĩa khuôn mặt (FDP4) và các tham số hoạt ảnh khuôn mặt (FAP5). Mục đích của các tham số dùng để mô tả, biểu diễn, điều khiển hình dạng, kết cấu và các biểu hiện của mặt. Trong đó các tham số định nghĩa khuôn mặt đóng vài trò là các tham số dùng để thể hiện cấu trúc hình học cho một khuôn mặt 3D, còn các tham số hoạt ảnh khuôn mặt là các tham số với vai trò đƣợc dùng mã hoá các tham số cử động theo thời gian của các điểm đặc trƣng trên mặt.
Trên khuôn mặt cân bằng, bình thƣờng MPEG-4 định nghĩa 84 điểm đặc trƣng. Các điểm đặc trƣng đại diện cho các điểm chính trên khuôn mặt. Từ các điểm đặc trƣng, chúng ta tham chiếu trong không gian để tới các vị trí của mặt để mô phỏng đƣợc các thành phần chính nhƣ: cơ, xƣơng chính, các cơ quan mặt mở rộng, các điểm liên kết giữa cơ và xƣơng,… Các điểm đặc trƣng ngoài việc thể hiện đƣợc khung xƣơng còn thể hiện cơ chế di chuyển của mặt ngƣời. Tập các điểm đặc trƣng, cùng chức năng mô tả thành phần nào đó của mặt, sẽ tạo thành một nhóm. Các nhóm đƣợc phân định để dễ tái tạo và hoạt hóa mặt 3 D. Vị trí của các điểm đặc trƣng đƣợc thể hiện rõ trong mọi mô hình khuôn mặt theo chuẩn MPEG-4, nó giống nhƣ một sơ đồ điểm, dùng để mô hình và hoạt hóa mặt. Khi nhìn vào hệ thống điểm biểu diễn này, muốn hoạt hóa bộ phận nào trên mặt, chúng ta sẽ sử dụng những nhóm điểm phù hợp để hoạt hóa mặt.
4 Facial Definition Parameter
5
Từ khảo sát, nghiên cứu các hoạt động (tính tới các hoạt động nhỏ nhất của khuôn mặt), các hoạt động của cơ mặt, ngƣời ta lựa chọn ra các tham số hoạt ảnh khuôn mặt đặc trƣng. Ngƣời ta dùng 68 tham số hoạt ảnh khuôn mặt, đủ để hoạt ảnh tốt mặt. Các tham số hoạt ảnh khuôn mặt đƣợc phân loại thành 10 nhóm. Các nhóm đƣợc phân chia tƣơng ứng với các bộ phận trên mặt. Chúng ta có thể tham khảo một số nhóm tham số hoạt ảnh khuôn mặt ở phía dƣới.
Các nhóm FAP
STT Nhóm Số thứ tự
FAP
1 ngôn hình và nét mặt (visemes and expressions) 2 2 hàm, cằm, môi dƣới bên trong, khoé môi, trung tâm môi
(jaw, chin, inner lowerlip, cornerlips, midlip) 16 3 nhãn cầu, đồng tử, mí mắt(eyeballs, pupils, eyelids) 12
4 lông mày (eyebrow) 8
5 má (cheeks) 4
6 lƣỡi (tongue) 5
7 sự quay của đầu (head rotation) 3
8 ví trí môi ngoài (outer lip positions) 10
9 mũi (nose) 4
10 tai (ears) 4
Hình 2.9. Một số FAP
Các khuôn mặt khác nhau có tỉ lệ tham số và kích thƣớc khác nhau. Để hoạt ảnh mặt, các giá trị của tham số hoạt ảnh khuôn mặt cần đƣợc định nghĩa trong các đơn
vị tham số hoạt ảnh khuôn mặt (FAPU6). Các đơn vị tham số hoạt ảnh, sẽ tạo nên sự hoạt ảnh chính xác trên mặt. Các đơn vị tham số hoạt ảnh khuôn mặt đƣợc định nghĩa là các phân số khoảng cách giữa các đặc điểm chính của khuôn mặt. Ví dụ nhƣ khoảng cách giữa hai mắt, khoảng cách mắt - mũi, khoảng cách miệng - mũi, và độ rộng miệng.
Hinh 2.10. Các đơn vị tham số hoạt ảnh khuôn mặt
6
Dƣới đây là danh sách các FAPU.
IRISD - đƣờng kính tròng đen trong khuôn mặt ở trạng thái cân bằng (IRISD = IRISD0 / 1024)
ES - sự phân ly mắt (ES = ES0 / 1024)
ENS - sự phân ly mắt – mũi (ENS = ENS0 / 1024) MNS- sự phân ly miệng – mũi (MNS = MNS0 / 1024) MW - độ rộng miệng (MW=MW0 / 1024)
AU – đơn vị góc 10E-5 rad
Hoạt ảnh khuôn mặt theo chuẩn MPEG-4 có ƣu điểm rất tốt để chuyền ảnh. Quá trình chuyền ảnh là quá trình rời rạc, trong khi truyền ảnh, khuôn mặt tiếp tục đƣợc hoạt hóa, tức là có sự thay đổi, bằng kỹ thuật hoạt ảnh đặc thù chuẩn MPEG-4 chuyển tải các lệnh gây ra các thay đổi trong các biểu hiện của mặt, và tổng hợp hình ảnh vởi các hiệu ứng tƣơng ứng trong máy nhận, do đó loại trừ hạn chế trong truyền hình ảnh. Ý tƣởng này đƣợc thể hiện nhƣ lƣợc đồ dƣới đây.