Lý do chọnđềtài
Trong những năm gần đây, sự phát triển của cuộc Cách mạng Côngnghiệp lần thứ 4 đã tạo ra nhiều sự chuyển biến đối với con ngườit r o n g x ã hội trên thế giới nói chung và Việt Nam nói riêng Nhiều lĩnh vực liên quanđến những hệ thống công nghệ thông tin hiện đại cũng đã dần trở nên quenthuộctrongđờisốngconngười.
XửlýảnhvàThịgiácmáyđangpháttriểnmạnhmẽvàđangđượcthuhút sự quan tâm của nhiều nhà khoa học Trong những năm qua, nghiên cứunhận dạng khuôn mặt và ứng dụng trong các hệ thống giám sát tự động đượcquan tâm thu hút cả trong nghiên cứu lẫn trong thực tế Đã xuất hiện nhữngcông nghệ khả thi sau nhiều thập niên nghiên cứu đóng góp vào xu thế này,chúng không chỉ ứng dụng vào các ứng dụng thương mại, ứng dụng bảo mậtmà còn nhiều lĩnh vực khác trong cuộc sống Mặc dù hệ thống nhận dạngkhuôn mặt hiện tại đã đạt đến một mức độ phát triển nhất định, nhưng chúngvẫn còn nhiều hạn chế khi áp dụng vào các điều kiện thực tế Khuôn mặt làloại đối tượng mang theo tri thức của đối tượng, luôn bị thay đổi bởi nhữngbiến thểbên trong(khuônmặtbịthay đổi theo thời gian, diệnmạov v ) v à biếnthểbênngoài(điềukiệnthunhậnhìnhhọcvàquanghọc).Chẳnghạ n,với điều kiệncác khuônmặt nhận dạng thực tế được lấy trongm ô i t r ư ờ n g thựctếvớisựthayđổiđộsáng,khuônmặtnghiênghoặcđộphân giảithấpcủa hìnhảnh thu đượcvẫn là vấn đề khógiảiquyết.Nói cáchk h á c , n g h i ê n cứu nhận dạng khuôn mặt ứng dụng trong hệ thống giám sát tự động là vấn đềhếtsức cầnthiết.
Trong lĩnh vực y tế, cả nước đang thúc đẩy việc nghiên cứu ứng dụngCôngnghệthôngtinnóichungvàứngdụngTrítuệnhântạotrongquả nlý khám chữa bệnh Bài toán đặt ra là cần truy vấn thông tin bệnh nhân nhanhchóng, hiệu quả và chínhxác tronghệ thốngthôngtinquản lýbệnhv i ệ n nhằm giảm thiểu quá tải ở các bệnh viện, tăng năng suất làm việc tại các bệnhviện cũng như hạn chế những rủi ro trong công tác khám chữa bệnh Nhậndạng khuôn mặt tích hợp vào hệ thống thông tin quản lý bệnh viện là vấn đềđặt ra nhằm giải quyết các vấn đề như xác định danh tính bệnh nhân chính xácvà nhanh chóng, giám sát và hỗ trợ hướng dẫn bệnh nhân trong quá trình quảnlývà điềutrịtạibệnhviện.
Đề tài nghiên cứu luận văn này có ý nghĩa thực tế cao trong quản lý bệnh viện Hệ thống thông tin quản lý bệnh viện có thể được cải thiện đáng kể bằng cách ứng dụng công nghệ nhận dạng khuôn mặt Từ đó, quá trình đăng ký bệnh nhân, quản lý hồ sơ bệnh án và các hoạt động liên quan khác có thể trở nên thuận tiện và chính xác hơn.
Mụcđíchvànhiệmvụ nghiêncứu
Nghiên cứu phương pháp nhận dạng khuôn mặt Xây dựng ứng dụngnhận dạng khuôn mặt tích hợp vào hệ thống thông tin quản lý bệnh viện nhằmtruyxuất,tìmkiếm,xác thựcthông tinbệnh nhân chínhxácvà hiệuquả.
Xâydựngứngdụngnhậndạngkhuônmặttrong tìmkiếmvàxácthực thôngtin bệnh nhân tíchhợp tronghệthốngthông tinbệnhviện.
3 Đốitƣợngvàphạmvinghiêncứu Đối tượng nghiên cứu: Ảnh khuôn mặt và phương thức tích hợp vào hệthốngthôngtinquảnlýbệnhviện.
Phạm vi nghiên cứu: Nhận dạng khuôn mặt trong xác thực, tìm kiếmthôngtinbệnh nhântronghệthốngthôngtin ytế.
Phươngphápnghiêncứucủađềtàiđượclựachọnlàlýthuyếtkếthợpv ớithựcnghiệm.Cácvấnđềcầngiảiquyếtliênquanđếncácthuậtt o á n xửlýả nhvàthịgiácmáyđượcthựchiệntrênphầnmềmmáytínhvớiđầuvàolà các thông tin thu nhận được từ thực tế Quá trình được tiến hành dựa trênviệctìmhiểutàiliệu,càiđặtthử nghiệmsauđóđánhgiák ế t q u ả t h ự c nghiệm vàcảitiếnnhằmnângcaochấtlượngchươngtrình.
Như vậy, cần tiến hành tìm hiểu lý thuyết về phương pháp nhận dạngkhuôn mặt, kỹ thuật tích hợp vào hệ thống quản lý thông tin y tế tại các bệnhviện Tìm hiểu kỹ thuật về mặt lý thuyết sẽ được kết hợp với việc cài đặt thựcnghiệm để kiểm chứng và đánh giá những nội dung lý tìm hiểu lý thuyết và từđó cảitiếnvà hoànthiệnchươngtrình.
Thực hiện đề tài“Ứng dụng nhận dạng khuôn mặt trong hệ thống thôngtin quản lý bệnh viện”, sẽ góp phần hỗ trợ xác thực và tìm kiếm thông tinngười bệnhnhanh chóng,hiệuquảvà chính xác.
Ngoài phầnm ở đ ầ u , k ế t l u ậ n v à t à i l i ệ u t h a m k h ả o , n ộ i d u n g c ủ a l u ậ n văn đượctrìnhbàytrongba chương:
Chương1:Tổngquanvềnhậndạngkhuônmặttronghệthốngthông tinquản lýbệnh viện
Trong chương này, luận văn sẽ trình bày bài toán nhận dạng khuôn mặt,hệ thống thông tin quản lý y tế và một số bài toán ứng dụng tích hợp nhậndạngkhuônmặt trong xác thựcvàtìmkiếmthôngtin ngườibệnh.
Phần này luận văn trình bày kỹ thuật nhận dạng khuôn mặt hiệu quảtrong xác thực vàtìmkiếmthôngtinngườibệnh.
Chương 3: Ứng dụng nhận dạng khuôn mặt trong xác thực và tìmkiếm thôngtin bệnhviện
Luận văn sẽ cài đặt thử nghiệm kỹ thuật nhận dạng khuôn mặt trình bàytrong chương 2 và tích hợp tìm kiếm, xác thực thông tin trong hệ thống thôngtin quảnlýbệnhviện.
Nhận dạng khuôn mặt là kỹ thuật trích xuất đặc điểm khuôn mặt của một cá nhân, lưu trữ dưới dạng tập điểm đặc trưng và so sánh với các tập điểm đặc trưng của khuôn mặt người khác để xác định danh tính Hệ thống này hoạt động dựa trên phép so sánh một-nhiều, tìm kiếm thông tin của một người trong cơ sở dữ liệu bằng cách dựa vào thông tin khuôn mặt của người đó.
Phântíchcácđặctínhsinhtrắchọccủaconngười Đặctínhsinhtrắccủangười làđặctínhđođượccácnéthànhviriêng của con người Nhận dạng người được thực hiện trong quá trình kiểm tra tínhđồng nhất của đặc tính sinh trắc giữa người cần kiểm tra với đặc tính tương tựcủa người đã được lưu sẵn trong cơ sở dữ liệu Có thể nhận dạng người dựatrên các đặc điểm sinh trắc tĩnh trên người như khuôn mặt, mắt, vân tay, bàntay v.v hay các đặc trưng hành vi như dáng đi, giọng nói,chữ viết v.v.D ữ liệusinhtrắclýtưởng củangười cầnphảicó nhữngđặctính cơbản như:
Tính tổngquát: Mỗingười đềuđượcthểhiệnbởi đặctínhnày
Tínhthuthậpđược:Làđặctínhđượcthuthậpmộtcáctươngđốiđơn giảnvànhanhchóngtừmỗi cácnhânvàcóthểđượcchi tiếthóa.
Nhiệm vụ của hệ thống nhận dạng khuôn mặt là xử lý tự động thông tintừ các ảnh để tìm ra độ tương tự giữa các khuôn mặt và đưa ra quyết định vềtính đồng nhất giữa chúng Cấu trúc của hệ thống nhận dạng khuôn mặt đượcthểhiệnnhưhìnhsau:
Tiền xử lý (Pre-Processing): Để chuẩn hóa ảnh cần tìm giúp cho việctìm kiếm được hiệu quả hơn Các công việc trong bước tiền xử lý cóthể là: chuẩn hóa kích cỡ giữa ảnh trong CSDL và ảnh cần tìm, hiệuchỉnh độ sáng, tối của ảnh, lọc nhiễu, chuẩn hoá về vị trí, tư thế ảnhmặt.
Tách khuôn mặt (FD): Để xác định vị trí, kích cỡ của một hoặc nhiềukhuôn mặt trên ảnh chụp từ đó tách ra phần mặt Phần ảnh mặt đượctách ra thường nhỏ hơn nhiều so với ảnh chụp ban đầu, nó sẽ là cáckhuôn mặt cần tìm và chức năng trích chọn đặc trưng sẽ sử dụng cácảnh đượctáchranày.
Trích chọn đặc trưng (FE): Tìm ra các đặc trưng chính của ảnh mặt, từcác đặc trưng này hình thành các vectơ đặc trưng, các vectơ này sẽđược sử dụng để đối sánh sự giống nhau giữa ảnh mặt cần tìm và ảnhmặt trongCSDL.
Đối sánh (Comparison): Thực hiện việc so sánh giữa các vectơ đặctrưng để chọn ra độ tương tự giữa ảnh cần tìm và ảnh trong CSDL.Ảnhc h â n d u n g m ặ t n g ư ờ i c h o g i ấ y t ờ x u ấ t n h ậ p c ả n h v à đ i đ ư ờ n g thỏamãncácyêucầucủa tiêu chuẩnquốctế ISO/IEC.
1.1.3 Đặctrưngkhuônmặt Đặct r ư n g k h u ô n m ặ t b a o g ồ m đ ặ c t r ư n g h ì n h h ọ c v à đ ặ c t r ư n g d i ệ n mạo Đặc trưng hình học bao gồm cấu trúc, hình dạng và các thành phần trênkhuôn mặt như miệng, mắt, mũi và lông mày, khoảng cách giữa mắt, mũi,miệngvàhàm,đườngbaocáchốcmắt,cáccạnhcủamiệng,vịtrícủam ũi,hai mắt và các vùng xung quanh Các thành phần khuôn mặt được trích chọnđểhìnhthành vectơ đặctrưngbiểudiễnhình họckhuôn mặt.
Bêncạnhđó,đặctrưngvềdiệnmạobiểudiễnsựthayđổivẻbềngoàicủ a khuônmặt Đólàhìnhdạng khuôn mặt, kết cấu bềmặtda vàb i ể u đ ồ nhiệt của khuôn mặt, Kết cấu da như các nếp nhăn trên khuôn mặt Biểu đồnhiệtcủa khuônmặtnhư cácmẫunhiệt của khuôn mặt,nó làd u y n h ấ t v ớ i mỗi người. Các đặc trưng về diện mạo có thể trích chọn trên cả khuôn mặthoặc phần nào đó trên khuôn mặt Vì vậy, các nhà nghiên cứu phân tích đặctrưngkhuônmặthayphântíchkhuônmặthầuhếtđềutậptrungvàonhữ ngđặcđiểmđótrênkhuônmặt.
Khuôn mặt là đối tượng khó mô tả vì có khả năng tự biến đổi khi điều kiện thu nhận thông tin thay đổi Do đó, yêu cầu nhận dạng khuôn mặt cần nhanh chóng, chính xác và có cơ sở dữ liệu khuôn mặt quy mô lớn.
Phươngphápnghiêncứu
Phươngphápnghiêncứucủađềtàiđượclựachọnlàlýthuyếtkếthợpv ớithựcnghiệm.Cácvấnđềcầngiảiquyếtliênquanđếncácthuậtt o á n xửlýả nhvàthịgiácmáyđượcthựchiệntrênphầnmềmmáytínhvớiđầuvàolà các thông tin thu nhận được từ thực tế Quá trình được tiến hành dựa trênviệctìmhiểutàiliệu,càiđặtthử nghiệmsauđóđánhgiák ế t q u ả t h ự c nghiệm vàcảitiếnnhằmnângcaochấtlượngchươngtrình.
Như vậy, cần tiến hành tìm hiểu lý thuyết về phương pháp nhận dạngkhuôn mặt, kỹ thuật tích hợp vào hệ thống quản lý thông tin y tế tại các bệnhviện Tìm hiểu kỹ thuật về mặt lý thuyết sẽ được kết hợp với việc cài đặt thựcnghiệm để kiểm chứng và đánh giá những nội dung lý tìm hiểu lý thuyết và từđó cảitiếnvà hoànthiệnchươngtrình.
Đóng góp củađềtài
Thực hiện đề tài“Ứng dụng nhận dạng khuôn mặt trong hệ thống thôngtin quản lý bệnh viện”, sẽ góp phần hỗ trợ xác thực và tìm kiếm thông tinngười bệnhnhanh chóng,hiệuquảvà chính xác.
Cấutrúcluậnvăn
Bàitoánnhậndạngkhuônmặt
Nhận dạng khuôn mặt là kỹ thuật kết hợp toán học và sinh trắc học nhằmánh xạ các đặc điểm khuôn mặt của một người vào mô hình toán học và lưutrữ dữ liệu dưới dạng đặc trưng điểm So sánh, phân lớp các tập điểm đặctrưngc ủ a k h u ô n m ặ t n h ằ m x á c đ ị n h l ớ p đ ị n h d a n h c h o k h u ô n m ặ t đ ó K ỹ thuật nhận dạng khuôn mặt là kiểm tra sự phù hợp dựa trên phép so sánh một-nhiều cụ thể là tìm ra một người là ai trong số những người đã được lưu trữtronghệthốngdựavàothôngtinkhuônmặt.Hệthốngnhậndạngkhuônmặtlà một hệ thống được thiết kế để tìm thông tin của một người dựa vào nhữngđặctrưngsinh trắchọcduynhất trênkhuônmặtcủa người đó.
Phântíchcácđặctínhsinhtrắchọccủaconngười Đặctínhsinhtrắccủangười làđặctínhđođượccácnéthànhviriêng của con người Nhận dạng người được thực hiện trong quá trình kiểm tra tínhđồng nhất của đặc tính sinh trắc giữa người cần kiểm tra với đặc tính tương tựcủa người đã được lưu sẵn trong cơ sở dữ liệu Có thể nhận dạng người dựatrên các đặc điểm sinh trắc tĩnh trên người như khuôn mặt, mắt, vân tay, bàntay v.v hay các đặc trưng hành vi như dáng đi, giọng nói,chữ viết v.v.D ữ liệusinhtrắclýtưởng củangười cầnphảicó nhữngđặctính cơbản như:
Tính tổngquát: Mỗingười đềuđượcthểhiệnbởi đặctínhnày
Tínhthuthậpđược:Làđặctínhđượcthuthậpmộtcáctươngđốiđơn giảnvànhanhchóngtừmỗi cácnhânvàcóthểđượcchi tiếthóa.
Nhiệm vụ của hệ thống nhận dạng khuôn mặt là xử lý tự động thông tintừ các ảnh để tìm ra độ tương tự giữa các khuôn mặt và đưa ra quyết định vềtính đồng nhất giữa chúng Cấu trúc của hệ thống nhận dạng khuôn mặt đượcthểhiệnnhưhìnhsau:
Tiền xử lý (Pre-Processing): Để chuẩn hóa ảnh cần tìm giúp cho việctìm kiếm được hiệu quả hơn Các công việc trong bước tiền xử lý cóthể là: chuẩn hóa kích cỡ giữa ảnh trong CSDL và ảnh cần tìm, hiệuchỉnh độ sáng, tối của ảnh, lọc nhiễu, chuẩn hoá về vị trí, tư thế ảnhmặt.
Tách khuôn mặt (FD): Để xác định vị trí, kích cỡ của một hoặc nhiềukhuôn mặt trên ảnh chụp từ đó tách ra phần mặt Phần ảnh mặt đượctách ra thường nhỏ hơn nhiều so với ảnh chụp ban đầu, nó sẽ là cáckhuôn mặt cần tìm và chức năng trích chọn đặc trưng sẽ sử dụng cácảnh đượctáchranày.
Trích chọn đặc trưng (FE): Tìm ra các đặc trưng chính của ảnh mặt, từcác đặc trưng này hình thành các vectơ đặc trưng, các vectơ này sẽđược sử dụng để đối sánh sự giống nhau giữa ảnh mặt cần tìm và ảnhmặt trongCSDL.
Đối sánh (Comparison): Thực hiện việc so sánh giữa các vectơ đặctrưng để chọn ra độ tương tự giữa ảnh cần tìm và ảnh trong CSDL.Ảnhc h â n d u n g m ặ t n g ư ờ i c h o g i ấ y t ờ x u ấ t n h ậ p c ả n h v à đ i đ ư ờ n g thỏamãncácyêucầucủa tiêu chuẩnquốctế ISO/IEC.
1.1.3 Đặctrưngkhuônmặt Đặct r ư n g k h u ô n m ặ t b a o g ồ m đ ặ c t r ư n g h ì n h h ọ c v à đ ặ c t r ư n g d i ệ n mạo Đặc trưng hình học bao gồm cấu trúc, hình dạng và các thành phần trênkhuôn mặt như miệng, mắt, mũi và lông mày, khoảng cách giữa mắt, mũi,miệngvàhàm,đườngbaocáchốcmắt,cáccạnhcủamiệng,vịtrícủam ũi,hai mắt và các vùng xung quanh Các thành phần khuôn mặt được trích chọnđểhìnhthành vectơ đặctrưngbiểudiễnhình họckhuôn mặt.
Bêncạnhđó,đặctrưngvềdiệnmạobiểudiễnsựthayđổivẻbềngoàicủ a khuônmặt Đólàhìnhdạng khuôn mặt, kết cấu bềmặtda vàb i ể u đ ồ nhiệt của khuôn mặt, Kết cấu da như các nếp nhăn trên khuôn mặt Biểu đồnhiệtcủa khuônmặtnhư cácmẫunhiệt của khuôn mặt,nó làd u y n h ấ t v ớ i mỗi người. Các đặc trưng về diện mạo có thể trích chọn trên cả khuôn mặthoặc phần nào đó trên khuôn mặt Vì vậy, các nhà nghiên cứu phân tích đặctrưngkhuônmặthayphântíchkhuônmặthầuhếtđềutậptrungvàonhữ ngđặcđiểmđótrênkhuônmặt.
Khuôn mặt là đối tượng tự biến đổi nên khó mô tả khi điều kiện thu nhậnthay đổi, yêu cầu tốc độ nhận dạng nhanh, độ chính xác cao, cơ sở dữ liệukhuôn mặtngàycànglớn.
Mộtgươngmặtngườikhôngchỉlàđốitượngbachiềumàcònlàmộtthựcthể mang tính động rất cao Ngoài ra, nhận dạng khuôn mặt còn phụ thuộc vàonhiều yếu tố Chính vì thế vấn đề này vẫn đang được nhiều nhóm trên thế giớiquan tâm nghiên cứu Khó khăn của bài toán nhận dạng khuôn mặt có thể kểnhưsau:
Tưthế,gócchụp Ảnh chụp khuôn mặt có thể thay đổi rất nhiều bởi vì góc chụp giữacamera và khuôn mặt Chẳng hạn như: chụp thẳng, chụp xéo bên trái
45 0 hayxéo bên phải 45 0 , chụp từ trên xuống, chụp từ dướil ê n , ) V ớ i c á c t ư t h ế khácn h a u , c á c t h à n h p h ầ n t r ê n k h u ô n m ặ t n h ư m ắ t , m ũ i , m i ệ n g c ó t h ể b ị khuất một phần hoặc thậm chí khuất hết Khuôn mặt đang nhìn thẳng nhưnggóc chụp camera bị lệch đều là các hạn chế, khó khăn trong việc nhận dạngkhuôn mặtmộtcáchchínhxác.
Đặc điểm trên khuôn mặt như: râu, ria, kính, mũ có thể xuất hiện hoặc không Những đặc điểm ngoại lai này cũng ảnh hưởng không nhỏ đến khả năng nhận dạng khuôn mặt Vấn đề này khiến bài toán trở nên phức tạp hơn rất nhiều.
Biểu cảm của khuôn mặt có thể làm ảnh hưởng đáng kể đến các thông sốcủa khuôn mặt Chẳng hạn, cùng một khuôn mặt một người, nhưng có thể sẽrất khác khi họ cười hoặc sợ hãi v.v Khuôn mặt con người với rất nhiều đặctrưngkh ác nh au m u ố n N h ậ n d ạn g c h í n h x á c đã r ấ t kh ók h ă n , v à vớ in hi ều loại biểu cảm khác nhau thì việc nhận dạng tối ưu được khuôn mặt ngày càngkhó khănhơn.
Khuônmặtcóthểbịchekhuấtbởicácđốitượngkháchoặccáckhuônmặtkhác. Điềukiệnthunhận ảnh Ảnh được chụp trong các điều kiện khác nhau về chiếu sáng, tính chấtcamera (máy kỹ thuật số, điện thoại ) ảnh hưởng rất nhiều đến chất lượngkhuôn mặt trong ảnhchụpvàcũng gâykhó khăn trongquátrình nhận dạng.
Phươngphápnhậndạngkhuônmặt
Dựa vào các tính chất của các phương pháp nhận dạng khuôn mặt. Cácphương pháp này được chia ba hướng tiếp cận chính Ngoài ba hướng này,nhiều nghiên cứu có liên quan đến không chỉ một hướng tiếp cận chính mà ápdụng kếthợpcáchướngtiếpcậnnhằmchora kếtquả tốiưu:
Dùng các mẫu chuẩn của khuôn mặt (các mẫu này đã được định nghĩabằng tay trước hoặc được tham số hóa bằng một hàm số) để mô tả cho khuônmặt hay các đặc trưng khuôn mặt (các mẫu này phải chọn làm sao cho táchbiệt nhau theo tiêu chuẩn mà các tác giả định để so sánh) Mẫu này được sửdụng để phát hiện khuôn mặt bằng cách quét nó qua ảnh và tính toán giá trịtương đồng cho mỗi vị trí (đường viền khuôn mặt, mắt, mũi, miệng) Các mốitương quan giữa dữ liệu ảnh đưa vào và các mẫu dùng để xác định khuôn mặt.Thông qua các giá trị tương quan này mà các tác giả quyết định có hay khôngcó tồntạikhuônmặttrongcơsởdữliệu.
Khuôn mặt cũng cót h ể đ ư ợ c m ô t ả l à đ ố i t ư ợ n g c ó c ấ u t r ú c T i ế p c ậ n dựatrêncấutrúclàcácphươngphápxửlýtrênđốitượngkhuônmặtcácmôtả định lượng, mô tả mối quan hệ cấu trúc giữa các phần trong đối tượng, đặcbiệt là cấu trúc đặc trưng hình dạng của đối tượng khuôn mặt Đặc trưng củanhậndạngcấutrúclà c ác m ẫ u đ ư ợ c p hâ n t í c h t hà nh cácm ẫu n h ỏ hơn d ự a trên mối quan hệ không gian, các mẫu được hình thành từ các mẫu nhỏ hơnđượcphâncấp,cáclớpkhácnhaucócáccácmẫukhácnhau,quyluậtgiữ acác mẫu nhỏ khác nhau có thể khác với các lớp khác nhau Như vậy đối tượngcầnnhậndạng có thểđượcmô tả bởi xâu chuỗi,đồ thịhoặcvănphạm.
Nhận dạng cấu trúc văn phạm dựa vào việc mô tả đối tượng bằng cáchbiểu thị giả định đối tượng cơ sở để có thể đánh giá được trong ngôn ngữ tựnhiên Phương pháp này xây dựng mô tả thức bậc các mô hình phức tạp từ cácyếu tố nguyên thủy đơn giản Để mô tả đối tượng, có thể dùng một số đặc đặctrưng cơ bản như đoạn thẳng, cung, Chẳng hạn, một hình chữ nhật đượcđịnh nghĩa gồm 4 đoạn thẳng vuông góc với nhau từng đôi một Trong môhình này người ta có thể sử dụng một bộ ký hiệu kết thúc Vt, một bộ ký hiệukhông kết thúc Vn Ngoài ra có dùng một tập các luật sinh để mô tả cách xâydựng các đối tượng phù hợp dựa trên các đối tượng đơng i ả n h o ặ c n g u y ê n thủy (tập Vt). Trong tiếp cận này, người ta dựa trên nguyên tắc: cấu trúc mộtdạng là kết quả của việc áp dụng luật sinh theo nguyên tắc xác định bắt đầu từmột dạng gốc bắt đầu.
Vì thế một cách hình thức, mô hình này có thể tươngđương với một văn phạm G=(Vt, Vn, P, S). Việc nhận dạng có thể dựa trênviệc tìm văn phạm mô tả dữ liệu đối tượng và tìm kiếm hay kiểm tra xem cácngôn ngữ có được sinh ra từ văn phạm đó hay không để có xác định đối tượngthuộclớpquantâm.
Trái ngược với phương pháp đối sánh mẫu, với các mẫu đã được địnhnghĩa trước bởi những chuyên gia, các mẫutrong hướng tiếpc ậ n n à y đ ư ợ c học từ cácảnhmẫu Nói mộtc á c h t ổ n g q u á t , c á c p h ư ơ n g p h á p t h e o h ư ớ n g tiếpcậnnàyápdụngcáckỹthuậttheohướngxácsuấtthốngkêvàmá yhọcđể tìm những đặc tính liên quan của khuôn mặt và không phải khuôn mặt Cácđặc tính đã được học ở trong hình thái các mô hình phân bố hay các hàm biệtsốn ê n d ù n g c á c đ ặ c t í n h n à y đ ể x á c đ ị n h k h u ô n m ặ t Đ ồ n g t h ờ i , b à i t o á n giảm số chiều, thường được quan tâm để tăng hiệu quả tính toán cũng nhưhiệuquảxácđịnh.
Có nhiều phương pháp áp dụng xác suất thống kê để giải quyết Một ảnhhay một vectơ đặc trưng xuất phát từ một ảnh được xem như một biến ngẫunhiên x, và biến ngẫu nhiên có đặc tính là khuôn mặt hay không phải khuônmặt bởi côngthứctínhtheo cáchàmmậtđộ phân lớp theođiềukiện.
Các mẫu ảnh được chiếu vào không gian đa chiều thấp hơn bằng thuật toán chiếu Sau đó, dựa trên khoảng cách giữa các mẫu ảnh, ta sử dụng hệ số khoảng cách, phương pháp SVM hay mạng Nơ-ron đa tầng để phân loại và xây dựng mặt phẳng quyết định phi tuyến Cuối cùng, chiếu toàn bộ mẫu ảnh vào không gian đa chiều cao hơn để tách biệt hoàn toàn các mẫu ảnh và sử dụng mặt phẳng quyết định để phân loại khuôn mặt và các đối tượng không phải khuôn mặt.
Mạng nơ-ron được áp dụng khá thành công trong các bài toán nhận dạngmẫu,n h ư : nh ận k ý tự ,đ ố i t ượ ng , r o b o t tự đ ộ n g vậ nh à n h X á c đ ị n h k h u ô n mặt người có thể xem là bài toán nhận dạng hai loại mẫu, có nhiều kiến trúcmạng nơ-ron đã được trình bày Một thuận lợi khi dùng mạng nơ-ron để xácđịnh khuôn mặt là tính khả thi của hệ thống học khi có sự phức tạp trong lớpcủacácmẫukhuônmặt.Tuynhiên,mộtđiềutrởngạilàcáckiếntrúcmạn g đềutổngquát,khiápdụngthìphảixácđịnhrõràngsốlượngtầng,sốlượngnode,tỷlệ học,…,chotừng trườnghợpcụthể.
ProppvàSamalpháttriểnmạngnơ-ronđểxácđịnhkhuônmặtngườisớmnhất Mạng nơ- ron của hai ông gồm bốn tầng với 1,024 đầu vào, 256 đầu kếtiếptrongtầngầnthứnhất,támđầukếtiếptrongtầngầnthứhai,vàhaiđầura.Theo đánh giá các phương pháp dùng mạng nơ-ron để xác định khuôn mặtngười của nhiều tác giả, thì nghiên cứu của Rowley được xem là tốt nhất đốivới ảnh xám Một mạng đa tầng được dùng để học các mẫu khuôn mặt vàkhông phải khuôn từ các ảnh tương ứng (dựa trên quan hệ cường độ, về mặtkhônggiancủacácđiểmảnh).
Gần đây, mạng nơ-ron đang được ngày càng quan tâm mạnh mẽ [19, 21].Đặcbiệt,cácmạnglớnvàsâuđãthểhiệnkếtquảấntượng:(1)chúngđượcápdụng cho lượng lớn dữ liệu đào tạo và (2) các tài nguyên tính toán có thể mởrộng như hàng nghìn lõi CPU [11] và/ hoặc GPU [19] có sẵn Đáng chú ý nhất,Krizhevskyvàcộngsự[19]chothấyrằngcácmạngtíchchậprấtlớnvàsâu
[21] được đào tạo bằng phương pháp truyền ngược tiêu chuẩn [25] có thể đạtđượcđộchínhxácnhậndạngcaovớimộttậpdữliệulớn.
Công nghệ Nhận dạng khuôn mặt tân tiến Tỷ lệ lỗi trong nhận dạngkhuôn mặt đã giảm trong suốt hai mươi năm theo ba bậc [12] khi nhận dạngkhuônmặttrựcdiệntrongảnhtĩnhđượcchụptrongmôitrườngđượckiểmsoát
(bịhạnchế).Nhiềunhàcungcấptriểnkhaicáchệthốngphứctạpđểứngdụngkiểmsoátbiên vànhậndạngsinhtrắchọcthôngminh.Tuynhiên,cáchệthốngnày khá nhạy cảm với các yếu tố khác nhau, chẳng hạn như ánh sáng, biểucảm,vậtcảnvàđộtuổi,làmgiảmđángkểhiệusuấttrongviệcnhậnbiếtngườitrong môi trường không bị hạn chế Hầu hết các phương pháp xác minh khuônmặt hiện tại đều sử dụng các tính năng thủ công Hơn nữa, các tính năng nàythường được kết hợp để cải thiện hiệu suất Các hệ thống hiện đang dẫn đầubảng xếp hạng hiệu suất sử dụng hàng chục nghìn bộ mô tả hình ảnh [5, 7, 2].Ngược lại, phương pháp của chúng tôi được áp dụng trực tiếp cho các giá trịpixelRGB,tạoramộtbộmôtảrấtnhỏgọnnhưngkháthưathớt.
Trước đây, mạng deep nơ-ron cũng đã được áp dụng để phát hiện khuônmặt[24],cănchỉnhkhuônmặt[27]vàxácminhkhuônmặt[8,16].Tronglĩnhvực không giới hạn, Huang và cộng sự [16] được sử dụng làm các tính nănginput LBP và chúng cho thấy sự cải thiện khi kết hợp với các phương pháptruyền thống Trong phương pháp của chúng tôi, chúng tôi sử dụng hình ảnhthôlàmđạidiệncơbảnvàđẩymạnhcôngtrìnhnghiêncứu,đồngthờitránhkếthợp các tính năng với các bộ mô tả thiết kế sẵn Chúng tôi cũng cung cấp mộtcấu trúc mới, đẩy xa hơn giới hạn thành tựu đạt được với các mạng này bằngcách kết hợp căn chỉnh 3D, tùy chỉnh cấu trúc cho các input được căn chỉnh,mở rộng mạng gấp đôi và tiến hành một phương pháp truyền tải kiến thức đơngiảnkhimạngđãđượcđàotạotrênmộttậpdữliệucónhãnrấtlớn.
Phương pháp học theo số liệu được sử dụng nhiều trong xác minh khuônmặt,thườngđiđôivớicácmụctiêucụthể[26,29,6].Hiệntại,hệthốngthànhcông nhất sử dụng tập dữ liệu lớn gồm các khuôn mặt được gắn nhãn [5] sửdụngkỹthuậthọctruyềnthôngminh,thíchứngvớimôhìnhJointBayesian[6]họctrêntập dữliệuchứa99.773hìnhảnhtừ2.995đốitượngkhácnhau.Ởđây,đểchứngminhtínhhiệu quảcủacáctínhnăng,khoảngcáchcáclầnhọcsẽở mứcnhỏ.
Như phần lớn các tài liệu gần đây về kỹ thuật chuẩn hóa dữ liệu ảnh khuôn mặt dựa trên các phép biến đổi hình học, một nghiên cứu dựa trên việc sử dụng công cụ dò điểm chuẩn để định hướng quá trình chuẩn hóa Người ta có thể sử dụng một máy dò điểm chuẩn tương đối đơn giản, nhưng áp dụng trong nhiều lần lặp lại để tinh chỉnh đầu ra Tại mỗi lần lặp lại, các điểm chuẩn được trích xuất bởi bộ hồi quy vectơ hỗ trợ (SVR) được đào tạo để dự đoán cấu hình điểm từ bộ mô tả hình ảnh Bộ mô tả hình ảnh có thể dựa trên biểu đồ LBP, nhưng các tính năng khác cũng có thể được xem xét Bằng cách biến đổi hình ảnh bằng cách sử dụng ma trận tương tự cảm ứng thành một hình ảnh mới, chúng ta có thể chạy lại máy dò điểm chuẩn trên các đặc trưng mới và tinh chỉnh vị trí.
Môhìnhbàitoánnhậndạngkhuônmặt
Nhậndạngkhuônmặttổngquanđượcchialàm3bướcchínhtheotuầntựlà: Phát hiện khuôn mặt (thường dùng các đặc trưng Haar), trích chọn các đặctrưngtrênkhuônmặt(dùngcácthuậttoán:AAM,SIFT, )vàcuốicùnglànhậndạng khuôn mặt (dùng các thuật toán: SVM, LDA, hồi quy hay mạng nơ- ron).Sơđồcácbướcchínhtronggiảiquyếtbàitoánphântíchnhậndạngkhuônmặtnhưhình 1.2:
Mô hình hệ thống nhận dạng khuôn mặt dựa trên học máy được mô tảtrong hình1.3:
Cơ sở dữ liệu Nhận dạng
Huấn luyện Ảnh mặtngư ời
Tiền xửlý Dò tìmkhuôn mặt
Để chuyển một ảnh màu sang ảnh xám, ta sử dụng thuật toán sau: Mỗi pixel của ảnh màu có 3 byte tương ứng với 3 kênh màu Đỏ, Xanh lục và Xanh lam, mỗi byte chứa giá trị từ 0 đến 255 Để chuyển sang ảnh xám, ta phải đưa 3 kênh màu này về cùng giá trị Giá trị trung bình của 3 kênh màu này được tính theo công thức: Xám = (Đỏ * Xanh lục * Xanh lam) / 3.
Dò tìm và detection face:có nhiều thuật toán được sử dụng như điểnhình là thuật toán tối ưu hóa môhìnhAAM(ActiveAppearanceModels).
Huấn luyện:Từ các đặc trưng của phương pháp phát hiện khuôn mặtcáchệsốđượcdùngđể điều chỉnhquátrìnhnhận dạng.
Nhận dạng:Ảnh được chụp từ camera sau đó qua giai đoạn tiền xử lýnhư hình 1.2 và 1.3 ở trên, sau đó đưa vào mô hình nhận dạng đã đượchuấnluyện đểxácđịnhlớp chođối tượng khuôn mặt cầnnhậndạng.
Ứngdụng củanhậndạng khuôn mặttrongytế
Rất nhiều ngành công nghiệp, dịch vụ đầu tư vào Nhận dạng khuôn mặtđể gia tăng lợi thế cạnh tranh với đối thủ trong việc tăng trải nghiệm kháchhàng Tuy nhiên trong lĩnh vực chăm sóc sức khỏe,nhận dạng khuôn mặtcònđóng vai tròýnghĩahơn khi ảnhhưởng đến cuộcsốngcủabệnhnhân.
Phát hiện cảm xúc và theo dõi bệnh nhân trong thời gian thực:Côngnghệ nhận dạng khuôn mặt còn cho phép phát hiện cảm xúc theo thời gianthực để xem họ đang cảm thấy như thế nào Kết quả phân tích có thể xác địnhmức độ đau của bệnh nhân nhằm kiểm soát những cơn đau mãn tính và đưa raliều lượngthuốcphùhợp.
Công nghệ nhận dạng khuôn mặt tích hợp trí tuệ nhân tạo đang làm cách mạng hóa lĩnh vực y tế thông qua khả năng phát hiện và chẩn đoán các bệnh lý Hệ thống này phân tích các đặc điểm khuôn mặt, biểu hiện cảm xúc của bệnh nhân để dự đoán tình trạng bệnh, hỗ trợ bác sĩ đưa ra chẩn đoán nhanh chóng và chính xác hơn.
Giảm áp lực cho các chuyên gia y tế:Làm việc trong môi trường y tế vớihàng trăm bệnh nhân mỗi ngày khiến cho các chuyên gia y tế cảm thấy mệtmỏivà kiệt sức Bằng việc sử dụngcông nghệ Nhậndạng khuônmặtv à o phân tích trạng thái cảm xúc, các tổ chức y tế sẽ đánh giá được trạng thái củacácchuyêngia ytế từđóxâydựngkế hoạchcôngviệcphùhợphơn.
Khi bệnhnhân bướcchân vào cơsở ytế,họcóthểđượcNhận dạng ngay thông tin và lịch sử khám chữa bệnh mà không cần thiết phải điền vào giấy tờkhai báo như trước đây Việc này sẽ giúp giảm bớt quy trình thủ tục cho bệnhnhân.
Nhận dạng khuôn mặt và AI có thể Nhận dạng danh tính ngay cả khibệnhnhânđangbịngấthoặcbịthương nặng.
Hệthốngnhận dạng khuônmặtkết hợp vớicáccameragiám sátc ủ a bệnh viện sẽ xác định được tất cả khách truy cập vào cơ sở y tế Từ đó kết nốihọ với một danh sách bệnh nhân, chuyên gia y tế, những tội phạm, người gianlận bảo hiểm y tế v.v để xác định những đối tượng lừa đảo giúp đội an ninhcủacơsở ytế xửlýkịpthờimàkhônggâyảnhhưởngnhiều đếnngười khác.
Ngoài ra hệ thống cũng cảnh báo những truy cập trái phép vào các khuvựcbịhạnchế trongbệnhviện.
Kết luậnchương 1
Chương 1 trình bày tổng quan cơ sở về ảnh và xử lý ảnh trong phát hiệnkhuôn mặt, bao gồm cơ sở lý thuyết về ảnh, quá trình xử lý ảnh, và một sốhướng tiếp cận trong bài toán phát hiện khuôn mặt người Ngoài ra,chươngnàycòntrìnhbàymộtsốvấnđềứngdụngcủanhậndạngkhuônmặ ttronglĩnhvựcytếnhằmhỗtrợchữabệnhcũngnhưtronghệthốngthôngtinquản lýkhámchữa bệnh.
Trong các kỹ thuật nhận dạng khuôn mặt, quy trình thường bao gồm 4giai đoạn: phát hiện => chuẩn hóa => biểu diễn => phân lớp Có nhiều kỹthuật phát hiện khuôn mặt nhưng điển hình và hiệu quả là kỹ thuật phát hiệnkhuôn mặt dựa trên Haar –Adaboost, chuẩn hóa khuôn mặt các phép biến đổihình học Kỹ thuật biểu diễn khuôn mặt dựa trên hướng gradient (Histogramof Oriented Gradient - HOG), dựa trên mô hình xuất hiện tích cực AAM v.v.Kỹt h u ậ t p h â n l ớ p k h u ô n m ặ t d ự a v à o c á c m ô h ì n h h ọ c m á y t r u y ề n t h ố n g hoặc mô hình học sâu Kỹ thuật được lựa chọn nhận dạng khuôn mặt trongluận văn là sự kết hợp phương pháp biểu diễn đặc trưng HOG và mạng nơ-rontíchchậpCNN.
BiểudiễnđặctrưngkhuônmặtdựavàohistogramhướngGradient(HOG)
Kỹ thuật biểu diễn đặc trưng dựa trên histogram hướng gradient ban đầuđược xây dựng nhằm mục đích cho bài toán phát hiện đối tượng người trongdữliệuảnh,sauđóđượcmởrộngvàđượcsửdụngnhiềuchocácbàit oánphát hiện đối tượng nói chung Kỹ thuật HOG dựa trên việc tính toán số lầnxuất hiện của các hướng đạo hàm (gradient orientation) trong các vùng cục bộcủaảnh[8]. Ý tưởng chính của HOG làtạo ra các bộ mô tả đặc trưng (featuredescriptor) nhằm mục đích phát hiện đối tượng Từ một bức ảnh, ta sẽ lấy ra 2ma trận quan trọng giúp lưu thông tin ảnh đó là độ lớn gradient và hướng củagradient Bằng cách kết hợp 2 thông tin này vào một biểu đồ phân phốihistogram,trongđóđộlớngradientđượcđếmtheocácnhómbinscủahướng gradient Cuối cùng ta sẽ thu được vector đặc trưng HOG đại diện cho khuônmặt Trên thực tế thuật toán còn hoạt động phức tạp hơn khi vector HOG sẽđược tính trên từng vùng cục bộ và sau đó là chuẩn hóa cục bộ để đồng nhấtđộ đo Cuối cùng vector HOG tổng hợp từ các vectort r ê n v ù n g c ụ c b ộ c ủ a ảnh khuônmặt.
Bản chất của HOG là mô tả thông tin hình dáng của các đối tượng cục bộ bằng phân bố cường độ gradient hoặc hướng biên Các tế bào HOG được tính bằng cách chia ảnh thành các tế bào nhỏ, và mỗi tế bào sẽ tính toán histogram hướng gradient cho các điểm ảnh trong đó Các histogram này được ghép lại để tạo thành biểu diễn cho hình ảnh Để tăng hiệu quả nhận dạng, các histogram cục bộ được chuẩn hóa độ tương phản bằng cách tính ngưỡng cường độ trong các khối lớn hơn và sử dụng giá trị ngưỡng đó để chuẩn hóa tất cả các tế bào trong khối Quá trình chuẩn hóa này tạo ra vector đặc trưng có tính bất biến cao hơn với các thay đổi về điều kiện ánh sáng.
Trong hầu hết các thuật toán xử lý ảnh, bước đầu tiên làt i ề n x ử l ý d ữ liệu ảnh Chúng ta sẽ cần chuẩn hóa màu sắc và giá trị gamma Tuy nhiên,bước này có thể được bỏ qua trong phần tính toán bộ mô tả HOG, vì việcchuẩn hóa bộ mô tả ở bước tiếp theo đã đạt được kết quả tương tự Thay vàođó, tại bước đầu tiên của tính toán bộ mô tả chúng ta sẽ tính các giá trịgradient Phươngphápphổ biếnnhấtl à á p d ụ n g m ộ t m ặ t n ạ đ ạ o h à m r ờ i rạc(discretederivativemask) theomộthoặccảhaichiềungangvàdọ c.Cụ thể, phương pháp sẽ lọc ma trậnc ư ờ n g đ ộ ả n h v ớ i c á c b ộ l ọ c n h ư S o b e l maskhoặcscharr. Đểtínhbộlọcsobel,phép tíchch ập của kernelkíchthướcđượcthực hiệnvớihìnhảnhbanđầu.Nếuchúngtakýhiệu𝐼làmatrậnảnhgốcvà𝐺𝑥�
� 𝑦là2 m a t r ậ n ả n h m à m ỗ i đ i ể m t r ê n n ó l ầ n l ư ợ t l à đ ạ o h à m t h e o trục x trục y Tính giá trị gradient theo hướng và độ lớn như các công thứcsau:
Đặc trưng ảnh được biểu diễn qua 2 thông số: mức độ thay đổi cường độ màu sắc và hướng thay đổi cường độ màu sắc Từ đó, tạo ra bộ mô tả đặc trưng biến đổi bức ảnh thành vector thể hiện 2 giá trị này Thuật toán chia hình ảnh thành lưới ô vuông kích thước 8x8 pixel, tổng cộng 64 ô pixels Trên mỗi ô tính 2 thông số là độ lớn và hướng gradient Mỗi ô chia kích thước 8x8 pixels được tính đạo hàm bằng bộ lọc Sobel để thu được 2 ma trận độ lớn gradient và hướng gradient.
Hình2.2:Mô tảtínhtoán histogramgradientcủa ảnhđầuvào
Bước 1: Mapping độ lớn gradient vào các bins tương ứng của hướnggradient.
Sắp xếp các giá trị hướng gradient theo thứ tự từ nhỏ đến lớn và chiachúngv à o 8 b i n s t ư ơ n g ứ n g 9 h ư ớ n g Đ ộ l ớ n c ủ a h ư ớ n g g r a d i e n t s ẽ n ằ m trong khoảng[0,180]nên mỗibinssẽcóđộ dàilà 20.
Mỗi cặp vị trí tọa độ tương ứng với một phương gradient và độ lớn gradient tại vị trí đó Khi xác định được vị trí của phương gradient trong vector bins, độ lớn gradient sẽ được điền vào bin tương ứng.
Tại hình ảnh được khoanh tròn, hướng gradient là 80, độ lớn gradient là 2 Trong vector bins của HOG, hướng gradient 80 nằm ở vị trí thứ 5, nên ô đó sẽ được điền giá trị 2 tương ứng với độ lớn gradient.
Hình2.3:Mappingđộ lớngradientsvớicácbins Đầu mút là các giá trị chia hết cho độ rộng của một bin (chẳng hạn 0, 20,40,… là những đầu mút bin) Trong trường hợp độ lớn phương gradientskhông rơi vào các đầu mút, ta sẽ sử dụng linear interpolation để phân chia độlớngradientvề2binsliềnkềmàgiátrịphươnggradientrơivào.Vídụ:giát rịp h ư ơ n g g r a d i e n t b ằ n g𝑥ghépc ặ p v ớ i đ ộ l ớ n g r a d i e n t b ằ n g 𝑦.𝑥∈[𝑥0,𝑥1]tứcl à h ư ớ n g g r a d i e n t s r ơ i v à o k h o ả n g g i ữ a b i n t h ứ( 𝑙−1)vàb i n thứ𝑙: Khi đó tại 2 bins(𝑙 − 1)và𝑙được điền vào giá trị cường độ theo côngthứcnộisuy: o Giátrị tại bins𝑙−1:
Hình2.4:Minhhọaphânchiagradient Điểm được khoanh tròn bởi hình tròn màu xanh có hướng gradient bằng165 và độ lớn gradient bằng 85 Ta phân chia giá trị về các bins 0 (hoặc 180)và 160 các giá trị theo công thức interpolation bên trên Kết quả cuối cùngchúng tathuđược biểu đồhistogramnhưhình2.5:
Chúng ta thấy rằng vector histogram sẽ bị phụ thuộc vào cường độ cácpixels của một bức ảnh Với 2 bức ảnh có cùng nội dung những bức ảnh biếnthể tối hơn được tạo thành từ ma trận ảnh gốc nhân 1/2 Khi đó giá trị vectorhistogram của ảnh gốc cũng sẽ gấp đôi vector histogram của ảnh biến thể.Chính vì thế nên chuẩn hóa vector histogram để cả 2 bức ảnh có cùng mộtvectorbiểudiễn.
Ngoài ra ta cũng có thể sử dụng norm chuẩn bậc
Quá trình chuẩn hóa sẽ thực hiện trên một block kích thước2 × 2trênlưới ô vuông ban đầu (mỗi ô kích thước8 × 8pixel) Như vậy chúng ta sẽ có4 vector histogram kích thước1 × 9, concatenate các vector sẽ thu đượcvector histogram tổng hợp kích thước là1 × 36và sau đó chuẩn hóa theonormchuẩnbậc 2trênvector này.
Sau khi chuẩn hóa các vector histogram, chúng ta sẽ concatenate cácvector1𝑥36này thành một vector lớn Đây chính là vector HOG đại diện chotoànbộhìnhảnh.
Vídụ:Hìnhảnhcủachúngtađượcc h i a t h à n h l ư ớ i ô v u ô n g k í c h th ước16×8(mỗiô8×
8).Q u á t r ì n h t í n h t o á n H O G s ẽ d i c h u y ể n 7 l ư ợ t theo chiều rộng và 15 lượt theo chiều cao Như vậy sẽ có tổng cộng7 × 15 5patches, mỗi patch tương ứng với 1 vector histograms 36 chiều Do đócuối cùng vector HOG sẽ có kích thước là105 ×
36 = 3780chiều Đây làmột vector kích thước tương đối lớn nên có thể mô phỏng được đặc trưng củaảnh khá tốt.
Kỹthuật nhận dạngkhuôn mặt dựavàomạngnơ-ron tíchchập
Trong những năm gần đây, một số lượng lớn ảnh đã được các công cụtìm kiếm thu thập thông tin và tải lên mạng xã hội, bao gồm nhiều loại dữ liệuđadạng,chẳng hạnnhưvật thể,khuônmặt và cảnhvật v.v.
Khối lượng dữ liệu khổng lồ và sự tiến bộ trong tính toán đã thúc đẩy việc sử dụng các mô hình thống kê mạnh mẽ Những mô hình này đã cải thiện đáng kể sự phát triển của hệ thống thị giác máy tính với các biến thể như biến dạng không cứng, nhiễu, tắc nghẽn và chiếu sáng, cũng như nhiều vấn đề khác trong nhiều ứng dụng thị giác máy tính Trong khi các phương pháp học máy truyền thống như máy vectơ hỗ trợ, phân tích thành phần chính và phân tích phân biệt tuyến tính chỉ học được một lượng giới hạn dữ liệu, thì mạng nơ-ron học sâu đã thể hiện khả năng mở rộng cao hơn.
Mạng nơ-ron tích chập( C N N ) l à m ộ t t r o n g n h ữ n g m ô h ì n h m ạ n g h ọ c sâu phổ biến nhất hiện nay [11-13], có khả năng nhận dạng và phân loại hìnhảnh với độ chính xác rất cao, thậm chí còn tốt hơn con người trong nhiềutrường hợp Mô hình này đã và đang được phát triển, ứng dụng vào các hệthốngx ử l ý ả n h l ớ n c ủ a F a c e b o o k , G o o g l e h a y A m a z o n v v c h o c á c m ụ c đích khác nhau, như các thuật toán gắn thẻ tự động, tìm kiếm ảnh hoặc gợi ýsảnphẩmchongườitiêudùng.
Sựr a đ ờ i c ủ a m ạ n g C N N l à d ự a t r ê n ý t ư ở n g c ả i t i ế n c á c h t h ứ c c á c mạng nơ-ron nhân tạo truyền thống [14] học thông tin trong ảnh Do sử dụngcác liên kết đầy đủ giữa các điểm ảnh vào node, các mạng nơ-ron nhân tạotruyền thẳng (Feed forwardNơ-ron Network) [15-17] bị hạn chế rất nhiều bởikích thước của ảnh, ảnh càng lớn thì số lượng liên kết càng tăng nhanh, kéotheo sự bùng nổ khối lượng tính toán Ngoài ra, sự liên kết đầy đủ này cũng làsự dư thừa với mỗi bức ảnh, các thông tin chủ yếu thể hiện qua sự phụ thuộcgiữa các điểm ảnh với những điểm xung quanh nó mà không quan tâm nhiềuđến các điểm ảnh ở cách xa nhau Mạng CNN với kiến trúc thay đổi, có khảnăng xây dựng liên kết chỉ sử dụng một phần cục bộ trong ảnh kết nối đếnnode trong lớp tiếp theo thay vì toàn bộ ảnh như trong mạng nơ-ron truyềnthẳng.
Mạng CNN là một tập hợp các lớp Convolution chồng lên nhau và sửdụngcáchàmnonlinearactivationnhưReLUvàtanhđểkíchhoạtcáctrọngsốtrong các node Mỗi một lớp sau khi thông qua các hàm kích hoạt sẽ tạo ra cácthông tin trừu tượng hơn cho các lớp tiếp theo Mỗi một lớp sau khi thông quacác hàm kích hoạt sẽ tạo ra các thông tin trừu tượng hơn cho các lớp tiếp theo.Trong mô hình mạng truyền ngược (feedforward nơ-ron network) thì mỗi nơ-ron đầu vào (input node) cho mỗi nơ-ron đầu ra trong các lớp tiếp theo.
Môhìnhnàygọilàmạngkếtnốiđầyđủ(fullyconnectedlayer)haymạngtoànvẹn(affine layer) Còn trong mô hình CNNs thì ngược lại Các layer liên kết đượcvới nhau thông qua cơ chế convolution Layer tiếp theo là kết quả convolutiontừ layer trước đó, nhờ vậy mà ta có được các kết nối cục bộ Như vậy mỗineuron ở lớp kế tiếp sinh ra từ kết quả của filter áp đặt lên một vùng ảnh cụcbộcủaneurontrướcđó.
Trong cấu trúc của mạng CNN, mỗi lớp thường sử dụng hàng trăm hoặc hàng nghìn bộ lọc khác nhau Kết quả của các bộ lọc này sẽ được kết hợp với nhau Ngoài ra, các lớp gọi là pooling/subsampling cũng được dùng để lọc ra những thông tin quan trọng, loại bỏ nhiễu Trong quá trình huấn luyện, mạng CNN sẽ tự động học các giá trị cho các lớp lọc dựa trên cách thức phân loại hình ảnh được thực hiện Ví dụ, trong tác vụ phân loại ảnh, CNN sẽ tìm thông số tối ưu cho các bộ lọc tương ứng với các pixel thô.
>edges > shapes > facial > high-level features Layer cuối cùng được dùng đểphânlớpảnh.
Trongm ô h ì n h C N N c ó 2 k h í a c ạ n h c ầ n q u a n t â m l àtínhb ấ t biến(LocationInvariance)vàtínhkếthợp(Compositionality).Vớicùngmộtđốitượ ng,nếuđốitượngnàyđượcchiếutheocácgócđộkhácnhau(translation, rotation, scaling) thì độ chính xác của thuật toán sẽ bị ảnh hưởngđángk ể P o o l i n g l a y e r s ẽ c h o b ạ n t í n h b ấ t b i ế n đ ố i v ớ i p h é p d ị c h c h u y ể n
(translation), phép quay (rotation) và phép co giãn (scaling) Tính kết hợp cụcbộ cho ta các cấp độ biểu diễn thông tin từ mức độ thấp đến mức độ cao vàtrừu tượng hơn thông qua convolution từ các filter Đó là lý do tại sao CNNschoramôhìnhvớiđộchínhxácrấtcao.Cũnggiốngnhưcáchconngườinhậnbiếtcá cvậtthểtrongtựnhiên.
Hình 2.6 mô tả cấu trúc mạng CNN Các lớp cơ bản trong mạng CNN gồm lớp tích chập (Convolutional), lớp kích hoạt phi tuyến ReLU (Rectified Linear Unit), lớp lấy mẫu (Pooling), lớp kết nối đầy đủ (Fully connected) Các lớp này có thể thay đổi về số lượng và cách sắp xếp để tạo ra các mô hình huấn luyện phù hợp với từng bài toán khác nhau.
Các lớp kết nối đầyđủ(Fullyconnecte d)
Lớp tích chập: đây là thành phần quan trọng nhất trong mạngCNN,thể hiện sự liên kết cục bộ thay vì kết nối toàn bộ các điểm ảnh.Cácliên kết cục bộ được tính toán bằng phép tích chập giữa các giá trịđiểm ảnh trong một vùng ảnh cục bộ với các bộ lọc filters có kíchthướcnhỏ.
Trong Hình 2.7, bộ lọc sử dụng là ma trận 3x3 di chuyển từng vùng ảnh, quét toàn bộ ảnh gốc để tạo ảnh mới nhỏ hơn hoặc bằng ảnh gốc tùy theo kích thước khoảng trắng thêm tại viền ảnh gốc, tính theo công thức cụ thể.
Trong đó:𝑂: kích thước ảnh đầu ra;i: kích thước ảnh đầu vào;𝑝: kíchthước khoảng trắng phía ngoài viền của ảnh gốc;𝑘: kích thước bộ lọc;𝑠: bướctrượtcủabộlọc.
Như vậy, sau khi đưa một bức ảnh đầu vào cho lớp tích chập nhận đượckết quả đầu ra là một loạt ảnh tương ứng với các bộ lọc đã được sử dụng đểthực hiện phép tích chập Các trọng số của các bộ lọc này được khởi tạo ngẫunhiêntronglầnđầutiênvàsẽđượccậpnhậttrongquátrìnhhuấnluyện.
Lớp kích hoạt phi tuyến ReLU: được xây dựng để đảm bảo tính phituyến của mô hình huấn luyện sau khi đã thực hiện một loạt các phéptính toán tuyến tính qua các lớp tích chập Lớp kích hoạt phi tuyến sửdụng các hàm kích hoạt phi tuyến như ReLU hoặc sigmoid, tanh,… đểgiớihạnphạmvibiênđộchophépcủagiátrịđầura.Trongsốcáchàmkích hoạt này, hàm ReLU được chọn do cài đặt đơn giản, tốc độ xử lýnhanh mà vẫn đảm bảo được tính toán hiệu quả Phép tính toán củahàmReLUchỉđơngiảnlàchuyểntấtcảcácgiátrịâmthànhgiátrị0.
LớpReLUđượcápdụngngayphíasaulớptíchchập,vớiđầuralàả nh mới có kích thước giống với ảnh đầu vào, các giá trị điểm ảnhcũnghoàntoàntươngtự,trừcácgiátrịâmđãbịloạibỏ. ƒ(𝑥)= m a x ( 0 , 𝑥) (2.8)
Lớp lấy mẫu: Được đặt sau lớp tích chập và lớp ReLU để làm giảmkích thước ảnh đầu ra trong khi vẫn giữ được các thông tin quan trọngcủa ảnh đầu vào Việc giảm kích thước dữ liệu có tác dụng làm giảmđược số lượng tham số cũng như tăng hiệu quả tính toán Lớp lấy mẫucũng sử dụng một cửa sổ trượt để quét toàn bộ các vùng trong ảnh nhưlớp tích chập, và thực hiện phép lấy mẫu thay vì phép tích chập, sẽchọn lưu lại một giá trị duy nhất đại diện cho toàn bộ thông tin củavùngảnhđó.
Như vậy, với mỗi ảnh đầu vào được đưa qua lấy mẫu sẽ thu được mộtảnh đầu ra tương ứng, có kích thước giảm xuống đáng kể nhưng vẫn giữ đượccácđặctrưngcầnthiếtchoquátrìnhtínhtoánvànhậndạng.
Lớp kết nối đầy đủ: được thiết kế tương tự như trong mạng nơ- rontruyền thống, tất cả các điểm ảnh được kết nối đầy đủ với node tronglớptiếptheo.
Kỹthuật nhận dạng khuônmặt dựatrênHOGvàCNN
Phương pháp bao gồm các bước khác nhau để thực hiện nhận dạngkhuônm ặ t t ự đ ộ n g Đ ầ u t i ê n l à t h ự c h i ệ n p h á t h i ệ n k h u ô n m ặ t đ ể k h o a n h vùng khuôn mặt trong từng khung hình ảnh và video Sau đó, dữ liệu ở bướctrên được liên kết với các khuôn mặt được phát hiện với danh tính chung trêncác video và căn chỉnh các khuôn mặt thành tọa độ bằng cách sử dụng cácmốc được phát hiện. Cuối cùng, hệ thống thực hiện xác minh khuôn mặt đểtính toán độ tương tự giữa một cặp hìnhảnh / video Sơ lược phương phápđượcminhhọatronghình2.9.
Từ mạng nơ-ron trên, ta có thể thấy các bước xử lý ảnh từ trái sang phải.Lần lượt, ta có thể thấy hình ảnh các cửa sổ dò tìm (ô vuông màu xanh) đanggiảmdầnvà hiệu chỉnhdầntheotừnggiaiđoạndòtìm:
Tiếp cận giải quyết bài toán tự động phát hiện và nhận dạng khuôn mặt của chúng tôi gồm hai mô-đun chính Mô-đun phát hiện khuôn mặt sử dụng đặc trưng HOG để phát hiện khuôn mặt một cách hiệu quả.
Bước 1: Chuẩn bị P mẫu là ảnh mặt người và trích xuất các vector đặctrưng HOGtừcác bức ảnhnày.
Bước 2: Chuẩn bị N mẫu không phải là ảnh mặt người (N rất lớn so vớiP)vàtríchxuấtcác vector HOGtừcác ảnhnày.
Bước 3:Sử dụng một bộ phân loạiSVMtuyếntính để họcvớic á c vector của các mẫu tích cực (là ảnh mặt người) và tiêu cực (các ảnh khôngphải mặtngười) đã chuẩnbị.
Bước 4: Đối với mỗi bức ảnh trong bộ ảnh tiêu cực, sử dụng một cửa sổtrượtdichuyểnquatấtcảcácvịtrícóthểcủaảnhinput.Tạimỗivịtrícủac ửa sổ trượt, tính vector HOG của cửa sổ và đưa vào bộ phân lớp Nếu bộphân lớp phân lớp sai một cửa sổ là ảnh mặt thì ghi lại vector tương ứng cùngvới xácsuấtphânlớp.
Bước 5:L ấ y c á c m ẫ u n h ậ n d ạ n g s a i ở b ư ớ c 4 v à s ắ p x ế p c h ú n g t h e o mức xác suất nhận dạng sai và cho bộ phân lớp học lại sử dụng các mẫu sainày.
Khi các khuôn mặt được phát hiện, thuật toán thực hiện phát hiện cácđiểm quan trọng để căn chỉnh khuôn mặt Thuật toán sẽ tìm cách khôi phụcmặtvềhìnhdángmặcđịnhbanđầu:gọikhuônmặtlà𝐼,hìnhdạngbanđầulà
𝑆 0 , thuật toán sẽ tính toán mức tăng hình dạng∆𝑆từ các mô tả sâu (deepdescriptors)và cậpnhậtbằngcôngthức sau:
Các tính năng CNN (được biểu thị là Φ trong công thức trên) được thiếtkế với bước nhảy và cách gộp hợp lý, được sử dụng làm các tính năng để thựchiện tính toán Ở đây, kiến trúc CNN được sử dụng tương tự như Alexnet vớicáctrọngsốđượcxửlýtrướcchobộ dữliệuImageNet nhưtrong hình sau:
Vìmụctiêu mạngCNN này là xác định khuôn mặt.D o đ ó , m ạ n g s ẽ được căn chỉnh để xử lý dữ liệu khuôn mặt tốt hơn Các dữ liệu đầu ra ở từngtầng sẽ là dữ liệu đầu vào ở tầng tiếp theo Trong hình trên, chúng ta có thểthấy có 5 tầng Sau khi hoàn thành phát hiện các mốc, khuôn mặt sẽ được cănchỉnh theo tọađộbằng cáchsửdụngphépbiếnđổi vàcácđiểmmốc. Điều này giúp mạng tìm hiểu các đặc điểm cụ thể đối với khuôn mặt.Hơn nữa, mạng áp dụng hồi quy theo tầng, trong đó đầu ra được tạo bởi giaiđoạn đầu tiên sẽ được sử dụng làm đầu vào cho giai đoạn tiếp theo, tổng lànăm giai đoạn tích chập được áp dụng trong hệ thống Các bộ lọc được chọnđể trích xuất tính năng được tinh chỉnh trong các giai đoạn sau để cải thiệnviệc chuẩn hóa các mốc trên khuôn mặt Sau khi hoàn thành phát hiện cácmốc trên khuôn mặt, mỗi khuôn mặt được căn chỉnh theo tọa độ chính tắcbằng cáchsửdụng biếnđổitươngtựvà các điểmmốc.
Mô đun tiếp theo là liên kết khuôn mặt Vì có nhiều đối tượng xuất hiệntrongcác khunghìnhcủavideo,nên việcthựchiệnliênkết khuônmặtđểgán từng khuôn mặt cho đối tượng tương ứng là một bước quan trọng để chọnđúng đối tượng khi xác minh khuôn mặt Do đó, khi một khuôn mặt trongkhung hình của video được phát hiện, hệ thống theo dõi khuôn mặt bằng cáchtích hợp các kết quả từ trình phát hiện khuôn mặt, trình theo dõi khuôn mặt vàbước liên kết khuôn mặt Hệ thống áp dụng thuật toán nhận dạng khuôn mặttrongm ọ i k h u n g h ì n h b ằ n g p h ư ơ n g p h á p n h ậ n d ạ n g k h u ô n m ặ t đ ư ợ c tr ì n h bàytrongph ần tr ư ớ c V ùn gp h á t h i ệ n k h u ô n m ặ t đ ư ợ c c o i như m ộ t k h u ô n mặt mới nếu không có tỷ lệ trùng lặp với bất kỳ vùng phát hiện nào trong cáckhunghìnhtrước.Tỷlệtrùnglặpcủamộtvùngpháthiệnđượcpháthiện𝑏𝑑và vùngpháthiện𝑏𝑡𝑟trongkhunghìnhtrướcđược xácđịnhlà:
Trong thí nghiệm, ngưỡng 0,2 là điểm đủ để xác định một khuôn mặt mới, vì các khung hình video chỉ cách nhau một phần nhỏ giây Để theo dõi khuôn mặt, các nhà khoa học sử dụng thuật toán Kanade-Lucas-Tomasi (KLT) để xác định khuôn mặt giữa hai khung hình liên tiếp Hệ thống liên tục cập nhật vùng phát hiện trong quá trình theo dõi dựa trên khung hình mới nhất Vùng phát hiện mới sẽ thay thế vùng phát hiện trước đó nếu độ giao nhau của chúng theo phép đo S(b_d, b_t) nhỏ hơn ngưỡng (0,2) Quá trình theo dõi khuôn mặt sẽ kết thúc nếu không có phát hiện khuôn mặt mới trùng lặp với nó trong nhiều hơn t khung hình Hệ thống thường đặt giới hạn t bằng 4 khung hình dựa trên cơ sở thực nghiệm.
Kết luậnchương 2
Trong chương này, luận văn đã tập trung trình bày kỹ thuật mô biểu diễnđặctrưnghistogramhướnggradientHOGnhằmmụcđíchhỗtrợchuẩnhóadữliệuảnh dướisựthayđổicủaquátrìnhthunhậnảnhbịgócnghiêngvàtỷlệ thayđổi.Bêncạnhđó,luậnvăntrìnhbàymôhìnhmạngCNNtrongnhậndạngkhuôn mặt, cùng với kỹ thuật tích hợp HOG và CNN Kỹ thuật đề xuất đượcphântíchvàđánhgiátrongluậnvăntrêncơsởlýthuyết.
ỨNG DỤNG NHẬN DẠNG KHUÔN MẶT TRONGHỆTHỐNGTHÔNGTINBỆNHVIỆN
Hệthốngthôngtinquảnlýbệnhviện
Hệ thống thông tin quản lý Bệnh viện hiện nay được kết nối và sử dụngnhiều hệ thống phần mềm khác nhau, nhằm đáp ứng các nhu cầu cần thiết củaBệnh viện,trongđócócácphảinối đếncác Hệthống lớnnhư:
Hệ thống HIS (Hospital Information System)– Hệ thống quản lýthông tin Bệnh viện: Hệ thống được thiết kế và xây dựng tổng thể dựatrên sự kết hợp độc đáo giữa sự tự động hóa quy trình nghiệp vụ vàthông tin xuyên suốt tất cả các mảng hoạt động như Quản lý khámchữab ệ n h , Q u ả n l ý h à n h c h í n h , v ă n p h ò n g , Q u ả n l ý x é t n g h i ệ m , Quản lý tài chính, Quản lý hóa đơn điện tử, báo cáo tổng hợp về cơquanquảnlý…
Hệ thống RIS (Radiology Information System) - Hệ thống thông tinchẩn đoán hình ảnh: Là hệ thống phần mềm được triển khai tại Khoachẩn đoán hình ảnh RIS bao gồm các thành phần và có tổ chức gầngiống với HIS nhưng ở quy mô nhỏ hơn với các chức năng: quản lýthông tin bệnh nhân, quản lý danh sách bệnh nhân đến chụp - chiếu tạikhoa,sốliệuchụp-chiếuvà kếtquảchẩnđoán
Hệ thống PACS (Picture Archiving and Communication System) là một hệ thống dùng để lưu trữ và truyền nhận hình ảnh trong hệ thống thông tin máy tính của khoa Chẩn đoán hình ảnh hoặc của Bệnh viện Các hình ảnh được thu thập từ các thiết bị như siêu âm, X-quang, chụp cắt lớp, cộng hưởng từ hạt nhân và được lưu trữ dưới dạng DICOM.
Server và truyền đến các máy tính tại Khoa chẩn đoán hình ảnh và cácKhoatrong Bệnhviện phụcvụcông táckhám,chẩnđoán vàđiều trị.
Ứngdụngnhậndạngkhuônmặt vào hệthốngthôngtinbệnhviện
Bài toán phát hiện và nhận dạng khuôn mặt người là bài toán rất quantrọng và có ý nghĩa trong hầu hết các lĩnh vực của đời sống và xã hội. Có rấtnhiềuứngdụngtrongthựctếnhưứngdụngnhậndạngkhuônmặttrongcác hệ thống an ninh, nơi cho phép máy ảnh lấy hình ảnh khuôn mặt và xác địnhcũng như định danh người trong hình ảnh hoặc video là ai Ngoài ra bài toáncũngđ ư ợ c ứ n g d ụ n g t r o n g t h ư ơ n g m ạ i v à t i ế p t h ị , t r o n g t h a n h t o á n t r ự c tuyến, trong các bài toán về giao thông v.v và bài toán nhận dạng khuôn mặthiện nay đang được sự quan tâm rất lớn từ cộng đồng các nhà khoa học trênthếgiớicũngnhưtạiViệtNam.
Chúng ta đã thấy, từ mô hình ở hình 3.1 việc định danh bệnh nhân tớikhám bệnh rất khó khăn, chủ yếu là dựa vào thông tin giấy do bệnh nhân tựcung cấp, từ khó việc định danh đúng người rất khó khăn Từ những vấn đềnêu trên, Hệ thống nhậndạng khuônm ặ t đ ã đ ư ợ c t í c h h ợ p v à o H ệ t h ố n g thôngtinBệnhviện.
Từmôhìnhbêndưới,tacóthểthấyrằng,Hệthốngnhậndạngkhuôn mặt hỗ trợ từ khâu nhận dạng thông tin Bệnh nhân, giúp Bệnh viện khôngnhầmlẫnBệnhnhân từkhâutiếpđón chotớikhám,chữabệnh.
Nhưđãthấyởhình3.2,HệthốngnhậndạngkhuônmặtsẽkếtnốivớiHệ thống HIS thông qua API, đồng thời Hệ thống nhận dạng khuôn mặt cũngsẽ cung cấp app desktop cho các actor trong Hệ thống thông tin Bệnh viện sửdụng.
Phântích yêucầuvàthuthập dữliệu
HệthốngnhậndạngkhuônmặtsẽkếtnốihệthốngHIS(HospitalInformation System)– Hệ thống quản lý thông tinBệnh viện thông quaRestful API.
Hệ thống thông tin bệnh viện có tích hợp Hệ thống nhận dạng khuôn mặtsẽhoạtđộngnhưsau:
Bước 1: Bệnh nhân tới Bệnh viện thăm khám sẽ làm việc với bộ phậnTiếp đón bệnh nhân Tại đây Bệnh nhân sẽ được xác minh danh tínht h ô n g quaH ệ t h ố n g n h ậ n d ạ n g k h u ô n m ặ t , n ế u c h í n h x á c H ệ t h ố n g n h ậ n d ạ n g khuônmặtsẽlưuthôngtinBệnhnhânvàoHệthốngHIS(HospitalInformation
System) thông qua giao thức Restful API, đồng thời hình ảnh vàcác thông tin cần thiết của Bệnh nhân cũng sẽ được lưu trên Hệ thống nhậndạngkhuônmặt.
Bước 2: Bác sĩ lâm sàng sẽ dựa vào thông tin Bệnh nhân trên Hệ thốngHIS thực hiện khám và ra chỉ định, nếu Bác sĩ cần xác minh lại danh tính củaBệnh nhân thì sẽ truy cập vào Hệ thống nhận dạng khuôn mặt xác minh lạidanhtínhBệnhnhân.
Bước 3:T ư ơ n g t ự B á c s ĩ l â m s à n g , B á c s ĩ c ậ n l â m s à n g c ũ n g s ẽ x á c minhlạidanhtính củaBệnh nhântrướckhi thựchiện khámvàchẩn đoán.
Hình 3.3: Quy trình khám chữa bệnh tại bệnh viện có sử dụngHệthống nhậndạngkhuônmặt
Dựa trên quy trình làm việc của chương trình điểm danh dựa trên đặctrưng khuôn mặt đã trình bày ở phần trên, có thể thấy các thành phần cơ bảncầnphảicócủachươngtrìnhcần phảicónhưsau:
Camerathu nhậntín hiệutừmôi trường ngoài.
Hệcơsởdữliệu ảnh cácđốitượng cầnnhận dạng.
Như vậy, đầu tiên cần phải lựa chọn thiết bị phần cứng là camera, hiệnnay thị trường camera đặc biệt là camera giám sát tương đối phát triển. Đây làmột thiết bị phần cứng phổ dụng và được sử dụng rộng rãi tại các cơ quan,doanh nghiệp Đối với hệ thống nhận dạng khuôn mặt cần lựa chọn cameravới độ phân giải thích hợp, xây dựng kết nối giữa camera và phần mềm đảmbảo hai vấn đề quan trọng: Thứ nhất là chất lượng hình ảnh phải đảm bảo đủđể hệ thống có thể nhận dạng chính xác, nếu ảnh quá mờ sẽ khó nhận dạnghơn.Thứhailàchấtlượnghìnhảnhcũngkhôngquácaođểđảmbảotốcđộ xử lý của hệ thống máy tính Nếu ảnh quá lớn máy tính không thể xử lý kịpdẫn tới sự đình trệ trong quá trình điểm danh Trong luận văn này, qua quátrình thực nghiệm tôi lựa chọn độ phân giải của camera từ 2 đến 8 triệu điểmảnh (2đến8 Megapixel)làmđầuvàochobàitoánđiểmdanh. Đốiv ớ i h ệ c ơ sở dữli ệu ả n h , hi ện na y đãc ó n h i ề u c ơ sởd ữ liệuc h o ph ép lưu và truy xuất ảnh Ảnh đầu vào được xử lý và lưu lại trong cơ sở dữliệu, điều đó đảm bảo tính bảo mật và quản lý tốt hơn trong quá trình truyxuất, tìm kiếm một tập ảnh Tuy nhiên việc lưu trữ ảnh trong cơ sở dữ liệucũng tồn tại những hạn chế riêng: cần phải có một hệ thống quản trị cơ sở dữliệu ảnh và giao diện tương tác với hệ thống này,đồng thời đối với một hệthống xử lý ảnh thì điều quan trọng nhất là tốc độ xử lý ảnh chứ không phải làtính năng quản lý Vì lý do đó trong chương trình thực nghiệm tôi lựa chọnviệclưutrữảnhtrực tiếptrên ổ cứng.Điềuđóđảmbảo tínhđơngiản của
Chương trình và khả năng truy nhập trực tiếp với ảnh số Phần mềm xácđịnh, định danh khuôn mặt và điểm danh được xây dựng đảm bảo kết nốiđược với camera và lấy hình ảnh trong thời gian thực Điều này đảm bảo tốcđộ vận hành và xử lý của chương trình Đồng thời dựa trên thuật toánPCA đãđượclựachọnchươngtrìnhcầntiếnhànhxửlýảnhđầuvàotừđóđưaracác quyếtđịnhđiểmdanhđốivới mỗi một đốitượngđầu vào.
Có rất nhiều ngôn ngữ lập trình phù hợp để sử dụng trong việc xây dựng hệ thống điểm danh khuôn mặt, trong đó C++ được ưa chuộng nhờ tốc độ xử lý cao và tính truyền thống của nó, trong khi C# và Java là các ngôn ngữ lập trình phát triển sau nhưng lại mang đến nhiều thế mạnh khi phát triển ứng dụng Trong luận văn này, tác giả lựa chọn ngôn ngữ lập trình Visual C# để cài đặt thuật toán và ứng dụng Đây là ngôn ngữ lập trình mạnh mẽ, có khả năng phát triển ứng dụng nhanh chóng và hiệu quả, đồng thời có các thư viện đọc ảnh sẵn có trong nền tảng framework 4.5 giúp nhà phát triển có thể tập trung nghiên cứu và phát triển tính năng mà không cần lo lắng về cấu trúc ảnh được đọc.
3.3.2 Thuthậpdữliệu Đểthựcnghiệmbàitoántrên chúngtacầncónhững tậpdữliệu mẫunhư sau:
Tập dữ liệu để nhận dạng là dữ liệu đầu vào có thể là dữ liệu về hình ảnhkhuôn mặthoặcvideo cókhuônmặt người. Đầuvào:Tậpảnhngườiđãnhậnbiết,ảnh/ videođầuvàocầnxácđịnhvànhậndạngkhuônmặt. Đầura:Kếtquảnhậndạngdanhtínhngườitrongảnh/videolàai.
Mô hình tổng quan của bài toán gồm hai phầnchính đó là đào tạo(training dữ liệu kết quảđầu ra làmộtm ô h ì n h h ọ c ) p h ầ n t h ứ h a i l à n h ậ n dạngkhuônmặtdựavàomôhình.Môhìnhtổngquancủabàitoánđượct hể hiệnnhưsau:
Bước 1: Phát hiện khuôn mặt: Lần lượt duyệt qua tất cả các khuônmặt xuất hiện trong hình ảnh hoặc video đầu vào Quá trình nàyxácđịnh vị trí khu vực khuôn mặt trong hình ảnh và sẽ lấy ra tất cả cáckhuônmặttrongmộthìnhảnhhoặcvideođầuvàocủatậpkiểmthử.
Bước 2: Tiền xử lý ảnh: Sử dụng các bộ lọc như phân ngưỡng để lọcnhiễu, nâng cao chất lượng ảnh, căn chỉnh ảnh, chuẩn hóa ánh sángcủanhữngkhunghìnhcóchứakhuôn mặtởbước một
Bước3:Lưu lại đặc trưng củakhuônmặt dựavào mô hình.
Bước 4: Bước nhận dạng (recognition) hay phân lớp
(classification),tức là xác định danh tính hay nhãn (label) của ảnh dựa vào những đặctrưng.Từđóchorakếtquảđólàảnhcủa ai.
Môi trường càiđặt vàkếtquảcài đặt thửnghiệm
Chương trình được xây dựng và thử nghiệm tại Trung tâm Y tế Thị XãAn Nhơn trên cơ sở xác định và nhận dạng khuôn mặt để truy xuất thông tinbệnhnhânvà lịchsửkhámchữa bệnh.
Dữ liệu huấn luyện mô hình bao gồm 1000 ảnh có kích thước 416 x 416 pixel được thu thập từ internet và dữ liệu thu thập tại Trung tâm y tế Thị xã An Nhơn Bộ dữ liệu thử nghiệm gồm 100 bệnh nhân Kết quả độ chính xác thực tế trên 90%, trường hợp không nhận dạng được khi khuôn mặt bị che khuất hơn 50% so với toàn khuôn mặt.
Hình 3.5 là Giao diện chương trình nhận dạng khuôn mặt trong hệ thốngthôngtinquảnlýbệnhviện.
Trườngh ợ p k h u ô n m ặ t b ị c h e k h u ấ t n h i ề u , t h ì đ ố i t ư ợ n g k h u ô n m ặ t khôngđcxác địnhvàchưa nhậndạngđược,nhưhình3.7.
Đánhgiáthựcnghiệm
Kết quả xác định và nhận dạng khuôn mặt ứng dụng mô hình CNN đạtđược kết quả chính xác khá cao trong cả những trường hợp khuôn mặt bị quaygần90độvàánhsángthayđổi.Trongtrườnghợpkhuôn mặtbịche kh uất hơnắkhuụnmặt thỡkhuụn mặtbịxỏcđịnh khụngđỳng.
3.5.2 Vềmặtkhôngđạtđƣợc: Ứng dụng chỉ dừng lại ở mức nghiên cứu, và chưa tích hợp được vào hệthống HIS của bệnhviện.
Chương trình thực nghiệm phát hiện nhanh chóng và chính xác. Tuynhiên khi làm việc với đối tượng live video từ webcam, vẫn xảy ra độ trễ khiđối tượng xoay và di chuyển cũng như không để khuôn mặt ở chính giữakhunghình.
Hoặc trong trường hợp khi khuôn mặt bị che khuất bởi các đối tượngkháct h ì c h ư ơ n g t r ì n h t h ự c n g h i ệ m k h ô n g t h ể p h á t h i ệ n r a k h u ô n m ặ t v à khôngthểđịnhdanh.
So sánh với các kết quả nghiên cứu khác thì ứng dụng chưa thực sự đápứngđược các yêucầucủabệnhviện,vìcáclýdonhưtrên.
Kết luậnchương 3
Trong chương này, luận văn đã tiến hành cài đặt thử nghiệm sử dụng vàCNN được trình bày trong chương hai nhằm giải quyết bài toán phát hiện vànhận dạng mặt người trong ảnh đầu vào Kết quả đánh giá đạt được là sựthành công từ ý tưởng và áp dụng các mô hình, kỹ thuật đã đề ra Độ chínhxác nằm ở mức tương đối cao đối với tập dữ liệu không quá lớn như bộ dữliệu thu thập trên internet và bệnh nhân tại Trung tâm Y tế Thị Xã AnNhơnhơn 1000 bệnh nhân Cần phải nghiên cứu và phát triển hơn về độ chính xáctrong thời gianthực khi gặp nhữngtrường hợpngoạicảnhkhôngm o n g muốn.
Bài toán phát hiện và nhận dạng khuôn mặt người đã được đặt ra từ lâuvà đi cùng nó là hàng loạt các nghiên cứu và đề tài được xác lập, các ứngdụngđ ư ợ c t r i ể n k h a i B à i t o á n l u ô n đ ặ t r a n h i ề u t h á c h t h ứ c v ì n h ữ n g k h ó khăn của nó Các khó khăn chứng tỏ rằng bất cứ phương pháp nào giải quyếtbài toán sẽ không thể tránh khỏi một số khiếm khuyết nhất định Mỗi hướngtiếp cận được đưa ra đều đã đạt được những thành quả nhất định, hướng nàocũng có những thành công, những hạn chế Vì bài toán này là bài toán khôngcó lời giải tối ưu cho mọi trường hợp Tuy nhiên, do tính cấp thiết từ yêu cầucủa thực tế mà đây luôn là một đề tài hấp dẫn các nhà khoa học, các chuyêngianghiêncứuvà ứngdụng.
Trongnộidungnghiêncứuđềtài“ỨNGDỤNGNHẬND Ạ N G KHUÔNM Ặ T T R O N G H Ệ T H Ố N G T H Ô N G T I N Q U Ả N L Ý B Ệ N H VIỆN”bảnthânđãtìmhiểucácthuậttoán,môhìnhxửlývàdựbáochuỗi thờigian,cũngnhư ápdụngcácmô hìnhnàyđểgiảiquyếtbàitoánđặtra.Qua nghiên cứu,nhữngkết quảchính màluậnvăn đãđạt đượcnhưsau:
Trình bày một số kỹ thuật và mô hình được sử dụng để giải quyết bàitoánlàmô tảđặctrưng mạng nơ-rontích chậpsâu DCNN.
Cài đặt thử nghiệm mô hình CNN để phát hiện và nhận dạng mặtngười với dữ liệu đầu vào là tập ảnh huấn luyện 100 người cùng đầuvàocầnxácđịnh khuôn mặt làảnh/ video/livevideo từwebcam.
Phát hiện và nhận dạng khuôn mặt người, đặc biệt là xử lý thời gian thực trở thành bài toán được quan tâm nghiên cứu nhiều trong cộng đồng nghiên cứu và ứng dụng, có tầm quan trọng trong khoa học và thực tiễn.
Tiếpt ụ c p h á t t r i ể n đ ể t ă n g t ố c đ ộ p h á t h i ệ n v à đ ị n h d a n h k h u ô n m ặ t , cũngn h ư t h e o d õ i v à p h á t h i ệ n đ ư ợ c k h u ô n m ặ t k h i k h u ô n m ặ t d i c h u y ể n hoặcbịche khuấtbởicác đốitượngkhác
Với những hạn chế khó khăn còn gặp trong quá trình phát triển,giảiquyết bài toán, hướng nghiên cứu tiếp theo của luận văn sẽ là tiếp tục đào sâuhơn vào các mô hình học máy, học sâu, song song với phiên tiền xử lý dữ liệuđểnângcaohiệusuấtvà đầuracủabàitoán.
Anh,N.H.Dũng/TạpchíKhoahọcĐHQGHN:KhoahọcTựnhiênvàCôngnghệ,Tậ p33,Số1(2017)
[4] BerndJ ọ h n e a n d H o r s t H a u ò e c k e r ( 2 0 0 0 ) C o m p u t e r V i s i o n a n d Applications,AGuideforStudentsand Practitioners.AcademicPress.
[5] MilanSonka,VaclavHlavacandRogerBoyle(2008).ImageProcessing,An alysis,andMachine Vision.Thomson.
[8]HistogramsofOrientedGradientsforHumanDetection(2014).Navnee tDalal,BillTriggs.International ConferenceonComputerVision.
[9]http://www.psych.utoronto.ca/users/reingold/courses/ai/cache/nơ- ron4.html,(2019)
[10] MdZahangirAlom,TarekM.Taha,ChristopherYakopcic,StefanWestberg, Paheding Sidike, Mst Shamima Nasrin, Brian C Van Esesn, AbdulA S. Awwal, Vijayan K Asari The History Began from AlexNet (2018),AComprehensiveSurvey on DeepLearningApproaches.
[12] D.H.HubelandT.N.Wiesel.Receptivefieldsofsingleneuronesinthe cat's striate cortex
URL:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1363130/(1959)
[15] URL:http://disp.ee.ntu.edu.tw/tutorial/Nơ-ronNetwork.docx,(2019)
[16]URL:https://trantheanh.github.io/2016/10/18/ML-07/,(2019)
[17] URL:https://towardsdatascience.com/activation-functions-nơ-ron- networks1cbd9f8d91d6,(2019)
Cheng&Ranjan,Rajeev&Sankar,Swami&Kumar,Amit& Chen, Ching-Hui & Patel, Vishal & D Castillo, Carlos & Chellappa, Rama(2016).An End-toEnd System for
Unconstrained Face Verifcation with DeepConvolutionalNơ-ron Networks.
[19]A Krizhevsky, I Sutskever, and G Hinton ImageNet classification withdeep convolutionalnơ-ronnetworks.In ANIPS,2012.1,2,3,4
[20]N Kumar, A C Berg, P N Belhumeur, and S K Nayar Attribute andsimileclassifiers for faceverification.In ICCV,2009.6
[21]Y LeCun, L Bottou, Y Bengio, and P Haffner Gradient based learningapplied to document recognition.Proc.IEEE,1998.1,2,4
[22]H.Li,G.Hua,Z.Lin,J.Brandt,andJ.Yang.Probabilisticelasticmatching for posevariantfaceverification.InCVPR,2013.7
[23]H.Mendez-Vazquez,Y.Martinez-Diaz,andZ.Chai.V o l u m e s t r u c - tured ordinal featureswith background similarity measureforvideo facerecognition.InInt’lConf.onBiometrics,2013.7
Kiếnnghịvàhướngnghiêncứutiếptheo
Pháthiệnvànhậndạngmặtngười,đặcbiệtlàxửlýtrongthờigianthực đã và tiếp tục là một bài toán được nhiều nhà nghiên cứu và cộng đồng quantâm với nhiều ứng dụng to lớn, có tầm quan trọng không chỉ trong khoa họcmàcòntrongthựctiễn.
Tiếpt ụ c p h á t t r i ể n đ ể t ă n g t ố c đ ộ p h á t h i ệ n v à đ ị n h d a n h k h u ô n m ặ t , cũngn h ư t h e o d õ i v à p h á t h i ệ n đ ư ợ c k h u ô n m ặ t k h i k h u ô n m ặ t d i c h u y ể n hoặcbịche khuấtbởicác đốitượngkhác
Để vượt qua những hạn chế gặp phải, nghiên cứu tiếp theo sẽ tập trung khai thác sâu hơn các mô hình học máy và học sâu, đồng thời tối ưu hóa quá trình tiền xử lý dữ liệu để cải thiện hiệu suất và độ chính xác của bài toán.
Anh,N.H.Dũng/TạpchíKhoahọcĐHQGHN:KhoahọcTựnhiênvàCôngnghệ,Tậ p33,Số1(2017)
[4] BerndJ ọ h n e a n d H o r s t H a u ò e c k e r ( 2 0 0 0 ) C o m p u t e r V i s i o n a n d Applications,AGuideforStudentsand Practitioners.AcademicPress.
[5] MilanSonka,VaclavHlavacandRogerBoyle(2008).ImageProcessing,An alysis,andMachine Vision.Thomson.
[8]HistogramsofOrientedGradientsforHumanDetection(2014).Navnee tDalal,BillTriggs.International ConferenceonComputerVision.
[9]http://www.psych.utoronto.ca/users/reingold/courses/ai/cache/nơ- ron4.html,(2019)
[10] MdZahangirAlom,TarekM.Taha,ChristopherYakopcic,StefanWestberg, Paheding Sidike, Mst Shamima Nasrin, Brian C Van Esesn, AbdulA S. Awwal, Vijayan K Asari The History Began from AlexNet (2018),AComprehensiveSurvey on DeepLearningApproaches.
[12] D.H.HubelandT.N.Wiesel.Receptivefieldsofsingleneuronesinthe cat's striate cortex
URL:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1363130/(1959)
[15] URL:http://disp.ee.ntu.edu.tw/tutorial/Nơ-ronNetwork.docx,(2019)
[16]URL:https://trantheanh.github.io/2016/10/18/ML-07/,(2019)
[17] URL:https://towardsdatascience.com/activation-functions-nơ-ron- networks1cbd9f8d91d6,(2019)
Cheng&Ranjan,Rajeev&Sankar,Swami&Kumar,Amit& Chen, Ching-Hui & Patel, Vishal & D Castillo, Carlos & Chellappa, Rama(2016).An End-toEnd System for
Unconstrained Face Verifcation with DeepConvolutionalNơ-ron Networks.
[19]A Krizhevsky, I Sutskever, and G Hinton ImageNet classification withdeep convolutionalnơ-ronnetworks.In ANIPS,2012.1,2,3,4
[20]N Kumar, A C Berg, P N Belhumeur, and S K Nayar Attribute andsimileclassifiers for faceverification.In ICCV,2009.6
[21]Y LeCun, L Bottou, Y Bengio, and P Haffner Gradient based learningapplied to document recognition.Proc.IEEE,1998.1,2,4
[22]H.Li,G.Hua,Z.Lin,J.Brandt,andJ.Yang.Probabilisticelasticmatching for posevariantfaceverification.InCVPR,2013.7
[23]H.Mendez-Vazquez,Y.Martinez-Diaz,andZ.Chai.V o l u m e s t r u c - tured ordinal featureswith background similarity measureforvideo facerecognition.InInt’lConf.onBiometrics,2013.7