1. Trang chủ
  2. » Luận Văn - Báo Cáo

Final Project Report Machine Learning Assignment Topic Control The Mouse Cursor With Facial Movement.pdf

28 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Control The Mouse Cursor With Facial Movement
Tác giả Nguyen Ton Minh, Dinh Truc Tam
Người hướng dẫn Nguyen Duc Dung
Trường học Vietnam National University Of Ho Chi Minh City Ho Chi Minh University Of Technology Faculty Of Computer Science And Engineering
Chuyên ngành Computer Science And Engineering
Thể loại Final Project Report
Năm xuất bản 2023
Thành phố Ho Chi Minh City
Định dạng
Số trang 28
Dung lượng 1,99 MB

Nội dung

Image processing methods start with the main applications: improving image quality and image analysis.. 1.1.3 Segmentation Image segmentation is the process of dividing an input image in

Trang 1

VIETNAM NATIONAL UNIVERSITY OF HO CHI MINH CITY

HO CHI MINH UNIVERSITY OF TECHNOLOGY FACULTY OF COMPUTER SCIENCE AND ENGINEERING

Dinh Truc Tam - 2053415

Ho Chi Minh City — 2023

Trang 2

AIM OF THE PROJECT

The primary problem the project addresses is the need for alternative methods of human-computer interaction, specifically for individuals who may not be able to use traditional input devices such as a mouse or keyboard due to disabilities, injuries, or other impairments The use of facial movement recognition to control the mouse cursor could provide a hands-free way to interact with computers, thereby increasing accessibility And the objective is to create a program using a computer's camera to collect real-time video containing human faces Recognize human faces using the dlib library and the trained model

‘shape_predictor_68 face landmarks’ From this, perform operations to move the mouse cursor on the screen corresponding to the facial movements

Trang 3

TABLE OF CONTENT

CHƯƠNG I: CƠ SỞ LÝ THUYÉT VỀ XỬ LÝ ẢNH 5 2222222112222 1

1 Giới thiệu về xử lý ảnh 5s 1 2 E112 2121 12H n1 121 1 111gr 1

1.1 Các bước cơ bản trong quá trình xử lý ảnh c1 1211211 1131111215151 1 ky 1 1.1.1 Thu nhận ảnh (Image Acqu1SIflon)) ác c1 11121111 131131215 1511211211211 xe 2 1.1.2 Tiền xử lý ảnh (Image Processing) - - 5s tì nh HE t2 rrre 2 1.1.3 Phân đoạn ảnh (Segmen†atIO)) c1 2012111111111 111111111111811 15 xe 2 1.1.4 Biểu diễn và mô tả ảnh (Image Representation and Description) 2 1.1.5 Nhận dạng và nội suy ảnh (Image Recogmition & Interpretation) 3 1.1.6 Co so tri thức (Knowledge Base) HH1 110111811 xe 3

1.2 Một số vấn đề cơ bản trong xử lý ảnh - c n E EEt 212 2t g ng re 5

1.2.1 Điểm ảnh (Picture Element) 5 se St 1211 271221221121101212 1tr 5 1.2.2 Độ phân giải của ảnh (ResoÌuf1On) - ác 1 12122 19 131135135112112 1512 1 xe, 5

1.2.4 Định nghĩa ảnh số 1.2.5 Quan hệ giữa các điểm ảnh s St SE E22 121 112112 ren 5

1.2.6 Biến đôi ảnh (Image Transform) 2-1 SE E211 1127121121111 trre 7

2 Lay mau và lượng tử hóa - 6 - St E12 1211221221 21 121121 1n tr ngu ưyn 7

CHƯƠNG 2: NHẬN DIỆN KHUÔN MẶTT 2222222 222222112222211111122221111 221111 xe 10

1 Mô hình nhận diện khuôn mặt 120111211 112121 122111101101111 1011111111111 10111011111 treo 10 1.1 Nhận dign Khu6n mat cccceccsesscsessevsessesscsecsecsecsevsecsessessssesssesessesssssesssiesenees 10

1.2 Xác định vị trí khuôn mặt (Face Detecting) - L2 vn vn TH key 10

1.3 Giới thiệu vé Haar Cascade - c2 v12 11 1221111122111 e6 11

1.4 Đặc trưng Haar (Bộ lọc Haar) ccccescceseeteeeseesecssessceseessecsecsseeseeessessstsssssessenees 11 1.5 Trích xuất đặc trưng khuôn mặt - c1 2c 2211211321391 3911311 1115115151211 2111 11 c2 13

2 Thách thức trong nhận diện khuôn mặt (2t nhe 13

CHƯƠNG 3: GIỚI THIỆU VỀ FACIAL LANDMARKS VÀ DLIBS -s- 5 ca 14

2 Tìm hiểu dlib’s Tacial landmark defeefOr ch nga 15 CHƯƠNG 4: THIẾT KẾ VE THỰC HIỆN ĐE TẢÀI - 2 2c 22 111121222111 22mg 16

1 Phương pháp thực hiện 2n 120111 1211111111111 1011011111111 1 11 1111 HH x11 kg tre 16

2 Tóm tắt thư viện và source cođe acc ng H211 x21 111tr co 16

3 Kết quả thực hiện - s1 t SE E1 t1 12121 tt H121 12 H1 2n ng re 19 CHƯƠNG 5: KẾT LUÂN 1.2221 22195115121111121111121121211121211112112121212111121211021 21 ye 23

Trang 4

CHAPTER 1: THEORETICAL BASIS OF IMAGE PROCESSING

1 Introduction to Image Processing

Image processing is a field of science and technology It is a relatively new scientific field compared to many others, but its development pace is very fast, stimulating research centers and applications, especially computers dedicated to it

Image processing methods start with the main applications: improving image quality and image analysis The first known application was to enhance the quality of newspaper images transmitted by cable from London to New York in the 1920s The issue of improving image quality is related to the distribution of brightness levels and the resolution of the image Image quality improvement was developed around 1955 This can be explained by the fact that after World War II, computers developed rapidly, facilitating the process of digital image processing In 1964, computers were capable of processing and improving the quality of images from the moon and the United States' Ranger 7 satellite, including: highlighting edges, storing images From 1964 to the present, the means of processing, improving quality, and recognizing images have been continuously developed Artificial intelligence methods such as artificial neural networks, modern processing algorithms and improvements, and image compression tools are increasingly widely applied and yield many promising results

Image processing plays an important role in the interaction between humans and computers The image recognition processing is a process that includes operations to transform an input image to produce a result or a conclusion

First, natural images from the outside world are captured through devices (such as cameras, photography cameras) Then, through image processing, the image is directly converted into a digital image, which facilitates further processing The results of image processing can be: producing a better image according to the user's desire; analyzing images to obtain information for image classification and recognition; drawing observations, conclusions, etc 1.1 Các bước cơ bản trong quá trình xử lý ảnh

Trang 5

1.1.1 Image Acquisition

Images can be captured through color or black and white cameras, scanners, camcorders, etc The quality of a captured image depends on the capturing device and the environment (lighting, scenery) Subsequently, the image is converted through ADC (image digitization) The ADC (Analog to Digital Converter) process is used to acquire the digital form of the image

1.1.2 Image Processing

After capture, the image might have low contrast noise, so it needs to go through a pre- processing unit to enhance its quality The main function of the image pre-processing unit is noise filtering and contrast enhancement to make the image clearer and sharper The image

will be improved in terms of contrast, noise reduction, image restoration, geometric adjustment, etc

e Noise reduction: there are two types of noise: systematic noise and random noise The characteristic of systematic noise is its periodicity, so it can be removed by using the Fourier transform and eliminating the peaks Random noise can be reduced by interpolation methods, median filtering, and average filtering

© Gray level adjustment: is to correct the non-uniformity of the capturing device or the contrast between different areas of the image

e Image scatter correction: Images obtained from optical or electronic devices can be blurred or smeared The Fourier transform method 1s based on the convolution of the image with a scatter function

1.1.3 Segmentation

Image segmentation is the process of dividing an input image into its component regions for representation, analysis, and recognition of the image For example, to recognize text (or barcodes) on an envelope for the purpose of sorting mail, it is necessary to divide the

sentences, words about the address or the person's name into separate words, letters, numbers

(or bars) for recognition This is the most complex and difficult part of image processing and

is also prone to errors, potentially reducing the accuracy of the image The result of image recognition depends greatly on this process The result of image segmentation is usually raw pixel data, functions containing the edges of an image region, or the set of all pixels within that region

1.1.4 Image Representation and Description

Image representation: The output image after segmentation contains the pixels of the image region (segmented image) along with codes linked to adjacent regions Transforming this data into a suitable form is necessary for further processing by computers The selection of properties to represent an image is called feature selection, which involves separating the characteristics of the image in the form of quantitative information or as a basis for distinguishing one class of objects from another within the received image scope

Image description: After being digitized, the image will be stored in memory or transferred to the next stages for image analysis Storing images directly from raw images requires a very

2

Trang 6

large memory capacity and is not efficient for subsequent applications Typically, these raw images are represented or encoded according to the characteristics of the image, called features such as image edges, image regions Some methods of image representation include:

- Run-Length Encoding (RLE): This method is often used for representing image regions and

e U(m,n=1,néu(m,n)ER

® U(m,n)=0, nếu (m, n) không € R

is applied to binary images An image region R can be simply encoded using a binary matrix:

Where U(m, n) is a function describing the gray level of the image at coordinates (m, n) With the representation above, an image region is described by a set of strings of 0s or ls For instance, 1f we describe a binary image of a region represented by coordinates (x, y) along the axes and specify only for the value "1", then the description could be: (x, y) r; where (x, y) are

the coordinates, and r is the number of consecutive bits with the value "1" horizontally or

vertically

- Chain Code: This method is typically used to represent the borders of an image Any arbitrary image border is divided into small segments Connecting these points, we get successive straight segments that are assigned a direction, creating a chain consisting of

segments The directions can be chosen as 4, 8, 12, 24, etc., and each direction is encoded in

decimal or binary to form the code for the direction

- Quadtree Encoding: This is commonly used to encode image regions The initial image region is divided into four often equal parts If each region is homogeneous (containing all black (1) or white (0) pixels), that region is assigned a code and is not divided further Non- homogeneous regions are further divided into four parts following the procedure above until all regions are homogeneous The codes for the subdivisions create a tree that represents the division into homogeneous regions

1.1.5 Image Recognition & Interpretation

Image recognition is the process of identifying and classifying objects or features within an image, and often involves comparing the image with a set of known patterns or templates Interpolation, in this context, refers to the process of making sense of the recognized image by inferring additional information For instance, recognizing a series of digits and dashes on an envelope could lead to the interpolation of a phone number

Image recognition can be theoretically categorized into two basic types:

Parametric Recognition: This approach involves recognizing images based on parameterized models of the image content In parametric recognition, the system uses a set of quantifiable aspects of the image, such as statistical properties or geometric parameters, to identify and classify the object

Structural Recognition: Structural recognition relies on the understanding of the image's structure This may include the relationships and arrangements between different parts of an image It often uses topological and syntactical information to recognize patterns and objects Common applications of image recognition technologies in science and technology include:

Trang 7

Character Recognition: This includes the recognition of printed text, handwritten text, and electronic signatures Optical Character Recognition (OCR) systems are a common example, where printed or handwritten text is converted into machine- encoded text

Text Recognition: Beyond individual characters, this involves recognizing and interpreting blocks of text, which can be used in document analysis, natural language processing, and information retrieval

Fingerprint Recognition: This biometric method identifies individuals based on the unique patterns found in their fingerprints It is widely used for security and identification purposes

Barcode Recognition: Barcodes are optical machine-readable representations of data, which can be found on various products for identification Barcode recognition systems decode the information contained in the barcode

Facial Recognition: This technology identifies or verifies a person from a digital image or video frame It has applications in security, law enforcement, and user authentication

1.1.6 Knowledge Base

An image is a rich but complex source of data due to its characteristics in terms of lines, light and dark areas, pixel resolution, and noise from the image capture environment In image processing and analysis, the goal is not only to simplify mathematical methods for convenience in processing but also to mimic the process of receiving and processing visual information like humans do To simulate human cognitive abilities, many modern techniques

In image processing have been developed based on the principles of human intelligence, where knowledge and experience are used to improve the processing

The steps in digital image processing may vary depending on the specific application requirements:

After digitization: The image is usually compressed to reduce storage requirements and optimize transmission

Quality improvement: If the digitized image does not meet the quality requirements, steps such as smoothing, noise removal, and contrast enhancement can be applied Skipping steps: For images that meet quality standards, it's possible to skip the quality improvement step and move directly to image segmentation or feature extraction Feature extraction is an important step in the object recognition process on images Effective selection of image characteristics helps make recognition more accurate and efficient in terms

of computation time and storage capacity reduction Some key features in images include: Spatial features: These include the distribution of gray levels, the probability of gray

level occurrences, the amplitude of features, inflection points, etc

Transformation features: These features are often extracted through zonal filtering, using feature masks with various shapes such as rectangles, squares, triangles, and others

Edge and boundary features: This characteristic is related to clearly determining the boundaries of objects in images and extracting invariant attributes that can be used in object recognition Methods such as the Laplacian operator, gradient operator,

4

Trang 8

compass operator, and zero crossing are all used to detect and extract information about edges and boundaries

The methods above support the extraction of important information from images, thereby improving the accuracy of recognition and classification processes Image processing technology continues to evolve with the support of other fields such as machine learning and artificial intelligence, providing the ability to simulate visual perception and cognition similar

to humans, thus expanding its application possibilities in various industries

1.2 Some basic issues in image processing

1.2.1 Picture Element

The origin of an image (natural image) is continuous in space and brightness For computer processing, the image needs to be digitized Image digitization is the approximate transformation of a continuous image into a set of points that match the real image in terms of location (space) and brightness (gray scale) The distance between these pixels is set so that the human eye cannot distinguish the boundaries between them Each such point is called a pixel (PEL: Picture Element) In the context of two-dimensional images, each pixel corresponds to a coordinate pair (x, y)

Definition: A pixel is an element of a digital image at coordinates (x, y) with a specific gray scale or color The size and distances between these pixels are chosen appropriately so that the human eye perceives the continuity of space and gray scale (or color) of the digital image

as nearly identical to the real image Each element in the matrix is called an image element

1.2.3 Gray level of the image

A pixel has two basic characteristics: the position (x, y) of the pixel and its gray level The gray level of a pixel is the intensity of its brightness assigned by a numerical value at that

point Common gray scale value ranges include: 16, 32, 64, 128, 256 (with 256 being the

most commonly used level This is because computer technology uses | byte (8 bits) to represent the gray level: 2“8 = 256 levels, meaning from 0 to 255),

A black and white image (grayscale image): is an image that has only two colors, black and white (and contains no other colors), with the gray level at different pixels potentially varying Binary image: an image that has only 2 distinct black and white levels, 1.¢., 1 bit describes 2“1 different levels In other words, each pixel of a binary image can only be 0 or 1

Color image: within the framework of the three-color theory (Red, Blue, Green) used to create

the world of color, 3 bytes are typically used to describe the color level, thus the color values

are; 2ˆ^8*3 = 2^24 = 16.7 million colors

Trang 9

1.2.4 Definition of a digital image

A digital image is a collection of pixels with appropriate gray levels used to describe an image that closely resembles the real image

1.2.5 Relationship between pixels

Một ảnh số giả sử được biêu diễn bằng hàm Ấ x, y).Tap con cac diém anh 1a S, cặp điểm anh

có quan hệ với nhau ký hiệu là p, q

- Cac lan can cha diém anh (Image Neighbors):

Gia str c6 diém anh p tai toa dé (x, y), p c6 4 diém lân cận gần nhất theo chiều đứng và

ngang (có thê coi như lân cận 4 hướng chính: Đông, Tây, Nam, Bặc)

trong đó: số 1 là giá trị logic; Na(p) tap 4 điểm lân cận của p

East % West

+

GẦN &-1,v'1) | 4v) | 6+1,v-1)

@-1,y) (x, ¥) (x+1, y) North (<1 y+1) | (xy+1) | &+1,y+1)

Các lân cận chéo: Các điểm lân cận chéo NP() ( Có thể coi lân cận chéo là 4 hướng:

Đông-Nam, Đông-Băc, Tây-Nam, Tây-Bắc)

Nip) = £ OL y+DsOtL, y-DsOeL, y+ Ds0¢ 1, y-D}

Tap két hop: Ns(p) = Na(p) + Np(p) là tập hợp 8 lân cận của điểm ảnh p Chú ý: Nếu (x, y) nằm ở biên (mép) ảnh; một số điêm sẽ nằm ngoài anh

- Các mối liên kết điểm ảnh:

Các mối liên kết được sử dụng đề xác định giới hạn( Boundaries) của đối tượng vật thê hoặc xác định vùng trong một ảnh Một liên kết được đặc trưng bởi tính liền kể giữa các điểm

và mức xám của chúng Giả sử V là tập các giá trị mức xám Một ảnh có các giá trị cường độ

sáng từ thang mức xám từ 32 đến 64 được mô tả như sau : V={ 32, 33, , 63, 64} Có 3 loại

- Đo khoảng cách giữa các điểm anh:

Trang 10

Định nghĩa: Khoảng cách D (p, q) giữa hai điểm ảnh p toạ độ (x, y), q toa dé (s, t) la

hàm khoảng cách( Distance) hoặc Metric nếu:

1 D(p, q)>0 (Với D (p, q)=0 nếu và chi néu p=q)

Khoảng cách khối: Khoảng cách D( p, q) được gọi là khoảng cách khối đồ thị

(CityBlock Distance) và được xác định như sau:

Dap, q)=|x-s|+]y-t|

Gia tri khoang cach gitra cdc diém anh r: giá trị bán kính r giữa diém anh tir tam diém

anh dén tam diém anh q khac

Khoang cach Ds(p, q) con gọi là khoảng cách bàn cờ ( Chess-Board Distance) giữa

điểm ảnh p q được xác định như sau:

Ds(p.q) = max (| x-s |, | y - t])

1.2.6 Biến đối ảnh (Image Transform)

Trong xử lý ảnh do số điểm ảnh lớn các tính toán nhiều( độ phức tạp tính toán cao) đòi hỏi

dung lượng bộ nhớ lớn, thời gian tính toán lâu Các phương pháp khoa học kinh điện ap dụng

cho xử lý ảnh hâu hết khó khả thi Người ta sử dụng các phép toán tương đương hoặc biến đôi

sang miễn xử lý khác đê đê tính toán Sau khi xử lý dê dàng hơn được thực hiện, dùng biên đổi ngược dé đưa về miền xác định ban đầu, các biến đối thường gặp trong xử lý ảnh gồm:

- Biến đổi Fourier, Cosin, Sin

- Biến đôi( mô tả) ảnh bằng tích chập, tích Kronecker (theo xử lý số tín hiệu) Các biến đổi

khac nhu KL( Karhumen Loeve), Hadamard

- Một số công cụ xác suất thông kê cũng được sử dụng trong xử lý ảnh

1.2.7 Nén ảnh

Anh du 6 dang nao vẫn chiếm không gian bộ nhớ rất lớn Khi mô tả ảnh người ta đã đưa kỹ thuật nén ảnh vào Các giai đoạn nén ảnh có thê chia ra thế hệ 1, thế hệ 2 Hiện nay, các chuẩn MPEG duoc dung với ảnh đang phát huy hiệu quả

Trang 11

2 Lấy mẫu và lượng tử hóa

Một ảnh ø( x, y) ghi được từ Camera là ảnh liên tục tạo nên mặt phẳng hai chiều Ảnh cần chuyên sang dạng thích hợp đề xử lí bằng máy tính Phương pháp biến đôi một ảnh (hay một

hảm) liên tục trong không gian cũng như theo giá trị thành dạng sô rời rạc được gọi là sô hoá

ảnh Việc biến đôi này có thê gồm hai bước:

Bước I: Đo giá trị trên các khoảng không gian gọi là lầy mẫu

Bước 2: Ánh xạ cường độ( hoặc giá trị) đo được thành một số hữu hạn các mức rời rạc gọi là

lượng tử hoá

2.1 Lấy mẫu

Lấy mẫu là một quá trình, qua đó ảnh được tạo nên trên một vùng có tính liên tục được

chuyên thành các giá trị rời rạc theo tọa độ nguyên Quá trình này gôm 2 lựa chọn: Một là

khoảng lay mẫu hai là cách thể hiện dạng mâu Lựa chọn thứ nhât được đảm bảo nhờ lý

thuyết lây mâu của Shannon Lựa chọn thứ hai liên quan đên độ đo (Metric) được dùng trong

mién roi rac

- Khoang lay mau (Sampling Interval):

Ảnh lây mẫu có thê được mô tả như việc lựa chọn một tập các vi trí lấy mẫu trong không gian hai chiều liên tục Đầu tiên mô tả qua quá trình lấy mẫu một chiêu với việc sử dụng hàm delta:

+œ) với các khoảng Ax:

với r là số nguyên, Ax là khoảng lấy mẫn

Khoảng lấy mẫu( Sampling Interval) Ax là một tham số cần phải được chọn đủ nhỏ, thích hợp, nêu không tín hiệu thật không thê khôi phục lại được từ tín hiệu lay mau

- Dinh lý lay mau Shannon:

Giả sử g(x) là một hảm giới hạn giải (Band Limited Function) va bién déi Fourier cua né

là G(œx) = 0 đối với các giá trị W„ > œ„ Khi đó g(x) có thể được khôi phục lại từ các mẫu được tạo tại các khoảng Ax đêu đặn Tức là

Định lý lẫy mẫu của Shannon có thê mở rộng cho không gian hai chiều

được xác định:

Trang 12

- Cac dang lay mau (Tesselation):

Dang lay mẫu điểm ảnh là cách sắp xếp các điểm ảnh trong không gian hai chiều Một số

dang lay mau diém ảnh là dạng chữ nhật, tam giác, lục giác

Gia sử Z là một giá trị lấy mẫu (số thực) tại vị trí nào đó của mặt phẳng ảnh, và

Zmn<=Z`<=Z„„ và giả sử chúng ta muốn lượng hoá giá trị đó thành một trong các mức rời

rac: hi, l›, l„ tương ứng với Zm› đến Z„„ Khi đó, quá trình lượng hoá có thê thực hiện bằng cách chia toàn bộ miễn vao (Zmax - Zmin) thanh | khoảng, môi khoảng là AI và khoảng thứ I được đặt tại điểm giữa các khoảng liền kề l¡ họ các giá trị z được thực hiện và mô tả bằng l›

theo quá trình trên đây, khi đó sai số của quá trình lấy mẫu có thê được xác định theo: eạ = l¡ -

Z.

Trang 13

CHUONG 2: NHAN DIEN KHUON MAT

1 Mô hình nhận diện khuôn mặt

1.1 Nhận diện khuôn mặt

Nhận dạng khuôn mặt là một kỹ thuật để xác định hoặc xác minh khuôn mặt từ hình ảnh kỹ

thuật số hoặc khung video Một con người có thê nhanh chóng xác định các khuôn mặt mà

không cần nỗ lực nhiều Đó là một nhiệm vụ dễ dàng đối với chúng tôi, nhưng nó là một nhiệm vụ khó khăn đối với máy tính Có nhiều độ phức tạp khác nhau, chăng hạn như độ

phân giải thấp, độ che phủ, sự thay đối vẻ độ chiếu sáng, v.v Những yếu tổ này ảnh hưởng

lớn đến độ chính xác của máy tính để nhận dạng khuôn mặt hiệu quả hơn Trước tiên, cần phải hiểu sự khác biệt giữa nhận diện khuôn mặt và nhận dạng khuôn mặt

Face Detection: Nhận diện khuôn mặt thường được coi la viéc tim kiếm các khuôn mặt (vị trí

va kích thước) trong một hình ảnh và có thê trích xuất chúng đề sử dụng bởi thuật toán nhận

diện khuôn mặt

Face Recognition: Thuật toán nhận dạng khuôn mặt được sử dụng để tìm các tính năng được

mô tả duy nhất trong hình ảnh Hình ảnh khuôn mặt đã được trích xuât, cắt xén, thay đôi kích

thước và thường được chuyên đôi trong thang độ xám

Các bước tông quan

Bước l1: Thu thập dữ liệu khuôn mat (Face Data Gathering)

Bước 2: Huấn luyện mô hình với dữ liệu vừa thu thập (Train the Recognizer) Bước 3: Nhận

diện, phân biệt các khuôn mặt voi nhau (Recognition)

=> Ở bước 1 (thu thập dữ liệu khuôn mặt) và bước 3 (nhận diện khuôn mặt), điều tiên quyết là phải xác định được vị trí khuôn mặt

10

Trang 14

1.2 Xác định vị trí khuôn mặt (Face Detecting)

Nhiệm vụ quan trọng và là nen tang cho việc nhận diện khuôn mat (Face Recognition) la Phat

hiện khuôn mặt (Face Detecting) Trước hết, phải “bắt” được khuôn mặt (trong Bước I) để nhận diện và phân biệt nó với các khuôn mặt khác (trong Bước 3) Và cách thông dụng nhất

hiện nay dé phát hiện được khuôn mặt là sử dụng bộ phân loai Haar Cascade

1.3 Giới thiệu về Haar Cascade

Haar Cascade là một thuật toán được tạo ra dựa trên những tính năng đó dé phát hiện đối tượng (có thê là khuôn mặt, mắt, tay, đồ vật, ) được đề xuất vào năm 2001 bởi Paul Viola va Michael Jones trong bai bao cua ho voi khang định “Phát hiện đối tượng một cách nhanh

chóng bằng cách sử dụng tầng (Cascade) tăng cường các tính năng đơn giản”

Triển khai ban đầu được sử dụng để phát hiện khuôn mặt chính diện và các đặc điêm như Mắt, Mũi và Miệng Tuy nhiên, có nhiều đặc trưng Haar được đảo tạo trước đó trong GitHub cũng có thê dùng cho các đối tượng khác cũng như cho toàn bộ cơ thê, thân trên, thân dưới,

1.4 Đặc trưng Haar (Bộ lọc Haar)

Các ví dụ về đặc trưng Haar được liệt kê ở dưới, trong đó a) là các đặc trưng bắt các cạnh

trong ảnh, và b) bắt các đường thăng trong ảnh Ngoài ra, còn có các đặc trưng Haar khác, như ví dụ c) về đặc trưng “4 hình vuông” dưới đây

đây:

11

Ngày đăng: 01/11/2024, 14:41

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN