CHƢƠNG 1 GIỚI THIỆU CHUNG
3.2 Ứng dụng thị giác máy kết hợp AI nhận dạng cử chỉ tay ngƣời
Trong cuộc sống hàng ngày, con ngƣời thực hiện rất nhiều các cử chỉ khác nhau. Đó là điều tự nhiên để cải thiện và nâng cao thông tin liên lạc giữa ngƣời với ngƣời, trong tất cả cả các loại cử chỉ mà con ngƣời sử dụng thì cử chỉ tay đóng một vai trị quan trọng có thể giúp chúng ta thể hiện đƣợc nhiều thông tin hơn trong thời gian ngắn hơn. Trong luận văn, cử chỉ đƣợc định nghĩa nhƣ một sự chuyển động của những ngón tay nhƣ một tín hiệu đặc biệt, để liên lạc chính xác giữa ngƣời gửi và thiết bị nhận. Để nhận dạng cử chỉ, bƣớc đầu tiên trong các hệ thống nhận dạng là phát hiện ra vị trí bàn bay bằng một thiết bị cảm nhận để thu thập các quan sát cần cho việc phân loại hay miêu tả, sau đó tiến hành xử lý hình ảnh, trích chọn đặc trƣng (feature extraction) để tính tốn các thơng tin dƣới dạng số hay dạng biểu tƣợng (symbolic) từ các dữ liệu quan sát. Sau đó thực hiện công việc phân loại dựa vào các đặc tính đã đƣợc trích chọn để nhận dạng cử chỉ dựa trên tập dữ liệu về bàn tay đƣợc thu thập từ trƣớc, đó chính là nhiệm vụ của bài toán nhận dạng cử động của bàn tay. Hƣớng tiếp cận chính để thu nhận thơng tin về bàn tay ngƣời sử dụng trong luận văn này là phƣơng pháp xử lý hình ảnh thơng qua camera chụp lại ảnh bàn tay ngƣời.
3.2.1 Những ứng dụng với cử chỉ bàn tay
Dựa trên cử chỉ bàn tay con ngƣời các nhà nghiên cứu đã đƣa ra một số ứng dụng thực tiễn liên quan đến máy móc đem lại những đột phá trong việc nghiên cứu và ứng dụng vào cuộc sống thực tiễn nhƣ dƣới đây.
Thiết kế 3D: Việc thao tác đầu vào 3 chiều với con chuột máy tính là
28
Massachuchetttes đã đƣa ra các công nghệ 3DRAW sử dụng một cây bút nhúng trong thiết bị polhemus để theo dõi vị trí bút và định hƣớng trong 3D [18].
Điểu khiển từ xa: Làm tăng khả năng điều khiển bằng tay trong một
số trƣờng hợp lỗi hệ thống, điều kiện khẩn cấp hoặc vùng sâu vùng xa khó tiếp cận, thƣờng thì những điều khiển này con ngƣời khơng thể tiếp cận gần máy móc. Điều khiển từ xa là một lĩnh vực trí tuệ nhân tạo nhằm mục đích hỗ trợ việc điều khiển cánh tay robot thông qua các cử chỉ cơ thể để thực hiện các nhiệm vụ cần thiết.
Virtual reality: Thực tế ảo đƣợc áp dụng nâng cao, hệ thống xúc giác tiên tiến hiện nay bao gồm thông tin xúc giác, thƣờng đƣợc gọi là lực lƣợng phản hồi, trong các ứng dụng y tế và chơi game. Cử chỉ tay ngƣời là vấn đề then chốt trong ứng dụng trên.
Ngôn ngữ ký hiệu: Ngơn ngữ kí hiệu là hình thức thơ nhất và tự nhiên của ngôn ngữ đánh dấu, ngày trở lại sớm nhất là sự ra đời của nền văn minh của con ngƣời, khi các lý thuyết đầu tiên của ngôn ngữ ký hiệu xuất hiện trong lịch sử. Nó đã bắt đầu trƣớc khi có sự xuất hiện của ngơn ngữ nói, tay ngƣời đã đƣa ra các ngơn ngữ kí hiệu từ rất lâu đời vì vậy nghiên cứu và đánh giá cử chỉ bàn tay con ngƣời cũng đƣợc quan tâm rất nhiều và đƣợc nên ý tƣởng để ứng dụng vào hoạt động của máy móc trong hiện tại và tƣơng lai.
Dƣới đây là những phƣơng pháp thực hiện nhận diện cử chỉ hành động tay đƣợc thực hiện.
3.2.2 Những phương pháp nhận diện cử chỉ bàn tay
3.2.2.1 Phân đoạn ảnh dựa vào màu da.
Phân đoạn ảnh là một thao tác ở mức thấp trong tồn bộ q trình xử lý ảnh. Quá trình này thực hiện việc phân vùng ảnh thành các vùng rời rạc và đồng nhất với nhau hay nói cách khác là xác định các biên của các vùng ảnh đó, các vùng ảnh đồng nhất này thông thƣờng sẽ tƣơng ứng với toàn bộ
29
hay từng phần của các đối tƣợng thật sự bên trong ảnh. Nhƣ vậy, mục tiêu của phân đoạn ảnh là làm nổi bật hoặc tách hẳn đối tƣợng cần quan tâm ra từ ảnh ban đầu, làm đơn giản hóa và thay đổi cách biểu diễn để dễ dàng phân tích hơn. Vì thế, trong hầu hết các ứng dụng của lĩnh vực xử lý và nhận dạng ảnh, phân đoạn ảnh ln đóng một vai trị quan trọng và cần thiết, nó thƣờng là bƣớc tiền xử lý đầu tiên trong toàn bộ quá trình trƣớc khi thực hiện các thao tác khác ở mức cao hơn nhƣ nhận dạng đối tƣợng, biểu diễn đối tƣợng hay truy vấn ảnh dựa vào nội dung. Da con ngƣời có màu rất đặc trƣng, có thể dễ dàng nhận dạng và nó cũng không bị ảnh hƣởng bởi các phép biến đổi hình học của đối tƣợng, vì vậy phát hiện bàn tay ngƣời dựa trên việc phát hiện da là một phƣơng pháp khá đơn giản và có thể thực hiện đƣợc.
Hình 3.2. phân đoạn ảnh dựa vào màu da
Phát hiện da là một bƣớc xử lý tìm kiếm trong ảnh các vùng và điểm ảnh có màu da rồi đƣa ra kết quả vùng bàn tay trên ảnh là vùng các điểm ảnh có màu da, phát hiện các điểm ảnh màu da có vẻ nhƣ khá dễ dàng, tuy nhiên, do phƣơng pháp này chỉ dựa vào thông tin về màu sắc nên các vùng ảnh không phải là bàn tay nhƣ khuôn mặt hay các vùng da khác trên cơ thể con ngƣời, thậm chí là các đối tƣợng khác có màu giống với màu da cũng bị nhận diện nhƣ là bàn tay. Do đó, việc phát hiện bàn tay dựa trên màu da chỉ có hiệu quả khi trong ảnh ngồi vùng bàn tay thì khơng chứa thêm các
30
đối tƣợng khác có màu da và vùng bàn tay phải có sự tách biệt với nền. Quy trình phát hiện da gồm 2 giai đoạn: Huấn luyện và phát hiện.
Huấn luyện để nhận dạng đƣợc màu da dựa trên 3 bƣớc cơ bản sau:
Thu thập dữ liệu về da từ nhiều ảnh khác nhau của nhiều ngƣời khác nhau và ảnh chụp trong các điều kiện khác nhau.
Lựa chọn một khơng gian màu thích hợp.
Học các thơng số về phân loại da.
Khi có bộ huấn luyện phát hiện da, tiến hành nhận dạng các điểm ảnh có màu da từ ảnh:
Chuyển đổi ảnh sang không gian màu đƣợc sử dụng trong giai đoạn huấn luyện.
Phân loại các điểm ảnh màu da hay không phải màu da.
Hoàn tất xử lý các đặc trƣng cần sử dụng hình thái học để áp đặt khơng gian thuần nhất trên các vùng đƣợc phát hiện.
Với ảnh đƣợc chụp dƣới điều kiện ánh sáng đƣợc kiểm soát, màu da con ngƣời phân bố thành một vùng nhỏ trong không gian màu. Để phát hiện điểm ảnh có màu da, ta cần định nghĩa ngƣỡng cho các thành phần của khơng gian màu, mỗi thành phần có thể có một hay nhiều giá trị ngƣỡng. Các điểm ảnh có giá trị thuộc phạm vi xác định trƣớc của tất cả các thành phần đƣợc coi là các điểm ảnh có màu da.
Karin Sobottka và Loannis Pitas [7] sử dụng các ngƣỡng cố định trong không gian màu HS. Các điểm ảnh có giá trị H nằm trong khoảng [0, 50], giá trị S nằm trong khoảng [0.23, 0.68] đƣợc xác định là điểm ảnh có màu da. Các giá trị ngƣỡng này phù hợp để phân loại các điểm ảnh có màu da đối với ảnh chụp ngƣời da trắng và da vàng. . Shimada, T. Yamashita [8] đề xuất một thuật tốn xác định các điểm ảnh có màu da có giá trị Cb nằm trong khoảng [77, 127] và giá trị Cr nằm trong khoảng [133, 173]. Nguyễn Văn Dũng [16] sử dụng các giá trị ngƣỡng trong không gian màu rgb (r + g + b = 1) và HSV. Trong đó, giá trị thành phần r của các điểm ảnh
31
nằm trong khoảng [0.36, 0.465], giá trị thành phần g nằm trong khoảng [0.28, 0.363], giá trị H nằm trong khoảng [0, 50], giá trị S nằm trong khoảng [0.20, 0.68], giá trị V nằm trong khoảng [0.35, 1] đƣợc xác định là điểm ảnh có màu da.
3.2.2.2 Kỹ thuật phát hiện biên
Biên là một trong những đặc trƣng quan trọng của ảnh, nó đƣợc dùng để mơ tả hình dạng của đối tƣợng khá hiệu quả. Để biểu diễn hình dạng đối tƣợng dựa trên đƣờng biên, trƣớc hết cần xác định biên của đối tƣợng và biểu diễn theo một phƣơng pháp nào đó. Đƣờng biên trƣớc tiên phải đƣợc nhị phân hóa, đây là giai đoạn then chốt trong q trình trích chọn vì nó xác định đƣờng bao nào thực sự cần và đƣờng bao nào có thể loại bỏ, việc mã hóa đƣờng bao có thể thực hiện theo nhiều cách khác nhau, có thể dùng biểu diễn chính xác đƣờng biên hay xấp xỉ nhờ nội suy. Thông thƣờng các cấu trúc cơ sở mã hóa đƣờng biên gồm 4 loại: điểm, đoạn thẳng, cung và đƣờng cong. Tuy nhiên, ln có xung đột giữa độ phức tạp tính tốn và khả năng biểu diễn ảnh của cách mã hóa thơng tin, biểu diễn đƣờng biên bởi các điểm nói chung khơng phức tạp song lại rất nghèo nàn về cấu trúc và khơng cơ đọng. Trong khi đó, biểu diễn bằng đƣờng cong đa thức bậc cao làm tăng độ phức tạp tính tốn, song bù lại cấu trúc dữ liệu lại rất cô đọng [9].
32
3.2.2.3 Trích trọn đặc trưng dựa vùng liên kết
Các đối tƣợng hình học đƣợc phát hiện thƣờng thông qua các kỹ thuật dò biên, kết quả tìm đƣợc này là các đƣờng biên xác định đối tƣợng. Đó là, một dãy các điểm liên tiếp đóng kín, sử dụng các thuật tốn đơn giản hóa nhƣ Douglas Peucker, Band Width [10] ta sẽ thu đƣợc một polyline hay nói khác đi là thu đƣợc một đa giác xác định đối tƣợng. Một đa giác có thể có hình dạng tựa nhƣ một hình cơ sở, có thể có nhiều cách tiếp cận xấp xỉ khác nhau. Cách xấp xỉ dựa trên các đặc trƣng cơ bản sau:
- Đặc trưng tồn cục: Các mơmen thống kê, số đo hình học nhƣ chu
vi, diện tích, tập tối ƣu các hình chữ nhật phủ hay nội tiếp đa giác.
- Đặc trưng địa phương: Các số đo đặc trƣng của đƣờng cong nhƣ
góc, điểm lồi, lõm, uốn, cực trị.
Việc xấp xỉ tỏ ra rất có hiệu quả đối với một số hình phẳng đặc biệt nhƣ tam giác, đƣờng trịn, hình chữ nhật, hình vng, hình ellipse và một đa giác mẫu.