TỔNG QUAN
Giới thiệu đề tài
Thính giác là một trong những giác quan quan trọng giúp con người giao tiếp, tiếp thu tri thức và chia sẻ trải nghiệm trong cuộc sống Thiếu thính giác hoặc thính giác hoạt động kém sẽ gây thiệt thòi lớn cho cá nhân Hiện nay, số lượng người khuyết tật về thính giác trong cộng đồng không nhỏ, và tình trạng của họ trở nên phức tạp do khiếm thính có nhiều cấp độ và biểu hiện khác nhau Bảng 1.1 dưới đây sẽ trình bày tổng quát về phân loại và biểu hiện của khiếm thính.
Khiếm thính tiếp nhận Tổn thương tai ngoài và tai giữa
Khiếm thính dẫn truyền Tổn thương tai trong
Khiếm thính hỗn hợp Tổn thương cả tai ngoài, tai giữa và tai trong Khiếm thính tai trung ương Dây thần kinh số 8, tổn thương ở não
Nghe kém nhẹ Không nghe được tiếng nói nhỏ Khó nghe tiếng nói nơi ồn
Nghe kém trung bình Nghe được tiếng nói nhỏ, tiếng nói bình thường
Rất khó nghe được tiếng nói nơi ồn ào
Không nghe được ngay cả tiếng nói lớn Các cuộc nói chuyện được thực hiện rất khó khăn với nhiều nỗ lực
Nghe kém sâu là tình trạng không thể nghe thấy âm thanh ngay cả khi có người hét vào tai, và việc không sử dụng thiết bị trợ thính sẽ khiến việc nghe trở nên không thể Trong khi đó, điếc hoàn toàn có nghĩa là không nghe được bất kỳ âm thanh nào, kể cả khi sử dụng thiết bị trợ thính.
Bảng 1.1: Phân loại và biểu hiện của khiếm thính
Theo Tổ Chức Y Tế Thế Giới (WHO), hiện có khoảng 278 triệu người câm điếc trên toàn cầu, chiếm 4,5% dân số thế giới, với đa số sống ở mức sống trung bình hoặc thấp do rào cản ngôn ngữ Tại Việt Nam, Bộ LĐ-TB-XH thống kê có khoảng 2 triệu người câm điếc, tương đương 13,5% dân số, trong đó khoảng 400.000 người đang trong độ tuổi học sinh Tại thành phố Hồ Chí Minh, số người khiếm thính được ghi nhận vào năm 2006 là khoảng 3.550, nhưng chỉ có dưới 20 người có khả năng thông dịch, và chỉ 7 người có thể thông dịch tại các hội nghị quốc tế.
Trong những năm gần đây, việc hòa nhập của người khiếm thính đã được cải thiện đáng kể nhờ vào sự hỗ trợ của y học và công nghệ Sự phát triển và thống nhất của ngôn ngữ ký hiệu đã tạo ra nhiều thuận lợi cho người khiếm thính trong giao tiếp hàng ngày.
Mặc dù có nhiều hỗ trợ dành cho người khiếm thính, nhưng những giải pháp này chỉ giải quyết được một phần vấn đề Tình trạng khiếm thính có nhiều cấp độ khác nhau, do đó cần áp dụng các phương pháp phù hợp cho từng trường hợp cụ thể Ví dụ, những người bị tổn thương tai có thể được điều trị y học để phục hồi thính giác, trong khi những người nghe kém có thể sử dụng thiết bị trợ thính Đối với những người hoàn toàn mất thính giác, ngôn ngữ ký hiệu trở thành công cụ giao tiếp chính, nhưng điều này gây khó khăn trong giao tiếp hàng ngày với người bình thường, vì phần lớn họ không biết hoặc chỉ biết rất ít về ngôn ngữ ký hiệu.
Gần đây, nhiều nghiên cứu đã được thực hiện nhằm hỗ trợ những người mất khả năng thính giác, với các dự án đáng chú ý đang được triển khai.
Nghiên cứu từ đại học công nghệ Chalmers, Thuỵ Điển đã phát triển thành công thiết bị cấy ghép Bone Conduction Implant (BCI) giúp truyền âm thanh vào tai trong thông qua rung động qua xương sọ, mang lại hy vọng cho bệnh nhân khiếm thính do vấn đề ở tai giữa Thiết bị có kích thước 6 cm, được gắn dưới da phía sau tai, trên bề mặt xương sọ, và kết nối với bộ xử lý âm thanh bên ngoài để thu nhận tiếng động xung quanh.
Bộ phận này được gắn trên da gần thiết bị cấy ghép và được giữ cố định bằng nam châm tích hợp Âm thanh từ bộ xử lý được truyền qua da và tiếp nhận bởi thiết bị cấy ghép thông qua cuộn cảm ứng Sau đó, thiết bị sử dụng loa khuếch đại mini để chuyển đổi rung động âm thanh vào xương sọ, giúp âm thanh truyền vào tai trong.
Hình 1.1: Truyền âm thanh qua xương sọ cho bệnh nhân bị khiếm thính
Nghiên cứu phục hồi thính lực bằng cách tái sinh tế bào lông thính giác của các chuyên gia từ Bệnh viện Mắt và Tai Massachusetts cùng Trường Y khoa Harvard đã đạt được những bước tiến quan trọng Các nhà nghiên cứu đã kích thích tế bào lông thính giác thành tế bào mới, giúp phục hồi một phần thính lực ở chuột bị tổn thương do tiếng ồn Tế bào lông thính giác trong ốc tai trong đóng vai trò chuyển đổi kích thích thính giác thành tín hiệu điện, nhưng khi bị tổn thương do tiếng ồn, nhiễm trùng, hoặc một số loại thuốc, chúng không thể tự tái sinh Sau khi điều trị bằng thuốc, các tế bào lông bị mất được thay thế bằng tế bào lông mới, và việc phân tích vị trí của chúng có thể cải thiện khả năng nghe trong các vùng tế bào lông được thay thế.
Hình 1.2: Phục hồi thính giác bằng các tái sinh tế bào lông thính giác
Một nhóm nghiên cứu từ Ukraina đã phát triển găng tay Enable Talk, có khả năng chuyển đổi ngôn ngữ ký hiệu thành lời nói Găng tay này trông giống như một đôi găng tay thông thường, nhưng được trang bị nhiều cảm biến như con quay hồi chuyển và cảm biến gia tốc, cùng với pin năng lượng mặt trời Hệ thống của Enable Talk có chức năng dịch ngôn ngữ ký hiệu thành văn bản và sau đó chuyển đổi thành lời nói nhờ công nghệ Text-to-Speech.
Hình 1.3: Găng tay Enable Talk
Tại Việt Nam, nghiên cứu về hỗ trợ người khiếm thính trong giao tiếp hàng ngày đang được chú trọng, với một đề tài nổi bật là ứng dụng cảm biến 3D Kinect trong nhận diện ngôn ngữ cử chỉ tiếng Việt Đề tài này, được thực hiện bởi Đại học Công Nghệ - ĐH Quốc gia Hà Nội vào năm 2014, chủ yếu tập trung vào việc áp dụng thuật toán di truyền để xác định các giá trị của 20 biến khớp của bàn tay, nhằm cải thiện khả năng giao tiếp cho người khuyết tật khiếm thính.
Nghiên cứu hiện tại đang mở ra cơ hội mới cho người khiếm thính, nhưng vẫn còn nhiều giới hạn Các thiết bị truyền thanh qua xương sọ chỉ áp dụng cho những bệnh nhân có vấn đề về tai giữa, trong khi nghiên cứu tái sinh tế bào lông tai đang hứa hẹn nhiều tiềm năng nhưng cần thời gian dài để phát triển Ngoài ra, việc thiết kế găng tay chuyển đổi ngôn ngữ ký hiệu thành tiếng nói gặp phải ba hạn chế: sự bất tiện khi đeo găng tay trong giao tiếp, khả năng chuyển đổi một chiều từ ngôn ngữ ký hiệu sang âm thanh mà không có phản hồi, và việc dễ dàng bỏ sót các biểu hiện khuôn mặt và cử chỉ khác, dẫn đến hiểu nhầm ý tưởng của người dùng.
Dựa trên phân tích và nhận định về xu hướng ngày càng gia tăng trong việc áp dụng robot để hỗ trợ các hoạt động hàng ngày của con người, như robot giải trí, robot phục vụ và robot chuyên môn, người nghiên cứu đã quyết định chọn đề tài này để khảo sát.
Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh nhằm phát triển một công cụ giúp cải thiện giao tiếp giữa người khiếm thính và người bình thường Mục tiêu là tạo ra sự trực quan và gần gũi hơn trong quá trình tương tác, từ đó nâng cao khả năng giao tiếp cho người khiếm thính.
Mục tiêu đề tài
Luận văn nghiên cứu về việc xác định vị trí các khớp ngón tay và cánh tay trong không gian ba chiều sử dụng dữ liệu từ cảm biến chiều sâu Kinect Tác giả sẽ trình bày một thuật toán để phân tích và tính toán vị trí của các khớp tay, từ đó nhận diện các ký hiệu ngôn ngữ ký hiệu thông qua cử chỉ của bàn tay Mục tiêu là nội suy và chuyển đổi các ký hiệu này thành âm thanh, bắt đầu với việc nhận dạng ngôn ngữ ký hiệu trong một đoạn đối thoại ngắn.
Tổng quan hoạt động của robot hỗ trợ người khiếm thính
Robot hỗ trợ người khiếm thính có hai nhiệm vụ chính: chuyển đổi ngôn ngữ ký hiệu sang ngôn ngữ nói và ngược lại Để thực hiện nhiệm vụ đầu tiên, robot nhận diện cử chỉ và vị trí của tay người khiếm thính, so sánh với cơ sở dữ liệu và phát âm thanh tương ứng Quá trình này sử dụng camera để thu hình ảnh thời gian thực, áp dụng thuật toán xử lý ảnh và xuất tín hiệu âm thanh Trong nhiệm vụ thứ hai, robot nhận dạng giọng nói qua micro, xử lý dữ liệu âm thanh bằng giải thuật điện toán đám mây, so sánh với cơ sở dữ liệu và xuất ngôn ngữ ký hiệu trên màn hình Hình 1.5 minh họa tổng quát hoạt động của robot này.
Hình 1.4: Sơ đồ hoạt động của robot hỗ trợ người khiếm thính:
Chiều (1) ngôn ngữ ký hiệu ngôn ngữ âm thanh;
Chiều (2) ngôn ngữ âm thanh ngôn ngữ ký hiệu
Đề tài nghiên cứu tập trung vào ngôn ngữ ký hiệu, bao gồm các quy ước và cấu trúc của nó Đồng thời, nghiên cứu cũng xem xét thuật toán nhận dạng và xác định vị trí cũng như cử chỉ của hai bàn tay và cánh tay Một phần quan trọng của nghiên cứu là truy xuất dữ liệu thời gian thực và phát triển giải thuật nhận dạng giọng nói, nhằm xử lý và sử dụng hiệu quả dữ liệu được truy xuất.
Trong luận văn này, tác giả nghiên cứu vấn đề nhận dạng ngôn ngữ ký hiệu, xử lý và truy xuất cơ sở dữ liệu để chuyển đổi từ ngôn ngữ ký hiệu sang ngôn ngữ nói Ngôn ngữ ký hiệu được xem xét là ngôn ngữ ký hiệu tại thành phố Hồ Chí Minh, nơi có nhiều hệ thống khác nhau và chưa có sự thống nhất Thành phố Hồ Chí Minh cũng là nơi có nhiều trung tâm hỗ trợ người khiếm thính, với số lượng người khiếm thính chiếm tỷ lệ lớn trong tổng số cả nước.
Nội dung nghiên cứu trong luận văn
Luận văn ngoài chương tổng quan, nội dung nghiên cứu gồm các chương:
Chương 2 trình bày tổng quan ngôn ngữ ký hiệu về khái niệm, cấu trúc nền tảng văn hoá của ngôn ngữ ký hiệu Những dữ liệu này về ngôn ngữ ký hiệu sẽ giúp tạo cơ sở để xây dựng yêu cầu cho quá trình nhận dạng ngôn ngữ ký hiệu dùng xử lý ảnh
Chương 3 trình bày thuật toán nhận dạng ngôn ngữ ký hiệu bằng cách nhận dạng vị trí và cử chỉ của bàn tay và cánh tay Những dữ liệu thu nhận được để được xử lý, tính toán và so sánh với cơ sở dữ liệu nhờ vào thuật toán DTW, sau đó chuyển dịch sang ngôn ngữ âm thanh
Chương 4 trình bày hệ thống và bộ phận phát âm của con người, cơ sở lý thuyết xử lý và nhận dạng tiếng nói, đồng thời xây dựng chương trình nhận dạng tiếng nói chuyển dịch sang dạng văn bảng
Chương 5 trình bày kết quả thực nghiệm, đánh giá khả năng nhận dạng, độ chính xác của thuật toán
Phần kết luận nêu lên nhận định về giải thuật nhận dạng ngôn ngữ của hệ thống cũng như đề xuất hướng cải thiện trong nhận dạng.
TỔNG QUAN VỀ NGÔN NGỮ KÝ HIỆU
Khiếm thính
Khiếm thính là tình trạng mà một người hoặc động vật không thể nghe hoặc có khả năng nghe kém, trong khi những cá thể khác cùng loài vẫn nghe thấy âm thanh một cách dễ dàng Nguyên nhân gây ra khiếm thính có thể do nhiều yếu tố như tuổi tác, tiếng ồn, bệnh tật, hóa chất và chấn thương vật lý.
Khiếm thính, thường được gọi bằng các thuật ngữ như khiếm thính hoặc lãng tai, ảnh hưởng đến khoảng 10% dân số toàn cầu, với 124,2 triệu người mắc bệnh ở mức độ trung bình đến nghiêm trọng vào năm 2004 Trong số này, 65 triệu người bị khiếm thính từ nhỏ, với tỷ lệ khoảng 3/1000 ở các nước phát triển và hơn 6/1000 ở các nước đang phát triển Những người có thính giác yếu có thể sử dụng thiết bị trợ giúp để giao tiếp bằng ngôn ngữ nói, trong khi những người mất hoàn toàn khả năng thính giác chủ yếu giao tiếp thông qua ngôn ngữ ký hiệu.
Ngôn ngữ ký hiệu, còn gọi là ngôn ngữ dấu hiệu hay thủ ngữ, là hình thức giao tiếp sử dụng các biểu hiện của bàn tay, điệu bộ cơ thể và nét mặt để thay thế cho âm thanh của lời nói.
Ngôn ngữ ký hiệu được phát triển để hỗ trợ người khiếm thính trong việc giao tiếp và kết nối với cộng đồng, đồng thời giúp họ tiếp thu tri thức từ xã hội.
Ngôn ngữ ký hiệu sử dụng hai bàn tay để diễn đạt ý tưởng của người sử dụng, và có những nguyên tắc riêng để tạo sự thuận tiện Bảng 2.1 trình bày bảng chữ cái trong ngôn ngữ ký hiệu quốc tế, trong khi Bảng 2.2 thể hiện bảng chữ cái của ngôn ngữ ký hiệu được sử dụng tại thành phố.
Hồ Chí Minh, Việt Nam, có sự khác biệt rõ rệt giữa ngôn ngữ ký hiệu quốc tế và ngôn ngữ ký hiệu địa phương.
Bảng 2.1: Bảng chữ cái của ngôn ngữ ký hiệu quốc tế
Bảng 2.2: Bảng chữ cái ngôn ngữ ký hiệu Việt Nam
Nguồn gốc và lịch sử phát triển ngôn ngữ ký hiệu
Ngôn ngữ ký hiệu được hình thành từ những cử chỉ tự nhiên mà mỗi người có thể sử dụng thay cho lời nói, như việc chỉ vào mình để thay thế cho từ "tôi" Những dấu hiệu và cử chỉ này có thể được hiểu mà không cần dạy, tạo thành một hệ thống giao tiếp Ngôn ngữ ký hiệu là sự kết hợp của các dấu hiệu được thực hiện bằng hai bàn tay và biểu cảm khuôn mặt, và nó đã trở thành một công cụ giao tiếp quan trọng, đặc biệt cho người khiếm thính.
Theo nghiên cứu của David F Armstrong và Sherman Wilcox, ngôn ngữ ký hiệu (NNKH) đã xuất hiện trong quá trình giao tiếp của con người dưới những điều kiện cụ thể Nguồn gốc của NNKH có thể liên quan đến cộng đồng tu sĩ Thiên Chúa giáo, nơi họ sử dụng cử chỉ tay để giao tiếp trong những giờ im lặng Ngoài ra, NNKH cũng có thể bắt nguồn từ ngôn ngữ đặc biệt của phụ nữ thổ dân Úc hoặc từ những công nhân làm việc trong môi trường ồn ào, nơi họ cần giao tiếp bằng dấu hiệu tay Một giả thuyết khác là NNKH xuất phát từ các thợ săn, những người cần ra hiệu cho nhau trong quá trình săn bắn để tránh gây tiếng động.
Nguồn gốc của ngôn ngữ nhân tạo (NNKH) có nhiều giả thiết, nhưng rõ ràng nó đã hình thành và phát triển từ chính cuộc sống sinh hoạt của con người Ban đầu, NNKH chỉ là những ký hiệu đơn giản được thực hiện bằng tay, sau đó dần dần phát triển thành một hệ thống với các quy tắc ngữ pháp chặt chẽ hơn.
Trước khi ngôn ngữ ký hiệu được hệ thống hóa, người khiếm thính thường bị loại trừ khỏi xã hội do không thể hòa nhập và giao tiếp Aristotle, triết gia Hy Lạp, từng tuyên bố rằng người khiếm thính không thể được giáo dục, dẫn đến việc họ đứng bên lề xã hội Tình trạng này kéo dài cho đến thế kỷ XVI, khi nhà toán học Geronimo Cardano khẳng định rằng người khiếm thính có thể học tập qua giao tiếp bằng ký hiệu Sự nghiên cứu về hình thức giao tiếp của người khiếm thính đã chỉ ra rằng họ sử dụng tay để đánh vần chữ cái Đến thế kỷ XVII, Juan Pablo de Bonet đã xuất bản cuốn sách đầu tiên về ngôn ngữ ký hiệu và công bố bảng chữ cái vào năm 1620, dựa trên ngôn ngữ ký hiệu mà cộng đồng người khiếm thính đã phát triển một cách tự nhiên.
Bước sang thế kỷ XVII, nghiên cứu về ngôn ngữ ký hiệu (NNKH) phát triển mạnh mẽ Năm 1755, Cha Charles-Michel de l’Épée, người sáng lập hệ thống ngôn ngữ ký hiệu Pháp, đã thành lập trường học miễn phí đầu tiên dành cho người khiếm thính Hệ thống ký hiệu này không chỉ được phát triển mà còn được cộng đồng người khiếm thính áp dụng rộng rãi, góp phần hoàn thiện ngôn ngữ ký hiệu Pháp trong giai đoạn này.
Vào năm 1778, tại Leipzig, Đức, Samuel Heinicke đã thành lập trường công lập đầu tiên dành cho người khiếm thính, không chỉ áp dụng ngôn ngữ ký hiệu (NNKH) mà còn kết hợp phương pháp nói và đọc khẩu hình Ông là người tiên phong trong việc sử dụng tất cả các phương pháp giao tiếp tối ưu, bao gồm ngôn ngữ ký hiệu, cử chỉ, đánh vần bằng ký hiệu, đọc khẩu hình, nói, trợ thính, đọc, viết và tranh vẽ.
Năm 1815, Thomas Hopkins Gallaudet sang châu Âu nghiên cứu phương pháp giáo dục cho người khiếm thính Sau khi trở về Hoa Kỳ cùng với giáo viên ngôn ngữ ký hiệu Laurent Clerc, họ đã thành lập trường công dành cho người khiếm thính đầu tiên tại Hartford, Connecticut vào năm 1817, đánh dấu bước ngoặt quan trọng trong giáo dục cho người khiếm thính tại Hoa Kỳ.
Bước sang thế kỷ XX, nhiều hoạt động dành cho người khiếm thính đã xuất hiện trên toàn cầu, đánh dấu sự hòa nhập của họ vào cộng đồng xã hội Năm 1924, tổ chức World Games đầu tiên dành cho người khiếm thính được tổ chức Đồng thời, các nhà nghiên cứu bắt đầu phát triển Gestuno, ngôn ngữ ký hiệu chuẩn quốc tế Năm 1951, Đại hội đầu tiên của Liên hiệp Người Khiếm thính Thế giới (WFD) diễn ra tại Roma, và năm 1960, William Stokoe xuất bản cuốn sách ngôn ngữ học đầu tiên về ngôn ngữ ký hiệu Mỹ.
Ngôn ngữ ký hiệu Mỹ (ASL) đã được nghiên cứu lần đầu tiên vào năm 1979 bởi Klima và Bellugi Đến tháng 6 năm 1988, Quốc hội Cộng hòa Séc đã thông qua đạo luật công nhận Ngôn ngữ ký hiệu Séc là ngôn ngữ chính thức cho người khiếm thính, đảm bảo quyền lợi cho họ trong việc nhận dịch vụ phiên dịch miễn phí 24/24 Trẻ em khiếm thính được giáo dục bằng ngôn ngữ ký hiệu bản địa, và phụ huynh cũng có quyền tham gia các lớp ngôn ngữ ký hiệu miễn phí Tuy nhiên, hiện tại vẫn chưa có quy định pháp luật về việc phiên dịch ngôn ngữ ký hiệu tại trường trung học, đại học và trong các phiên tòa.
Theo Chỉ số dân tộc học (The Ethnologue Index), hiện có 103 ngôn ngữ ký hiệu (NNKH) được sử dụng trên toàn cầu Để duy trì và phát triển, NNKH cần có một số lượng người sử dụng nhất định Tuy nhiên, trong nhiều cộng đồng, người khiếm thính không đủ đông để duy trì một NNKH thực sự, dẫn đến việc mỗi cá nhân phát triển một hệ thống ký hiệu giao tiếp riêng để tương tác với người thân và hàng xóm, tương tự như tình trạng ký hiệu mang tính vùng miền ở Việt Nam hiện nay.
Trường Câm điếc Lái Thiêu, tiền thân của Trung tâm Nuôi dạy trẻ khiếm thính Thuận An, Bình Dương, là nơi khởi đầu cho nền giáo dục trẻ khiếm thính tại Việt Nam, được thành lập bởi linh mục Azemar vào năm 1886 Hệ thống ngôn ngữ ký hiệu của Việt Nam có nguồn gốc từ ngôn ngữ ký hiệu Pháp (LSF) và vẫn còn nhiều ký hiệu cơ bản giống nhau Tuy nhiên, do ảnh hưởng của chiến tranh kéo dài, Việt Nam chưa có điều kiện để thống nhất các ký hiệu giao tiếp cơ bản và vẫn chưa chính thức nghiên cứu để phát triển một hệ thống ngôn ngữ ký hiệu riêng cho đất nước.
Từ đầu những năm 2000, Việt Nam đã nỗ lực hoàn thiện hệ thống ngôn ngữ ký hiệu (NNKH), dẫn đến sự hình thành và phát triển mạnh mẽ của các câu lạc bộ, nhóm dạy và nghiên cứu khoa học Nhiều tài liệu khoa học chất lượng đã được xuất bản, tiêu biểu như bộ ba tập "Ký hiệu cho người khiếm thính Việt Nam" và từ điển ngôn ngữ ký hiệu Việt Nam.
Đặc điểm ngôn ngữ ký hiệu
Ngôn ngữ ký hiệu không chỉ khác nhau giữa các quốc gia mà còn giữa các khu vực trong cùng một quốc gia Sự khác biệt này xuất phát từ lịch sử, văn hóa và tập quán riêng của mỗi nơi, dẫn đến việc sử dụng các ký hiệu để biểu thị sự vật và hiện tượng cũng không giống nhau.
Ký hiệu trên toàn thế giới có những điểm tương đồng, chẳng hạn như hành động giả bộ cầm cốc để biểu thị 'uống nước' Mọi người, dù bình thường hay khiếm thính, đều sở hữu khoảng 30% kiến thức về ngôn ngữ ký hiệu Ngôn ngữ ký hiệu phát triển mạnh mẽ trong cộng đồng người khiếm thính, giúp họ giao tiếp hiệu quả hơn so với những người bình thường không biết ngoại ngữ, ngay cả khi đến từ hai quốc gia khác nhau.
Hai đặc điểm quan trọng nhất của ngôn ngữ ký hiệu là tính giản lược và có điểm nhấn Ví dụ như:
Cấu trúc ngữ pháp trong ngôn ngữ ký hiệu thường không thống nhất do tính giản lược và điểm nhấn Một câu có thể được sắp xếp theo nhiều cách khác nhau, với điểm nhấn thường được đưa lên đầu câu để thu hút sự chú ý Chẳng hạn, câu "Hôm qua, tôi gặp lại người bạn thân ở công viên" có thể được diễn đạt trong ngôn ngữ ký hiệu là "Bạn thân Gặp ở công viên hôm qua", trong đó điểm nhấn là "GẶP" và "BẠN THÂN".
Những đặc điểm của NNKH có thể gây ra nhiều khó khăn và hiểu lầm, đặc biệt đối với những người ít hoặc không có kiến thức về NNKH.
Bạn thân Gặp ở công viên hôm qua
Hôm qua, tôi gặp lại ban thân ở công viên
Việc chuyển đổi từ nhận dạng ngôn ngữ không khí (NNKH) sang ngôn ngữ nói thông qua xử lý ảnh sẽ gặp nhiều khó khăn, gây trở ngại lớn cho quá trình này.
Ngôn ngữ và cuộc sống
Ngôn ngữ ký hiệu (NNKH) là một phần thiết yếu của cuộc sống, vì nó xuất phát từ chính cuộc sống hàng ngày Chúng ta thường sử dụng NNKH mà không nhận thức rõ ràng, nhưng thực tế cho thấy rằng khoảng 70% giao tiếp của chúng ta diễn ra thông qua các hình thức không lời như cử chỉ, điệu bộ và nét mặt.
Ngôn ngữ ký hiệu hiện diện mạnh mẽ trong cuộc sống hàng ngày, mặc dù chúng ta có thể không nhận ra sự tồn tại của nó Nó không chỉ phát triển mà còn mang lại sự tiện lợi và thoải mái cho cuộc sống Thực tế, chính những người bình thường đã "phát minh" ra ngôn ngữ ký hiệu, trong đó người khiếm thính đóng vai trò quan trọng trong việc mô phỏng và hệ thống hóa ngôn ngữ này thành một phương thức giao tiếp độc đáo của riêng họ.
Chuẩn hóa và phổ biến ngôn ngữ ký hiệu
Tại Việt Nam, có nhiều ngôn ngữ ký hiệu khác nhau tùy theo từng khu vực như Hà Nội, Hải Phòng, Thái Bình, Đà Nẵng, Bình Dương và Thành phố Hồ Chí Minh Trong số đó, ba ngôn ngữ ký hiệu chính được sử dụng là của Hà Nội, Hải Phòng và Thành phố Hồ Chí Minh.
Ngôn ngữ ký hiệu tại Thành phố Hồ Chí Minh có khoảng 58% từ vựng cốt lõi giống với ngôn ngữ ký hiệu Hà Nội và 54% giống với ngôn ngữ ký hiệu Hải Phòng Tỉ lệ này cho thấy rằng ngôn ngữ ký hiệu ở ba thành phố lớn của Việt Nam không phải là các phương ngữ của cùng một ngôn ngữ, vì các phương ngữ thường chia sẻ từ 80% trở lên Thay vào đó, ba ngôn ngữ ký hiệu này có thể được xem như thuộc về những ngôn ngữ có mối quan hệ gần gũi trong cùng một họ ngôn ngữ, với mức độ chia sẻ từ vựng cơ bản từ 36% đến 79%.
Các nhà nghiên cứu đang nỗ lực xây dựng một hệ thống ngôn ngữ ký hiệu chuẩn quốc gia Tuy nhiên, việc áp dụng hệ thống này gặp khó khăn do các vùng đã quen với hệ thống riêng của họ, và việc tiếp cận hệ thống mới cần thời gian để học tập.
Một số điểm khác biệt về cú pháp của NNKH ở Việt Nam so với ngôn ngữ thông thường - tiếng Việt
Nghiên cứu về cách biểu đạt ngôn ngữ kí hiệu của người điếc Việt Nam cho thấy rằng người khiếm thính sử dụng ngôn ngữ kí hiệu không tuân theo trật tự từ thông thường Tuy nhiên, nghiên cứu này chưa cung cấp phân tích sâu sắc về mặt ngôn ngữ học và các luận giải chính xác Ngôn ngữ kí hiệu tại Việt Nam có quy tắc từ vựng và ngữ pháp riêng, độc lập với tiếng Việt Một điểm nổi bật là trật tự kí hiệu trong một số loại câu của ngôn ngữ kí hiệu ở Việt Nam khác biệt cơ bản so với trật tự từ trong câu tiếng Việt.
So sánh các câu được thể hiện bằng ngôn ngữ nói thông thường và các câu được thể hiện bằng ngôn ngữ kí hiệu sau:
STT Câu tiếng Việt Câu bằng NNKH
1 Cô ấy buồn Cô ấy buồn
2 Bạn viết đẹp lắm Bạn viết đẹp + (Nét mặt)
3 Trưa nay, tôi ăn hai trái táo Tôi hai trái táo ăn trưa nay
4 Tôi thương mẹ tôi nhất Tôi mẹ thương nhất
5 Con chưa ăn cơm Con ăn cơm chưa
6 Tôi thich ăn dưa hấu Tôi ăn dưa hấu thích
7 Em có bao nhiêu cái kẹo? Em kẹo bao nhiêu cái?
8 Ai cho bạn mượn sách? Sách cho bạn mượn ai?
9 Bạn biết lái xe máy không? Bạn xe máy biết không?
10 Bạn có người yêu chưa? Bạn người yêu có? + nét mặt
11 Ôi! Bông hoa đẹp thế? Hoa đẹp + nét mặt
Cú pháp đóng vai trò quan trọng trong tất cả các ngôn ngữ, phản ánh tư duy của người bản ngữ Việc nắm vững ngữ pháp là cần thiết để giao tiếp hiệu quả, đặc biệt trong việc dạy và học ngôn ngữ ký hiệu (NNKH) Cấu trúc của NNKH vừa đơn giản vừa nhấn mạnh, vì vậy việc nhận dạng và chuyển dịch NNKH sang ngôn ngữ nói cần chú ý đến hai đặc trưng này Nếu không đảm bảo hai yếu tố giản lược và nhấn mạnh, việc chuyển dịch có thể dẫn đến sai sót.
NHẬN DẠNG NGÔN NGỮ KÝ HIỆU DỰA TRÊN XỬ LÝ ẢNH
Nguyên lý hoạt động camera cảm biến chiều sâu
Thế giới vật lý xung quanh chúng ta tồn tại trong một không gian ba chiều, nhưng các camera và cảm biến ảnh truyền thống chỉ ghi lại hình ảnh hai chiều, bỏ qua thông tin chiều sâu Điều này hạn chế khả năng hiểu biết về các đối tượng trong thực tế Để nắm bắt thông tin đầy đủ, cần thu thập dữ liệu từ cả ba chiều x, y và z, và cảm biến chiều sâu là giải pháp tối ưu Cảm biến này bao gồm một camera hồng ngoại (IR) và bộ phát xạ IR với khoảng cách cố định giữa chúng Nguyên lý hoạt động của cảm biến chiều sâu dựa trên việc so sánh mẫu phát xạ do bộ phát xạ IR tạo ra với hình ảnh thu được từ camera IR, từ đó xác định sự biến đổi giữa hai mẫu.
Cảm biến chiều sâu hoạt động dựa trên công nghệ ánh sáng cấu trúc, cho phép biểu diễn mỗi điểm của đối tượng theo ba chiều xyz Khi bề mặt của đối tượng không phẳng, nó sẽ được mô tả trong không gian 3 chiều, và quá trình xử lý hình ảnh liên quan được gọi là chụp ảnh bề mặt 3 chiều.
Kết quả thu được được coi là một bản đồ chiều sâu theo phương z, trong đó z là hàm vị trí dựa trên hệ tọa độ Decartes xy Thông tin này được thể hiện dưới dạng ma trận.
Hệ thống chụp ảnh bề mặt 3 chiều thu nhận các giá trị vô hướng và tạo ra một đám mây điểm {P = (xi, yi, zz, fi), i=1,2,…n}, trong đó fi đại diện cho giá trị tại điểm bề mặt thứ i Ngoài ra, hình ảnh bề mặt có thể được biểu diễn bằng {P = (xi, yi, zz, ri, gi, bi), i=1,2,…n}, với véc tơ (ri, gi, bi) thể hiện màu đỏ, lục và lam tại điểm i trên bề mặt Phương pháp chụp ảnh bề mặt 3 chiều này dựa trên nguyên lý ứng dụng ánh sáng cấu trúc.
Hình 3.1: Hoạt động của của camera chiều sâu
Ánh sáng trong hình 3.1 được chiếu ra từ một cấu trúc đặc biệt do bộ phận phát xạ tạo ra Cường độ ánh sáng tại mỗi điểm ảnh trên mẫu được thể hiện qua hệ số { iij = (i,j) , i = 1,2,…,i, j = 1,2,…j}, trong đó (i, j) biểu thị tọa độ trục (x, y) trên mẫu được chiếu sáng.
Cảm biến hình ảnh, như camera video, thu nhận ảnh 2D từ khung ảnh được chiếu sáng bằng ánh sáng cấu trúc Khi khung ảnh là bề mặt phẳng, mẫu thu được không có sự biến đổi Tuy nhiên, nếu bề mặt là 3D, hình dạng của đối tượng sẽ làm biến dạng mẫu ánh sáng cấu trúc chiếu tới.
Lý thu ảnh 3D của bề mặt được thực hiện thông qua thông tin về sự biến dạng của mẫu ánh sáng cấu trúc chiếu lên đối tượng Thuật toán và nguyên lý của các biến ánh sáng cấu trúc cho phép tính toán chính xác bề mặt 3D của đối tượng trong khung chiếu.
Hình 3.1 minh họa mối quan hệ hình học giữa cảm biến ảnh, bộ phát ánh sáng cấu trúc và một điểm trên bề mặt đối tượng, dựa trên nguyên lý tam giác.
Nguyên lý tam giác là kỹ thuật quan trọng trong việc thu nhận ảnh 3D, giúp phân biệt điểm sáng chiếu từ ảnh thu được với mẫu chiếu 2D Mô hình tính toán cơ bản của nguyên lý này được thể hiện qua hình 3.2.
Hình 3.2: Mô hình tính toán cơ bản của nguyên lý tam giác
Z0 là khoảng cách từ camera C đến mặt phẳng tham chiếu, trong khi Zk là khoảng cách từ mặt kính camera đến đối tượng cần quan sát Khoảng cách b được định nghĩa là khoảng cách giữa bộ phát xạ và camera.
Mặt phẳng tham chiếu Mặt phẳng đối tượng
Độ khác biệt của camera được xác định bởi khoảng cách f từ mặt phẳng ảnh đến mặt kính và kích thước D của chùm sáng chiếu lên đối tượng Toạ độ của điểm k được tính toán dựa trên các yếu tố này.
Dữ liệu từ cảm biến chiều sâu cung cấp thông tin liên tục về chiều sâu theo trục z, được thể hiện dưới dạng khung ảnh Mỗi điểm ảnh trong khung ảnh này đại diện cho khoảng cách tính bằng mm từ mặt phẳng camera đến đối tượng gần nhất, như minh họa trong hình 3.3.
Hình 3.3: Dữ liệu chiều sâu được tính bằng khoảng cách từ cảm biến đến đối tượng
Nhận dạng bàn tay dựa trên thông tin về chiều sâu
Phương pháp nhận dạng đối tượng bàn tay dựa trên thông tin chiều sâu được chia thành hai loại: dựa trên mô hình và dựa trên chuyển động Phương pháp dựa trên mô hình sử dụng khung xương 3D để khớp với bàn tay, trong khi phương pháp dựa trên chuyển động phân tích chuyển động của bàn tay trong không gian chiều sâu Để nhận dạng bàn tay, cần hiểu cấu trúc các khớp của nó, với các ngón tay được kết nối bởi các khớp có một hoặc nhiều bậc tự do Tổng cộng, bàn tay có 26 bậc tự do, trong đó cổ tay có 6 bậc tự do (3 cho chuyển động tịnh tiến và 3 cho chuyển động xoay), còn mỗi ngón tay có 4 bậc tự do, bao gồm 2 bậc cho khớp gốc và 1 bậc cho mỗi khớp còn lại.
Hình 3.4: Mô hình động học của bàn tay
Động học của mỗi ngón tay được xác định bởi một vector gồm 4 tham số góc, trong đó bao gồm hai góc quay của khớp gốc, một góc quay của khớp giữa và một góc quay của khớp đỉnh.
Tương tự, vị trí và hướng của bàn tay được xác định qua cổ tay bởi vectơ gồm
Tọa độ của cổ tay trong không gian được xác định bởi các tham số , , , trong khi hướng quay của bàn tay quanh các trục tương ứng được biểu thị bằng các tham số góc Tư thế của bàn tay sẽ hoàn toàn được xác định khi có đủ 26 tham số góc.
Phương pháp truy bắt đối tượng dựa trên chuyển động sử dụng dữ liệu 3D để tìm kiếm những chuyển động nguyên thuỷ từ các ảnh tích luỹ Phương pháp này phát hiện chuyển động bằng cách so sánh giá trị chiều sâu của ảnh hiện tại với ảnh chiều sâu trước và sau đó Sự khác biệt giữa các khung hình được tích luỹ để phục vụ cho việc truy bắt chuyển động hiệu quả.
Thông tin chủ yếu để nhận dạng bàn tay là dữ liệu chiều sâu, trong khi hình ảnh từ camera màu thường bị ảnh hưởng bởi điều kiện chiếu sáng Ngược lại, ảnh từ cảm biến chiều sâu không chịu tác động này Để xác định vị trí và cử chỉ của tay, dữ liệu thu thập trong không gian ba chiều được sử dụng, bao gồm thông tin theo ba phương x, y và z, giúp xác định chính xác vị trí tay Những đặc điểm của camera cảm biến chiều sâu sẽ được làm rõ hơn khi so sánh với camera thông thường Bảng 3.1 trình bày sự so sánh giữa ưu điểm và nhược điểm của hai loại thông tin thu nhận từ camera bình thường và cảm biến chiều sâu.
Thông tin màu sắc Thông tin chiều sâu Ưu điểm Dễ phát hiện những đặc tính
Phương pháp không xâm lấn Ổn định trước sự thay đổi của ánh sáng
Nhận được giá trị thật về chiều sâu
Nhược điểm ảnh hưởng nhiều dưới các điều kiện ánh sáng
Khó tìm ra những đặc tính riêng
Nhiễu nhiều đặc biệt ở biên đối tượng
Bảng 3.1 : So sánh ưu nhược điểm của hai loại thông tin thu được từ camera ảnh bình thường và thông tin thu được từ cảm biến chiều sâu.
Giải thuật nhận dạng
Giải thuật nhận dạng và truy bắt bàn tay bắt đầu bằng việc thu thập thông tin chiều sâu từ camera chiều sâu, tạo ảnh chuyển động thông qua việc tích lũy sự khác biệt giữa các ảnh chiều sâu Để giảm nhiễu, bộ lọc spatial và các phép toán hình thái được áp dụng Phương pháp phân nhóm chuyển động giúp tìm kiếm các cụm chuyển động, từ đó nhận dạng bàn tay dựa trên chuyển động sóng Cuối cùng, bộ lọc Kalman được sử dụng để truy bắt bàn tay sau khi đã nhận diện thành công Việc khử nhiễu là rất quan trọng, vì ảnh thu nhận từ cảm biến chiều sâu thường bị nhiễu do phản xạ, có thể gây nhầm lẫn với thông tin chuyển động Do đó, phần tiền xử lý bao gồm thuật toán phân nhóm cho việc nhận dạng bàn tay ở vị trí ban đầu là cần thiết.
Việc khử nhiễu đươc thực hiện nhờ vào việc sử dụng bộ lọc spatial và morphological processing Khi phương pháp khử nhiễu được áp dụng thì các chuyển
Bộ lọc trung vị với kích thước mở 5x5 được sử dụng để khử nhiễu trong ảnh chuyển động, giúp thay đổi giá trị các điểm ảnh dựa trên giá trị trung bình của các phần nhỏ, mang lại hiệu quả khử nhiễu mà không làm mờ ảnh Bộ lọc này rất hiệu quả trong việc xử lý nhiễu dạng chấm đen trắng thường gặp trong ảnh chuyển động Ngoài bộ lọc không gian, việc khử nhiễu còn được cải thiện nhờ vào bộ xử lý hình thái học, với các hoạt động mở giúp làm giảm bóng bên ngoài và tách các vùng có kích thước nhỏ Các hoạt động này không chỉ làm mịn ảnh mà còn loại bỏ nhiễu ngẫu nhiên, trong khi các hoạt động giãn nở giúp phục hồi kích thước nguyên thủy của đối tượng Để phân nhóm chuyển động, các thành phần của ảnh được kết nối và tập hợp lại, từ đó xác định được nhóm chuyển động thật sự hoặc nhiễu Nếu kích thước nhóm nhỏ hơn ngưỡng xác lập, chúng được coi là nhiễu và bị loại bỏ, với ngưỡng kích thước được xác định thông qua phương pháp đa thức hồi quy, sử dụng mô hình đa thức bậc 5 để phù hợp với dữ liệu kích thước bàn tay từ khoảng cách 60cm đến 750cm.
Mô hình đa thức bậc 3 là công cụ hiệu quả để mô hình hóa dữ liệu với m điểm dữ liệu Chúng ta áp dụng phương pháp bình phương nhỏ nhất nhằm tối thiểu hóa sai số thông qua việc sử dụng phương trình phù hợp.
Trong đó: = [ , … , ] là dữ liệu đã biết nhờ kích thước bàn tay
Ma trận p là ma trận Jacobi :
Sau đó, chúng ta có thể tìm đường cong phù hợp với dữ liệu kích thước bàn tay với phương trình: =
Hình 3.5: Sơ đồ giải thuật truy bắt bàn tay
Cảm biến chiều sâu (Kinect)
Dữ liệu đối tượng trong không gian
Khởi tạo biến, tiền xử lý
Phát hiện các khớp của bàn tay Nhận diện bàn tay
Tìm các khớp bàn tay
Nhận dạng cử chỉ bàn tay Định nghĩa cử chỉ
Quá trình nhận dạng bắt đầu với việc khởi tạo biến để thu nhận chuỗi dữ liệu từ cảm biến chiều sâu, nhằm xác định tọa độ của các khớp trong không gian ba chiều Dữ liệu này rất quan trọng để phát hiện các khớp của bàn tay, vì độ chính xác trong việc nhận dạng và truy bắt vị trí cũng như cử chỉ của bàn tay phụ thuộc vào việc tìm kiếm khớp tay cơ sở, từ đó tính toán các khớp của các ngón tay Quá trình này được thực hiện thông qua thư viện mở SDK của Microsoft.
Việc xác định vị trí các khớp bàn tay là quá trình tìm kiếm tọa độ của khớp trong không gian ba chiều với kích thước xyz Do đó, chúng ta cần thiết lập trạng thái trong không gian ba chiều.
Trong đó, sx và sy đại diện cho vị trí của điểm ảnh, còn sz thể hiện giá trị điểm ảnh theo chiều sâu Trạng thái 3D cho phép xác định chính xác vị trí của bàn tay, từ đó sử dụng véc-tơ 3 chiều để biểu thị vận tốc của từng trục.
Khi đó, kích thước theo trục z, chúng ta dùng trạng thái kích thước tương tự:
Các véc tơ này đóng vai trò là thiết lập ban đầu cho bộ lọc Kalman, cần thiết để nhận dạng bàn tay trong quá trình truy bắt Đầu tiên, chúng ta xác định điểm tham chiếu của bàn tay, được coi là trung tâm của hình tròn bắt với bàn tay đã được nhận diện trong giai đoạn xử lý nhận dạng ban đầu Trung tâm điểm này không chỉ là tâm của đường tròn mà còn là tọa độ của điểm trên khớp bàn tay.
Điểm tham chiếu này giúp xác định và tính toán vị trí của bàn tay một cách chính xác hơn Vận tốc của từng trục trong mỗi khung hình được cập nhật liên tục, cho phép việc truy bắt vị trí bàn tay được cải thiện Để dự đoán trạng thái S, cần áp dụng phương trình tương ứng.
Giả định rằng chuyển động của bàn tay con người là tuyến tính, các điểm ảnh và thông tin chiều sâu tại thời điểm t được ký hiệu là Sx,t, Sy,t và Sz,t Khoảng thời gian giữa hai khung hình được ký hiệu là Δt Các phương trình 3.19 và 3.20 được sử dụng để dự đoán vị trí và giá trị chiều sâu từ vị trí bàn tay hiện tại và trước đó, trong khi véc tơ điều khiển được cập nhật trong quá trình xử lý Vì bàn tay con người chỉ di chuyển trong một phạm vi hạn chế, Sz,t có giới hạn không chỉ ở trục x và y mà còn ở trục z Để cập nhật các thành phần của véc tơ điều khiển (vx, vy, vz), cần áp dụng phương trình thích hợp.
Sau khi xác định vị trí của khớp bàn tay, bước tiếp theo là nhận dạng vùng bàn tay Để tối ưu hóa quá trình nhận diện, vùng tìm kiếm sẽ được giới hạn Một giới tham chiếu cho bàn tay sẽ được định nghĩa, đó là khoảng cách từ khớp bàn tay, nằm ở vị trí lòng bàn tay, đến đầu ngón tay, cụ thể là ngón giữa, ngón dài nhất.
Hình 3.6: Giới hạn vùng tìm kiếm bàn tay
Sau khi xác định kích thước tham chiếu, bước tiếp theo là nhận dạng bàn tay trong không gian ba chiều Hai khớp bàn tay và đầu ngón tay được sử dụng làm điểm tham chiếu để xác định chính xác giới hạn vùng bàn tay Trong quá trình nhận dạng, tất cả các đối tượng không phù hợp với kích thước tham chiếu sẽ bị loại bỏ, dẫn đến việc tạo ra một tập hợp các điểm trong vùng tìm kiếm phù hợp với kích thước này Tập hợp điểm này đại diện cho bàn tay được nhận dạng và nằm trong vùng bao của bàn tay Đường bao này chứa nhiều điểm, bao gồm các điểm thuộc khớp và đầu ngón tay Bước tiếp theo là xác định các điểm thuộc đầu ngón tay, chúng chính là đỉnh của một đa giác lồi trong không gian Euclide bao quanh bàn tay.
Hình 3.7: Đa giác bao quanh bàn tay trong không gian Euclide
Sau khi xác định được đầu ngón tay, bước tiếp theo là xác định các khớp của ngón tay Để thực hiện điều này, thuật toán sử dụng tỷ lệ vàng để tính toán vị trí của các khớp.
Hình 3.8:Đoạn thẳng trong tỷ lệ vàng
Trong hình 3.8, xét hai đoạn thẳng với đoạn dài là a và đoạn ngắn là b, tổng của chúng là a+b Khi thỏa mãn điều kiện (a+b)/a = a/b, tỷ lệ a/b được gọi là tỷ lệ vàng Giải phương trình này, ta tìm được tỷ lệ vàng là 1,61803398875 (xấp xỉ 1,62), ký hiệu là φ (phi).
= = 1,62 Áp dụng tỷ lệ vàng vào trong việc tình toán để nội suy ra các khớp ngón tay.
Hình 3.9 Các tỷ lệ vàng trên bàn tay người
Các điểm A, B, C, D và E được xác định trên các khớp cổ tay, khớp nền ngón giữa, hai khớp giữa và đầu ngón tay giữa Dựa theo tỷ lệ vàng, chúng ta có thể thiết lập phương trình liên quan đến các điểm này.
Trong khi đó, chiều dài từ khớp cổ tay đến đầu ngón tay là đoạn AE Vậy phương trình tính toán các khớp sẽ là: Điểm C: ′ =
Tương tự cho các khớp của các ngón tay còn lại Kết quả thu được tính toán được vị trí các khớp của các ngón tay
Hình 3.10: Các khớp ngón tay sau khi nhận dạng
Sau khi xác định vị trí và các khớp ngón tay, bước tiếp theo là nhận dạng cử chỉ của bàn tay và các khớp ngón tay Tiếp đó, cần định nghĩa các cử chỉ này và truy xuất dữ liệu từ cơ sở để chuyển đổi thành tín hiệu âm thanh Đây là bước cuối cùng trong quá trình nhận dạng và chuyển đổi ngôn ngữ ký hiệu sang ngôn ngữ nói, được thực hiện trong phần 3.4 về nhận dạng và định nghĩa cử chỉ bàn tay.
Nhận dạng và định nghĩa cử chỉ bàn tay
Trước khi nhận dạng cử chỉ bàn tay, cần định nghĩa rõ cử chỉ là gì để hiểu quá trình này Cử chỉ của bàn tay và ngón tay được hiểu là chuỗi thay đổi vị trí trong không gian Nếu đặt bàn tay trong hệ tọa độ Oxyz, mỗi cử chỉ sẽ tương ứng với các biến đổi vị trí cụ thể.
Bài toán nhận dạng cử chỉ bắt đầu từ việc xác định các điểm bắt đầu, vị trí trung gian và điểm kết thúc, cho phép xác định tọa độ của bàn tay hoặc các khớp Cử chỉ được xem như một chuỗi liên tục từ lúc bắt đầu đến khi kết thúc, và việc nhận diện cử chỉ có thể được thực hiện bằng cách chia nhỏ cử chỉ thành các đoạn nhỏ, từ đó chỉ cần tìm tọa độ tại một số vị trí nhất định Quá trình này được gọi là phân đoạn cử chỉ Việc nhận dạng cử chỉ thực chất là tính toán tọa độ của các khớp, và bước tiếp theo là định nghĩa các cử chỉ và so sánh với dữ liệu cơ sở để nhận diện chúng Để thực hiện điều này, thuật toán xoắn thời gian động (DTW) được áp dụng Dữ liệu cơ sở được tạo thành thư viện để so sánh, nhưng việc so sánh này gặp khó khăn do sự khác biệt về thời gian giữa chuỗi dữ liệu cơ sở T và chuỗi dữ liệu cử chỉ C Để so sánh hai chuỗi này, thuật toán sử dụng công thức Euclid.
Độ đo khoảng cách Euclid dễ tính toán và mở rộng, nhưng chỉ cho kết quả chính xác khi hai chuỗi có sự tương đồng về thời gian Do đó, khi so sánh cử chỉ trong thời gian thực với cơ sở dữ liệu, độ chính xác sẽ thấp nếu chỉ sử dụng độ đo Euclid Để khắc phục nhược điểm này, thuật toán DTW được áp dụng, giúp cải thiện độ chính xác trong việc so sánh cử chỉ.
Hình 3.11: So sánh độ chính xác giữ phương pháp Euclid và phương pháp DTW (1)Tính bằng phương pháp Euclid; (2)Tính bằng phương pháp
Hình 3.12: Ma trận lưới các điểm
Hình 3.13: Hình dạng đường đi trong ma trận
Phương pháp Dynamic Time Warping (DTW) được sử dụng để so sánh độ tương đồng giữa hai chuỗi Q và C trong thời gian thực Thuật toán DTW sẽ tạo ra một ma trận vuông T có kích thước m, giúp phân tích và đánh giá sự tương đồng giữa các chuỗi dữ liệu.
Để tính toán khoảng cách giữa hai chuỗi dữ liệu Q và C, ta sử dụng công thức Euclid để xác định dist(i,j) Trong đó, Q là chuỗi mẫu dữ liệu cơ sở gồm các phần tử {q1, q2, … , qI}, còn C là chuỗi dữ liệu thu được từ camera với các phần tử {c1, c2,…,cJ} Thuật toán sẽ tìm kiếm đường đi tối ưu giữa hai chuỗi, nhằm giảm thiểu tổng chênh lệch theo thời gian giữa chúng Để thực hiện điều này, thuật toán áp dụng ma trận lưới các điểm như trong hình 3.31.
Trong ma trận, hai chuỗi sẽ tương ứng với hai cạnh, với chuỗi Q theo trục x và véc tơ C theo trục y Các nút trong ma trận biểu thị khoảng cách giữa hai chuỗi tại thời điểm thứ i của chuỗi Q và thời điểm thứ j của chuỗi C Đường đi tối ưu trong ma trận sẽ được thể hiện như hình 3.13.
Việc xác định đường đi tối ưu trong ma trận lưới nhằm giảm thiểu tổng khoảng cách sai lệch giữa các cặp chuỗi Q và C Độ chênh lệch giữa hai chuỗi tại thời điểm i và j được ký hiệu là d(i,j) Thuật toán DTW yêu cầu hai chuỗi bắt đầu tại vị trí (0,0) và kết thúc tại vị trí xác định.
Giá trị tại nút (0,0) được xác định là 0 Đường đi được xác định qua các cặp nút liên tiếp (i k-1 ,j k-1 ) và (i k ,j k ) Ký hiệu i k đại diện cho chỉ số của chuỗi Q tại thời điểm k, trong khi j k là chỉ số của chuỗi C tại thời điểm k Tổng khoảng cách giữa hai chuỗi được tính toán dựa trên các chỉ số này.
Việc tìm giá trị min D(i,j) theo công thức sau:
Chuỗi cử chỉ thu nhận từ camera sẽ được so sánh với chuỗi dữ liệu cơ sở bằng thuật toán DTW để thực hiện quá trình chuẩn hoá thời gian.
Quá trình chuyển dịch từ ngôn ngữ ký hiệu sang ngôn ngữ nói bắt đầu bằng việc xác định cặp chuỗi có sự chênh lệch nhỏ nhất trong dữ liệu cơ sở, từ đó xác định cặp tương đồng Bước cuối cùng là xuất chuỗi tương đồng dưới dạng âm thanh, hoàn tất quá trình chuyển dịch Chương trình sẽ tiếp tục thực hiện quy trình này cho các lần nhận dạng ngôn ngữ ký hiệu tiếp theo cho đến khi hoàn tất việc chuyển dịch.