Nghiên Cứu Xây Dựng Hệ Thống Chuyển Đổi Ngôn Ngữ Cử Chỉ Sang Văn Bản (tt)Nghiên Cứu Xây Dựng Hệ Thống Chuyển Đổi Ngôn Ngữ Cử Chỉ Sang Văn Bản (tt)Nghiên Cứu Xây Dựng Hệ Thống Chuyển Đổi Ngôn Ngữ Cử Chỉ Sang Văn Bản (tt)Nghiên Cứu Xây Dựng Hệ Thống Chuyển Đổi Ngôn Ngữ Cử Chỉ Sang Văn Bản (tt)Nghiên Cứu Xây Dựng Hệ Thống Chuyển Đổi Ngôn Ngữ Cử Chỉ Sang Văn Bản (tt)Nghiên Cứu Xây Dựng Hệ Thống Chuyển Đổi Ngôn Ngữ Cử Chỉ Sang Văn Bản (tt)Nghiên Cứu Xây Dựng Hệ Thống Chuyển Đổi Ngôn Ngữ Cử Chỉ Sang Văn Bản (tt)Nghiên Cứu Xây Dựng Hệ Thống Chuyển Đổi Ngôn Ngữ Cử Chỉ Sang Văn Bản (tt)Nghiên Cứu Xây Dựng Hệ Thống Chuyển Đổi Ngôn Ngữ Cử Chỉ Sang Văn Bản (tt)Nghiên Cứu Xây Dựng Hệ Thống Chuyển Đổi Ngôn Ngữ Cử Chỉ Sang Văn Bản (tt)Nghiên Cứu Xây Dựng Hệ Thống Chuyển Đổi Ngôn Ngữ Cử Chỉ Sang Văn Bản (tt)Nghiên Cứu Xây Dựng Hệ Thống Chuyển Đổi Ngôn Ngữ Cử Chỉ Sang Văn Bản (tt)Nghiên Cứu Xây Dựng Hệ Thống Chuyển Đổi Ngôn Ngữ Cử Chỉ Sang Văn Bản (tt)
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - CHÂU QUANG VŨ NGHIÊN CỨU XÂY DỰNG HỆ THỐNG CHUYỂN ĐỔI NGÔN NGỮ CỬ CHỈ SANG VĂN BẢN Chuyên ngành: Mã số: HỆ THỐNG THƠNG TIN 60.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ Tp HỒ CHÍ MINH - NĂM 2017 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS Nguyễn Phương Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Theo số liệu Tổng cục Thống kê, thời điểm năm 2009, Việt Nam có 2.5 triệu người khiếm thính (điếc nghe kém) Việc hòa nhập người vào xã hội gặp nhiều khó khăn vấn đề giao tiếp Hiện tại, ngoại trừ biện pháp hỗ trợ hòa nhập ngơn ngữ cử chỉ, người gõ văn (captionist), đọc hình miệng gần khơng có biện pháp hỗ trợ cho người khiếm thính giao tiếp với xã hội Chính thế, cần thiết có hệ thống chuyển đổi để người khiếm thính giao tiếp với xã hội, tạo hội lớn để xã hội có thêm hội để có thêm nhiều trường hợp người khuyết tật hòa nhập vào sống Hệ thống chuyển đổi ngôn ngữ cử sang văn bước đầu giải phần vấn đề chuyển đổi cử sang từ ngữ tương ứng Chương – TỔNG QUAN 1.1 Tổng quan cảm biến Kinect 1.1.1 Giới thiệu Kinect thiết bị cảm biến ngoại vi thu chuyển động phát triển Microsoft dành cho máy chơi game Xbox 360 Windows Khi kết nối vào Xbox 360, người chơi điều khiển tương tác với máy chơi game mà không cần tay cầm điều khiển, thông qua giao diện người dùng tự nhiên sử dụng cử lệnh thoại Kinect có cấu tạo gồm có hệ thống cảm biến chiều sâu hoạt động tảng chiếu tia hồng ngoại đến đối tượng thu liệu phản chiếu, từ vẽ lên đồ chiều sâu mơi trường xung quanh Bên cạnh đó, Kinect có camera RGB-D, có khả xây dựng lên hình ảnh thực tế mơi trường kết hợp với chiều sâu, đảm bảo vừa cảm biến vừa camera hoàn chỉnh Hơn nữa, Kinect hỗ trợ thêm mirco máy đo gia tốc để hỗ trợ việc theo dõi chuyển động cách tốt 1.1.2 Ứng dụng camera Kinect Kinect sử dụng nhiều ngành công nghiệp game, phát triển cho tảng Xbox Microsoft game Windows phát triển để làm thiết bị điều khiển máy tính cử chỉ, xác định khoảng cách vật thể nhiều ứng dụng khác 1.1.3 Các phận theo dõi Kinect Kinect theo dõi lúc 06 thể với 25 phận khác cho thể 1.2 Giới thiệu học máy Học máy, có tài liệu gọi máy học, (tiếng Anh: machine learning - ML) lĩnh vực trí tuệ nhân tạo liên quan đến việc phát triển kĩ thuật cho phép máy tính “học” Cụ thể hơn, học máy phương pháp để tạo chương trình máy tính việc phân tích tập liệu Học máy có liên quan lớn đến thống kê, hai lĩnh vực nghiên cứu việc phân tích liệu, khác với thống kê, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn, phải có khả tổng qt hóa học Một mơ hình ML khơng có khả tổng qt hóa giống đứa trẻ học vẹt, trả lời câu hỏi mà biết trước đáp án Học máy có tính ứng dụng cao bao gồm máy truy tìm liệu, chẩn đốn y khoa, phát thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại chuỗi DNA, nhận dạng tiếng nói chữ viết, dịch tự động, chơi trò chơi cử động rô-bốt (robot locomotion) 1.2.1 Phân loại học máy Học máy gồm có dạng sau đây: - Học có giám sát (supervised learning); - Học khơng có giám sát (unsupervised learning); - Học bán giám sát (semi-supervised learning); - Học tăng cường (reinforcement learning) 1.2.1.1 Học có giám sát Học có giám sát học với tập liệu huấn luyện ban đầu hoàn toàn gán nhãn từ trước Học có giám sát phương pháp học sử dụng cho lớp toán phân lớp, phân loại (Classification) Để thực phân lớp, trước tiên phải chuẩn bị tập liệu huấn luyện (trainning data set - TDs), để có tập liệu huấn luyện phải thực gán nhãn cho liệu ban đầu, gọi trình thu thập tập huấn luyện 1.2.1.2 Học không giám sát Học không giám sát học với tập liệu huấn luyện ban đầu hồn tồn chưa gán nhãn Học khơng giám sát phương pháp học sử dụng cho lớp toán gom cụm, phân cụm (Clustering) Để thực phân cụm, trước tiên cần tập liệu huấn luyện (training dataset) – tập ví dụ học (training examples /instances) Trong đó, ví dụ học chứa thơng tin biểu diễn (ví dụ: vector giá trị thuộc tính), mà khơng có thơng tin nhãn lớp giá trị đầu mong muốn (expected output) Áp dụng thuật toán học khơng có giám sát (ví dụ kMeans) để học hàm/mơ hình mục tiêu (trong trường hợp hàm phân cụm ứng với thuật toán chọn) 1.2.1.3 Học bán giám sát Học bán giám sát học với tập liệu huấn luyện gồm liệu gán nhãn liệu chưa gán nhãn Tuỳ vào mục đích cụ thể, học bán giám sát áp dụng cho tốn phân lớp phân cụm Nội dung học bán giám sát hệ thống sử dụng tập học (training set) gồm phần: ví dụ học có nhãn, thường với số lượng (rất) ít, ví dụ học khơng có nhãn, thường với số lượng (rất) nhiều Thực tế cho thấy sử dụng kết hợp liệu khơng có nhãn với lượng định liệu có nhãn tăng độ xác đáng kể 1.3 Mạng Nơ ron 1.3.1 Mạng nơ ron sinh học Bộ não người chứa khoảng 1011 tế bào thần kinh (còn gọi neural hay nơ ron) kết nối có 104 nơ ron nên người có khả đưa định phức tạp nhanh chóng Mỗi tế bào thần kinh gồm thành phần chính: soma, dendrites axon 1.3.2 Mạng nơ ron nhân tạo Mạng nơ ron nhân tạo (ANN - Artificial Nơ ron Networks) mô lại cách đơn giản nơ ron sinh học Mỗi nơ ron nhân tạo tạo có nhiệm vụ tổng hợp thông tin đầu vào chuyển đổi thành thơng tin tín hiệu đầu Mỗi nơ ron nhân tạo có nhiều đầu vào có đầu Mỗi đầu vào gắn liền với hệ số nhân gọi chung trọng số (weight) Các trọng số có ý nghĩa quan trọng, ví mức liên kết khớp nối nơ ron sinh học Trọng số số dương âm, giống khớp nối kích thích khớp nối ức chế nơ ron sinh học Mỗi nơ ron nhân tạo có giá trị ngưỡng Chức đầu vào nơ ron tính tổng tín hiệu đầu vào với trọng số liên kết đồng thời kết hợp với giá trị ngưỡng để tạo giá trị định tín hiệu đầu vào net input Sự kết hợp thực tổng hay theo số tài liệu gọi hàm PSP (Post Synapic Potential function) - hàm sau khớp nối Mỗi nơ ron nhân tạo cho giá trị đầu ra, giá trị đầu phụ thuộc vào hàm truyền dẫn (transfer function) Hàm nhận tín hiệu đầu vào net input sau tính tốn cho kết đầu nơ ron Mạng nơ ron nhân tạo gồm hai thành phần Phần thứ nút (đơn vị xử lý, nơ ron) phần thứ hai liên kết chúng gán trọng số đặc trưng thể hiên mật độ liên kết mạng Mạng nơ ron nhân tạo liên kết nơ ron nhân tạo với Mỗi liên kết nơ ron kèm theo trọng số mang tính đặc trưng tính kích thích hay ức chế nơ ron Các nơ ron gọi nút (node) Các nút xếp theo thứ tự định mạng chia thành ba lớp Lớp đầu vào (input player), lớp đầu (output player) lớp ẩn (hiden layer) Chức mạng xác định bởi: cấu trúc mạng, trình xử lý bên nơ ron, mức độ liên kết nơ ron Mức độ liên kết nơ ron xác định thơng qua q trình học mạng (q trình huấn luyện mạng) Có thể xem trọng số phương tiện để lưu trữ thông tin dài hạn mạng nơ ron Nhiệm vụ trình huấn luyện mạng cập nhật trọng số có thơng tin mẫu học Một số chức mạng nơ ron nhân tạo: - Chức phân loại mẫu: Phân loại mẫu phân chia mẫu thành nhóm khác nhau, nhóm có chung số đặc điểm định Mạng nơ ron tự phân lại mẫu đầu vào tạo mẫu đầu có phân loại Khi cho mẫu đầu vào mạng nơ ron tạo mẫu đầu với phân loại chúng Ta nói nơ ron phân loại mẫu Điểm khác mạng nơ ron với phân loại mẫu khác khả tự học tổng quát hóa từ mẫu có - Học tổng quát hóa: o Học việc mạng nơ ron thu thập thông tin, mẫu, tri thức đầu vào thông tin, mẫu, tri thức tương ứng đầu mạng học để phân loại chúng cho thật xác o Tổng qt hóa mạng khơng nhận dạng xác mẫu chung học, mà từ mẫu học phải rút đặc tính riêng mẫu tạo tri thức từ mạng tự nhận biết phân loại mẫu mà chưa học 1.3.2.1 Kiến trúc mạng nơ ron Kiến trúc mạng nơ ron nhân tạo xác định bởi: - Số lượng tín hiệu đầu vào/ đầu ra; - Số lượng tầng mạng; - Số lượng nơ ron tầng; - Số lượng trọng số (các liên kết) nơ ron; - Cách liên kết nơ ron (trong tầng giữ tầng) với nhau; - Những nơ ron nhận tín hiệu điều chỉnh lỗi 1.3.2.2 Các tầng ANN - Một tầng đầu vào (input layer): tiếp nhận tín hiệu đầu vào - Một tầng đầu (output layer): phát tín hiệu mạng cho kết “đáp lại” tín hiệu nhận từ lớp đầu vào - Tầng ẩn (hidden layer): đóng vai trò lọc “thơng minh” 1.3.2.3 Các phương pháp học ANN Mạng nơ ron nhân tạo mô theo việc xử lý thông tin não người, đặc trưng mạng có khả học, khả tái tạo hình ảnh liệu học Trong trạng thái học thông tin lan truyền theo hai chiều nhiều lần để làm thay đổi trọng số nhiều lần để đạt trọng số tốt cho mẫu liệu tương đương học Có kiểu học chính, kiểu học tương ứng với nhiệm vụ học mang tính chất trừu tượng Đó học có giám sát (có mẫu), học không giám sát học tăng cường Thông thường loại kiến trúc mạng dùng cho nhiệm vụ 1.3.2.4 Lan truyền ngược 10 Tỷ lệ (tỷ lệ phần trăm) ảnh hưởng đến tốc độ chất lượng học; gọi tốc độ học Tỷ lệ lớn, tốc độ huấn luyện nơron nhanh; tỷ lệ thấp, việc huấn luyện xác Dấu gradient trọng số chỗ mà sai số gia tăng, lý trọng số phải cập nhật theo hướng ngược lại Lặp lại giai đoạn đáp ứng mạng nơ-ron chấp nhận Các mạng truyền ngược cần perceptron nhiều lớp (thường với đầu vào, nhiều lớp ẩn, lớp ra) Để cho lớp ẩn phục vụ cho hàm hữu ích nào, nhiều mạng đa lớp phải có có hàm kích hoạt phi tuyến cho lớp trùng nhau: mạng đa lớp sử dụng hàm kích hoạt tuyến tính tương đương với số mạng tuyến tính, lớp Các hàm kích hoạt phi tuyến sử dụng phổ biến bao gồm hàm rectifier, hàm Lơgit, hàm softmax (hàm mũ chuẩn hóa), hàm Gauss 1.4 Ngôn ngữ cử (ngôn ngữ ký hiệu) Ngôn ngữ ký hiệu ngôn ngữ dành cho người điếc người khiếm thính Năm 1755, Charles-Michel de l'Épée (một linh mục người Pháp) gặp dạy cho bé sinh đơi bị điếc Ơng hệ thống lại dấu hiệu mà người điếc Pháp dùng sử dụng dấu hiệu theo ngữ pháp Tiếng Pháp để dạy cho học sinh điếc 11 1.4.1 Đặc điểm Ngôn ngữ ký hiệu Cũng ngơn ngữ nói, ngơn ngữ ký hiệu quốc gia, chí khu vực quốc gia khác Điều quốc gia, khu vực có lịch sử, văn hóa, tập quán khác nên ký hiệu để biểu thị vật tượng khác Chẳng hạn, tính từ màu hồng Hà Nội người ta xoa vào má (má hồng), Thành phố Hồ Chí Minh lại vào mơi (mơi hồng) Điều tương tự diễn có khác biệt lớn tầm quốc gia, dẫn tới khác biệt hệ thống từ vựng ngữ pháp ngôn ngữ ký hiệu nước Tuy nhiên, ký hiệu tất nơi giới có điểm tương đồng định Ví dụ: ký hiệu ‘uống nước’ nước làm giả cầm cốc uống nước, ký hiệu ‘lái ô tô’ giả cầm vơ lăng tơ quay quay, v.v Do ngôn ngữ ký hiệu phát triển cộng đồng người khiếm thính, nên người thuộc cộng đồng hai nước khác giao tiếp với tốt hai người bình thường mà ngoại ngữ Hai đặc điểm quan trọng NNKH tính giản lược có điểm nhấn Ví dụ: Tiếng Việt: Anh có khỏe khơng ạ? NNKH: "Khỏe khơng"? Do tính giản lược có điểm nhấn nên cấu trúc ngữ pháp ngôn ngữ ký hiệu nhiều khơng thống nhất, câu xếp nhiều cách khác 12 1.5 Tổng kết chương Chương trình bày tổng quan camera Kinect Microsoft, điểm mạnh, điểm yếu ứng dụng camera Kinect Chương giới thiệu sơ lược ML, đặc biệt Ann, kỹ thuật học máy cổ điển có giá trị sử dụng cao, tảng kỹ thuật Deep learning sau Bên cạnh đó, chương trình bày khái quát ngôn ngữ cử chỉ, đời ngôn ngữ cử liên quan mật thiết ngôn ngữ cử với sống hàng ngày 13 Chương - NỘI DUNG NGHIÊN CỨU 2.1 Trạng thái bàn tay Ngôn ngữ ký hiệu tập hợp thao tác bàn tay với phận khác thể, tập thao tác đại diện cho từ ngữ tương ứng Ngơn ngữ ký hiệu chia làm thời điểm để phân biệt từ: thời điểm bắt đầu, thời điểm thời điểm kết thúc từ Trong ngôn ngữ ký hiệu, trạng thái bàn tay đóng vai trò quan trọng việc xác phân biệt từ ngữ với Có từ xác định thay đổi hình dạng bàn tay mà khơng cần đến chuyển động khác thể 2.1.1 Nhận dạng ngón tay Để nhận dạng ngón tay, luận văn đề xuất phương thức với bước sau đây: Bước 1: Tìm viền xung quanh bàn tay dựa vào tọa độ cổ tay, điểm cao bàn tay, điểm trái phải bàn tay, tọa độ ngón điểm ảnh chiều sâu thuộc bàn tay không thuộc bàn tay Bước 2: Dựa vào viền, ta tính tốn điểm giao có tập điểm tọa độ đỉnh ngón tay Bước 3: Sắp xếp lại tọa độ điểm Các điểm giao đưa vào tập với thứ tự khác nhau, để biết điểm tương ứng với ngón tay nào, ta phải tiến hành xếp lại điểm tọa độ 14 Bước 4: Tính tốn trạng thái dựa chiều dài ngón tay - Nếu ngón tay bàn tay chưa tính chiều dài ban đầu tiến hành tính chiều dài ban đầu (điều kiện bàn tay mở), việc tính tốn chiều dài ban đầu thực lần vào lúc khởi chạy chương trình Xác định xác ngón tay đo ngón tay bàn tay dựa vào bảng xếp tọa độ Bước 3, ngón tay gần ngón (ngón Kinect theo dõi được) ngón ta có ngón tay lại - Nếu ngón tay tính chiều dài tiến hành so sánh chiều dài ngón tay có với chiều dài ngón tay tính tốn ban đầu Nếu chênh lệch ngón tay đo với ngón tay ban đầu nằm ngưỡng cho phép trạng thái ngón tay thẳng, ngược lại ngón tay úp vào bàn tay Riêng trường hợp ngón index mid cần phải xác định trạng thái ngón tay mở ½ Để xác định trạng thái mở ½, ta tính tốn xem ngón tay có thẳng hay khơng, thẳng khơng mở ½, khơng thẳng, ta tiến hành so sánh chiều dài ngón tay đo với ngón cái, chênh lệch ngón ngón tay nằm ngưỡng trạng thái ½, ngược lại trạng thái đóng (0) 2.2 Hướng di chuyển phận Kinect hỗ trợ việc xác định tọa độ phận theo hệ tọa độ XYZ, việc xác định hướng di chuyển phận cần theo dõi (bàn tay, cổ tay, ngón tay cái, ngón đỉnh) thực dựa vào tọa độ 15 Xác định hướng di chuyển dựa vào chênh lệch tọa độ thời điểm: thời điểm với (x1, y1, z1) thời điểm với (x2, y2, z2) Nếu khoảng cách tọa độ X Y Z nằm ngưỡng có nghĩa phận không di chuyển, ngược lại, bàn tay di chuyển sang chiều x1>x2 di chuyển sang chiều ngược lại x1