ĐẠI HỌC ĐÀ NẴNG KHOA CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÁO CÁO ĐỒ ÁN ĐỀ TÀI: Xây dựng chương trình dịch ngơn ngữ

15 12 0
ĐẠI HỌC ĐÀ NẴNG KHOA CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÁO CÁO ĐỒ ÁN ĐỀ TÀI: Xây dựng chương trình dịch ngơn ngữ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC ĐÀ NẴNG KHOA CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÁO CÁO ĐỒ ÁN ĐỀ TÀI: Xây dựng chương trình dịch ngơn ngữ cử Sinh viên thực Giảng viên Lớp : NGUYỄN QUỐC SANG : ThS NGUYỄN VĂN BÌNH : 17IT1 Đà nẵng, tháng 08 năm 2020 MỞ ĐẦU Hầu hết khó hình dung, nhiều người câm điếc dựa vào ngơn ngữ kí hiệu làm phương tiện giao tiếp họ Về chất, họ nghe nói chuyện qua bàn tay họ Ngơn ngữ kí hiệu ngơn ngữ tự nhiên nhiều người câm điếc khắp giới sử dụng Trong ngơn ngữ kí hiệu, bàn tay truyền tải hầu hết thơng tin Do đó, hệ thống nhận dạng kí hiệu tự động có vai trị quan trọng để người câm điếc hịa nhập với sống Mục lục TỔNG QUAN .3 1.1 Giới thiệu 1.2 Đối tượng phạm vi nghiên cứu 1.3 Phương pháp nghiên cứu 1.4 Ý nghĩa khoa học thực tiễn đề tài PHÂN TÍCH HỆ THỐNG 2.1 nhận diện tay 2.2 Anphabet 2.3 K-Nearest Neighbor (KNN) .9 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 11 3.1 MÔI TRƯỜNG THỰC NGHIỆM 11 3.2 THỰC NGHIỆM TRÊN BÀI TOÁN NHẬN DẠNG CỬ CHỈ TAY .11 KẾT LUẬN 14 Chương TỔNG QUAN 1.1 Giới thiệu Như nhiều người biết, ngôn ngữ ký hiệu phương tiện mà hầu hết người câm điếc giáo dục ngày giao tiếp Có ngơn ngữ ký hiệu khác tùy theo quốc gia Công nghệ phương tiện truyền thông tốt nhanh năm gần Đã có nhiều công việc thực lĩnh vực chuyển đổi văn thành ngôn ngữ ký hiệu Khu vực ngôn ngữ ký hiệu thành văn (hoặc âm thanh) phát triển hơn, có số đột phá gần kết hợp găng tay liệu để trích xuất vị trí Hơm nay, nghiên cứu người bình thường muốn giao tiếp với người câm điếc ngôn ngữ ký hiệu bảng chữ Cần có phương pháp đơn giản, độ xác cao dễ thực với thiết bị giá rẻ Nhiều phương pháp tiếp cận sử dụng để phân loại ảnh Một số K-Nearest Neighbor(K-NN) K-NN phương pháp tiếng để phân loại hình ảnh, đơn giản dễ thực Tuy nhiên, KNN độc lập khơng có khả phân loại hình ảnh xác Việc xác định giá trị trọng số KNN ảnh hưởng lớn đến giá trị độ xác phân loại ảnh, đặc biệt việc giới thiệu ngôn ngữ ký hiệu bảng chữ Nhiều nhà nghiên cứu tập trung vào lĩnh vực nhận dạng cử tay, chẳng hạn xây dựng tính nhận dạng ngơn ngữ ký hiệu bảng chữ (ASL) cách sử dụng Mạng thần kinh lan truyền ngược 390 hình ảnh liệu mẫu sử dụng để huấn luyện Mạng 208 hình ảnh mẫu sử dụng làm thử nghiệm Sau chúng nhận 4000 kỷ ngun, Sai số trung bình vng (MSE) đến mức chấp nhận 0,01, nơ-ron đầu vào sử dụng để lấy đầu vào vector đặc trưng, 26 nơ-ron đầu để phân loại 26 dấu hiệu riêng lẻ Chúng có độ xác 80% Việc nhận dạng sử dụng tính Centroid, Roundness Scan line để nhận dạng phân loại đề xuất Hình ảnh thử nghiệm phải chuyển đổi thành thang màu xám sau sử dụng thuật tốn OTSU để thu hình ảnh nhị phân Ranh giới đối tượng mong muốn cho chi tiết hình dạng dựa cạnh hình ảnh, sau sử dụng Thuật tốn truy tìm đường viền hàng xóm Moore để trích xuất đối tượng địa lý Kết độ xác đạt khoảng 81% Một nghiên cứu khác sử dụng khác biệt thuật tốn biến đổi tính bất biến Gaussian quy mô (SIFT) để nhận dạng Các điểm bắt nguồn từ hình ảnh đặt mảng Hiệu suất đối sánh dựa thước đo tương tự không thực cho điểm, thay vào đó, việc giảm kích thước thực Có điều kiện kiểm tra: Thứ nhất, vịng 26 bảng chữ 10 bảng chữ lặp lại mục nhập với mục hướng khác Thứ hai, hình ảnh chụp trực tiếp để kiểm tra lỗ hổng hiệu suất Kết cho thấy hệ thống nhận dạng hình ảnh nền, ánh sáng, tỷ lệ phương sai chiếu sáng khác nhau, hướng khác kích thước bàn tay khác 1.2 Đối tượng phạm vi nghiên cứu  Đối tượng nghiên cứu • Ngơn ngữ lập trình Javascipt • Thư viện Tensorflow • Giải thuật nhận dạng đối tượng sử dụng KNN Image Classifiers • Các thuật tốn kỹ thuật phát kí hiệu dựa cử tay  Phạm vi nghiên cứu • Nghiên cứu phương pháp đề xuất nhận diện cử tay chuyển thành ngôn ngữ • Chương trình demo sử dụng ngơn ngữ Java, thư viện mã nguồn mở Tensorflow tảng hệ điều hành Windows, Ubuntu, MacOS 1.3 Phương pháp nghiên cứu  Nghiên cứu lý thuyết Đọc, phân tích, tổng hợp tài liệu từ báo nghiên cứu khoa học liên quan công bố Việt Nam giới  Nghiên cứu thực nghiệm Nghiên cứu xây dựng chương trình mơ lập trình ngơn ngữ lập trình Javascript thư viện Tensorflow 1.4 Ý nghĩa khoa học thực tiễn đề tài  Mục đích Nghiên cứu cách xây dựng chương trình mơ ứng dụng cho hệ thống giải vấn đề giao tiếp với người câm, điếc  Ý nghĩa khoa học thực tiễn đề tài • Về khoa học Tìm hiểu báo nghiên cứu khoa học liên quan công bố giới, đề xuất giải pháp cho việc giải vấn đề giao tiếp với người câm điếc Việt Nam • Về thực tiễn - Góp phần giúp người khuyếm khuyết hòa nhập với xã hội Chương PHÂN TÍCH HỆ THỐNG Dưới tìm hiểu phương pháp nhận dạng dấu hiệu bảng chữ kết hợp phương pháp Kỹ thuật đánh giá đa thuộc tính đơn giản (SMART) K-Nearest Neighbor (KNN) Những phương pháp có cơng thức đơn giản K-NN có khả phân loại tốt kết hợp SMART, trọng số hỗ trợ nâng cao độ xác Quá trình ban đầu phương pháp đề xuất chụp ảnh bàn tay từ máy ảnh, sau tiếp tục phát vùng tay phân tích phát da Nó sử dụng để phân biệt bàn tay với Có thể thu phát da cách chuyển đổi hình ảnh màu (RGB) sang HSV ((Hue, Saturation, Value) màu YCbCr Cân SMART sử dụng hình ảnh nhị phân thu từ trình phân đoạn Sau đó, chúng tơi chia đề xuất nhóm thành ba tiêu chí dựa hình dạng bàn tay (Nắm tay, Ngón tay thẳng Ngón tay nghiêng), chúng sử dụng để xác định liệu huấn luyện sử dụng Việc trích xuất tính thực để lấy liệu thống kê từ khoảng cách hình ảnh trung tâm cạnh bàn tay Quá trình cuối phân loại hình ảnh sử dụng K-Nearest Neighbor (KNN) 2.1 NHẬN DIỆN TAY Bước kết hợp hai không gian màu để cải thiện khả phát màu da Đây mơ hình HSV YCbCr Mơ hình HSV (Hue, Saturation, Value) điều khiển từ không gian màu RGB thành phép biến đổi phi tuyến Hue có nghĩa dạng màu cụ thể, xanh lục, đỏ vàng Màu sáng tương ứng với Giá trị Phương trình biểu thị để chuyển đổi từ RGB sang HSV : � ��� = �[� ��� ] Trong C [.] tốn tử chuyển đổi để chuyển đổi khơng gian màu RGB sang khơng gian màu HSV Phương trình sử dụng để chuyển đổi không gian màu RGB thành YCbCr : � ����� = �[� ��� ] Trong E [.] tốn tử chuyển đổi để chuyển đổi không gian màu RGB thành không gian màu YCbCr Trong nghiên cứu này, màu da thu từ trình xác định ngưỡng kết hợp màu HSV YCbCr phương trình: Image Capture Skin Detection Sign Grouping and Weighting using SMART Feature Extraction Image Classification using KNN Đây trình phát bàn tay Hình ảnh chụp khu vực bàn tay sử dụng máy ảnh minh họa Hình (a), Hình (b) cho thấy việc phát da dựa phương trình Hình (c) hình ảnh nhị phân tạo từ hình (b) Hình (b) phân đoạn bàn tay cách phát màu da Sau đó, hình ảnh phân đoạn chuyển đổi thành ảnh nhị phân Hình ảnh nhị phân có bước sau: đầu tiên, chuyển đổi hình ảnh phân đoạn từ phát da thành hình ảnh thang độ xám sử dụng thuật tốn độ sáng sau sử dụng Thuật tốn Otsu để tạo hình ảnh nhị phân Hơn nữa, Hình (d) cắt sở hình ảnh nhị phân tọa độ đầu cuối x y (quá trình hộp giới hạn) 2.2 Anphabet 26 bảng chữ nhóm thành ba tiêu chí (K1, K2 K3) dựa hình dạng bàn tay bàn tay nắm, ngón tay thẳng ngón tay nghiêng Chúng tơi sử dụng Kỹ thuật đánh giá đa thuộc tính đơn giản (SMART) để có Trọng số (W) dựa bảng chữ nhóm liệu huấn luyện Các bước Kỹ thuật xếp hạng đa thuộc tính đơn giản (SMART) để có khuyến nghị trọng số sau: bước lấy số lượng tiêu chí Trong báo này, chúng tơi chia tiêu chí thành K1, K2 K3 dựa hình dạng bàn tay Tiêu chí (K1) hình dạng bàn tay dựa cách nắm tay có bảy thành viên bảng chữ (“A, E, M, N, O, S, T”) Tiêu chí hai dựa hình dạng ngón tay thẳng, có mười ba thành viên bảng chữ (“B, C, D, F, I, K, L, R, U, V, W, X, Y”) bảng chữ khác tiêu chí thứ ba (K3) có sáu thành viên (“G, H, J, P, Q, Z”) Bước thứ hai lấy trọng số tiêu chí tính cách lấy số tiêu chí chia cho tổng số bảng chữ (26) bảng (K) Hand Shape Alphabet Base K1 Holding Hand K2 Straight Finger K3 Leaning Finger A,E,M,N, O,S,T B,C,D,F,I, K,L R,U,V,W, X,Y G,H,J,P,Q ,Z Amount Criteria Member (N) Weight (W) 26 13 Normaliz ation (R) 0,27 0,50 26 6 26 0,23 Các bước cuối lấy giá trị tiện ích giá trị cuối Giá trị hữu ích nhận phương trình có hai giá trị (0 100) Giá trị tiện ích cho tiêu chí (K1) có giá trị 100, số lớn 90 lớn 200, giá trị khác Số lượng đếm từ hình ảnh nhị phân Các giá trị tiêu chí khác biểu thị phương trình (5) Giá trị tiện ích cho tiêu chí hai (K2) có giá trị 100, số lượng lớn 90 nhỏ 200, giá trị khác Cuối giá trị tiện ích cho tiêu chí ba (K3) minh họa phương trình (6) Nó có giá trị 100, số nhỏ 90, giá trị khác Bảng cho thấy ba tiêu chí cho 26 bảng chữ dựa hình dạng bàn tay Chúng ta sử dụng khoảng cách tâm cạnh tọa độ từ hình ảnh nhị phân bàn tay để đào tạo liệu Phương trình sử dụng để tính khoảng cách (d) tọa độ tâm điểm (x, y) cạnh tọa độ bàn tay (� � tọa độ cạnh tay) Tọa độ trung tâm (x, y) thu cách chia chiều cao chiều rộng hình ảnh nhị phân cắt cho hai Ta sử dụng khoảng cách tâm cạnh tọa độ từ hình ảnh nhị phân bàn tay để đào tạo liệu Phương trình sử dụng để tính khoảng cách (d) tọa độ tâm điểm (x, y) cạnh tọa độ bàn tay (� � tọa độ cạnh tay) Tọa độ trung tâm (x, y) thu cách chia chiều cao chiều rộng hình ảnh nhị phân cắt cho hai 2.3 K-Nearest Neighbor (KNN) K-Nearest Neighbors (k-NN) thuật toán học máy giám sát, tức học từ tập hợp đào tạo gắn nhãn cách lấy liệu đào tạo X với nhãn y học cách ánh xạ đầu vào X với đầu mong muốn Thuật tốn k-NN cho đơn giản thuật toán học máy Mơ hình bao gồm liệu huấn luyện, tức là, mơ hình đơn giản học tồn tập huấn luyện để dự đoán đưa kết lớp có phần lớn hàng xóm gần ‘k’ tính theo số thước đo khoảng cách Quá trình hoạt động chi tiết sau: Sau mơ hình lưu trữ tập huấn luyện để dự đốn, lấy hình ảnh thử nghiệm để dự đốn, tính tốn khoảng cách đến hình ảnh tập huấn luyện thu hình ảnh huấn luyện ‘k’ gần với hình ảnh thử nghiệm Sau đó, xuất lớp theo số thủ tục biểu từ nhãn hàng xóm ‘k’ này, thường đa số phiếu Số liệu khoảng cách sử dụng để tính tốn khoảng cách khác nhau, chẳng hạn hàm khoảng cách L1 tổng khác biệt pixel hình ảnh Một số liệu khoảng cách thay khoảng cách L2 thường gọi khoảng cách Euclide : Nói cách khác, tính tốn khác biệt khơn ngoan theo pixel trước đây, lần chúng tơi bình phương tất chúng, cộng chúng lại cuối lấy bậc hai Có điều thú vị khác biệt bình phương khoảng cách L2, nghiêm ngặt nhiều khác biệt pixel lớn Bây giờ, chuyển sang cân nhắc thực tế: Siêu tham số k-NN cách chúng ảnh hưởng đến hiệu suất Vì k-NN thuật tốn đơn giản nên khơng thực có nhiều siêu tham số để điều chỉnh, có hai: số khoảng cách giá trị ‘k’ Vì vậy, làm là, chạy mơ hình cho giá trị khác ‘k’ có mơ hình với độ xác xác thực tốt nhất, mơ hình sử dụng làm mơ hình cuối tập thử nghiệm 10 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Quá trình thực nghiệm chia làm hai giai đoạn Giai đoạn thứ xây dựng mơ hình nhận dạng với liệu video đầu vào điều kiện khác Ở giai đoạn này, số giá trị tham số đầu vào điều kiện ánh sáng xung quanh thay đổi thực nghiệm để tìm giá trị phù hợp cho kết (độ xác) cao ứng với phương pháp Kết thu giai đoạn thực nghiệm độ xác chương trình tương ứng với liệu video đầu vào khác 3.1 MƠI TRƯỜNG THỰC NGHIỆM 3.1.1 Mơi trường triển khai Quá trình thực nghiệm thực máy tính xách tay sử dụng hệ điều hành MacOS version 10.11.6 có cấu hình tương đương máy tính phổ thơng sử dụng camera trực tiếp máy để thu video đầu vào Ngôn ngữ sử dụng chương trình thực nghiệm ngơn ngữ lập trình Javascript Bên cạnh đó, chương trình thực nghiệm có sử dụng thư viện mã nguồn mở Tensorflow 3.2 THỰC NGHIỆM TRÊN BÀI TOÁN NHẬN DẠNG CỬ CHỈ TAY Tiến hành thực nghiệm video input Hai trình thực quan trọng sau xử lý video đầu vào nhận dạng tay Kết nhận dạng sau: Đầu tiên, tạo train cử bắt đầu kết thúc 11 Sau đó, tạo từ ngữ train cử cho từ ngữ Tiến hành thử nghiệm việc dịch ngôn ngữ cử chỉ: 12 Kết quả: Chương trình nhận dạng thành cơng điều kiện đủ ánh sáng không đủ ánh sáng 13 KẾT LUẬN Đề tài phát triển hệ thống đơn giản gồm phần, cụ thể (a) Xử lý video đầu vào, (b) Nhận diện tay (c) Ghi lại cử (d) So sánh với cử mẫu đưa kết Mỗi thành phần thực thuật tốn cụ thể khác dựa yêu cầu HƯỚNG PHÁT TRIỂN Sau số cải tiến thực tương lai hệ thống này: • Ứng dụng điện thoại thơng minh • Tích hợp vào video call 14

Ngày đăng: 20/04/2021, 22:26

Mục lục

  • TỔNG QUAN

    • 1.1 Giới thiệu

    • 1.2 Đối tượng và phạm vi nghiên cứu

    • 1.3 Phương pháp nghiên cứu

    • 1.4 Ý nghĩa khoa học và thực tiễn của đề tài

    • PHÂN TÍCH HỆ THỐNG

      • 2.1 nhận diện tay

      • 2.2 Anphabet

      • 2.3 K-Nearest Neighbor (KNN)

      • THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

        • 3.1 MÔI TRƯỜNG THỰC NGHIỆM

          • 3.1.1 Môi trường triển khai

          • 3.2 THỰC NGHIỆM TRÊN BÀI TOÁN NHẬN DẠNG CỬ CHỈ TAY

          • KẾT LUẬN

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan