Vẩn đề hai cử chỉ liên tiếp cùng thể hiện một chữ cái từ “C O O I” trong ví dụ này được giải quyết bằng bộ lọc dựa trên tốc độ ra ký h iệ u .... Đe tài : N hận dạng cử chỉ trong việc hồ
Trang 2M Ụ C L Ụ C
MỤC L Ụ C 2
DANH SÁ CH N H Ữ N G N G Ư Ờ I T H ự C H IỆN ĐỀ T À I 3
DANH M Ụ C HÌN H V Ẽ V À B Ả N G B I É U 4
1 Đặt vấn đ ề 5
2 Tổng quan về phân đoạn ngôn ngữ dấu h i ệ u 6
3 Phương pháp phân đoạn đề xuất và thực n g h i ệ m 7
3.1 Phương pháp phân đ o ạ n 7
• Phân đoạn ký tự dựa trên vận tốc chuyển động của t a y 7
• Bộ lọc ký tự dựa trên tốc độ ra kí h i ệ u 8
• Nhận dạng ký tự và tách t ừ 8
3.2 Thực nghiệm và thảo lu ậ n 9
• Thu nhận dừ liệu và tiền xử l ý 9
• Phân đoạn với bộ lọc vận tốc và tốc độ ra ký h i ệ u 10
• Kết q u ả 12
4 Kết quả nghiên c ứ u 13
5 Kết l u ậ n 14
6 Tài liệu tham k h ả o 15
PHỤ L Ụ C 17
Trang 3D A N H S Á C H N H Ữ N G N G Ư Ờ I T H ự C H I Ệ N Đ È T À I
Chủ nhiệm đề tài
ThS N guy ễn Thị Nhật Thanh, Trường Đại học Công nghệ, Đại học Quốc gia
Hà Nội
Những người tham gia
Trang 4D A N H M Ụ C H Ì N H V Ẽ V À B Ả N G B I Ể U
Hình 1 C ử chỉ biểu diễn chữ cái có khoảng thời gian thể hiện nằm giữa ngưỡng thấp
và ngưỡng cao của bộ lọc dựa trên tốc độ ra ký h i ệ u 8
Hỉnh 2 D ữ liệu th ô 9
Hình 3 D ữ liệu được làm trơn với bộ lọc G aussian 9
Hình 4 Các đoạn dữ liệu của từ “C H U A ” 10
Hình 5 N ăm đoạn dữ liệu được đưa ra dựa trên vận tốc chuyển độc của tay, trong đó hai đoạn không họp lệ được loại bỏ bời bộ lọc dựa trên tốc độ ra ký h iệ u 11
Hỉnh 6 Đ oạn dữ liệu không hợp lệ vì quá dài, được loại bỏ bởi bộ lọc dựa trên tốc độ ra ký h iệ u 11
Hình 7 Vẩn đề hai cử chỉ liên tiếp cùng thể hiện một chữ cái (từ “C O O I” trong ví dụ này) được giải quyết bằng bộ lọc dựa trên tốc độ ra ký h iệ u 11
Hình 8 Độ chính xác của hai kỹ thuật phân đ o ạ n 13
Hình 9 Đ ộ gợi nhớ của hai kỹ thuật phân đ o ạn 13
Bảng 1 Phân doạn theo vận tốc tay với các ngưỡng vận tốc khác n h a u 12
Bảng 2 Phân đoạn theo vận tốc tay và bộ lọc dựa trên tốc độ ra ký hiệu với các ngưỡng vận tốc khác n h a u 12
Trang 5Đe tài : N hận dạng cử chỉ trong việc hồ trợ người khuyết tật giao tiếp
Trong đề tài này, chúng tôi tiến hành nghiên cứu về phân đoạn dữ liệu tự động cho ngôn ngữ dấu hiệu Phân đoạn dữ liệu nhàm xác định những đoạn dữ liệu có nghĩa trong dòng dữ liệu thu được theo thời gian Chất lượng của quá trinh phân đoạn sẽ quyết định chất lượng của các quá trình nhận dạng và dịch tự động sau này Dựa trên những nghiên cứu hiện có, chúng tôi đã đề xuất m ột phương pháp mới cho phân đoạn chữ cái trong ngôn ngữ dâu hiệu tiêng Việt Theo phương pháp này, nhiêu kỹ thuật được áp dụng tuân tự đê xác định đoạn dừ liệu có nghĩa trong dòng dừ liệu thu được theo thời gian Đầu tiên, vận tốc của tay được tính toán Các đoạn dừ liệu tương ứng với vị trí tay đang thể hiện chữ cái được lựa chọn Một bộ lọc dựa trên tốc độ ra ký tự được áp dụng để loại bỏ những đoạn dữ liệu không chính xác Cuối cùng, chừ cái được nhận dạng và nhóm lại thành từ dựa trên từ điên tiếng Việt
Phương pháp đã được thử nghiệm với ngôn ngữ dấu hiệu tiếng Việt và thu được dộ chính xác (Precision Rate) và độ gợi nhớ (Recall Rate) cao trong việc phân đoạn : 94.95% và 95.27% So với những kỹ thuật hiện có, phương pháp này trả lại kết quả có
độ chính xác cao hơn N hững vấn đề đặc biệt n hư hai chữ cái liền kề giống nhau cũng được giải quyết Ngoài ra, việc phân tách từ tự động cũng được xét đến Phương pháp
đề xuất cung cấp m ột giải pháp hoàn chỉnh cho việc tách từ được biểu diễn bàng ngôn ngữ cử chỉ tiếng V iệt theo cách đánh vần không dấu
• Kết quả
Sản plìâm khoa hoc
o 01 bài báo (N guyen Thi Nhat Thanh and Bui The Duy, “A new fram ew ork for
autom ated gesture segmentation in V ietnam ese Sign L ang uag e” , In: VNU Journal o f Science, Natural Sciences and Technology 24, No 3S (2008), pp 82- 89)
o 01 báo cáo tổng hợp về kết quả nghiên cứu của đề tài
Kêt quà ínig dunẹ: 01 chương trình thử nghiệm phân đoạn và nhận dạng các chừ cái
tiếng Việt trong dòng dừ liệu theo thời gian
K ết quả đào tao: 01 khoá luận cử nhân chuyên ngành C N T T (Trần Xuân Dũng, “Các
phươ ng p háp m ô tả ngôn ngữ dấu hiệu và ứng dụng xây dựng từ điển nhập liệu cho ngôn n g ữ dấu hiệu Tiếng V iệt” , 2007)
Trang 61 Đ ặ t vấn đề
Ngôn ngữ dấu hiệu được sử dụng để truyền đạt thông tin trong cộng đồng nhừng naười khiêm thính Khác với ngôn ngữ nói, ngôn ngừ dâu hiệu sử đụna cách đánh vân băng tay hoặc các hành động đê truyên tải thông tin N hững nghiên cứu trong lĩnh vực nhận dạng tự động tập trung vào việc hiểu ngôn ngữ này và dịch chúng sang dạng chừ hoặc lời nói nham xoá bỏ rào cản trong giao tiếp giữa người khiếm thính và c ộ n s đồng Nhận dạng tự động thường đi theo hai hướng tiếp cận: sử dụng m áy quay (vision based approach) và sử dụng găng tay dừ liệu (device based approach) để thu nhận dữ liệu về
cử chỉ Nhận dạng có thể được thực hiện tĩnh (trên các dữ liệu đã được phân tách sẵn cho mỗi chữ hoặc từ tương ứng trong ngôn ngữ dấu hiệu) hoặc được thực hiện động (trên dòng dữ liệu thu được theo thời gian) Nhận dạng động được áp dụng cho các ứng dụng thời gian thực, cần có sự xử lý thông tin trước khi tiến hành nhận dạng Trong nhận dạng động, dừ liệu thu được là m ột dòng liên tục theo thời gian, tương ứng với những chuyển động của người thực hiện cử chỉ T uy nhiên, chỉ một số cử chỉ mang thông tin trong khi m ột sổ khác là dư thừa Do vậy, một vấn đề đang thu hút được nhiều sự quan tâm của các nhà nghiên cứu là làm sao để xác định những doạn dừ liệu
có nghĩa trong dòng dữ liệu thu được Các kỹ thuật phân đoạn tập trung vào giải quyết vấn đề này Chất lượng của quá trình phân đoạn sẽ quyết định chất lượng của các quá trinh nhận dạng và dịch tự động sau này
Trong đề tài này, chúng tôi đề xuất một p h ư ơ ne pháp mới để phân tách tự động ngôn ngữ dấu hiệu tiếng Việt Chúng tôi tập trung vào cách biểu diễn ngôn ngữ dấu hiệu bằng đánh vần trong đó người sử dụng biểu diễn các chữ cái tuần tự theo cú pháp đã được qui định để biểu diễn một từ Do vậy, phương pháp tập trung vào tách các chữ cái trong dòng dữ liệu liên tục theo thời gian Theo phương này, một số các kỹ thuật được áp dụng lần lượt để xác định những đoạn dữ liệu có nghĩa (thể hiện chữ cái) trong dãy các dòng dữ liệu được ghi lại Đầu tiên, vận tốc của chuyển động tay được tính toán nhằm xác định những đoạn tay đứng yên Tiếp đó, một bộ lọc dựa trên tốc độ
ra ký hiệu được sử dụng để loại bỏ những đoạn dư thừa Tại mỗi đoạn dữ liệu có nghĩa được xác định, chữ cái được nhận dạng Sau đó, các từ tiếng Việt được tách tự động theo p hương pháp khớp từ dài nhất dựa trên từ điển
Với phươ ng pháp này, các câu tiếng Việt được biểu diễn bàng ngôn ngữ cử chi có thể đirợc phân tách nhanh và chính xác Bằng cách kết hợp nhiều kỹ thuật, phương pháp này hoạt động hiệu quả hơn những phương pháp đã có v ấ n đề hai chữ cái liền kề giống nhau được nêu ra trong [12] cũng được giải quyết Ngoài ra, việc phân tách từ tự động cũng được xem xét và giải quyết trorm phuơnR pháp này P h ư ơ n s pháp được đề xuất cung cấp một giải pháp hoàn chỉnh cho việc tách từ dược bièu diễn bãng ngôn ngữ cử chỉ tiếng Việt theo cách đánh vần C húng tôi cũne đã thử nghiệm phương pháp được đề xuất và thu được kết quả tốt
Trang 72 T ổ n g q u a n về p h â n đoạn ngôn n g ữ dấu hiệu
Phân đoạn trong ngôn ngữ dấu hiệu tập trung vào nghiên cứu và áp dụng các kỹ thuật khác nhau để tách các dữ liệu có nghĩa từ dòng dữ liệu thu được Sự khác biệt giữa những cử chỉ có nghĩa và cử chỉ dư thừa phụ thuộc cách biểu diễn ngôn ngữ dấu hiệu
Có hai cách biêu diên ngôn ngữ dâu hiệu thông dụng: sử dụng các hành động đại diện (gesture) hoặc đánh vần với các ký tự trong bảng chữ cái (finger spelling) Theo cách dùng các hành động (gesture), m ột từ hoặc một cụm từ được thể hiện bằng hình dạng,
vị trí, hướng, và quĩ đạo chuyển động của một hoặc hai tay Do vậy, đoạn dữ liệu có nghĩa là đoạn m à tay đang diễn tả thông tin thông qua hình dáng, vị trí hướng và chuyển động Đoạn dữ liệu dư thừa là khi tay chuyển từ vị trí kết thúc của từ này tới vị trí bắt đầu để biểu diễn m ột từ khác Nhiều nghiên cứu sử dụng vận tốc chuyển động của tay để thực hiện việc phân doạn Tanibata [3] phân tách cử chỉ và chuyển động dựa trên giả thiết ràng cử chỉ có vận tốc nhỏ trong khi chuyển động sẽ có giá trị vận tốc lớn Thêm nữa, những thay đổi lớn vể chuyển động của tay được xem như là đầu mối để phân tách các từ Sagaw a và Takeuchi [2] sử dụng cách tiếp cận tương tự Tuy nhiên,
họ xem xét thêm việc loại bỏ nhiễu gây ra bởi sự rung tay bàng cách so sánh tổng vận tốc lớn nhất của hai đoạn kề nhau với một ngưỡng được định nghĩa trước N hững chuyển động có nghĩa và những chuyển động dư thừa được tách dựa trên gia tốc trong
đó chuyển động có nghĩa thường có gia tốc nhỏ Phương pháp này được áp dụng cho
100 từ trong ngôn ngữ đấu hiệu tiếng Nhật và đạt độ chính xác 80% Một cách tiếp cận khác được sử dụng trong [4] là sử dụng tham sổ thay đổi thời gian (time-varying parameter - TV P) để xác định những cử chỉ có nghĩa N hững cử chỉ hày sẽ có số TVP thấp hơn một n guỡ ng nào đó Gaolin Fang [5] đề xuất một phương pháp hiệu quả hơn Mạng hôi quy dơn giản (Simple Recurrent N etw ork - SRN) được sử dụng dê phân lớp các hành động thành b a loại: biên trái, biên phải, và chính giữa đoạn Sử dụng một mình SRN, độ chính xác của phân đoạn là 87% D o vậy SO FM (S elf Organizing Feature M aps) được thêm vào, xử lý các đặc trưng trước khi nó được đưa vào m ạng SRN Phương pháp này đạt tỷ lệ gợi nhớ (Recall Rate) lên tới 98.8%
Theo cách đánh vần, các cử chỉ (posture) tương ứng với các chữ cái được the hiện lân lượt, tuân theo các luật đánh vần để tạo ra m ột từ Phân đoạn cho đánh vần là xác định những điểm m à cử chỉ xảy ra M ột vài nghiên cứu giải quyết vấn đê này băng cách chèn vào những ký hiệu đánh dấu [16] hoặc giữ yên tay khoảng một phút để nhận dạng [17] H anrling [6] tính toán sức căng của tay (hand tension) và sử dụng nó để phân đoạn T ay ở trạng thái thoải mái có ít sức căng hơn khi tay thể hiện cử chỉ biểu diễn chữ cái Việc chuyển từ m ột cử chỉ này sang cử chỉ khác sẽ đi qua m ột trạng thái tay thoải mái Quan sát này được sử dụng để phát hiện biên giữa các chữ cái T uy nhiên, phươ ng pháp này mới chì được thử nghiệm trên một tập dừ liệu nhỏ và dường như chỉ phù hợp với những hệ thống sử dụng găng tay dữ liệu để thu nhận thông tin Wu [10] dựa trên sự khác nhau giữa frame ảnh hiện tại và frame trung bình đê tách các đoạn chuyển độn g và đứng yên của tay H Birk [12] sử dụng hai kỹ thuật dựa trên chuyển đông để phân đoạn các dữ liệu theo thời gian Ngoài ra, vấn đề tách hai kỷ tự liền nhau giống nhau cũng được xem xét (VD: chữ cái T trong từ "hello” ) Đe giải quyết vấn đề
Trang 8này, H Birk sử dụng kỹ thuật thử ba dựa trên quan sát ràng có m ột chuyển động nhỏ giữa chúng Ba kỹ thuật này được kêt họp với nhau bàng phép toán A N D để xác định kêt quả cuối cùng R Erenshteyn [11] nhận dạng các chữ cái theo thời gian thực và sử dụng hai bộ lọc cho phân tách đoạn Kỹ thuật đầu tiên sử dụng sự khác nhau giữa các frame ảnh Kỷ thuật thữ hai dựa trên những phân tích về độ biến đổi Trong kỹ thuật này, điểm kết thúc của m ột chữ cái là nơi có sự biến đổi lớn nhất của kết quả nhận dạng và cách nhau m ột k hoảng nhất định nào đó Việc nhận dạng được thực hiện tại điểm giữa của đoạn dữ liệu được phát hiện Độ chính xác của hai bộ lọc là 87.8% và 92.3% T u y nhiên, bộ lọc thứ nhất cho nhiều đoạn dư thừa trong khi bộ lọc thứ hai xoá mất một số đoạn.
N hững kỹ thuật hiện tại thường được áp dụng m ột cách riêng lẻ Do vậy, độ chính xác phân đoạn không được cao Hiện tại, cũng không có một giải pháp toàn diện từ việc tách chữ đến tách từ tự động phục vụ cho việc nhận dạng ngôn ngữ dấu hiệu nói chung
và ngôn ngữ dấu hiệu tiếng Việt nói riêng theo cách đánh vần Bởi vậy, trone đề tài này, chúng tôi đề xuất một phương pháp mới cho việc phân đoạn Theo phương pháp này, một số các kỹ thuật được áp dụng tuần tự để xác định các đoạn dữ liệu có nghĩa trong dòng dữ liệu theo thời gian Đầu tiên, vận tốc chuyển động cùa tay được tính loán để tìm ra những đoạn dữ liệu ứng cử viên Tiếp đó, một bộ lọc dựa trên tốc độ ra
ký hiệu được sử dựng để loại bỏ những đoạn dư thừa Các chữ cái được nhận dạng tại mỗi doạn dữ liệu được phát hiện Cuối cùng, các từ dược tự động phân tách từ dãy các
ký tự bằng phương pháp khớp từ với các từ dã được định nghĩa trong từ điển tiếng Việt Phương pháp cũng đã được thử nghiệm và thu được những kết quả khả quan
3 P h ư ơ n g p h á p p h â n đoạn đề xuất v à thực nghiệm
3.1 Phương pháp phân đoạn
Phương pháp phân đoạn tập trung vào việc tách các ký tự và từ từ dòng dữ liệu theo thời gian Bước đầu tiên, vận tốc tay được tính toán để tìm ra những điểm tay đứng yên để biểu diễn cử chỉ T u y nhiên, kỹ thuật này rất nhạy với nhiễu nên thường tìm ra rất nhiều đoạn dữ liệu dư thừa Do vậy, bộ lọc thứ hai dựa trên tốc độ ra ký hiệu được
sử dụng giải quyết vấn đề này Tại đoạn dữ liệu hợp lệ thu được, giá trị của chữ cái được tính là trung binh của tổng có trọng số của các giá trị xuất hiện trong đoạn Giá trị này sẽ được sử dụng cho nhận dạng Việc phân tách các từ từ dãy các chừ cái thu dược dựa trên ph ư ơ n g pháp khớp từ cực đại với những từ hiện có trong từ điển tiếng Việt Các tiếp cận này cũng được sử dụng để chuẩn hoá những ký tự bị nhận dạng sai
• Phân đoạn ký t ự dự a trên vận tốc chuyển động của tay
Kỹ thuật này dựa trên bản chất của của việc đánh vần trong ngôn ngừ cử chỉ Theo cách này, các ký tự được thể hiện tuần tự, tuân theo cú pháp đánh vần Mỗi ký từ được biểu diễn bàng m ột cử chỉ tay (posture), đặc trưng bời hình dáng tay và hướng lòng bàn tay Các cử chỉ sẽ được giữ yên một khoảng thời gian đú dê nhận biết Do vậy, các
cử chỉ này tươ ng ứng với các đoạn dữ liệu có vận tốc tay nhỏ, trong khi các động tác chuyển sẽ có vận tốc lớn hơn [2][3][12] Dựa trên các thông số về tav, vận tốc được
Trang 9tính toán và so sánh với m ột ngưỡng đã được xác định trước để tìm ra các đoạn dữ liệu
có nghĩa sẽ được sử dụng cho bước tiếp theo
• Bô loc ký tư dưa trên tốc đô ra kí hiêu• • J ■ • * •
Với kỹ thuật được nêu ở trên, hầu hết các đoạn dử liệu có nghĩa được xác định Tuy nhiên, chỉ một sự thay đổi nhỏ khi tay đang thể hiện ký tự hoặc nhiểu cũng ảnh hường tới kỹ thuật này và tạo ra nhiều đoạn dư thừa M ay mắn thay, người “nói” bằng ngôn ngữ dấu hiệu phải giữ tay một khoảng đủ lâu để người “nghe” có thể nhận biết Bời vậy, để loại bỏ những đoạn dừ liệu bị phân tách sai, chúng tôi sử dụng bộ lọc dựa trên tốc độ ra ký tự Đặc trưng được sử dụng là khoảng thời gian thể hiện cử chỉ Tại mỗi đoạn dữ liệu thu được từ kỹ thuật trên, đặc trưng này được tính toán và so sánh với hai ngưỡng: ngưỡng thấp và ngưỡng cao Một đoạn dữ liệu được chọn nếu thời gian ra ký hiệu nam giữa hai ngưỡng (Hình! 1)
1 2 1
o 8
0 6
0 4
0 2 0
r * - * - * * ■ — * * * 1 A <^ 1 — - — Ị f —i -
-t i -ĩ
a 15 2 2 29 -S7 FiA 71 1A ị « i ỊỊ 1 ịỴ11 3 1 2 0 12 7 1 J 4 14 1 140
p o stu reHình 1 Cử chỉ biểu diễn chữ cái có khoảng thời gian thể hiện nằm giữa ngưỡng thấp
và ngưởng cao của bộ lọc dựa trên tốc độ ra ký hiệu
C húng tôi áp dụng phư ơ n g pháp phân loại được đề cập trong [15] 23 ký tự (A, B, c
D, Đ, E, G, H, I, K, L, M, N, o , p, Q, R, s, T, u , V, X, và Y) trong naôn rmữ dấu hiệu tiếng Việt được nhận dạng với độ chính xác cao
Trang 103.2 Thực nghiệm và thảo luận
• Thu nhận dữ liệu và tiền xử lý
Chúng tôi sử dụng găng tay dữ liệu 5DT Data Glove 5 [14] để thu nhận dử liệu cho hệ thống G ăng tay dữ liệu có 18 sensor tương ứng với 10 vị trí trên ngón tay (giữa ngón cái, đỉnh ngón cái, giữa ngón trỏ, đỉnh ngón trỏ, giữa ngón giữa, đỉnh ngón giữa, giữa ngón đeo nhẫn, đỉnh ngón đeo nhẫn, giữa ngón út, và đỉnh ngón út), bốn vị trí giữa các ngón tay (cái/trỏ, trỏ/giữa, giữa/đeo nhẫn, đeo nhẫn/út), và một vị trí trẽn mu bàn tay Các sensor đo và trả lại độ cong (flexure) và độ giang (spread) của các ngón tay, độ gập (pitch) và độ xoay (roll) của bàn tay Sau khi căn chỉnh (calibration) và chuẩn hoá (normalization), giá trị các sensor ở trong khoảng từ 0 đến 1 (xem Hình 2)
Chúng tôi thực hiện thử nghiệm trên 594 mẫu của 23 chữ cái trong bàng chữ tiếng Việt Trong giai đoạn tiền xử lý, dữ liệu nhận được từ găng dữ liệu được lọc bỏ nhiễu bàng một Gaussian filter (xem Hình 3) với phân bo Gaussian một chiều và độ lệch chuẩn bàng 1 (công thức 1)
G ( x ) = — J = e 2ỗ
ố y l l ĩ r trong đó à ~ 1 (1)
Trang 11• Phân đoạn vói bộ lọc vận tốc và tốc độ ra ký hiệu
Với dữ liệu thu được, vận tốc được tính theo công thức 2 tại mỗi frame
v(0 = ^
-(2)
trong đó P(i, t) là giá trị của sensor i tại thời frame t, và n là tổng số sensor
Hai frame liền kề được ghép vào một đoạn nếu vận tốc tay tại mỗi frame thấp hơn ngưỡng Hầu hết các đoạn dữ liệu chứa cử chỉ đều được phát hiện bàng kỹ thuật này Tuy nhiên, số lượng các đoạn dư thừa khá lớn Lý do là khi tay thể hiện cử chí, nó không hoàn toàn được giữ nguyên (VD: đoạn thứ ba trong Hình 5), hoặc do sự chuyển động chậm của một số ngón tay (VD: đoạn thứ tư trong Hình 5) gây ra nhiễu Chúng tôi nhận thấy ràng nhiễu thường nhẹ và nhanh hơn các cử chỉ Ngoài ra, các đoạn dữ liệu quá dài cũng là những hiện tượng không bình thường Trong hầu hết các trường hợp, các đoạn dữ liệu này được tách ra do sai số trong phân đoạn theo vận tốc hơn là
do người sử dụng D o vậy, chúng cũng là thông tin dư thừa (xem Hình 6) Chúng tôi tính toán khoảng thời gian giữ yên cử chỉ tại mỗi đoạn dừ liệu có nghĩa Trong thực nghiệm này, đoạn dữ liệu được loại bỏ nếu giá trị này nhỏ hơn ngưỡng 150tns hoặc lớn hơn ngưỡng 1500ms
Ngoài ra, ngôn ngữ dấu hiệu tiếng Việt cũng phải đối mặt với vấn đề hai chừ cái liền
kề giống nhau N hư đã phân tích trong [12], có một chuyển động nhỏ giữa chúng Do vậy, bộ lọc dựa trên tốc độ ra ký tự có thể giải quyết vấn đề này (Hình 7)
Trang 12Hình 5 N ăm đoạn dữ liệu được đưa ra dựa trên vận tốc chuyển độc của tay, tronạ đó hai đoạn không hợp lệ dược loại bò bởi bộ lọc dựa trên tốc độ ra ký hiệu.
Hình 7 Vấn đề hai cử chỉ liên tiếp cùng thể hiện một chữ cái (từ "CO o r trong ví dụ
này) được giải quyết bàng bộ lọc dựa trên tốc độ ra ký hiệu
Trang 13• Kết quả
N gưỡng được sử dụng cho việc phân đoạn dựa trên vận tốc được kiểm tra với năm giá trị (0.02, 0.05, 0.10, 0.15 và 0.20) Độ chính xác (Precision) và độ gợi nhớ (Recall) được tính toán lần lượt bằng công thức 3 và công thức 4
N um berofV a lidSegm ent s , nnn,
Pr ecision - — - -— - X 100%
N um berofD e tectedSegm ents ^ 3 )
N um berofV alidSegm ent ,
Re call = - -J b -X 100%
N um berofActualSegm ents
Kết quả được thể hiện trong bảng 1 và bảng 2 Kỹ thuật phân đoạn đạt kết quả tốt nhất với hai ngưỡng vận tốc 0.05 và 0.10 Trong thực nghiệm này, nếu lấy ngưỡng nhó hơn0.02, nhiều đoạn dữ liệu có nghĩa bị bỏ qua N gược lại, nếu lấy ngưỡng lớn hơn như0.15 hoặc 0.20, các đoạn dữ liệu bị ghép lại với nhau Điều này dẫn đến độ chính xác
và độ gợi nhớ giảm
Chi sử dụng kỹ thuật phân đoạn dựa trên vận tốc, 60.6% - 96.46% đoạn dữ liệu có nghĩa được phát hiện Tuy nhiên, độ chính xác thì tương đối thấp do xuất hiện nhiều đoạn dư thừa (57.08% - 68.95%) Ket hụp thêm bộ lọc thứ hai, độ gợi nhớ được giữ nguyên trong khi độ chính xác tăng lên đáng kể (81.08% - 95.27%) Điều này chứng tỏ rằng việc kết hợp các kỹ thuật đưa lại kết quả cao hơn so với phương pháp chỉ dùng một kỹ thuật đơn lẻ Độ gợi nhớ được giữ nguyên chứng tỏ sự hiệu quà trong việc lựa chon ngưỡng cho bộ lọc dựa trên tốc độ ra ký tự
Bảng 1 Phân đoạn theo vận tốc tay với các ngưỡng vận tốc khác nhau
N gưỡng vận tốc Phân đoan theo vân tốc
Bảng 2 Phân đoạn theo vận tốc tay và bộ lọc dựa trên tốc độ ra ký hiệu với các
ngưỡng vận tôc khác nhau
N gưỡng vân tôc
Phân đoạn theo vận tốc và bộ lọc dựa
trên tốc độ ra ký hiệu
Độ chính xác (%) Độ gợi nhớ (%)
Trang 14Hình 9 Đ ộ gợi nhớ của hai kỹ thuật phân đoạn.
4 K ết quả ngh iên cứu
o 01 báo cáo tổng hợ p về kết quả nghiên cứu của đê tài
Trang 15• Kết quả ứng dụng
01 chương trình phân đoạn và nhận dạng các chữ cái tiếng Việt trong dòng dừliệu theo thời gian
• Kết quả đào tạo
o 01 khoá luận cử nhân chuyên ngành CNTT:
Trần X uân Dũng, “ Các phương pháp mô tả ngôn ngữ dấu hiệu và ứng dụng xâydựng từ điển nhập liệu cho ngôn ngữ đấu hiệu Tiếng Việt” , 2007
5 K ết luận
Trong đề tài này, chúng tôi đã đề xuất ra một phương pháp mới cho phân đoạn chữ cái tiếng Việt trong ngôn ngữ dấu hiệu Chúng tôi áp dụng nhiều kỹ thuật tuần tự để xác định đoạn dữ liệu có nghĩa trong dòng dữ liệu thu được theo thời gian Đầu tiên, vận tốc của tay được tính toán Các đoạn dữ liệu tương ứng với tay đứng yên được lựa chọn Một bộ lọc dựa trên tốc độ ra ký tự được áp dụng để loại bỏ những đoạn dữ liệu không chính xác Cuối cùng, ký tự được nhận dạng và nhóm lại thành từ dựa trên từ điển tiếng Việt Với phương pháp này, chúng tôi đạt được độ chính xác và độ gợi nhớ cao trong việc phân đoạn So với những kỹ thuật hiện có, phương pháp này trả lại kết quả có độ chính xác cao hơn N hững vấn đề đặc biệt như hai chữ cái liền kề giống nhau cũng được giải quyết Ngoài ra, việc phân tách từ tự động cũng được xem xét và giải quyết trong phương pháp này Phương pháp được đề xuất cung cấp m ột giái pháp hoàn chỉnh cho việc tách từ được biểu diễn bằng ngôn ngữ cử chỉ tiếng Việt theo cách đánh vần không dấu Phương pháp được đề xuất đã được thử nghiệm và thu được kết quả tốt
Vấn đề phân đoạn cho các chữ cái tiếng Việt có dấu chưa được xem xét trong đề tài này Ngoài 23 chữ cái thông thường, tiếng Việt còn có những chữ cái có dấu (À, Ă, ô,
ơ, Ê, và Ư) và sáu thanh (bang, sắc, huyền, hỏi, ngà, và nặng) Trong ngôn ngữ dấu hiệu tiếng Việt, các dấu râu, dấu mũ, dấu móc được biểu diễn bằng một cử chỉ đặc biệt Các
cử chỉ này sẽ theo sau một số chữ cái nhất định để tạo ra một chữ cái có dấu Phương pháp được đề xuất hoàn toàn có thể áp dụng để tách các dấu này Tuy nhiên, phương pháp tách từ dựa trên việc ghép các chữ cái thành từ sau khi nhận dạng sẽ cần được làm mịn T rong trường hợp năm thanh (sắc, huyền, hỏi, ngã, và nặng), mỗi thanh sẽ được thể hiện bàng sự kết hợp một cử chỉ và chuyển động Do cách biểu diễn đặc biệt như vậy, việc phân đoạn liên quan đên việc nhận dạng và tách các chuyển động có nghĩa Phương pháp được đề xuât cần phải được m ở rộng mới có thể giải quyết được vấn đề này
T rong tương lai, chúng tôi sẽ thực hiện phương pháp được đề xuất với các kỹ thuật nhận dạng khác nhau dê thu được kết quả toàn diện C hủng tôi cùng quan tâm đến việc
m ở rộng phư ơ n g pháp cho tiêng Việt có dàu Ngoài ra, chúng tôi cũng dự định áp dụng phương pháp này cho các ứng dụng sử dụng m áy quay (vision based approach)
Trang 166 Tài liệu th am k h ả o
Tài liệu tiếng nước ngoài
[ l j D u r e l l B ouchard (2006), “Automated Time Series Segmentation for Human
http://cg.cis.upenn.edU/hms/research/RlVET/AiitomatedTimeSeriesSegmentation.p
df.
[2] H Sagawa, and M Takeuchi (2000), “A M ethod for Recognizing a Sequence o f )f
Sign Language W ords Represented in a Japanese Sign Language Sentence” , Proc Fourth IEEE International Conf on Automatic Face and Gesture Recognition, pp
434-439
[3] N Tanibata, and N Shimada (2002), “Extraction o f Hand Features for Recognition
o f Sign Language W ords”, Proc I n t’l Conf Vision Interface, pp 391-398.
[4] Rung-Huei Liang, Ming O uhyoung (1998), “A Real-time Continuous Gesture
Recognition System for Sign Language”, Proc Third IEEE International Conf on Automatic Face and Gesture Recognition, pp 558-567.
[5] Gaolin Fang, Wen Gao, Xilin Chen, Chunli W ang, and Jiyong Ma (2001), “Signer- independent Continuous Sign Language Recognition Based on S R N /H M M ” ,
Lecture Notes In Computer Science, vol 2298, pp 76-85.
[6] Philip A Harling, and Alistair D.N Edwards (1996), “Hand tension as a gesture
segmentation cue” , Proc o f Gesture Workshop on Progress in Gestural Interaction, pp 75-88.
[7] Peter V amplew , and Anthony Adams (1998), “Recognition o f sign language
gestures using neural networks”, Australian Journal o f Intelligent Information Processing System s, pp 94-102
[8] Sylvie c w Ong and Surendra Ranganath (2005), “Automatic Sign Language
Analysis: A Survey and the Future beyond Lexical m eaning” , IEEE Transaction on Pattern Analysis and Machine Intelligence, vol 27, no 6, pp 873-891.
[9] J K aram er and L Leifer (1978), “The Talking Glove: An Expressive and Receptive Verbal C ommunication Aid for the Deaf, Deaf-Blind, and N onvocal” ,
Pi VC Third Ann Conf Computer Technology>, Special Education, Rehabilitation,
pp 335-340
[10] J Wu and w Gao (2001), “The Recognition o f Funger-Spelling for Chiness
Sign L an guage” , Proc Gesture Workshop, pp 96-100.
[11] R Erenshteyn, p Laskov, R Foulds, L Messing, and G Stem (1996),
“R ecognition A pproach to Gesture Language U nderstanding”, Proc I n t ’I Conf Pattern Recognition, vol 3, pp 431-435.
Trang 17[12] H Birk, T.B M oeslund, and C.B Madsen (1997), “Real-Time Recognition o f Hand Alphabet Gestures Using Principal C om ponent A nalysis” , Proc Scandinavian Conf Image Analysis, pp 261-268.
[13] N Chaimanonart, and D J Young (2006), “ Remote RF powering system for
wireless M EM S strain sensors”, IEEE Sensors Journal, Vol 6-2, pp 484 - 489.
[14] Fifth Dimension Technologies (2004), “ 5DT Data Glove Ultra Series, U ser’s
M anual”, http://www.5D T.com
[15] The Duy Bui, and T hang Long N guyen (2007), “Recognizing postures in
Vietnam ese Sign Language with M EM S accelerometers” , Sensors Journal, IEEE,
vol 7-5, pp 707-712
[16] D Rubine (1991), “ Specifying Gestures by Exam ple” , Computer Graphics, pp
329-337
[17] T Takahashi and F Kishino (1991), “Hand Gesture Coding Based on
Experiments using a Hand Gesture Interface Device” , SIGCHI Bulletin, pp 67-73.
Trang 18P H Ụ L Ụ C
1 01 bài báo tại tạp chí Khoa học tự nhiên và công nghệ, Đại học quuốc gia Hà Nội
2 01 khoá luận cử nhân chuyên ngành C N TT
3 Đe cương và hợp đồng thực hiện đề tài nghiên cứu
4 Báo cáo tóm tắt kết quả nghiên cứu (01 bản tiếng Việt, 01 bàn tiếng Anh)
5 Phiếu đăng ký kết quả nghiên cứu KHCN
ĐAI H O C Q U Ố C GIA HÀ NÔI TRUNG TẦM THÔNG TIN THƯ VIỆN
Trang 19ĐẠI HỌC QUOC GIA HA NỘI
VIETNAM NATIONAL UNIVERSITY, HANOI
I5 5 N 0 3 6 6 ■ 3 6 1 2
J C I U R N A L D F S C I E N C E
KHOA HỌC Tự NHIÊN VÀ CÕNG NGHỆ
NATURAL SCIENCES AND TECHNOLOGY
Special Issue on ICT Research and Development
Symposium of Hanoi Forum on Information and Communication Technology
Trang 20VIETNAM NATIONAL UNIVERSITY, HANOI
JO URNAL OF SCIENCE
NATURAL SCIENCES AND TECHNOLOGY
Vol 24, N o 3S, 2008
CONTENTS
1 Dom inique E stival, A uthor attribution with email messages 1
2 Ho T u Bao, Vietnamese language processing: issues and challenges 10
3 M a th a i Jo se p h , N e w opportunities in software engineering 17
4 Cao Tuan D ung, N guyen Thi Thu Trang, N guyen Due D at, K ieu Q uang T hien, Do
Dinh T h a n g , An approach based on web services and ontology for improving the
5 Cao Tuan D ung, N guyen Thi Thu T rang, Trinh Tuan D at, N guyen Tu H oan, Ngo
T u a n Phong, Method and tool for semantic web query construction and graphical
6 Oily Gotel, Vidya K ulkarni, Des Phal, M oniphal Say, C hristelle Scharff,
T h a n w a d e e S u n e tn a n ta , Impacting global software development through socialization
7 Ho Tu Bao, Pham N goe K hanh, Ha Thanh Le, N guyen Thi Phuong T hao, Issues
and first phase development o f the English-Vietnamese translation system E V S M T 1 0 59
9 Nguyen Quoc D ai, N guyen Quoc Dat, Pham Bao Son, B ui The D uy, A fast
10 N guyen T hi N hat T hanh, Bui The D uy, A new framework for automated gesture
1 1 Pham Van H uong, T ran M inh Tuan, Do Q uoc H uy, Le H on g T rang,
Vu Thanh N han, N guyen N goe B inh, Truong Anh H oang, V u Q uang D ung, Some
12 c R osenthal-Sabroux, Towards a new vision o f Information System Engineering 100
13 Tran N goc Bao, N guyen D inh T huc, Tran Dan Thu, An improvement o f Graph
Isomorphism based authentication protocol using modular Matrix cipher 108
14 Tran Binh G iang, P h am D ue D ang, Pham Bao Son, A know ledge engineering
approach for English-Vietnamese weather bulletins machine translation 1 1 6
15 Trinh Thanh Binh, T ru on g Anh H oang, N guyen Viet H a, A dynamic birthmark to
6 To Van Khanh, P ham Van Viet, T ruong Ninh Thuan, N guyen Viet Ha, Checking the
conformance between the implementation and P SM specifications in com ponent model 131
Trang 21VNU Journal of Science, Natural Sciences and Technology 24, No 3S (2008) 82-89
A New Framework for Automated Gesture Segmentation in
Vietnamese Sign Language
Thi Nhat Thanh N guyen1’*, The Duy B u i 1
1Human Machine Interaction Laboratory, College o f Technology', Vietnam National University, Hanoi
E3, /44 Xuan Thuv, Can Giay, Hanoi Vietnam
R eceived
A b str a ct In this paper, w e propose a new framework for autom atic segm en tation in V ietn am ese sign language W e fo cu s on sig n in g with postures, in w h ich user sp ells each w ord with finger sign s corresponding to the letters o f the alphabet In our framework, a num ber o f tech niques are applied sequ en tially to identify the valid segm en t for each letter in the tim e serial data Firstly, hand
v elo city is calculated to find the stable candidates w here v elo citie s d ecrease to a threshold Then,
w e apply a filter based on the sig n in g rate featured by the hold in g duration o f a sign to rem ove superfluous segm ents A t each valid segm ent, the letter is recognized A fter that, w ords com p osed from these letters are segm en ted according to the lexicon o f V ietn am ese Sign Language With our framework, a sentence exp ressin g by finger sp ellin g can be con tin u ou sly segm en ted with high
recall and precision rate.
Keywords Vietnamese Sign Language, letter segmentation, velocity filter, s i g n i n g rate n i t e r ,
m a x i m a l m a t c h i n g
1 Introduction
Sign language, a non-verbal language, is
a primary means o f com m unication in the
d e a f com m unity Different from speech, sign
language uses finger spelling and gestures to
convey inform ation A utom atic sign
language recognition and interpretation
conccntrate on understanding hu m an signs
and translating them into text or speech,
which might help to o vercom e the difficulties
* Corresponding author Tel.: +84 4 3754 yu io
E-mail: thanhntn;»!vnu.edu.vn.
in com m unication between the deft people and the rest o f the world These systems are often developed with two main approaches: vision based approach and device based approach C o rresponding to the two approaches, tim e-serial data is obtained as the input o f systems in two different formats Vision based approach uses video cam eras to capture u s e r’s gesture, while device based approach depends on sensing gloves to get hand param eters such as jo in t angles and hand position.
Sign language is presented by the sequential gestures in which some gestures
1