Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 33 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
33
Dung lượng
5,75 MB
Nội dung
Phụ lục Phần I: Tương tác thực tại ảo và giao diện tự nhiên NUI. 1. Khái niệm chung về tương tác thực tại ảo. 2. Các hình thái phát triển của giao diện chương trình máy tính. 3. Thị giác máy tính và ứng dụng trong tương tác thực tại ảo. Phần II : Một số kỹ thuật phát hiện nhanh đối tượng trong ảnh. 1. Kỹ thuật Paulviola sử dụng ảnh tích phân. 2. Kỹ thuật sử dụng Histogram hướng gradient ảnh HOG. 3. Kỹ thuật tách nền ảnh. Phần III : Phát triển ứng dụng tương tác thực tại ảo dựa trên các kỹ thuật phát hiện nhanh đối tượng trong ảnh. 1. Phát hiện nhanh các mẫu theo phương pháp Paulviola. 2. Phát hiện chuyển động của vật trong ảnh. 3. Kết quả thực nghiệm và đánh giá. Phần IV : Kết luận và hướng phát triển. Phần I: Tương tác thực tại ảo và giao diện tự nhiên NUI 1. Khái niệm chung về tương tác thực tại ảo. Công nghệ thực tế ảo là một thuật ngữ mới xuất hiện khoảng đầu thập kỷ 90,nhưng thực sự phát triển mạnh trong vòng vài năm trở lại đây. Theo dự đoán của Gartner (tổ chức nghiên cứu thị trường toàn cầu), VR đứng đầu danh sách 10 công nghệ chiến lược năm 2009. Tại Mỹ và châu Âu, thực tế ảo (Virtual Reality-VR) đã và đang trở thành một công nghệ mũi nhọn nhờ khả năng ứng dụng rộng rãi trong mọi lĩnh vực (nghiên cứu và công nghiệp, giáo dục và đào tạo, du lịch, dịch vụ bất động sản, thương mại và giải trí, ) và tiềm năng kinh tế, cũng như tính lưỡng dụng (trong dân dụng và quân sự) của nó. 1 Vậy VR- Thực Tế Ảo là gì? Trước hết chúng ta hãy giải thích nó qua khía cạnh chức năng. VR là một hệ thống mô phỏng trong đó đồ họa máy tính được sử dụng để tạo ra một thế giới "như thật". Hơn nữa, thế giới "nhân tạo" này không tĩnh tại, mà lại phản ứng, thay đổi theo ý muốn (tín hiệu vào) của người sử dụng (nhờ hành động, lời nói, ). Điều này xác định một đặc tính chính của VR, đó là tương tác thời gian thực (real-time interactivity). Thời gian thực ở đây có nghĩa là máy tính có khả năng nhận biết được tín hiệu vào của người sử dụng và thay đổi ngay lập tức thế giới ảo. Người sử dụng nhìn thấy sự vật thay đổi trên màn hình ngay theo ý muốn của họ và bị thu hút bởi sự mô phỏng này. Từ các phân tích trên, chúng ta có thể thấy định nghĩa sau đây của C. Burdea và P. Coiffet về VR là tương đối chính xác:VR- Thực Tế Ảo là một hệ thống giao diện cấp cao giữa Người sử dụng và Máy tính. Hệ thống này mô phỏng các sự vật và hiện tượng theo thời gian thực và tương tác với người sử dụng qua tổng hợp các kênh cảm giác. Một số ứng dụng chính của VR Tại các nước phát triển, chúng ta có thể nhận thấy VR được ứng dụng trong mọi lĩnh vực: Khoa học kỹ thuật, kiến trúc, quân sự, giải trí, du lịch, địa ốc và đáp ứng mọi nhu cầu: Nghiên cứu- Giáo dục- Thương mại-dịch vụ. Y học, du lịch là lĩnh vực ứng dụng truyền thống của VR. Bên cạnh đó VR cũng được ứng dụng trong giáo dục, nghệ thuật, giải trí, du lịch ảo (Virtual Tour), bất động sản . . . Trong lĩnh vực quân sự, VR cũng được ứng dụng rất nhiều ở các nước phát triển. Bên cạnh các ứng dụng truyền thống ở trên, cũng có một số ứng dụng mới nổi lên trong thời gian gần đây của VR như: VR ứng dụng trong sản xuất, VR ứng dụng trong ngành rôbốt, VR ứng dụng trong hiển thị thông tin (thăm dò dầu mỏ, hiển thị thông tin khối, ứng dụng cho ngành du lịch, ứng dụng cho thị trường bất động sản ) VR có tiềm năng ứng dụng vô cùng lớn. Có thể nói tóm lại một điều: Mọi lĩnh vực "có thật " trong cuộc sống đều có thể ứng dụng "thực tế ảo" để nghiên cứu và phát triển hoàn thiện hơn. : 2 Hình 1.1. Hình ảnh của ti vi 3D 2. Các hình thái phát triển của giao diện chương trình máy tính. a. Command line interface (CLI). CLI là giao diện thuộc về chương trình phần mềm mà bạn truy cập định tuyến- không rõ từ bàn phím điều khiển hay qua kết nối mạng từ xa. CLI tự động khởi động sau khi bộ định tuyến kết thúc sự khởi động, cung cấp các lệnh mà bạn dùng để thực hiện những nhiệm vụ khác nhau, bao gồm cấu hình phần mềm JUNOS với màn hình và xử lý sự cố phần mềm, kết nối mạng và phần cứng bộ định tuyến. CLI là một giao diện chỉ dẫn đơn giản. Bạn gõ các lệnh trên một dòng đơn, và các lệnh được thực hiện khi bạn nhấn phím enter. CLI cung cấp lệnh chỉ dẫn và lệnh bổ sung, và nó cũng cung cấp bàn phím tuần tự kiểu chương trình Emacs cho phép bạn di chuyển xung quanh một dòng lệnh và cuộn đường xoáy ốc qua bộ đệm bao gồm những lệnh đã được thực hiện gần đấy. CLI được biểu thị bởi sự hiện diện của dấu >, cái mà được quyền ưu tiên bởi một chuỗi tự động đến tên của người dùng và tên của phần định tuyến. Start > Run > command (window 2000 Start > Run > cmd) Hình 2. Cửa sổ sau khi thực hiện lệnh Start-> Run > command. Sau dấu >, gõ “dir” trong cửa sổ, giới hạn bởi những thư mục bắt đầu bởi ký tự w ta gõ “w*” 3 Hình 3. Cửa sổ xuất hiện sau khi thực hiện một số lệnh như trên. Thủ thuật tương tự này có thể được dùng để thay đổi thư mục (lênh cd), điều đó có lợi khi tên thành phần bạn muốn gõ quá dài. Ví dụ: C\program file\3g usb modem\ Như thế, ta có thể gõ: Cd pro* Cd 3g* Cũng có thể cắt và paste với CLI bên trong một cửa sổ. b. Graphical user interface (GUI) Một GUI là một giao diện người dùng với máy tính bằng đồ họa. Giống như việc đọc ở đây, chúng ta đang nhìn giao diện đồ họa người dùng của hệ điều hành. Hệ điều hành chính ngày nay cung cấp một GUI. Các ứng dụng điển hình sử dụng các phần tử của GUI để đến hệ điều hành và thêm các phần tử cùng các ý tưởng GUI của cá nhân họ. Đôi khi GUI dùng một hay nhiều phép ẩn cho các đổi tượng thân thiết trong đời sống thực, giống như màn hình, quan sát qua một cửa sổ, hay bản thiết kế vật lý trong 1 tòa nhà. Các phần tử của một GUI bao gồm những thứ như: +Windows :bạn có thể chia màn hình ra thành nhiều vùng khác nhau, trong mỗi cửa sổ, bạn có thể chạy một chương trình khác nhau hay hiển thị một tệp tin khác nhau. Bạn cũng có thể di chuyển cửa sổ xung quanh màn hình hiển thị và thay đổi hình dạng và kích thước của chúng. 4 Hình 4. Cùng lúc hệ điều hành cho phép thực hiện nhiều chương trình. + Desktop: vùng trên màn hình hiển thị nơi các icon được nhóm lại, được đề cập đến như desktop vì các icon được tính toán để biểu diễn các đối tượng thực trên một desktop thực. + Các trình đơn kéo xuống: hầu hết giao diện đồ họa người dùng cho phép bạn thực hiện các lệnh bằng cách lựa chọn từ trình đơn kéo xuống. +Các biểu tượng: biểu tượng là hình vẽ gần giống hoặc gợi nhớ cho người xem về khái niệm mà nó đại diện.Bằng việc di chuyển điểm đến biểu tượng và xử lý một nút chuột, bạn có thể thi hành một lệnh hoặc chuyển đổi biểu tượng vào một cửa sổ. Bạn cũng có thể di chuyển biểu tượng xung quanh màn hình hiển thị như là chúng là các đối tượng thực trên màn hình. + Pointer: một biểu tượng xuất hiện trên màn hình hiển thị và bạn di chuyển để chọn các đối tượng và các lệnh. Thông thường, pointer xuất hiện giống một mũi tên nhỏ. Hình 5. Biểu tượng poiter xuất hiện trên màn hình. + Pointer device: một thiết bị giống như chuột hay bong xoay, cho phép bạn chọn các đối tượng trên màn hình hiển thị. Ngoài ra, còn có các nút và các thanh cuộn. Với việc tăng dùng da phương tiện như bộ phận của GUI, âm thanh, giọng nói, thu hành động, các giao diện thực ảo giống như một phần của GUI trong nhiều ứng dụng. Một GUI của hệ thống cùng với các thiết bị đầu vào đôi khi được đề cập tới giống như “nhìn và cảm nhận nó”. 5 Hình 6 c. Nateral user interface (NUI). Gần đây, có một số cuộc hội thảo đặt ra một định nghĩa cho thuật ngữ “natural user interface”, Richard Monson-Haefel ( người vừa được ký với O’Reilly trên một quyển sách iPad SDK) xem qua nhiều định nghĩa trên blog của ông và đã đi đến kết luận cuối cùng: “Một giao diện người dùng tự nhiên (natural user interface) là một giao diện người- máy tính, các cách thức tương tác giữa con người và môi trường tự nhiên.” Wikipedia cũng có một đoạn mô tả NUI như những giao diện ẩn và sự thiếu bàn phím và chuột, nhưng không có một định nghĩa nào thật sự súc tích. Ron George là một thành viên chính góp phần vào bài viết Wikipedia về NUI. Mệnh đề đầu tiên nói về NUI: là một giao diện người dùng hữu ích ẩn, hay trở nên ẩn với những mối tương tác liên tiếp. Có nhiều cách khác nhau đi đến khái niệm NUI. Con đường dễ dàng nhất để hiểu NUI là so sánh nó với những kiểu giao diện khác như GUI và CLI. NUI là sự phát triển tiếp sau của sự chuyển đổi từ giao diện dòng lênh (CLI) đến giao diện đồ họa người dùng (GUI). Trong CLI, người dùng phải học một nghĩa giả để nhập, bàn phím và một bộ mã nhập, có một sự giới hạn trong bộ đáp ứng, nơi mà cú pháp của các lệnh đó chính xác. Khi chuột kích hoạt GUI, người dùng có thể tìm hiểu dễ dàng hơn việc di chuyển và các tác động của chuột, có thể khảo sát nhiều giao diện hơn. GUI dựa trên các phép ẩn dụ để tương tác với nội dung và đối tượng trên màn hình. NUI loại bỏ các ẩn dụ và nhiều phương thức học nhân tạo, cho phép người dùng điều khiển trực tiếp nội dung sử dụng hơn các môi trường tự nhiên, những cử động và dáng điệu. Do NUI được học nhanh, trực giác được áp dụng bởi nhiều sự miêu tả làm thế nào để người dùng tương tác với nó. 3. Thị giác máy tính và ứng dụng trong tương tác thực tại ảo. 6 - Thị giác máy là một lĩnh vực đã và đang phát triển mạnh mẽ trên thế giới hiện nay. Khái niệm về thị giác máy – Computer Vision có liên quan tới nhiều ngành học và có nhiều hướng nghiên cứu khác nhau. Kể từ những năm 70 của thế kỷ 20 khi mà khả năng tính toán của các máy tính trở nên mạnh mẽ , nó có thể giải quyết được những công việc cần tới tốc độ cao như xử lý các tập ảnh hay các đoạn video thì thị giác máy được nhắc đến , nghiên cứu và phát triển cho đến ngày nay. - Thị giác máy là một lĩnh vực rất mới mẻ đối với các nhà nghiên cứu ở Việt nam, nó chỉ mới xuất hiện gần đây ở trong các tổ chức quân đội và một số viện nghiên cứu khác. Việc áp dụng thị giác máy vào các ứng dụng nghiên cứu khoa học được coi là một khởi đầu cho chặng đường phát triển của thị giác máy ở các trường đại học hiện nay. Thế nào là thị giác máy tính ? - Thị giác máy bao gồm lý thuyết và các kỹ huật liên quan nhằm mục đích tạo ra một hệ thống nhân tạo có thể nhận thông tin từ các hình ảnh thu được hoặc các tập dữ liệu đa chiều. Hình 7 Một số ứng dụng của thị giác máy vào các lĩnh vực được kể đến ở đây là: - Điều khiển tiến trình (ví dụ: trong các robot công nghiệp, hay các thiết bị, xe tự hành…). 7 - Phát hiện sự thay đổi (ví dụ: các thiết bị giám sát…). - Tổ chức thông tin (ví dụ: chỉ số kho dữ liệu các ảnh hoặc chuỗi ảnh liên tục…). - Mô hình hoá đối tượng (ví dụ: quá trình kiểm tra trong môi trường công nghiệp, xử lý ảnh trong y học). - Tương tác (đóng vai trò làm đầu vào cho thiết bị trong quá trình tương tác giữa người và máy). - Phần II : Một số kỹ thuật phát hiện nhanh đối tượng trong ảnh 1. Kỹ thuật Paulviola sử dụng ảnh tích phân. Các đặc trưng sử dụng trong thuật toán có thể được tính toán rất nhanh chóng khi ta sử dụng một cách thể hiện ảnh trung gian có tên là Integral Image. Integral Image ở vị trí x, y bằng tổng các điểm ảnh trên trái của điểm x, y; cụ thể: ' , ' ( , ) ( ', ') (4.1) x x y y ii x y i x y ≤ ≤ = ∑ trong đó ii(x, y) là Integral image, và i(x, y) là ảnh gốc. Hình 8. Ma trận trước và sau khi thực hiện Integral. Ngoài ra ta có thể định nghĩa nó một cách đệ quy như sau: 8 ( , ) ( , 1) ( , ) ( , ) ( 1, ) ( , ) (4.2) s x y s x y i x y ii x y ii x y s x y = − + = − + Trong đó: - s(x, y): là tổng luỹ tích theo hàng - s(x, -1) =0; ii(-1, y) = 0 Từ đó ta thấy Integral Image của ảnh có thể được tính thông qua ảnh gốc. Sử dụng Integral Image thì tổng của hình chữ nhật bất kì có thể tính toán thông qua dãy gồm 4 hình chữ nhật như hình 4.2. Trong đó tổng các điểm ảnh trong hình chữ nhật D có thể được tính thông qua tham chiếu 4 hình chữ nhật. Giá trị Integral Image ở điểm 1 bằng tổng các điểm ảnh trong hình chữ nhật A. Giá trị ở điểm 2 bằng A + B, ở điểm 3 là A + C, ở điểm 4 bằng A + B + C + D. Từ đó ta có thể tính tổng số các điểm ảnh trong D bằng 4 +1 – (2 + 3) Hình 9. Hình chữ nhật tính Integral. Ta có thể tính tổng hai hình chữ nhật thông qua tham chiếu 8 hình chữ nhật. 2. Kỹ thuật sử dụng Histogram hướng gradient ảnh HOG. Bộ mô tả HOG là những bộ mô tả đặc tính được dùng trong thị lực máy tính và xử lý ảnh với mục đích phát hiện đối tượng. Kỹ thuật này có giá trị định hướng số lần xuất hiện của độ lệch trong những phần nhỏ của một ảnh. Phương thức là tương tự như những biểu đồ định hướng biên, tỷ lệ- tính năng chuyển đổi bất biến mô tả, và các thuộc tính hình dạng, nhưng khác biệt ở chỗ dựa trên mạng lưới dày đặc các ô nhỏ đồng dạng và sử dụng chồng chéo việc bình thường hóa độ tương phản địa phương để cải thiện chất lượng. 9 Navneet Dalal và Bill Triggs, các nhà nghiên cứu cho Viện Nghiên cứu Khoa học Máy tính và kiểm soát (INRIA) của Pháp, lần đầu tiên mô tả Histogram of Oriented Gradient trong bài báo của họ vào tháng 6 năm 2005. Trong tác phẩm này, họ tập trung vào các thuật toán về vấn để phát hiện người đi bộ trong các ảnh tĩnh, từ đó họ mở rộng thử nghiệm của mình để phát hiện người trong phim và video, cũng như nhiều loại động vật phổ biến và các loại xe trong ảnh tĩnh. Những ý tưởng cơ bản đằng sau HOG là phát hiện vùng đối tượng và hình dạng bên trong một hình ảnh có thể được mô tả bởi sự phân bố của các độ lệch cường độ hoặc các hướng cạnh. Việc thực hiện các mô tả có thể đạt được bằng cách chia hình ảnh thành các vùng nhỏ kết nối, gọi là tế bào, và đối với từng tế bào lập một biểu đồ của độ lệch hướng hoặc cạnh định hướng cho các điểm ảnh trong tế bào. Sự kết hợp của các histograms sau đó đại diện cho mô tả. Đối với chất lượng được cải thiện, các vùng histograms có thể được tương phản-bình thường hóa bằng cách tính toán một thước đo của cường độ trên một khu vực lớn hơn của hình ảnh, được gọi là một khối, và sau đó sử dụng giá trị này để bình thường hóa tất cả các tế bào trong khối. Kết quả bình thường hóa trong bất biến này tốt hơn thay đổi trong chiếu sáng hay bóng. HOG duy trì một vài ưu điểm hơn các phương pháp mô tả khác. Kể từ khi HOG hoạt động trên tế bào định vị, phương pháp đề cao tính bất biến để biến đổi hình học và thuộc về trắc quang; thay đổi như vậy sẽ chỉ xuất hiện trong vùng không gian lớn hơn. Hơn nữa, vì Dalal và Triggs quan sát, không gian lấy mẫu thô, lấy mẫu định hướng tốt, và địa phương thuộc về trắc quang bình thường hóa mạnh mẽ cho phép chuyển động cơ thể cá nhân của người đi bộ để được bỏ qua, miễn là họ duy trì một vị trí gần như thẳng đứng. Các mô tả HOG là như vậy, đặc biệt thích hợp cho phát hiện con người trong hình ảnh. 10 [...]... ảnh và ứng dụng của nó trong bài toán tương tác thực tại ảo - Trình bày một số mô hình, thuật toán có liên quan 32 Cài đặt ứng dụng phát hiện nhanh đối tượng trong ảnh theo phương pháp của Paul Viola và một ứng dụng tương tác thực tại ảo Hướng phát triển của đề tài: - Cải tiến thuật toán để phát hiện đối tượng gần với thời gian thực - Cài đặt các ứng dụng tương tác thực tại ảo phức tạp hơn - Tài liệu... đoạn đã định nghĩa trong chỗ giao nhau của tập hợp điểm ảnh tương ứng đưa vào các ô chứa +Một khoảng trống ở các điểm là quan trọng nếu khoảng cách giữa các điểm đó và kho bên cạnh nó vượt trội một ngưỡng đã biết Hình 16 Đường thẳng tìm được theo Hough Áp dụng thuật toán vào bài toàn nhận dạng đầu một vật Bài toán: Tương tác thực tại ảo là tương tác giữa con người và máy tính Ở phần trên, chúng tôi đã... đó, tôi sẽ thực hiện bước tiếp theo của bài toán là thực hiện việc tương tác giữa người và máy tính Để làm được công việc này, tôi sẽ nhận dạng đầu của một vật có hình dạng tương tự đầu ngón tay trong vùng ảnh mà phần trước của bài toán đã xác định Trong thực tế, một vật có hình dáng, kích thước bao giờ cũng tồn tại một trục đối xứng tương đối Trục đối xứng trong bài toán được định nghĩa là đường thẳng... tượng trong ảnh thay đổi, đối tượng nào xuất hiện trước và sẽ được coi là nền Phần III : Phát triển ứng dụng tương tác thực tại ảo dựa trên các kỹ thuật phát hiện nhanh đối tượng trong ảnh 1 Phát hiện nhanh các mẫu theo phương pháp Paulviola - Mẫu dùng Các đặc trưng để nhận dạng theo phương pháp Paulviola là các hình chữ nhật hay hình vuông xen lẫn các ô đen và các ô trắng như các mẫu sau: Hình 12... 12 v ||v||1 + e v ||v||1 + e Ngoài ra, L2 Hys phương pháp có thể tính bằng cách lấy L2-định mức, cắt kết quả, và sau đó chuẩn hóa Trong thí nghiệm của mình, Dalal và Triggs tìm thấy L2-Hys, L2-định mức, và các đề án L1-sqrt cung cấp hiệu suất tương tự, trong khi đó L1-định mức cung cấp hiệu suất hơi ít đáng tin cậy, tuy nhiên, tất cả bốn phương pháp cho thấy sự cải thiện rất đáng kể so với các phi... hệ thống nhận dạng dựa trên việc nghiên cứu có giám sát Vector hỗ trợ máy phân loại là một bộ phân loại nhị phân như một chức năng quyết định Sau khi được huấn luyện về hình ảnh có chứa một số đối tượng cụ thể, phân loại SVM có thể đưa ra quyết định liên quan đến sự hiện diện của một đối tượng, chẳng hạn như một con người, trong hình ảnh kiểm tra bổ sung 3 Kỹ thuật tách nền ảnh Coi giá trị của một... xứng của một vật thể Đây chính là cải tiến của chúng tôi khi sử dụng biến đổi hough Thuật toán Input: ảnh qua camera Output: ảnh đã xác định được điểm đầu Hướng giải quyết: Bước 1:Dùng camera để thu hình ảnh, tại đó dùng kỹ thuật tách nền ảnh tách tất cả những hình ảnh động ra và chuyển thành màu trắng, ngược lại những hình ảnh tĩnh chuyển thành màu đen Từ đây, ta thu được ảnh đen trắng 17 Bước 2: Dùng... nhận ra đâu là đầu của khối sẽ khó khăn, thậm chí không như đúng khi sử dụng phương pháp này Như vậy, trung bình 1s, bài toán xử lý được khoảng 20 hình So với thực tế hiện nay, kỹ thuật 24 hình/s đã được phổ biến Do đó, kết quả bài toán có thể chấp nhận được Phần IV : Kết luận và hướng phát triển Qua một thời gian nghiên cứu, đề tài đạt được những kết quả như sau: - Nắm bắt và đưa ra những nội dung khái... tả về cơ bản để đạt được cùng một kết quả Tiền xử lý hình ảnh như vậy cung cấp tác động ít hiệu quả Thay vào đó, bước đầu tiên của tính toán là việc tính toán các giá trị gradient Các phương pháp phổ biến nhất là chỉ cần áp dụng 1-D trung tâm, điểm rời rạc dẫn xuất chắn ở một hoặc cả hai hướng ngang và dọc Cụ thể, phương pháp này đòi hỏi phải lọc màu hoặc cường độ dữ liệu của hình ảnh với bộ lọc hạt... thành 2phần tách biệt; hình b cho thấy một mo hình phân phối của một giá trị điểm ảnh từ sự phản chiếu trên mặt nước; hình c hiển thị phương thức khác từ màn hình động Mỗi giá trị điểm ảnh đại diện cho một phép đo bức xạ trong một bộ cảm biến định hướng đối tượng đầu tiên bị cắt bởi tia quang học của điểm ảnh Với mỗi trạng thái nền và trạng thái ánh sáng, giá trị sẽ được cố định một cách tương đối Giả . dụ: quá trình kiểm tra trong môi trường công nghiệp, xử lý ảnh trong y học). - Tương tác (đóng vai trò làm đầu vào cho thiết bị trong quá trình tương tác giữa người và máy). - Phần II : Một