Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 52 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
52
Dung lượng
7,51 MB
Nội dung
GIỚI THIỆU Năng lực tri giác cung cấp tác nhân với thông tin giới Sự nhận thức bắt đầu cảm biến Các cảm biến thứ mà thay đối trạng thái điện toán tác nhân đáp ứng để thay đổi trạng thái vũ trụ Nó xem đơn giản miếng cảm ứng mà phát đâu giống nút tắt mở hay phức tạp giống võng mạc mắt người mà chứa nhiều hàng tăm triệu thành phần cảm quang Có nhiều phương thức giác quang có khả để thiết lập tác nhân nhân tạo Ở chia với người bao gồm ảo giác, thính giác xúc giác Trong chương tập trung vào ảo giác, sâu xa hữu ích với tri giác để chia với nhà vật lý giới Thính giác ngữ cảnh nhìn nhận ngắn gọn trong phần sau Vị giác xúc giác đề cập nơi mà kiểm tra sử dụng thao tác tay ngừơi máy Chúng ta không làm tất mà phải có xem xét thiết kế cảm biến Điểm tập trung xử lý thông tin liệu thô mà cung cấp Với phương pháp đưa để trước tiên hiểu tác nhân kích thích tạo vũ trụ sau trả lời câu hỏi phía dưới: Nếu tác nhân kích thích cảm ứng đưa giống thê vũ trụ? Tiếp theo Vũ trụ có giống để có tác nhân kích thích đặc trưng làm không? Chúng ta dùng đặc trưng toán học để trả lời câu hỏi Cho tác nhân kích thích giác quan S W vũ trụ (w bao gồm tác nhân), mô tả cách vũ trụ ta nhận tác nhân giác quan: S =f(W) Bây câu hỏi là: Cho f S, Chúng ta nói W nào? Chúng ta suy : W = f ~’(S) Thật không mai, f làm không điều ngược lại Do đó, việc nhìn nhận khía cạnh mà phải bao quát tất khía cạnh trạng thái vũ trụ từ tác nhân kích thích Cho nên, chí phần phải nhìn nhận khía cạnh nhoc nhằn nhiều Chiều khóa xem xét việc học tri thức hiểu thêm thông tin mang lại để giải nhọc nhằn Vấn đề thứ có lẽ quan trọng nhiều hơn, mặc hạn chế phương pháp dễ hiểu phải cố gắng giải vấn đề khó Trong nhiều trường hợp tác nhân không cần để biết thứ vũ trụ, cần hai dự đóan cần thiết “Có cản trở phía trước chúng ta” “ Có lối thiết bị không?” Theo để hiểu biết xếp xử lý mà cần để làm cản trở vài thứ liên quan khả nhìn nhận: Sự vận dụng thủ công: Hiểu thấu vấn đề, luồn vào, v.v cần hình tượng thông tin cục phản hồi (Thu thập liệu hạn chế, xa kết đúng….) cho điều khiển Nghề hàng hải: Tìm đường rõ ràng, tránh trở ngại tính toán vận tốc hướng Đối tược công nhận: hữu dụng cho kỷ nhận mùi vị chuộc nguy hiểm sâu bọ, đối tượng ăn không ăn quan hệ gần xa lạ; Xe thông thường xe cảnh sát Không cho ứng dụng đòi hỏi nguồn gốc hoàn thành mô tả môi trường Trong phần tổ chức theo lưu đồ phía sau THÔNG TIN HÌNH ẢNH Công việc nhìn nhận thu nhặc lác đác ánh sáng từ đối tượng cảnh tạo hình ảnh chiều sau xếp để sử dụng hình ảnh để thu thông tin từ quan cảnh, hiểu để xử lý mặc hình học Máy chụp ảnh qua lỗ nhỏ: Cách đơn giản sử dụng máy chụp ảnh qua lỗ nhỏ hình sau Trong đó: Chọn P điểm cảnh Tích hợp (X,Y,Z) P’ hình ảnh mặt phẳng với kết hợp (x,y,z).Nếu f mặt phẳng từ Pinhole đến mặt phẳng hình ảnh có góc giống nhận cách trình bày sau: Chú ý hình ảnh đảo chiều, hai từ trái qua phải từ xuống ví cảnh biểu thị hình ảnh ký hiệu phủ định Biểu thức coi định nghĩa thông tin hình ảnh xử lý triển vọng đề án Tương đương lấy mẫu xử lý khả thi đề án với mặt phẳng đề án xét mặt trước sau lỗ nhỏ Thiết bị hình ảnh bề mặt đề án mặt trước đề nghị để sơn lại phục hưng người ý, Alberti năm 1432 kỹ thuật để xây dựng theo phương diện hình học để mô tả quang cảnh chiều Mục đích tìm tiện ích mẫu phần đảo chiều phần cần tránh loại trừ ký hiệu phủ định trong cân diễn cảnh đề án Dưới triển vọng đề án, đường song song xuất để hội tụ điểm chiều ngang vết đường Chúng ta thấy sau phải làm thế, biết từ tính toán véc tơ mà khả điểm P’ đường bỏ qua (X0, YO,ZQ) trực tiếp (U, V, W) cho (Xo + \U, Y0 + XV, ZQ + AW) với giá trị -∞ +∞ Đề án hình ảnh cho Hệ thống thấu kính: Mắt động vật có xương sống máy ảnh thật sử dụng thấu kính Thấu kính phải rộng lỗ nhỏ thị ánh sáng nhiều trả giá cho ảnh thật mà tất cảnh bị tập trung điểm giống Hình ảnh đối tượng khoản cách Z cảnh tạo khoản cách điểm từ thấu kính nơi có mối quan hệ Z Z’ cho ảnh cân Nới mà f chiều dài tiêu cự thấu kính Cho chắn chọn hình ảnh Z’ nút điểm tiêu cự mặt phẳng ảnh điểm ảnh với chiều sâu dãy bao quanh ZQ mà Z’Q tương ứng với đối tượng khoản cách hình ảnh tập hợp hình dạng hợp lý cách xếp chiều sâu cảnh dđược xem độ sâu dãy Chù ý đối tượng khoản cách Z đặc thù phải lớn khoản cách hình ảnh Z’ f thường tính phép sấp xỉ sau: Mặc dù, hình ảnh Z tương đương với f từ lý tiếp tuc để sử dụng viễn cảnh cân máy ảnh pinhole để mô tả định dạng hình ảnh hình học hệ thống thấu kính Theo đối tượng tập trung khoản cách khác Z, thấu kính mắt ( hình sau) Đo ánh sáng hình thành hình ảnh Ánh sáng của điểm p hình ảnh cân xứng để hướng trực tiếp số lượng ánh sáng hình ảnh bề mặt miếng vá S mà dự án để tính điểm p trường hợp phụ thuộc vào hệ số phản xạ thuộc tính vị trí Sp1 phân phối nguồn ánh sáng phụ thuôc vào thuộc tính hệ số phản xạ vấn đề ngữ cảnh, vì, bề mặt ngữ cảnh khác phục vụ trực tiếp nguồn ánh sáng phản xạ ánh sáng chúng nằm Sp1 Phản xạ ánh sáng từ đối tượng có tính chất rườm rà phản chiếu Ánh sáng phản chiếu rườm rà ánh sáng lan khắp bề mặt đối tượng Sự xuất bề mặt cân ánh sáng đề nhà quan sát trực tiếp Lambert's theo luật cos sử dụng để mô tả phản xạ ánh sáng từ khuyết tán bề mặt phản xạ Lambertiaii Cường độ phản xạ ánh sáng E từ khuyết tán hoàn hảo cho Trong E0 cường độ nguồn ánh sáng; p suất phân chiếu mà giá trị từ (từ bề mặt phản xạ ánh sáng đen) đến (bề mắt phản xạ ánh sáng trắng góc trực tiếp ánh sáng bề mặt bình thường Bề mặt phản chiếu ánh phản chiếu từ bề mặt bên đối tượng khả phản chiếu ánh sáng tập trung đường liên quan trực tiếp nơi mà tia phản xạ giống mặt phẳng bao gồm tia có đáp ứng trực tiếp góc độ phản xạ để có phạm vi ảnh hưởng góc Đó cách phản ứng hoàn hảo gương Trong sống thực, vật trưng kết hợp khuyết tán thuộc tính phản chiếu Kỹ thuật làm mẫu máy tính miếng bánh mì bơ đồ hoạ máy tính Sự biểu diễn hình ảnh thật thường vết tia mà nhắm tới tái tạo từ ánh sáng vật lý gốc đến ánh sáng nguồn phàn chiếu phản chiếu nhiều lần HOẠT ĐỘNG XỬ LÝ HÌNH ẢNH Như hình ảnh 24.5 (Hình sau) thị hình ảnh ngữ cảnh chứa sợi hoạt động bảng tốt cạnh phát hình ảnh Các cạnh viền mặt phẳng hình ảnh mà điều quan trọng để thay đổi độ sáng hình ảnh Mục tiêu cuối phát cạnh dựng lên đường vẽ lý tưởng hình 2.46 Động thúc đẩy đường viền bao quanh cạnh hình ảnh phù hợp để có đường nét ảnh quan trọng Trong ví dụ ta tính toán: ghi nhản 1; Bề mặt hướng xoay không liên tục; ghi nhản 2; Hệ số phản xạ không liên tục; ghi nhản chiếu sáng không liên tục, ghi nhản Như thấy khác lớn đầu máy dò cạnh hình 24.5b đường vẽ lý tưởng Điển hình đường viền (như đỉnh cạnh sợi) Đường viền loan truyền tốt điểm không phù hợp cảnh Vòng xử lý cuối góc nhọn tìm thấy lổi tính toán Làm để phát góc nhọn hình ảnh? Xem xét lược rực rở 1-D chọn vuông góc với góc nhọn Cho ví dụ: hình ảnh góc nhọn trái bảng vách ngăn Nó thị thứ giống hình 24.1(a) Vị trí góc nhọn phù hợp x =50 Bởi góc phù hợp đến vị trí hình ảnh mà khối nhọn rực rở thay đổi, hình dung có lẽ phân biệt hình ảnh nhìn nhận độ lớn phát sinh I’(x) lớn.Trong hình 24.7(b) thấy điều Mặc dù, đầu nhọn x =50, đầu nhọn khác vị trí khác (vd:x =75) Đó khả bị lổi Chúng ta phải có nhiều kết tốt kết hợp hoạt động khác với làm nhẵn Kết hình 24.7 (c), mà trung tâm đỉnh x =50 số lại đỉnh phụ phải bớt Điều cho phép ta tìm cạnh không ảnh hưởng tiếng Để hiểu ý đồ quan trọng hơn, cần khái niệm cuộn toán học Nhiều hoạt động xử lý hình ảnh hữu dụng làm nhẳn phân biệt thực hình ảnh cuộn lại với chức thích hợp Nếp cuộn với lọc đường kẻ Kết nếp cuộn hai chức f g chức h, chứng tỏ h= f*g mà định nghĩa Để tiếp tục tách biệt kĩnh vực Đặc trưng chức f g điều có nghĩa làm việc số khác thời gian hạn chế Vì tính toán đễ dàng máy tính Chức tổng quát định nghĩa chiều ( hình ảnh) thẳng đứng Chúng ta thay đầy đủ 1- D –D -> kết chức f g chức h Biểu diễn h= f*g Nếu làm chức để mô tả ta có công thức sau: Phán viền Hình 24.24 Những thông tin cần thiết cho phận kiểm sóat ảo xe cộ đường cao tốc Hình 24.25 Hình ảnh nắm bắt đường từ camera xe ô tô Mô hình âm thanh: P (signallwords) Mô hình âm chiụ trách nhiệm nói điều mà âm sản xuất chuỗi cho từ nói Chúng chia cắt mô hình vào hai phần Đầu tiên, cho thấy từ mô tả chuỗi phôn, sau cho thấy điện thoại liên quan đến lượng tử hóa vectơ giá trị rút từ âm hiệu Một số từ có mô hình phát âm đơn giản Từ " Mèo," chẳng hạn, luôn phát âm với ba từ phôn fK a? T] đó, Tuy nhiên, Hai nguồn biến đổi ngữ âm Những phương ngữ Đầu tiên, khác có phát âm khác Đỉnh Hình 24.35 cho ví dụ điều này: cho " cà chua," bạn nói [tow mey tow] Tôi nói [ tow maa tow Những phát âm thay rõ mô hình Markov Nói chung, mô hình Markov cách mô tả trình mà xuyên qua loạt trạng thái Mô hình mô tả đường dẫn xuyên qua không gian trạng thái gán xác suất tới trạng thái Xác suất từ trạng thái thời đến người vật khác phụ thuộc trạng thái thời, không tiên nghiệm chia đường (Đây tài sản Markov đề cập Chương 17) Đỉnh Hình 24.35 mô hình Markov với bảy vòng tròn trạng thái, đỉnh Hình 24.35 mô hình Markov với bảy vòng tròn trạng thái, tương ứng tới sản xuất điện thoại Những mũi tên biểu thị chuyển tiếp phép trạng thái Sự chuyển tiếp cho liên quan đến xác suất Có có hai đường dẫncó thể thông qua mô hình tương ứng tới chuỗi điện thoại [t ow m ey t ow] khác tới [ t ow m aa t ow] Xác suất đường dẫn sản phẩm xác suất cung mà thiet lap đường dẫn Trong trường hợp này, hầu hết xác suất cung Và Chúng Có P ([towmeytow] ("cây cà chua ") = P ([to ma tow] ("cây cà chua ") = 0.5 Nguồn thứ hai biến đổi ngữ âm coarticulation Nhớ âm tiếng nói sản xuất việc di chuyển lưỡi quai hàm bắt buộc không khí xuyên qua khoảng rộng phát âm Khi người nói nói chậm cố tình, có thời gian để đặt lưỡi chỗ trước sản xuất điện thoại Nhưng người nói nói chuyện cách nhanh chóng (hoặc với tốc độ bình thường), Khi nói nhanh, bên môt nửa đưa cho phát âm phức tạp Trong mô hình có bốn đường dẫn phân biệt rõ ràng có: P([towmeytow]\"tomato") = P([towmaa tow] ("tomato") = 0.1 P([tahmeytow]\"tomato") = P([tahmaatow]\ "tomato") = 0.4 Những mô hình tương tự xây dựng cho từ có khả để đoán nhận Bây tín hiệu tiếng nói danh sách điện thoại, làm với mô hình âm Chúng cầm lấy tín hiệu vào cho ( e.g , [towmeytow]) tính toán P (tín hiệu \ từ) cho chuỗi từ khác (e.g , "cà chua," " toe may tow," vân vân) Sau kết hợp với P từ giá trị lấy từ mô hình ngôn ngữ để đến từ tăng tối đa P (từ \ tín hiệu) Thật không may, xử lý tín hiệu không cho chuỗi điện thoại Vì vậy, tất làm tối đa hóa P (từ \ điện thoại) Hình 24.36 cho thấy cách thức tính P (tín hiệu \ điện thoại) cách sử dụng mô hình gọi mô hình Markov ẩn HMM Mô hình cho điện thoại đặc biệt Từ mô hình với coarticulation phương ngữ biến đổi Từ mô hình với biến thể phương ngữ: Hình 24.35 Hai mô hình phát âm (của) từ " Cây cà chua." Một tài khoản đỉnh cao Cho khác phương ngữ Một đáy chiếm hiệu ứng [m] Nhưng phôn có mô hình với địa học tương tự Một mô hình Markov ẩn tương tự Markov bình thường mẫu điều mô tả trình mà xuyên qua chuỗi trạng thái Sự khác mô hình Markov bình thường, đầu chuỗi tên trạng thái, trạng thái có tên nhất, đầu xác định đường dẫn xuyên qua mô hình Trong mô hình Markov ẩn, tiểu bang có phân bố xác suất kết đầu có thể, đầu xuất nhiều trang thái HMMs gọi mô hình ẩn thật số biểu tượng chắn đến từ mô hình ẩn từ quan sát Nói chung, bạn thấy kết đầu HMM Giả thiết tín hiệu tiếng nói xử lý để nhượng chuỗi giá trị lượng tử hóa vectơ [C1 ,C4,C6] Từ HMM Hình 24.36, tính toán xác suất mà chuỗi sinh điện thoại [m] theo sau Đầu tiên, ý có có đường dẫn xuyên qua mô hình mà có lẽ phát sinh chuỗi này: đường dẫn từ tới kết thúc, nơi nhãn đầu từ ba trạng thái C1, C4, C6 tương ứng Bằng việc quan sát xác suất cung chuyển tiếp, nhìn thấy xác suất đường dẫn 0.7 x 0.1 x 0.6 (đây giá trị ba mũi tên nằm ngang Hình 24.36) Tiếp theo, quan sát xác suất đầu cho trạng thái để nhìn thấy xác suất [C ,C4,C6] đưa cho đường dẫn 0.5 x 0.7 x 0.5 (đây giá trị cho P (C1\đầu), P (C4\giữa) P(C6\ cuối ), tương ứng) Vì xác suất Của [Cl ,C4,C6] cho [m] mô hình Một HMM Điện Thoai [m]: 0.3 0.9 0.4 0.7 Onset 0.7 Mid 0.1 End 0.6 FINAL Ngõ xuất cho mô hình điện thoại kiểu HMM: Onset: C1:0.5 C2:0.2 C3:0.3 Mid: C3:0.2 C4:0.7 C5:0.1 End: C4:0.1 C6:0.5 C7:0.4 Trang 41 Hình 24.36 Một HMM (cho) điện thoại [m] Mỗi trạng thái có vài đầu có thể, Từng Với xác suất (của) riêng Chúng lặp lại tính toán cho mô hình điện thoại khác để nhìn thấy nhiều nguồn tín hiệu tiếng nói Thật sự, đa số phôn có khoảng thời gian 50-100 mili-giây, 5-10 kết cấu 10 msec/ khung Vì C1,C4, C6 Chuỗi nhanh khác thường Giả thiết có nhiều điển hình Người nói mà phát sinh chuỗi [ C1, C1, C4, C4, C6, C6 ] việc sản xuất điện thoại Là hai đường dẫn xuyên qua mô hình mà phát sinh chuỗi Chúng tính toán xác suất mà chuỗi đến Từ [m] mô hình cách: Tổng quát đường dẫn xác suất thời gian mà đường dẫn phát sinh chuỗi nguồn biến dị quan trọng P([Cl,C\,C4, C4, C6, C6]jLm]) = (0.3 x 0.7 x 0.9 x 0.1 x 0.4 x 0.6) x (0.5 x 0.5 x 0.7 x 0.7 x 0.5 x 0.5) + (0.3 x 0.7 x 0.1 x 0.4 x 0.4 x 0.6) x (0.5 x 0.5 x 0.7 x 0.1 x 0.5 x 0.5) = 0.0001477 Chúng ta thấy nhiều giá trị lượng tử hóa vectơ trạng thái đại diện cho nguồn biến dị khác Nhìn chung, điều làm cho mô hình mạnh mẽ Phần cứng nhận giá trị xác suất tốt cho tất tham số May mắn thay, có cách để có số từ liệu, nhìn thấy Trang 42 Đặt mô hình Chúng ta có ba mô hình mô tả Các mô hình bigram ngôn ngữ cho P (từ ngữ\ từ ngữ) Theo từ cách phát âm HMM cho P (điện thoại \ từ) Các HMM điện thoại cho P (tín hiệu \ điện thoại).Nếu muốn tính P (từ \ tín hiệu), cần phải kết hợp mô hình cách Một cách tiếp cận kết hợp họ tất vào HMM lớn Mô hình bigram suy nghĩ HMM mà trạng thái tương ứng tới từ từ có cung chuyển tiếp tới từ khác Bây thay trạng thái từ với mô hình từ thích hợp, nhượng mô hình lớn mà trạng thái tương ứng tới điện thoại Cuối cùng, thay trạng thái điện thoại với mô hình điện thoại thích hợp, nhượng mô hình chí lớn mà trạng thái tương ứng tới phân phối giá trị lượng tử hóa vectơ Một số hệ thống nhận dạng tiếng nói làm phức tạp tranh việc giải hiệu ứng từ/ từ mức điện thoại/ điện thoại Ví dụ, sử dụng mẫu điện thoại cho [ow] sau [t] mô hình khác cho [ow] sau [g] Ở tính toán P (từ \ tín hiệu) Có nhiều nhà khoa học thực hiện-một mô hình phức tạp xử lý hiệu ứng tinh tế, khó để đào tạo Bất kể chi tiết, kết thúc với HMM lớn mà sử dụng cho máy tính từ P (từ \ tín hiệu ) Trang 43 Thuật toán tìm kiếm Từ quan điểm lý thuyết, mà yêu cầu: mô hình mà tính toán P (từ ngữ\tín hiệu) Tất phải làm đánh số chuỗi Khả dĩ phát biểu, gán xác suất tới Thực tế, tất nhiên, làm được, có nhiều người May mắn, có cách tốt Thuật toán Viterbi làm mô hình HMM trình tự, sản lượng, [C \, € 2, • • •, Cn], trả đường dẫn xảy nhiều thông qua HMM kết đầu dãy Nó trả xác suất cho đường Hãy suy nghĩ thuật toán lặp tìm thấy tất đường dẫn biểu tượng đầu tiên, C\ Sau đó, cho đường dẫn tìm thấy đường xảy mà kết đầu phần lại dãy, cho chọn đường dẫn cụ thể cho C \ Cho đến điều âm hứa hẹn Nếu độ dài dãy n có M tiểu bang khác mô hình, sau thuật toán dường O (M ") Điểm mấu chốt thuật toán Viterbi sử dụng tài sản Markov để làm cho hiệu Các tài sản Markov nói đường xảy cho phần lại chuỗi phụ thuộc vào tiểu bang mà bắt đầu, điều khác đường mà Điều có nghĩa không cần phải xem xét tất đường dẫn dẫn đến nhà nước định; cho bang, cần theo dõi đường dẫn xảy kết thúc tiểu bang Vì vậy, thuật toán Viterbi ví dụ chương trình động Hình 24,37 cho thấy thuật toán làm việc HMM từ hình 24,36 xuất cột [Cl, C3, C4, C6 ] Mỗi cột đại diện cho tính lặp thuật toán Trong cột bên trái, thấy có cách để tạo chuỗi [Cl], với đường dẫn Các hình bầu dục nhãn " 0,5" có nghĩa đường kết thúc bang có 0.5 Dẫn đầu vào vòng cung hình bầu dục có nhãn "1,0; 0,5", có nghĩa xác suất việc chuyển đổi 1.0, xác suất cột xuất Cl, trình chuyển đổi thực hiện, 0,5 Trong cột thứ hai, xem xét tất cột có đường dẫn cột mà dẫn đến việc xuất từ [Cl, C3] Có hai đường dẫn vậy, kết thúc sớm bang Onset bang Mid Trong cột thứ ba thú vị Có hai đường dẫn từ Bang đầu đến Bang từ mũi tên đậm đường xảy (nó có xác suất 0,0441), Đó số phải nhớ Các đường dẫn [Onset, Onset, Mid] có xác suất thấp hơn, 0,022, đó, loại bỏ Chúng tiếp tục kiểu cách đến Bang cuối với số 0.0013 Trang 44 Hình 24.37 Một sơ đồ (của) giải thuật Viterbi tính toán nhiều đường (dẫn) ( Và Nó xác suất) (cho) đầu [C1 ,C3,C4,C6] HMM từ Hình 24.36 Đào tạo theo mô hình Cách tiếp cận HMM sử dụng nhận dạng giọng nói hai lý Trước hết, cách hợp lý tốt yếu tố hiệu suất, thấy thuật toán Viterbi tuyến tính chiều dài đầu vào Quan trọng hơn, HMMs học trực tiếp từ lớp huấn luyện [tín hiệu, từ ngữ] đôi Điều quan trọng khó để xác định tất thông số tay Có nhiều phương pháp khác mà làm cho yếu tố hiệu suất tốt so với HMMs, họ yêu cầu đào tạo liệu dán nhãn điện thoại điện thoại sở câu câu sở, nhiệm vụ khó khăn Thuật toán tiêu chuẩn cho việc đào tạo HMM gọi Baum-Welch chuyển tiếp - lạc hậu, thuật toán Rabiner (1990) cho hướng dẫn điều giải thuật HMM khác Những hệ thống nhận dạng tiếng nói thời tốt đoán nhận từ khoảng 80% đến 98% số từ xác, phụ thuộc vào chất lượng tín hiệu, ngôn ngữ phép chiều dài (của) đầu vào, biến đổi người nói Nhận dạng tiếng nói dễ dàng có ống nói tốt, từ vựng nhỏ, mô hình ngôn ngữ mạnh mẽ mà dự đoán từ đến gì, giới hạn mộtphát biểu ( hay yêu cầu cho tạm dừng từ), hệ thống huấn luyện đặc biệt cho người nói đơn lời phát biểu nhau, người nói hệ thống Trang 45 Tóm lược Mặc dù nhận thức hoạt động không mệt nhọc cho người, đòi hỏi số lượng đáng kể tính toán phức tạp Chương nghiên cứu tầm nhìn ví dụ nguyên tố xử lý thông tin Mục tiêu tầm nhìn để giải nén thông tin cần thiết cho công việc như: thao tác, chuyển hướng, công nhận đối tượng Chúng nhìn nhận dạng giọng nói Quá trình hình thành ảnh hiểu kỹ khía cạnh hình học vật lý Được đưa cho mô tả cảnh 3-D, dễ dàng sản xuất tranh từ vị trí ca mê chuyên quyền (vấn đề đồ họa) Đảo ngược trình việc từ ảnh tới mô tả (của) cảnh khó Trong hình ảnh, có tồn nhiều dấu hiệu cho phép để có 3-D thông tin bối cảnh Trong có chuyển động, âm thanh, kết cấu, tạo bong, phân tích đường viền Mỗi dấu hiệu dựa giả định cảnh vật lý để giải thích Đối tượng công nhận tổng quát đầy đủ vấn đề khó khăn Chúng thảo luận hai kỹ thuật relatively simple - alignment lập mục cách sử dụng bất biến hình học-cung cấp công nhận chân ro bối cảnh bị giới hạn Nhận dạng tiếng nói vấn đề chẩn đoán Nó giải ngôn ngữ âm mô hình mẫu Nhấn mạnh hệ thống làm tốt hai yếu tố hiệu suất yếu tố học tập Những ghi Thư mục Lịch sử Những nỗ lực Có hệ thống để hiểu nhìn người theo vết chân quay trở lại thời báo cổ Euclid ( Sing 300 B.C.) viết viễn cảnh tự nhiên, ánh xạ mà liên quan đến điểm P giới ba chiều phương hướng tia sáng OP nối tâm chiếu điểm P.Ông ta tốt ý thức khái niệm thị sai chuyển động Những ghi Thư mục Lịch sử Những hiểu biết toán học chiếu quan điểm, thời gian này, bối cảnh chiếu lên bề mặt phẳng, có tiến tới quan trọng kỷ mười lăm Renaissance Italy Brunelleschi (1413) thường ghi có tạo tranh dựa chiếu ba chiều cảnh Năm 1435, Alberti soạn thảo quy tắc cảm hứng hệ nghệ sĩ có thành tựu nghệ thuật ngạc nhiên ngày (Kemp, 1990) Đặc biệt đáng ý họ phát triển khoa học quan điểm, gọi ngày qua, Leonardo Da Vinci Albrecht Diirer Leonardo cuối kỷ mười lăm mô tả hổ tương tác dụng ánh sáng bóng râm, vong linh khu vực bóng tối, quan điểm không giá trị đọc dịch (Kemp, 1989) Trang 46 Mặc dù quan điểm biết người Hy Lạp, họ nhầm lẫn đôi mắt tầm nhìn Aristotle nghĩ mắt thiết bị phát tia, thay phạm vi đại từ tia laser Điều xem nhầm đặt để phần lại công việc nhà khoa học Ả Rập, chẳng hạn Alhazen vào kỷ thứ mười Sự phát triển loại máy ảnh Đây gồm có phòng camêra La tinh cho buồng phòng, hộp nơi ánh sáng vào xuyên qua lỗ nhỏ tường để ném cảnh bên tường đối diện Tất nhiên, camêra này, ảnh đảo ngược, mà không gây kết thúc lẫn lộn Nếu mắt suy nghĩ thiết bị tạo ảnh vậy, nhìn thấy bên trên? luyện tập não thời đại (bao gồm Leonardo) Phải công việc Kepler Descartes để giải câu hỏi Descartes đặt mắt mà từ lớp da ngoài đục loại bỏ lỗ cửa chớp cửa sổ Điều dẫn đến hình ảnh đảo ngược hình thành mảnh giấy đặt võng mạc Trong hình ảnh võng mạc thực đảo ngược Các tiến lớn hiểu biết tầm nhìn diễn kỷ XIX Công việc Helmholtz Wundt, mô tả Chương 1, thành lập thử nghiệm hóa học khoa học, kỷ luật nghiêm ngặt Thông qua công việc trẻ, Maxwell, Helmholtz Nếu hình ảnh trình bày cho đôi mắt trái bên phải khác chứng minh Wheatstone's (1838) phát minh kính Các thiết bị trở thành phổ biến tiệm khắp châu Âu Khái niệm thiết yếu stereopsis binocular, có hai hình ảnh cảnh lấy từ chút quan điểm khác mang đủ thông tin để có 3-D tái diễn, Kết thu được, toán học-Kruppa (1913) chứng minh có hai điểm năm điểm, ta tái tạo lại tự quay dịch thuật hai vị trí camera độ sâu cảnh (lên đến yếu tố quy mô) Mặc dù hình học stereopsis hiểu thời gian dài, vấn đề thư lĩnh vực sử dụng để giải người cố gắng để phù hợp lên điểm tương ứng Khả đáng kinh ngạc người việc giải vấn đề tương ứng minh họa phát minh Julesz ngẫu nhiên (Julesz, 1971) Vừa nhìn máy tính vừa phép quang trắc, nhiều nỗ lực cống hiến cho giải vấn đề vào năm 1970 1980 S Trong nửa đầu kỷ XX đáng kể kết nghiên cứu tầm nhìn thu từ nhà trường tâm lý Max Wertheimer Với hiệu "của toàn lớn tổng phần," họ đặt chủ yếu trọng vào trình phân nhóm, hai đường nét khu vực Xây dựng mô hình Thời kỳ sau Thế chiến thứ đánh dấu hoạt động gia hạn Đáng kể công việc JJ Gibson (1950, 1979), người tầm quan trọng luồng quang học kết cấu dự toán biến môi trường bề mặt nghiêng tính toán quy trình vấn đề khó khăn ngày nghiêng Tầm quan trọng kích thích phong phú Gibson, Olum, Rosenblatt (1955) trường luồng quang có đủ thông tin để xác định quan sát liên quan đến môi trường Trong cộng đồng Trang 47 tầm nhìn tính toán, làm việc lĩnh vực (tương đương toán học) diện tích cấu từ chuyển động phát triển chủ yếu vào năm 1980, sau công trình hội thảo Koenderinkand van Doom (1975) Ullman (1979), Longuet-Higgins (1981) Faugeras (1993) trình bày tài khoản toàn diện hiểu biết lĩnh vực Trong năm 1990, với gia tăng tốc độ máy tính lưu trữ, tầm quan trọng phân tích chuỗi chuyển động từ video kỹ thuật số tăng lên nhanh chóng Trong cộng đồng tầm nhìn tính toán, hình dạng từ lần nghiên cứu Berthold Horn (1970) Horn Brooks (1989) điều tra sâu rộng giấy tờ khu vực Khuôn khổ thực số đơn giản hóa giả định, quan trọng số bỏ qua tác dụng chiếu sáng lẫn Tầm quan trọng chiếu sáng lẫn đánh giá tốt cộng đồng đồ họa máy tính, phát triển Một phê phán lý thuyết thực nghiệm tìm thấy Forsyth Zisserman (1991) Trong lĩnh vực hình dạng từ đường viền, sau đóng góp ban đầu chủ chốt Huffman (1971) Clowes (1971), Mackworth (1973) Sugihara (1984) hoàn thành việc phân tích cho đối tượng polyhedral Malik (1987) phát triển sơ đồ nghiên cứu tốt Koenderink's (1990) Solid Shape Trong lĩnh vực hình dạng từ đường viền, sau đóng góp ban đầu chủ chốt Huffman (1971) Clowes (1971), Mackworth (1973) Sugihara (1984) hoàn thành việc phân tích cho đối tượng Malik (1987) phát triển sơ đồ ghi nhãn cho khu vực ba chiều, công việc hội thảo Roberts (1963) trình luận án MIT Nó thường coi người làm luận án tiến sĩ tầm nhìn máy tính giới thiệu ý tưởng chủ chốt có số phát cạnh dựa mô hình kết hợp Ý tưởng lần giới thiệu Roberts, resurfaced năm 1980 công tác Lowe (1987) Huttenlocher Ullman (1990) Khái quát giới thiệu Binford năm 1971, sử dụng rộng rãi Brooks hệ thống chữ viết tắt (Brooks, 1981) Trong lĩnh vực hình dạng từ đường viền, sau đóng góp ban đầu chủ chốt Huffman (1971) Clowes (1971), Mackworth (1973) Sugihara (1984) hoàn thành việc phân tích cho đối tượng polyhedral Malik (1987) phát triển sơ đồ ghi nhãn cho Trong khu vực ba chiều đối tượng công nhận, công việc hội thảo Roberts (1963) luận án MIT Nó thường coi luận án tiến sĩ nghiên cứu bất biến rộng rãi kỷ mười chín muộn nhà toán học tiếng Anh tiếng Đức Sử dụng họ công nhận đối tượng khảo sát Mundy Zisserman (1992), kết xuất sắc đạt cảnh lộn xộn (Rothwell et al, 1993) Một từ phương pháp luận nghiên cứu sử dụng tầm nhìn máy tính Sự phát triển ban đầu đối tượng, tương tự phần lại gia cầm, chủ yếu thông qua đề tài tiến sĩ mà bao gồm chủ yếu mô tả hệ thống Trang 48 thực Thiếu công việc liên lạc với văn học đáng kể tầm nhìn người , có nhiều người vấn đề nghiên cứu Một từ phương pháp luận nghiên cứu sử dụng tầm nhìn máy tính David Marr đầu đóng vai trò quan trọng tầm nhìn kết nối máy tính cho khu vực truyền thống tầm nhìn sinh học Công việc ông, Định hướng (Marr, 1982), xuất sau chết Đó sách truyền đạt phấn khích làm việc tầm nhìn tốt văn kể từ, thực tế nhiều người số giả thuyết cụ thể mô hình đề xuất Marr không đứng thời gian thử nghiệm Dưới ảnh hưởng Marr, xây dựng lại ba chiều từ dấu hiệu cảnh khác trở thành hệ tư tưởng chủ đạo ngày Điều tất nhiên chứng tỏ vấn đề khó khăn, tránh khỏi mà người đặt câu hỏi liệu thực cần thiết Dưới ảnh hưởng Marr, xây dựng lại ba chiều cảnh từ chứng rắn mà tái thiết không cần thiết cho nhiều (hay nhất) Công việc đến từ công việc Dickmanns Đức, người lái xe chứng tỏ quan điểm mạnh mẽ cách sử dụng hệ thống kiểm soát (Dickmanns Zapp , 1987) Như triết lý nói chung, tầm nhìn hoạt động ủng hộ Ruzena Bajcsy (1988) John Aloimonos (1988) Một số giấy tờ thu thập vấn đề đặc biệt CVGIP (Aloimonos,1992) Trong năm 1990, quan điểm thống trị tầm nhìn quy trình nhằm giải nén thông tin cho thao tác, chuyển hướng, công nhận Mắt, não tầm nhìn David Hubel (1988) Perception Irvin Rock (1984) giới thiệu lĩnh vực tầm nhìn sinh học Hai số tạp chí cho tầm nhìn máy tính giao dịch thực IEEE mẫu phân tích máy tình báo Tạp chí quốc tế Computer Vision Máy tính hội nghị bao gồm ICCV (International Conference on Computer Vision), CVPR (Computer Vision Pattern Recognition), ECCV (European Conference on Computer Vision) Mô hình Markov lần sử dụng để ngôn ngữ mô hình Markov tự thư phân tích chuỗi văn Eugene Onegin (Markov, 1913) Sớm phát triển thuật toán cho mô hình Markov Suy luận từ liệu vận chuyển Baum Petrie (1966) Chúng áp dụng cho phát biểu Baker (1975) Jelinek (1976 Năm 1971, phòng nghiên cứu dự án nâng cao Agency (DARPA) Hoa Kỳ Bộ Quốc phòng, hợp tác với số trung tâm nghiên cứu, đề kế hoạch năm năm để nghiên cứu nhận dạng giọng nói Hai hệ thống quan trọng lên từ nỗ lực lớn (Erman et al, 1980.) harpy (Lowerre Reddy, 1980) Harpy hệ thống mà rõ Trang 49 ràng gặp chi tiết kỹ thuật khắt khe kế hoạch năm năm Nó sử dụng mạng lưới đại diện cao biên dịch cho tất trình tự có ý nghĩa yếu tố phát biểu Tin giả-II, nhiên, có ảnh hưởng kiến trúc nhiều vào nghiên cứu khác sử dụng kiến trúc bảng đen Tin giả-II thiết kế hệ thống chuyên gia với số nguồn nhiều độc lập, mô-đun truyền đạt qua bảng đen phổ biến mà từ họ viết đọc Bởi đại diện biên soạn so với kiểu mô-đun harpy'S, tin giả-II dễ dàng nhiều để thấu hiểu sửa đổi, không đủ nhanh để đáp ứng tiêu chí DARPA Một cách tốt để nhận dạng giọng nói cho Rabiner Juang (1993) Waibel Lee (1990) thu thập giấy tờ quan trọng khu vực, kể số hướng dẫn Lee (1989) mô tả hệ thống công nhận hoàn thành đại, phát biểu Trình bày chương thu hút khảo sát Kay, Gawron, Norvig (1994 ) Và thảo chưa công bố Dan Jurafsky Phát biểu nghiên cứu công nhận xuất máy tính Ngôn ngữ giao dịch thực IEEE ngày Âm, Bài phát biểu, xử lý tín hiệu, Hội thảo Phát biểu DARPA xử lý ngôn ngữ tự nhiên 24.1 Trong bóng với tán rậm lá,, người thấy số ánh sáng, tất chúng xuất tròn Tại sao? Sau tất cả, khoảng trống thông qua mặt trời tỏa sáng 24.2 Gắn nhãn sơ đồ Hình 24.38 qua có lẽ không tròn giả định cạnh bên dán nhãn tất đỉnh có ba mặt Làm điều thuật toán back tracking kiểm tra đỉnh thứ tự A, B, C D, chọn giai đoạn lựa chọn phù hợp với nút trước dán nhãn cạnh Bây thử đỉnh thứ tự B, D, A, C Trang 50 Hình 24.38 Một vẽ gắn nhãn, tất đỉnh có ba mặt 24.3 Hãy xem xét hình trụ dài vô hạn bán kính r theo định hướng với trục theo y trục Xi lanh có bề mặt phẳng xem máy ảnh dọc theo trục dương tính z- Những bạn nhìn thấy hình ảnh xi lanh xi lanh chiếu sáng nguồn điểm vô cực nằm trục jc tích cực Giải thích câu trả lời bạn cách vẽ đường nét sáng ảnh dự kiến Là đường nét độ sáng tương đương khoảng cách thống 24.4 Đường hình ảnh tương ứng với loạt kiện cảnh Xem xét ảnh bìa sách bạn cho hình ảnh thực 3-D cảnh Xác định mười cạnh độ sáng khác hình ảnh, cho mỗi, định xem tương ứng với chiều sâu gián đoạn (), (b) bề mặt bình thường, (c) phản xạ, (d chiếu sáng) 24.5 Cho thấy khúc cuộn với chức cho/ Xuôi ngược với phép lấy vi phân điều đó, (/*Ê)'=/*Ê ' 24,6 Một hệ thống âm dự tính để lập đồ địa hình Nó bao gồm hai CD, máy ảnh, lần có 512 x 51 pixel 10 cm x 10 cm, cảm biến vuông Các ống kính sử dụng đầu mối có chiều dài 16 cm, tập trung cố định vô cực Đối với điểm tương ứng (u \, vi) hình ảnh trái (u2, V2) hình ảnh bên phải, V2 = vi x-trục máy bay hình ảnh hai song song với dòng Các trục quang học hai máy ảnh song song Các đường sở máy ảnh mét Trang 51 B Độ phân giải cự ly, để cách điểm, 16 mét (đồng hồ đo) gì? C Phạm vi tương ứng tới khác biệt (của 24,7 Trong hình 24,30, thể chất đo tỷ lệ qua điểm ABCD điểm A'B'C'D ' Họ nhau?) điểm gì? 24.8 Chúng muốn sử dụng thuật toán xếp tình hình công nghiệp nơi mà phần hộ di chuyển dọc theo dây chuyền chụp ảnh máy ảnh theo chiều dọc dây chuyền Các tư phần xác định ba biến, cho phép quay hai cho 2-D vị trí Điều giúp đơn giản hoá vấn đề tìm chức - nhu cầu có hai hình ảnh tương ứng tính mô hình để xác định tư Xác định độ phức tạp trường hợp xấu thủ tục chỉnh ngữ cảnh 24.9 Đọc chương từ đầu bạn tìm thấy mười ví dụ âm Hiện tình trạng từ chư đồng âm phụ thuộc vào giọng người nói? 24.10 Tính toán đường xảy nhiều thông qua HMM hình 24,36 cho đầu trình tự [C1, C2, C3, C4, C4, C6, C7] Cũng cung cấp cho xác suất 24.11 Một số nhà hoạt náo viên thể thao biết đến điểm số với cách phát âm kéo [g ow ow ow ow ow ow el] Vẽ HMM từ để "mục tiêu" đường xảy có dãy bốn [ow] s, số lớn 24.12 Các thuật toán Viterbi tìm thấy trình tự xảy hầu hết điện thoại tương ứng với tín hiệu phát biểu Theo giả định số từ phát âm với nhiều chuỗi điện thoại, giải thích thuật toán Viterbi tính xấp xỉ để P (từ \ tín hiệu) Trang 52 [...]... trong hình 24.7 Chúng ta sẽ muốn làm cho hình ảnh sắt nét nhiều tỉ mĩ Một chụẩn chuẩn định dạng của sự sắc nét là xoắn lại hình ảnh với chức năng Gaussian Bây giờ nó được hiện thị cho bất kỳ chức năng f và g với f*g’ = (f*g)’ như là sự sắc nét của hình ảnh bởi Gaussian G và sự khác biệt là cân bằng hình ảnh xoắn lại với G’(JC): Vì thế, chúng ta có giải thuật đơn giản cho viền 1-D: Xoắn lại hình ảnh. .. nhiều) hình ảnh tách biệt trong không gian, như thế sẽ đáp ứng được hướng nhìn của mắt người Bởi dựa vào nét đặc trưng ở khung hình sẽ kết hợp không gian khác tới tia Z của mỗi ảnh phẳng, nếu chúng ta chồng lên 2 ảnh, sẽ có sự khác biệt tại vị trí đặc biệt của ảnh trong 2 ảnh Bạn có thể thấy rõ ở hình 24.12 ở đây điểm gần của hình chóp thì thay đổi từ bên trái đến bên phải của ảnh và ngược lại Hình 24.12:... noncollinear điểm µ1, µ2, và µ3 trong mô hình, và hình chiếu của họ trên mặt phẳng hình ảnh, p\, p2, và P3 theo quy mô hình chiếu trực giao, có tồn tại đúng hai biến đổi từ mô hình ba chiều, phối hợp với một khung hai chiều hình ảnh phối hợp khung Những biến đổi có liên quan của một sự phản ánh trên mặt phẳng hình ảnh và có thể được tính bằng cách đơn giản là một giải pháp hình thức đóng Chúng tôi sẽ chỉ cho... chiều sâu, nơi các cửa sổ tại các điểm tương ứng trong ảnh không được lấy mẫu tương ứng trong bối cảnh đó Do tắc tại một trong các điểm, có một dải được thấy chỉ trong một mắt Cũng lưu ý việc sử dụng các phân khúc ảnh nổi cho cảnh như đã chứng minh trong hình 24.16 (c) Hình 24.16: Kết quả từ chế biến các Q-mẹo hình nổi, (một hình ảnh) của chiều sâu, (b) Hình của dốc trơn, (c) Đối tượng ranh giới (trắng)... trong hình 24.31 Một ưu điểm khác của hình dạng bất biến đại diện là các mô hình có thể được mua trực tiếp từ các hình ảnh Nó không phải là cần thiết để thực hiện các phép đo trên đối tượng thực tế, bởi vì hình dạng descriptor có cùng giá trị khi đo bằng hình ảnh nào Điều này đơn giản hóa và tạo điều kiện tự động hóa của việc mua lại mô hình Nó đặc biệt hữu ích trong các ứng dụng như công nhận từ ảnh. .. (xem thảo luận trên trang 586) Hình 24.25 Hình ảnh của con đường ghi lại từ camera trong xe ô tô Ví dụ lái xe làm cho một trong những điểm rất rõ ràng: cho một nhiệm vụ cụ thể, người ta không cần phải thu hồi tất cả các thông tin mà trên nguyên tắc có thể được phục hồi từ một hình ảnh Một không cần phải khôi phục lại hình dạng chính xác của mỗi chiếc xe, giải quyết cho các hình dạng- từ - kết cấu trên... là điểm gần đó trong bối cảnh đó có giá trị của độ sâu gần đó, và do vậy có sự khác nhau, ngoại trừ trên bề nhẵn đối tượng bị biến dạng Một ví dụ của hệ thống khai thác những khó khăn này là việc làm của BELHUMEUR năm 1993, kết quả của BELHUMEUR cho 1 cảnh không đối xứng (Hình 24.15 được trình bày trong hình 24.16) Hình 24,14 Epipolar hình học Hình 24.15: Cho thấy một hình ảnh của một Q-mẹo hộp đứng... việc áp dụng các thuật toán này đến hình ảnh stapler được thể hiện trong hình 24.29.Sử dụng phép chiếu bất biến Sử dụng hiệu chỉnh bên ngòai hình học và công nhận được xem là thành công nếu phác thảo hình học trong một hình ảnh có thể được giải thích như là một chiếu quan điểm của các mô hình học của đối tượng Một bất lợi là điều này liên quan đến việc cố gắng mỗi mô hình trong thư viện mẫu, kết quả là... cần sử dụng Để bù lại chiều sâu ảnh, một điều sẽ làm là sử dụng nhiều ảnh Nếu máy ghi hình trông có vẻ khắc khe với mọi người, sự sắp xếp không chuyển từ ảnh tới ảnh và vì thế chúng ta có thể chấp nhận tốt hơn nhiễu vốn có ở đường dẫn quang Kết quả từ phương pháp hiệu quả như vậy được Tomasi và Kanade chỉ ra ở hình 24.10 và 24.11 Hình 24.10; có 4 frame hình từ 1 đoạn ghi hình tại 1 camera được di chuyển... tình trạng này ngụ ý rằng nếu ba dòng cắt nhau trong hình ảnh, các cạnh tương ứng trong cảnh cũng phải cắt nhau Hình 24.20: các loại hình khác nhau của các nhãn dòng Hình 24.21: Bốn loại đỉnh có ba mặt Bốn cách thức mà ba bề mặt máy bay có thể gặp nhau tại một đỉnh được hiển thị trong hình 24.21 Các trường hợp này đã được xây dựng bằng cách lấy một hình khối và cách chia nó thành tám cung độ Chúng tôi