Đề cương thị giác máy tính

4 3 0
Đề cương thị giác máy tính

Đang tải... (xem toàn văn)

Thông tin tài liệu

Câu 1: Đối với mỗi điều sau đây, giải thích cách nó có thể được sử dụng để giúp giải quyết vấn đề về tầm nhìn máy tính (và chỉ định vấn đề). Kmeans Dùng để phân cụm dữ liệu. Kmeans chạy: Xác định 1 số k quyết định chọn ngẫu nhiên k điểm nào đó trong tập dữ liệu để làm k điểm trung tâm của k cụm. Lặp lại: Mong muốn: Gán mỗi điểm vào một cụm gần nhất. Tối đa hóa:Tính tâm cụm mới của mỗi cụm Đến khi điểm trung tâm không thay đổi đc nữa. Chọn k bằng ELBOW: Distortion: Trung bình cộng bình phương khoảng cách giữa tâm cụm đến các điểm còn lại ( ) Bình phương khoảng cách 1 điểm đến tâm cụm 1 điếm tới tâm cụn để tính khoảng cách. Tính bình phương. Tính trung bình cộng của tất cả các điểm. Chọn k bằng silhoutte: a là trung bình cộng khoảng cách từ điểm hiện tại đến tất các điểm còn lại trong một cụm . b là trung bình cộng khoảng cách từ điểm hiện tại tới tất cả các điểm của cụm gần nhất. Tính hệ số : b amax(a,b) shilhouette_score = trung bình cộng tất cả mẫu. Principal components: Phương pháp phân tích thành phần chính là phương pháp dùng để giảm chiều dữ liệu . Sumofsquared distances (SSD) dùng trong đối sánh mẫu. để hình ảnh so sánh tương đồng với hình ảnh được so sánh thì SSD phải nhỏ. SSD đối sánh điều đó dựa trên sự khác biệt về cường độ pixel theo pixel giữa hai hình ảnh. Nó tính toán tổng kết của bình phương cho tích của phép trừ pixel giữa hai hình ảnh . Với thước đo độ tương đồng này, điểm phù hợp có thể được xác định bằng cách xem xét vị trí của giá trị nhỏ nhất trong ma trận hình ảnh. SSD trực tiếp sử dụng công thức của tổng của sai số bình phương. nếu công thức được chuyển sang dạng digital: trong đó M là giá trị của các hàng trong hình ảnh tham chiếu và N là giá trị của cột. Khi u và v thay đổi, dịch thành phần theo hướng x và hướng y tương ứng. Số hạng của mẫu là hằng số hoặc không phải hằng phụ thuộc vào u và v. . Image pyramid Một image pyramid thực chất là một tập hợp các hình ảnh mà tất cả chúng đều phát sinh từ một hình ảnh ban đầu duy nhất, hình ảnh này được liên tục được lấy mẫu xuống cho tới khi đạt đến một điểm dừng mong muốn. Có hai loại image pỷamid ảnh phổ biến: Gaussian pyramid: Sử dụng để downsample hình ảnh tức là để giảm độ phân giải của hình ảnh Laplacian pyramid: Được sử dụng để tái tạo lại một hình ảnh được lấy mẫu từ một hình ảnh thấp hơn trong pyramid (có độ phân giải thấp hơn) Nếu chúng ta khởi tạo thuật toán phân cụm kmean với cùng một số cụm nhưng vị trí bắt đầu khác nhau cho các tâm, thuật toán sẽ luôn hội tụ về cùng một nghiệm. Đúng hay sai, tại sao ? Đáp án: Sai. Các lần khởi tạo khác nhau sẽ dẫn đến các cụm khác nhau vì chúng là cực tiểu cục bộ Chúng không nhất thiết phải giống nhau. Coi các quan sát được phân bố đều trên một đường tròn (bán kính = 1). Tùy thuộc vào các trọng tâm ban đầu, thuật toán sẽ hội tụ các giải pháp khác nhau. Ví dụ, hãy xem xét trường hợp ban đầu có hai tâm nằm ở mỗi bên của một trong các đường kính của đường tròn. Đó có thể là bất kỳ cặp điểm nào và thuật toán sẽ được hội tụ với các giải pháp khác nhau. Tuy nhiên, có những trường hợp thuật toán nhất thiết phải hội tụ về cùng một giải pháp. Ví dụ, hãy xem xét các điểm được phân bổ đồng đều trên một phân đoạn, trong một bài toán 2 cụm. Khá rõ ràng (mặc dù khó giải thích hơn một chút) rằng mọi khởi tạo cuối cùng sẽ hội tụ về cùng một giải pháp (điều này thực sự cần các giả định buồn, chẳng hạn như ít nhất là không có điểm nào nằm ở rìa của cả hai cụm).Trong trường hợp ví dụ của bạn, với một cấu trúc phức tạp hơn, vấn đề khó phân tích hơn. Có một số vấn đề có thể sẽ cho kết quả giống nhau mọi lúc, một số vấn đề khác sẽ cho kết quả khác. Nhưng dù sao đi nữa, trong trường hợp chung, bạn không thể chắc chắn rằng nó sẽ trở về một giải pháp duy nhất 3. Cho một bộ 3 hình ảnh như trong Hình 7, việc tìm kiếm và gắn nhãn hình ảnh ở trung tâm là có chứa con mèo được coi là một nhiệm vụ phát hiện để nhận dạng. Đúng hay sai, tại sao ? Đáp án: Sai. Không khoanh vùng con mèo trong hình ảnh, vì vậy đây được coi là phân loại 4. Bạn đang sử dụng kmeans clustering trong không gian màu để phân đoạn một hình ảnh. Tuy nhiên, bạn nhận thấy rằng mặc dù các pixel có màu tương tự thực sự được nhóm lại với nhau thành các cụm giống nhau, nhưng có nhiều vùng không liên tục bởi vì các pixel này thường không nằm ngay cạnh nhau. Mô tả một phương pháp để khắc phục vấn đề này trong khung kmeans. Đáp án: Nối các tọa độ (x; y) với các đặc điểm màu làm đầu vào cho thuật toán kmean. 5. Để thực hiện việc phát hiện khuôn mặt trên webcam của bạn, bạn thực hiện tăng cường để tìm hiểu một máy dò khuôn mặt bằng cách sử dụng nhiều bộ lọc hình chữ nhật tương tự như máy dò ViolaJones. Một số bộ phân loại yếu hoạt động rất tốt, dẫn đến hiệu suất gần như hoàn hảo, trong khi một số bộ phân loại thậm chí còn tệ hơn ngẫu nhiên. Khi bạn đang chọn các bộ phân loại của mình, bạn đột nhiên thấy rằng tại một lần lặp lại nhất định k, bộ phân loại mới đang được chọn và thêm vào sẽ có trọng số âm αk trong mô hình cộng cuối cùng. Giải thích lý do tại sao trọng số âm xuất hiện và biện minh cho câu trả lời của bạn. Đáp án: Các trọng số âm xuất hiện do các bộ phân loại hoạt động kém hơn ngẫu nhiên. Giá trị βk của chúng lớn hơn 1, làm cho giá trị αk là âm. Một lời giải thích trực quan cho điều này là chúng ta có thể đảo ngược quyết định bởi một trình phân loại hoạt động kém hơn cơ hội để có được một bộ phân loại tốt hơn cơ hội 6.Khi áp dụng biến đổi Hough, nhiễu có thể được chống lại bằng cách (a) sự tùy biến tốt hơn của bộ tích lũy (b) tăng ngưỡng về số phiếu bầu mà một mô hình hợp lệ phải có được (c) giảm ngưỡng về số phiếu bầu mà một mô hình hợp lệ có được (d) chỉ xem xét một tập hợp con ngẫu nhiên của các điểm vì chúng có thể là các điểm ngoại lai. 8. Mô tả ngắn gọn cơ chế phát hiện của phương pháp Viola – Jones để phát hiện khuôn mặt và nêu bật hai khía cạnh của phương pháp này giúp nó hoạt động hiệu quả như một máy dò cửa sổ trượt. Đáp án: Thuật toán Viola Jones có bốn bước chính Chọn các tính năng Haarlike Tạo một hình ảnh tích hợp Chạy đào tạo AdaBoost Tạo tầng phân loại 1. hough transform là thuật toán phát hiện đường thẳng khá hiệu quả trong xử lý ảnh. Ý tưởng chung của việc phát hiện đường thẳng trong thuật toán này là tạo mapping từ không gian ảnh (A) sang một không gian mới (B) mà mỗi đường thẳng trong không gian (A) sẽ ứng với một điểm trong không gian (B). Mục đích của kỹ thuật này là tìm ra các thể hiện không hoàn hảo của các đối tượng trong một lớp hình dạng nhất định bằng thủ tục bỏ phiếu. Thủ tục bỏ phiếu này được thực hiện trong một không gian tham số , từ đó các ứng cử viên đối tượng nhận được dưới dạng cực đại cục bộ trong một không gian được gọi là bộ tích lũy được xây dựng rõ ràng bằng thuật toán tính toán biến đổi Hough. 2.Trong xử lý hình ảnh và thị giác máy tính , một feature là một phần thông tin về nội dung của hình ảnh; có thể là về việc một vùng nào đó hình ảnh có các đặc trưng chúng ta cần hay không. Các đặc trưng có thể là các cấu trúc cụ thể trong ảnh như các điểm, các cạnh hoặc các đối tượng. Các đối tượng địa lý cũng có thể là kết quả của hoạt động vùng lân cận chung hoặc phát hiện đối tượng được áp dụng cho hình ảnh. Vectơ đặc trưng của hình ảnh: Một phần trừu tượng của hình ảnh được sử dụng để mô tả đặc điểm và định lượng số lượng nội dung của hình ảnh. Thường có giá trị thực, số nguyên hoặc nhị phân. Nói một cách đơn giản, một vector đặc trưng là một danh sách các số được sử dụng để đại diện cho một hình ảnh. Optical Flow : Tính toán chuyển động trong vùng hoặc khung dưới dạng trọn Change detection :–Phát hiện các đối tượng trong một cảnh ,Theo dõi đối tượng trên một số khung hình

Câu 1: Đối với điều sau đây, giải thích cách sử dụng để giúp giải vấn đề tầm nhìn máy tính (và định vấn đề) K-means Dùng để phân cụm liệu K-means chạy: Xác định số k định chọn ngẫu nhiên k điểm tập liệu để làm k điểm trung tâm k cụm Lặp lại: Mong muốn: Gán điểm vào cụm gần Tối đa hóa:Tính tâm cụm cụm Đến điểm trung tâm không thay đổi đc Chọn k ELBOW: Distortion: Trung bình cộng bình phương khoảng cách tâm cụm đến điểm cịn lại ( ) Bình phương khoảng cách điểm đến tâm cụm điếm tới tâm cụn để tính khoảng cách Tính bình phương Tính trung bình cộng tất điểm Chọn k silhoutte: ● a trung bình cộng khoảng cách từ điểm đến tất điểm lại cụm ● b trung bình cộng khoảng cách từ điểm tới tất điểm cụm gần ● Tính hệ số : ● shilhouette_score = trung bình cộng tất mẫu Principal components: Phương pháp phân tích thành phần phương pháp dùng để giảm chiều liệu Sum-of-squared distances (SSD) -dùng đối sánh mẫu - để hình ảnh so sánh tương đồng với hình ảnh so sánh SSD phải nhỏ SSD đối sánh điều dựa khác biệt cường độ pixel theo pixel hai hình ảnh Nó tính tốn tổng kết bình phương cho tích phép trừ pixel hai hình ảnh Với thước đo độ tương đồng này, điểm phù hợp xác định cách xem xét vị trí giá trị nhỏ ma trận hình ảnh SSD trực tiếp sử dụng cơng thức tổng sai số bình phương cơng thức chuyển sang dạng digital: M giá trị hàng hình ảnh tham chiếu N giá trị cột Khi u v thay đổi, dịch thành phần theo hướng x hướng y tương ứng Số hạng mẫu số phụ thuộc vào u v Image pyramid Một image pyramid thực chất tập hợp hình ảnh mà tất chúng phát sinh từ hình ảnh ban đầu nhất, hình ảnh liên tục lấy mẫu xuống đạt đến điểm dừng mong muốn Có hai loại image pỷamid ảnh phổ biến: ● Gaussian pyramid: Sử dụng để downsample hình ảnh tức để giảm độ phân giải hình ảnh ● Laplacian pyramid: Được sử dụng để tái tạo lại hình ảnh lấy mẫu từ hình ảnh thấp pyramid (có độ phân giải thấp hơn) Nếu khởi tạo thuật toán phân cụm k-mean với số cụm vị trí bắt đầu khác cho tâm, thuật tốn ln hội tụ nghiệm Đúng hay sai, ? Đáp án: Sai Các lần khởi tạo khác dẫn đến cụm khác chúng cực tiểu cục Chúng không thiết phải giống Coi quan sát phân bố đường trịn (bán kính = 1) Tùy thuộc vào trọng tâm ban đầu, thuật toán hội tụ giải pháp khác Ví dụ, xem xét trường hợp ban đầu có hai tâm nằm bên đường kính đường trịn Đó cặp điểm thuật toán hội tụ với giải pháp khác Tuy nhiên, có trường hợp thuật tốn thiết phải hội tụ giải pháp Ví dụ, xem xét điểm phân bổ đồng phân đoạn, toán cụm Khá rõ ràng (mặc dù khó giải thích chút) khởi tạo cuối hội tụ giải pháp (điều thực cần giả định buồn, chẳng hạn khơng có điểm nằm rìa hai cụm).Trong trường hợp ví dụ bạn, với cấu trúc phức tạp hơn, vấn đề khó phân tích Có số vấn đề cho kết giống lúc, số vấn đề khác cho kết khác Nhưng dù nữa, trường hợp chung, bạn chắn trở giải pháp Cho hình ảnh Hình 7, việc tìm kiếm gắn nhãn hình ảnh trung tâm "có chứa mèo" coi nhiệm vụ phát để nhận dạng Đúng hay sai, ? Đáp án: Sai Không khoanh vùng mèo hình ảnh, coi phân loại Bạn sử dụng k-means clustering khơng gian màu để phân đoạn hình ảnh Tuy nhiên, bạn nhận thấy pixel có màu tương tự thực nhóm lại với thành cụm giống nhau, có nhiều vùng khơng liên tục pixel thường không nằm cạnh Mô tả phương pháp để khắc phục vấn đề khung k-means Đáp án: Nối tọa độ (x; y) với đặc điểm màu làm đầu vào cho thuật toán k-mean Để thực việc phát khuôn mặt webcam bạn, bạn thực tăng cường để tìm hiểu máy dị khn mặt cách sử dụng nhiều lọc hình chữ nhật tương tự máy dị Viola-Jones Một số phân loại yếu hoạt động tốt, dẫn đến hiệu suất gần hoàn hảo, số phân loại chí cịn tệ ngẫu nhiên Khi bạn chọn phân loại mình, bạn thấy lần lặp lại định k, phân loại chọn thêm vào có trọng số âm αk mơ hình cộng cuối Giải thích lý trọng số âm xuất biện minh cho câu trả lời bạn Đáp án: Các trọng số âm xuất phân loại hoạt động ngẫu nhiên Giá trị βk chúng lớn 1, làm cho giá trị αk âm Một lời giải thích trực quan cho điều đảo ngược định trình phân loại hoạt động hội để có phân loại tốt hội 6.Khi áp dụng biến đổi Hough, nhiễu chống lại cách (a) tùy biến tốt tích lũy (b) tăng ngưỡng số phiếu bầu mà mơ hình hợp lệ phải có (c) giảm ngưỡng số phiếu bầu mà mơ hình hợp lệ có (d) xem xét tập hợp ngẫu nhiên điểm chúng điểm ngoại lai Mô tả ngắn gọn chế phát phương pháp Viola – Jones để phát khuôn mặt nêu bật hai khía cạnh phương pháp giúp hoạt động hiệu máy dị cửa sổ trượt Đáp án: Thuật tốn Viola Jones có bốn bước Chọn tính Haar-like Tạo hình ảnh tích hợp Chạy đào tạo AdaBoost Tạo tầng phân loại hough transform thuật toán phát đường thẳng hiệu xử lý ảnh Ý tưởng chung việc phát đường thẳng thuật toán tạo mapping từ không gian ảnh (A) sang không gian (B) mà đường thẳng không gian (A) ứng với điểm không gian (B) Mục đích kỹ thuật tìm thể khơng hồn hảo đối tượng lớp hình dạng định thủ tục bỏ phiếu Thủ tục bỏ phiếu thực khơng gian tham số , từ ứng cử viên đối tượng nhận dạng cực đại cục không gian gọi tích lũy xây dựng rõ ràng thuật tốn tính tốn biến đổi Hough 2.Trong xử lý hình ảnh thị giác máy tính , feature phần thơng tin nội dung hình ảnh; việc vùng hình ảnh có đặc trưng cần hay khơng Các đặc trưng cấu trúc cụ thể ảnh điểm, cạnh đối tượng Các đối tượng địa lý kết hoạt động vùng lân cận chung phát đối tượng áp dụng cho hình ảnh Vectơ đặc trưng hình ảnh: Một phần trừu tượng hình ảnh sử dụng để mơ tả đặc điểm định lượng số lượng nội dung hình ảnh Thường có giá trị thực, số ngun nhị phân Nói cách đơn giản, vector đặc trưng danh sách số sử dụng để đại diện cho hình ảnh Optical Flow : Tính tốn chuyển động vùng khung dạng trọn Change detection :–Phát đối tượng cảnh ,Theo dõi đối tượng số khung hình ... dạng cực đại cục không gian gọi tích lũy xây dựng rõ ràng thuật tốn tính tốn biến đổi Hough 2.Trong xử lý hình ảnh thị giác máy tính , feature phần thông tin nội dung hình ảnh; việc vùng hình ảnh.. .máy dị cửa sổ trượt Đáp án: Thuật tốn Viola Jones có bốn bước Chọn tính Haar-like Tạo hình ảnh tích hợp Chạy đào tạo AdaBoost Tạo... Nói cách đơn giản, vector đặc trưng danh sách số sử dụng để đại diện cho hình ảnh Optical Flow : Tính tốn chuyển động vùng khung dạng trọn Change detection :–Phát đối tượng cảnh ,Theo dõi đối tượng

Ngày đăng: 29/06/2022, 17:30

Hình ảnh liên quan

Mục đích của kỹ thuật này là tìm ra các thể hiện không hoàn hảo của các đối tượng trong một lớp hình dạng nhất định bằng thủ tục bỏ phiếu - Đề cương thị giác máy tính

c.

đích của kỹ thuật này là tìm ra các thể hiện không hoàn hảo của các đối tượng trong một lớp hình dạng nhất định bằng thủ tục bỏ phiếu Xem tại trang 2 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan