Nhận dạng biểu tượng (ký hiệu) trên dữ liệu Ảnh Đồ họa Nhận dạng biểu tượng (ký hiệu) trên dữ liệu Ảnh Đồ họa
Các hướng tiếp cận trong nhận dạng biểu tượng
Mô hình Markov ẩn
Nhóm các mô hình Markov ẩn (HMM) là hướng tiếp cận biểu diễn các mô hình động có sự thay đổi về không gian và thời gian[1].Ưu điểm chính của mô hình này là phân loại chuỗi không gian, là kết quả từ khả năng căn chỉnh một mẫu dọc theo các trạng thái của chúng bằng cách sử dụng mật độ xác suất (pdf) cho mỗi trạng thái, ước tính xác suất của một phần nhất định của mẫu thuộc về trạng thái HMM đã được áp dụng thành công để nhận dạng chữ viết tay [2], trong đó các ký tự biểu diễn các mẫu thay đổi trong không gian khi di chuyển từ trái sang phải Ngoài ra, HMM đã được áp dụng cho các bài toán phân loại hình ảnh và nhận dạng hình thể [3] Muller và Rigoll [9] đề xuất HMM 2-D để mô hình hóa sự sắp xếp hai chiều của các đối tượng tượng trưng. Đây là một trong những cách tiếp cận đầu tiên có thể xác định đối với ký hiệu đánh dấu, trong đó tài liệu được phân vùng bằng một lưới có kích thước cố định,trong đó mỗi ô nhỏ được nhập vào một mô hình HMM 2D để xác định các vị trí có thể tìm thấy các ký hiệu từ cơ sở dữ liệu mô hình HMM 2D không cần phân đoạn trước và có thể sử dụng trong các điều kiện nhiễu.
Các phương pháp đặc trưng điểm ảnh
Đặc trưng điểm ảnh là tập hợp các phương pháp sử dụng các tính chất của điểm ảnh để phát hiện các ký hiệu [4] Để giảm độ phức tạp tính toán, người ta thường trích chọn và xây dựng bộ mô tả các đặc trưng trên một số vùng của tài liệu Những vùng này có thể được xây dựng dựa trên của sổ trượt hoặc các công cụ xác định các điểm đặc trưng cần chú trọng trong không gian ảnh Các đặc trưng này sẽ lại đại diện thể hiện cho vùng quan tâm Để phân loại được chính xác cần một quá trình phân đoạn trên ảnh đồ họa ban đầu để trích xuất các vùng không gian có đối tượng cụ thể Các bộ mô tả các đối tượng dựa trên các pixel cơ bản sẽ được tính toán tại mỗi vị trí tuần tự và so sánh với các ký hiệu Nhờ việc trích trọn đặc trưng này khiến cho tốc độ tính toán của phương pháp là rất nhanh Tuy nhiên so khớp một-một là hạn chế của phương pháp,bước phân đoạn dựa trên các điểm đặc trưng cũng chỉ cho phép nó hoạt động với một tập giới hạn các ký hiệu.
Dựa trên đồ thị
Hướng tiếp cận dựa trên đồ thị là nhóm các phương pháp dựa trên biểu diễn cấu trúc của các đối tượng đồ họa và sử dụng kỹ thuật xây dựng bản đồ để phát hiện các ký hiệu trong tài liệu Đối sánh đồ thị có thể được giải quyết bằng cách tiếp cận đối sánh cấu trúc trong miền đồ thị hoặc được giải quyết bằng bộ phân loại thống kê trong không gian vectơ nhúng của đồ thị Trong cả hai trường hợp, các kỹ thuật này bao gồm một mô hình lỗi cho phép đối sánh đồ thị không chính xác để chịu được nhiễu cấu trúc trong tài liệu Có rất nhiều phương pháp dựa trên đồ thị [5, 6] vv Nói chung, các thuộc tính cấu trúc của các thực thể đồ họa được mã hóa dưới dạng đồ thị và sau đó một thuật toán xác định đồ thị con được áp dụng để tìm kiếm hoặc nhận dạng ký hiệu trong tài liệu Các thuật toán so khớp đồ thị kết hợp một số mô hình nhiễu để thể hiện sự biến dạng của hình ảnh Vì so khớp đồ thị là một bài toán khó để tính toán được kết quả tuyệt đối( NP hard) [10], các thuật toán này thường có thời gian tính toán rất lớn Trong số các phương pháp đã nghiên cứu, Messmer và Bunke trong[?] đã biểu diễn các ký hiệu đồ họa và bản vẽ đường bằng đồ thị quan hệ thuộc tính(AGR) Sau đó, quá trình nhận dạng các bản vẽ được thực hiện dưới dạng các đồng dạng biểu đồ con có khả năng chịu lỗi từ biểu đồ ký hiệu truy vấn đến biểu đồ vẽ.Llados và cộng sự [6] đề xuất đồ thị tiếp cận vùng (RAG) cho các ký hiệu nhận dạng trong biểu đồ vẽ tay Chúng đại diện cho các vùng trong biểu đồ bằng các đường đa tuyến trong đó tập hợp các thao tác chỉnh sửa được xác định để đo mức độ giống nhau giữa các chuỗi theo chu kỳ tương ứng với các đường đa tuyến.
Chữ kí biểu tượng
Tương tự như hướng tiếp cận sử dụng đặc trưng của điểm ảnh thì nhóm các phương pháp chữ kí biểu tượng cũng hoạt động với cơ chế phân đoạn đặc biệt Tuy nhiên, thay vì phân đoạn các vùng không gian ảnh dựa trên các điểm đặc trưng thì ý tưởng là sử dụng tính toán các vector [7] Các vector được sử dụng thường là sự kết hợp của các đặc trưng cơ bản của ảnh như các nút trên đồ thị, quan hệ giữa các điểm đặc trưng hoặc độ dài của các cạnh vv Do đó các vector thể hiện tốt hơn đặc tính cấu trúc của đối tượng và được coi là "chữ ký" thể hiện bản chất riêng của các đối tượng Các phương pháp này được xây dựng dựa trên giả định rằng các ký hiệu luôn nằm trong vùng quan tâm và tính toán các ký hiệu vectơ bên trong các vùng đó Vì "chữ ký" biểu tượng bị ảnh hưởng nhiều bởi nhiễu hình ảnh, các phương pháp này không hoạt động tốt trong các ứng dụng trong thế giới thực.
Biểu diễn kí hiệu phân cấp
Biểu diễn kí hiệu phân cấp [8] là nhóm các phương pháp dựa trên định nghĩa thứ bậc của các ký hiệu, trong đó chúng phân tách các ký hiệu một cách phân cấp và tổ chức các phần của ký hiệu trong một mạng hoặc cấu trúc biểu đồ Về cơ bản, các ký hiệu được phân tách tại các điểm giao nhau và mỗi phần trong số các phần con được mô tả sử dụng một bộ mô tả hình dạng riêng Các phần con một lần nữa được hợp nhất bằng thước đo mật độ, xây dựng cấu trúc dạng biểu đồ Sau đó sử dụng các cấu trúc mạng để tìm các vùng quan tâm của các đường đa tuyến nơi biểu tượng truy vấn có khả năng xuất hiện.
Một số phương pháp trích chọn đặc trưng của ảnh
Đặc trưng của ảnh
Một vector biểu diễn thông tin nào đó thì được gọi là một đặc trưng của ảnh, một ảnh thường có nhiều vector đặc trưng tương ứng với các thông tin về đặc điểm của ảnh.Các vector đặc trưng cần phải đảm bảo được tính bất biến với các phép biến đổi ảnh như xoay, quay,thay đổi kích thước Thay vì mô tả ảnh dưới dạng một ma trận lưu trữ toàn bộ các giá trị của các điểm ảnh, việc sử dụng các vector biểu diễn thông tin đặc trưng của ảnh thể hiện được mối liên hệ giữa các các điểm ảnh và giảm không gian lưu trữ, xử lý thông tin của ảnh Có hai loại đặc trưng được sử dụng để biểu diễn ảnh bao gồm đặc trưng toàn cục và đặc trưng cục bộ.
- Đặc trưng cục bộ : Đặc trưng cục bộ được xây dựng dựa trên các điểm đặc trưng và vùng không gian xung quanh các điểm đặc trưng này Điểm đặc trưng là điểm có cường độ sáng là cực trị so với các điểm ở vùng xung quanh nó [11] Các điểm đặc trưng cần đảm bảo vector đặc trưng xây dựng dựa trên nó đảm bảo tính bất biến đối với các phép biến đổi như thay đổi tỉ lệ, xoay ảnh vv Đặc trưng cục bộ thường được ứng dụng trong bài toán nhận dạng đối tượng [12].
- Đặc trưng toàn cục : Đặc trưng toàn cục mô tả toàn bộ ảnh bao gồm đường viền, hình dạng của ảnh cũng như các đặc trưng cục bộ trong ảnh Có khá nhiều thuật toán trích chọn đặc trưng toàn cục của anh của ảnh có thể kể đến như các mô-men bất biến
Hu [13] hay biểu đồ về sự biến đổi cường độ sáng vv Các đặc trưng toàn cục này thường được sử dụng trong các bài toán phát hiện và phân loại đối tượng, truy xuất hình ảnh [14].
Một số hướng tiếp cận bài toán trích chọn đặc trưng trên ảnh 8
Phát hiện đặc trưng là bước đầu tiên trong mô tả đặc trưng cục bộ cho các hệ thống đối sánh hình ảnh Phương pháp phát hiện điểm đặc trưng đơn giản được sử dụng rất phổ biến là sử dụng thuật toán Harris(HCM) xác định điểm/góc của đối tượng Tuy nhiên, HCD không tạo ra các điểm chính đủ tiêu chuẩn về độ lặp lại và tính thông tin cho các hình ảnh thay đổi tỷ lệ và góc quay lớn vì HCD ít xem xét đến sự phong phú của thông tin phân biệt của các điểm đặc trưng được phát hiện Do đó, cần phải mã hóa các điểm đặc trưng được trích xuất thành một bộ mô tả đặc trưng đại diện dựa trên thông tin hình học cục bộ để cải thiện tính phân biệt của chúng.
- Các phương pháp dựa trên Gradient
Các phương pháp dựa trên gradient của ảnh đã nhận được sự quan tâm rất lớn của các nhà nghiên cứu do hiệu quả của nó trong nhiều ứng dụng Có rất nhiều thuật toán
Hình 1.3:Ảnh minh họa các điểm đặc trưng của ảnh dựa trên phương pháp này trong đó nổi bật là thuật toán SIFT của Lowe [15] Thuật toán này dựa trên sự phân bố gradient trong các vùng được phát hiện, hầu hết các vùng này đều bất biến với các phép biến đổi thay đổi kích thước tỉ lệ của ảnh và các phép quay Ngoài ra còn các thuật toán PCA-SIFT [16] tương tự như SIFT nhưng áp dụng phân tích các thành phần chính (PCA) cho gradient các vùng được phát hiên, thuật toán SUFT được đề xuất bởi Bay và cộng sự [17] có tốc độ tính toán khá nhanh nhưng lại dễ bị nhiễu do không đánh trọng số mức độ ảnh hưởng giữa các vùng được phát hiện Nhìn chung nhóm các phương pháp này phù hợp với các phép biến dạng hình học lớn và phép xoay, khớp ảnh tự động Tuy nhiên nhóm các thuật toán mô tả đặc trưng dựa trên gradient có tốc độ xử lý chậm và không thể xử lý các bài toán so khớp ảnh trong thời gian thực.
- Các phương pháp dựa trên cường độ sáng
Các phương pháp dựa trên cường độ sáng của hình ảnh được áp dụng để so sánh cường độ của các pixel được lấy mẫu tại các vị trí khác nhau hoặc ánh xạ bộ mô tả cục bộ vào không gian Hamming Strecha và cộng sự [18] đề xuất một cách tiếp cận mới và đơn giản để tạo ra một chuỗi nhị phân từ bộ mô tả SIFT, được đặt tên là
LDAHash, sắp xếp các bộ mô tả SIFT theo vấn đề cụ thể đối với cấu trúc hiệp phương sai Fan và cộng sự [19] đã đề xuất một phương pháp xây dựng bộ mô tả vùng quan tâm với ý tưởng chính là gộp các đối tượng cục bộ thành nhiều nhóm dựa trên thứ tự cường độ trong nhiều vùng hỗ trợ Một bộ mô tả đặc trưng cục bộ đặc biệt có tên là bộ mô tả đặc trưng bất biến cường độ cục bộ (PIIFD) [20] được đề xuất bởi Chen và cộng sự. Để xử lý những thay đổi về độ chiếu sáng, nhiều đặc trưng cục bộ dựa trên thứ tự cường độ đã được đề xuất so với cường độ thô, bởi vì thứ tự cường độ của các pixel trong ảnh luôn bất biến với sự thay đổi đơn điệu của cường độ [21] Ojala và cộng sự [22] đề xuất toán tử mẫu nhị phân cục bộ (LBP), xác định thứ tự cho pixel bằng cách so sánh giá trị cường độ của mỗi pixel với giá trị của các pixel lân cận Bộ mô tả BRISK được đề xuất bởi Leutenegger và cộng sự [23], dựa trên chuỗi nhị phân bằng cách xác định các vị trí, tỷ lệ và định hướng cho mỗi điểm mẫu bằng cách ghép kết quả từ các phép so sánh độ sáng đơn giản, bất biến với tỷ lệ và xoay để có được hiệu suất nhỏ gọn và hiệu quả.
Các phương pháp dựa trên cường độ sáng được sử dụng rộng rãi để so khớp hình ảnh quang học với các phép biến đổi hình học và trắc quang khác nhau như tỷ lệ, xoay, mờ, chiếu sáng và nén JPEG, và hình ảnh cảnh có kết cấu [21] Các phương pháp này có các đặc tính sau như biểu đồ ngắn, khả năng chịu các thay đổi về độ sáng và tính đơn giản trong tính toán Tuy nhiên, các phương pháp này cũng có một số hạn chế do sự phân bố cường độ, độ chiếu sáng khác nhau và các biến dạng hình học gây ra do nhiễu.
- Các phương pháp dựa trên phân tích miền không gian
Các phương pháp dựa trên phân tích miền không gian là các phương pháp mô tả hình ảnh trong miền không gian yếu bao gồm một số phương pháp có thể kể đến như Shape contexts [24, 25], định hướng [26], bộ lọc theo dõi [27], bất biến liên kết [28],
[29] và biến đổi fourier hoặc biến đổi wavelet phân số [30].
Các bài toán như truy xuất hình ảnh dựa trên nội dung, nhận dạng khuôn mặt và xác thực hình ảnh đều yêu cầu sự phù hợp của các đặc điểm như điểm, đường và đường viền được trích xuất từ hình ảnh tham chiếu và hình ảnh thu được [31],vv tức là tìm sự tương ứng giữa hai hình thể tương đương với việc tìm điểm trong mỗi đối tượng có bối cảnh hình dạng tương tự [32] Ngoài ra còn một số các thuật toán thuộc nhóm phương pháp này đã được đề xuất Các phương pháp này thường chính xác và nhanh hơn đáng kể, phù hợp với so khớp khi đối tượng biến dạng, nhiễu, ngoại lệ, bị xoay vv [32] Ngoài ra, các phương pháp này còn được áp dụng để xử lý ảnh viễn thám bị cong vênh về mặt hình học, nhiễu và vô tuyến điện [33] Hai kỹ thuật chính trong phương pháp biểu diễn ảnh dựa trên Fourier là tương quan pha và biến đổi cực log. Tuy nhiên, cả hai đều có hiệu suất chưa tốt và các ứng dụng còn hạn chế chưa xử lý tốt khi ảnh có kích thước lớn.
- Các phương pháp dựa trên xác xuất và thời điểm
Các phương pháp dựa trên phân phối xác xuất và thời điểm không đổi đối với phép quay, nhân và dịch chuyển trong quá trình đối sánh thuộc hướng này có thể kể đến là : biểu diễn thuộc tính chung là mã chuỗi [34], bất biến thời điểm [35], và bộ mô tả xác suất [36] Các phương pháp dựa trên xác suất và thời điểm được áp dụng cho các tập hợp điểm, ảnh có kết cấu có cấu trúc để đối sánh hoặc xác thực bao gồm các phép biến đổi trắc quang và hình học [35].Các phương pháp dựa trên xác suất và thời điểm phù hợp với ảnh viễn thám, hiệu quả tốt trong xử lý các giá trị ngoại lai [37]. Tuy nhiên, mô hình xác suất phụ thuộc vào các biến ẩn, có tỷ lệ hội tụ thấp Do đó, nó không phù hợp với các tập dữ liệu quy mô lớn và dữ liệu nhiều chiều; nhưng cấu trúc tính toán của thuật toán ổn định và chính xác.
- Các phương pháp dựa trên quá trình học
Các phương pháp dựa trên quá trình học được áp dụng cho các nhiệm vụ trực quan ở cấp độ cao hơn và có thể được phân thành hai loại: học các tính năng bậc thấp [38] vv và mạng nơ-ron học sâu cung cấp cách xây dựng đặc trưng bất biến tốt hơn đối với các biến dạng khác nhau bằng cách học nhiều cấp tính năng bao gồm tính năng bậc thấp đến các tính năng bậc cao hơn [39] vv
Trong các phương pháp dựa trên quá trình học các đặc trưng được xây dựng từ mạng học sâu biểu diễn được chính xác các mẫu hình thái phức tạp trong ảnh, giúp cải thiện hiệu suất xác thực, nhận dạng hình ảnh trên các phương thức hình ảnh mới hoặc các ứng dụng hình ảnh mới [129] Tuy nhiên, hướng tiếp cận học sâu bị hạn chế trong các ứng dụng thực tế khi không dễ có các dữ liệu thực được gán nhãn.
*) Phương pháp dựa trên mạng neural tích chập
Mạng nơ-ron tích chập (CNN) gần đây đã dẫn đến những đột phá trong thị giác máy tính và nhận dạng mẫu [40] chẳng hạn như phát hiện mục tiêu [41], đối sánh đặc trưng [138], và phân loại hình ảnh [42]vv
Các phương pháp dựa trên CNN được áp dụng rộng rãi trong thị giác máy tính để nhận dạng Các tính năng của CNN được trích xuất theo phương thức end-to-end [43] Các đặc tả thu được từ CNN cho thấy khả năng phân biệt tốt và hiệu quả trong đối sánh hình ảnh hoặc xacs thực ảnh Tuy nhiên, phương pháp dựa trên mạng neural tích chập có một số hạn chế như điều chỉnh thông số mạng, yêu cầu kích thước mẫu lớn và sử dụng GPU để huấn luyện mô hình mẫu Ngoài ra, ý nghĩa vật lý không rõ ràng và bản thân mạng neural là một " chế độ hộp đen" chưa thể giải thích được.
Bảng 1.2 tổng hợp lại những ưu nhược điểm chính của các phương pháp tiếp cận bài toán trích chọn đặc trưng trên ảnh.
STT Thuật toán Ưu điểm Nhược điểm
1 Các phương pháp dựa trên Gradient
Phù hợp với các phép biến dạng hình học lớn và phép xoay, khớp ảnh tự động một cách mạnh mẽ tốc độ xử lý chậm
2 Các phương pháp dựa trên cường độ ánh sáng
Phù hợp khớp hình ảnh quang học, chịu các thay đổi về độ sáng tốt và tính toán đơn giản.
Khả năng chịu nhiễu kiém
3 Các phương pháp dựa trên phân tích miền không gian
Tốc độ xử lý nhanh, kháng nhiễu tốt
Xử lý kém khi gặp phải các phép quay và các phép biến đổi kích thước.
4 Các Phương pháp dựa trên phân bố xác xuất Độ chính xác khá cao Không phù hợp với các tập dữ liệu quy mô lớn và dữ liệu nhiều chiều
5 Các phương pháp dựa trên quá trình học Độ chính xác rất cao trong cả các hình ảnh phức tạp
Chỉ có thể cung cấp lượng dữ liệu hạn chế trong các tình huống ứng dụng và không thể đưa ra ước tính không khách quan về dữ liệu.
6 Các phương pháp dựa trên mạng neural tích chập Độ chính xác cao, áp dụng được cho nhiều bài toán
Tính toán phức tạp, đòi hỏi phần cứng cao Ý nghĩa vật lý không rõ ràng , khó giải thích cơ chế.
Bảng 1.2: Bảng thống kê các hướng tiếp cận trích trọn đặc trưng trên ảnhLuận văn tập trung nghiên cứu phương pháp dựa trên cường độ sáng của ảnh với thuật toán SIFT và phương pháp dựa trên phân tích miền không gian với thuật toán ShapeContexts Các phần tiếp theo từ 1.4 đến 1.5 sẽ trình bày tóm lược về các thuật toán trích chọn đặc trưng trên.
Thuật toán SIFT
Xác định các điểm đặc trưng
SIFT xác định điểm đặc trưng trên ảnh là các cực trị địa phương Các cực trị địa phương này được xác định trên nhiều ảnh có tỉ lệ khác nhau sinh từ ảnh ban đầu hay còn gọi là không gian tỉ lệ của ảnh ban đầu nhằm đảm bảo tính bất biến với các phép biến đổi tỉ lệ ảnh.
• Không gian tỉ lệ của ảnh
Không gian tỉ lệ L(x,y,σ) của ảnh I bất kỳ được định nghĩa là kết quả của phép tích chập giữa hàm Gaussian tại các giá trị tỉ lệ giãn nởσ khác nhau với ảnh đầu vào I(x,y) theo công thức:
Hình 1.4:Ảnh minh họa các bước thực hiện thuật toán SIFT
(1.1) trong đó ∗ là phép tích chập tại vị trí (x,y) đang xét, hàm Gaussian G(x,y,σ) được định nghĩa như sau:
Dựa trên định nghĩa về không gian tỉ lệ sinh từ ảnh, tác giả Lowe đã xây dựng không gian tỉ lệ như sau: Với mỗi ảnh I, thực hiện tính tích chập của I với các giá trị σ khác nhau của hàm G(x;y;σ) thu được các ảnh khác nhau hợp thành 1 octave Sau đó, giảm kích thước ảnh ban đầu xuống một nửa, và tiến hành tính tích chập trên ảnh mới tương tự như trên, thu được octave thứ 2 Quá trình này được lặp lại đối với mỗi octave như hình 1.5.
Hình 1.5:Ảnh minh họa phương pháp tính DoG
• Xác định các điểm cực trị địa phương
Các điểm đặc trưng của ảnh chính là các điểm thuộc cạnh hoặc góc của đối tượng, đây chính là các điểm cực trị địa phương cần phải tìm Ta xác định các điểm này bằng cách tính đạo hàm bậc hai trên ảnh tại vị trí(x,y)trên ảnhI theo công thức
Trên thực tế, việc tính giá trị đạo hàm cấp 2 không đơn giản nên ta tính xấp xỉ của L(x,y) bằng cách tính Difference of Gaussian (DoG)
Sau khi thu được ảnh D(x,y,θ) ,ta xác định các cực trị địa phương trên các ảnh này Đối với mỗi vị trí trên ảnh D(x,y,σ) , ta kiểm tra 8 pixel xung quanh nó,
9 pixel ở D(x,y,σ1) và 9 điểm ảnh ở D(x,y,σ2) Nếu điểm đang xét là cực trị trong
27 điểm thì ta xác định đây là điểm cực tiểu địa phương (xem hình 1.6).
Hình 1.6:Ảnh minh họa tìm điểm cực trị địa phương
Loại bỏ các điểm đặc trưng nhiễu
Sau bước đầu tiên sẽ thu được rất nhiều các điểm cực trị địa phương của ảnh, tuy nhiên không phải điểm nào cũng có giá trị thể hiện cho đặc trưng của ảnh Ở bước này, ta sẽ loại bỏ các điểm có độ tương phản kém, thể hiện tính đặc trưng của ảnh kém hơn như là các điểm nằm trên đường viền của đối tượng Để thực hiện lọc bớt các điểm nhiễu này thì cần thực hiện các công việc bao gồm:
• Sử dụng chuỗi Taylor để loại bỏ các điểm có độ tương phản thấp Ta sử dụng chuỗi Taylor để xấp xỉ chuỗi Taylor D(p) tại p(x,y,s) đến bậc 2:
Khi đó, các điểm cực trị là các điểm ˆpthỏa mãn đạo hàm của D(p) theo pbằng
0, tương ứng giá trị D(p) tại điểm ˆplần lượt là: p=−∂ 2 D −1
• Loại bớt các điểm đặc trưng trên cạnh đối tượng sử dụng ma trận Hessian
Trong đóDxx,Dxy,Dyylần lượt là các đạo hàm từng phần của hàmDtheoxvày.
Rõ ràng là các điểm nằm trên cạnh đối tượng thì sẽ có giá trị đạo hàm theo một và cạnh này nằm thẳng đứng trong ảnh thì đạo hàm theo hướng y sẽ lớn, còn theo x sẽ nhỏ hơn nhiều.
Với các điểm đặc trưng nằm ở góc đối tượng thì đạo hàm theo cả hai hướng đều sẽ lớn do đều có sự biến đổi lớn về giá trị mức xám theo cả hai hướng x và y Dựa vào các nhận xét trên, SIFT sử dụng ma trận Hessian để phát hiện và giữ lại các điể mcó giá trị đạo hàm theo cả hai hướng tại đó đều lớn tương ứng là các điểm ở góc đối tượng.
Xác định hướng của các điểm đặc trưng
Với mỗi điểm đặc trưng thu được ,ta tìm hướng tương ứng dựa trên sự biến đổi cường độ sáng của các điểm ảnh xung quanh điểm đặc trưng này để đảm bảo tính bất biến của điểm đặc trưng với các phép xoay ảnh Tại mỗi điểm đặc trưng thuộc một ảnh với tỉ lệ định trước s, xác định một vùng hàng xóm xung quanh điểm này Với mỗi điểm thuộc vùng hàng xóm, xác định độ lớn gradient và hướng gradient tương ứng của điểm đó như công thức: m(x,y) =p
• (x,y)là vị trí điểm đang xét
• L(a,b)là giá trị các điểm xung quanh (x,y)
• m(x,y)là độ lớn gradient xét tại điểm(x,y)
• θ(x,y)là hướng gradient xét tại(x,y)
Từ các giá trị về hướng và độ lớn gradient xác định được từ công thức trên, tiến hành xây dựng biểu đồ histogram bao gồm 36 khoảng tương ứng với các hướng gradient từ 0 đến 360 độ Sau đó, với mỗi điểm i thuộc vùng hàng xóm của điểm đặc trưng đang xét có độ lớn gradient và hướng gradient lần lượt là mi vàqi, ta cộng thêm vào khoảng [a,b] trên biểu đồ histogram một giá trị tỉ lệ với mi nếu θi ∈2 [a,b].Sau khi xây dựng được biểu đồ histogram thể hiện thông tin về hướng gradient của các điểm xung quanh điểm đặc trưng, góc của điểm đặc trưng đang xét sẽ tương ứng là vị trí của khoảng có giá trị lớn nhất Ngoài ra, những khoảng nào trên biểu đồ histogram có giá trị lớn hơn hoặc bằng 80%giá trị khoảng lớn nhất sẽ tạo thành một điểm đặc trưng mới Điểm đặc trưng mới này sẽ có cùng vị trí và tỉ lệ như điểm đặc trưng đang xét, chỉ khác giá trị hướng tương ứng.
Xây dựng các bộ vector đặc trưng tương ứng với từng điểm đặc trưng
Các bước xử lý phía trên đã thực hiện công việc dò tìm-lọc, gán tọa độ cũng như hướng và kích thước cho các điểm đặc trưng Sau khi xác định được tập các điểm đặc trưng trên ảnh thỏa mãn tính bất biến đối với các phép biến đổi ảnh, tiến hành xây dựng các véc-tơ đặc trưng tương ứng các điểm đặc trưng này dựa vào sự biến đổi cường độ sáng của các điểm ảnh trong vùng xung quanh điểm đặc trưng Quá trình này được minh họa như hình 1.7.
Hình 1.7:Ảnh minh họa phương pháp tìm vector đặc trưng cho điểm đặc trưng
Với mỗi một điểm đặ trưng, ta xác định một vùng hàng xóm S xung quanh điểm đặc trưng này với kích thước 16×16 Chia nhỏ vùng S thành mười sáu vùng conSivới kích thước 4×4 Trong từng vùngSi, xác định độ lớn và hướng gradient của các điểm ảnh trong này và xây dựng biểu đồ histogram tương ứng với vùngSi, cách xây dựng biểu đồ histogram này tương tự như khi xác định góc của điểm đặc trưng, chỉ khác việc thay vì biểu đồ histogram gồm 36 khoảng thì chỉ có 8 khoảng và sử dụng thêm trọng số biểu thị khoảng cách của điểm đang xét tới điểm đặc trưng Các trọng số này được xác định sử dụng hàm trọng số Gaussian với các giá trị càng ở xa điểm đặc trưng sẽ có trọng số càng nhỏ so với các điểm nằm gần điểm đặc trưng.
Trích chọn đặc trưng sử dụng Shape Context
Tính Shape Contexts của ảnh
Để tính shape context của ảnh, ta xác định danh sách các điểm nằm trên đường viền của ảnh, từ đó xây dựng shape context cho từng điểm trong danh sách này.
1 Xác định tập các điểm đặc trưng trong ảnh
Có rất nhiều phương pháp phát hiện đường viền của ảnh được dùng , phổ biến nhất là phương pháp Gradient và Laplace
• Gradient : Đạo hàm bậc nhất theo hướng ngang và dọc được tính theo công thức sau:
Biên độ của gradient vector hay độ lớn tổng cộng của giá trị đạo hàm nằm tại biên là kết hợp của cả hai giá trị này theo công thức:
G 2 x +G 2 y (1.11) Hướng của gradient vector được xác định theo:
(1.12) Hướng của biên sẽ vuông góc với hướng của gradient vector này.
Luận văn tập trung vào tìm hiểu thuật toán Canny[46] khi sử dụng Gradient. Thuật toán này sử dụng hai mức ngưỡng cao và thấp Ban đầu ta dùng mức ngưỡng cao để tìm điểm bắt đầu của biên, sau đó chúng ta xác định hướng phát triển của biên dựa vào các điểm ảnh liên tiếp có giá trị lớn hơn mức ngưỡng thấp Ta chỉ loại bỏ các điểm có giá trị nhỏ hơn mức ngưỡng thấp. Các đường biên yếu sẽ được chọn nếu chúng được liên kết với các đường biên khỏe.Phương pháp Canny bao gồm các bước sau:
Bước 1 Trước hết dùng bộ lọc Gaussian để làm mịn ảnh
Bước 2 Sau đó tính toán gradient (1.5) và (1.6) của đường biên của ảnh đã được làm mịn.
Cy[x,y] =−( i σ 2 )e −( x 2 +y 2 2σ 2 ) (1.15) Bước 3 Tiếp theo là loại bỏ những điểm không phải là cực đại.
Bước 4 Bước cuối cùng là loại bỏ những giá trị nhỏ hơn mức ngưỡng Phương pháp này hơn hẳn các phương pháp khác do ít bị tác động của nhiễu và cho khả năng phát hiện các biên yếu Nhược điểm của phương pháp này là nếu chọn ngưỡng quá thấp sẽ tạo ra biên không đúng, ngược lại nếu chọn ngưỡng quá cao thì nhiều thông tin quan trọng của biên sẽ bị loại bỏ Căn cứ vào mức ngưỡng đã xác định trước, ta sẽ quyết định những điểm thuộc biên thực hoặc không thuộc biên Nếu mức ngưỡng càng thấp, số đường biên được phát hiện càng nhiêu (nhưng kèm theo là nhiễu và số các đường biên giả cũng xuất hiện càng nhiêu) Ngược lại nếu ta đặt mức ngưỡng càng cao, ta có thể bị mất những đường biên mờ hoặc các đường biên sẽ bị đứt đoạn. Ưu điểm của phương pháp Canny là: Cực đại hóa tỷ số tín hiệu trên nhiễu làm cho việc phát hiện các biên thực càng chính xác Đạt được độ chính xác cao của đường biên thực Làm giảm đến mức tối thiểu số các điểm nằm trên đường biên nhằm tạo ra các đường biên mỏng, rõ.
• Phát hiện đường biên bằng Laplace
Gradient phát huy hiệu quả rất tốt khi xử lý các ảnh có cường độ sáng thay đổi lớn nhưng kém hiệu quả khi gặp các ảnh có cường độ sáng thay đổi chậm.Trong trường hợp này ta thường sử dụng phương pháp đạo hàm bậc hai để cho kết quả tốt hơn Có một số mẫu mặt nạ thường hay được sử dụng để tính xấp xỉ đạo hàm bậc 2 như sau.
Kết quả cho thấy kĩ thuật đạo hàm bậc 2 cho ra đường viền rất mảnh nhưng khả năng chịu nhiễu kém do đạo hàm bậc hai thường không ổn định.
Cho đến thời điểm này, chúng ta đã xử lý riêng với hệ tọa độ Đề-các (hoặc hình chữ nhật, hoặc xy ) Tuy nhiên, không phải lúc nào hệ tọa độ này cũng dễ sử dụng nhất Vì vậy, trong phần này chúng ta sẽ bắt đầu tìm hiểu hệ tọa độ Polar.
Hệ tọa độ thực tế là cách để xác định một điểm trong không gian Ví dụ, trong hệ tọa độ Đề-các tại điểm có tọa độ (x,y) và sử dụng tọa độ này để xác định điểm bằng cách bắt đầu tại điểm gốc và sau đó di chuyển x đơn vị theo chiều ngang, y đơn vị theo chiều dọc.
Hình 1.8:Ảnh minh họa biểu diễn điểm trong hệ tọa độ Đề Các
Tuy nhiên, đây không phải là cách duy nhất để xác định một điểm trong không gian hai chiều Thay vì di chuyển theo chiều dọc và chiều ngang từ điểm gốc để đến điểm cần xác định, thay vào đó, chúng ta có thể đi thẳng từ điểm gốc đến điểm cần tìm và xác định góc tạo bởi đường thẳng này với trục x dương Do đó, chúng ta có thể coi khoảng cách từ điểm cần tìm đến điểm gốc và giá trị góc quay từ trục x dương như là tọa độ của điểm Điều này được thể hiện trong hình 1.9
Hình 1.9:Ảnh minh họa biểu diễn điểm trong hệ tọa độ Polar
Hệ tọa độ trên được gọi là hệ tọa độ Polar.Trong hệ tọa độ Polar r cũng có thể là số âm , ví dụ như trong hình 1.9.
Hình 1.10:Chuyển đổi giữa hệ tọa độ Đề các và Polar
Từ hình 1.9 ta thấy nếu r dương thì điểm sẽ nằm ở góc phần tưθ, ngược lại nếu r âm thì điểm sẽ nằm ở góc phần tư trái ngược với θ Lưu ý thêm là các tọa độ (−2, π 6 )cùng biểu diễn một điểm giống như tọa độ (−2, 7π 6 ) Tọa độ(2, 7π 6 )yêu cầu ta phải xoay một góc 7π 6 từ trục x dương để đến được vị trí đường vẽ nét đứt trong hình trên và khoảng cách từ điểm gốc là 2. Điều này dẫn đến sự khác biệt quan trọng giữa hệ tọa độ Đề-các và Polar Trong hệ tọa độ Đề-các, có chính xác một tập các tọa độ cho bất kỳ điểm nào cho trước. Với hệ tọa độ Polar, điều này không đúng Trong hệ tọa độ Polar, theo nghĩa đen, có vô số tọa độ cho một điểm nhất định Ví dụ, bốn điểm sau đây biểu diễn tọa độ cho cùng một điểm.
(5, π 3 ) = (5,− 5π 3 ) = (−5, 4π 3 ) = (−5,− 2π 3 )Hình 1.10 hình vẽ góc được sử dụng trong bốn bộ tọa độ này.
Hình 1.11:Chuyển đổi giữa hệ tọa độ Đề các và Polar
Trong hệ tọa độ Polar, điểm(r,θ)có thể được biểu diễn bằng bất kỳ cặp tọa độ nào sau đây.
(r,θ+2πN) (−r,θ+ (2N+1)π), trong đó N là số nguyên bất kì
Sau khi đã xác định được đường viền của đối tượng trong ảnh, đường viền này được coi là hình dạng của đối tượng trong ảnh Đối với mỗi điểm p i trên đường viền của ảnh, ta xây dựng một biểu đồ thể hiện tọa độ của các điểm còn lại trên đường viền trong một hệ tọa độ Polar mà điểm pi được lấy làm gốc, chia làm 12 góc thành phần và 6 vòng tròn đồng tâm Ta gọi các vùng được phân tách giữa các góc và đường tròn này là các bin, xác định sự phân bố của các điểm trên cạnh nằm trong các bin theo như công thức : hi(k) =#{q̸= pi:(q−pi)∈bin(k)}(1.16)Biểu đồ này được định nghĩa là một shape context của ảnh tại điểm pi Để có thể so khớp hai ảnh thì ở mỗi ảnh ta phải xây dựng một bộ mô tả bao gồm shape context của tất cả các điểm trên cạnh của ảnh.
Tính toán ma trận chi phí
Sau khi xây dựng được bộ mô tả P cho ảnh đầu tiên và bộ mô tả Q cho ảnh thứ 2, để so sánh độ tương tự giữa hai ảnh, ta tiến hành so khớp từng shape context của hai bộ mô tả với nhau, độ sai khác giữa hai shape context càng nhỏ càng thể hiện hai điểm có tính chất giống nhau và ngược lại Dựa trên độ sai khớp của từng shape context với nhau ta sẽ xây dựng được ma trận thể hiện chi phí để đối sánh sự khác biệt giữa hai hình ảnh.Với một điểm p i trên hình thứ nhất và một điểm q j trên hình thứ hai Gọi
C i j = C (p i ,q j ) biểu thị chi phí khớp hai điểm này với :
[h i (k)−hj(k)] 2 hi(k) +hj(k) (1.17) Trong đóhi(k)và hj(k)biểu thị biểu đồ chuẩn hóa K-bin theo công thức 1.16 tại pi vàqj, tương ứng Tập hợp chi phíCi j của tất cả điểm i thuộc P và điểm j thuộc Q tạo thành ma trận được sử dụng cho việc so khớp ảnh ở phần sau.
So khớp ảnh
Với ma trận chi phíCi j giữa tất cả các cặp điểm pi trên hình thứ nhất và qj trên hình thứ hai, ta sẽ tìm cách để xác định cặp các điểm tương ứng sao cho tổng chi phí là nhỏ nhất Một cách tiếp cận khá phổ biến là tìm hoán vịπ để giảm thiểu tổng chi phí so khớp:
Hai hình dạng thường sẽ có số lượng điểm trên cạnh khác nhau, dẫn đến số lượng các shape context khác nhau, ma trận chi phí sẽ là một ma trận hình chữ nhật, điều này có thể dẫn đến nhiều phức tạp và có thể không xác định được ma trận nghịch đảo khi giải bài toán tối ưu tổng chi phí so khớp Do đó, các điểm giả được thêm vào hình dạng có số lượng điểm ít hơn với một chi phí không đổiε d Ta sử dụng phép biến đổiTPS chính quy và 3 lần lặp lại so khớp và ước tính lại TPS Sau khi đối sánh,ta ước tính khoảng cách giữa hai hình dạng là tổng trọng số của ba thành phần: khoảng cách giữa hai shape contexs(Dsc), khoảng cách xuất hiện hình ảnh (Dac)và năng lượng uốn cong(DBE).
Trong đó, khoảng cách shape contexs giữa các hình dạng P và Q dưới dạng tổng đối xứng của chi phí khớp shape context với các điểm phù hợp nhất, tức là:
D SC (P,Q) = 1 n∑ p∈P argmin q∈Q C(p,T(q)) + 1 m∑ q∈Q argmin p∈P C(p,T(q))(1.19) trong đú T (ã) biểu thị ước lượng phộp biến đổi TPS.
- Khoảng cách xuất hiện D ac (P,Q) được định nghĩa là tổng của sự khác biệt về độ sáng bình phương trong cửa sổ Gaussian xung quanh các điểm hình ảnh tương ứng:
Trong đó IP và IQ là các hình ảnh mức xám tương ứng với P và Q, tương ứng, δ biểu thị một số độ lệch vectơ vi phân và G là một hàm cửa sổ thường được chọn là Gaussian, do đó nhấn mạnh vào các điểm ảnh gần đó.
- Năng lượng uốn cong Dbe(P,Q) xác định "lượng" biến đổi cần thiết để khớp hai hình dạng Khoảng cách khi so khớp giữa hai ảnh là tổng các chi phí để tính toán so khớp và các phép biến đổi biến dạng được xác định bởi công thức: distance_total=DSC(P,Q) +DAC(P,Q) +DBE(P,Q)(1.21)
Nhận dạng biểu tượng đồ họa sử dụng kết hợp SIFT và Shape Context
Trong chương trước, luận văn đã trình bày về hai phương pháp để xây dựng các vector mô tả thông tin của ảnh, từ đó so khớp bộ mô tả của ảnh tìm kiếm với các bộ mô tả ảnh trong cơ sở dữ liệu để xác định được ảnh cần tìm kiếm Với thuật toán SIFT cho ta khả năng xử lý khá ấn tượng trong trường hợp xử lý so khớp giữa ảnh hai đối tượng. Tuy nhiên khi xử lý trong ảnh tài liệu đồ họa với số lượng điểm đặc trưng lớn, thời gian tính toán lâu cũng là một nhược điểm của bộ mô tả này Shapes Context là một bộ mô tả rất phong phú, bao gồm Shape context của một điểm chứa thông tin quan trọng ở xung quanh Trong Shapes context người ta sử dụng tập tất cả các điểm trên đường viền của hình ảnh ban đầu Thực tế cho thấy Shape contexts giải quyết rất tốt khi xử lý việc so khớp giữa hai đối tượng nhưng rất tệ khi so khớp ở mức độ tài liệu. Ngoài ra việc tính toán và so khớp trên tất cả các điểm thuộc tập cạnh dẫn đến sự dư thừa vì nhiều shape context của các điểm trên đường viền cạnh nhau thường sẽ rất giống nhau.
Mô hình tìm hiểu trong luận văn lấy cảm hứng từ nghiên cứu của Oanh và cộng sự
[47] đề xuất để giải quyết bài toán nhận dạng ký hiệu trên dữ liệu ảnh đồ họa Lược đồ tổng quát của mô hình được trình bày trong hình 2.1.
Hình 2.1: Ví dụ về nhận dạng/phát hiện đối tượng
Các điểm đặc trưng của ảnh sử dụng thuật toán SIFT Sau khi xác định được các điểm đặc trưng của ảnh, ta sẽ trích xuất các ảnh con bằng cách cắt vùng không gian xung quanh điểm đặc trưng Luận văn sẽ xây dựng các Shape Context cho mỗi ảnh con này dựa trên các điểm đặc trưng của nó và so khớp giữa biểu tượng cần tìm và tập các biểu tượng của các ảnh con để tìm đối tượng truy vấn trong cơ sở dữ liệu Để giảm độ phức tạp của việc so khớp một biểu tượng với một tập hợp lớn các ứng cử viên, ta sử dụng mô hình vectơ phổ biến để truy xuất thông tin Bằng cách này, trên bộ mô tả hình dạng, luận văn xây dựng một từ vựng trực quan trong đó mỗi ký hiệu được truy xuất trên các từ trực quan.
Nội dung trình bày trong chương này bao gồm tìm kiếm các điểm đặc trưng của ảnh trong phần 3.1, xây dựng các vùng ứng viên chứa biểu tượng đồ họa trong phần 3.2
Xây dựng Shape Context các điểm đặc trưng
Tìm kiếm các điểm đặc trưng của ảnh
Việc xác định các điểm đặc trưng được thực hiện trên hai giai đoạn khác nhau Giai đoạn đầu tiên xử lý là đối với các ảnh mẫu các đối tượng Trong mỗi bộ dữ liệu, sẽ có một số nhất định các loại đối tượng được xác định từ trước, ví dụ như trong ảnh bản vẽ kĩ thuật xây dựng bao gồm : bếp, bàn ghế, giường, cửa, cửa sổ vv(xem hình 2.2 là một ảnh biểu tượng).
Hình 2.2:Ảnh minh họa pha trích trọn điểm đặc trưng của đối tượng trong Database
Vì vậy, ta tiến hành trích chọn các điểm đặc trưng của bộ các mẫu này tạo thành tập các đặc trưng và lưu trữ vào cơ sở dữ liệu (hình 2.1) Việc tính toán và lưu trữ trước các véc-tơ đặc trưng như vậy sẽ làm giảm đáng kể thời gian thực hiện cho mô hình.
Hình 2.3:Ảnh minh họa pha trích trọn điểm đặc trưng của đối tượng trong Database
Giai đoạn thứ hai được tiến hành khi có ảnh tài liệu mới cần truy xuất thông tin, khi đó thực hiện xác định các điểm đặc trưng, tiến hành xác định các vùng ứng viên chứa biểu tượng đồ họa từ các điểm đặc trưng này Cả hai giai đoạn này sẽ được sử dụng cùng thuật toán SIFT để trích chọn đặc trưng Hình 2.3 mô tả các điểm đặc trưng trên toàn bộ ảnh tài liệu bản vẽ xác định bởi thuật toán SIFT.
Hình 2.4: Ảnh minh họa pha trích trọn điểm đặc trưng của ảnh tài liệu mới
Tính shape context của điểm đặc trưng (SCIP)
Giả sử IP ={P 1 ,P 2 , ,PN}là tập các điểm quan tâm và C = {q 1 ,q 2 , ,qn}là tập chứa các điểm đường bao của đối tượng Mỗi điểm trong tập IP được coi là điểm tham điểm này sẽ giống ý tưởng với phương pháp Shape Context nhưng chỉ tính toán trên các điểm đặc trưng Do bộ mô tả được tính toán trên ảnh của biểu tượng nên nó có thể bất biến với các phép biến đổi xoay,quay và thay đổi kích thước.
Truy vấn đối tượng trong ảnh tài liệu
Xây dựng bộ từ vựng
1 Bộ từ vựng với cơ sở dữ liệu Đầu tiên, các bộ mô tả SCIP của các ký hiệu trong cơ sở dữ liệu Tiếp theo, các bộ mô tả tương tự được tập hợp lại thành các cụm bằng kỹ thuật phân cụm Mỗi cụm được coi là một từ trực quan được xác định bởi trung tâm của các bộ mô tả được liên kết và tất cả các bộ mô tả này sử dụng từ trực quan làm đại diện cho nó Để tạo thuận lợi cho vấn đề phân cụm, chúng tôi đã sử dụng phương pháp k-means cho các bài kiểm tra hiện tại Một biểu tượng được mô tả bằng các từ trực quan và có thể được coi như một tài liệu văn bản.Số lượng cụm được chọn theo thực nghiệm và hàm khoảng cách được sử dụng là khoảng cách cosin.
2 Khi truy xuất biểu tượng trong một ảnh tài liệu lớn với nhiều đối tượng trong ảnh thì việc áp dụng SCIP sẽ không hiệu quả do các kí hiệu chưa được phân đoạn.
Do đó, việc xây dựng một vùng lân cận đối với mỗi điểm đặc trưng như nhớm tác giả Oanh và cộng sự đã đề xuất là ý tưởng khả thi Với mỗi điểm đặc trưng pi =(xi,yi,δi,θi), vùng lân cận Ni của nó được xác định bởi bởi một vòng tròn có tâm là pi và bán kính Ri =β δi với β là một hằng số được xác định theo kinh nghiệm Bộ mô tả SCIP hi của vùng lân cận Ni được tính toán và biểu diễn bởi biểu đồ hi(l) =#{q j ̸= pi,qj∈C ∩Ni:(q j −pi)∈bin(l)}
Với l=1,Ltập SCIP là bộ mô tả cho phần lân cận của điểm p i được xác định, từ đó xác định được các từ tương quan tương ứng với các điểm quan tâm này:
Xây dựng các vùng ứng viên chứa biểu tượng đồ họa
Phần này được tham chiếu chính từ ý tưởng của nhóm tác giả Oanh và các cộng sự [4] Với mỗi hình truy vấn gọi điểm trung tâm C(xC,yC), chiều rộng w và chiều cao h tạo thành không gian hộp box={xC,yC,w,h} Với pi = (xi, yi, δi, θi) (trong truy vấn) và p d j = (x d j , y d j , δ d j , θ d j ) (trong tài liệu) khớp với nhau, một vùng box d j = (x C d j,y C d j,w d j ,h d j ,ϕ d j )trong tài liệu được xác định dựa trên box, pi, p d j : ϕ d j =θ d j −θi,w d j =w∗ξ,h d j =h∗ξ x C d =x d j +ξ∗(x piC ∗cosϕ d j −y piC ∗sinϕ d j ) (2.1) y C d j =y d j +ξ∗(xpiC∗sinϕ d j −ypiC∗cosϕ d j )
Trong đó ξ =δ d j /δ i (x piC ,ypiC) = (x C ,yC)−(x i ,yi)
Hình 2.5:Ảnh minh họa quá trình trích xuất điểm đặc trưng của vùng ứng viên
Hình 2.5 mô tả cách trích xuất điểm đặc trưng của vùng ứng viên trên ảnh tài liệu.
Truy xuất biểu tượng bằng cách sử dụng mô hình vectơ
Mô hình vector có lẽ là mô hình phổ biến nhất trong cộng đồng nghiên cứu trong việc truy xuất thông tin Nó được kỳ vọng sẽ vượt trội hơn các mẫu cổ điển khác trong lớp các mô hình truy xuất thông tin[2] Trong mô hình này, tài liệu được biểu diễn dưới dạng vectơ tần số từ và hơn nữa, nó thường được mô tả bằng vectơ tần số số hạng có trọng số mà mỗi thành phần cung cấp sự cân bằng của hai yếu tố: thời hạn-tần số (hệ số tf) và thuật ngữ tần suất tài liệu nghịch đảo (hệ số idf) Yếu tố tf cho biết thuật ngữ đó mô tả nội dung tài liệu tốt như thế nào và yếu tố idf đo lường mức độ quan trọng của thuật ngữ để phân biệt tài liệu có liên quan với tài liệu không liên quan trong cơ sở dữ liệu.
Mỗi bộ mô tả SCIP của ký hiệu j được khớp với cụm gần nhất được phát hiện trong phần trước Có nghĩa là bộ mô tả SCIP này hiện được coi là một từ trực quan tồn tại trong ký hiệu j, và ký hiệu này hiện được coi là một tài liệu.
Bây giờ, áp dụng mô hình vector để lập chỉ mục các biểu tượng Một biểu tượng tương ứng với một tài liệu và một từ trực quan tương ứng với một thuật ngữ trong mô hình vectơ Do đó, một ký hiệu j được biểu diễn bằng một vectơ tf-idf⃗sj :
Trong đó K là khối lượng từ vựng vàwi j, là tần suất có trọng số của từ i trong tài liệu j: wi, j =t fi, j ∗id f i ,i=1,K t fi, j = f reqi,j max l f req l , j t fi,j=logN n i trong đó freqi, j là tần suất xuất hiện của từ i trong tài liệu j, N là tổng số tài liệu trong cơ sở dữ liệu và ni là số tài liệu mà từ i xuất hiện tfi, j được định nghĩa là tần suất số hạng chuẩn hóa.
Vectơ tf-idf⃗sq của biểu tượng truy vấn được tính theo cách tương tự: tính toán các bộ mô tả SCIP, sau đó khớp các bộ mô tả này với các từ trực quan và cuối cùng, xác định vectơ tf-idf tương ứng với biểu tượng truy vấn Mức độ tương tự của truy vấn và một ký hiệu trong cơ sở dữ liệu được định lượng bằng mối tương quan của chúng Mối tương quan này được đo bằng khoảng cách cosin giữa hai vectơ⃗sj và⃗sq
Chương 3 Thực nghiệm và kết luận
Dữ liệu
Bộ dữ liệu thực nghiệm mô hình thuộc trung tâm thị giác máy tính (CVC) ở Barcelona bao gồm 37 biểu tượng đã được phân đoạn thống kê trong bảng 3.4 Luận văn thực hiện các phép toán quay, xoay, thêm nhiễu để thu được 250 ảnh các biểu tượng đã được phân đoạn Với dữ liệu ảnh tài liệu có 160 ảnh tài liệu bản vẽ kĩ thuật xây dựng và kĩ thuật điện được thống kê trong bảng 3.1.
Bản vẽ thiết kế điện 75
Bản vẽ kĩ thuật tại Việt Nam 500 Bảng 3.1: Bảng thống kê số lượng các loại ảnh tài liệu.
Ngoài bộ ảnh thuộc trung tâm CVC, luận văn cũng đưa vào thực nghiệm 500 ảnh bản vẽ xây dựng trong môi trường thực tế ở Việt Nam Hình 3.1 là một ví dụ về bản vẽ được sử dụng thực tế ở Việt Nam
Hình 3.1:Ảnh minh họa bản vẽ kĩ thuật được sử dụng tại Việt Nam
Tham số mô hình
Thực nghiệm với thuật toán SIFT
Với thuật toán SIFT, trong quá trình thực nghiệm luận văn so sánh các bộ mô tả giữa hai hình ảnh sử dụng khoảng cách Cosine, giữa hai ảnh có tổng khoảng cách giữa các bộ mô tả nhỏ nhất sẽ là hai ảnh có sự tương đồng lớn nhất.
Thực nghiệm với thuật toán Shape Context
Khi thực nghiêm thuật toán Shape Contexts, luận văn sử dụng tổng chi phí so khớp ma trận chi phí, khoảng cách xuất hiện và năng lượng uống cong của ảnh để tính khoảng cách giữa hai hình dạng Khoảng cách giữa hai hình dạng nhỏ nhất thể hiện hai ảnh có sự tương đồng lớn nhất.
Thực nghiệm với thuật toán
Mô hình giải quyết bài toán bao gồm hai pha, cả hai pha của thuật toán đều cần thực nghiệm trên các tham số khác nhau để đạt được độ chính xác cao nhất có thể trên bộ dữ liệu thực nghiệm
Trong giai đoạn trích trọn đặc trưng, các tham số được sử dụng của thuật toán SIFT bao gồm : số lượng octaves là 4, số lượng mức tỉ lệ xét đến của ảnh là 5 Giá trịσ cho mức tỉ lệ đầu tiên làσ = 1.6, các mức tỉ lệ sau đó có giá trịσsau =√
2σ t ruoc Giá trị α nhằm loại bỏ các điểm đặc trưng có độ tương phản thấp là 0.03 Tỉ lệ loại bỏ các điểm đặc trưng không phải góc đối tượng sử dụng ma trận Hessian là r = 8 Các giá trị tham số này được đều lấy trực tiếp từ các kết quả nghiên cứu của tác giả thuật toán SIFT thực nghiệm trên nhiều bộ dữ liệu và thu được các giá trị tham số cho độ chính xác cao nhất. Đối với quá trình xây dựng các bộ mô tả shape context cho ảnh, luận văn sử dụng 6 vòng tròn đồng tâm và 12 góc Các giá trị này là các giá trị tốt nhất sau khi thử nghiệm thay đổi các cặp giá trị khác nhau Ngoài ra trong quá trình thực nghiệm với thuật toánCanny để xác định đường cạnh, luận văn trích xuất 200 điểm mẫu có cường độ sáng trong ngưỡng từ 10 đến 200 để làm đầu vào tính toán bộ mô tả Trong quá trình xác định vùng lân cận của điểm đặc trưng xác định tham sốβ = 1.85 và số từ vựng được xây dựng được xây dựng là 175 từ.
Độ đo
Độ đo chính xác (Acc) khi truy vấn một biểu tượng trong ảnh được xác định bằng tỉ lệ số kết quả truy vấn đúng trên tổng số truy vấn.
Acc = T P+T S T P Trong đó TP là số biểu tượng được nhận dạng đúng, TS là tổng số biểu tượng bị nhận dạng sai.
Kết quả
Độ chính xác
Quá trình thực nghiệm với bộ dữ liệu như đã trình bày phía trên, thực hiện với ba thuật toán SIFT, Shape Context, và SCIP mở rộng Kết quả độ chính xác được thể hiện trong bảng 3.2 Dựa vào những kết quả trên có thể thấy sự cải thiện rõ rệt của thuật toán SCIP mở rộng so với hai thuật toán SIFT và Shape Contexts.
Bảng 3.2: Bảng thống kê thời độ chính xác các thuật toán
Thời gian thực thi
Thời gian thực thi là rất quan trọng đối với các ứng dụng chạy thời gian thực Trong bảng 3.3 thể hiện thông số về thời gian thực thi trung bình của ba thuật toán Các kết quả thực nghiệm này được chạy trên máy tính với CPU core i5 8500U và 16GB RAM.Dựa vào kết quả có thể thấy thuật toán SCIP mở rộng cũng cho thấy những khả năng khá ấn tượng so với hai thuật toán còn lại.
Hướng phát triển
Dựa vào các kết quả mô hình trên tập dữ liệu thực nghiệm và các kết luận thu được ở trên, em đưa ra một số hướng phát triển trong giai đoạn tiếp theo của luận như sau:
• Hướng thứ nhất là cải tiến thuật toán trích chọn các điểm đặc trưng thay vì chỉ thực hiện trích chọn với thuật toán SIFT.
• Hướng thứ hai là áp dụng mô hình trích xuất thông tin trên ảnh tàiliệu vào các loại ảnh tài liệu khác nhau Đồng thời tiến hành thực nghiệm mô hình đề xuất với các mô hình nhận dạng và xử lý kí tự nhằm đánh giá độ chính xác của mô hình
Symbol Ảnh các đối tượng Số lượng ảnh armchair 1 bed 2 door 2 sink 4 sofa 2 table 3 tub 1 windows 2 battery 2 capacitor 2 core-air 2 diode 2 earth 1 gate-ampli 1 relay 2 resistor 1 transistor-npn 4
[1] L Rabiner, “A tutorial on hidden markov models and selected applications in speech recognition,” Proceedings of the IEEE, vol 77, no 2, pp 257–
[2] A El-yacoubi, M Gilloux, R Sabourin, and C Y Suen, “An hmm-based approach for off-line unconstrained handwritten word modeling and recog- nition,”IEEE Trans Pattern Analysis and Machine Intelligence, 1999.
[3] Y He and A Kundu, “2-d shape classification using hidden markov model,”
IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 13, no 11, pp 1172–1184, 1991.
[4] T.-O Nguyen, S Tabbone, and A Boucher, “A symbol spotting approach based on the vector model and a visual vocabulary,” in2009 10th Interna- tional Conference on Document Analysis and Recognition, 2009, pp 708–
[5] B T Messmer and H Bunke, “Automatic learning and recognition of graph- ical symbols in engineering drawings,” in Graphics Recognition Methods and Applications, R Kasturi and K Tombre, Eds Berlin, Heidelberg: Springer Berlin Heidelberg, 1996, pp 123–134.
[6] J Llados, E Marti, and J Villanueva, “Symbol recognition by error-tolerant subgraph matching between region adjacency graphs,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 23, no 10, pp 1137–
[7] L W W Zhang, “A new vectorial signature for quick symbol index984 ing, filtering and recognition,” in Proceedings of the Ninth International 985 Conference of Document Analysis and Recognition, 2007, pp 708–712.
[8] D Zuwala and S Tabbone, “A method for symbol spotting in graphical documents,” inDocument Analysis Systems VII, H Bunke and A L Spitz,
Eds Berlin, Heidelberg: Springer Berlin Heidelberg, 2006, pp 518–528.
[9] S M¨uller and G Rigoll, “Engineering drawing database retrieval using sta- tistical pattern spotting techniques,” in Graphics Recognition Recent Ad- vances, A K Chhabra and D Dori, Eds Berlin, Heidelberg: Springer Berlin Heidelberg, 2000, pp 246–255.
[10] K Mehlhorn, Graph Algorithms and NP-Completeness Berlin, Heidel- berg: Springer-Verlag, 1984.
[11] D G Lowe, “Distinctive image featuresfrom scale-invariant keypoints,”In- ternationalJournal of Computer Vision, January 5, 2004.
[12] Z Hossein-Nejad and M Nasri, “Image registration based on sift features and adaptive ransac transform,” 2016.
[13] M.-K Hu, “Visual pattern recognition by moment invariants,” IRE Trans- actions on Information Theory, vol 8, no 2, pp 179–187, 1962.
[14] Y Wu and Y Wu, “Shape-based image retrieval using combining global and local shape features,”2009 2nd International Congress on Image and Signal Processing, 2009.
[15] D Lowe, “Distinctive image features from scale-invariant keypoints,”Inter- national Journal of Computer Vision, vol 60, pp 91–, 11 2004.
[16] Y Ke and R Sukthankar, “Pca-sift: a more distinctive representation for local image descriptors,” inProceedings of the 2004 IEEE Computer Soci- ety Conference on Computer Vision and Pattern Recognition, 2004 CVPR2004., vol 2, 2004, pp II–II.
[17] H Bay, T Tuytelaars, and L Van Gool, “Surf: Speeded up robust features,” in Computer Vision – ECCV 2006, A Leonardis, H Bischof, and A Pinz,
Eds Berlin, Heidelberg: Springer Berlin Heidelberg, 2006, pp 404–417.
[18] C Strecha, A Bronstein, M Bronstein, and P Fua, “Ldahash: Improved matching with smaller descriptors,”IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 34, no 1, pp 66–78, 2012.
[19] B Fan, F Wu, and Z Hu, “Rotationally invariant descriptors using inten- sity order pooling,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 34, no 10, pp 2031–2045, 2012.
[20] J Chen, J Tian, N Lee, J Zheng, R T Smith, and A F Laine, “A partial intensity invariant feature descriptor for multimodal retinal image registra- tion,” IEEE Transactions on Biomedical Engineering, vol 57, no 7, pp.
[21] B Kim, H Yoo, and K Sohn, “Exact order based feature descriptor for illumination robust image matching,” Pattern Recognition, vol 46, no 12, pp 3268–3278, 2013 [Online] Available: https://www.sciencedirect.com/ science/article/pii/S0031320313001854
[22] T Ojala, M Pietik¨ainen, and D Harwood, “A comparative study of texture measures with classification based on featured distributions,”
Pattern Recognition, vol 29, no 1, pp 51–59, 1996 [Online] Available: https://www.sciencedirect.com/science/article/pii/0031320395000674
[23] S Leutenegger, M Chli, and R Y Siegwart, “Brisk: Binary robust invariant scalable keypoints,” in2011 International Conference on Computer Vision,
[24] P.-E Forssen and D G Lowe, “Shape descriptors for maximally stable ex- tremal regions,” in2007 IEEE 11th International Conference on Computer Vision, 2007, pp 1–8.
[25] S G Salve and K C Jondhale, “Shape matching and object recognition using shape contexts,” in 2010 3rd International Conference on Computer Science and Information Technology, vol 9, 2010, pp 471–474.
[26] D Jayachandra and A Makur, “Directionlets using in-phase lifting for im- age representation,”IEEE Transactions on Image Processing, vol 23, no 1, pp 240–249, 2014.
[27] W Freeman and E Adelson, “The design and use of steerable filters,”IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 13, no 9, pp 891–906, 1991.
[28] H Kim, S Lee, and Y Lee, “Wide-baseline stereo matching based on the line intersection context for real-time workspace modeling,” J Opt. Soc Am A, vol 31, no 2, pp 421–435, Feb 2014 [Online] Available: http://opg.optica.org/josaa/abstract.cfm?URI=josaa-31-2-421
[29] P Matsakis, J Keller, O Sjahputera, and J Marjamaa, “The use of force histograms for affine-invariant relative position description,” IEEE Trans- actions on Pattern Analysis and Machine Intelligence, vol 26, no 1, pp.
[30] I Zavorin and J Le Moigne, “Use of multiresolution wavelet feature pyra- mids for automatic registration of multisensor imagery,”IEEE Transactions on Image Processing, vol 14, no 6, pp 770–782, 2005.
[31] B Fan, F Wu, and Z Hu, “Robust line matching through line–point invariants,” Pattern Recognition, vol 45, no 2, pp 794–
805, 2012 [Online] Available: https://www.sciencedirect.com/science/ article/pii/S0031320311003189
[32] E Hasanbelliu, L S Giraldo, and J C Príncipe, “Information theoretic shape matching,” IEEE Transactions on Pattern Analysis and Machine In- telligence, vol 36, no 12, pp 2436–2451, 2014.
[33] J M Murphy, J Le Moigne, and D J Harding, “Automatic image regis-
IEEE Transactions on Geoscience and Remote Sensing, vol 54, no 3, pp.
[34] X Dai and S Khorram, “A feature-based image registration algorithm us- ing improved chain-code representation combined with invariant moments,”
IEEE Transactions on Geoscience and Remote Sensing, vol 37, no 5, pp.
[35] Z Chen and S.-K Sun, “A zernike moment phase-based descriptor for local image representation and matching,”IEEE Transactions on Image Process- ing, vol 19, no 1, pp 205–219, 2010.
[36] P Torr and C Davidson, “Impsac: synthesis of importance sampling and random sample consensus,”IEEE Transactions on Pattern Analysis and Ma- chine Intelligence, vol 25, no 3, pp 354–364, 2003.
[37] H Zhou, J Ma, C Yang, S Sun, R Liu, and J Zhao, “Nonrigid feature matching for remote sensing images via probabilistic inference with global and local regularizations,” IEEE Geoscience and Remote Sensing Letters, vol 13, no 3, pp 374–378, 2016.
[38] T Trzcinski, M Christoudias, and V Lepetit, “Learning image descriptors with boosting,” IEEE Transactions on Pattern Analysis and Machine Intel- ligence, vol 37, no 3, pp 597–610, 2015.
[39] Z Feng, J Lai, and X Xie, “Learning view-specific deep networks for person re-identification,”IEEE Transactions on Image Processing, vol 27, no 7, pp 3472–3483, 2018.
[40] K Nguyen, C Fookes, A Ross, and S Sridharan, “Iris recognition with off- the-shelf cnn features: A deep learning perspective,” IEEE Access, vol 6, pp 18 848–18 855, 2018.
[41] G Cheng, P Zhou, and J Han, “Learning rotation-invariant convolutional neural networks for object detection in vhr optical remote sensing images,”