Phương pháp tiếp cập mới đối với nhận diện Non-text Element

Một phần của tài liệu Nhận diện và phân loại các thành phần giao diện của ứng dụng từ ảnh chụp màn hình (Trang 67 - 70)

2 Nền tảng và các cơng trình liên quan

4.4 Phương pháp tiếp cập mới đối với nhận diện Non-text Element

Đầu tiên, phương pháp nhận diện các khối layout của một GUI. Ý tưởng là các GUI tổ chức các GUI-component thành các khối tách biệt và thơng thường chúng có dạng hình chữ nhật. Xianyu [20] cũng nhận

diện các khối này nhưng dùng giả thiết rằng chúng xuất hiện trên cùng một trục đứng hoặc trục ngang. Thay vì vậy, nhóm đầu tiên sử dụng giải thuật flood-filling [28] trên ảnh xám của GUI đầu vào để thu được tối đa các vùng có màu tương đồng nhau.

Sau đó, sử dụng giải thuật nhận diện hình dạng (shape recognition) [29] để xác định vùng này có phải là hình chữ nhật hay khơng. Mỗi vùng chữ nhật tìm được sẽ xem như là một khối GUI-components.Cuối cùng, nhóm dùng giải thuật Suzuki’s Contour tracing để tính tốn biên của các khối vừa tìm được. Trong hình 4.4 các khối đó được thể hiện bằng màu sắc khác nhau.

Tiếp đó, nhóm dùng một ảnh xám (binary map) của GUI đầu vào, với mỗi block ở trên, ta phân đoạn được một block tương ứng ở trên bản nhị phân (hình 4.5). Cần biết rằng, nhị phân hóa (binarization) đơn giản GUI đầu vào thành ảnh trắng-đen, giúp phân tách các chi tiết (foreground) ra khỏi nền (background).

Hình 4.5: Chuyển ảnh đầu vào thành ảnh xám

Các phương pháp đương thời thực hiện nhị phân hóa thơng qua giải thuật phát hiện cạnh Canny và Sobel, được thiết kế để giữ lại cái kết cấu chi tiết (fine texture) của hình ảnh. Tuy nhiên, khả năng giữ lại các đặc trưng này lại tỏ ra không hiệu quả, thậm chí đối nghịch với mục tiêu của bộ nhận diện GUI-component, cái mà chú trọng đến hình dạng của các GUI-element hơn là nội dung mà chi tiết thể hiện. Ví dụ, nếu ta muốn nhận diện một ImageView thì khơng cần quan tâm đến nôi dung bên trong ImageView mà chỉ cần đường biên xung quanh để tách biệt nó với những phần cịn lại.

Nhóm sử dụng một phương pháp nhị phân hóa đơn giản nhưng hiệu quả [30] dựa trên gradient map của ảnh GUI(hình 4.7). Gradient map này thể hiện sự thay đổi của độ lớn đạo hàm giữa các pixel lân cận. Nếu mà đạo hàm tại một điểm có giá trị chênh lệch nhỏ với giá trị lân cận, nó sẽ thành màu đen ở binary map tương ứng, và ngược lại nó sẽ

có màu trắng.

Một phần của tài liệu Nhận diện và phân loại các thành phần giao diện của ứng dụng từ ảnh chụp màn hình (Trang 67 - 70)

Tải bản đầy đủ (PDF)

(101 trang)