Dữ liệu thật:

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu (Trang 31 - 34)

Từ các ảnh, sử dụng công cụ là phần mềm LabelImg để xác định hộp cho các chuỗi, phần mềm này ứng với mỗi ảnh sẽ sinh ra một tệp có định dạng *.xml tương ứng, từ tệp *.xml mình chuyển về định dạng mong muốn đầu vào của mạng và lưu dưới tệp định dạng .txt

Chú ý: Nếu quá trình xác định hộp cho dữ liệu thật mà nội dung của hộp đó không thể xác định bằng mắt thường thì được xem là nhiễu, khi đó nội dung đó được gán nhãn là ###, để quá trình đào tạo ở mạng lúc tính toán mất mát sẽ xem nhưng hộp đó có chi phí bằng 0, sẽ không ảnh hưởng đến quá trình cập nhật trên các bộ tham số của mô hình. Dưới đây là hình ảnh minh họa của quá trình xác định hộp cũng như gán nhãn cho hộp

Hình 3.0.4 Hình minh họa của quá trình xác định hộp

Mỗi tệp tin có định dạng *.txt có cấu trúc như sau:

Giải thích nội dung tệp *.txt

Mỗi hàng ứng với mỗi hộp tương ứng trên hình đã được đánh nhãn hộp, tám phần tử đầu tiên từ trái sang phải lần lượt là tọa độ của các hộp tương ứng, phần tử sau cùng là nội dung của hộp đó chứa. Việc dánh nhãn nội dung ứng với tầng hộp sẽ có thể tái sử dụng cho quá trình đào tạo mạng nhận dạng.

3.4.3 Dữ liệu được sinh ra

Bởi vì sự hạn chế của dữ liệu thật, cũng như là thời gian đánh hộp dữ liệu, qua tìm hiểu thì để sinh dữ liệu có nhưng mạng nỗi tiếng như GAN, nhưng do một số hạn chế nên sử dụng các kỹ thuật trong xử lý ảnh để tạo ra dữ liệu, nó được thực hiện một cách tự động từ việc sinh nội dung và gán nhãn nội dung cho tầng hộp. Sau đây tôi trình bày tầng bước trong quá trình sinh dữ liệu của mình

Cần có các phông chữ hỗ trợ ngôn ngư mình muốn nhận dạng và phát hiện, cụ thể nếu ngôn ngư là tiếng Việt thì sử dụng các phông hỗ trợ tiếng Việt, và các nền mình muốn sinh dữ liệu lên đó, và một bộ từ điển

Và dữ liệu thật sẽ không bao giờ là sạch, chúng sẽ chứa nhiễu, cũng như tác động bởi môi trường bên ngoài như ánh sáng, chất lượng hình ảnh đầu vào khác nhau.

Bước 1: Sử dụng kỹ thuật xử lý ảnh để sinh các chuỗi chứa trong từ điển lên nền mong muốn.

Bước 2: Áp dụng các kỹ thuật xử lý ảnh để tạo các hiệu ứng, mô phỏng các hiệu ứng giống với dữ liệu thật.

Bước 3: Xác định vùng hộp cho các chuỗi được sinh ra và lưu dưới định dạng là tệp .txt. Tệp này có cấu trúc nội dung giống như cấu trúc tệp .txt của dữ liệu thật.

Dưới đây là mẫu của dữ liệu sinh gồm ảnh và nội dung tệp .txt tương ứng.

Hình 3.0.5 Dữ liệu sinh ra

Hình 3.0.6 Nhãn của dữ liệu sinh

3.4.4 Tiền xử lý dữ liệu:

thường chứa nhiễu nên chúng ta cần tiền xử lý trước khi đưa vào mạng để đào tạo, một số cách được áp dụng cho tiền xử lý như sau

• Sử dụng bộ lọc Gaussian, bộ lọc median để bỏ nhiễu

• Loại nhưng hộp có diện tích bé

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu (Trang 31 - 34)

Tải bản đầy đủ (PDF)

(57 trang)