a. Cài đặt thƣ viện
4.2. Bộ dữ liệu
DDSM là một bộ dữ liệu ảnh nhũ đƣợc định dạng lossless-JPEG. Trong phạm vi bài báo này, sử dụng bộ dữ liệu CBIS-DDSM là một phiên bản mới của bộ
dữ liệu DDSM. CBIS-DDSM chứa tập các ảnh đƣợc giải nén và chuyển đổi sang định dạng DICOM tiêu chuẩn. Bộ dữ liệu có tất cả 2821 nhũ ảnh từ 1249 phụ nữ, đƣợc lấy từ trang chủ CBIS-DDSM. Bộ dữ liệu gồm hai nhóm ảnh ung thƣ là ảnh khối và ảnh vôi hoá. Bên trong mỗi ảnh DICOM có chứa nhiều thông tin khác nhau: thông tin bệnh nhân, trạng thái bệnh lý, vùng chứa tổn thƣơng trong ảnh,… Mỗi ảnh đƣợc gán một trong hai nhãn là benign và malignant tƣơng ứng với hai mức độ khác nhau trong chẩn đoán ung thƣ vú là lành tính và ác tính. Ngoài ra, mỗi một ảnh cũng đƣợc chú thích về vị trí của vùng tổn thƣơng ung thƣ gồm cả khối u lành tính, khối u ác tính và vôi hoá lành tính, vôi hóa ác tính xuất hiện trong ảnh. Trong phạm vi bài báo này chúng tôi chỉ thực hiện phân loại trên nhóm ảnh khối (còn đƣợc gọi là ảnh mass).
Đầu tiên, chuyển toàn bộ dữ liệu từ định dạng DICOM sang PNG với kích thƣớc là 1152×896 để phù hợp với cấu hình phần cứng. Sau đó, chia ngẫu nhiên bộ dữ liệu thành hai phần training set và testing set theo tỉ lệ 85:15. Từ training set, tiếp tục chia ngẫu nhiên theo tỉ lệ 90:10 để tạo validation set độc lập. Việc chia này vẫn đảm bảo tỉ lệ các trƣờng hợp ung thƣ là giống nhau trên ba bộ training set, testing set và validation set. Bộ dữ liệu có 2 nhãn là lành tính (benign) và ác tính (malignant).
Nhìn chung, bộ dữ liệu có số lƣợng ảnh ít so với yêu cầu bài toán là phân loại hình ảnh, do đó cần áp dụng các kỹ thuật xử lý của bài toán phân loại khi gặp dữ liệu có số lƣợng ít. Tỉ lệ hai lớp lành tính và ác tính trong cả ba tập dữ liệu train, test, validation không chênh lệch nhau nhiều nên có thể xem là các lớp cân bằng với nhau. Sự khác nhau giữa hai nhãn lành tính và ác tính là rất khó phân biệt đối với ngƣời không có chuyên môn, do đó thách thức của bài toán này là rất lớn.