CHƯƠNG 2. ỨNG DỤNG MẠNG PHỨC HỢP ĐỂ KHAI PHÁ DỮ LIỆU
2.3. Ứng dụng mô hình để khai phá dữ liệu khám nghiệm ung thƣ
2.3.1. Dữ liệu đầu vào và tiền xử lý dữ liệu
Trong một nghiên cứu năm 2019 [106] đã tổng hợp các nguồn dữ liệu được công bố trước đó về các yếu tố nguy cơ đối với tỷ lệ ung thư cổ tử cung tại Việt Nam từ năm 1990 đến năm 2017. Từ đó nghiên cứu đƣa ra dự báo số ca ung thƣ cổ tử cung mới trong giai đoạn 2013-2049. Mahan và cộng sự [107] tập trung vào bệnh ung thƣ phổi ở các cựu chiến binh Việt Nam, đặc biệt liên quan
62
đến việc tiếp xúc với chất độc màu da cam. Một nghiên cứu về tỷ lệ mắc ung thƣ
vú tại Thành phố Hồ Chí Minh từ năm 1996 đến năm 2015, bằng cách sử dụng
dữ liệu đăng ký ung thƣ của thành phố. Nghiên cứu này đóng góp vào việc hiểu biết về ung thƣ ở Việt Nam, nhấn mạnh tầm quan trọng của các chiến lƣợc kiểm soát ung thư hiệu quả, xác định yếu tố nguy cơ, tăng cường dịch vụ và ước tính
tỷ lệ mắc bệnh [108].
Tiến hành phân tích các nghiên cứu về dịch tễ học và kiểm soát ung thƣ cho thấy rằng: thông tin khoa học chi tiết và đáng tin cậy về dịch tễ học và kiểm soát ung thƣ ở Việt Nam vẫn còn thiếu rất nhiều [109].
Nhìn chung các bộ dữ liệu đã được sử dụng ở các nghiên cứu trước có hạn chế nhƣ chỉ khảo sát cho một loại ung thƣ cụ thể nhƣ ung thƣ cổ tử cung, ung thƣ phổi, ung thƣ vú hoặc khảo sát các nghiên cứu đề cập đến ung thƣ nói chung. Bài toán đặt ra là cần có một bộ dữ liệu và nghiên cứu đầy đủ trên nhiều loại ung thƣ khác nhau để có một cái nhìn đầy đủ hơn. Chính vì thế luận án đã
sử dụng bộ dữ liệu khám nghiệm ung thƣ tại bệnh viện K để tiến hành nghiên cứu.
Bộ dữ liệu đƣợc thu thập từ phần mềm quản lý hồ sơ các bệnh nhân, trải qua thăm khám và điều trị tại Bệnh viện ung bướu quốc gia Việt Nam (Bệnh viện K) từ 2/2009 - 6/2014. Sau khi tổng hợp dữ liệu, ta có đƣợc một quan hệ ban đầu R1 với hơn 177.000 hồ sơ bệnh nhân (bản ghi) với 15 thuộc tính. Sau khi loại bỏ các dữ liệu và các thuộc tính có thông tin không hợp lệ cho mục đích nghiên cứu, trích xuất lấy thông tin dữ liệu của 27 tỉnh thành thuộc miền Bắc Việt Nam, việc này đảm bảo tính khách quan của dữ liệu thu thập đƣợc do yếu
tố phân bố địa lý dân cƣ và cơ sở y tế thu thập dữ liệu. Việc chuẩn hóa 03 thuộc tính có kiểu dữ liệu văn bản và chứa thông tin không nhất quán: Dòng họ, Địa chỉ, và Kết luận, thu đƣợc một quan hệ trung gian R2 gồm 122.379 bản ghi, đƣợc
mô tả bằng 07 thuộc tính. Tiếp theo, chọn ra từ R2 những bộ dữ liệu có thuộc tính Kết luận = ung thư, cụ thể chọn các bộ có trường Kết luận chứa các từ khóa
{K, ung thư, ung thư biểu mô, ác tính, di căn hạch bạch huyết, u ác tính}. Cuối
63
cùng, thu đƣợc quan hệ chính R gồm 43.629 bản ghi đƣợc mô tả bằng 07 thuộc tính: ID, Dòng họ, Tuổi, Giới tính, Địa chỉ, Kết luận, Topological (Top) - vị trí ung thư của loại ung thư trên cơ thể bệnh nhân. Trường Topological (Top) được
mã hóa theo cấu trúc CXY.z, với C là viết tắt của từ Cancer, XY là ký hiệu loại
ung thƣ, z là mã chỉ chính xác vùng ung thƣ (ví dụ C50.9 là ung thƣ vú ác tính), chúng ta chỉ trích rút lấy giá trị số XY.z.
Các trường kiểu dữ liệu văn bản như Dòng họ, Địa chỉ, và Kết luận
thường chứa các ký tự thừa hoặc ký tự đặc biệt. Để dữ liệu được sạch, cần loại
bỏ những ký tự đặc biệt nhƣ dấu chấm, dấu phẩy, dấu !, dấu @. Ngoài ra, cũng cần loại bỏ những từ thừa trong câu (stop-word) nhƣ: rằng, thì, là, làm sao, thế à, chẳng lẽ, ừ, ờ. Các từ này xuất hiện khá nhiều trong văn bản nhƣng không mang lại nhiều ý nghĩa. Thuật toán chuẩn hóa dữ liệu văn bản mà luận án đề xuất đƣợc
thực hiện bằng việc duyệt xâu ký tự để loại bỏ các ký tự thừa, cụ thể đƣợc cài đặt nhƣ sau:
1 function [s] Standardize_Text(t) // t là chuỗi văn bản cần chuẩn hóa
2 s t
3 Chuyển đổi s sang ký tự thường
4 for each chuỗi trong ma trận s
5 loại bỏ các ký tự như “[\\\”\\\”’’.,():;+-=|]”
6 end for
7 a đọc một tập tin chứa trong thư viện (stop-words)
8 for each từ trong ma trận s
9 loại bỏ các từ trong ma trận s nếu xuất hiện trong ma trận a
10 end for
11 return s // s là chuỗi văn bản đã đƣợc chuẩn hóa
64
12 End
Thuật toán 2.1. Chuẩn hóa dữ liệu văn ản