5. Nội dung của đề tài
2.2. Cơ sở dữ liệu suy diễn trong chăm sóc sức khỏe
CSDLSD bao gồm các thành phần sau:
• Cơ sở tri thức gồm các quan hệ lưu trữ dữ liệu thuộc LVYT. Có 3 phương pháp được sử dụng:
Phương pháp 1: Lưu trữ các dữ liệu trong nhiều quan hệ. Mỗi quan hệ chứa các dữ liệu liên quan nhau. Dữ liệu bộ 3 của các khẳng định RDF phải được phân tích và lưu vào các quan hệ tương ứng. Khó khăn của phương pháp này là khó phân tích và thiết kế một CSDL để bao hàm tất cả dữ liệu cho tất cả loại bệnh hoặc cho tất cả loại dữ liệu khác. Ưu điểm của nó là thân thiện với người dùng. Sau đây là các quan hệ được đề xuất:
Patients(IdPatient, Name, Sex, BirthDay, Address, TEL)
Medicines(IdMedicine, MedicineName, Utility, Dose, Unit, Usage , Composition, Storage, Precaution)
Treaments(IdTreatment, IdPatient, DateFrom, DateTo, IllName, Procedure, Result, IdDoctor, IdBook)
MedInTreatment (IdTreatment, IdMedicine, Quantity, TimesInDay , QuantityInOnce)
Books(IdBook, DateTime, HeartRate, Temperature, BloodPressure, Symtom)
Các quan hệ có ý nghĩa sau:
Patients: Mỗi bệnh nhân có một họ tên (Name), một giới tính (Sex),
một ngày tháng năm sinh (BirthDay), một địa chỉ (Address), một số điện thoại (TEL). Mã số (IdPatient) của mỗi bệnh nhân là duy nhất.
Doctors: Mỗi bác sĩ có một họ tên (Name), một giới tính (Sex), một
ngày tháng năm sinh (BirthDay), một địa chỉ (Address), một số điện thoại (TEL), một trình độ học vấn (EDU), và thuộc một khoa (Department). Mã số (IdDoctor) của mỗi bác sĩ là duy nhất.
Medicines: Mỗi thuốc có một tên thuốc (MedicineName), một mô tả
công dụng (Utility), một mô tả liều lượng dùng (Dose), một đơn vị liều lượng (Unit), một mô tả cách dùng (Usage), một mô tả thành phần (Composition), một mô tả lưu trữ (Storage), một mô tả cảnh báo (Precaution). Mã số (IdMedicine) của mỗi thuốc là duy nhất.
Treaments: Mỗi điều trị có một mã số bệnh nhân (IdPatient), một ngày
tháng năm bắt đầu (DateFrom) và một ngày tháng năm kết thúc (DateTo) của điều trị, một mô tả tên bệnh (IllName), một thủ tục điều trị (Procedure), một mô tả kết quả (Result), một mã số bác sĩ (IdDoctor), một mã số lưu hồ sơ (IdBook). Mã số (IdTreatment) của mỗi điều trị là duy nhất.
MedInTreatment: Mỗi điều trị (IdTreatment) sử dụng một hoặc nhiều
lần dùng trong ngày (TimesInDay), liều lượng thuốc trong một lần (QuantityInOnce) cụ thể.
Books: Mỗi bản lưu hồ sơ (IdBook) có một hoặc nhiều thời điểm
(DateTime) để theo dõi tình trạng bệnh nhân như nhịp tim (HeartRate), nhiệt độ (Temperature), huyết áp (BloodPressure), triệu chứng (Symtom).
Phương pháp 2: Lưu trữ tất cả dữ liệu trong một quan hệ stm (stm là viết tắt của statement). Quan hệ này có 3 thuộc tính là subject, property (predicate) và object. Phương pháp này có ưu điểm là quan hệ stm phù hợp với dữ liệu bộ 3 của các khẳng định chuẩn RDF. Do đó dễ lập trình để xử lý dữ liệu chuẩn RDF. Ưu điểm thứ 2 là nó cho phép chứa mọi dữ liệu mà không phụ thuộc vào lược đồ CSDL cụ thể. Do đó phù hợp với môi trường dữ liệu phong phú và với tham vọng chia sẻ tri thức. Tuy nhiên nhược điểm của phương pháp là gia tăng tính dư thừa dữ liệu.
Phương pháp 3: Kết hợp cả 2 phương pháp trên. Những dữ liệu nào chưa thể lưu trữ trong các quan hệ của CSDL ở phương pháp 1 thì sẽ được lưu trữ trong quan hệ stm ở phương pháp 2.
Tập luật suy diễn bao gồm tập luật hệ thống và tập luật của người dùng. - Tập luật của người dùng được đưa vào qua giao diện của hệ quản trị. Tập luật này là chương trình datalog mà hệ quản trị sẽ thực thi để đáp ứng các yêu cầu của người dùng đối với truy vấn cơ sở tri thức và suy diễn tri thức mới trên cơ sở tri thức đã có.
- Tập luật hệ thống (tập luật xây dựng sẵn) là tập luật có được bởi sự chuyển đổi từ các phần tử của chuẩn RDFS và OWL. Tập luật này hỗ trợ các truy vấn và suy diễn tri thức theo ontology. Tập luật này được lưu trữ trong CSDL. Các luật mà là các sự kiện sẽ được lưu trữ trong quan hệ SystemFacts (Subject, Property, Object). Các luật không phải là các sự kiện được lưu trữ tron quan hệ SystemRules (IdRule, SystemRule, SelectStm, deltaQSelectStm)
, với IdRule là mã số luật, SystemRule là nội dung luật, còn SelectStm và deltaQSelectStm là hai phát biểu select tương ứng với luật được sử dụng trong thuật toán bán sơ đẳng.
Đề tài này đề xuất chọn phương pháp 2 với tham vọng chia sẻ tri thức chuẩn RDF trong môi trường tri thức phong phú, đa dạng, không đồng nhất. Để tăng tốc độ truy xuất dữ liệu, có thể phân hoạch ngang quan hệ stm thành các quan hệ nhỏ hơn nhằm tăng tốc độ truy xuất đối với dữ liệu. Mỗi quan hệ cũng gồm 3 thuộc tính như quan hệ stm, nhưng chứa các dữ liệu cùng tính chất. Chẳng hạn sau khi phân hoạch ngang, ta có quan hệ doctors gồm có 3 thuộc tính như quan hệ stm và chứa các bộ dữ liệu liên quan đến thông tin của bác sĩ.