Bài viết đề xuất một hướng tiếp cận lai ghép giữa luật và máy học để phân lớp mối quan hệ giữa bệnh/rối loạn và thời gian viết tài liệu lâm sàng, kết quả hướng tiếp cận đạt được độ chính xác (accuracy) là 0.5194 cao hơn hệ thống được xếp hạng nhất (0.328) trong ShARe/CLEF eHealth Evaluation Lab 2014.
Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00046 MỘT HƯỚNG TIẾP CẬN LAI GHÉP PHÂN LỚP MỐI QUAN HỆ GIỮA BỆNH VÀ THỜI GIAN VIẾT TÀI LIỆU LÂM SÀNG Huỳnh Hữu Nghĩa, Vũ Sơn Lâm, Hồ Bảo Quốc Khoa CNTT, Đại học Khoa học Tự nhiên, Thành phố Hồ Chí Minh huynhnghiavn@gmail.com, lamvuson@gmail.com, hbquoc@fit.hcmus.edu.vn TĨM TẮT — Khi nghiên cứu tài liệu lâm sàng, bác sĩ, nhà nghiên cứu hay người chăm sóc bệnh nhân muốn biết bệnh/rối loạn xảy vào điểm (quá khứ, tại, tương lai kéo dài từ khứ đến tại,…) so với thời điểm tài liệu viết Những thông tin thời gian hữu ích việc xây dựng phác đồ điều trị cho bệnh nhân, xây dựng hệ thống hỏi đáp, tóm tắt tài liệu Bài báo đề xuất hướng tiếp cận lai ghép luật máy học để phân lớp mối quan hệ bệnh/rối loạn thời gian viết tài liệu lâm sàng, kết hướng tiếp cận đạt độ xác (accuracy) 0.5194 cao hệ thống xếp hạng (0.328) ShARe/CLEF eHealth Evaluation Lab 2014 Từ khóa — Rút trích thơng tin lâm sàng; Rút trích mối quan hệ thời gian; Xử lý ngôn ngữ tự nhiên I GIỚI THIỆU Những tài liệu lâm sàng (clinical documents) tóm tắt xuất viện (discharge summary), báo cáo xét nghiệm (x-quang, siêu âm, điện tim) viết y tá, bác sĩ hay người chăm sóc bệnh nhân nhằm ghi lại thơng tin quan trọng q trình điều trị bệnh nhân Đặc biệt tóm tắt xuất viện, mơ tả q trình điều trị, tình trạng bệnh nhân kế hoạch chăm sóc Mục đích hỗ trợ q trình chăm sóc bệnh nhân ghi bàn giao bác sĩ [1] Cùng với phát triển công nghệ thông tin, tài liệu y khoa dần số hóa, nguồn liệu ngày lớn chứa đựng nhiều thơng tin có giá trị Việc rút trích thơng tin cần thiết từ tài liệu lâm sàng cộng đồng nghiên cứu quan tâm thông qua tổ chức nghiên cứu như: I2B21 (Informatics for Integrating Biology and Bedside) ShARe/CLEF eHealth Rút trích thơng tin thời gian (Temporal Information Extraction – TIE) thách thức lớn lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) thành phần quan trọng nhiều hệ thống NLP, chẳng hạn hệ thống Hỏi – Đáp (Question – Answering), tóm tắt tài liệu (Document Summarization), dịch máy (Machine Translation) [5] Trong lĩnh vực y khoa, việc rút trích thơng tin thời gian ứng dụng để xây dựng biểu đồ thông tin trình điều trị bệnh nhân (timeline) tạo tóm tắt điều trị, áp dụng hệ thống suy luận từ việc khai thác liệu y khoa nhằm tìm thơng tin hữu ích, từ nâng cao hiệu điều trị bệnh nhân phục vụ cho công tác nghiên cứu xa Một hệ thống rút trích thơng tin thời gian y khoa thường bao gồm thành phần: Nhận diện kiện (các rối loạn, điều trị…) Nhận diện biểu thức thời gian (Temporal expression) Phân lớp mối quan hệ thời gian kiện Hình Lược đồ thể tất khả mà Bệnh/rối loạn phân lớp so với thời gian viết tài liệu (Document time) Rút trích mối quan hệ thời gian (Temporal relation) thường bao gồm: quan hệ thời gian kiện kiện, quan hệ thời gian kiện mốc thời gian, quan hệ thời gian kiện thời gian viết tài liệu, đó, loại quan hệ thứ ba giữ vai trò quan trọng Chẳng hạn, nghiên cứu tài liệu lâm sàng, bác sĩ, nhà nghiên cứu hay người chăm sóc bệnh nhân muốn biết nhanh rối loạn (disorder) xảy vào thời gian https://www.i2b2.org/NLP/HeartDisease http://clefehealth2014.dcu.ie/ Huỳnh Hữu Nghĩa, Vũ Sơn Lâm, Hồ Bảo Quốc 381 (quá khứ, tại, tương lai kéo dài từ khứ đến tại,…) so với thời điểm tài liệu viết Điều địi hỏi người nghiên cứu phải tìm giải pháp để rút trích mối quan hệ thời gian rối loạn thời gian viết tài liệu (Document time) Theo [8] cho thấy thời gian viết tài liệu cho tương đương (về mặt chức năng) với thời gian mà bệnh nhân gặp bác sĩ đến bệnh viện Các giá trị phân lớp thời gian thể mối quan hệ mặt thời gian bệnh/rối loạn thời gian tài liệu lâm sàng tạo [4] Các giá trị phân lớp thời gian gồm có giá trị: BEFORE, OVERLAP, BEFORE_OVERLAP, AFTER UNKNOWN (giá trị mặc định) Hình thể giá trị phân lớp thời gian so với thời gian tài liệu viết sau: BEFORE sử dụng bệnh/rối loạn hết trước bệnh nhân gặp bác sĩ (tức trước thời gian tài liệu viết) Ví dụ: xét câu “Patient had tumor removed.” bệnh/rối loạn “tumor” gán nhãn phân lớp “BEFORE” động từ “removed” khứ OVERLAP sử dụng bệnh/rối loạn tình trạng xảy thời điểm gặp bệnh nhân lúc tài liệu viết Ví dụ: xết câu “These findings could represent ileus or early small bowel obstruction.” Cả hai bệnh/rối loạn “ileus” “small bowel obstruction” gán nhãn phân lớp “OVERLAP” đơn động từ “represent” cho biết điều BEFORE-OVERLAP sử dụng bệnh/rối loạn xuất trước thời điểm viết tài liệu tiếp tục Đơn giản cần, bệnh/rối loạn bắt đầu trước kiểm tra bệnh nhân viếng thăm tiếp tục tại, thường (không phải luôn) tương ứng với việc sử dụng hồn thành tiếng Anh Ví dụ: xem câu “Patient has had a tumor for the past two months.” Bệnh/rối loạn “umor” gán nhãn phân lớp “BEFORE-OVERLAP” AFTER sử dụng bệnh/rối loạn xảy sau thời điểm viết tài liệu, lên lịch hay có kế hoạch bắt đầu sau thời điểm tài liệu viết Ví dụ: xét câu “Patient needs a follow up abdomian MRI within month to evaluate her renal lesions.” Bệnh/rối loạn “renal lesions” gán nhãn phân lớp “AFTER” Mục tiêu báo trình bày hướng tiếp cận lai ghép gồm dựa máy học luật để phân lớp mối quan hệ bệnh/rối loạn thời điểm tài liệu viết Cụ thể, dựa kết hai cơng trình [2, 3] nhóm tác giả cải tiến hiệu cho hệ thống cách tích hợp thêm phương pháp dựa luật vào hệ thống sau giai đoạn máy học Nội dung báo trình bày phần II CÁC CƠNG TRÌNH LIÊN QUAN In the 2012 i2b2 Challenge, nhóm tác giả cơng trình [7] xây dựng phân lớp mối quan hệ thời gian kiện thời gian viết tài liệu lâm sàng dựa phương pháp máy học Mối quan hệ gọi Tlinks Event Section time (bao gồm: Discharge time Admission time) Tlinks có ba giá trị: BEFORE, OVERLAP AFTER Các thuật toán SVM CRF++ sử dụng để xây dựng phân lớp tập đặc trưng In ShARe/CLEF eHealth 2014, kết đội top thuộc tính DocTime trình bày bảng Trong báo giới thiệu tóm lược ba cơng trình đầu Bảng Kết đội top thuộc tính DocTime Class ShARe/CLEF eHealth 2014 Rank Team TeamHITACHI LIMSI TeamHCMUS DKI-Medical TeamHPI Accuracy 0.328 0.322 0.306 0.179 0.060 Team HITACHI [5] sử dụng mô đun DocTime cTAKES3 bổ sung số đặc trưng cTAKES (clinical Text Analysis and Knowledge Extraction System) hệ thống xử lý ngôn ngữ tự nhiên dùng cho việc rút trích thơng tin bệnh án điện tử, phát triển Apache cTAKES xây dựng dựa framework UIMA4 (Unstructured Information Management Architecture) Các đặc trưng sử dụng bao gồm tokens POS tags sổ [-3,3] xung quanh rối loạn, động từ, tiêu đề phân mục (section) động từ gần Tác giả bổ sung thêm đặc trưng biểu thức thời gian (temporal expression) LIMSI [6] dùng phương pháp máy học để phân lớp Tác giả phân tích liệu huấn luyện nhận thấy tính quan trọng cấu trúc tài liệu Ví dụ: phân mục “Chief Complaint” thường đề cập đến rối loạn xuất khứ, phân mục “Discharge” đề cập đến rối loạn xảy xuất viện Vì vậy, tác giả xây dựng danh sách tiêu đề phân mục thường gặp Tài liệu chia thành năm đoạn (equal-sized bins) vị trí rối loạn năm đoạn sử dụng đặc trưng phân lớp Các đặc trưng sử dụng bao gồm: Vị trí http://ctakes.apache.org/ https://uima.apache.org/ 382 MỘT HƯỚNG TIẾP CẬN LAI GHÉP PHÂN LỚP MỐI QUAN HỆ GIỮA BỆNH VÀ THỜI GIAN VIẾT TÀI LIỆU LÂM SÀNG rối loạn, loại tài liệu, loại phân mục Bag-of-words Kết độ xác 0.322 thấp nhiều so với họ tham gia thách thức I2B2 năm 2012 TeamHCMUS [2, 3] áp dụng hướng tiếp cận dựa máy học Nhóm tác giả sử dụng Weka tool LibSVM để xây dựng tập phân lớp dựa máy học Thuật toán áp dụng để phân lớp SVM tập đặc trưng đề xuất Kết độ xác đạt 0.306 III HƯỚNG TIẾP CẬN Hướng tiếp cận thực gồm giai đoạn 1: sử dụng phương pháp máy học để phân lớp rối loạn vào lớp quan hệ ngữ nghĩa với thời điểm tài liệu viết Giai đoạn 2: sử dụng phương pháp luật để hiệu chỉnh kết giai đoạn nhằm tăng hiệu cho hướng tiếp cận, xem hình Chi tiết trình bày cụ thể phần Hình Kiến trúc tổng quát hướng tiếp cận A Tiền xử lý (Preprocess) Do tính nhạy cảm liệu y khoa, nên để đảm bảo tính riêng tư, tên bác sĩ, tên bệnh viện… mã hóa với ký tự đặc biệt dấu *, [, ] Điều dẫn đến việc xử lý (tách câu, phân tích cú pháp, gán nhãn từ loại…) khơng xác Chính vậy, cần phải qua giai đoạn tiền xử lý để giải vấn đề Giai đoạn thực thay tên tên giả Ví dụ: Đoạn văn nguyên mẫu chưa tiền xử lý (xem hình 3) sau tiền xử lý (xem hình 4) sau: "She was transfered to [**Hospital1 27**] per recommendation of her GI specialist Dr [**First Name (STitle) 5060**]” Hình Văn nguyên mẫu "She was transfered to Ohio Hospital per recommendation of her GI specialist Dr Gates” Hình Văn sau tiền xử lý B Giai đoạn (Phase 1): Dựa máy học Hình Kiến trúc xử lý giai đoạn Sau tiền xử lý liệu huấn luyện, bước GATE5 (General Architecture for Text Engineering) sử dụng để thực tách section (Section splitter), tách đoạn (Paragraph splitter), cắt câu (Sentence splitter), tách token, gán nhãn từ loại (POS tagger) xác định cụm động từ (VP Chunker) Sau đó, chương trình thực rút trích đặc trưng đưa vào phân lớp để huấn luyện xây dựng Model (xem hình 5) Các đặc trưng sử cho phân lớp theo phương pháp máy học sau: https://gate.ac.uk/ Huỳnh Hữu Nghĩa, Vũ Sơn Lâm, Hồ Bảo Quốc 383 Đặc trưng loại tài liệu: Trong tập liệu gồm có bốn loại tài liệu: Discharge summary, Radiology report, Echo report ECG report Mỗi loại tài liệu có xu hướng ghi nhận thơng tin liên quan đến trình điều trị bệnh nhân giai đoạn định, điều giúp hỗ trợ xác định mối quan hệ thời gian bệnh/rối loạn thời gian viết tài liệu Các tài liệu thường thể diễn tả tình trạng bệnh nhân trước nhập viện, trình điều trị sau xuất viện Ví dụ: Hầu hết bệnh/rối loạn xuất báo cáo (ECG report, Radiology report ECG report) rơi vào giai đoạn bệnh nhân gặp bác sĩ, thường phân lớp OVERLAP Đặc trưng phân mục: Phân mục đặc trưng quan trọng, giúp xác định mối quan hệ Trong tài liệu, phân mục dùng để ghi thông tin giai đoạn cụ thể Ví dụ: Phân mục “History of Present Illness” thường đề cập đến thông tin khứ (trước thời gian tài liệu viết), phân mục “Medication” lại đề cập đến thông tin (trong khoảng thời gian tài liệu viết) “Discharge Instruction” đề cập đến thông tin tương lai (sau bệnh nhân xuất viện) Trong bảng thể phân bổ phân lớp phân mục: Bảng Sự phân bổ phân lớp phân mục PHÂN MỤC BEFORE BEFORE-OVERLAP OVERLAP AFTER Chief complaint 10% 90% 0% 0% Physical examination 1% 3% 95% 1% Discharge instruction 0% 4% 10% 2% Labs-studies 0% 9% 91% 0% History of present illness 39% 44% 16% 0% Bằng việc quan sát tập liệu, danh sách tên phân mục xây dựng thủ công Việc phân tách nội dung tài liệu thành phân mục thực luật văn phạm JAPE GATE Một ví dụ luật để phát section “chief complaint”: Rule: chief_complaint( {Token.lcString == "chief", Token.docType == "DISCHARGE_SUMMARY"} {Token.lcString == "complaint"} {Token.lcString == ":"} ) : match > : match.SectionHeader = {kind = "chief complaint"} Số lượng phân mục xác định sau áp dụng tập luật loại tài liệu thống kê bảng Bảng Số lượng phân mục có tập liệu huấn luyện LOẠI TÀI LIỆU Discharge summary SỐ LƯỢNG PHÂN MỤC ĐƯỢC TRÍCH 33 Echo report Radiology report 11 Ecg report Đặc trưng thể động từ (Tense and Aspect feature): Dựa phân tích cú pháp xác định thể động từ câu Thì bao gồm giá trị: past, present, future thể động từ nhận giá trị: progressive, perfective, perfective-progressive Chương trình sử dụng Processing Resouce ANNIE VP Chunker GATE để xác định động từ câu chứa bệnh/rối loạn Đặc trưng mối quan hệ mốc thời gian lâm sàng: Trong lĩnh vực lâm sàng có số mốc thời gian đặc trưng chẳng hạn như: on postoperative, on physical examination, day of admission, hospital day one, postdischarge gọi thuật ngữ thời gian lâm sàng (clinical date time terms) Một mối quan hệ bệnh/rối loạn dòng thời gian lâm sàng định nghĩa theo biểu thức quy sau: Quan hệ nhận giá trị như: ON, BEFORE, AFTER Dòng thời gian lâm sàng thuật ngữ lâm sàng Biểu thức qui sử dụng để nhận dạng Quan hệ Mốc thời gian lâm sàng Ví dụ: Biểu thức quy để nhận dạng mối quan hệ mốc thời gian lâm sàng câu “On postoperative day #1, the patient was taken to arteriogram” là: (on)?\s*postoperative\s*day\s*(#?\d+|(%NUMBER%)) đó, %NUMBER% chuỗi thay chuỗi số đếm như: one, two, three … Đặc trưng biểu thức thời gian: Sử dụng biểu thức quy để rút trích biểu thức thời gian chuẩn hóa kết Các kết sử dụng đặc trưng phân lớp Đối với liệu tập đánh giá (TEST DATA) thực giai đoạn tiền xử lý, sau áp dụng mơ hình (Model) bước để phân lớp DocTime Class cho bệnh/rối loạn (xem hình 5) 384 MỘT HƯỚNG TIẾP CẬN LAI GHÉP PHÂN LỚP MỐI QUAN HỆ GIỮA BỆNH VÀ THỜI GIAN VIẾT TÀI LIỆU LÂM SÀNG C Giai đoạn 2: Dựa luật Giai đoạn đoạn này, tập luật đề xuất để chỉnh sửa kết phân lớp giai đoạn Tập luật xây dựng dựa việc phân tích đặc điểm cụm động từ đặc điểm từ câu có chứa Rối loạn Đặc điểm cụm động từ Đặc điểm cụm động từ xây dựng dựa nhận định sau: “Mỗi lớp có tập cụm động từ phổ biến thường xun kèm với nó.” Ví dụ: Lớp AFTER thường có cụm động từ phổ biến kèm như: be evaluated, please, recommended, to evaluate, to be removed, to follow, to arrange, to check, may want, to prevent, prescribed, should return, v.v… Lớp BEFORE thường có cụm động từ kèm như: reported, was treated, had been removed, had reported, v.v… Những cụm động từ phổ biến xác định cách tính trọng số (tf-idf) cụm động từ Các cụm động từ đại diện cho lớp xuất nhiều lớp này, xuất lớp khác Quá trình thực tính trọng số cho cụm động từ sau: Từ liệu huấn luyện (train data), sử dụng Processing Resource ANNIE VP Chunker GATE để rút trích cụm động từ câu chứa bệnh/rối loạn Sau đó, gom nhóm cụm động từ theo lớp (BEFORE, OVERLAP, BEFORE-OVERLAP AFTER) Chương trình sử dụng Lucene6 để tính trọng số tf-idf, lập mục quản lý tập cụm động từ phổ biến Như vậy, sau giai đoạn này, có bốn tập cụm động từ đại diện cho bốn phân lớp nêu (trừ lớp UNKNOWN, mặc định) (xem hình 6) Đối với liệu đánh giá (test data), hệ thống rút trích cụm động từ liên quan đến rối loạn, cụm động từ so khớp với bốn tập phân lớp (BEFORE, OVERLAP, BEFORE-OVERLAP AFTER) thông qua công cụ Lucene để tìm phân lớp mà có trọng số cụm động từ cao Đầu bước cụm động từ với phân lớp tương ứng (xem hình 7) Clustering Hình Quá trình xử lý huấn luyện Hình Quá trình xử lý đánh giá Đặc điểm n-grams Đặc điểm n-grams xây dựng dựa ý tưởng sau: “Nếu đoạn văn (paragraph) chứa phần lớn bệnh/rối loạn thuộc lớp, vài bệnh/rối loạn thuộc lớp khác, câu chứa vài bệnh/rối loạn thuộc lớp khác có khả chứa từ đặc biệt để phân lớp” Ví dụ: Đoạn văn với phần lớn bệnh/rối loạn thuộc phân lớp BEFORE_OVERLAPS, có vài bệnh/rối loạn thuộc BEFORE, câu chứa bệnh/rối loạn chứa đựng từ mang dấu hiệu đặc biệt cho lớp BEFORE Từ liệu huấn luyện (training data), tài liệu tách thành đoạn Trong đoạn, thống kê số lượng bệnh/rối loạn theo lớp xác định câu chứa bệnh/rối loạn thuộc lớp chiếm thiểu số đoạn văn Trên câu rút trích uni-gram, bi-gram, gom thành nhóm tính tần số theo lớp tương ứng Kết túi từ (bag-of-words) đại diện cho lớp Sau bước này, có năm túi từ uni-gram cho năm lớp năm túi từ bigram cho năm lớp tương ứng (BEFORE, OVERLAP, BEFORE_OVERLAP, AFTER and UNKNOWN) (xem hình 8) Hình Quá trình xử lý training data https://lucene.apache.org/ Hình Quá trình xử lý test data Huỳnh Hữu Nghĩa, Vũ Sơn Lâm, Hồ Bảo Quốc 385 Đối với liệu đánh giá, ứng với rối loạn, trích uni-gram bi-gram câu chứa rối loạn Tiếp theo tính tốn xem uni-gram bi-gram thuộc túi từ lớp nhiều Sau trình này, tìm lớp khớp theo uni-gram bi-gram (xem hình 9) Rules Luật xây dựng dựa kết hợp hai đặc điểm cụm động từ n-gram Gọi v lớp có điểm số cao theo đặc điểm cụm động từ; u b lớp có điểm số cao theo đặc điểm uni-gram bi-grams Luật phát biểu sau: Nếu v BEFORE (u b) BEFORE kết luận BEFORE Nếu v BEFORE-OVERLAPS (u b) BEFORE-OVERLAPS kết luận BEFOREOVERLAPS Nếu v OVERLAP (u b) OVERLAP kết luận OVERLAP Nếu v AFTER (u b) AFTER kết luận AFTER IV KẾT QUẢ Tập liệu huấn luyện đánh giá cung cấp diễn đàn nghiên cứu Shared task of ShARe/CLEF eHealth 2014 Dữ liệu huấn luyện có 298 tài liệu gồm bốn loại: Discharge summary, ECHO report, Rediology report ECG report Dữ liệu đánh giá có 133 tài liệu loại discharge summary Số lượng bệnh/rối loạn thống kê bảng Bảng Số lượng rối loạn (disorder) tập liệu huấn luyện Bảng Số lượng rối loạn tập liệu đánh giá DOC Types #DOC #Disorder Percent % DOC Types #DOC #Disorder Percent % Discharge summary 136 9098 79% Discharge summary 133 8003 100% ECHO report 54 1429 12% ECHO report 0 ECG report 54 196 2% ECG report 0 Radiology report 54 831 7% Radiology report 0 298 11554 133 8003 Total Total Đối với phương pháp máy học, thực đánh giá với 10-fold cross validation liệu huấn luyện để chọn thuật toán phân lớp tốt Các thuật toán thực nghiệm gồm NaiveBayes, C4.5, kNN SVM Kết thực nghiệm liệu huấn luyện cho thấy thuật toán SVM cho kết phân lớp tốt Cho nên, thuật toán SVM chọn dùng để huấn luyện phân lớp tập liệu đánh giá Kết thực nghiệm cho thấy sau áp dụng luật kết cải tiến độ xác (tức độ xác cho phân lớp tăng lên) (xem hình 10) Vì thế, Kết hướng tiếp cận (New System) tập liệu đánh giá với độ đo F-score 0.5194 Như vậy, hướng tiếp cận kết hợp máy học luật cải tiến hiệu cho toán phân lớp mối quan hệ bệnh/rối loạn thời gian viết tài liệu lâm sàng (xem hình 11) Hình 10 So sánh kết hệ thống Hình 11 So sánh kết hệ thống 386 MỘT HƯỚNG TIẾP CẬN LAI GHÉP PHÂN LỚP MỐI QUAN HỆ GIỮA BỆNH VÀ THỜI GIAN VIẾT TÀI LIỆU LÂM SÀNG V KẾT LUẬN Bài báo đề xuất hướng tiếp cận kết hợp máy học luật Ở phần máy học, chương trình thực nghiệm số thuật tốn phân lớp như: NaiveBayes, C4.5, kNN SVM để chọn thuật toán tốt cho phân lớp Đối với phần luật, dựa đặc điểm động từ kết hợp với n-grams để xây dựng tập luật Kết có cải tiến so với hệ thống trước Tuy nhiên, việc xác định mối quan hệ bệnh/rối loạn thời gian viết tài liệu toán phức tạp, đòi hỏi phải nghiên cứu sâu liệu để tìm kiếm đặc trưng mới, kết hợp phương pháp luật máy học Thời gian tới, tiếp tục nghiên cứu phân tích để tìm kiếm đặc trưng liệu với mong muốn cải tiến hiệu cho toán phân lớp mối quan hệ bệnh/rối loạn thời gian viết tài liệu lâm sàng nhằm giúp cho người dùng có thơng tin với độ tin cậy cao TÀI LIỆU THAM KHẢO [1] Hanna Suominen, Tobias Schreck, Gondy Leroy, Harry Hochheiser, Lorraine Goeuriot, Liadh Kelly, Danielle L Mowery, Jaume Nualart, Gabriela Ferraro, Daniel Keim Task of the CLEF eHealth Evaluation Lab 2014 Visual-Interactive Search and Exploration of eHealth Data CEUR Workshop Proceedings, ISSN 1613-0073, Vol-1180, 2014 [2] Huu Nghia Huynh, Son Lam Vu, Bao Quoc Ho, “ShARe/CLEFeHealth: A Hybrid Approach for Task 2”, CEUR Workshop Proceedings, ISSN 1613-0073, Vol-1180, 2014 [3] Huỳnh Hữu Nghĩa, Vũ Sơn Lâm, Hồ Bảo Quốc Một Hướng Tiếp Cận Xác Định Mối Quan Hệ Bệnh Thời Gian Viết Tài Liệu Lâm Sàng Hội thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông, pages 155 – 160, Đắk Lắk, 30-31/10/2014 [4] Liadh Kelly, Lorraine Goeuriot, Hanna Suominen, Tobias Schreck, Gondy Leroy, Danielle L Mowery, Sumithra Velupillai, Wendy W Chapman, David Martinez, Guido Zuccon, João Palotti (2014), “Overview of the ShARe/CLEF eHealth Evaluation Lab 2014”, Springer International Publishing Switzerland [5] Nishikant Johri, Yoshiki Niwa, Veera Raghavendra Chikka, “Optimizing Apache cTAKES for Disease/Disorder Template Filling: Team HITACHI in 2014 ShARe/CLEF eHealth Evaluation Lab”, CEUR Workshop Proceedings, ISSN 1613-0073, Vol1180, 2014 [6] Thierry Hamon, Cyril Grouin, Pierre Zweigenbaum “Disease and Disorder Template Filling Using Rule-Based and Statistical Approaches”, CEUR Workshop Proceedings, ISSN 1613-0073, Vol-1180, 2014 [7] Tang B, Wu Y, Jiang M, et al A hybrid system for temporal information extraction from clinical text J Am Med Inform Assoc 2013 [8] Will Styler, Guergana Savova, Martha Palmer, James Pustejovsky, Tim O’Gorman, and Piet C de Groen (2014), “THYME Annotation Guidelines A COMBINED APPROACH FOR TEMPORAL RELATION CLASSIFICATION Nghia Huynh, Lam Vu, Quoc Ho ABSTRACT— On reviewing clinical documents, doctors, researchers and caregivers of patients want to know the time when a disease / disorder appears (in the past, at the present, in the future or from the past until now ), compared to the time the document was written The information about this period of time is very useful in creating treatment regimen for patients, making inquiry system and summarizing the documents This paper proposes a hybrid approach between rules and machine learning to classify the relationship between diseases/disorders and the time for writing clinical documents, the oriented approach has the result of accuracy 0.5194, which is higher than the best ranking system (0.328) in the ShARe/Clef eHealth 2014 Evaluation Lab ... http://ctakes.apache.org/ https://uima.apache.org/ 382 MỘT HƯỚNG TIẾP CẬN LAI GHÉP PHÂN LỚP MỐI QUAN HỆ GIỮA BỆNH VÀ THỜI GIAN VIẾT TÀI LIỆU LÂM SÀNG rối loạn, loại tài liệu, loại phân mục Bag-of-words Kết độ xác... hình (Model) bước để phân lớp DocTime Class cho bệnh/ rối loạn (xem hình 5) 384 MỘT HƯỚNG TIẾP CẬN LAI GHÉP PHÂN LỚP MỐI QUAN HỆ GIỮA BỆNH VÀ THỜI GIAN VIẾT TÀI LIỆU LÂM SÀNG C Giai đoạn 2: Dựa... Hình 11 So sánh kết hệ thống 386 MỘT HƯỚNG TIẾP CẬN LAI GHÉP PHÂN LỚP MỐI QUAN HỆ GIỮA BỆNH VÀ THỜI GIAN VIẾT TÀI LIỆU LÂM SÀNG V KẾT LUẬN Bài báo đề xuất hướng tiếp cận kết hợp máy học luật Ở phần