Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 86 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
86
Dung lượng
1,24 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA ——————– * ——————— LÊ BÁ MINH QUANG TRUY HỒI THÔNG TIN BỆNH NHÂN TỪ CƠ SỞ DỮ LIỆU Y TẾ TRONG NGHIÊN CỨU Y KHOA Chuyên ngành: Khoa học Máy Tính Mã số: 8480101 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 02 năm 2023 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG-HCM Cán hướng dẫn khoa học: PGS TS Võ Thị Ngọc Châu Cán chấm nhận xét 1: TS Nguyễn Thị Thanh Sang Cán chấm nhận xét 2: TS Bùi Công Giao Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG TP.HCM ngày 08 tháng 02 năm 2023 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch: PGS TS Lê Hồng Trang Thư ký: TS Nguyễn Thị Ái Thảo Phản biện 1: TS Nguyễn Thị Thanh Sang Phản biện 2: TS Bùi Công Giao Ủy viên: PGS TS Võ Thị Ngọc Châu Xác nhận Chủ tịch Hội đồng đánh giá Luận văn Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc —————————— —————————— NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LÊ BÁ MINH QUANG MSHV: 1970520 Ngày, tháng, năm sinh: 26/07/1997 Nơi sinh: TP.HCM Chuyên ngành: Khoa học Máy tính Mã số: 8480101 I TÊN ĐỀ TÀI: TRUY HỒI THÔNG TIN BỆNH NHÂN TỪ CƠ SỞ DỮ LIỆU Y TẾ TRONG NGHIÊN CỨU Y KHOA (Patient’s information retrieval from medical databases in medical research) II NHIỆM VỤ VÀ NỘI DUNG: • Tìm hiểu lý thuyết cơng trình liên quan tốn biểu diễn thơng tin bệnh nhân từ bệnh án điện tử sở liệu y tế nghiên cứu y khoa • Tìm hiểu phát triển giải pháp truy hồi thông tin bệnh nhân từ sở liệu y tế nghiên cứu y khoa; đó, xem xét sử dụng liệu văn lâm sàng • Xây dựng phần mềm thực giải pháp truy hồi thông tin bệnh nhân • Thực đánh giá đề xuất liệu chuẩn sở liệu y tế MIMIC-III III NGÀY GIAO NHIỆM VỤ: 05/09/2022 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 18/12/2022 V CÁN BỘ HƯỚNG DẪN: PGS TS Võ Thị Ngọc Châu TP.HCM, ngày tháng năm 20 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) HỘI ĐỒNG NGÀNH (Họ tên chữ ký) PGS TS Võ Thị Ngọc Châu TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH (Họ tên chữ ký) Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa LỜI CẢM ƠN Để hoàn thành luận văn này, tơi xin tỏ lịng biết ơn sâu sắc đến PGS TS Võ Thị Ngọc Châu hướng dẫn tận tình có góp ý q giá suốt q trình nghiên cứu Tơi chân thành cám ơn quý thầy, cô khoa Khoa Học Và Kỹ Thuật Máy Tính, Trường đại học Bách Khoa - Đại học quốc gia Thành phố Hồ Chí Minh tận tình truyền đạt kiến thức năm tơi học tập trường Vốn kiến thức tích lũy suốt q trình học tập khơng tảng cho q trình nghiên cứu mà cịn hành trang để bước vào đời cách tự tin Tuy tơi cố gắng hồn thành đề tài cách đầy đủ hoàn chỉnh nhất, song với vốn kiến thức kinh nghiệm nhiều hạn chế, luận văn khơng tránh khỏi thiếu sót Tơi mong nhận nhận xét, đóng góp ý kiến q thầy để hồn thiện Đây chắn học quý báu cho công việc sau Cuối cùng, xin chúc quý thầy, cô dồi sức khỏe thành công nghiệp cao quý Tôi xin chân thành cảm ơn Lê Bá Minh Quang Trang i Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa TĨM TẮT LUẬN VĂN Nội dung luận văn nhằm tìm hiểu, nghiên cứu xây dựng công cụ truy hồi thông tin, cụ thể truy hồi top-k, dựa sở liệu y tế MIMIC-III Cụ thể, cơng cụ có khả nhận vào hồ sơ y tế điện tử tham chiếu dùng để truy vấn, xuất top-k hồ sơ y tế điện tử có độ tương tự lớn với truy vấn đầu vào Trong trình nghiên cứu, tơi tiến hành tổng hợp, đánh giá ưu nhược điểm phương pháp nghiên cứu, sử dụng Tơi phân tích chuyên sâu vấn đề cần giải xác định hướng phát triển đắn cho đề tài Tiếp theo, tơi đề xuất phương pháp áp dụng bước cải tiến phương pháp đề xuất Phần lại luận văn tập trung chủ yếu vào việc thực chương trình thực tế để minh họa cho phương pháp đề xuất, thí nghiệm, đánh giá kết đạt so sánh với mơ hình khác Cuối cùng, tơi đề xuất hướng phát triển đề tài tương lai ABSTRACT The main purpose of this thesis is to research and build an information retrieval tool, specifically top-k retrieval, based on the MIMIC-III medical database The final product will be able to use the input electronic health record (EHR) as query and return the top-k EHRs which have the highest similarities to the input During the research process, I have synthesized and evaluated the advantages - disadvantages of the methods that have been studied I also in-depth analysis of the issues that need to be solved and decide the right development direction for the final product Next, I suggest possible methods that can be applied and improve the proposed method step-by-step The rest of the thesis focuses mainly on the implementation of a program to illustrate the proposed method, as well as experiments to evaluate the obtained results and compare with different models Finally, I draw a conclusion about what has been done and propose the next development direction of the topic in the future Trang ii Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa LỜI CAM ĐOAN Truy hồi thông tin, cụ thể lĩnh vực y tế, đề tài hạn chế mặt tiếp cận thông tin, thách thức lớn địi hỏi nhiều cơng sức thực Tại Việt Nam, liệu y khoa cơng khai dùng học thuật cịn nhiều hạn chế, nhiên nhu cầu cho công cụ truy hồi thông tin y khoa lớn, đặc biệt bối cảnh dịch bệnh năm gần Trong q trình nghiên cứu đề tài, tơi có sử dụng nhiều kiến thức khơng nằm chương trình giảng dạy bậc Đại học bậc Cao học Tuy vậy, tơi xin cam đoan cơng trình nghiên cứu riêng hướng dẫn PGS TS Võ Thị Ngọc Châu Nội dung nghiên cứu kết trung thực chưa công bố trước Các số liệu sử dụng cho q trình phân tích, nhận xét thu thập từ nhiều nguồn khác ghi rõ phần tài liệu tham khảo Ngoài ra, tơi có sử dụng số nhận xét, đánh giá số liệu tác giả khác, quan tổ chức khác Tất có trích dẫn thích nguồn gốc Tơi cam đoan luận văn "Truy hồi thông tin bệnh nhân từ sở liệu y tế nghiên cứu y khoa" nghiên cứu tơi Nếu phát có gian lận nào, tơi xin hồn toàn chịu trách nhiệm nội dung luận văn Trường đại học Bách Khoa - Đại học Quốc gia Thành phố Hồ Chí Minh khơng liên quan đến vi phạm tác quyền, quyền có tơi gây q trình thực Tp Hồ Chí Minh, tháng 02 năm 2023 Tác giả Lê Bá Minh Quang Trang iii Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa Mục lục Giới thiệu đề tài 1.1 Lý chọn đề tài 1.2 Mục tiêu nghiên cứu 1.3 Đối tượng nghiên cứu 1.4 Giới hạn nghiên cứu 1.5 Cấu trúc luận văn Cơ sở lý thuyết tảng công nghệ 2.1 Hồ sơ sức khỏe điện tử 2.2 Bệnh án điện tử 2.3 Những khó khăn việc xử lý liệu bệnh nhân 2.4 Các phương pháp thường dùng để biểu diễn liệu EHR 2.5 Các cơng trình tảng 2.6 12 2.5.1 Cơ sở liệu MIMIC 12 2.5.2 Mơ hình Word2Vec Doc2Vec 2.5.3 Mơ hình BERT 14 Các cơng trình liên quan 15 2.6.1 Patient2Vec 15 2.6.2 Bio - ClinicalBERT 16 Phân tích vấn đề giải pháp 3.1 13 Phân tích vấn đề 17 17 Trang iv Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa 3.2 3.3 3.4 Giải pháp đề xuất 17 3.2.1 Hướng tiếp cận giải pháp 17 3.2.2 Giải pháp 19 Công nghệ sử dụng 21 3.3.1 BERT Bio - ClinicalBERT 21 3.3.2 MySQL 22 3.3.3 Python 22 3.3.4 AngularJS 22 Thu thập liệu đánh giá kết 23 Hiện thực giải pháp 25 4.1 Mô tả 4.2 Phạm vi thực 25 4.2.1 4.3 25 Ràng buộc chương trình 25 Các hướng tiếp cận xử lý 26 4.3.1 Hiện thực cấu trúc tổng quát 26 4.3.2 Giải vấn đề phát sinh 28 4.3.3 Luồng xử lý 33 4.3.4 Cải tiến việc chạy mơ hình BERT 34 Thực nghiệm đánh giá mơ hình 38 5.1 Môi trường thực nghiệm 5.2 Tập liệu 38 5.3 38 5.2.1 Mô tả tập liệu 38 5.2.2 Tiền xử lý liệu 39 Phương pháp thực nghiệm 39 5.3.1 Quy trình thực nghiệm 39 5.3.2 Các tiêu chí đánh giá 41 5.3.3 Các phương pháp đối chiếu 44 Trang v Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa 5.4 5.5 Tiến hành thực nghiệm 47 5.4.1 Truy vấn đầu vào 47 5.4.2 Kết Truy vấn 49 Kết luận thực nghiệm 58 Kết luận 67 6.1 Tổng kết 67 6.2 Hướng phát triển 68 Tài liệu tham khảo 70 Trang vi Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa Danh sách hình vẽ 2.1 Tiến trình pre-training fine-tuning BERT 15 3.1 Ý tưởng giải pháp đề xuất 20 4.1 Giao diện web app đơn giản tạo Anvil connect đến Google Colab 27 4.2 Tạo TCP Connection ngrok đến MySQL local 29 4.3 Kết chạy web api từ postman 30 4.4 Giao diện chương trình 4.5 Luồng xử lý hệ thống 37 5.1 Quy trình lấy mẫu gắn nhãn 5.2 Quy trình thí nghiệm với phương pháp 41 5.3 Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=10 61 5.4 Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=50 61 5.5 Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=100 62 5.6 Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=200 62 5.7 Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=300 63 5.8 Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=400 63 Trang vii 33 40 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa Bảng 5.16: Thống kê kết đo F1 phương pháp với k=10 k 10 10 10 10 10 10 10 10 method Bio - Clinical Bert (Cosine) Bert (base) (Cosine) Bio - Clinical Bert (Euclidean) Bert (base) (Euclidean) Elasticsearch Doc2Vec TF-IDF Tìm kiếm tương tự first 24 35 24 1 second 30 14 30 20 1 third 26 25 22 16 last 14 17 16 41 score 158 158 154 83 29 tốt phương pháp vector hóa khác phương pháp không biến đổi không gian mẫu (tìm kiếm văn bản, tìm kiếm tương tự) • Từ đồ thị hình 5.6, 5.7, 5.8, 5.9, 5.10 ta nhận thấy với k > 100 phương pháp đề xuất sử dụng mơ hình Bio - ClinicalBERT dùng khoảng cách Cosine làm độ đo tương tự thường xuyên thể tốt Nhìn chung, phương pháp đề xuất có sử dụng mơ hình BERT thường thể tốt phương pháp vector hóa khác phương pháp không biến đổi không gian mẫu (tìm kiếm văn bản, tìm kiếm tương tự) Nhìn chung, phương pháp sử dụng mơ hình BERT Bio - ClinicalBERT hoạt động tốt nhiều loại input khác nhau, không phân biệt độ dài input hay loại bệnh bệnh nhân Các phương pháp có xét tới yếu tố ngữ cảnh, huấn luyện tập liệu lớn phương pháp Bio - ClinicalBERT huấn luyện tập liệu y tế nên thường thể ưu tác vụ truy hồi thông tin dựa liệu y khoa Các phương pháp sử dụng mơ hình vector hóa khác TF-IDF, Doc2Vec phương pháp không biến đổi khơng gian mẫu tìm kiếm tương tự, tìm kiếm văn thể tốt không tốt cách ngẫu nhiên, không theo quy luật chung Trang 60 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa Hình 5.3: Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=10 Hình 5.4: Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=50 Trang 61 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa Hình 5.5: Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=100 Hình 5.6: Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=200 Trang 62 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa Hình 5.7: Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=300 Hình 5.8: Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=400 Trang 63 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa Hình 5.9: Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=500 Hình 5.10: Thống kê kết đo MCC phương pháp cho 100 đối tượng với k=1000 Trang 64 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa Hình 5.11: Thống kê kết đo Accuracy phương pháp cho 100 đối tượng với k=100 Hình 5.12: Thống kê kết đo Precision phương pháp cho 100 đối tượng với k=100 Trang 65 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa Hình 5.13: Thống kê kết đo Recall phương pháp cho 100 đối tượng với k=100 Hình 5.14: Thống kê kết đo F1 phương pháp cho 100 đối tượng với k=100 Trang 66 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa Chương Kết luận 6.1 Tổng kết Luận văn đề xuất thực chương trình giải tốn truy hồi thông tin bệnh nhân từ sở liệu y tế nghiên cứu y khoa, cụ thể văn lâm sàng hồ sơ sức khỏe điện tử bệnh nhân có xét tới ngữ nghĩa truy vấn Những việc mà luận văn hoàn thành sau: • Phân tích nhu cầu ý nghĩa việc truy hồi thông tin bệnh nhân sở liệu y tế nghiên cứu y khoa • Phân tích khó khăn việc xử lý liệu bệnh nhân • Đề xuất phương hướng giải khó khăn xử lý liệu bệnh nhân • Xác định để giải tốn truy hồi thơng tin bệnh nhân cần giải toán biểu diễn liệu bệnh nhân thành dạng tính tốn Những kết đạt luận văn: • Hiện thực giải pháp biểu diễn liệu bệnh nhân dạng tính tốn cách sử dụng mơ hình học sâu đại, cụ thể BERT Bio - ClinicalBERT Trang 67 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa • Hiện thực chương trình giúp người dùng dễ dàng sử dụng để nhận kết truy hồi từ truy vấn đầu vào dạng văn lâm sàng • Hiện thực phương pháp truy hồi thông tin khác để tiến hành thí nghiệm so sánh kết với • Rút kết luận từ việc phân tích kết thí nghiệm đề phương hướng phát triển tương lai Các kết đạt giúp việc nghiên cứu y khoa, chẩn đoán bệnh điều trị bệnh bệnh viện trở nên dễ dàng hơn, dùng làm đầu vào toán phức tạp dự đoán bệnh hay dự đoán thời gian điều trị Song song với kết đạt nêu trên, chương trình thành phẩm cịn tồn đọng vài hạn chế sau: • Chương trình chưa hồn tồn ổn định tất loại truy vấn Một số truy vấn dài ngắn cho kết không thật tốt • Với số lượng k nhỏ k q lớn, chương trình cho kết khơng tốt phương pháp tìm kiếm văn khác • Chương trình chưa kiểm tra khả tương thích với tập liệu bất kỳ, tập liệu viết ngơn ngữ khác • Chưa so sánh với phương pháp truy hồi thông tin dựa mã y khoa ICD-9 khác 6.2 Hướng phát triển Qua trình thực luận văn, tác giả nhận thấy vài hướng phát triển khả thi cho đề tài tương lai: • Cải tiến tính xác phương pháp cách kết hợp phương pháp xử lý ngôn ngữ tự nhiên dựa văn y khoa với mơ hình dự đốn bệnh đại khác • Tiền hành thêm nhiều thí nghiệm chun sâu để hiểu câu hỏi chưa giải thích phần 5.5 tìm hướng giải Trang 68 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa • Tăng tính linh hoạt chương trình cách cho phép người dùng linh hoạt chọn sở liệu y tế mà muốn truy hồi thơng tin • Cải tiến giao diện chương trình cho thân thiện với người dùng hơn, triển khai hệ thống hoàn chỉnh chạy máy chủ web dạng phần mềm chạy đám mây Trang 69 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa Tài liệu tham khảo [1] HealthIT "What is an electronic health record (EHR)?" Internet: https://www.healthit.gov/faq/what-electronic-health-record-ehr, February 28, 2023 [2] P Garrett "EMR vs EHR – What is the Difference?" Internet: https://www.healthit.gov/buzz-blog/ electronic-health-and-medical-records/ emr-vs-ehr-difference, March 18, 2022 [3] Y Si et al., "Deep Representation Learning of Patient Data from Electronic Health Records (EHR): A Systematic Review," in Journal of Biomedical Informatics, vol 115, 2021 [4] Physionet "MIMIC-III Clinical Database v1.4." Internet: https://physionet.org/content/mimiciii/1.4/, June 18, 2022 [5] U Kamath et al., “Bidirectional encoder representations from Transformers (Bert),” in Transformers for Machine Learning, New York: Chapman and Hall/CRC, 2022, pp 43–70 [6] E Alsentzer et al., (2019) "Publicly Available Clinical BERT Embeddings,"CoRR, [Online] Available: https://arxiv.org/abs/1904 03323 [7] Zhang et al., "Patient2Vec: A Personalized Interpretable Deep Representation of the Longitudinal Electronic Health Record," IEEE Access 2018 Doi: 10.1109/ACCESS.2018.2875677 [8] C Doersch "Tutorial on variational autoencoders," Internet: https://arxiv.org/abs/1606.05908, June 18, 2022 [9] Y Kim "Convolutional Neural Networks for Sentence Classification", in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) CoRR, pp 1746–1751, 2014 Trang 70 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa [10] L Taslaman and B Nilsson (2012) "A Framework for Regularized Non-Negative Matrix Factorization, with Application to the Analysis of Gene Expression Data" [Online] PLoS One 7, p e46331 Available: https://doi.org/10.1371/journal.pone.0046331 [11] E Choi et al., "GRAM: Graph-based Attention Model for Healthcare Representation Learning," in Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining KDD ’17, Halifax, NS, Canada: ACM Press, 2017, pp 787–795 [12] C Liu et al., "Temporal phenotyping from longitudinal electronic health records: A graph based framework", in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, USA: ACM Press, 2015, pp 705–714 [13] S Alex "Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network," in Physica D: Nonlinear Phenomena, vol 404, CoRR 2020 [14] T Mikolov et al., "Efficient Estimation of Word Representations in Vector Space," in 1st International Conference on Learning Representations Scottsdale, Arizona, USA: ICLR, 2013 [15] M Bilgin et al., "Sentiment analysis on Twitter data with semisupervised Doc2Vec," in 2017 International Conference on Computer Science and Engineering (UBMK), Antalya, Turkey, 2017 pp 661666, doi: 10.1109/UBMK.2017.8093492 [16] A Vaswani et al., (2017) "Attention Is All You Need," CoRR, [Online] Available: https://arxiv.org/abs/1706.03762 [17] T Kolda et al., "Tensor Decompositions and Applications," SIAM Review, vol 51, no 3, pp 455-500 2009 [18] L Rasmy et al., "Med-BERT: pre-trained contextualized embeddings on large-scale structured electronic health records for disease prediction," in NPJ Digital Medicine, vol 4, pp 86 2020 [19] Anvil "Web apps with nothing but python." Internet: https://anvil.works/, October 17, 2022 [20] MIT-LCP "MIT-LCP/mimic-code" Internet: https://github.com/MIT-LCP/mimic-code/tree/main/ mimic-iii/buildmimic/mysql, October 19, 2022 Trang 71 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa [21] S Gehrmann "This repository contains data and code for the paper: Comparing deep learning and concept extraction based methods for patient phenotyping" Internet: https://github.com/sebastianGehrmann/phenotyping, October 20, 2022 [22] S Gehrmann et al., "Comparing deep learning and concept extraction based methods for patient phenotyping from clinical narratives," Plos One, p e0192360, 2018 Doi: 10.1371/journal.pone.0192360 [23] D Chicco et al., "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation." in BMC Genomics, vol 21, no 6, Jan 2020 [24] P Zezula et al., Similarity Search:The Metric Space Approach Springer, vol 32, 2006, ISBN 0-387-29146-6 [25] Hugging Face "Hugging Face - Documentation," Internet: https://huggingface.co/docs, February 5, 2023 [26] MySQL "MySQL:: MySQL Documentation" Internet: https://dev.mysql.com/doc/, December 18, 2022 [27] Python.org "Welcome to Python.org" Internet: https://www.python.org/, December 18, 2022 [28] AngularJS "AngularJS — Superheroic JavaScript MVW Framework," Internet: https://angularjs.org/, December 18, 2022 [29] J Tabak Geometry: The Language of Space and Form, Facts on File math library, Infobase Publishing, p 150, 2014 ISBN 978-0-8160-68760 [30] A Koujalagi "Determine Word Relevance in Document Queries Using TF-IDF," International Journal of Scientific Research, vol 4, pp 456462 August 8, 2015 [31] Elastic "Welcome to Docs" Internet: https://www.elastic.co/ guide/index.html, December 18, 2022 [32] Elastic "Lucene’s Practical Scoring Function | Elasticsearch: The Definitive Guide [2.x]." Internet: https://www.elastic.co/guide/en/elasticsearch/guide/ current/practical-scoring-function.html, December 18, 2022 Trang 72 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa [33] L Smith "How scoring works in Elasticsearch" Internet: https://www.compose.com/articles/ how-scoring-works-in-elasticsearch/, December 18, 2022 Trang 73 Truy hồi thông tin bệnh nhân từ CSDL y tế nghiên cứu y khoa PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: Lê Bá Minh Quang Ngày, tháng, năm sinh: 26/07/1997 Giới tính: Nam Quê quán: Tiền Giang Nơi sinh: TP Hồ Chí Minh Địa liên hệ: KDC Nam Long, Phường Tân Thuận Đơng, Quận 7, TP Hồ Chí Minh Email liên hệ: lebaminhquang7@gmail.com Q TRÌNH ĐÀO TẠO • Năm 2015 - 2019: Học đại học Ngành Khoa học Máy tính - Khoa Khoa học Kỹ thuật Máy tính - trường Đại học Bách Khoa TP.HCM • Năm 2019 - 2023: Học cao học Ngành Khoa học Máy tính - Khoa Khoa học Kỹ thuật Máy tính - trường Đại học Bách Khoa TP.HCM Q TRÌNH CƠNG TÁC • Năm 2019 - 2023: Cơng ty cổ phần VNG HẾT Trang 74