Tham số cài đặt mô hình

Một phần của tài liệu Luận văn Thạc sĩ Hệ thống thông tin nghiên cứu dự đoán tác dụng phụ của thuốc từ y văn sử dụng mạng nơron dựa trên cơ chế tập trung (Trang 38)

L ỜI CẢM ƠN

3.4. Tham số cài đặt mô hình

Các mô hình được triển khai bằng Keras (https://keras.io/) với phần phụ trợ Tensorflow (https://github.com/tensorflow/tensorflow). Dropout đã được áp dụng cho các lớp phi tuyến tính đểngăn ngừa overfitting [24] và tỷ lệ dropout được đặt thành 0,5. Bảng 3.3: Các tham sốđược sử dụng liệt kê các siêu tham sốđược sử dụng. Luận văn sử dụng các tham số tối ưu theo bài báo của Sijia Liu và các cộng sự [23]. Bảng 3.3: Các tham sốđược sử dụng Tham số Giá trị Batch size 64 Number of CNN filters 100 Filter length 3 RNN dimension 128 Learning rate 0.001 Dropout 0.5 3.5.Phương pháp đánh giá

Trong bài toán này, độ chính xác tiêu chuẩn (standard precision), độ bao phủ(recall) và điểm F1 (F1-score) được chọn làm các chỉ sốđánh giá chính [23], được định nghĩa như sau:

+ 𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 = 𝑻𝑷+𝑭𝑷𝑻𝑷 ; + 𝑹𝒆𝒄𝒂𝒍𝒍 = 𝑻𝑷+𝑭𝑵𝑻𝑷 ;

39

+F1= 𝟐.𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏.𝑹𝒆𝒄𝒂𝒍𝒍𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏+𝑹𝒆𝒄𝒂𝒍𝒍 ;

Trong đó: “TP” biểu thị số lượng trường hợp dữ liệu có quan hệ giữa thuốc và bệnh (YES) được phát hiện chính xác, “FP” biểu thị số lượng dữ liệu không có quan hệ (NO) nhưng được dựđoán thành có quan hệ (YES), “FN” (false negative) biểu thị sốlượng các trường hợp dữ liệu có quan hệYES nhưngkhông được phát hiện bởi mô hình. Hiệu suất chương trình được đánh giá bằng gói đánh giá http://www.biocreative.org/media/store/files/2017/evaluation-kit.zip.

3.6.Kết quả thử nghiệm

Kết quả thử nghiệm được tổng hợp trong bảng 3.5-1: Kết quả trung bình các thực nghiệm. Kết quảđược tạo ra khi chạy mỗi thuật toán tối thiểu 10 lần và lấy kết quả trung bình. Đối với mỗi thuật toán được chạy với 2 trường hợp đầu

vào: Trong đó mô hình CNN_Tokens, ATT-GRU-Tokens, ATT-LSTM-Tokens

và ATT-RNN-Tokens có đầu vào là các thực thể được thay thế bằng nhãn “CHEMICAL” và “DISEASE” và các mô hình CNN_Tokens, ATT-GRU-

ENTITY, ATT-LSTM- ENTITY và ATT-RNN- ENTITY giữ nguyên không thay

thế bằng nhãn. Cụ thể chúng ta có 8 trường hợp sau:

Trường hợp 1: Sử dụng thuật toán CNN với các dữ liệu làm đầu vào được giữ nguyên tên thực thể mà không thay thế bằng nhãn thực thể.

Trường hợp 2: Sử dụng thuật toán CNN với các dữ liệu làm đầu vào được thay thế tên thực thể dưới dạng nhãn: Tên thuốc thay thế bằng nhãn “CHEMICAL” và tên bệnh thay thế bằng nhãn “DISEASE”.

Trường hợp 3: Sử dụng thuật toán ATT-GRU với các dữ liệu làm đầu vào được giữ nguyên tên thực thể mà không thay thế bằng nhãn thực thể.

Trường hợp 4: Sử dụng thuật toán ATT-GRU với các dữ liệu làm đầu vào được thay thế tên thực thể dưới dạng nhãn: Tên thuốc thay thế bằng nhãn “CHEMICAL” và tên bệnh thay thế bằng nhãn “DISEASE”..

Trường hợp 5: Sử dụng thuật toán ATT-LSTM với các dữ liệu làm đầu vào được giữ nguyên tên thực thể mà không thay thế bằng nhãn thực thể.

Trường hợp 6: Sử dụng thuật toán ATT-LSTM với các dữ liệu làm đầu vào được thay thế tên thực thể dưới dạng nhãn: Tên thuốc thay thế bằng nhãn “CHEMICAL” và tên bệnh thay thế bằng nhãn “DISEASE”..

Trường hợp 7: Sử dụng thuật toán RNN-LSTM với các dữ liệu làm đầu vào được giữ nguyên tên thực thể mà không thay thế bằng nhãn thực thể.

40

Trường hợp 8: Sử dụng thuật toán RNN-LSTM với các dữ liệu làm đầu vào được thay thế tên thực thể dưới dạng nhãn: Tên thuốc thay thế bằng nhãn “CHEMICAL” và tên bệnh thay thế bằng nhãn “DISEASE”.

Kết quả các lần chạy được tính trung bình cộng và được thống kê như bảng 3.4: Kết quả trung bình các thực nghiệm.

Bảng 3.4: Kết quả trung bình các thực nghiệm STT

Mô hình Precision Recall F1- score 1 CNN-Tokens 0.5815 0.5708 0.5709 2 CNN-ENTITY 0.5693 0.5815 0.5731 3 ATT-GRU-Tokens 0.5519 0.6693 0.6029 4 ATT-GRU- ENTITY 0.5543 0.668 0.6037 5 ATT-LSTM- Tokens 0.5326 0.6706 0.5915 6 ATT-LSTM- ENTITY 0.5343 0.6753 0.5947 7 ATT-RNN-Tokens 0.4814 0.6847 0.5639 8 ATT-RNN- ENTITY 0.504 0.6675 0.5734

Ngoài ra, để so sánh kết quả thực nghiệm của tác giả với các nghiên cứu khác trên cùng tập dữ dữ liệu cho bài toán trên, tác giả liệt kê các kết quả nghiên cứu của các tác giả khác với các thuật toán khác nhau như bảng 3.5: Thống kê kết quả thực hiện luận văn với một số thuật toán khác.

Bảng 3.5: Thống kê kết quả thực hiện luận văn với một số thuật toán khác

Tác giả Thuật toán Precision Recall F1

Gu và các cộng sự [10] CNN 0.597 0.550 0.572 CNN+ME 0.609 0.595 0.602 CNN+ME+PP 0.557 0.681 0.613 Zhou và các cộng sự [34] CNN 0.411 0.553 0.472 LSTM 0.549 0.514 0.531 LSTM+SVM 0.649 0.493 0.560

41

Tác giả Thuật toán Precision Recall F1

LSTM+SVM+PP 0.556 0.684 0.613 Gu và các cộng sự [10] ME 0.620 0.551 0.583 Xu và các cộng sự [27] SVM 0.596 0.440 0.507

Đánh giá: Dựa trên kết quả thử nghiệm (bảng 3.5-1: Kết quả trung bình các thực nghiệm) chúng ta có thể thấy, mô hình áp dụng cơ chế tập trung (số thứ tự 3,4,5,6) nhìn chung hoạt động tốt hơn các mô hình CNN (số thứ tự 1,2) và việc thay thế các thực thể bằng nhãn thực thể sẽ có kết quả cao hơn một chút mô hình cho cả CNN và các mô hình còn lại (CNN-Tokens so với CNN-Entity và tương tự cho các cặp còn lại). Lần chạy tốt nhất, đạt được bởi mô hình ATT-GRU có nhãn thực thể, có điểm F1 là 0,6037 trên bộ dữ liệu. Thay thế thực thể bằng nhãn thực thể khắc phục các vấn đề về từ vựng liên quan đến mã token thuốc và bệnh. Quan sát kết quảcũng cho thấy cơ chế tập trung áp dụng hiệu quảhơn khi kết hợp với GRU và LSTM hơn so với khi áp dụng với RNN truyền thống.

Dựa trên việc so sánh với các thuật toán đã được áp dụng trên cùng bộ dữ liệu, chúng ta thấy mô hình được sử dụng trong luận văn cũng có kết quả khá tương đồng, các độđo đều nằm trong khoảng [0.4x-0.6x].

42

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận

Sau thời gian nghiên cứu, dưới sựhướng dẫn tận tình của TS. Đặng Thanh

Hải, tác giả đã hoàn thành luận văn “NGHIÊN CỨU DỰ ĐOÁN TÁC DỤNG

PHỤ CỦA THUỐC TỪ Y VĂN SỬ DỤNG MẠNG NƠ-RON DỰA TRÊN CƠ

CHẾ TẬP TRUNG”. Luận văn đã đạt được các kết quả chính như sau:

•Hệ thống được các kiến thức liên quan:

o Tổng quan về tác dụng phụ của thuốc, cách tiếp để dự đoán tác dụng phụ của thuốc.

o Học máy, mạng nơ-ron nhân tạo

o Mô hình mạng nơ-ron áp dụng cơ chế tập trung

•Cài đặt và thử nghiệm mô hình CNN và áp dụng cơ chế tập trung trên mô

hình RNN, LSTM, GRU. Tối ưu các tham số của mô hình và áp dụng cho

dự đoán tác dụng phụ của thuốc.

•Trau dồi kiến thức về xử lý ngôn ngữ trong lĩnh vực y sinh

Hướng phát triển tương lai

Với những kiến thức và kỹ năng có được từ khóa luận, trong tương lai tác giả sẽ tiếp tục mở rộng công việc này để phân lớp các mối quan hệ dựa trên sự hiểu biết toàn diện hơn về mạng nơ-ron. Đồng thời tìm hiểu các kiến thức khác để cải thiện hệ thống học máy trên, mở rộng thêm kho ngữ liệu để thực hiện đào tạo và đánh giá.

43

TÀI LIỆU THAM KHẢO Tiếng Anh:

[1] A. Nikfarjam, A. Sarker, K. O’Connor, R. Ginn, and G. Gonzalez (2015), “Phar- macovigilance from social media: Mining adverse drug reaction mentionsusing

sequence labeling with word embedding cluster features”, J. Amer.Med. Inform. Assoc.,

vol. 22, no. 3, pp. 671–681.

[2] Alex Graves (2012), “Supervised Sequence Labelling with Recurrent Neural Networks”, Studies in Computational Intelligence, Springer.

[3] C. D. Santos and B. Zadrozny (2014), ‘‘Learning character-level representationsfor part-of-speech tagging”, inProc. 31st Int. Conf. Mach. Learn. (ICML), pp. 1818–1826.

[4] Cho K., Merrienboer B., Gulcehre C. et al. (2014), “Learning phrase

representations using RNN encoder–decoder for statistical machine translation.”,

Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics, Doha, Qatar, pp. 1724–1734.

[5] F. Li, Y. Zhang, M. Zhang, and D. Ji (2016), “Joint models for extracting adverse drug events from biomedical text”, in Proc. IJCAI, p.2838–2844.

[6] Hagyeong Leea, Jongwoo Song (2019), “Introduction to convolutional neural network using Keras; an understanding from a statistician”, Communications for

Statistical Applications and Methods 2019, Vol. 26, No. 6, 591–610.

[7] Hailin Wang, Ke Qin, Rufai Yusuf, Zakari, Guoming Lu, Jin Yin (2021), “Deep Neural Network Based Relation Extraction: An Overview”, Computer Science,

Computation and Language, https://arxiv.org/abs/2101.01907.

[8] Jamie J Coleman., Sarah K Pontefract (2016), “Adverse drug reactions.”, Clin

Med (Lond), https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6297296/

[9] Jeffrey Pennington, Richard Socher, Christopher D. Manning (2014), “GloVe: Global Vectors for Word Representation”, Proceedings of the 2014 Conference on

Empirical Methods in Natural Language Processing (EMNLP), pages 1532–1543. [10] Jinghang Gu, Fuqing Sun, Longhua Qian, Guodong Zhou (2017), “Chemical-

induced disease relation extraction via convolutional neural network”, Database The

Journal of Biological Databases and Curation.

[11] Kiss T. and Strunk J (2006), “Unsupervised multilingual sentence boundary detection”, Comput. Linguist., p.485–525.

44

[12] Kuldeep S, Dr. Anitha G S (2015), "Neural Network Approach for Processing Substation Alarms", International Journals of Power Electronics Controllers and Converters.

[13] L. Hazell and S. A. W. Shakir (2006), “Under-reporting of adverse drug

reactions”, Drug Saf., vol. 29, no. 5, p.385–396.

[14] Laveen N. Kanal, Authors Info & Affiliations (2003), “Perceptron”,

Encyclopedia of Computer Science, Pages 1383–1385.

[15] Loper E. and Bird S (2004), “NLTK: the Natural Language Toolkit.”,

Proceedings of the ACL-02 Workshop on Effective Tools and Methodologies for Teaching Natural Language Processing and Computational Linguistics. Association for Computational Linguistics, Philadelphia, PA, USA, 1, p.63–70.

[16] Luong M-T., Pham H. and Manning C.D. (2015), “Effective approaches to

attention-based neural machine translation”, Proceedings of the 2015 Conference on

Empirical Methods in Natural Language Processing. Association for Computational Linguistics, Lisbon, Portugal, p.1412–1421.

[17] M. Habibi, L. Weber, M. Neves, D. L. Wiegandt, and U. Leser (2017),

“Deeplearning with word embeddings improves biomedical named entity recognition”,

Bioinformatics, vol. 33, no. 14, p.37–48.

[18] Markus Bundschus, Mathaeus Dejori, Martin Stetter, Volker Tresp & Hans-Peter

Kriegel (2008), “Extraction of semantic biomedical relations from text using conditional random fields”, BMC Bioinformatics.

[19] Maryam Habibi, Leon Weber, Mariana Neves, David Luis Wiegandt, and Ulf

Leser (2017), “Deep learning with word embeddings improves biomedical named entity recognition”, Bioinformatics, Volume 33, Issue 14, 15 July 2017, Pages i37–i48. [20] S. Gupta, S. Pawar, N. Ramrakhiyani, G. K. Palshikar, and V. Varma (2018),

“Semi-supervised recurrent neural network for adverse drug reaction men-tion

extraction”, BMC Bioinf., vol.19, no.8, p.212.

[21] S. Ramamoorthy and S. Murugan. (2018), “An attentive sequence model for

adverse drug event extraction from biomedical text.”, https://arxiv.org/pdf/1801.00625.

[22] Sepp Hochreiter, Jurgen Schmidhuber (1997), “Long short-term memory”,

Neural Computation, PMID: 9377276.

[23] Sijia Liu, Feichen Shen, Ravikumar Komandur Elayavilli, Yanshan Wang, Majid Rastegar-Mojarad, Vipin Chaudhary and Hongfang Liu (2018), “Extracting chemical–

protein relations using attention-based neural networks”,

45

[24] Srivastava N., Hinton G., Krizhevsky A. et al. (2014), “Dropout: a simple way to prevent neural networks from overfitting.”, J. Mach. Learn. Res., pp.1929–1958.

[25] The International Union of Basic and Clinical Pharmacology (IUPHAR),

“Pharmacology Education Project”, https://www.pharmacologyeducation.org/clinical- pharmacology/adverse-drug-reactions, truy cập ngày 14/07/2021.

[26] Xiang Y., Chen Q., Wang X. et al. (2017), “Answer selection in community question answering via attentive neural networks”, IEEE Signal Process. Lett., 24, 505–

509.

[27] Xu J., Wu Y.H., Zhang Y.Y. et al. (2016), “CD-REST: a system for extracting chemical-induced disease relation in literature.”, Database (Oxford).

[28] Xu K., Ba J.L., Kiros R. et al. (2015), “Attend and tell: neural image caption generation with visual attention”, Proceedings of the Thirty-second International Conference on Machine Learning. PMLR, Lille, France, p.2048–2057.

[29] Xu Y., Mou L., Li G. et al. (2015), “Classifying relations via long short term memory networks along shortest dependency paths”, Proceedings of the 2015

Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, Lisbon, Portugal, P.1785–1794.

[30] Yang Z., Yang D., Dyer C. et al. (2016), “Hierarchical attention networks for document classification”, Proceedings of the 2016 Conference of the North American

Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, San Diego, CA, USA, p. 1480–1489.

[31] Yijia Zhang, Hongfei Lin, Zhihao Yang, Jian Wang, Yuanyuan Sun, Bo Xu,

Zhehuan Zhao (2019), “Neural network-based approaches for biomedical relation classification: A review”, Journal of Biomedical Informatics.

[32] Zeng D, Liu K., Lai S. et al. (2014), “Relation classification via convolutional deep neural network”, Proceedings of COLING 2014, the Twenty-fifth International Conference on Computational Linguistics: Technical Papers. Association for Computational Linguistics, Dublin, Ireland, p.2335-2344.

[33] Zengjian Liu, Ming Yang, Xiaolong Wang, Qingcai Chen, Buzhou Tang, Zhe

Wang, Hua Xu (2017), “Entity recognition from clinical texts via recurrent neural

network”, BMC Medical Informatics and Decision Making, Article number: 67.

[34] Zhou H.W., Deng H., Chen L. et al. (2016), “Exploiting syntactic and semantics

ĐẠI HỌC QUỐC GIA HÀ NỘI CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Độc lập - Tự do - Hạnh phúc

Hà Nội, ngày tháng năm 2021

BẢN XÁC NHẬN ĐÃ SỬA CHỮA CÁC THIẾU SÓT CỦA LUẬN VĂN

Trường Đại học Công nghệ đã có Quyết định số 415/QĐ-ĐT ngày 27 tháng

05 năm 2021 về việc thành lập Hội đồng chấm luận văn Thạc sĩ cho học viên

Nguyễn Thị Quyền, sinh ngày 20/07/1989, tại Nghệ An, chuyên ngành Hệ thống thông tin,

ngành Hệ thống thông tin.

Ngày 10 tháng 07 năm 2021, Trường Đại học Công nghệ (ĐHCN) đã tổ chức cho học viên bảo vệ luận văn Thạc sĩ trước Hội đồng chấm (có biên bản kèm theo). Theo Quyết nghị của Hội đồng chấm luận văn Thạc sĩ, học viên phải bổ sung và sửa chữa các điểm sau đây trước khi nộp quyển luận văn cuối cùng cho Nhà trường để hoàn thiện hồ sơ sau bảo vệ:

1. Chỉnh lại ngày tháng của luận văn cho cập nhật với thời điểm hiện tại: Sửa từ tháng

10-2020 thành tháng 06-2021 (Trang 1-4).

2. Bỏ 02 tiểu mục 1.3 - Cơ chế gây nên tác dụng phụ của thuốc và tiểu mục 1.4 - Chẩn đoán phản ứng có hại của thuốc trong Chương I – Tổng quan về tác dụng phụ của

thuốc do không đúng trọng tâm của luận văn.

3. Bổ sung thêm định nghĩa về trích xuất quan hệ nói chung và phát biểu bài toán trích

xuất quan hệ của luận văn (dạng input, output) (Chương I – Tiểu mục 1.3: Trang 13).

4. Bỏ phần trình bày về học máy và học sâu thuộc Chương II –Cơ sở lý thuyết theo ý

kiến của hội đồng do những kiến thức này đã quá phổ biến.

5. Dẫn lại nguồn tham khảo về Mạng nơ-ron nhân tạo (trang 16), Perceptron (trang 17),

cấu trúc của CNN (trang 18), Mô hình mạng nơ-ron hồi quy (trang 20), Kiến trúc

LSTM (trang 21-22), phần mô tả bài toán (trang 27).

6. Gõ lại các công thức toán học (bằng equation editor) chứ không được copy hình ảnh

(Chương II –Tiểu mục 2.1.4 và 2.4: Trang 23, 26).

7. Sửa lại các công thức tính độ đo Precision, Recall, F1 theo đúng các định nghĩa chuẩn

(Chương III –Tiểu mục 3.5: Trang 38-39).

8. Sửa lại bảng thống kê kết quả thực hiện luận văn với một số thuật toán khácvề cùng

khoảng giá trị nằm trong khoảng [0,1] của các độ đo Precision, Recall, F1. (Chương

III –Tiểu mục 3.6: Trang 40-41).

9. Bổ sung thêm một số nội dung về phân loại, hiện trạngvào Chương I –Tổng quan về

tác dụng phụ của thuốc để luận văn có cấu trúc hợp lý hơn, làm nổi bật được mục

tiêu, đối tượng và các nghiên cưu liên quan của luận văn.Cụ thể:

- Tiểu mục 1.1: Thêm nội dung vềbổ sung cho định nghĩa ADR và phân loại ADR

(Trang 12).

- Tiểu mục 1.2: Thêm nội dung liên quan đến báo cáo về ADR bởi các cơ quan ở Mỹ

và Anh ( Trang 12-13).

10.Sửa lại nội dung chương III để mô tả rõ hơn nội dung yêu cầu bài toán và ánh xạ từ

bái toán nhận dạng sang bài toán phân lớp, mô tả thêm về dữ liệu sử dụng trong luận

văn. Cụ thể:

- Cấu trúc lại chương III trong đó: Thay thế tiểu mục 3.1: Mô tả yêu cầu và các bước

thực hiện bằng 2 tiểu mục: 3.1: Mô tả bài toán và 3.2: Mô tả dữ liệu và các bước thực

hiện.

- Tiểu mục 3.1: Mô tả bài toán: Khái quát bài toán trích xuất quan hệ trong y sinh và

- Tiểu mục 3.2: Mô tả dữ liệu và các bước thực hiện: Mô tả chi tiết hơn về tập dữ liệu

sử dụng trong luận văn (Trang 30-31).

- Tiểu mục 3.3: Viết chi tiết hơn các trường hợp chạy thử nghiệm các thuật toán

(trang 39-40).

11.Bổ sung thêm đoạn phân tích việc huấn luyện mô hình học sâu với học sâu có thêm

cơ chế tập trung (Chương III – Tiểu mục 3.2: Trang 37).

12.Sửa lại các lỗi chính tả, đánh số lại bảng biểu, hình vẽ, định dạng lạitài liệu tham

khảo của luận văn(Mục: Tài liệu tham khảo).

Ngày 20 tháng 07 năm 2021, học viên đã nộp bản luận văn có chỉnh sửa. Chúng

tôi nhậnthấy rằng nội dung, hình thức của luận văn và tóm tắt luận văn đã được sửa chữa,

bổ sung theo các điểm trên của Quyết nghị.

Đề nghị Trường Đại học Công nghệ, ĐHQG HN cho phép học viên được làm các

thủ tục khác để được công nhận và cấp bằng Thạc sĩ.

Xin trân trọng cảm ơn!

XÁC NHẬN CỦA THÀNH VIÊN HỘI ĐỒNG/HỘI ĐỒNG ĐỀ NGHỊ HỌC VIÊN SỬA CHỮA LUẬN VĂN

HỌC VIÊN CÁN BỘ HƯỚNG DẪN XÁC NHẬN CỦACƠ SỞ ĐÀO TẠO

Một phần của tài liệu Luận văn Thạc sĩ Hệ thống thông tin nghiên cứu dự đoán tác dụng phụ của thuốc từ y văn sử dụng mạng nơron dựa trên cơ chế tập trung (Trang 38)

Tải bản đầy đủ (PDF)

(53 trang)