Luận văn thạc sĩ Khoa học máy tính: Xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng Việt

Kết quả là, người dùng có thể tương tác với từ điển của chúng tôithông qua giao diện web, trong khi các hệ thống máy tính khác có thể sử dụng thông qua API.Từ điển viết tắt của chúng tôi

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

CAO NGUYỆT MINH

XÂY DỰNG TỪ ĐIỂN VIẾT TẮT CHO DỮ LIỆU VĂN BẢN LÂM SÀNG TIẾNG VIỆT

Chuyên ngành: Khoa học Máy tính

Mã số: 8480101

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 06 năm 2024

Trang 2

Cán bộ hướng dẫn khoa học: PGS TS Võ Thị Ngọc Châu

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 1: TS Nguyễn Thị Thanh Sang

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 2: TS Bùi Công Giao

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 19 tháng 06 năm 2024

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 Chủ tịch: PGS TS Trần Minh Quang 2 Thư ký: TS Phan Trọng Nhân 3 Phản biện 1: TS Nguyễn Thị Thanh Sang 4 Phản biện 2: TS Bùi Công Giao

5 Ủy viên: PGS TS Võ Thị Ngọc Châu Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

VÀ KỸ THUẬT MÁY TÍNH

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Cao Nguyệt Minh MSHV: 2170543 Ngày, tháng, năm sinh: 29/09/1999 Nơi sinh: TP.HCM Chuyên ngành: Khoa học Máy tính Mã số : 8480101

I TÊN ĐỀ TÀI: Xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng Việt

(Abbreviation dictionary construction for Vietnamese clinical texts)

II NHIỆM VỤ VÀ NỘI DUNG:

- Tìm hiểu kiến thức nền tảng và các nghiên cứu liên quan đến hệ thống từ điển viết tắt cho lĩnh vực Y học

- Đề xuất giải pháp xây dựng hệ thống từ điển viết tắt trong lĩnh vực Y học từ các bài báo khoa học tiếng Việt ở các tạp chí Y học

- Phát triển hệ thống website cho hệ thống được đề xuất - Đánh giá hệ thống từ điển viết tắt đạt được

III NGÀY GIAO NHIỆM VỤ : 15/01/2024 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 20/05/2024 V CÁN BỘ HƯỚNG DẪN: PGS TS Võ Thị Ngọc Châu

Trang 4

Để hoàn thành được bài Luận văn Thạc sĩ này, tôi xin bày tỏ sự cảm kích đặc biệt tới cố vấncủa tôi, cô Phó giáo sư Tiến sĩ Võ Thị Ngọc Châu - Người đã định hướng, trực tiếp dẫn dắt vàcố vấn cho tôi trong suốt quá trình thực hiện luận văn này Tôi xin gửi lời cảm ơn đến cô bằngtất cả tấm lòng và sự biết ơn của mình.

Tôi cũng xin gửi lời cảm ơn chân thành đến gia đình, những người luôn động viên và khuyếnkhích tôi hoàn thành Luận văn Thạc sĩ này

Xin chân thành cảm ơn tất cả mọi người!

Tp HCM, ngày 20 tháng 05 năm 2024

Học viên

Cao Nguyệt Minh

Trang 5

Trong lĩnh vực y tế, việc sử dụng từ viết tắt rộng rãi giúp đơn giản hóa và tăng hiệu quả ghichép văn bản Tuy nhiên, các từ viết tắt thường có nhiều ý nghĩa khác nhau tùy vào ngữ cảnh vàcách sử dụng, trong khi một từ hoặc cụm từ lại có thể được viết tắt theo nhiều cách khác nhau.Sự không nhất quán này có thể dẫn đến hiểu lầm và khó khăn trong xử lý dữ liệu y tế khi chia sẻthông tin giữa con người và máy móc Thách thức càng lớn hơn do sự không chuẩn hóa và thiếunhất quán của các từ viết tắt trong văn bản y tế tiếng Việt, đặc biệt là trong bệnh viện, do đặcđiểm ngôn ngữ và thiếu dữ liệu hệ thống Do đó, việc xây dựng một hệ thống từ điển viết tắt chovăn bản lâm sàng tiếng Việt trở nên vô cùng quan trọng Chúng tôi đã phát triển một hệ thốngtừ điển viết tắt, bao gồm một bộ sưu tập các từ viết tắt kèm theo ý nghĩa và thông tin liên quantừ văn bản y tế tiếng Việt Phương pháp của chúng tôi dựa trên các quy tắc để trích xuất cặp từviết tắt và dạng đầy đủ của từ, và hệ thống này đã được đánh giá bởi các chuyên gia y tế vớiđộ chính xác lên tới 98.68% Kết quả là, người dùng có thể tương tác với từ điển của chúng tôithông qua giao diện web, trong khi các hệ thống máy tính khác có thể sử dụng thông qua API.Từ điển viết tắt của chúng tôi có thể hỗ trợ hiểu văn bản lâm sàng và đảm bảo sự nhất quán trongviệc sử dụng từ viết tắt, đồng thời hỗ trợ các ứng dụng khác như dịch thuật, trích xuất thông tinvà phân tích dữ liệu y tế cũng như hỗ trợ quyết định trong lĩnh vực y tế.

Từ khóa: Từ điển viết tắt, văn bản y tế, phương pháp trích xuất dựa trên quy tắc, mô hình

học sâu tiền huấn luyện

Trang 6

In the medical field, abbreviations are widely used for efficient text recording and fication However, one abbreviation can have many different meanings depending on its con-text and usage while one word or phrase, conversely, can be abbreviated in several variousways Such situations cause inconsistencies and confusion for both human and machine-basedprocessing when medical data is shared It is even more challenging with inconsistencies andnon-standardization of abbreviations in Vietnamese medical texts, especially clinical texts inhospitals, due to language characteristics and the unavailability of data and system resources.Therefore, constructing an abbreviation dictionary system for Vietnamese clinical text process-ing is crucial and focused on in this thesis In particular, we construct an abbreviation dictionarysystem where our dictionary is a collection of abbreviations with meanings and related infor-mation from Vietnamese medical literature We also develop a rule-based method to extractabbreviation-long form pairs with an accuracy of 98.68% as evaluated by medical experts Asa result, all users can interact with our dictionary system via a web-based interface while allother computer-based systems via Application Programming Interfaces Also, our resulting ab-breviation dictionary can be used to aid in understanding clinical texts and ensure consistentuse of abbreviations In addition, it can serve other applications like translation, informationextraction, medical data analysis, and decision support in medicine.

simpli-Keywords: Abbreviation Dictionary, Medical Literature, Rule-based Extraction Method,

Pretrained Deep Learning Model

Trang 7

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của PGS.TS Võ Thị Ngọc Châu Nội dung nghiên cứu và các kết quả đều là trung thực và chưa từngđược công bố trước đây Các nội dung nghiên cứu trình bày trong đây đa phần là tôi tự tìm hiểu,phân tích và tổng hợp Tôi cũng có sử dụng một số nhận xét, đánh giá và số liệu của các tác giảkhác, cơ quan tổ chức khác Tất cả đều có trích dẫn và chú thích nguồn gốc Nếu phát hiện cóbất kỳ sự gian lận nào, tôi xin hoàn toàn chịu trách nhiệm, trường Đại học Bách Khoa - ĐHQGTP.HCM không liên quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trìnhthực hiện.

Tp HCM, ngày 20 tháng 05 năm 2024

Học viên

Cao Nguyệt Minh

Trang 8

1Giới thiệu1

1.1 Cơ sở hình thành đề tài 1

1.2 Mục tiêu đề tài 2

1.3 Giới hạn phạm vi thực hiện đề tài 2

1.4 Ý nghĩa của đề tài 2

1.4.1 Ý nghĩa khoa học 2

1.4.2 Ý nghĩa thực tiễn 3

1.5 Cấu trúc của Luận văn 3

2Kiến thức nền tảng và các công trình liên quan42.1 Khái niệm 4

2.1.1 Viết tắt trong y học 4

2.1.2 Từ điển 5

2.2 Phân tích cách xây dựng từ điển viết tắt 5

2.3 Xây dựng nguồn dữ liệu của từ điển 8

2.4 Phân tích các từ điển viết tắt 10

2.4.1 Từ điển Allie 10

2.4.2 Từ điển Acromine 13

2.4.3 Ứng dụng tra cứu từ viết tắt bằng tiếng Việt 15

2.5 Định hướng của đề tài từ các công trình liên quan 17

2.6 Các phương pháp đánh giá 18

2.6.1 Phương pháp đánh giá tập dữ liệu từ điển 18

2.6.2 Phương pháp đánh giá hiệu suất hệ thống 18

3Hệ thống đề xuất213.1 Định nghĩa hệ thống 21

3.1.1 Tính chất của hệ thống từ điển 21

3.1.2 Usecase 22

3.1.3 Nguồn dữ liệu của từ điển 24

Trang 9

4.2 Đánh giá độ phủ so với văn bản lâm sàng 41

4.3 Phân phối các dạng trích xuất từ viết tắt 44

4.4 Đánh giá phương pháp nhận diện từ viết tắt với học máy 45

4.5 Đánh giá hiệu suất hệ thống 45

4.5.1 Thiết lập môi trường kiểm thử 45

4.5.2 Kế hoạch kiểm thử 46

4.5.3 Kết quả kiểm thử 46

5Kết luận545.1 Kết quả đạt được 54

5.2 Hướng phát triển 55

Trang 10

2.1 Điểm khác biệt của các nghiên cứu liên quan 7

2.2 So sánh phương pháp trích dẫn từ viết tắt và nghĩa của từ 9

3.1 Thông tin chi tiết của bảng tìm kiếm từ viết tắt 32

3.2 Thông tin chi tiết của bảng 34

3.3 Kết quả tập dữ liệu qua 3 giai đoạn 35

4.1 Bảng đánh giá dữ liệu từ chuyên gia 41

4.2 Bảng mô tả tập dữ liệu so sánh 42

4.3 Bảng thống kê độ phủ của tập dữ liệu 44

4.4 Bảng số liệu phân phối các dạng trích dẫn từ viết tắt 45

4.5 Bảng thông tin các số liệu thống kê kiểm tra tải 47

4.6 Tổng kết của kiểm thử tải hệ thống 53

A.1 Biểu mẫu đánh giá bởi chuyên gia 60

Trang 11

2.1 Từ điển Allie [1] 10

2.2 Tổng quan về giải thuật ALICE [2] 11

2.3 Các khái niệm được sử dụng để xác định từ viết tắt trong thuật toán AbbreviationLIfter using Corpus-based Extraction (ALICE) [2] 11

2.4 Vị trí của các từ dừng của thuật toán ALICE [2] 12

2.5 Luồng chạy của thuật toán ALICE [2] 13

2.6 Các biểu thức xuất hiện trước từ viết tắt TTF-1 trong ngoặc đơn [3] 14

2.7 Mô hình hệ thống rút trích từ viết tắt [4] 15

2.8 Giao diện ứng dụng chương trình trích rút chữ viết tắt [4] 16

2.9 Giao diện ứng dụng chương trình thống kê chữ viết tắt nhằm hỗ trợ kiểm chứngvà đánh giá [4] 17

2.10 Phương pháp so sánh độ phủ của tập dữ liệu với các thư viện từ điển Y học [5] 182.11 Bảng phân phối thời gian phản hồi của yêu cầu [6] 19

3.1 Usecase của hệ thống 22

3.2 Kiến trúc hệ thống được đề xuất 26

3.3 Quy trình trích xuất dữ liệu 28

3.4 Ví dụ trích xuất các khả năng của dạng đầy đủ của các từ viết tắt 30

3.5 Danh sách bảng được thiết kế để tìm kiếm từ viết tắt 32

3.6 Bảng dùng cho trích xuất dữ liệu 33

3.7 Danh sách bảng phục vụ cho các tác vụ của hệ thống 33

3.8 Trang chủ 36

Trang 12

4.6 So sánh phương pháp nhận diện từ viết tắt với học máy 454.7 Bảng thống kê các yêu cầu với 10 người dùng 484.8 Bảng thống kế thời gian phản hồi của các yêu cầu theo phân vị với 10 người dùng 484.9 Biểu đồ biểu diễn số yêu cầu trên giây và thời gian phản hồi với 10 người dùng 494.10 Bảng thống kê các yêu cầu với 20 người dùng 494.11 Bảng thống kế thời gian phản hồi của các yêu cầu theo phân vị với 20 người dùng 504.12 Biểu đồ biểu diễn số yêu cầu trên giây và thời gian phản hồi với 20 người dùng 504.13 Bảng thống kê các yêu cầu với 50 người dùng 514.14 Bảng thống kế thời gian phản hồi của các yêu cầu theo phân vị với 50 người dùng 514.15 Biểu đồ biểu diễn số yêu cầu trên giây và thời gian phản hồi với 50 người dùng 52

Trang 13

ADAM Another Database of Abbreviations in Medline 18ALICE Abbreviation LIfter using Corpus-based Extraction x, 11–13ECG điện tâm đồ 5

IS Inner Search 11MM Maximum Matching 5MRI hình ảnh cộng hưởng từ 5OE Outer Extraction 11

Stedman Stedman’s Medical Abbreviations, Acronyms & Symbols 18UMLS Unified Medical Language System 18

VAMIC Vietnamese Medical and Clinical Abbreviations 27, 45VJ Validity Judgment 11

Trang 14

Chương 1Giới thiệu

1.1Cơ sở hình thành đề tài

Trong lĩnh vực Y khoa, việc sử dụng các từ viết tắt là rất phổ biến và có ích Các từ viết tắtgiúp rút ngắn thời gian ghi chép, truyền đạt và lưu trữ thông tin, đồng thời cũng giảm thiểu sựlặp lại và nhàm chán của ngôn ngữ Tuy nhiên, việc sử dụng các từ viết tắt cũng có những hạnchế và khó khăn Một trong số đó là sự không nhất quán và không chuẩn hóa của các từ viết tắttrong các văn bản lâm sàng tiếng Việt Cùng một từ viết tắt có thể có nhiều nghĩa khác nhau tùytheo ngữ cảnh, nguồn gốc và đối tượng sử dụng Ngược lại, cùng một khái niệm hay thuật ngữcó thể được viết tắt bằng nhiều cách khác nhau [7] Điều này có thể gây ra sự mơ hồ, hiểu lầmvà khó hiểu cho người đọc Đặc biệt, việc đó gây khó khăn cho các nhà phân tích dữ liệu khôngcó chuyên môn và quen thuộc với lĩnh vực Y khoa

Vì vậy, việc xây dựng một từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng Việt là rất cầnthiết và có ý nghĩa thực tiễn Một từ điển viết tắt là một tập hợp các từ viết tắt cùng với cácnghĩa và thông tin liên quan của chúng Một từ điển viết tắt có thể giúp người đọc hiểu được ýnghĩa của các từ viết tắt trong văn bản lâm sàng, cũng như giúp người viết sử dụng các từ viếttắt một cách chính xác và nhất quán Ngoài ra, một từ điển viết tắt cũng có thể phục vụ cho cácứng dụng khác như dịch thuật, trích xuất thông tin, phân tích dữ liệu và hỗ trợ quyết định trongy khoa

Tuy nhiên, việc xây dựng một từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng Việt khôngphải là một công việc đơn giản Các vấn đề cần được giải quyết bao gồm:

• Hiện tại tập dữ liệu viết tắt cho tiếng Việt hiện đang không phổ biến nên làm sao để thuthập và xử lý dữ liệu văn bản lâm sàng tiếng Việt một cách hiệu quả và chất lượng?

• Làm sao để phát hiện và trích xuất các từ viết tắt trong văn bản lâm sàng tiếng Việt mộtcách tự động và chính xác?

• Làm sao để biểu diễn và lưu trữ các từ viết tắt trong từ điển một cách hợp lý và tiện lợi?

Trang 15

• Làm sao để đánh giá và cải thiện chất lượng của từ điển viết tắt?

1.2Mục tiêu đề tài

Để giải quyết các vấn đề trên, đề tài này nhằm mục đích xây dựng một từ điển viết tắt chodữ liệu văn bản lâm sàng tiếng Việt bằng cách áp dụng các phương pháp dựa vào quy luật vàmột số công nghệ để cải thiện hiệu quả và chất lượng của quá trình xây dựng từ điển viết tắt

• Trích dẫn, thu thập các từ viết tắt từ nhiều nguồn thông tin uy tín từ điển bằng phươngpháp trích xuất dựa vào quy tắc

• Xây dựng một từ điển viết tắt chuyên ngành y học tiếng Việt, bao gồm các thông tin vềviết tắt, cụm từ đầy đủ, nghĩa, nguồn gốc, phạm vi sử dụng, v.v

• Đánh giá hiệu quả và độ chính xác của từ điển viết tắt được xây dựng, so sánh với các từđiển viết tắt có sẵn hoặc được xây dựng bằng cách thủ công

• Mở rộng dữ liệu từ điển là cần thiết để hỗ trợ các công việc xử lý văn bản lâm sàng tiếngViệt, bao gồm phân loại văn bản, truy vấn thông tin, khai thác tri thức và các tác vụ khác

1.3Giới hạn phạm vi thực hiện đề tài

Trong đề tài luận văn, tác giả đề xuất một số giới hạn như sau:

- Về người dùng: Hệ thống sẽ hướng tới người dùng Việt Nam nên sẽ chỉ hỗ trợ tiếng Việt.- Về nội dung: Hệ thống hiện tại chỉ lấy những dữ liệu từ vựng viết tắt từ những bài báo

khoa học, kỹ thuật liên quan tới ngành Y học Việc đó để đảm bảo nguồn dữ liệu ban đầu làđúng đắn

- Về miền ứng dụng: Hệ thống hỗ trợ cho người dùng liên quan tới lĩnh vực y học Việt

Nam

1.4Ý nghĩa của đề tài

Trang 16

Từ điển viết tắt cũng có thể góp phần chuẩn hóa cách sử dụng các từ viết tắt trong văn bảnlâm sàng tiếng Việt.

1.5Cấu trúc của Luận văn

Nhằm làm rõ công sức thực hiện trong Luận văn này, báo cáo sẽ bao gồm các chương có nộidung chính như sau:

• Chương 1 - Giới thiệu: Trình bày tổng quan vấn đề cần phải nghiên cứu, trong đó bao

gồm cơ sở hình thành đề tài, mục tiêu nghiên cứu, phạm vi nghiên cứu, và ý nghĩa đề tài.Cuối cùng là cấu trúc của luận văn

• Chương 2 - Kiến thức nền tảng và các công trình liên quan: Tổng hợp và phân tích

kiến thức nền tảng, các công trình nghiên cứu, và các kết quả liên quan được chia thànhhai nhóm chính: Nghiên cứu phương pháp trích xuất từ vựng viết tắt, phương pháp xâydựng từ điển Cuối chương này, học viên sẽ đưa ra định hướng cho đề tài nghiên cứu vàphương pháp đánh giá

• Chương 3 - Hiện thực hệ thống: Chương này sẽ phân tích vấn đề của đề tài Từ đó, tác

giả đưa ra các chức năng cho từ điển để giải quyết các vấn đề Cuối cùng, tác giả sẽ mô tảthiết kế chi tiết và hiện thực hệ thống

• Chương 4 - Đánh giá kết quả: Chương này tác giả trình bày các kết quả thực nghiệm từ

hệ thống và đánh giá kết quả bằng các phương pháp khác nhau

• Chương 5 - Kết luận: Chương cuối cùng để đánh giá lại toàn bộ các kết quả mà đề tài đã

thực hiện và đạt được trong quá trình thực hiện Luận văn Thạc sĩ Chương này cũng chỉra những khó khăn trong quá trình thực hiện cũng như các giới hạn của kết quả, và từ đóđề xuất những hướng phát triển tiếp theo

Trang 17

Chương 2Kiến thức nền tảng và các công trình liênquan

Chương này trình bày các khái niệm nền tảng, bao gồm định nghĩa về từ viết tắt trong y họcvà khái niệm từ điển Đồng thời, chương này cũng phân tích các phương pháp xây dựng từ điểnviết tắt, bao gồm các nguồn dữ liệu và cách thức xây dựng Ngoài ra, chương này cũng giới thiệumột số từ điển viết tắt tiêu biểu và ứng dụng tra cứu từ viết tắt bằng tiếng Việt, cùng với cácphương pháp đánh giá để định hướng đề tài

2.1.1Viết tắt trong y học

Từ viết tắt là một cách rút gọn một từ hoặc một cụm từ Cách biểu diễn từ có thể ở nhiềudạng khác nhau, nhưng thường được hình thành bằng các kí tự đầu tiên của các từ [8] Trong yhọc, chúng thường được sử dụng để viết gọn các tên bệnh, phương pháp điều trị, thuốc, và cácthuật ngữ y học khác Dưới đây là một số ví dụ về từ viết tắt trong y học:

• ALL: Acute lymphoblastic leukemia, nghĩa là bệnh bạch cầu cấp tính

• AMI: Acute myocardial infarction, nghĩa là đau thắt ngực

Trang 18

Tác giả Liu H và các cộng sự đã chỉ ra rằng khoảng 81,2% các từ vựng viết tắt có sự nhậpnhằng về nghĩa và có trung bình 16,6 nghĩa cho 1 từ viết tắt [9] Ví dụ như từ viết tắt PC Chúngta có một số nghĩa của từ bằng tiếng Anh như Personal Computer, Primary case, principalcomponent, prostate cancer, v.v.

2.1.2Từ điển

Từ điển không chỉ là một công cụ hữu ích để tra cứu từ vựng, mà còn là một nguồn tàinguyên quý giá để nghiên cứu và hiểu biết sâu hơn về ngôn ngữ Từ điển cung cấp thông tin chitiết về từ vựng, bao gồm cả nghĩa, cách sử dụng, ngữ cảnh, từ loại, và thậm chí là nguồn gốc củatừ [10] Nó cũng có thể bao gồm các ví dụ về cách sử dụng từ trong câu, giúp người dùng hiểurõ hơn về cách sử dụng từ đó một cách chính xác

Từ điển viết tắt, một dạng đặc biệt của từ điển, chứa một bộ sưu tập các từ viết tắt và giảithích ý nghĩa của chúng Điều này đặc biệt hữu ích trong các lĩnh vực chuyên ngành, nơi màviệc sử dụng từ viết tắt là phổ biến Ví dụ, trong y học, từ viết tắt như điện tâm đồ (ECG) vàhình ảnh cộng hưởng từ (MRI) thường được sử dụng Từ điển viết tắt giúp người đọc hiểu rõhơn về các từ viết tắt này và cung cấp kiến thức chuyên ngành một cách chính xác

2.2Phân tích cách xây dựng từ điển viết tắt

Học viên đã nghiên cứu các hệ thống cung cấp từ viết tắt cho các ngôn ngữ khác nhau Trongquá trình nghiên cứu, Học viên đã tìm thấy nhiều bài báo liên quan

Bài thứ nhất của SungRim [5] là một nghiên cứu được công bố trên Nature và bài báo củacác tác giả Sungrim Moon, Serguei Pakhomov, Nathan Liu, James O Ryan, và Genevieve B.Melton Các tác giả đã tiến hành kết hợp hệ thống của tám kho dữ liệu (UMLS-LRABR [11],ADAM [12], Berman [13], Wikipedia [14], Vanderbilt1 [15], Vanderbilt2 [15], Stetson [16], )từ nhiều chuyên ngành và môi trường chăm sóc sức khỏe khác nhau, từ đó xác định được 104,057từ viết tắt với 170,426 ý nghĩa tương ứng

Bài viết thứ hai [17] là một nghiên cứu của tác giả Hua Xu từ Khoa Thông tin Y học, Đạihọc Columbia, New York, USA Nghiên cứu này tập trung vào việc xây dựng bộ từ vựng cụ thểcho các từ viết tắt xuất hiện trong các ghi chú lâm sàng

Bài viết thứ 3 [4] giới thiệu về cách xây dựng một cơ sở dữ liệu viết tắt bằng Tiếng Việtbằng phương pháp so khớp tối đa Maximum Matching (MM) [18] và phương pháp sử dụng biểuthức chính quy Phương pháp MM này sẽ duyệt một đoạn văn bản từ trái sang phải và chọn từcó nhiều âm tiết nhất có mặt trong từ điển và thực hiện đến hết văn bản Phương pháp này dựavào các dấu hiệu nhận biết chữ viết tắt được định nghĩa sẵn để có thể trích xuất từ viết tắt Cáctác giả thấy rằng việc trích xuất từ viết tắt theo phương pháp so khớp tối đa không hiệu quả dophải so khớp với từ điển để loại bỏ các từ có nghĩa Phương pháp sử dụng biểu thức chính quy

Trang 19

có tốc độ xử lý nhanh và chính xác với các dạng từ viết tắt phổ biến Tuy nhiên, do chữ viết tắtcó cấu trúc rất đa dạng, có những dạng từ viết tắt không phổ biến mà phương pháp này khôngthể nhận biết được.

Trang 20

Điểm tương đồng của các bài báo:

• Tập trung vào việc xây dựng một từ điển hoặc hệ thống để giải mã các từ viết tắt

Điểm khác biệt của các bài báo được so sánh dạng bảng như sau:

Bảng 2.1: Điểm khác biệt của các nghiên cứu liên quan

So sánh độ phủ của từ điển xây dựng với các từđiển lớn như UMLS, ADAM,

- Chi phí chú thích (Annotation Cost) là tỉ lệ sốlượng từ chú thích đươc tìm thấy thông qua mô hìnhtrên tổng số từ chú thích được tìm bằng cách thủcông.

[4]

- Tập trung vào việc xây dựng một cơ sở dữ liệu vềcác từ viết tắt bằng Tiếng Việt không theo chủ đềnhất định.

- Sử dụng các nguồn dữ liệu từ các tệp văn bảnhoặc từ internet.

- Sử dụng các dạng dấu hiệu từ viết tắt để tríchxuất như: Cụm từ đầy đủ (Chữ viết tắt), Chữ viếttắt (Cụm từ đầy đủ), Chữ viết tắt dấu cách Cụm từđầy đủ, dạng bảng

Tác giả bài báo không đề cập tới cách đánh giá cơsở dữ liệu viết tắt.

Trang 21

2.3Xây dựng nguồn dữ liệu của từ điển

Học viên tiến hành so sánh các phương pháp để các bài báo phân tích trích xuất từ viết tắt.Các bài báo được khảo sát:

• "Acrophile: An Automated Acronym Extractor and Server" của tác giả Larkey LS,

Ogilvie P, Price MA, Tamilio B [19]

• "Creating an online dictionary of abbreviations from MEDLINE" của tác giả Chang

JT and Schutze H and Altman RB [20]

• "Mining terminological knowledge in language biomedical corpora" của tác giả Liu

H and Friedman C [21]

• "A Simple Algorithm for Identifying Abbreviation Definitions in Biomedical Text"

của tác giả A.S Schwartz, M.A Hearst [22]

Trang 22

Các bài báo sẽ được so sánh theo như bảng sau:

Bảng 2.2: So sánh phương pháp trích dẫn từ viết tắt và nghĩa của từ

Bài báoNguồntrích

dẫnPhương pháp trích dẫnƯu điểmNhược điểmCách đánh giá

[19]Các trang web

Trích dẫn các từ vựng viết tắt dựatrên việc sử dụng các ngoặc đơnvà các quy tắc đặc biệt Tác giảbài báo phân tích theo 4 hướngContextual Canonical, Contex-tual, Canonical, Simple Canoni-cal

Thử nghiệm với những quytắc khác nhau về ngôn ngữ

Việc trích xuất từ vựngviết tắt được hiện thựcbằng cách thủ công Ứngdụng chưa thể trích xuấtđược các dạng “14C-ureabreath test (14C-UBT),”“granulemembraneprotein-140 (GMP-140),”“fibrinogen(Fg),”or“protein kinase C (PKC).”

So sánh các phương pháptrích dẫn theo 4 hướng màtác giả đã đề xuất với tỉ lệPrecision và Recall.

[20]

Các bài báocủaMED-LINE

Sự dụng mô hình học có giám sát(Supervised Machine Learning)để trích dẫn các từ vựng viết tắt.Mô hình dựa trên việc sử dụngcác ngoặc đơn và các quy tắc củatập dữ liệu huấn luyện do conngười phân tích.

Không đề cập

Mô hình quy định các từviết tắt đều nằm trongngoặc đơn.

Thuật toán đã đạt được tỉlệ Recall lớn nhất là 83%và độ chính xác 80%.

[21]

Xây dựng một thuật toán thốngkê, hồi quy logistic để tính điểmcho các dạng đầy đủ của từ viếttắt dựa trên sự giống nhau củachúng với tập huấn luyện các chữviết tắt do con người chú thích.

Hệ thống không chỉ tríchxuất các từ vựng viết tắtmà còn trích xuất các từliên quan như đồng nghĩa,trái nghĩa.

Mô hình không phù hợpcho các từ viết tắt chỉ xuấthiện 1 lần trong bài viết.

Thuật toán được huấnluyện trên tập dữ liệu củaMEDLINE và kiểm thửtrên tập dữ liệu ChinaMedical Tribune Tỉ lệRecall của thuật toán nàykhoảng 88.5% và độ chínhxác 96,3%.

[22]

Sự dụng thuật toán so sánh các kítự xuất hiện trong từ viết tắt vớicác dạng từ đầy đủ Trích xuất 2dạng chính:

(i) long form ‘(‘ short form ‘)’(ii) short form ‘(‘ long form ‘)’Quy tắc để nhận biết chuỗi là từviết tắt:

- Chuỗi có ít nhất 2 kí tự- Độ dài chuỗi từ 2 đến 10 kí tự- Chuỗi có ít nhất 1 kí tự chữ- Kí từ đầu tiên của chuỗi là sốvà chữ

Thuậttoánđơngiản,không có nhiều quy tắtnên khó bị ảnh hưởng bởicác quy luật mới.Hiệu suất cao, không cầnthư viện hỗ trợ.

Thuật toán quy định cáctừ viết tắt đều nằm trongngoặc đơn và các dạng từđầy đủ nằm liền kề vớingoặc đơn.

Thuật toán đã đạt được tỉ lệRecall cao nhất là 82% vàđộ chính xác 96%.

Trang 23

2.4Phân tích các từ điển viết tắt

Trên thị trường, chúng ta có rất nhiều từ điển viết tắt cho nhiều lĩnh vực khác nhau Học viênsẽ chọn ra một số hệ thống từ điển tiêu biểu để tiến hành so sánh và phân tích

2.4.1Từ điển Allie

Allie là một dịch vụ tìm kiếm từ viết tắt cho lĩnh vực khoa học đời sống [2] Từ điển viết tắtnày được xây dựng tự động từ các bài báo của MEDLINE được cập nhật liên tục hàng tháng.Từ điển hỗ trợ tính năng tìm kiếm từ viết tắt và dạng từ đầy đủ bằng tên bài báo Thêm vào đó,từ điển cho phép tra cứu với nhiều cách khác nhau như: Tìm kiếm chính xác và tìm kiểm chínhxác một phần

Hình 2.1: Từ điển Allie [1]

Từ vựng viết tắt được biểu diễn với các thông tin như:

• Từ viết tắt

• Nghĩa của từ

• Số lần xuất hiện của từ

• Các cách biểu diễn khác của từ viết tắt và nghĩa của từ

• Trích xuất số lần xuất hiện ở các bài báo MEDLINE

Trang 24

Hình 2.2: Tổng quan về giải thuật ALICE [2]

Giải thuật để trích xuất từ viết tắt của từ điển sử dụng là ALICE [2] ALICE sử dụng các

quy tắc so khớp dựa theo các mẫu dạng có sẵn Thuật toán chia thành 3 giai đoạn: Tìm kiếm

phần bên trong - Inner Search (IS), trích xuất phần bên ngoài - Outer Extraction (OE), vàkiểm tra phán quyết - Validity Judgment (VJ).

Ở giai đoạn đầu tiên, ALICE tìm kiếm cặp ngoặc đơn và xác định được phần bên trong Từđó, thuật toán xác định được điểm bên trái (left-chunk) của phần bên ngoài Số kí tự của phầnbên trong và phần bên ngoài sẽ được kiểm tra ở giai đoạn VJ Cuối cùng, thuật toán sẽ xác địnhđược từ viết tắt và từ dạng đầy đủ

Hình 2.3: Các khái niệm được sử dụng để xác định từ viết tắt trong thuật toán ALICE [2]

Tác giả bài báo đưa ra 2 khái niệm là từ dừng (Stop Word) và thuật ngữ an toàn (Safe Term).Danh sách từ dừng là danh sách được tác giả tự liệt kê trong quá trình quan trong các lỗi false-

Trang 25

positive Có tổng cộng 5 danh sách như sau: (1) danh sách từ bên trong (inner), (2) danh sáchtừ đầu tiên xuất hiện bên trong (inner first word), (3) danh sách từ xuất hiện đầu tiên với phầnbên trong (inner front word), (4) danh sách từ bên ngoài (outer), và (5) danh sách từ đầu tiênbên ngoài (outer first word) Ngược lại, danh sách thuật ngữ an toàn là danh sách để xác địnhcác dạng từ viết tắt đặc biệt trong lĩnh vực Y học Các từ mở rộng bắt đầu bằng một giới từ chỉcó thể được trích xuất nếu cụm từ giới từ đầu tiên nằm trong danh sách thuật ngữ an toàn.

Hình 2.4: Vị trí của các từ dừng của thuật toán ALICE [2]

Trang 26

Chi tiết luồng chạy của thuật toán ALICE như sau:

Hình 2.5: Luồng chạy của thuật toán ALICE [2]

2.4.2Từ điển Acromine

Acromine là một từ điển viết tắt được xây dựng tự động từ các bài báo của MEDLINE tínhđến tháng 4 năm 2009 Acromine xác định các định nghĩa viết tắt bằng cách giả định một chuỗitừ xuất hiện thường xuyên với một biểu thức trong ngoặc là một hình thức mở rộng tiềm năng.Khi áp dụng cho toàn bộ MEDLINE (9,635,599 bản tóm tắt), hệ thống đã triển khai đã tríchxuất 68,007 ứng cử viên viết tắt và nhận biết 467,402 hình thức mở rộng Acromine hiện tại đạtđộ chính xác 99% và độ nhạy từ 82-95% trên tập dữ liệu đánh giá của hệ thống mô phỏng gầnnhư toàn bộ MEDLINE

Từ vựng viết tắt được biểu diễn với các thông tin như:

• Từ viết tắt

• Nghĩa của từ

• Các cách biểu diễn khác của từ

• Các ví dụ được trích xuất từ các bài báo của MEDLINE

Từ điển dùng phương pháp nhận biết thuật ngữ [3] để trích xuất cặp từ viết tắt - dạng đầy đủ

của từ Bài báo đề xuất phương pháp nhận biết từ viết tắt dựa trên sự đồng xuất hiện Bài

Trang 27

báo đưa ra giả định một chuỗi từ là một ứng cử viên dạng đầy đủ nếu chuỗi đó xuất hiện thườngxuyên với 1 từ viết tắt cụ thể và không xuất hiện cùng các từ khác Ở hình 2.6 mô tả giả định vớitừ viết tắt TTF-1 Cây bao gồm các biểu thức được thu thập từ tất cả các câu có viết tắt TTF-1trong dấu ngoặc và xuất hiện trước viết tắt Một nút đại diện cho một từ, và một đường dẫn từbất kỳ nút nào đến TTF-1 đại diện cho một một ứng cử dạng đầy đủ Phía trên mỗi nút thể hiệntần suất xuất hiện của các ứng cử dạng đầy đủ.

Mặc dù các ứng cử viên dạng đầy đủ "1", "factor 1" và "transcription factor 1" đồng xuấthiện thường xuyên với TTF-1, chúng cũng đồng xuất hiện thường xuyên với "thyroid" Trongkhi đó, ứng cử "thyroid transcription factor 1" được sử dụng trong một số ngữ cảnh (ví dụ:

"expresion of thyroid transcription factor 1", "expresed thyroid transcription factor 1", v.v.) Do

đó, tác giả quan sát mối quan hệ có khả năng nhất là giữa viết tắt TTF-1 và ứng cử viên dạng từ

đầy đủ của nó là "thyroid transcription factor 1" trong cây Phương pháp này còn áp dụng một

quy tắc xác nhận cho ứng cử viên dạng đầy đủ để đảm bảo một mối quan hệ viết tắt-dạng từ đầyđủ thực sự xảy ra Trong ví dụ này, cặp ứng cử viên có khả năng nằm trong một mối quan hệ

viết tắt-dạng từ đầy đủ vì dạng từ đầy đủ "thyroid transcription factor 1" chứa tất cả các chữ cái

số trong từ viết tắt TTF-1

Hình 2.6: Các biểu thức xuất hiện trước từ viết tắt TTF-1 trong ngoặc đơn [3]

Trang 28

Đặc điểm này của phương pháp của chúng tôi cũng góp phần tìm ra một dạng từ đầy đủ mà

từ viết tắt của nó được sắp xếp theo một thứ tự từ khác nhau, chẳng hạn như beta 2 adrenergic

receptor (ADRB2)và water activity (AW).

2.4.3Ứng dụng tra cứu từ viết tắt bằng tiếng Việt

Ứng dụng được giới thiệu ở bài báo "Nghiên cứu thu thập và xây dựng cơ sở dữ liệu chữ viếttắt tiếng Việt" của 2 tác giả Huỳnh Công Pháp và Nguyễn Văn Huệ [4] Hệ thống tiến hành phântích và trích xuất các từ viết tắt từ các tệp tin văn bản hoặc từ Internet để cập nhật vào cơ sở dữliệu Do quá trình trích xuất có thể có một số lỗi, hệ thống cho phép người dùng xem lại, chỉnhsửa và cập nhật từ viết tắt Sau khi thu thập chữ viết tắt từ các tệp văn bản hoặc từ internet, hệthống tiến hành phân tích và trích rút chữ viết tắt để cập nhật vào cơ sở dữ liệu chữ viết tắt Quátrình thu thập chữ viết tắt tự động nên có thể không chính xác, do đó hệ thống phải cung cấpmôi trường cho phép người dùng xem lại, chỉnh sửa và cập nhật chữ viết tắt Từ cơ sở dữ liệu đãxây dựng, tác giả xây dựng ứng dụng để người dùng có thể tra cứu

Hình 2.7: Mô hình hệ thống rút trích từ viết tắt [4]

Các tác giả đặt ra các dạng từ viết tắt phổ biến như:

• Dạng 1: Cụm từ đầy đủ (Chữ viết tắt) Đây là một dạng tương đối phổ biến trong việc viết

tắt Ví dụ: Tài liệu tham khảo (TLTK)

• Dạng 2: Chữ viết tắt (Cụm từ đầy đủ) Một dạng ký hiệu chữ viết tắt thường được sử dụng

trong các văn bản tiếng Việt là từ dạng đầy đủ của chữ viết tắt được đặt trong cặp ngoặc

Trang 29

đơn Ví dụ: TPHCM (Thành phố Hồ Chí Minh).

• Dạng 3: Chữ viết tắt (:/-) Cụm từ đầy đủ Dạng biểu diễn chữ viết tắt thứ 3 là chữ viết tắt

và nghĩa của nó được đặt cách nhau bởi một ký tự phân cách như dấu gạch ngang (–) hoặcdấu hai chấm (:) Ví dụ: CNPM – Công nghệ phần mềm

• Dạng 4: Từ điển thu thập xử lý các tài liệu tiếng Việt như các luận văn, luận án nên có xửlý trích xuất các từ viết tắt dạng bảng

Để nhận biết được từ viết tắt bằng tiếng Việt, các tác giả đã đặt ra một số quy tắc dựa trênquá trình trích xuất như sau:

• Chữ viết tắt thường gồm các ký tự là phụ âm

• Chữ viết tắt đa số là các ký tự in hoa

• Chữ viết tắt có thể có chứa các ký tự phân cách

• Chữ viết tắt tiếng Việt không sử dụng các nguyên âm như Â, Ă, Ê, Ơ, Ô, Ư

Sau đây là một số hình ảnh về giao diện của ứng dụng:

Trang 30

Hình 2.9: Giao diện ứng dụng chương trình thống kê chữ viết tắt nhằm hỗ trợ kiểm chứng và đánh giá

[4]

2.5Định hướng của đề tài từ các công trình liên quan

Dựa vào các phân tích của các bài báo, từ điển trước đó, tôi đề xuất một số phương hướngđể phát triển đề tài

• Nguồn dữ liệu từ các tạp chí khoa học sẽ là nguồn dữ liệu chính của hệ thống để làmphong phú cho từ điển viết tắt Các bài báo khoa học về Y học của Việt Nam được côngkhai nên đó là ưu điểm để sử dụng nguồn dữ liệu này Từ vựng viết tắt sẽ được cập nhậtđịnh kỳ từ các tạp chí

• Người dùng là một nguồn dữ liệu giá trị cho từ điển Hệ thống có thể nhận phản hồi đềcập nhật thêm các từ viết tắt trong từ điển

• Các phương pháp sử dụng học máy cần tập dữ liệu lớn đã được kiểm tra tính đúng đắnnên chưa thể ứng dụng vào đề tài với tiếng Việt Học viên sử dụng phương pháp dựa trênquy tắc heristics để xây dựng tập dữ liệu cho từ điển

• Từ điển cung cấp giao diện để người dùng cuối có thể truy xuất trên web và hệ thống sửdụng

Trang 31

2.6Các phương pháp đánh giá2.6.1Phương pháp đánh giá tập dữ liệu từ điển

Theo nghiên cứu của học viên trong việc xây dựng từ điển Sense Inventory [5], sau khi xâydựng từ điển từ viết tắt dựa trên các ghi chú của các y tá, bác sĩ, tác giả tiến hành so sánhđộ phủ của tập dữ liệu với các hệ thống thống kê từ viết tắt như Unified Medical LanguageSystem (UMLS) [11], Another Database of Abbreviations in Medline (ADAM) [12], Stedman’sMedical Abbreviations, Acronyms & Symbols (Stedman) [23],

Đầu tiên, họ đã chọn ra 440 từ viết tắt được sử dụng nhiều nhất từ 352,267 ghi chú lâm sàng.Sau đó, họ đã thủ công gán nhãn 949 từ dạng đầy đủ của mỗi từ viết tắt từ 500 trường hợp ngẫunhiên trong ghi chú lâm sàng

Các từ dạng đầy đủ này sau đó được so sánh với các từ dạng đầy đủ tương ứng trong Hệ thốngNgôn ngữ Y học Thống nhất - UMLS [11], Cơ sở dữ liệu khác về Từ viết tắt trong Medline -ADAM, và Từ điển Stedman về từ viết tắt & Ký hiệu Y học - Stedman

Kết quả cho thấy chỉ có 2.3% các từ dạng đây đủ sau khi được hợp nhất khớp với tất cả cácnguồn y học UMLS, ADAM, và Stedman chỉ bao gồm lần lượt 5.7%, 8.4%, và 11% các dạngtừ đầy đủ hợp nhất từ ghi chú lâm sàng

Hình 2.10: Phương pháp so sánh độ phủ của tập dữ liệu với các thư viện từ điển Y học [5]

Trang 32

• Số lượng yêu cầu trên mỗi phút (Request per Minute - RPM): Đây là chỉ số hiệu suất

đo lường số lượng yêu cầu mà API đang xử lý Chỉ số này cho thấy khả năng chịu tải củahệ thống và cung cấp thông tin về số lượng yêu cầu mà hệ thống có thể xử lý trong mộtkhoảng thời gian nhất định

• Kích thước của đầu vào và đầu ra (Data I/O): Tiêu chí kích thước của dữ liệu đầu vào

là kích thước bytes của dữ liệu mà bên ngoài gửi cho hệ thống cần xử lý Điều này chothấy khả năng xử lý dữ liệu của hệ thống và cung cấp thông tin về khả năng xử lý dữ liệucủa hệ thống

• Số lượng lỗi trên mỗi phút (Errors per Minute - EPM): Chỉ số đo số lượng lỗi mà API

xử lý Chỉ số này cho thấy độ tin cậy của hệ thống và cung cấp thông tin về số lượng lỗimà hệ thống gặp phải trong một khoảng thời gian nhất định

• Thời gian phản hồi (Response Time): Chỉ số đo thời gian xử lý yêu cầu của API Chỉ số

này cho thấy tốc độ phản hồi của hệ thống và cung cấp thông tin về thời gian mà hệ thốngmất để xử lý một yêu cầu

• Kiểm tra sử dụng phần cứng: là thước đo lượng tài nguyên sẵn có của hệ thống máy

tính đang được các ứng dụng và quy trình sử dụng Điều này cho thấy khả năng sử dụngtài nguyên của hệ thống và cung cấp thông tin về tài nguyên máy tính mà hệ thống đangsử dụng

Trong lĩnh vực dịch vụ website, các yêu cầu không thể được xử lý như nhau và có thời gianphản hồi đều nhau Việc phân tích những biến đổi tác động đến các yêu cầu có thể được pháthiện thông qua độ trễ Các chỉ số này mang lại cái nhìn rõ ràng về hiệu suất của hệ thống, đặcbiệt là khả năng chịu tải [6]

Hình 2.11: Bảng phân phối thời gian phản hồi của yêu cầu [6]

Trang 33

Phân vị (Percentile) chỉ ra tỉ lệ yêu cầu được hoàn thành trong một thời gian nhất định P90với P99 có ý nghĩa:

• P90 (Phân vị 90): Chỉ số này cho chúng ta biết rằng 90% tất cả các yêu cầu được xử lýtrong khoảng thời gian này, trong khi 10% còn lại sẽ mất thời gian lâu hơn Theo dõi phânvị này giúp chúng ta có thể hiểu hơn về hiệu suất của ứng dụng đối với hầu hết ngườidùng Việc tối ưu hóa phân vị này sẽ có tác dụng với phần lớn lưu lượng truy cập

• P95 (Phân vị 95): Độ trễ P95 cho thấy 95% các yêu cầu rơi vào mức ngưỡng đã chỉ định.Chỉ số này mang lại cho bạn thông tin chi tiết hơn về trải nghiệm người dùng, cho phépbạn phục vụ cho một lượng người dùng rộng lớn hơn

• P99 (Phân vị 99): Độ trễ P99 cho thấy 99% các yêu cầu rơi vào mức ngưỡng đã chỉ định.Chỉ số này giúp bạn nhận định được các yêu cầu có thời gian dài nhất Nó cho phép bạnxác định vấn đề và hỗ trợ lượng nhỏ lưu lượng

Tất cả các chỉ số này đều cung cấp thông tin quan trọng về hiệu suất của hệ thống và giúp ngườilập trình hiểu rõ hơn về tình trạng hiện tại của ứng dụng Bằng cách theo dõi và tối ưu hóa cácchỉ số này, người lập trình có thể cải thiện hiệu suất của ứng dụng và cung cấp một trải nghiệmngười dùng tốt hơn Việc này đặc biệt quan trọng trong môi trường thực tế, nơi mà ứng dụngcần phải đáp ứng được nhu cầu của một lượng lớn người dùng

Trang 34

Chương 3Hệ thống đề xuất

Chương này học viên trình bày chi tiết về hệ thống từ điển viết tắt được đề xuất Đầu tiên, hệthống được định nghĩa rõ ràng thông qua các mô tả về use case, tính chất, nguồn dữ liệu, chứcnăng và kiến trúc Sau đó, chương này đi sâu vào việc hiện thực hệ thống, bao gồm bộ trích xuấttừ viết tắt và từ điển viết tắt cho văn bản lâm sàng Cuối cùng, chương này trình bày các kết quảđạt được từ việc xây dựng tập dữ liệu từ điển và hệ thống từ điển

3.1Định nghĩa hệ thống3.1.1Tính chất của hệ thống từ điển

Từ mục tiêu của đề tài, học viên định nghĩa ba tính chất mà hệ thống từ điển viết tắt cần đạtđược như sau:

• Tính chính xác cao đòi hỏi các từ viết tắt được trích dẫn từ nguồn thông tin đáng tin cậy,

có trích dẫn đầy đủ và chính xác Từ điển sẽ là nguồn dữ liệu cho các hoạt động xử lý tínhtoán và phân tích Do đó, nó cần có độ chính xác cao, dữ liệu phải chứa nhiều thông tinvà được trích dẫn từ các nguồn uy tín

• Tính mở rộng là khả năng mà dữ liệu từ viết tắt có thể được mở rộng theo thời gian mà

không cần nhiều sự can thiệp của con người Điều này có nghĩa là, từ điển có thể tự độngcập nhật các từ viết tắt từ các nguồn dữ liệu uy tín, giúp giảm bớt công sức của con ngườitrong việc cập nhật và duy trì từ điển

• Tốc độ phản hồi nhanh là thời gian phản hồi cho người dùng ngắn để hỗ trợ cho người

dùng và các mô hình tính toán một cách nhanh nhất có thể

Dựa vào ba tính chất trên, học viên sẽ đưa ra một số chức năng của từ điển trong đề tài nàyở những phần sau

Trang 35

Hình 3.1: Usecase của hệ thống

Các chức năng của hệ thống cung cấp cho người dùng:

• Người dùng có thể tra cứu từ khóa bằng 3 cách khác nhau như: Tìm kiếm chính xác, Tìmkiếm chính xác 1 phần, Tìm kiếm từ khóa bắt đầu từ

• Người dùng có thể xem thông tin của các cặp từ viết tắt bao gồm: Từ viết tắt, từ dạng đầyđủ, tần suất xuất hiện, các ví dụ sử dụng cặp từ viết tắt trong các văn bản, tạp chí Khoahọc

Trang 36

• Người dùng có thể phản hồi những lỗi sai của cặp từ và bình chọn cho những yêu cầu đãđược người dùng khác báo cáo.

Như mong muốn của đề tài, học viên mong muốn ít sự can thiệp của người quản trị trong hệthống Người quản trị có ít chức năng như xem các phản hồi của người dùng và phản hồi lỗi chongười dùng Việc sửa lỗi các cặp từ thì sẽ do hệ thống thực hiện sau khi số lượng bình chọn vượtqua ngưỡng cho phép

3.1.2.1Use Case 1: Người dùng tra cứu từ khóa

• Tác nhân: Người dùng, hệ thống bên ngoài

• Mô tả: Người dùng nhập một từ khóa vào ô tìm kiếm Hệ thống sẽ tìm kiếm các cặp từ

viết tắt có chứa toàn bộ hoặc một phần từ khóa đó, và trả về danh sách các kết quả tìmkiếm phù hợp

• Kết quả: Hệ thống hiển thị danh sách các kết quả tìm kiếm, bao gồm: Từ viết tắt, định

nghĩa đầy đủ, tần suất xuất hiện, các ví dụ minh họa, bài báo liên quan

• Các trường hợp đặc biệt: Không tìm thấy kết quả Hệ thống hiển thị thông báo "Không

tìm thấy kết quả phù hợp"

3.1.2.2Use Case 2: Người dùng xem thông tin chi tiết của cặp từ viết tắt

• Tác nhân: Người dùng

• Mô tả: Người dùng nhấn vào một kết quả tìm kiếm hoặc vào một cặp từ viết tắt cụ thể.

Hệ thống sẽ hiển thị một trang chi tiết chứa đầy đủ thông tin về cặp từ đó, bao gồm: Địnhnghĩa chi tiết, các ví dụ minh họa, tần suất xuất hiện theo thời gian, liên kết đến các bàibáo liên quan để tải về

• Kết quả: Hệ thống hiển thị trang chi tiết của cặp từ viết tắt.

3.1.2.3Use Case 3: Người dùng viết phản hồi, báo cáo lỗi

• Mô tả: Người dùng điền vào một form phản hồi, bao gồm: Nội dung phản hồi (đề xuất,

báo cáo lỗi, ), loại phản hồi (đề xuất cải tiến, báo cáo lỗi chính tả, báo cáo lỗi địnhnghĩa, )

• Tiền điều kiện: Người dùng đã đăng nhập.

• Kết quả: Hệ thống gửi phản hồi của người dùng đến quản trị viên và hiển thị một thông

báo xác nhận

Trang 37

3.1.2.4Use Case 4: Người dùng bình chọn cho yêu cầu của người khác

• Mô tả: Người dùng xem danh sách các yêu cầu chỉnh sửa lỗi sai đã được gửi bởi người

khác và chọn một hoặc nhiều yêu cầu để bình chọn

• Kết quả: Hệ thống cập nhật số lượng bình chọn cho yêu cầu đó Nếu số yêu cầu đạt

ngưỡng cho phép, hệ thống sẽ gửi thông báo cho quản trị viên để xác nhận và chỉnh sửalỗi

3.1.2.5Use Case 5: Quản trị viên xem xét phản hồi

• Mô tả: Người dùng xem danh sách các yêu cầu chỉnh sửa lỗi sai đã được gửi bởi người

khác và chọn một hoặc nhiều yêu cầu để bình chọn

• Kết quả: Hệ thống cập nhật số lượng bình chọn cho yêu cầu đó Nếu số yêu cầu đạt

ngưỡng cho phép, hệ thống sẽ gửi thông báo cho quản trị viên để xác nhận và chỉnh sửalỗi

3.1.3Nguồn dữ liệu của từ điển

Hiện nay, nguồn dữ liệu về các từ viết tắt trong lĩnh vực y học bằng tiếng Việt đang gặp phảinhiều hạn chế như thiếu hệ thống tra cứu chữ viết tắt, thiếu nguồn tổng hợp các từ viết tắt Dođó, việc làm giàu cho nguồn dữ liệu này trở thành một nhu cầu cấp thiết Các từ viết tắt sẽ đượccập nhật thường xuyên để đảm bảo rằng hệ thống từ điển luôn cập nhật và phản ánh chính xácsự phát triển của ngôn ngữ tiếng Việt trong chuyên ngành Y học

Để từ điển có nguồn dữ liệu chính thống, học viên đề xuất sử dụng các tạp chí về Y học làmnguồn dữ liệu mà hệ thống có thể khai thác Việc này không chỉ đảm bảo rằng các từ vựng viết

Định dạng
Số trang	74
Dung lượng	1,92 MB

Tiêu đề	Xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng Việt
Tác giả	Cao Nguyệt Minh
Người hướng dẫn	PGS. TS. Võ Thị Ngọc Châu
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh