Trang 1 PHONESAVAT SITTHIPHONG NGHIÊN CỨU PHÂN TÍCH VĂN BẢN TEXT ANALYSIS VÀ ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU BỆNH ÁN ĐIỆN TỬ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Trang 2 ĐẠI HỌC THÁI NGU
Trang 1PHONESAVAT SITTHIPHONG
NGHIÊN CỨU PHÂN TÍCH VĂN BẢN (TEXT ANALYSIS)
VÀ ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU BỆNH ÁN ĐIỆN TỬ
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN – 2023
Trang 2ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
PHONESAVAT SITTHIPHONG
NGHIÊN CỨU PHÂN TÍCH VĂN BẢN (TEXT ANALYSIS)
VÀ ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU BỆNH ÁN ĐIỆN TỬ
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 8480101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Hướng dẫn khoa học: TS Nguyễn Hải Minh
THÁI NGUYÊN - 2023
Trang 3LỜI CAM ĐOAN
Họ và tên học viên: Phonesavat SITTHIPHONG
Lớp cao học: CK20A Trường Đại học Công nghệ thông tin và Truyền thông- Đại học Thái Nguyên
Chuyên ngành: Khoa học máy tính
Giáo viên hướng dẫn khoa học: TS Nguyễn Hải Minh
Tên đề tài luận văn: Nghiên cứu phân tích văn bản (Text Analysis) và ứng
dụng trong phân tích dữ liệu bệnh án điện tử
Em xin cam đoan nội dung được trình bày trong bản luận văn này là kết quả tìm hiểu và nghiên cứu của riêng em trong quá trình nghiên cứu đề tài dưới sự hướng dẫn và giúp đỡ của thầy giáo TS Nguyễn Hải Minh
Em xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc
Học viên thực hiện
Phonesavat SITTHIPHONG
Trang 4LỜI CẢM ƠN
Trước hết, em xin bày tỏ lòng biết ơn tới thầy giáo hướng dẫn TS Nguyễn Hải Minh người đã hết lòng giúp đỡ, hướng dẫn và tạo điều kiện thuận lợi cho em trong suốt quá trình học tập và hoàn thiện luận văn tốt nghiệp
Em xin bày tỏ lòng biết ơn đến tất cả các thầy cô giáo đã giảng dạy và truyền thụ kiến thức quý báu cho em trong quá trình học tập tại Trường Đại học Công nghệ thông tin và Truyền thông- Đại học Thái Nguyên
Xin trân trọng cảm ơn các thầy cô trong Hội đồng chấm luận văn đã cho em những đóng góp quý báu để hoàn chỉnh luận văn
Em xin gửi lời cảm ơn chân thành đến tất cả các anh ở phòng Công nhệ Thông tin tại bệnh viện Đa khoa Trung ương – Thái Nguyên đã giúp đỡ em và cho em vào thu thập thông tin để góp phần vào đề tài luận văn của em
Em xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, các anh/chị cùng lớp cao học K20A vì đã luôn động viên, quan tâm giúp đỡ em trong quá trình học tập và thực hiện luận văn
Em xin trân trọng cảm ơn !
Học viên thực hiện
Phonesavat SITTHIPHONG
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH SÁCH BẢNG vi
DANH SÁCH HÌNH vii
DANH SÁCH CÁC TỪ VIẾT TẮT ix
MỞ ĐẦU 10
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 13
1.1.Text mining 13
1.1.1 Khai phá dữ liệu (KPDL) (Data Mining) 13
1.1.2 Khai phá dữ liệu văn bản (Text Mining) [3] 15
1.1.3 Text Analysis khác gì so với Text Mining và Text Analytics 18
1.2.Khái niệm về phân tích văn bản (Text Analysis)[4] 19
1.2.1 Phân tích là gì ? 19
1.2.2 Phân tích văn bản (Text Analysis) 19
1.2.3 Phân tích dữ liệu văn bản (Data Analysis)[5] 20
1.2.4 Tại sao phân tích văn bản lại quan trọng 20
1.2.5 Vai trò của phương pháp phân tích 21
1.2.6 Đặc điểm của phương pháp phân tích 23
1.2.7 Quy tắc của phương pháp phân tích 24
1.2.8 Những giai đoạn phân tích văn bản 24
1.3.Các kỹ thuật phân tích dữ liệu 27
1.3.1 Kỹ thuật phân tích văn bản (Text Analysis)[4] 27
1.3.2 Kỹ thuật phân tích thống kê (Statical Analysis) 30
Trang 61.3.3 Kỹ thuật phân tích chẩn đoán (Diagnostic Analysis) 31
1.3.4 Kỹ thuật phân tích dự đoán (Predictive Analysis) 33
1.3.5 Kỹ thuật phân tích đề xuất (Prescriptive Analysis) 33
1.4 Tổng kết chương 33
CHƯƠNG 2 HỆ THÔNG TIN BỆNH VIỆN (HIS), CÁC ỨNG DỤNG TRONG BỆNH VIỆN VÀ QUY TRÌNH PHẦN DỮ LIỆU BỆNH 34
2.1.Các hệ thống ứng dụng CNTT trong bệnh viện 34
2.1.1 Hệ thống thông tin bệnh viện - Hospital Information System (HIS) [10] 34
2.1.2 Hệ thống lưu trữ và truyền hình ảnh Picture Archiving and Communication System (PACS) 35
2.1.3 Hệ thống thông tin chẩn đoán hình ảnh - Radiology Information System (RIS) 36
2.1.4 Hệ thống quản lý thông tin phòng xét nghiệm - Laboratory Information System (LIS) 36
2.2 Hồ sơ bệnh án điện tử 37
2.2.1 Khái niệm của hồ sơ bệnh án điện tử [8] 37
2.3 Quy trình phân tích dữ liệu 41
2.3.1 Đặt câu hỏi 41
2.3.2 Làm sạch dữ liệu 42
2.3.3 Bỏ qua những dữ liệu vô ích 43
2.3.4 Trực quan hoá dữ liệu 43
2.3.5 Diễn giải dữ liệu 43
2.4.Tổng kết chương 44
Trang 7CHƯƠNG 3 PHÂN TÍCH DỮ LIỆU BỆNH ÁN VÀ KẾT QUẢ THỰC NGHIỆM
45
3.1.Thu thập thông tin tại BV Đa khoa Trung ương 45
3.2.Dữ liệu bệnh án điện tử tại bệnh viện Đa khoa Trung ương 46
3.2.1 Dữ liệu bệnh nhân đi khám bệnh 47
3.2.2 Dữ liệu bệnh nhân nội trú 47
3.3.Phương pháp phân tích dữ liệu bệnh án điệu tử 48
3.4.Công cụ phân tích dữ liệu phần mềm Power BI 49
3.4.1 Power BI Desktop: 50
3.4.2 Chức năng vượt trội của Power BI Desktop 50
3.4.3 Điểm mạnh của Power BI Desktop 51
3.4.4 Nguồn dữ liệu của Power BI Desktop 52
3.5.Ứng dụng phân tích dữ liệu thu thập tại bệnh viện Đa khoa Trung ương 52
3.5.1 Kết nối với nguồn dữ liệu 52
3.5.2 Cải thiện mô hình dữ liệu 53
3.5.3 Tạo trực quan hóa báo cáo 57
3.5.4 Kết quả tổng thể phân tích dữ liệu bệnh án điện tử 67
3.6.Tổng kết Chương 67
3.7.Kết luận 68
TÀI LIỆU THAM KHẢO 69
Trang 8DANH SÁCH BẢNG
Bảng 3.1: dữ liệu bệnh nhân đi khám 47 Bảng 3.2: dữ liệu bệnh nhân nội trú 48
Trang 9DANH SÁCH HÌNH
Hình 1.1 Quá trình phát hiện trí thức trong CSDL 14
Hình 1.2 Mô hình khai phá dữ liệu văn bản 15
Hình 1.3 Mô hình kỹ thuật phân tích thống kê (Statical Analysis) 31
Hình 1.4 Mô hình kỹ thuật chẩn đoán 31
Hình 1.5 Mô hình chẩn đoán bệnh trong y tế 32
Hình 2.1 Mô hình Hệ thống thông tin bệnh viện (HIS) 35
Hình 2.2 Hồ sơ đăng ký khám bệnh của BV Đa kha Trung ương 38
Hình 3.1 Phần cứng tại BN Đa khoa Trung ương 46
Hình 3.2 Bộ công cụ Data-visualization của Power BI 49
Hình 3.3 Phần mềm Power BI 49
Hình 3.4 Kết nối nguồn dữ liệu Excel 52
Hình 3.5 Lựa chọn dữ liệu 53
Hình 3.6 Hiển thị dưới dạng tả dữ liệu vòa phần mềm 53
Hình 3.7 Xem dữ liệu hoặc Model dữ liệu 54
Hình 3.8 Quản lý mối quan hệ 54
Hình 3.9 Tạo mối quan hệ khác 55
Hình 3.10 Chọn cột để tạo quan hệ 2 bảng khám bệnh và nội trú 55
Hình 3.11 Tạo ra mối quan hệ 2 bảng khám bệnh và nội trú 56
Hình 3.12 Thêm chỉ số vào bảng khám bệnh 56
Hình 3.13 Nhập công thức tính toán vào bảng khám bệnh 56
Hình 3.14 Nhập công thức tính toán vào bảng khám bệnh 57
Hình 3.15 Tạo đề bài trực quan hóa báo cáo 57
Trang 10Hình 3.16 Cài đặt kích cỡ, kiểu chữ và vị trí 57
Hình 3.17 Hiển thị đề bài báo cáo 58
Hình 3.18 Hiển thị tạo biểu đồ Slicer 58
Hình 3.19 Tạo trực quan hóa Slicer tên Tỉnh/Thành phố 58
Hình 3.20 Hiển thị tạo bàn đồ Map 59
Hình 3.21 Hiển thị tạo trực quan hóa Map tên Tỉnh/Thành phố 59
Hình 3.22 Hiển thị kết quả tạo biểu đồ Slicer và bàn đồ Map 59
Hình 3.23 Hiển thị tạo biểu đồ Cột 60
Hình 3.24 Hiển thị tạo trực quan hóa Cột 60
Hình 3.25 Hiển thị kết quả tạo biểu đồ Cột 61
Hình 3.26 Hiển thị tạo Pie Chat 61
Hình 3.27 Hiển thị tạoTrực quan hóa Chẩn đoán và Tổng số bệnh nhân 62
Hình 3.28 Hiển thị kết quả biểu đồ Pie Chat 62
Hình 3.29 Hiển thị tạo Pie Chat 63
Hình 3.30 Hiển thị tạoTrực quan hóa Giới tính và Tổng số bệnh nhân 63
Hình 3.31 Hiển thị kết quả biểu đồ Pie Chat bệnh nhân theo giới tính 64
Hình 3.32 Hiển thị tạo Pie Chat 64
Hình 3.33 Hiển thị tạo Trực quan hóa Dân tộc và Tổng số bệnh nhân 65
Hình 3.34 Hiển thị kết quả biểu đồ Pie Chat bệnh nhân theo dân tộc 65
Hình 3.35 Hiển thị tạo Pie Chat 66
Hình 3.36 Hiểnn thị tạoTrực quan hóa nghề nghiệp và Tổng số bệnh nhân 66
Hình 3.37 Hiển thị kết quả biểu đồ Bar Chart bệnh nhân theo nghề nghiệp 67
Hình 3.38 Hiển thị tổng thể phân tích dữ liệu bệnh án điện tử 67
Trang 11DANH SÁCH CÁC TỪ VIẾT TẮT
HIS Hospital Information System
CSDL Cơ sở dữ liệu
ID Identification
NLP Natural Language Processing
TF-IDF Term Frequency-Inverse Document Frequency MRI Magnetic Resonance Imaging
CT-Scan Comoyted Tomography Scan
RIS Radiology Information System
PACS Picture Archiving and Communication System LIS Laboratory information system
DICOM Digital Imaging and Communications in
Medicine KPI Key Performent Indicator
KPDL Khai phá dữ liệu
RAM Random Access Memory
SQL Structured Query Language
MongoDB Mongo Data Base
API Application Programming Interface
Power BI Power Bussiness Intelligence
DAX Data Analysis Expression
AI Artificial Intelligence
Trang 12MỞ ĐẦU
Trong thời gian học tập tại trường Công nghệ Thông tin và Truyền thông –Thái Nguyên (từ 09-2021 đến nay), em đã được các thầy cô giảng dạy và em cũng đã thu được rất nhiều kiến thức về Công nghệ Thông tin rất bổ ích Đặc biệt hơn nữa, trong thời gian làm luận văn dưới sự hướng dẫn của TS Nguyễn Hải Minh em đã được làm việc tại phòng Công nghệ Thông tin của bệnh viện Đa khoa Trung ương – Thái Nguyên Vì thế, cùng một lúc em đã làm hai việc:
1 Nghiên cứu hệ thống thông tin bệnh viện Hospital Information System (HIS)
2 Phân tích và thu thập dữ liệu và nghiên cứu giải pháp xử lý bài toán trong đề tài Xuất phát từ nhận thức là một học viên được chính phủ Lào cấp học bổng để
em có cơ hội học tập ở Việt Nam thì em cần phải học và có đủ kiến thức, kinh nghiệm
để sau khi tốt nghiệp em có thể về nước áp dụng và góp sức mình vào xây dựng đất nước Do đó, sau khi nghiên cứu và phân tích em thấy vấn đề Tin học trong Y tế là một một trong các nội dung hết sức quan trọng để hỗ trợ giúp nâng cao chất lượng chăm sóc sức khoẻ cho người dân và là một nội dung rất quan trọng trong việc chuyển đổi số Em đã quyết định chọn Tin học trong Y tế là hướng đi cho mình
Để giúp, người đọc có thể nắm được thực trạng hệ thống chăm sóc sức khoẻ tại Lào, em xin trình bày vắn tắt một số nội dung sau:
- Mỗi bệnh nhân khi đi khám bệnh, nằm viện điều trị thường thì đều có một cuốn sổ ghi chép và lưu trữ dữ liệu, thông tin về quá trình khám chữa bệnh bằng văn bản viết tay hay đánh máy Hình ảnh siêu âm, X-quang đơn thuốc gọi chung là bệnh án được ghi chép trên giấy, lưu giữ trong sổ và cất trong kho
- Trong quá trình khám bệnh người bệnh phải đi lại nhiều lần, mỗi lần khám chữa bệnh là một lần xét nghiệm khác nhau, bác sĩ có thể là một người hoặc mỗi lần khám là một người khác
- Chưa có sự lưu trữ và liên thông dữ liệu giữ các cơ sở khám chưa bệnh nên
Trang 13các xét nghiệm, khám chữa bệnh phải làm đi làm lại nhiều lần; mỗi bệnh viện là một lần khám, một lần xét nghiệm, chiếu, chụp lại và các bệnh viện
có thể không chấp nhận kết quả xét nghiệm, phim, chụp của bệnh viện khác gây mất rất nhiều thời gian, tiêu tốn tiền bạc của người bệnh
- Ứng dụng tin học trong Y tế của Lào vẫn còn ở mức thấp so với mặt bằng chung trong khu vực ASIAN và trên thế giới Một số cơ sở khám chữa bệnh, nếu có ứng dụng tin học chỉ mang tính tự phát, manh mún, chưa có tính hệ thống, tính đồng bộ, đặc biệt là trong khối đơn vị bệnh viện
- Số lượng các đơn vị bệnh viện ứng dụng tin học thành công trong công tác quản lý và khám chữa bệnh là rất ít, thường chỉ tập trung ở một số bệnh viện lớn hoặc bệnh viện tư nhân
Bên cạnh đó, do sự phát triển thiếu đồng bộ và thiếu sự quan tâm đến các tiêu chuẩn, nên hệ thống phần mềm của các bệnh viện vẫn chưa thể kết nối và chia sẻ dữ liệu/thông tin được với nhau
Trong thời gian học và làm việc tại Bệnh viện Đa khoa Trung ương – Thái Nguyên em thấy ứng dụng công nghệ thông tin và phần mềm quản lý tổng thể bệnh viện, thông tin bệnh nhân xuyên suốt từ khi vào viện đến thanh toán ra viện Do vậy,
em thấy được sự quan trọng và cần thiết trong sự phát triển công nghệ thông tin trong lĩnh vực Y tế để góp phần vào trong sư phát triển Y tế của đất nước Lào trong tương
lai Sau khi em được hoàn thành việc học tập tại Việt Nam và thực hiện đề tài “Nghiên
cứu phân tích văn bản (Text Analysis) và Ứng dụng trong phân tích dữ liệu bệnh
án điện tử” đã giúp em nắm được Quy trình khám chữa bệnh, nguyên tắc lưu trữ, xử
lý thông tin người bệnh, nắm được công nghệ phát triển hệ thống thông tin và hơn nữa đã giúp em nắm được các kỹ thuật nâng cao để khai thác dữ liệu và hỗ trợ các bác sỹ dễ dàng hơn trong việc chẩn đoán và điều trị
Mục tiêu cần đạt được
➢ Mô tả và phân tích được các đặc điểm và ý nghĩa của hồ sơ bệnh án và hồ
sơ bệnh án điện tử tại bệnh viện Đa khoa Trung ương – Thái Nguyên
Trang 14➢ Nghiên cứu thực trạng phân tích văn bản (Text Analysis) và Ứng dụng
trong phân tích dữ liệu bệnh án điện tử
- Phân tích dữ liệu bệnh án điện tử của bệnh nhân theo tỉnh/thành phố
- Phân tích dữ liệu bệnh án điện tử của bệnh nhân theo tình trạng và kết quả khám và điều trị
- Phân tích dữ liệu bệnh án điện tử của bệnh nhân theo chẩn đoán
- Phân tích dữ liệu bệnh án điện tử của bệnh nhân theo giới tính
- Phân tích dữ liệu bệnh án điện tử của bệnh nhân theo đân tộc
- Phân tích dữ liệu bệnh án điện tử của bệnh nhân theo nghề nghiệp
Cấu trúc của luận văn bao gồm 3 chương:
Chương 1: Chương này sẽ trình bày về lý thuyết cơ bản về khai phá dữ
liệu, khai phá dữ liệu văn bản, khái niệm phân tích văn bản, phân tích dữ liệu văn bản, sự quan trong phân tích văn bản và một số kỹ thuật phân tích dữ liệu cơ bản
Chương 2: Chương này sẽ trình bày về các hệ thống thông tin bệnh
viện (HIS), các ứng dụng công nghệ thông trong bệnh viện, khái niệm của
hồ sơ bệnh án điện tử, các phương pháp và quy trình phân tích dữ liệu
Trinh bày mô hình phân tích dữ liệu bệnh án Áp dụng một số công
cụ và kỹ thuật phân tích văn bản để thực hiện trên dữ liệu đã thu thập được
và ứng dụng phân tích dữ liệu trong thực tế
Chương 3: Chương này đã trình bày về các dữ liệu và cấu trúc bệnh
án điện tử, các công cụ phân tích dữ liệu, ứng dựng phân tích dữ liệu thông qua việc áp dụng một số phương pháp/kỹ thuật trực quan hóa dữ liệu Đặc biệt, chương này trình đã xây dựng trình bày mô hình tổng thể phân tích dữ liệu bệnh án điện tử áp dụng phần mềm hỗ trợ trực quan Power BI và các kết quả thực nghiệm phân tích dữ liệu bệnh án điện tử
Trang 15CHƯƠNG 1
CƠ SỞ LÝ THUYẾT 1.1 Text mining
1.1.1 Khai phá dữ liệu (KPDL) (Data Mining)
KPDL thu hút sự chú ý của nền công nghiệp thông tin và xã hội trong những năm gần đây Với sự phát triển của công nghệ thông tin, dữ liệu lưu trữ mỗi ngày trở thành một cơ sở dữ liệu rất lớn Dựa vào khối lượng dữ liệu này, ta dùng những kỹ thuật KPDL để chuyển dữ liệu đó thành những thông tin có ích hoặc rút ra những tri thức mới từ dữ liệu thu thập được [1].Giáo sư Tom Mitchell định nghĩa khai phá dữ liệu như sau: “khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai” [2]
khai phá dữ liệu có thể được sử dụng cho các lĩnh vực y tế, phân tích thị trường, xây dựng, có thể được xem như là kết quả của sự tiến triển tự nhiên của công nghệ thông tin khai phá dữ liệu trong lĩnh vực y tế sẽ tạo ra các hệ chẩn đoán bệnh hỗ trợ bác sĩ trong vấn đề chẩn đoán bệnh cho bệnh nhân
khai phá dữ liệu là giai đoạn chủ yếu của quá trình Phát hiện tri thức từ cơ sở
dữ liệu Quá trình khai phá tri thức được thực hiện sau các quá trình thu thập và tinh lọc dữ liệu, có nghĩa là chỉ tìm các mẫu tri thức (pattern) có ý nghĩa trên tập dữ liệu
có hy vọng chứ không phải là trên toàn bộ CSDL như các phương pháp thống kê trước đây
Vì vậy khai phá dữ liệu bao gồm việc thử tìm mô hình phù hợp với dữ liệu và tìm kiếm các mẫu hình tri thức từ dữ liệu theo mô hình đó Mặc dù mẫu hình có thể tìm được từ bất kì một CSDL nào nhưng chỉ những mẫu phù hợp với mục đích tìm kiếm mới được gọi là tri thức Ta sẽ có những hàm số để đánh giá các tiêu chí mẫu như mới, có lợi, đáng được xem xét
Độ mới của mẫu hình phụ thuộc vào khung phạm vi quy chiếu, có thể đối với hệ thống hoặc đối với người dùng Ví dụ với dữ liệu của một công ty, quá trình khai phá
dữ liệu tìm ra được một luật như Lợi tức thu được giảm vào mùa thu ở vùng phía Bắc,
Trang 16đối với hệ thống thì rất mới, trước kia chưa hề có nhưng bất cứ một cán bộ lập kế hoạch nào cũng nhận ra được điều này qua các báo cáo tài chính
Tính hữu dụng của mẫu có thể đo được qua sự liên quan đến mục đích tìm kiếm Với một cán bộ phụ trách bảo trì máy tính ở công ty thì luật trên không có giá trị, mặc
dù là mới đối với anh ta
Có thể qua công đoạn khai phá tri thức có rất nhiều mẫu được lấy ra nhưng không phải mẫu nào cũng có giá trị, có thể là mới, hữu ích nhưng lại tầm thường, đặc biệt là khi áp dụng các kỹ thuật dựa trên thống kê Do đó luôn phải có các tiêu chí và các hàm đánh các mẫu đáng xem xét, không tầm thường
Hình 1.1 Quá trình phát hiện trí thức trong CSDL Tóm lại, khai phá dữ liệu thực ra có thể coi là một quá trình xác định mẫu từ các Datawarehouse, sử dụng các kỹ thuật sẵn có như học máy, nhận dạng, thống kê, phân loại và các kỹ thuật được phát triển bởi ngành nghiên cứu trí tuệ nhân tạo như Mạng nơ-ron nhân tạo (neutral network), các thuật toán di truyền (generic algorithm), quy nạp luật rule reduction
Ta có thể xét đến một số bài toán chính đối với nghiên cứu về khai phá dữ liệu
• Bài toán phân lớp (classification): Tìm một ánh xạ (phân loại) từ một mẫu
dữ liệu vào một trong các lớp cho trước
• Bài toán hồi quy (regression): Tìm một ánh xạ hồi quy từ một mẫu dữ liệu vào một biến dự đoán có giá trị thực
Dữ liệu Dữ liệu
đích
Dữ liệu đã làm sạch ,tiến xử lý
Dữ liệu đã chuyển đổi
Mô hình
Trí thức
Trích lọc dữ liệu
QUÁ TRÌNH KHAI PHÁ PHÂN TÍCH DỮ LỆU
Trang 17• Bài toán lập nhóm ( clustering): Là việc mô tả chung để tìm ra các tập xác định hữu hạn các nhóm hay các loại để mô tả dữ liệu
• Bài toán tổng kết (summarization): Là việc đi tìm kiếm một mô tả chung tóm tắt cho một tập con dữ liệu
1.1.2 Khai phá dữ liệu văn bản (Text Mining) [3]
khai phá dữ liệu văn bản hay phát hiện tri thức từ các cơ sở dữ liệu văn bản (textual databases) đề cập đến tiến trình trích lọc các mẫu hình thông tin (pattern) hay tri thức (knowledge) đáng quan tâm hoặc có giá trị (non-trivial) từ các tài liệu văn bản phi cấu trúc Quá trình này có thể được coi là việc mở rộng kỹ thuật khai phá dữ liệu truyền thống, vì như chúng ta đã thấy (đã được đề cập ở trên) kỹ thuật khai phá dữ liệu truyền thống (DataMining) hướng tới việc phát hiện tri thức từ các cơ sở dữ liệu có cấu trúc
Thông tin được lưu trữ dưới dạng nguyên sơ nhất chính là văn bản Thậm chí
ta có thể thấy rằng dữ liệu tồn tại dưới dạng văn bản còn có khối lượng lớn hơn rất nhiều so với các dữ liệu có cấu trúc khác Thực tế, những nghiên cứu gần đây đã cho thấy rằng có đến 80% thông tin của một tổ chức nằm dưới dạng văn bản Đó có thể
là các công văn giấy tờ, các biểu mẫu điều tra, các phiếu đặt hàng, các yêu cầu khiếu nại, giải quyết quyền lợi, các thư tín điện tử (email), các thông tin trên các website thương mại Khi các nghiên cứu về cơ sở dữ liệu ra đời vào những năm 60, người ta tưởng rằng có thể lưu mọi loại thông tin dưới dạng dữ liệu có cấu trúc Nhưng trên thực tế sau gần 50 năm phát triển, người ta vẫn dùng các hệ thống lưu trữ ở dạng văn bản và thậm trí còn có xu hướng dùng thường xuyên hơn
Hình 1.2 Mô hình khai phá dữ liệu văn bản
QUY TRÌNH KHAI PHÁ và PHÂN TÍCH DỮ LIỆU VĂN BẢN
3
Sử dụng các mô hình phân tích để xác định các khái niệm Các mẫu và các thuộc tính khác
5
Chuẩn bị trực quan hóa dữ liệu và bảng điều khiển để chia sẻ kết quả
4
Áp dụng các phát hiện của họ cho các ứng dụng như phân tích tình
cảm
Trang 18Một ví dụ cho bài toán khai phá dữ liệu văn bản, khi phân tích các bài báo nghiên cứu khoa học, ta có các thông tin sau:
- “stress là một bệnh liên quan đến đau đầu”
- “stress xuất hiện có thể do thiếu Magê trong máu”
- “Canxi có thể ngăn cản một số chứng đau đầu”
- “Magê là một nguyên tố điều hoà canxi tự nhiên trong máu”
Sau khi phân tích các thông tin quan trọng này, hệ thống cần phải đưa ra các suy luân cụ thể mang tính cách mạng:
- “Thiếu hụt Magê có thể gây ra một số bệnh đau đầu”
Rõ ràng ở đây có sự phân tích suy luận ở mức độ cao Để đạt được khà năng như vậy cần phải có những công trình nghiên cứu về trí tuệ nhân tạo tiên tiến hơn
Bài toán khai phá dữ liệu văn bản là một bài toán nghiên cứu đa lĩnh vực, bao gồm rất nhiều kỹ thuật cũng như các hướng nghiên cứu khác nhau: thu thập thông tin (information retrieval), phân tích văn bản (text analysis), chiết xuất thông tin (information extraction), lập đòan (clustering), phân loại văn bản (categorization), hiển thị trực quan (visualization), công nghệ cơ sở dữ liệu, học máy (machine learning) và bản thân các kỹ thuật khai phá dữ liệu[3]
Với một hệ thống khai phá văn bản thường bao gồm ba bước chính:
• Bước tiền xử lý: Ở bước này, hệ thống sẽ chuyển văn bản từ dạng phi cấu trúc
về dạng có cấu trúc Ví dụ, với văn bản Tổ chức này to lắm, hệ thống sẽ cố gắng phân tích thành Tổ chức này to lắm Các từ được lưu riêng rẽ một cách có cấu trúc để tiện cho việc xử lý
• Loại bỏ các thông tin không cần thiết Ở bước này, bộ phân tích tìm cách loại
bỏ các thông tin vô ích từ văn bản Bước này phụ thuộc rất nhiều vào ngôn ngữ đang được phân tích và kỹ thuật sẽ được dùng để phân tích ỏ bước tiếp theo Ví dụ, nếu kỹ thuật phân tích văn bản chỉ dựa vào xác xuất xuất hiện từ khoá, khi đó ta có thể loại
bỏ các từ phụ như: nếu, thì, thế nhưng, như vậy…
Trang 19• Khai phá dữ liệu đã được giản lược với các kỹ thuật khai phá dữ liệu (data mining) truyền thống
Có rất nhiều kỹ thuật và phương pháp tốt được sử dụng cho Text Mining để tìm ra các kiến trúc mới, các mẫu mới, và các liên kết mới Các bước tiền xử lý là các
kỹ thuật rất phức tạp nhằm phân tích một phân lớp đặc biệt thành các thuộc tính đặc biệt, sau đó tiến hành áp dụng các phương pháp khai phá dữ liệu kinh điển tức là phân tích thống kê và phân tích các liên kết Các bước còn lại sẽ khai phá cả văn bản đầy
đủ từ tập các văn bản, ví dụ như phân lớp văn bản
Mục tiêu cuối cùng của Text Mining thường là đường lối hiệu quả, hoàn thiện,
và đặc trưng để trình diễn và tìm kiếm các tập hợp rộng lớn của các văn bản Do đó, các kỹ thuật chính của Text Mining có thể được phân phân ra thành các nhiệm vụ mà chúng thực hiện khi xử lý khai phá văn bản: loại thông tin mà chúng có thể trích ra
và loại phân tích được thực hiện bởi chúng
Các loại thông tin được trích ra có thể là:
• Các nhãn: Giả sử, được liên kết với mỗi văn bản là tập các nhãn các thao tác khai phá tri thức được thực hiện trên các nhãn của mỗi văn bản Nói chung, có thể giả sử rằng các nhãn tương ứng với các từ khoá, mỗi một từ khoá có quan hệ với một chủ đề cụ thể nào đó
• Các từ: Ở đây giả sử rằng một văn bản được gán nhãn với từng từ xuất hiện trong văn bản đó
• Các thuật ngữ: Ở đây với mỗi văn bản tìm thấy các chuỗi từ, chuỗi từ đó thuộc về một lĩnh vực nào đó và do đó việc tìm khai phá văn bản được thực hiện trên các khai niệm được gán nhãn cho mỗi văn bản Ưu điểm của phương pháp này
là các thuật ngữ được tách ra ít và có xu hướng tập trung vào các thông tin quan trọng của văn bản hơn hai phương pháp trước đây
Các loại kết hợp:
• Kết hợp thông thường: Một số thuật toán trước đây giả sử rằng dữ liệu nguyên mẫu được tạo lập chú dân để trợ giúp cho các kỹ thuật xử lý ngôn ngữ tự nhiên Các
Trang 20cấu trúc có chú dẫn trên thực tế có thể được sử dụng như một cơ sở cho việc xử lý khai phá tri thức
• Các phân cấp thuật ngữ: Ở đây mỗi văn bản được đính với các thuật ngữ lấy
ra từ một phân cấp các thuật ngữ Sau đó, một hệ thống sẽ phân tích sự phân bố nội dung của các thuật ngữ hậu duệ của từng thuật ngữ liện quan đến các hậu duệ khác
do các phân bố liên kết và các phép đo khác nhằm khai thác các quan hệ mới giữa chúng Loại liên kết này có thể cũng được sử dụng để lọc và tổng hợp chủ đề của các tin tức
• Khai phá văn bản đầy đủ: Không giống như loại liên kết thông thường thực hiện thao tác mù quáng trên các chú dẫn của văn bản, kỹ thuật này sử dụng lợi thế của nội dụng nguyên mẫu của các văn bản Kỹ thuật này được gọi là “trích văn bản nguyên mẫu”
1.1.3 Text Analysis khác gì so với Text Mining và Text Analytics
Đầu tiên, hãy bỏ đi lầm tưởng rằng khai thác văn bản và phân tích văn bản là hai quá trình khác nhau Các thuật ngữ thường được sử dụng thay thế cho nhau để giải thích cùng một quá trình thu thập dữ liệu thông qua học mẫu thống kê Để tránh bất kỳ sự nhầm lẫn nào ở đây, chúng ta hãy đi vào phân tích văn bản
Text analysis mang lại kết quả định tính và text analytics trả ra kết quả định lượng Đối với text analysis, máy sẽ xác định thông tin quan trọng trong chính văn bản, nhưng với text analytics, nó sẽ hiển thị các mẫu trên hàng nghìn văn bản, dẫn đến biểu đồ, báo cáo, bảng, v.v
Giả sử muốn biết có bao nhiêu yêu cầu hỗ trợ đã được nhóm chăm sóc khách hàng giải quyết, text analytics sẽ được sử dụng để tạo biểu đồ trực quan hóa tỷ lệ giải quyết nhiệm vụ của từng cá nhân
Tuy nhiên, nếu muốn biết cụ thể hơn kết quả tích cực hay tiêu cực và đánh giá
sự hài lòng của khách hàng thì text analysis lại là công cụ phù hợp hơn cả
Về cơ bản, thách thức trong text analysis là hiểu ngôn ngữ con người, trong khi text analytics tìm cách phát hiện ra các mẫu và xu hướng từ các kết quả định lượng
Trang 211.2 Khái niệm về phân tích văn bản (Text Analysis)[4]
1.2.1 Phân tích là gì ?
Phân tích là một phương pháp nghiên cứu, là việc phân chia cái chung, cái toàn
bộ thành các phần, các bộ phận khác nhau từ đó xem xét cụ thể theo từng bộ phận để chỉ ra mối quan hệ cấu thành, quan hệ nhân quả và để hiểu từng chi tiết, từng khía cạnh nhỏ, hiểu được vấn đề từ ngoài vào trong, từ trong ra ngoài từ đó đưa ra những đánh giá, nhận xét nhằm làm rõ vấn đề nghiên cứu
Vì lý do tương tự, điều cần thiết là Để thực hiện một phương pháp phân tích, cần phải biết bản chất của hiện tượng và của đối tượng được nghiên cứu để hiểu bản chất của nó và thực hiện một cuộc điều tra thích hợp Phương pháp này giúp chúng
ta biết thêm về đối tượng nghiên cứu và các đặc điểm của đối tượng nghiên cứu để
có thể: giải thích, đưa ra phép loại suy, hiểu rõ hơn về hành vi của đối tượng nghiên cứu và thiết lập các lý thuyết mới
Phân tích hình thành từ những gì cụ thể đến trừu tượng, vì với công cụ trừu tượng, các phần của tổng thể có thể được tách rời cũng như các mối quan hệ cơ bản của chúng được quan tâm để nghiên cứu chuyên sâu Sau đó, phương pháp phân tích mang trong mình một số đặc điểm, quy tắc cần tuân theo và các bước để có thể thực hiện thành công phương pháp luận[3]
1.2.2 Phân tích văn bản (Text Analysis)
Phân tích văn bản (TA) còn được gọi là khai thác văn bản là một kỹ thuật học máy được sử dụng để tự động trích xuất thông tin chi tiết có giá trị từ dữ liệu văn bản phi cấu trúc Hoạt động bằng cách lấy các bộ dữ liệu văn bản lớn và sắp xếp chúng nhằm dễ quản lý hơn Phương pháp này giúp bạn trích xuất dữ liệu thực sự liên quan đến tổ chức của mình và sử dụng dữ liệu đó nhằm phát triển những thông tin hữu ích phục vụ việc ra quyết định Ví dụ: việc phân tích dữ liệu từ nhiều nguồn văn bản khác nhau như bài viết đánh giá sản phẩm trên mạng xã hội hoặc phản hồi khảo sát giúp hiểu sâu sắc hơn về đối tượng mục tiêu, từ đó cho phép xây dựng các chiến dịch, dịch vụ đáp ứng nhu cầu của khách hàng tiềm năng[4]
Trang 22Nhờ sự kết hợp của học máy và các thuật toán thông minh, Phân tích văn bản
có thể trích xuất thông tin cụ thể, như từ khóa, tên hoặc thông tin công ty từ hàng nghìn email hoặc phân loại các câu trả lời khảo sát theo ý định, cảm xúc và chủ đề
1.2.3 Phân tích dữ liệu văn bản (Data Analysis)[5]
Phân tích dữ liệu văn bản (DA) là dữ liệu mang tính định lượng mà bạn có thể thu được bằng cách phân tích các khuôn mẫu trong nhiều mẫu văn bản Dữ liệu được hiển thị ở dạng biểu đồ, bảng hoặc đồ thị
❖ Phân tích văn bản so với phân tích dữ liệu văn bản
Phân tích dữ liệu văn bản giúp bạn xác định xem liệu có một xu hướng hay mẫu cụ thể từ kết quả của quá trình phân tích hàng nghìn phản hồi hay không Trong khi đó, bạn có thể sử dụng phân tích văn bản để xác định xem khách hàng phản hồi tích cực hay tiêu cực
1.2.4 Tại sao phân tích văn bản lại quan trọng
Các doanh nghiệp sử dụng phân tích văn bản để trích xuất thông tin chuyên sâu hữu ích từ nhiều nguồn dữ liệu phi cấu trúc Những doanh nghiệp này dựa trên phản hồi từ các nguồn như email, mạng xã hội và câu trả lời khảo sát khách hàng để
hỗ trợ việc đưa ra quyết định Tuy nhiên, một số lượng đồ sộ văn bản từ những nguồn như vậy rõ ràng sẽ gây quá tải nếu không có phần mềm phân tích dữ liệu văn bản
Với phân tích văn bản, bạn có thể nhận thông tin chính xác từ nhiều nguồn nhanh chóng hơn Quá trình này hoàn toàn tự động và nhất quán, đồng thời hiển thị
dữ liệu mà bạn có thể thao tác Ví dụ: phần mềm phân tích văn bản cho phép bạn phát hiện ngay lập tức quan điểm tiêu cực từ các bài đăng trên mạng xã hội, từ đó bạn có thể bắt tay vào giải quyết vấn đề
❖ Phân tích quan điểm
Phân tích quan điểm hay khai thác ý kiến sử dụng các phương pháp phân tích văn bản để hiểu được ý kiến truyền tải trong một đoạn văn bản Bạn có thể sử dụng nội dung phân tích quan điểm từ các đánh giá, blog, diễn đàn và những phương tiện truyền thông trực tuyến khác để xác định xem khách hàng có hài lòng với giao dịch
Trang 23mua hay không Phân tích quan điểm giúp phát hiện các xu hướng mới, theo dõi sự thay đổi quan điểm và giải quyết vấn đề PR Bằng cách sử dụng phân tích quan điểm và xác định những từ khóa cụ thể, bạn có thể theo dõi sự thay đổi ý kiến của
khách hàng và xác định nguyên nhân gốc rễ của vấn đề
❖ Quản lý hồ sơ
Phân tích văn bản sẽ giúp bạn quản lý, phân loại và tìm kiếm tài liệu hiệu quả Quá trình này bao gồm việc tự động hóa hoạt động quản lý hồ sơ bệnh nhân, theo dõi những nội dung đề cập đến thương hiệu và phát hiện gian lận bảo hiểm Ví dụ: LexisNexis Legal & Professional sử dụng tính năng trích xuất văn bản để xác định các hồ sơ cụ thể trong số 200 triệu tài liệu
❖ Cá nhân hóa trải nghiệm của khách hàng
Bạn có thể sử dụng phần mềm phân tích văn bản để xử lý email, đánh giá, cuộc trò chuyện và các loại nội dung trao đổi dựa trên văn bản khác Với thông tin chuyên sâu về sở thích, thói quen mua hàng và nhận thức chung về thương hiệu của khách hàng, bạn có thể điều chỉnh trải nghiệm cá nhân hóa cho các phân khúc khách hàng khác nhau
1.2.5 Vai trò của phương pháp phân tích
Phân tích giúp xác định được nhiệm vụ, quyền hạn, trách nhiệm của người được giao giải quyết một vấn đề nào đó Đảm bảo việc bình đẳng trong phân công công việc giải quyết khi xét đến tất cả các yếu tố và sẽ đạt được được hiệu quả cao nhất trong giải quyết vấn đề đó
Ví dụ như khi ta phân tích công việc cung cấp các thông tin về những yêu cầu, đặc điểm của công việc, như các hành động nào cần được tiến hành thực hiện, thực hiện như thế nào và tại sao; các loại máy máy móc trang bị, dụng cụ nào cần thiết khi thực hiện công việc, các mối quan hệ với cấp trên và với đồng nghiệp trong thực hiện công việc Không biết phân tích công việc, nhà quản trị sẽ không thể tạo ra sự phối hợp đồng bộ giữa các bộ phận cơ cấu trong doanh nghiệp; không thể đánh giá được chính xác yêu cầu của các công việc đó, do đó, không thể trả lương, kích thích
Trang 24họ kịp thời, chính xác Doanh nghiệp mới được thành lập và chương trình phân tích được thực hiện đầu tiên
Phân tích giúp định hướng cho quá trình phát triển công việc của mỗi người, xác định được nhu cầu công việc cần thực hiện, các vấn đề cần phải có tạo nên một lịch trình thực hiện một cách phù hợp nhất sẽ giúp rút ngắn quá trình thực hiện công việc và trở nên thành công hơn Ví dụ như quá trình tuyển dụng nhà tuyển dụng xác định được các yêu cầu với ứng viên thì trong việc lựa chọn và bố trí nhân viên sẽ được thực hiện nhanh chóng và hiệu quả
Phân tích giúp tránh và đối phó kịp thời được các rủi ro sẽ gặp phải trong quá trình thực hiện một vấn đề đó Khi phân tích thì chúng ta có thể xác định được những rủi ro có thể xảy ra trong quá trình thực hiện từ đó có thể dự phòng các phương án giải quyết vấn đề từ đó mọi khó khăn trở ngại chúng ta cũng có thể vượt qua nó một cách dễ dàng
Phân tích giúp cho việc đánh giá chất lượng thực hiện công việc và có cơ sở
để làm nên một kế hoạch thực hiện mới và phân chia công việc thực hiện phù hợp hơn Qua phân tích có thể chỉ ra các yếu tố dẫn đến thành công hay thất bại trong thực hiện công việc, các yếu tố có thể sửa đổi để thành công hơn từ đó có thể xây dựng một quy trình mới đảm bảo đạt hiệu quả cao hơn
Phân tích giúp cho việc xây dựng các mối quan hệ tốt hơn Từ phân tích giúp chúng ta hiểu được tính cách, cách làm việc và giao tiếp của một người nào đó từ đó chúng ta có thể dễ dàng nói chuyện với các chủ đề liên quan đến họ và xây dựng các mối quan hệ giúp đỡ, hợp tác trong công việc cũng như cuộc sống
Phân tích giúp mỗi con người phát triển bản thân mình một cách tốt hơn Quan phân tích chúng ta có thể thấy các điểm tốt và điểm yếu của bản thân, từ đó biết phát huy và sửa đổi đúng thời điểm để bản thân luôn thành công trong công việc và cả cuộc sống với các mối quan hệ
Phân tích giúp chúng ta giảm bớt được lượng thời gian trong thực hiện công việc Khi phân tích chúng ta sẽ xây dựng được một hệ thống sắp xếp và đánh giá công
Trang 25việc để xác định được mức thù lao và nhiệm vụ một cách nhanh chóng giảm bớt thời gian và nhân lực
1.2.6 Đặc điểm của phương pháp phân tích
Kỹ năng phân tích bao gồm khả năng hình dung, tư duy phản biện, khả năng thu thập và xử lý thông tin Cụ thể mỗi chúng ta cần phải thực hiện các công việc sau
để có thể phát triển kỹ năng phân tích:
Nhận biết và xác định vấn đề cần phân tích: phải nhận diện được đúng vấn đề
thì quá trình phân tích mới đạt được hiệu quả mong muốn
Nghiên cứu và thu thập dữ liệu liên quan đến vấn đề: bạn cần phải phân biệt những vấn đề liên quan đến vấn đề cần phân tích chia nhỏ ra thành các vấn đề nhỏ,
chi tiết cần phải giải quyết và loại bỏ những vấn đề gây nhiễu
Phân tích các dữ liệu đã nghiên cứu ở trên: phân tích các dữ liệu nào có liên quan với nhau và mức độ quan trọng của các dữ liệu, dữ liệu nào cần thực hiện trước
sẽ được ưu tiên sắp xếp vào vị trí khác nhau Tính toán như phân tích chi phí, lập ngân sách và thực hiện các bài tính chung.Sau đó đề ra các phương án xử lý, giải
quyết các dữ liệu theo một quy trình thực hiện
Giải quyết các dữ liệu phân tích theo trình tự sắp xếp: đề ra phương án giải quyết đem lại hiệu quả cao nhất
Các kỹ năng trong quá trình phân tích:
❖ Giao tiếp: bạn cần phải có khả năng truyền đạt một cách hiệu quả các vấn đề mình phân tích để việc hiểu và thực hiện theo đúng quy trình
❖ Khả năng sáng tạo: cần có khả năng sáng tạo trong việc phân tích các vấn đề thì vấn đề mới được dễ hiểu
❖ Khả năng hình dung: hình dung là khả năng dự đoán kết quả có thể có của các chiến lược và hành động Quá trình hình dung liên quan đến phân tích dữ liệu nó giúp cho việc phân tích dữ liệu một cách logic và khoa học phù hợp với thực tế hơn
Trang 26❖ Khả năng tư duy phản biện: giúp có sự nhất quán trong quá trình phân tích đánh giá thông tin, tìm kiếm những gì hữu ích và rút ra kết luận mà không bị chi phối bởi cảm xúc từ đó nhận định và tìm ra sơ hở trong các giải pháp được đề xuất
1.2.7 Quy tắc của phương pháp phân tích
Trước khi tiến hành kiểm tra và giải quyết một câu hỏi, cần phải nhận ra bản chất của nó Trong cùng một đối tượng, bạn có thể kiểm tra và cố gắng khám phá các yếu
tố khác nhau như bản chất của nó, hoặc các thuộc tính và thuộc tính của nó, hoặc các mối quan hệ đặc biệt của nó với các sinh vật khác
Thật tiện lợi phân hủy sự kiện hoặc đối tượng có tính đến việc kiểm tra tỉ mỉ các
bộ phận, yếu tố hoặc nguyên tắc của nó sẽ được thực hiện Sự phân hủy này có thể là thực và vật lý, hoặc hợp lý và lý tưởng, tùy thuộc vào đối tượng được đề cập Cũng cần lưu ý rằng sự phân hủy này được xác minh bằng cách giữ nguyên các quy tắc của phép chia, để tránh nhầm lẫn
Khi kiểm tra các yếu tố hoặc các bộ phận của một đối tượng, Nó phải được thực hiện theo cách mà chúng không mất đi mối quan hệ của chúng với nhau và có sự liên kết giữa mọi thứ để có một sự kết hợp Nếu một cá nhân xem xét các bộ phận của một đối tượng một cách riêng lẻ, mà không tính đến hoặc xem xét các mối quan hệ với nhau và với tổng thể, chắc chắn sẽ có khả năng cao là những ý tưởng không chính xác và sai lầm về đối tượng đó sẽ được hình thành[4]
1.2.8 Những giai đoạn phân tích văn bản
Để triển khai phân tích văn bản, bạn cần tuân thủ quá trình có hệ thống bao gồm 4 giai đoạn
Giai đoạn 1 - Thu thập dữ liệu
Trong giai đoạn này, bạn sẽ thu thập dữ liệu văn bản từ các nguồn nội bộ hoặc bên ngoài
❖ Dữ liệu nội bộ
Dữ liệu nội bộ là nội dung văn bản nội bộ có sẵn trong doanh nghiệp bạn, ví
Trang 27dụ như email, cuộc trò chuyện, hóa đơn và bảng khảo sát nhân viên
❖ Dữ liệu bên ngoài
Bạn có thể tìm dữ liệu bên ngoài từ những nguồn như các bài đăng trên mạng
xã hội, đánh giá trực tuyến, bài viết tin tức và diễn đàn trực tuyến Việc thu thập dữ liệu bên ngoài sẽ khó hơn vì điều này vượt quá tầm kiểm soát của bạn Bạn có thể sẽ cần sử dụng các công cụ thu thập dữ liệu từ trang web hoặc tích hợp với các giải pháp bên thứ ba để trích xuất dữ liệu bên ngoài
Giai đoạn 2 - Chuẩn bị dữ liệu
Quá trình chuẩn bị dữ liệu là một phần quan trọng của hoạt động phân tích văn bản Quá trình này bao gồm việc tạo cấu trúc cho dữ liệu văn bản thô ở một định dạng được chấp nhận cho quá trình phân tích Phần mềm phân tích văn bản tự động hóa quá trình và bao gồm các phương pháp xử lý ngôn ngữ tự nhiên (NLP) phổ biến sau[3]
❖ Token hóa
Token hóa là quá trình phân tách văn bản thô thành nhiều phần hợp lý về mặt ngữ nghĩa Ví dụ: cụm từ text analytics benefits businesses (phân tích văn bản mang lại lợi ích cho doanh nghiệp) được token hóa thành các từ text, analytics, benefits, và businesses
❖ Gán nhãn từ loại
Quá trình gán nhãn từ loại sẽ gán các nhãn ngữ pháp cho văn bản token hóa
Ví dụ: việc ứng dụng bước này vào các token được đề cập ở trên sẽ tạo ra như sau:
text: Danh từ; analytics: Danh từ; benefits: Động từ; businesses: Danh từ
❖ Phân tích
Quá trình phân tích sẽ thiết lập mối liên kết có ý nghĩa giữa các từ được token hóa với ngữ pháp tiếng Anh Quá trình này hỗ trợ phần mềm phân tích văn bản hiển thị trực quan mối quan hệ giữa các từ
Trang 28này khỏi văn bản có cấu trúc dựa trên trường hợp sử dụng
Giai đoạn 3 - Phân tích văn bản
Phân tích văn bản là phần cốt lõi của quá trình, trong đó phần mềm phân tích văn bản sẽ xử lý văn bản bằng cách sử dụng các phương pháp khác nhau
❖ Phân loại văn bản
Phân loại là quá trình gán nhãn dữ liệu văn bản dựa trên các quy tắc hoặc các
hệ thống dựa trên máy học
❖ Trích xuất văn bản
Quá trình trích xuất bao gồm việc xác định sự hiện diện của các từ khóa cụ thể trong văn bản và liên kết những từ này với các nhãn Phần mềm sử dụng các phương pháp như biểu thức chính quy và trường ngẫu nhiên có điều kiện (CRF) để thực hiện quá trình này
Giai đoạn 4 - Hiển thị trực quan
Quá trình hiển thị trực quan liên quan đến việc biến kết quả phân tích văn bản thành một định dạng dễ hiểu Bạn sẽ thấy kết quả phân tích dữ liệu văn bản ở dạng
đồ thị, biểu đồ và bảng Kết quả được hiển thị trực quan sẽ giúp bạn xác định các mẫu
và xu hướng cũng như xây dựng kế hoạch triển khai Ví dụ: giả sử số sản phẩm bị hoàn trả đang tăng đột biến, nhưng bạn lại không xác định được nguyên nhân Với quá trình hiển thị trực quan, bạn sẽ có thể tìm kiếm các từ như khiếm khuyết, sai kích
cỡ hay không vừa trong phần phản hồi và sắp xếp thành một biểu đồ Sau đó, bạn sẽ biết đâu là nguyên nhân chính cần được ưu tiên xử lý
Trang 291.3 Các kỹ thuật phân tích dữ liệu
Có các kỹ thuật phân tích dữ liệu cơ bản và nâng cao, mỗi kỹ thuật được
sử dụng cho các mục đích khác nhau Trước tiên, hãy tìm hiểu về các kỹ thuật phân tích văn bản đơn giản và một số ví dụ về trường hợp bạn có thể sử dụng từng kỹ thuật này
1.3.1 Kỹ thuật phân tích văn bản (Text Analysis)[4]
Text Analysis là một nhánh của Data mining nhằm tìm kiếm và trích xuất thông tin nằm trong văn bản Nó được sử dụng để chuyển đối dữ liệu thô thành thông tin kinh doanh Các công cụ Business Intelligence có mặt trên thị trường được sử dụng để đưa ra các quyết định kinh doanh chiến lược Nhìn chung, nó cung cấp một cách để trích xuất và kiển tra dữ liệu, bắt nguồn từ một mẫu và cuối cùng là giải thích dữ liệu Hiện nay, với sự tăng trưởng nhanh chóng của
dữ liệu văn bản, text analysis ngày càng có nhiều ứng dụng trong thực tế, như lọc thư rác, đối chiếu lý lịch cá nhân, phân tích cảm nghĩ, phân loại tài liệu
❖ Phân loại văn bản (Text Categorization)
Phân loại văn bản là quá trình gán các thẻ hoặc danh mục được xác định trước cho văn bản không có cấu trúc Nó được coi là một trong những kỹ thuật xử
lý ngôn ngữ tự nhiên hữu ích nhất vì tính linh hoạt: có thể tổ chức, cấu trúc và phân loại khá nhiều dạng văn bản để cung cấp dữ liệu có ý nghĩa giúp giải quyết vấn đề
Xử lý ngôn ngữ tự nhiên (NLP) là một kỹ thuật học máy cho phép máy tính chia nhỏ
và hiểu văn bản giống như con người Dưới đây là một số nhiệm vụ phân loại văn bản phổ biến nhất, bao gồm phân tích cảm xúc, lập mô hình chủ đề, phát hiện ngôn ngữ và phát hiện ý định
a Phân tích cảm xúc
Khách hàng thường để lại ý kiến đóng góp về doanh nghiệp và sản phẩm thông qua các tương tác với hệ thống dịch vụ, trên các cuộc khảo sát và trên internet Phân tích cảm xúc sử dụng các thuật toán học máy để tự động đọc và phân loại ý kiến (tích
Trang 30cực, tiêu cực, trung tính) và xa hơn nữa, dựa trên thái độ và cảm xúc của người viết, thậm chí cả ngữ cảnh cụ thể của hội thoại
Ví dụ: bằng cách sử dụng phân tích cảm xúc, các công ty có thể gắn cờ các khiếu nại hoặc yêu cầu khẩn cấp, vì vậy chúng có thể được giải quyết ngay lập tức –
từ đó ngăn chặn một cuộc khủng hoảng truyền thông trên mạng xã hội Bộ phân loại cảm xúc có thể đánh giá danh tiếng thương hiệu, thực hiện nghiên cứu thị trường và giúp cải thiện sản phẩm dựa trên phản hồi của khách hàng
❖ Trích xuất văn bản
Trích xuất văn bản là một kỹ thuật phân tích văn bản được sử dụng rộng rãi, nhằm trích xuất các phần dữ liệu tồn tại trong bất kỳ văn bản nhất định nào Bạn có thể trích xuất từ khóa, giá cả, tên công ty và thông số sản phẩm từ các báo cáo tin tức, đánh giá sản phẩm, v.v
Bạn có thể tự động điền vào bảng tính với dữ liệu có được này hoặc thực hiện trích xuất kết hợp với các kỹ thuật phân tích văn bản khác để phân loại và trích xuất
dữ liệu cùng một lúc
a Trích xuất từ khóa
Từ khóa là những thuật ngữ được sử dụng nhiều nhất nhằm chỉ các từ và cụm
từ tóm tắt nội dung của văn bản Trích xuất từ khóa có thể được sử dụng để lập chỉ
Trang 31mục dữ liệu phục vụ việc tìm kiếm và tạo các đám mây từ (biểu thị trực quan của dữ liệu văn bản)
b Nhận dạng thực thể
Trình trích xuất nhận dạng thực thể (NER) thực hiện việc tìm kiếm các thực thể,
có thể là người, công ty hoặc vị trí… và xuất hiện trong dữ liệu văn bản Kết quả được hiển thị với nhãn thực thể tương ứng
❖ Tần suất từ
Tần suất từ là một kỹ thuật phân tích văn bản, có mục tiêu đo lường các từ hoặc khái niệm xuất hiện thường xuyên nhất trong một văn bản nhất định bằng cách
sử dụng thống kê số TF-IDF (term frequency-inverse document frequency)
Bạn có thể áp dụng kỹ thuật này để phân tích các từ hoặc cách diễn đạt mà khách hàng sử dụng thường xuyên nhất trong các cuộc trò chuyện Ví dụ: nếu từ ‘giao hàng’ xuất hiện thường xuyên nhất trong một tập hợp các khiếu nại, điều này có thể cho thấy khách hàng không hài lòng với dịch vụ giao hàng của bạn
Kết hợp từ có thể hữu ích trong việc xác định các cấu trúc ngữ nghĩa ẩn và cải thiện mức độ chi tiết của thông tin bằng cách đếm bigrams và trigrams như một từ
Trang 32❖ Phân cụm
Phân cụm văn bản giúp hiểu và nhóm được một lượng lớn dữ liệu phi cấu trúc Mặc dù kém chính xác hơn các thuật toán phân loại, các thuật toán phân cụm triển khai nhanh hơn, không cần gán nhãn cho các ví dụ để đào tạo mô hình Điều đó có nghĩa là các thuật toán thông minh này khai thác thông tin và đưa ra dự đoán mà không cần sử dụng dữ liệu đào tạo, hay còn được gọi là học máy không giám sát
Google là một ví dụ tuyệt vời về cách hoạt động của phân cụm Khi bạn tìm kiếm một cụm từ trên Google, bạn đã bao giờ tự hỏi làm thế nào chỉ mất vài giây để đưa ra các kết quả có liên quan? Thuật toán của Google chia nhỏ dữ liệu không có cấu trúc từ các trang web và nhóm các trang thành các cụm xung quanh một tập hợp các từ tương tự hoặc n-gram (tất cả các kết hợp có thể có của các từ hoặc chữ cái liền
kề trong một văn bản) Vì vậy, các trang có số lượng cụm từ cao hơn hoặc n-gam có liên quan đến truy vấn tìm kiếm sẽ xuất hiện đầu tiên trong kết quả
1.3.2 Kỹ thuật phân tích thống kê (Statical Analysis)
Phât tích thống kê thể hiện “Điều gì xảy ra? Bằng các sủ dụng dữ liệu trong quá khứ dưới dạng dashboards Phân tích thống kê bao gồm thu thập, phân tích, giải thích, trình bày và mô hình hóa dữ liệu Nó phân tích một tập hợp dữ liệu hoặc một mẫu dữ liệu Có hai loại phân tích như: phân tích mô tả (Descriptive Analysis) và phân tích suy luận (Inferential Analysis)
❖ phân tích mô tả (Descriptive Analysis): phân tích dữ liệu hoàn chỉnh hoặc một mẫu dữ liệu số đã tổng hợp Nó cho thấy giá trị trung bình và độ lệch cho dữ liệu liên tục hoặc tỷ lệ phần trăm và tần suất cho dữ liệu phân loại
❖ phân tích suy luận (Inferential Analysis): phân tích mẫu từ dữ liệu hoàn chỉnh Trong loại phân tích này, bạn có thể tìm thấy các kết luận khác nhâu
từ cùng một dữ liệu nếu chọn các mẫu khác nhau
Trang 33Hình 1.3 Mô hình kỹ thuật phân tích thống kê (Statical Analysis)
1.3.3 Kỹ thuật phân tích chẩn đoán (Diagnostic Analysis)
Phân tích chẩn doán thể hiện,”Tại sao nó xảy ra?” bằng các tìm ra nguyên nhân
từ insight (những gì đang diễn ra) được tìm thấy trong phân tích thống kê Phân tích này rất hữu ích để xác định mô hình dữ liệu hành vi Nếu một vấn đề mới xuất hiện trong quy trình kinh doanh của bạn, ban có thể xem xét phân tích này để tìm các mô hình tương tự của vấn đề đó Từ đó có thể sử dụng các giải pháp trước đó cho một vấn đề mới
Hình 1.4 Mô hình kỹ thuật chẩn đoán
Trang 34Mặt khác, chẩn đoán y tế đề cập nhiều hơn đến tình trạng bệnh Bất kỳ chẩn đoán hoặc phát hiện nào của bác sĩ đều dựa trên tình trạng sinh lý của bệnh nhân, hoặc tình trạng sức khỏe của họ Hơn nữa, chẩn đoán của bác sĩ tập trung vào bệnh tình của chính nó Càng nhiều càng tốt, thông qua kinh nghiệm và bí quyết, thực thể lâm sàng chính xác và chính xác có thể là nguyên nhân có thể gây ra bệnh sau đó sẽ được bác sĩ giải quyết, do đó, đưa ra loại thuốc thích hợp có thể chữa khỏi bệnh
Loại chẩn đoán này được thực hiện bởi bác sĩ cho bệnh nhân Để xác định loại bệnh hoặc tình trạng phù hợp để giải thích các dấu hiệu và triệu chứng của bệnh nhân Tóm lại, về cơ bản, đó là cách bác sĩ xác định bệnh của bệnh nhân thông qua các triệu chứng và dấu hiệu nhận biết qua quan sát.[9]
Chẩn đoán y tế là một quá trình được sử dụng để xác định một loại bệnh tật hoặc bệnh tật của một người Loại chẩn đoán này bao gồm thực hiện rất nhiều thủ tục phức tạp và cứng nhắc bao gồm bệnh sử của bệnh nhận, Xét nghiệm máu; xét nghiệm nước tiểu; Các xét nghiệm chẩn đoán hình ảnh, chẳng hạn như: Chụp cắt X-Quang, Chụp cắt lớp vi tính ( Comoyted Tomography Scan-CT Scan), Chụp cộng hưởng từ (Magnetic Resonance Imaging-MRI), Chụp nhũ ảnh (hay chụp x-quang tuyến vú), Siêu âm, Chụp Positron cắt lớp Tất cả được thực hiện để biết sơ lược về bệnh tình của bệnh nhân
Hình 1.5 Mô hình chẩn đoán bệnh trong y tế
Trang 351.3.4 Kỹ thuật phân tích dự đoán (Predictive Analysis)
Phân tích dự đoán thể hiện “Những gì có khả năng xảy ra” bằng cách sử dụng
dữ liệu cách đó Ví dụ đơn giản nhất là nếu năm ngoái bạn mua hai chiếc váy dựa trên khoản tiết kiệm của mính và năm nay lương của bạn tăng gấp đôi thì bạn có thể mua bốn chiếc váy Nhưng tất nhiên không dễ như thế vì bạn phải suy nghĩ về các trường hợp có thể xảy ra như giá quần áo tăng trong năm nay hoặc có thể thay vì váy bạn muốn mua xe đạp mới, hoăc bạn cần mua nhà Vì vậy, phân tích này đưa ra dự đoán về kết quả trong trương lai đưa trên dữ liệu hiện tại hoặc quá khứ Dư báo chỉ
là một ước tính Độ chính xác của nó dựa trên số lựơng thông tin chi tiết bạn có và những gì bạn khám phá được trong đó
1.3.5 Kỹ thuật phân tích đề xuất (Prescriptive Analysis)
Phân tích đề xuất kết hợp những gì diễn ra từ phân tích trước đó xác định hành động nào cần thực hiện trong một vấn đề hoặc quyết định hiện tại Hầu hêt các công
ty đang sử dụng phân tích đề xuất vì phân tích dự đoán và mô tả không đủ để cải thiện hiệu suất dữ liệu Dựa trên các tình huống và vấn đề hiện tại, họ phân tích dữ liệu và đưa ra quyết định
Trong các kỹ thuật phân tích dữ liệu đã đưa ra ở trên em chủ yếu đề cập đến một bài toán cụ thể, đó là kỹ thuật phân tích chẩn đoán (Diagnostic Analysis) Các nghiên cứu mới chỉ dừng lại ở bước tìm hiểu, khảo sát, so sánh là tiền đề cho các nghiên cứu cụ thể sau này mà mục đích trước mắt là phục vụ cho luận văn tốt nghiệp[4]
1.4 Tổng kết chương
Chương này đã tổng hợp và trình bày một số kiến thức lý thuyết cơ bản về khai phá dữ liệu, khai phá dữ liệu văn bản, khái niệm phân tích văn bản và một số kỹ thuật phân tích dữ liệu cơ bản đã được giới thiệu và trình bày trong chương này
Trang 36CHƯƠNG 2:
HỆ THÔNG TIN BỆNH VIỆN (HIS), CÁC ỨNG DỤNG TRONG BỆNH
VIỆN VÀ QUY TRÌNH PHẦN DỮ LIỆU BỆNH 2.1 Các hệ thống ứng dụng CNTT trong bệnh viện
Trong lĩnh vực y tế, ứng dụng công nghệ thông tin ngày càng phát triển mạnh mẽ Các hệ thống thông tin y tế HIS, RIS, PACS, LIS… được triển khai ứng dụng rộng rãi và hiệu quả Xây dựng dựa trên tiêu chuẩn DICOM và HL7 nhằm hướng tới thống nhất trao đổi và xử lý thông tin dữ liệu giữa các bệnh viện, phòng khám Từ đó, phục vụ công tác quản lý, chẩn đoán, điều trị và chăm sóc sức khỏe.[1]
2.1.1 Hệ thống thông tin bệnh viện - Hospital Information System (HIS) [10]
Hospital Information System: là một hạ tầng công nghệ thông tin cơ bản không thể thiếu đối với bất kỳ một bệnh viện nào trong giai đoạn hiện nay khi bước vào giai đoạn chuyển đổi số và xây dựng y tế thông minh, chủ yếu tập trung vào nhu cầu quản lý bệnh viện Hệ thống thông tin bệnh viện (HIS – Hospital Information System ) thường được biết đến với tên gọi khác là “Hệ thống quản lý bệnh viện” là một hệ thống thông tin tích hợp toàn diện được thiết kế để phục vụ tất cả các hoạt động của bệnh viện, chẳng hạn như điều hành tại Bệnh viện Các chức năng chính: quản lý thông tin bệnh nhân, lịch sử bệnh án, quản lý việc khám chữa bệnh nội và ngoại trú, dược, tài chính, viện phí, trang thiết bị vật tư y tế, nhân sự…Ngoài ra HIS còn cung cấp thông tin liên lạc nội giữa các phòng ban và các nhà cung cấp dịch vụ chăm sóc sức khỏe Các thiết bị thông minh
Trang 37Hình 2.1 Mô hình Hệ thống thông tin bệnh viện (HIS) HIS cung cấp một số phần mềm dành riêng cho chuyên khoa với các tính năng
mở rộng khác nhau bao gồm nhiều hệ thống con kết nối tạo ra hệ sinh thái trong bệnh viện Mục tiêu hỗ trợ tốt nhất cho bác sĩ, y tá và quản lý bệnh viện có thể hoàn thành công việc của mình trong thời gian sớm nhất, tiết kiệm thời gian và chi phí cho bệnh viện
2.1.2 Hệ thống lưu trữ và truyền hình ảnh Picture Archiving and
Communication System (PACS)
Việc tra cứu, khai thác kết quả chẩn đoán hình ảnh trong quy mô nội bộ bệnh viện thì RIS cơ bản đáp ứng được Tuy nhiên, khi phát sinh nhu cầu lớn hơn về lưu trữ, phân phối và truyền hình ảnh thì RIS trở nên khó đáp ứng được Do vậy cần phải
có Hệ thống lưu trữ và truyền ảnh (Picture archiving and Communication System - PACS) để đáp ứng yêu cầu lưu trữ, xử lý, truyền tải thông tin một cách có hệ thống, nhanh chóng, chính xác, nâng cao chất lượng chẩn đoán và truyền hình ảnh để chẩn
HỆ THỐNG THÔNG TIN BỆNH VIỆN (HIS)
Hệ thống thông tin chăm sóc bệnh
Cơ sở dữ liệu thông tin bệnh nhân
Báo cáo kết quả
Tài liệu lâm sàng
Trang 38RIS quản lý cả dữ liệu về hình ảnh và văn bản chứ không đơn thuần là quản lý văn bản dạng text như trong HIS Dữ liệu ảnh thu nhận được từ các thiết bị như X-quang, CT-Scan, MRI, siêu âm sẽ được lưu giữ lại dưới dạng tập các ảnh số hóa Đây chính là tập cơ sở dữ liệu mà RIS quản lý
Nhiệm vụ chính của RIS là:
- Tạo định dạng và lưu trữ kết quả chẩn đoán hình ảnh theo ID bệnh nhân;
- Thao tác với các bản ghi tương ứng với ID bệnh nhân;
- Hồi cứu các kết quả chẩn đoán hình ảnh của bệnh nhân;