CÁC YẾU TỐ LIÊN QUAN ĐẾN BỆNH RLTC

Một phần của tài liệu Ứng dụng khai phá dữ liệu để xây dựng hệ thống chẩn đoán bệnh trầm cảm cho học sinh phổ thông (Trang 54)

5. Bố cục của luận văn

2.6. CÁC YẾU TỐ LIÊN QUAN ĐẾN BỆNH RLTC

2.6.1. Yếu tố gia đình

Dù ở giai đoạn nào của cuộc đời, gia đình luôn là một yếu tố chiếm vai trò rất quan trọng đối với con người. Những gia đình có tình trạng bất hòa, xung đột kéo dài sẽ tạo nên cuộc sống căng thẳng, nhiều áp lực và thườngdẫn đến tuyệt vọng, chán nản. Bất hòa, có thể là bất hòa giữa cha mẹ, bất hòa giữa cha mẹ và con cái hoặc là bất hòa giữa anh chị em với nhau. Ngoài ra, nạn bạo hành trong gia đình như bị cha mẹ đánh đập, chửi bới, bóc lột sức lao động quá mức cũng là nguyên nhân dẫn đến bị stress.

Sự cô đơn hoặc bị mất cha, mất mẹ hay mất một anh chị em nào đó hoặc bị thất tình, hoặc ngược đãi v.v... cũng dễ dẫn đến bị tổn thương buồn chán, cô đơn và tuyệt vọng.

2.6.2. Yếu tố học đường

Môi trường học đường cũng là một trong những yếu tố có thể gây cho những thanh thiếu niên những căng thẳng, những áp lực và những stress.

Nguyên nhân đầu tiên là áp lực học tập. Trong xã hội hiện nay, yêu cầu đặt ra cho thanh thiếu niên là rất cao. Trong các trường học, khối lượng kiến thức mà học sinh phải học quả là rất lớn cùng với áp lực từ yêu cầu đạt kết quả cao trong việc học của gia đình, nhà trường và xã hội đã biến thành một gánh nặng, một áp lực rất lớn đối với họ.

Ngoài việc tạo ra áp lực trong học tập, nhà trường cũng là nới có thể xảy ra những mâu thuẫn và xung đột như sự coi thường, la mắng của thầy cô hay sự triêu chọc, kích động của bạn bè cũng khiến cho nhiều thanh niên bị mất tự chủ, chán nản, thất vọng và dẫn đến bị trầm cảm.

2.6.3. Yếu tố xã hội

Xã hội ngày nay cũng tạo ra nhiều áp lực khiến cho con người dễ bị stress, dễ bị trầm cảm. Đó là:

Các xung đột, mâu thuẫn trong xã hội: sự xa lánh, khinh bỉ, coi thường, tẩy chay, kích động, bị lạm dụng tình dục hay đe dọa của người khác cũng là một nguyên nhân lớn dẫn đến trầm cảm.

Công nghệ truyền thông đa phương tiện, các hình ảnh về cái chết, tai nạn…cũng là những yếu tố ảnh hưởng đến tâm lý của mỗi cá nhân.

Trong xã hội hiện nay, tình trạng sống buông thả, mắc các tệ nạn xã hội như: nghiện ma tuý, nghiện rượu, bia, nghiện internet, nghiện chơi cờ bạc của thanh thiếu niên càng gia tăng. Chính tình trạng này mang lại nhiều nguy cơ dẫn đến các xung đột, áp lực căng thẳng và dẫn đến trầm cảm. Đồng thời, chính những chất kích thích như rượu, ma tuý cũng là những tác nhân dẫn đến trầm cảm ở thanh niên độ tuổi này trong giai đoạn xã hội hiện nay.

2.7.THU THẬP VÀ XỬ LÝ DỮ LIỆU NGHIÊN CỨU BỆNH RLTC 2.7.1. Thu thập dữ liệu 2.7.1. Thu thập dữ liệu

Việc thu thập dữ liệu tuỳ theo lĩnh vực ngành nghề. Mỗi ngành, dữ liệu lưu trữ có nguyên tắc riêng. Việc lấy dữ liệu cần thực hiện đúng theo quy định hay quy chế của cơ quan, đơn vị. Dữ liệu khai phá trong luận văn là hồ sơ bệnh án, do đó khi mượn hồ sơ bệnh án để nghiên cứu cũng phải có đơn xin mượn hồ sơ bệnh án và giấy giới thiệu của cơ quan quản lý.

Số liệu thu thập được 4000 hồ sơ bệnh án trong thời gian 3 năm (1/2013- 1/2016) gồm các hồ sơ bệnh nhân thuộc đối tượng trẻ vị thành niên từ 12-18 tuổi, đã đến thăm khám tại Khoa tâm thần - bệnh viện đa khoa tỉnh Quảng Trị, một số phòng khám tư nhân và Phòng Y tế các trường THPT, THCS trên địa bàn tỉnh Quảng Trị. Các thông tin dữ liệu phân bổ rời rạc, có khoảng 1500 bệnh án điện tử còn lại là hồ sơ bệnh án lưu ở sổ sách. Do đó, phải được thu thập, gộp lại một cách thủ công vào file excel.

Dữ liệu được thu thập dựa trên bảng câu hỏi thu thập thông tin về bệnh rối loạn trầm cảm (xem phần Phụ lục), dưới sự tư vấn về chuyên môn, nghiệp

vụ của bác sĩ tại khoa tâm thần bệnh viện Đa khoa tỉnh Quảng Trị nên dữ liệu có tính trung thực khách quan cao.

2.7.2. Xử lý dữ liệu

Bước 1. Làm đầy hoặc loại bỏ các bản ghi có trường dữ liệu bị thiếu và loại bỏ các dữ liệu bị trùng lặp.

- Sử dụng lệnh Data filter trong Excel để tìm ra các trường dữ liệu rỗng và tiến hành làm đầy dữ liệu như trường Giới tính

- Xoá những bản ghi có giá trị rỗng mà không thể làm đầy được.

- Sử dụng lệnh Remove Duplicates trong excel để xoá những bản ghi trùng lặp.

Bước 2. Tiến hành mã hóa tên các trường dữ liệu, giá trị của dữ liệu đảm bảo tính nhất quán.

- Tiến hành bỏ dấu

- Loại bỏ thông tin về họ tên bệnh nhân - Năm sinh được chuyển thành Tuổi

- Mức độ diễn ra sự việc: Thường xuyên (>4 lần/tháng), Thỉnh thoảng ( 2-3 lần/tháng), Hiếm khi (1 lần/tháng), Chưa bao giờ.

- Trường kết quả: Yes = Mắc bệnh, No = Không mắc bệnh.

Sau khi thu thập và xử lý dữ liệu, luận văn tiến hành nghiên cứu các công cụ xây dựng mô hình KPDL.

2.8.CÁC CÔNG CỤ XÂY DỰNG MÔ HÌNH KPDL 2.8.1. Hệ quản trị CSDL SQL Server 2014 2.8.1. Hệ quản trị CSDL SQL Server 2014

Hệ quản trị CSDL (Database Management System - DBMS), là phần mềm hay hệ thống được thiết kế để quản trị một CSDL. Hệ quản trị CSDL MSSQL Server2014 có 4 dịch vụ lớn: Database Engine, Intergration Service, Reporting service, Analysis Services. Trong phiên bản MSSQL 2014 này đã có những cải tiến đáng kể như sau:

- DataBase Engine: được phát triển để thực thi tốt hơn với việc hỗ trợ cả dữ liệu có cấu trúc và dữ liệu phi cấu trúc (XML).

- Dịch vụ tích hợp (Integration Service) thiết kế lại, cho phép người dùng tích hợp dữ liệu và phân tích dữ liệu từ nhiều nguồn khác nhau. Hỗ trợ việc quản lý chất lượng dữ liệu và làm sạch dữ liệu.

- Dịch vụ phân tích dữ liệu (Analysis Service): cung cấp khung nhìn tích hợp và thống nhất về dữ liệu cho người dùng, hỗ trợ việc phân tích dữ liệu.

- Dịch vụ xây dựng quản lý báo cáo (Reporting Service) được dựa trên nền tảng quản trị doanh nghiệp thông minh và được quản lý qua dịch vụ web. Báo cáo có thể được xây dựng với ngôn ngữ truy vấn MDX. Việc xây dựng báo cáo dễ dàng thông qua các công cụ trên Business Intelligent, người dùng truy cập báo cáo dễ dàng và trích xuất ra nhiều định dạng khác nhau thông qua trình duyệt web.

MSSQL Server 2014 cung cấp công nghệ và khả năng mà các tổ chức hy vọng kiểm soát được các khó khăn thách thức đang ngày càng tăng đối với việc quản lý dữ liệu và cung cấp thông tin có giá trị kịp thời đến người dùng.

2.8.2. Công cụ xây dựng mô hình KPDL Business Intelligence

MSSQL Server Data Tools - Business Intelligence (BI): là một IDE của Microsoft cho phép xây dựng các giải pháp cho Business Inteligence: Analysis Services, Reporting Services, và Integration Services, là công cụ cho phép tổ chức quản lý và khai thác kho dữ liệu (xử lý phân tích trực tuyến) cũng như xây dựng các mô hình KPDL [16].

- BI cho phép triển khai các mô hình KPDL sau:

 Decision Tree (DT)

 Clustering (Phân cụm)

 Naive Bayes (Phân lớp với Luật Bayes)

 Time Series (Chuỗi thời gian)

 Association (Luật kết hợp)

 Neural Network (Mạng Neural)

 Linear Regression (Hồi qui tuyến tính)

 Logistics Regression (Hồi qui logistics)

Qui trình xây dựng mô hình KPDL với BI như Hình 2.1.

BI là môi trường chính để phát triển các giải pháp kinh doanh bao gồm Analysis Services, Integration Services và Reporting Services. Mỗi loại cung cấp các mẫu để tạo ra các đối tượng cần thiết cho các giải pháp kinh doanh thông minh, cung cấp một loạt các thiết kế và các công cụ để làm việc với các đối tượng.

Hình 2.1. Quy trình xây dựng mô hình KPDL với BI

Bắt đầu

Tạo mới 1 project (Analysis Services Project)

Tạo một Data Source

Tạo một Data Source View

Tạo một Mining Module Structure

Tạo các Mining Modules

Thực thi Mining Modules

Sử dụng Mining Models để dự đoán Kết thúc

2.9.KPDL VỚI MSSQL SERVER 2014 ANALYSIS SERVICES 2.9.1. Giới thiệu 2.9.1. Giới thiệu

SQL Server là hệ thống quản lý CSDL, sử dụng Transact-SQL để thao tác dữ liệu trên các máy khách và máy chủ. SQL-Server có khả năng quản lý một khối lượng CSDL rất lớn, cỡ vào khoảng hàng Tera-Byte và đồng thời phục vụ hàng ngàn user. Bên cạnh thành phần cơ bản nhất của SQL-Server là Database Engine có khả năng lưu trữ và xử lý dữ liệu ở các quy mô khác nhau như dạng bảng hay các kiểu kết nối thông dụng của Microsoft (ADO, OLE DB, OLDB) thì từ phiên bản SQL Server 2005 trở đi thì bộ SQL Server đã được tích hợp nhiều gói dịch vụ hỗ trợ việc tích hợp và khai thác khả năng tiềm tàng của một CSDL như SQL Integrating Services, SQL Server Analysis Services và SQL Server Reporting Services [20].

MSSQL Server 2014 Analysis Services (SSAS) đáp ứng nhu cầu xử lý phân tích dữ liệu OLAP và các ứng dụng KPDL. Analysis Services hỗ trợ OLAP bằng cách cho phép bạn thiết kế, tạo ra, và quản lý các cấu trúc đa chiều có chứa dữ liệu được tổng hợp từ các nguồn dữ liệu khác, chẳng hạn như CSDL quan hệ. Đối với các ứng dụng khai thác dữ liệu Analysis Services cho phép bạn thiết kế, tạo ra, và hình dung mô hình khai thác dữ liệu được xây dựng từ các nguồn dữ liệu khác bằng cách sử dụng một loạt các tiêu chuẩn các thuật toán khai thác dữ liệu.

SSAS cho phép các ứng dụng hoạt động theo chế độ Client/Server. Thành phần server được triển khai như một dịch vụ của MS Windows bao gồm một số thành phần thực hiện các chức năng:

- Phân tích câu lệnh nhận được từ client - Lưu trữ dữ liệu

- Quản lý metadata - Tạo các khối tích hợp - Quản lý giao dịch - Lập lịch truy vấn - Xử lý tính toán - Quản lý tài nguyên

SSAS hỗ trợ nhiều dịch vụ trên cùng một máy chủ, mỗi dịch vụ là một đối tượng riêng biệt. Thành phần client truyền thông với server bằng giao thức XML for Analysis (XML/A) thông qua cơ chế truy vấn và trả lời tương tự như web service. Câu lệnh truy vấn sử dụng ngôn ngữ SQL, MDX (Multidimensional Expressions), DMX (Data Mining Extensions).

Hình 2.2. Mô hình kiến trúc của SSAS

2.9.2. Môi trường phát triển ứng dụng

BI là môi trường phát triển ứng dụng SSAS. Môi trường này được tích hợp với MS Analysis Service. Phần lớn thời gian làm việc với SQL Server Data Mining là làm việc với BI. BI có hai chế độ hoạt động: Offline và Immediate.

Làm việc với chế độ Immediate, người dùng kết nối trực tiếp và liên tục đến Analysis Service server. Khi tạo mới hoặc thay đổi các đối tượng đã có, các hoạt động này đều được thay đổi trên server. Mặc dù chế độ làm việc này rất trực quan và dễ hiểu, tuy nhiên, nó cũng có nhiều hạn chế như các thao tác sai không thể phục hồi, các tác động không mong muốn từ các phiên làm việc khác, tính nhất quán giữa các ứng dụng sử dụng chung dữ liệu. Ngoài ra chế độ này chỉ bó hẹp trong một sơ sở dữ liệu nhất định.

Trong chế độ Offline, các thay đổi trong dự án chỉ được lưu trữ ở client. Nó chỉ thành hiện thực khi quyết định triển khai ứng dụng lên server. Chế độ làm việc này phù hợp với việc thiết kế và chạy thử các mô hình trên máy chủ kiểm tra. Khi các mô hình đã được kiểm tra xác nhận thì mới được triển khai trên máy chủ.

Microsoft cung cấp nhiều giao diện lập trình ứng dụng giúp lập trình viên dễ dàng phát triển ứng dụng. Bảng sau tóm tắt các SQL Server Mining API:

Bảng 2.1.Các công cụ lập trình ứng dụng Data Mining

STT Tên công cụ Tên viết tắt Mô tả

1 ActiveX Data

Objects ADO

Cung cấp truy cập đến các đối tượng dữ liệu bao gồm cả các đối tượng data mining từ các ngôn ngữ lập trình như Visual Basic

2

ActiveX Data Objects for .NET

ADOMD.NET

Cung cấp truy cập đến các đối tượng Analysis Service từ các ngôn ngữ như Visual Basic .NET, C# và J#.

STT Tên công cụ Tên viết tắt Mô tả 3 Server ActiveX Data Objects Server ADOMD

Cung cấp truy cập đến các đối tượng Analysis Service từ các hàm do người dùng định nghĩa trên trong server

4

Analysis Management Object

AMO

Giao diện quản lý các đối tượng Analysis Services cho phép thực hiện các hoạt động như tạo, xử lý… các đối tượng 5 Decision Support Object DSO

Giao diện quản lý các đối tượng Analysis Services được giữ lại từ SQL Server 2000. 6 Data Mining Extension DMX Mở rộng ngôn ngữ SQL để hỗ trợ data mining 7 Object Linking and Embedding for Databases for Data Mining OLE DB for DM

Định nghĩa các khái niệm và API chung cho data mining tương tự như SQL trong CSDL quan hệ

8 XML for

Analysis XMLA

Cung cấp giao thức và định dạng XML để truyền thông với Analysis Server

2.9.3. Các thuật toán KPDL trong MSSQL Server 2014

Microsoft đã nâng cấp và bổ sung nhiều thuật toán ứng dụng tích hợp với MSSQL Server 2014:

Bảng 2.2. Các thuật toán Data Mining trong MSSQL Server 2014

Nhiệm vụ Thuật toán Microsoft sử dụng

Dự đoán thuộc tính rời rạc

Decision Trees Algorithm Naive Bayes Algorithm Clustering Algorithm Neural Network Algorithm Logistic Regression Algorithm

Dự đoán thuộc tính liên tục

Decision Trees Algorithm Time Series Algorithm

Linear Regression Algorithm Dự đoán 1 trình tự Sequence Clustering Algorithm Phân loại Association Algorithm

Decision Trees Algorithm Gom cụm Clustering Algorithm

KẾT LUẬN CHƯƠNG 2

Chương 2 đã trình bày được đặc điểm tâm sinh lý của tuổi vị thành niên; nêu được khái niệm; đặc điểm lâm sàng của bệnh rối loạn trầm cảm, trình bày được các triệu chứng của bệnh RLTC, nêu được các yếu tố ảnh hưởng đến bệnh rối loạn trầm cảm và trình bày được các cộng cụ hỗ trợ xây dựng mô hình khai phá dữ liệu. Chương này đã giới thiệu cách thu thập và xử lý dữ liệu về bệnh trầm cảm của học sinh phổ thông. Đề tài đã thu thập và xử lý 4000 dòng dữ liệu từ Khoa tâm thần - bệnh viện đa khoa tỉnh Quảng Trị và một số phòng khám tư nhân, Phòng Y tế các trường THPT, THCS trên địa bàn tỉnh Quảng Trị để xây dựng cơ sở dữ liệu làm tiền giải quyết bài toán chẩn đoán bệnh RLTC.

CHƯƠNG 3. XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH RỐI LOẠN

TRẦM CẢM DỰA TRÊN KHAI PHÁ DỮ LIỆU

Sau khi đã xây dựng CSDL trong chương 2, chương này trình bày kỹ thuật cây quyết định để khai phá dữ liệu và xây dựng mô hình chuẩn đoán bệnh RLTC. Sau đó, chương này sử dụng kỹ thuật phân cụm để đưa ra các đặc trưng cho từng cụm bệnh nhân của bệnh này. Cuối chương là phần cài đặt hệ thống thử nghiệm các tập luật đã khai phá được. Hệ thống này cho phép người dùng nhập dữ liệu về đặc điểm cá nhân cũng như các thông tin liên quan đến bệnh RLTC và đưa ra các dự báo về khả năng mắc chứng bệnh này.

3.1.XÂY DỰNG CSDL TRONG SQL SERVER 3.1.1. Mô tả dữ liệu 3.1.1. Mô tả dữ liệu

Dữ liệu được dùng để xây dựng mô hình gồm 28 thuộc tính như sau:

Bảng 3.1. Cấu trúc dữ liệu chẩn đoán bệnh RLTC

STT Thuộc tính Kiểu DL Giá trị của

thuộc tính Giải thích

1. ID Nominal 1…4000 Mã BN

2. GioiTinh Nominal Nam, Nu Giới tính của BN 3. Tuoi Nominal 12, 13, 14, 15,

16, 17, 18

Độ tuổi của BN

4. B_Mcainhau Nominal

chua bao gio <2lan_thang >3lan_thang

Tình trạng bố mẹ hoặc người thân cải nhau

5. B_Mdanhnhau Nominal

chua bao gio <2lan_thang >3lan_thang

Tình trạng bố mẹ hoặc người thân đánh nhau

STT Thuộc tính Kiểu DL Giá trị của thuộc tính Giải thích 6. KQHT Nominal Xuatsac, Gioi, Kha, TB, Yeu, Kem. Kết quả học tập của BN. 7. apluchtap Nominal KhongApLuc, ApLucIt ApLucVua, ApLucNhieu Áp lực về kết quả học tập của BN 8. gvnatno Nominal ChuaBaoGio, HiemKhi, ThinhThoang, ThuongXuyen Mức độ Thầy cô giáo ở trường trường

Một phần của tài liệu Ứng dụng khai phá dữ liệu để xây dựng hệ thống chẩn đoán bệnh trầm cảm cho học sinh phổ thông (Trang 54)