Xử lý ngôn ngữ tự nhiên

Một phần của tài liệu Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp (Trang 31)

Khi đã xác định, trích xuất và loại bỏ nội dung không cần thiết cho chủ đề cần tìm,

bước tiếp theo là tìm hiểu nội dung đó. Trong nhiều trường hợp sử dụng, nội dung có thông tin quan trọng nhất được viết bằng ngôn ngữ tự nhiên (như tiếng Anh, tiếng Đức, tiếng Tây Ban Nha, tiếng Trung Quốc, tiếng Việt v.v.) và không được gắn thẻ để thuận tiện xử lý. Để trích xuất thông tin từ nội dung này, cần dựa vào một số cấp độ khai thác văn bản, trích xuất văn bản hoặc có thể là các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) đầy đủ.

Quy trình trong 1 dự án xử lý ngôn ngữ tự nhiên sẽ gồm 7 bước nhứng trong khóa luận sẽ chỉ tập trung tại bước 1 là những nền tảng của xử lý ngôn ngữ tự nhiên.

Nen tảng

Đầu vào để xử lý ngôn ngữ tự nhiên sẽ là một dòng ký tự Unicode đơn giản (thường

là UTF-8). Xử lý cơ bản sẽ được yêu cầu để chuyển luồng ký tự này thành một chuỗi các mục từ vựng (từ, cụm từ và dấu cú pháp) sau đó có thể được sử dụng để hiểu rõ hơn

nội dung. Nội dung cơ bản của bước 1 bao gồm:

Trích xuất cấu trúc - xác định các trường và khối nội dung dựa trên việc gắn thẻ Xác định và đánh dấu ranh giới câu, cụm từ và đoạn văn - những điểm đánh dấu này rất quan trọng khi thực hiện trích xuất thực thể và NLP vì chúng đóng vai trò là các ngắt hữu ích trong đó phân tích xảy ra.

Nhận dạng ngôn ngữ - sẽ phát hiện ngôn ngữ của con người cho toàn bộ tài liệu và cho từng đoạn hoặc câu. Các trình phát hiện ngôn ngữ là rất quan trọng để xác định những thuật toán và từ điển ngôn ngữ nào sẽ áp dụng cho văn bản.

Mã thông báo - để phân chia các luồng ký tự thành các mã thông báo có thể được

sử dụng để xử lý và hiểu thêm. Mã thông báo có thể là từ, số, số nhận dạng hoặc dấu chấm câu (tùy thuộc vào trường hợp sử dụng)

Chuẩn hóa và gắn thẻ từ viết tắt - các từ viết tắt có thể được chỉ định là Nhẫn I.B.M. hoặc IBM vì vậy những thứ này nên được gắn thẻ và chuẩn hóa. Công nghệ tìm kiếm công nghệ xử lý mã thông báo có tính năng này.

Khóa luận tốt nghiệp

Bổ ngữ / Phát âm - giảm các biến thể từ thành các dạng đơn giản hơn có thể giúp tăng mức độ bao phủ của các tiện ích NLP.

Giải mã - đối với một số ngôn ngữ (điển hình là tiếng Đức, tiếng Scandinavi và tiếng Cyrillic), các từ ghép sẽ cần được chia thành các phần nhỏ hơn để cho phép NLP chính xác.

Trích xuất thực thể - xác định và trích xuất các thực thể (con người, địa điểm, công

ty, v.v.) là một bước cần thiết để đơn giản hóa việc xử lý xuôi dòng. Có một số phương pháp khác nhau:

Trích xuất Regex - tốt cho số điện thoại, số ID (ví dụ: SSN, giấy phép lái xe, v.v.), địa chỉ email, số, URL, hashtag, số thẻ tín dụng và các thực thể tương tự.

Trích xuất từ điển - sử dụng một từ điển các chuỗi mã thông báo và xác định khi các chuỗi đó xảy ra trong văn bản. Điều này tốt cho các thực thể được biết đến, chẳng hạn như màu sắc, đơn vị, kích cỡ, nhân viên, nhóm kinh doanh, tên thuốc, sản phẩm, nhãn hiệu, v.v.

Trích xuất dựa trên mẫu phức tạp - tốt cho tên người (được tạo từ các thành phần đã biết), tên doanh nghiệp (được tạo từ các thành phần đã biết) và kịch bản trích xuất dựa trên ngữ cảnh (ví dụ: trích xuất một mục dựa trên ngữ cảnh của nó) khá thường xuyên và khi độ chính xác cao được ưa thích hơn thu hồi cao.

Trích xuất thống kê - sử dụng phân tích thống kê để thực hiện trích xuất ngữ cảnh.

Điều này tốt cho tên người, tên công ty, thực thể địa lý mà trước đây không biết và bên trong văn bản có cấu trúc tốt (ví dụ: văn bản học thuật hoặc báo chí). Khai thác thống kê có xu hướng được sử dụng khi thu hồi cao được ưa thích hơn độ chính xác cao.

Trích xuất cụm từ - trích xuất chuỗi các mã thông báo (cụm từ) có ý nghĩa mạnh mẽ, độc lập với các từ khi được xử lý riêng. Các trình tự này nên được coi là một đơn vị

khi thực hiện NLP.

1.5. Ket luận chương

Trong chương 1 đã nêu khái quát nhất lý thuyết về khai phá dữ liệu giúp ta hiểu

rõ hơn

thế nào là khai phá dữ liệu. Hiểu sâu hơn về một số kĩ thuật trong KPDL, lợi ích và ứng dụng

thực tế. Đồng thời, mở rộng thêm kiến thức về khai phá web, một số phương pháp tiếp

cận trong

khai phá web. Chương 1 này sẽ là cơ sở, nền tảng lý thuyết để đưa ra phương pháp giải

quyết bài

CHƯƠNG 2: THỰC TRẠNG CUNG CẤP THÔNG TIN VỀ DỊCH BỆNH VIÊM ĐƯỜNG HÔ HẤP CẤP COVID-19 TRÊN WEB

Trong chương này, sẽ đề cập đến bối cảnh dịch bệnh, thực trạng cung cấp thông tin, công nghệ được sử dụng tại Việt Nam và trên thế giới. Những vấn đề được đề cập ở trong chương này sẽ giúp hiểu hơn về tình hình dịch bệnh hiện tại, cung cấp thêm luận điểm cho lý do chọn bài toán thực tế ở chương 3. Đồng thời cũng là một phần cơ sở thông tin để giúp giải bài toán hiệu quả.

2.1. Thực trạng ở Việt Nam

Hiện nay muốn cập nhật thông tin thì có vô vàn nguồn thông tin có thể ứng dụng, từ những kênh thông tin truyền thống như báo giấy, tivi, radio, loa phường, truyền miệng

hay đến những nguồn thông tin hiện đại hơn thông qua internet như báo điện tử, website,

mạng xã hội,... Thông tin cũng rất đa dạng trong tất cả các lĩnh vực: chính trị, kinh tế, văn hóa, xã hội, thể thao, giáo dục, y tế... đồng thời việc tự do ngôn luận và phát triển của các trang mạng xã hội cũng tạo nên nhiều thông tin mang tính cá nhân hóa. Ai cũng có thể đưa ra suy nghĩ và ý kiến riêng của mình về một vấn đề sự kiện nào đó. Vì vậy, số lượng thông tin được đưa ra và lưu chuyển là rất lớn nhưng chính vì đó việc xác định thông tin cần thiết và chính xác hay không cũng trở nên khó khăn hơn. Khi cần phải chủ

động tìm kiếm và chắt lọc thông tin. Hơn nữa chính phủ cũng có nhiều chủ trương và giải pháp nhằm giúp người dân tiếp cận thông tin hiệu quả. Đặc biệt là các tỉnh miền núi, cơ sở vật chất thiếu thốn được quan tâm tạo điều kiện bổ sung cơ sở vật chất, nguồn

lực cán bộ, triển khai những mô hình hợp lý để đảm bảo người dân nắm rõ luật và tiếp cận thông tin được nhanh chóng nhất.

Mới gần đây nhất là dịch bệnh viêm đường hô hấp cấp Covid-19, một đại dịch lây nhiễm được cảnh báo ở mức độ thế giới. Qua hơn 5 tháng kể từ khi có dịch bênh, Việt Nam vẫn luôn kiểm soát bệnh dịch và khống chế tốt nhất có thể. Tất cả mọi người dân đều biết đến những thông tin về dịch bệnh, phòng tránh và làm theo chỉ thị của chính phủ. Các cách thức đưa tin và tuyên truyền đến người dân thực sự hiệu quả, được đánh giá cao khi không chỉ đưa tin qua các chương trình thời sự mà còn tận dụng triệt để mạng xã hội hay qua đường truyền điện thoại. Đồng thời cũng xử phạt nghiêm khắc ai truyền bá, đưa tin sai lệch gây hoang mang. Cũng nhờ 1 phần lớn đó, công tác chống dịch của nước ta diễn ra hiệu quả, khi tổng số ca nhiễm bệnh vẫn đang dưới con số 400 người, hầu hết đã bình phục và chưa có ai tử vong.

Khóa luận tốt nghiệp

2.1.1. Bối cảnh dịch bệnh ở Việt Nam

Đại dịch viêm đường hô hấp cấp COVID-19 được đánh giá là một trong những đại

dịch nguy hiểm cấp độ cao, vượt lên trên tất cả những dịch bệnh gây chết người như Ebola ở Congo, Zika năm 2016 và Ebola năm 2014 ở Tây Phi. Đây đều là những trường

hợp được báo động nguy hiểm ở mức quốc tế. Tại Việt Nam tính đến hiện nay thì có thể

chia toàn cảnh dịch bệnh thành 3 giai đoạn chính.

Giai đoạn 1: Bắt đầu từ tối ngày 23/01/2020 (29 Tết Canh Tý), Bệnh viện Chợ Ray đã xác nhận 2 bệnh nhân (BN) dương tính với virut Corona chủng mới (SARS- CoV-2) đầu tiên tại Việt Nam. Đó là 2 cha con người Trung Quốc, người đàn ông (66 tuổi) đến từ Vũ Hán cùng vợ sang thăm con trai tại Long An. Trong thời gian ở tại Nha Trang (Khánh Hòa) đã lây bệnh cho 1 nữ nhân viên của khách sạn. Sau đó TPHCM cũng

xác nhận thêm 1 ca nhiễm là Việt Kiều trở về nước và đã quá cảnh tại sân bay ở Vũ Hán.

ô dịch trong giai đoạn đầu tiên bắt nguồn từ 6 nhân viên của một công ty Nhật Bản được

gửi sang Vũ Hán tập huấn từ tháng 11 và trở về Việt Nam vào ngày 17/1. Trong đó bệnh

nhân số 5 quê xã Sơn Lôi, huyện Bình Xuyên, Vĩnh Phúc đã lây nhiễm cho 6 người khác

trong gia đình. Tại giai đoạn này, Trung tâm phòng chống dịch bệnh khẩn cấp COVID- 19 được kích hoạt, toàn bộ học sinh được nghỉ học, cách ly toàn bộ xã Sơn Lôi (Vĩnh Phúc). Đây đều là những bước quan trọng, phương pháp mạnh mẽ nhất trong giai đoạn 1 để phát hiện sớm nguồn lây, cách ly kịp thời, khoanh vùng nhanh, dập dịch triệt để. Tổng số bệnh nhân trong giai đoạn 1 tính đến ngày 25/2 là 16 ca nhiễm.

Giai đoạn 2: Sau hơn 20 ngày không có ca nhiễm mới, khi chỉ còn vài ngày là Việt

Nam có thể công bố hết dịch thì vào ngày 6/3/2020 UBND thành phố Hà Nội đã phải họp khẩn trong đêm khi xuất hiện bệnh nhân thứ 17 nhiễm COVID-19. Cùng với đó, thêm 20 bệnh nhân được công bố nhiễm dịch đều trên cùng chuyến VN0054 bay từ London (Anh) về Việt Nam. Chỉ vài ngày sau khi bệnh nhân 17 được biết dương tính với virus, bênh nhân số 34 tại Bình Thuận đã được xác nhận nhiễm bệnh và trở thành bệnh nhân siêu lây nhiễm khi đã lây cho 11 người khác. Với BN17 và BN34, Việt Nam bước sang giai đoạn 2 của cuộc chiến chống dịch. Giai đoạn này có 68 bệnh nhân nhiễm

mới, trong đó có 59 người đến từ nước ngoài. Nước ta vẫn áp dụng những mục tiêu theo

quyết định tạm dừng cấp thị thực cho người nước ngoài nhập cảnh Việt Nam trong 30 ngày đồng thời bắt buộc cách ly 14 ngày với mọi trường hợp nhập cảnh.

Giai đoạn 3: Đây là giai đoạn hết sức khó khăn khi có nguy cơ lây lan trong cộng đồng và mất dấu F0. Chiều ngày 20/03, Bộ y tế đã công bố 2 BN nhiễm COVID-19 thứ 86 và 87 là 2 nữ điều dưỡng tại bệnh viện Bạch Mai (Hà Nội). Đáng chú ý là 2 BN này đều không tiếp xúc trực tiếp với các bệnh nhân đã nhiễm trước đó. Cùng ngày, Bộ y tế cũng thông báo thêm BN91 là phi công của Vietnam Airlines trở về từ Anh. Ba bệnh nhân này đã mở đầu cho giai đoạn 3 của dịch COVID-19 tại Việt Nam. Nhà nước đã có những biện pháp mạnh mẽ và quyết liệt hơn trong giai đoạn chống dịch khó khăn này. Hai ổ dịch lớn trong giai đoạn này là bệnh viện Bạch Mai (Hà Nội) và quán bar Bulha (TPHCM) khi có 45 bệnh nhân liên quan. 27 BN là nhân viên Công ty TNHH Trường Sinh - công ty cung cấp đồ ăn, nước uống cho bệnh viện này, 18 BN liên quan tới ổ dịch

quán bar Bulha. Đáng lo ngại hơn là tất cả đều không truy vết được dấu của nguồn lây nhiễm (F0). Trước nguy cơ lây nhiễm lan rộng khó kiểm soát, cả Hà Nội và TPHCM đều thực hiện đóng cửa các cơ sở kinh doanh không thiết yếu, phun khử khuẩn, phong tỏa bệnh viện Bạch Mai để sàng lọc những ca nghi nhiễm như nhân viên, bệnh nhân và người nhà bệnh nhân dự kiến lên đến 40000 người. Thủ tướng cũng kí chỉ thị số 15 quyết liệt phòng chống dịch, hạn chế tụ tập đông người. Ra thêm chỉ thị số 16, thực hiện

“Cách ly toàn xã hội” trong vòng 15 ngày, yêu cầu mọi người dân ở nhà, chỉ ra đường khi thực sự cần thiết, giữ khoảng cách an toàn 2m, không tụ tập quá 2 người tại nơi công

cộng, văn phòng, bệnh viện trường học.

Hiện tại, tính đến ngày 19/05/2020 Việt Nam có 324 ca nhiễm, không có ca nào tử

vong và hơn 90% bệnh nhân khỏi bệnh. Đã 33 ngày Việt Nam không có ca nhiễm mới từ cộng đồng, các hoạt động thường ngày cũng dần dần trở lại để phát triển đất nước. Tuy nguy cơ lây nhiễm trong cộng đồng hiện nay rất thấp nhưng vẫn còn tiềm ẩn. Mọi người cần thích nghi mới trạng thái “bình thường mới”, không lơ là với các biện pháp phòng bệnh được y tế khuyến cáo.

2.1.2. Thực trạng cung cấp thông tin tại Việt Nam

Trong công cuộc chống dịch COVID-19, Việt Nam được báo chí nước ngoài ca ngợi rất nhiều khi đã đạt “kết quả phi thường” vì đã nhiều ngày không phát hiện những ca nhiễm mới và không có ca tử vong nào. Người ta cũng gọi câu chuyện chống dịch của Việt Nam là “thành công ngoại lệ” khi Việt Nam là đất nước có đường biên giới dài với Trung Quốc, nước nhỏ dân đông và có thu nhập tương đối thấp mà chống dịch vẫn

Khóa luận tốt nghiệp

rất hiệu quả. Có rất nhiều những yếu tố bất lợi đối với Việt Nam khi tham gia công cuộc

này nhưng do đâu mà Việt Nam lại thành công đến vậy?

Góp phần không nhỏ trong trận chiến này phải kể đến cách thức cung cấp, truyền thông tin từ nhà nước đến với dân.Với tư tưởng phòng còn hơn chữa thì ngay từ khi ca nhiễm đầu tiên tại Trung Quốc được công bố, nước ta đã ngay lập tức tuyên truyền cách

hạn chế xâm nhập của virut như rửa tay, đeo khẩu trang thường xuyên qua các kênh thông

tin báo, đài, thời sự. Sau đó, khi bắt đầu bước vào giai đoạn 1 của chiến dịch nhiều kênh

thông tin được phát huy hơn như công thông tin của các tỉnh thành phố cũng dần đưa tin

những ca nhiễm bệnh theo tin tức được công bố . Tuy nhiên tại giai đoạn đầu này, trang thông tin của bộ y tế phát huy chưa hiệu quả khi các thông tin có độ trễ lớn. Nhiều tin tức

về các ca nhiễm còn cập nhập sau một số cổng thông tin thành phố Đà Nang, tỉnh Quảng

Ninh... các thông tin vẫn được cập nhật chính qua tin tức thời sự và các trang báo. Tại thời

điểm này, tin tức cũng rất đa dạng trên các trang mạng xã hội như Facebook nơi có nhiều

độ tuổi sử dụng và mức độ phổ biến lớn. Đa dạng bài viết mang tính cá nhân hóa cao, suy

đoán, tung tin giả gây hoang mang dư luận, rất khó để phân biệt được tin tức là đúng hay

sai khi một tin được quá nhiều chia sẻ người khẳng định nó. Chính vì thế, ngay lập tức Bộ

y tế đã cho ra mắt ngay trang tin điện tử chính thức về nCov và một app mang tên “Sức khỏe Việt Nam” giúp người dân nắm bắt về tình hình dịch bệnh và trang bị thêm những kiến thức về phòng chống dịch bệnh. Trên Facebook cũng có một fanpage “Thông tin chính

phủ” đã được xác nhận uy tín để cập nhật thông tin hằng ngày về COVID-19 và thêm những

tin tức nổi bật liên quan đến Việt Nam. Hơn nữa, đã có những quy định xử phạt về việc tung tin sai lệch sự thật về dịch bệnh, lên án mạnh mẽ những hành vi sai trái dẹp bỏ tin đồn

thất thiệt.

nhà” xác định các trường hợp nhập cảnh, nghi nhiễm nhằm giảm việc sai sót thông tin khi vẫn có người khai gian dối, không chịu hợp tác và thông báo thông tin cho những người tiếp cận thông tin kém đặc biệt là các vùng núi nơi điều kiện cơ sở vật chất vẫn

Một phần của tài liệu Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp (Trang 31)

Tải bản đầy đủ (DOCX)

(72 trang)
w