1. Trang chủ
  2. » Cao đẳng - Đại học

Luận văn thạc sĩ ngành Máy tính: Phân tích câu hỏi tiếng Việt trong hệ thống đón tiếp và phân loại bệnh nhân - TRƯỜNG CÁN BỘ QUẢN LÝ GIÁO DỤC THÀNH PHỐ HỒ CHÍ MINH

20 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 539,69 KB

Nội dung

Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP), là một lĩnh vực khoa học máy tính, kỹ thuật thông tin và trí tuệ nhân tạo tập trung vào nghiên cứu các tƣơng [r]

(1)

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM



Lƣu Thị Vân

PHÂN TÍCH CÂU HỎI TIẾNG VIỆT

TRONG HỆ THỐNG ĐÓN TIẾP VÀ PHÂN LOẠI BỆNH NHÂN

LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH

(2)

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM



Lƣu Thị Vân

PHÂN TÍCH CÂU HỎI TIẾNG VIỆT

TRONG HỆ THỐNG ĐÓN TIẾP VÀ PHÂN LOẠI BỆNH NHÂN

Chuyên ngành: Hệ thống thông tin Mã số: 48 01 04

LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH

CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS.Nguyễn Nhƣ Sơn

HÀ NỘI – 2020

(3)

LỜI CAM ĐOAN

Tơi Lƣu Thị Vân, học viên khóa I, ngành Công nghệ thông tin, chuyên ngành Hệ Thống Thông Tin Tơi xin cam đoan luận văn “Phân tích câu hỏi Tiếng Việt hệ thống đón tiếp phân loại bệnh nhân” tơi nghiên cứu, tìm hiểu phát triển dƣới hƣớng dẫn TS Nguyễn Nhƣ Sơn Luận văn chép từ tài liệu, cơng trình nghiên cứu ngƣời khác mà không ghi rõ tài liệu tham khảo Tôi xin chịu trách nhiệm lời cam đoan

Hà Nội, tháng 10 năm 2020 Học viên

(4)

LỜI CẢM ƠN

Đầu tiên xin gửi lời cảm ơn tới thầy cô Học viện Khoa học Công nghệ nghệ Việt nam, Viện Hàn lâm Khoa học Công nghệ Việt Nam tận tình giảng dạy truyền đạt kiến thức cho tơi suốt khóa học cao học vừa qua.Tôi xin đƣợc gửi lời cảm ơn đến thầy cô Bộ môn Hệ thống thông tin nhƣ Khoa công nghệ thông tin mang lại cho kiến thức vô quý giá bổ ích trình học tập trƣờng

Đặc biệt xin chân thành cảm ơn thầy giáo, TS Nguyễn Nhƣ Sơn, ngƣời định hƣớng, giúp đỡ, trực tiếp hƣớng dẫn tận tình bảo tơi suốt q

trình nghiên cứu, xây dựng hồn thiện luận văn

Tôi xin đƣợc cảm ơn tới gia đình, ngƣời thân, đồng nghiệp bạn bè thƣờng xuyên quan tâm, động viên, chia sẻ kinh nghiệm, cung cấp tài liệu hữu ích thời gian học tập, nghiên cứu nhƣ suốt trình thực luận văn tốt nghiệp

Hà Nội, tháng 10 năm 2020 Học viên

(5)

MỤC LỤC

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

DANH MỤC THUẬT NGỮ VÀ CÁC KÝ HIỆU VIẾT TẮT

DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ

DANH MỤC CÁC BẢNG BIỂU

TÓM TẮT

MỞ ĐẦU 10

CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN 13

1 Tổng quan hệ thống trả lời tự động 13

1.1 Hệ thống hƣớng nhiệm vụ hƣớng hội thoại 14

1.2 Tình hình nghiên cứu ngồi nƣớc 15

2 Xử lý ngôn ngữ tự nhiên ứng dụng 17

2.1 Sơ lƣợc ngôn ngữ tự nhiên 17

2.2 Các ứng dụng xử lý ngôn ngữ tự nhiên 18

2.3 Tiền xử lý văn 18

2.3.1 Chuẩn hóa biến đổi văn 18

2.3.2 Biểu diễn văn dƣới dạng vector 19

3 Bài toán phân loại văn 19

3.1 Bài toán phân loại văn 19

3.2 Một số thuật toán phân loại văn 20

3.2.1 Thuật toán Naive Bayes 20

3.2.2 Thuật toán SVM 23

3.2.3 Mạng nơ-ron nhân tạo 31

3.3 Các phƣơng pháp đánh giá hệ thống phân lớp 36

3.3.1 Đánh giá theo độ xác Accuracy 37

(6)

3.3.3 True/False Positive/Negative 39

3.3.4 Precision Recall 40

3.3.5 F1-Score 42

CHƢƠNG 2: PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG 44

1 Vấn đề hệ thống trả lời tự động 44

2 Bài toán phân loại câu hỏi 46

2.1 Phát biểu toán 46

2.2 Các phƣơng pháp phân loại câu hỏi 46

2.2.1 Phân loại câu hỏi dựa luật 47

2.2.2 Phƣơng pháp sử dụng mơ hình ngơn ngữ 48

2.2.3 Phân loại câu hỏi dựa vào học máy 48

2.3 Trích chọn đặc trƣng cho phân tích câu hỏi 51

2.3.1 Đặc trƣng từ vựng 51

2.3.2 Đặc trƣng cú pháp 53

2.3.3 Đặc trƣng ngữ nghĩa 54

3 Sự phân loại câu hỏi Taxonomy 55

3.1 Khái niệm Taxonomy 55

3.2 Taxonomy câu hỏi 55

3.3 Mơ hình phân lớp đa cấp 59

4 Một số kết nghiên cứu 60

CHƢƠNG 3: XÂY DỰNG MƠ HÌNH VÀ ĐÁNH GIÁ THỰC NGHIỆM 62

1 Kiến trúc ứng dụng 62

2 Xây dựng cài đặt mơ hình 63

2.1 Tập liệu thực nghiệm 63

2.2 Công cụ thực nghiệm 65

2.3 Lựa chọn đặc trƣng 66

3 Đánh giá kết thực nghiệm 67

KẾT LUẬN 69

(7)

DANH MỤC THUẬT NGỮ VÀ CÁC KÝ HIỆU VIẾT TẮT

Từ viết tắt Từ chuẩn Diễn giải

AI Artificial Intelligence Trí tuệ nhân tạo

ML Machine Learning Máy học, máy móc có khả học tập

ANN Artificial Nerual Network Mạng nơ ron nhân tạo NLP Natural Languague

Processing

Xử lý ngôn ngữ tự nhiên VNTK Vietnamese NLP Toolkit

for Node

Bộ công cụ xử lý ngôn ngữ tiếng Việt NLTK Natural Language Toolkit Bộ công cụ xử lý ngôn ngữ tự nhiên

bằng Python

Python Python Ngơn ngữ lập trình python, tảng lập trình phía máy chủ

SDK Support Development Kit Bộ công cụ hỗ trợ phát triển CPU Central Processing Unit Bộ xử lý trung tâm

GPU Graphics Processing Unit Bộ vi xử lý chuyên dụng nhận nhiệm vụ tăng tốc, xử lý đồ họa cho vi xử lý trung tâm CPU

API Application Programming Interface

Giao diện lập trình ứng dụng QA Question Answering Các cặp câu hỏi đáp

Agent Agent hay Software Agent Tác tử hay Tác tử phần mềm, chƣơng trình máy tính tồn mơi trƣờng định, tự động hành động phản ứng lại thay đổi môi trƣờng nhằm đáp ứng mục tiêu đƣợc thiết kế trƣớc

Conversational agents

Conversational agents Các tác tử đàm thoại tác tử có khả giao tiếp thơng qua văn lời nói

NBC Naive Bayes Classifier Bộ phân lớp Naïve Bayes TREC Text REtrieval Conference Hội nghị truy hồi thơng tin

(8)

DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ

Hình 1: Mặt phân cách liệu 24

Hình Lề siêu phẳng 24

Hình Dữ liệu phi tuyến 27

Hình Khơng gian liệu phi tuyến 29

Hình Kiến trúc mạng nơ-ron nhân tạo 32

Hình Quá trình xử lý thông tin mạng nơ-ron nhân tạo 33

Hình Minh hoạ unnormalized confusion normalized confusion matrix 39

Hình Cách tính Precision Recall 41

Hình Các bƣớc hệ thống trả lời tự động 44

Hình 10 Mơ hình giai đoạn huấn luyện 49

Hình 11 Các bƣớc thực giai đoạn huấn luyện 50

Hình 12 Mơ hình giai đoạn phân lớp 51

Hình 13 Bộ phân lớp đa cấp Li Roth 60

Hình 14 Kiến trúc tổng quan hệ thống phân loại câu hỏi 63

Hình 15 Tập liệu huấn luyện 64

Hình 16 Tập liệu kiểm tra 64

DANH MỤC CÁC BẢNG BIỂU Bảng Một vài so sánh cách xếp trật tự câu 18

Bảng Dữ liệu tập mẫu tính xác suất theo phƣơng pháp Naive Bayes 21

Bảng Biểu diễn đặc trƣng câu hỏi 52

Bảng Taxonomy câu hỏi 56

Bảng Độ xác phân loại câu hỏi với thuật toán học máy khác 61 Bảng Thông tin phần cứng thực nghiệm 65

(9)

TÓM TẮT

Sự phát triển mạnh mẽ Công nghệ thông tin năm gần đây, đặc biệt bối cảnh cách mạng công nghiệp lần thứ tƣ tác động tới nhiều ngành nghề, nhiều lĩnh vực, có ngành y tế, địi hỏi bệnh viện sở y tế phải không ngừng đổi để nâng cao chất lƣợng dịch vụ khám chữa bệnh, nâng cao hiệu suất làm việc bác sĩ, giảm chi phí khám chữa bệnh, giảm thời gian chờ đợi bệnh nhân

Ứng dụng công nghệ nhƣ : Trí tuệ nhân tạo (AI), Dữ liệu lớn (Big Data), Điện toán đám mây (Cloud Computing), Kết nối vạn vật (IOT), Di động (Mobility), … giúp lãnh đạo bệnh viện sở y tế quản lý tồn hoạt động với số liệu xác, trung thực trực tuyến Việc ứng dụng công nghệ thông tin (CNTT) cơng tác bảo vệ, chăm sóc, nâng cao sức khỏe Việt Nam có bƣớc phát triển quan trọng, đặt móng xây dựng, triển khai vận hành y tế thơng minh

Trí tuệ nhân tạo (AI – Artificial Intelligent) ngành Khoa học máy tính liên quan đến việc mơ trình suy nghĩ học tập ngƣời cho máy móc, đặc biệt cho hệ thống máy tính Các q trình bao gồm việc học tập (thu thập thông tin thiết lập quy tắc sử dụng thông tin), lập luận (sử dụng quy tắc để đạt đƣợc kết luận gần xác định), tự sửa lỗi AI gần trở nên bùng nổ, nhận đƣợc nhiều quan tâm nhờ Dữ liệu lớn (Big data) phát triển, cho phép xử lý công nghệ AI với tốc độ nhanh hết Một số ứng dụng điển hình AI lĩnh vực y tế kể đến nhƣ : (1) Phẫu thuật với hỗ trợ Robot cho phép bác sĩ thực nhiều quy trình phức tạp với kiểm sốt tốt ; (2) Trợ lý y tá ảo hƣớng dẫn tƣơng tác với bệnh nhân, thực biện pháp chăm sóc tránh việc thăm khám khơng cần thiết ; (3) Hỗ trợ chẩn đoán lâm sàng nhƣ phát ung thƣ, hay việc hỗ trợ đƣa phác đồ điều trị ; (4)Tự động hóa tác vụ quản trị giúp tiết kiệm thời gian, giúp giảm bớt khối lƣợng công việc nhiệm vụ quản trị ; (5) Phân tích hình ảnh giúp bác sĩ đƣa đƣợc kết luận xác tổn thƣơng hình ảnh X-Quang, CT, MRI,

(10)

đón tiếp bệnh nhân đến thăm khám điều trị chữa bệnh sở y tế bệnh viện Việc đón tiếp liên tục, tự động hóa nhanh chóng giúp phân luồng giảm tải cho sở khám chữa bệnh (KCB) để cứu chữa thăm khám đƣợc nhiều bệnh nhân hơn, đồng nghĩa cứu đƣợc nhiều mạng ngƣời

Từ yêu cầu thực tế để xây dựng triển khai hệ thống tự động đón tiếp khám bệnh, đón tiếp làm cận lâm sàng, hƣớng dẫn tìm đƣờng, hƣớng dẫn thủ tục, phân loại khám bệnh cho bệnh nhân dựa vào tập câu hỏi cho trƣớc thay cho cán đón tiếp Để xây dựng đƣợc hệ thống đón tiếp nhƣ vậy, tơi thực nghiên cứu phƣơng pháp phân tích câu hỏi tiếng Việt để tiền xử lý tập lệnh cho hệ thống đón tiếp phân loại bệnh nhân cách tự động

Phân loại văn q trình gán nhãn phân nhóm cho văn theo nội dung Đây nhiệm vụ Xử lý ngôn ngữ tự nhiên với ứng dụng rộng rãi nhƣ : Phân tích cảm xúc (Sentiment analysis), gán nhãn chủ đề (Topic labeling), phát thƣ rác (Spam detection), phát ý định (Intent detection)

Trong khuôn khổ đề tài này, nghiên cứu phƣơng pháp Phân tích câu hỏi tiếng Việt đƣa kiến trúc để xây dựng hệ thống đón tiếp phân loại bệnh nhân đƣợc ứng dụng bệnh viện sở khám chữa bệnh

(11)

MỞ ĐẦU

1 Động lực nghiên cứu tính cấp thiết tốn thực tế

Trong bối cảnh mạng Internet trở lên phổ biến nhƣ nay, ngƣời kết nối với ngƣời thông qua mạng xã hội, thời gian nơi đâu Sẽ thật tốt có hệ thống tự động thơng minh hỗ trợ ngƣời cách trị chuyện, có khả nhắc nhở, làm trợ lý cơng việc theo dõi tình trạng sức khỏe cá nhân lúc, nơi

Hệ thống trả lời tự động hay trợ lý ảo chủ đề nóng từ đầu năm 2016, thức công ty lớn nhƣ Microsoft, Google, Facebook, Apple, Samsung, WeChat, Slack giới thiệu trợ lý ảo mình, hệ thống trả lời tự động Chính thức đặt cƣợc lớn vào chơi tạo những hệ trợ lý ảo, với mong muốn tạo trợ lý ảo thực thông minh tồn hệ sinh thái sản phẩm

Trong nƣớc, số công ty nhƣ ERM Vietcare phát triển tạo hệ thống trả lời tự động kiến thức y khoa, hỏi đáp sức khỏe thông tin y tế, hay Subiz, Messnow, Harafunnel, Chatbot Vietnam, … cố gắng tạo cho hệ thống hỗ trợ, chăm sóc khách hàng bán hàng tự động

Trong lĩnh vực y tế, số cơng ty ứng dụng Robot Đón tiếp nhƣ sản phẩm Trí tuệ nhân tạo, Robot sản phẩm trình chuyển đổi số y tế, nhân tố thiếu bệnh viện thơng minh Hỗ trợ hƣớng dẫn tồn quy trình từ khám chữa bệnh đến dẫn, kết nối với hệ thống thơng tin y tế khác

(12)

Có thể thấy, hệ thống trả lời tự động có nhiệm vụ vai trị quan trọng, trợ giúp đƣợc ngƣời nhiều nhiều lĩnh vực: y tế, giáo dục, thƣơng mại điện tử, …, động lực to lớn để nghiên cứu đƣa sản phẩm phù hợp ứng dụng vào thực tế

2 Mục tiêu luận văn

Với sở thực tiễn trên, luận văn đặt mục tiêu nghiên cứu số phƣơng pháp xử lý ngôn ngữ tự nhiên để phân tích câu hỏi, câu mệnh lệnh, cho phép phân loại văn đầu vào câu nói tiếng Việt có tính chất sai khiến, yêu cầu lệnh Nhằm giải phần nhỏ hệ thống Hỏi đáp Đón tiếp bệnh nhân sở y tế

Từ đó, xây dựng mơ hình phân loại văn để dự đoán đƣợc ý định văn đầu vào Từ kết thu đƣợc, đƣợc sử dụng để ứng dụng vào tốn Đón tiếp phân loại bệnh nhân đến phòng khám phù hợp sở khám chữa bệnh

3 Cấu trúc luận văn

Các nghiên cứu kết đƣợc mô tả luận văn đƣợc chia thành bố cục với nội dung nhƣ sau:

CHƢƠNG 1: Giới thiệu tổng quan; Giới thiệu tổng quan hệ thống trả lời tự động, tình hình nghiên cứu nƣớc; Nghiên cứu sở xử lý ngơn ngữ tự nhiên ứng dụng;tìm hiểu toán phân loại văn Các phƣơng pháp phân loại văn

CHƢƠNG2: Phân tích câu hỏi hệ thống trả lời tự dộng; Nghiên cứu vấn đề hệ thống trả lời tự động, tìm hiểu phƣơng pháp xác định ý định ngƣời dùng phƣơng pháp học máy; Nghiên cứu phƣơng pháp đánh giá hệ thống thống phân lớp ý định

(13)

KẾT LUẬN VÀ KIẾN NGHỊ: Phần đƣa kết luận đánh giá kết đạt đƣợc luận văn, số đề xuất để cải tiến mơ hình, nhƣ khả ứng dụng vào toán thực tế

(14)

Xây dựng hệ thống trả lời tự động tốn khó thuộc lĩnh vực xử lý ngơn ngữ tự nhiên Bởi tính nhập nhằng, đa nghĩa, đa ngữ cảnh ngôn ngữ tự nhiên Bài toán đặt nhiều thách thức để phát đƣợc câu trả lời phù hợp nhất, thông tin hữu ích

Chƣơng giới thiệu tổng quan hệ thống đối thoại ngƣời máy, nghiên cứu nƣớc để thấy đƣợc phƣơng pháp tiếp cận phong phú, sau tổng quan phân loại mơ hình trả lời tự động Tìm hiểu giới thiệu tốn phân loại văn bản, lý thuyết học máy, phƣơng pháp đánh giá hệ thống phân lớp

1 Tổng quan hệ thống trả lời tự động

Hệ thống hộp thoại (Dialogue systems), đƣợc gọi trợ lý tƣơng tác hội thoại, trợ lý ảo đƣợc gọi với thuật ngữ chatbot, đƣợc sử dụng rộng rãi ứng dụng khác nhau, từ dịch vụ kỹ thuật cơng cụ học ngơn ngữ giải trí [22] Các hệ thống đối thoại đƣợc chia thành hệ thống hướng mục tiêu, ví dụ nhƣ dịch vụ hỗ trợ kỹ thuật, các hệ thống khơng có định hướng mục tiêu, ví dụ nhƣ công cụ học ngôn ngữ nhân vật trị chơi máy tính [23] Trong luận văn tập trung vào trƣờng hợp thứ nhất, thiết kế hệ thống hƣớng tới nhiệm vụ có mục tiêu, tức xây dựng mơ hình phân tích ý định ngƣời dùng cho tiếng Việt tập liệu đƣợc xây dựng theo kịch

Một thách thức phát triển hệ thống đối thoại ngƣời máy hƣớng nhiệm vụ, việc mở rộng chúng nhiều miền ứng dụng, đƣợc nhắc đến [24], sẵn có liệu miền hội thoại cụ thể Hệ thống đối thoại cần kết hợp khai thác nhiều thành phần, ví dụ nhƣ nhận dạng giọng nói, hiểu ngôn ngữ tự nhiên, giám sát hội thoại, phát sinh ngôn ngữ tự nhiên, thành phần yêu cầu sẵn có nguồn liệu miền cụ thể, tài ngun mơ hình Bao gồm mơ hình ngơn ngữ, mơ hình ngữ âm, mơ hình hiểu ngôn ngữ, miền thể Ontology, kịch tƣơng tác, mơ hình sinh ngơn ngữ, …

(15)

dữ liệu thoại dẫn đến chi phí phát triển cao tiêu tốn thời gian cho nhà phát triển hệ thống Trừ nguồn lực bên ngồi có sẵn miền tập liệu yêu cầu phải có hệ thống triển khai có khả trì đối thoại với ngƣời dùng Điều dẫn đến vấn đề khởi đầu: thiếu liệu để huấn luyện hệ thống ban đầu, nhà phát triển hệ thống mang gánh nặng việc phát triển văn phạm mô hình ngơn ngữ, thủ cơng [24] Thu thập liệu hội thoại với phiên hệ thống đƣợc triển khai thƣờng có thiếu sót: chất lƣợng liệu thu thập phải chịu bất cập hệ thống nó, ngƣời dùng chịu ảnh hƣởng ngơn ngữ chúng để điều chỉnh cho khuyết điểm hệ thống việc theo hết đối thoại Kết là, tốc độ tập liệu chậm so với mong muốn Cuối cùng, trình phát triển tốn phải đƣợc lặp lặp lại lần cho miền hệ thống mới, chức đƣợc thêm vào

1.1 Hệ thống hƣớng nhiệm vụ hƣớng hội thoại

Các hệ thống trả lời tự động giao tiếp với ngƣời dùng ngôn ngữ tự nhiên (văn bản, giọng nói, hai) thƣờng đƣợc chia vào hai nhóm chính: Hƣớng nhiệm vụ hƣớng hội thoại:

Các hệ thống hƣớng nhiệm vụ đƣợc thiết kế cho tác vụ cụ thể đƣợc thiết lập để có hội thoại ngắn (từ tƣơng tác đơn lẻ đến hàng loạt tƣơng tác liên tiếp) để lấy thông tin từ ngƣời dùng để giúp hoàn thành tác vụ

Ngày mà thấy diện chúng thiết bị di động điều khiển gia đình (Siri, Cortana, Alexa, Google Home, v.v.) mà hệ thốnghội thoại đƣa dẫn tìm đƣờng, điều khiển thiết bị gia đình, tìm nhà hàng giúp gọi điện thoại gửi văn Các công ty triển khai tác tử đàm thoại trang web họ để giúp khách hàng trả lời câu hỏi giải vấn đề cách tự động Tác tử đàm thoại đóng vai trị quan trọng nhƣ giao diệncho robot để giao tiếp

(16)

trung vào nhiệm vụ cụ thể nhƣ đặt vé máy bay Các hệ thống thƣờng có giá trị giải trí, chẳng hạn nhƣ hệ thống Microsoft Xiao XiaoIce (Little Bing) (Microsoft, 2014), trò chuyện với ngƣời tảng nhắn tin văn

Trên phƣơng tiện truyền thông công nghiệp, tác tử đàm thoại ngƣời-máy thƣờng đƣợc gọi thuật ngữ Chatbots, chƣơng trình này, thƣờng cố gắng vƣợt qua kiểm tra thử nghiệm Turing khác

Tuy nhiên, hệ thống sớm, ELIZA (Weizenbaum, 1966), Chatbots đƣợc sử dụng cho mục đích thực tế, chẳng hạn nhƣ kiểm tra lý thuyết tƣ vấn tâm lý

1.2 Tình hình nghiên cứu ngồi nƣớc

Việc nghiên cứu vềhệ thống trả lời tự động có ý nghĩa khoa học thực tế Đã có nhiều hội nghị thƣờng niên xử lý ngôn ngữ tự nhiên, khai phá liệu, xử lý liệu lớn, tƣơng tác ngƣời máy, … nhƣ TREC, CLEF, Việt Nam có KSE, RIVF, ATC, …

Theo ý tƣởng Russellvà cộng [25], hệ thống AI phải đƣợc kiểm tra (hành động dƣới ràng buộc hình thức phù hợp với điều kiện kỹ thuật); phải đƣợc xác nhận (không theo đuổi hành vi không mong muốn dƣới ràng buộc trƣớc); phải an toàn (ngăn chặn thao tác có chủ ý bên thứ ba, bên bên trong); phải đƣợc kiểm sốt (con ngƣời cần phải có cách để thiết lập lại kiểm soát cần thiết)

(17)

liệu cho việc xây dựng hệ thống đối thoại, họ trích xuất 1,3 triệu hội thoại từ Twitter với mục đích phát hành động hội thoại Bằng việc xây dựng dựa tƣơng đồng phân phối khn khổ mơ hình khơng gian vector, Banchs Li (2012) [33] xây dựng cơng cụ tìm kiếm để lấy câu trả lời thích hợp cho thông điệp đầu vào Phƣơng pháp tiếp cận khác tập trung vào nhiệm vụ lĩnh vực cụ thể nhƣ trò chơi [34], nhà hàng ăn uống (2016) [35,36]

(18)

2.1 Sơ lƣợc ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP), lĩnh vực khoa học máy tính, kỹ thuật thơng tin trí tuệ nhân tạo tập trung vào nghiên cứu tƣơng tác mặt ngôn ngữ máy tính ngƣời, cụ thể làm để lập trình cho máy tính xử lý phân tích lƣợng lớn liệu ngơn ngữ tự nhiên

Theo cách hiểu khác, NLP quan tâm đến việc làm để máy tính hiểu tận dụng đƣợc tập liệu sẵn có dƣới dạng ngôn ngữ tự nhiên NLP đƣợc ứng dụng rộng rãi thực tế nhằm: tiết kiệm sức lao động, thúc đẩy ngành nghề kinh doanh mới, giúp nhà hoạch định chiến lƣợc việc đƣa định, …

Ngôn ngữ tự nhiên không giống với ngôn ngữ nhân tạo nhƣ ngôn ngữ máy tính (C, PHP, …) Trên giới có khoảng 7000 loại ngơn ngữ Có nhiều cách để phân loại, số cách phân loại ngôn ngữ phổ biến nhƣ dựa vào: nguồn gốc, đặc điểm, …

Phân loại ngôn ngữ theo nguồn gốc:

1 Ấn – Âu : Dòng Ấn độ, Hy lạp, German, …

2 Xê-mít (Semite): Dịng Semite, Do Thái, Ả Rập, Ai cập, Kusit, … Thổ: Thổ Nhĩ Kỳ

4 Hán Tạng (Tạng-Miến): Dòng Hán, Tạng-Miến, … Nam Phƣơng: Dòng Nam-Thái, Nam Á (Tiếng Việt) Phân loại ngơn ngữ theo đặc điểm:

1 Hịa kết (Flexional): Đức, Anh, Nga…

2 Chắp dính (Agglutinate): Thổ Nhĩ Kỳ, Nhật Bản, Triều Tiên, … Đơn lập (Isolate): Tiếng Việt, Hán, …

4 Tổng hợp (Polysynthetic): Chukchi, Aniu…

(19)

Ngôn ngữ Câu ví dụ Trật tự

Tiếng Việt Tơi đọc sách SVO

Tiếng Anh I read a book SVO

Tiếng Nhật 私は本を読みます SOV

2.2 Các ứng dụng xử lý ngôn ngữ tự nhiên

Các ứng dụng phổ biến NLP bao gồm: ứng dụng giám sát mạng xã hội, chatbot, tổng đài trả lời tự động

2.3 Tiền xử lý văn

Văn trƣớc đƣợc vector hoá, tức trƣớc sử dụng văn cần phải đƣợc tiền xử lý, để loại bỏ nhiễu làm liệu Quá trình tiền xử lý giúp nâng cao hiệu suất phân loại giảm độ phức tạp thuật toán huấn luyện

Tuỳ vào mục đích phân loại mà có phƣơng pháp tiền xử lý văn khác nhau, nhƣ :

1 Chuyển vẳn chữ thƣờng

2 Loại bỏ dấu câu (nếu không thực tách câu)

3 Loại bỏ kí tự đặc biệt biệt, chữ số, phép tính toán số học Loại bỏ từ dừng stopword (những từ xuất hầu hết

văn bản) khơng có ý nghĩa tham gia vào phân loại văn Các kỹ thuật tinh chỉnh khác dựa kinh nghiệm

2.3.1 Chuẩn hóa biến đổi văn

Một nhiệm vụ việc xử lý phân loại văn chọn đƣợc mơ hình biểu diễn văn thích hợp Một văn dạng thơ (dạng chuỗi) cần đƣợc chuyển sang mơ hình khác để tạo thuận lợi cho việc biểu diễn tính toán

(20)

đo lƣờng giá trị phần tử văn

2.3.2 Biểu diễn văn dƣới dạng vector

Mơ hình khơng gian vector mơ hình đƣợc sử dụng rộng rãi cho việc tìm kiếm (truy hồi) thơng tin Ngun nhân đơn giản

Trong mơ hình này, văn đƣợc thể khơng gian có số chiều lớn, chiều khơng gian tƣơng ứng với từ văn Phƣơng pháp biểu diễn cách hình tƣợng nhƣ sau : văn D đƣợc biểu diễn dƣới dạng ⃗ (vector đặc trƣng cho văn D) Trong đó, ⃗ , n số lƣợng đặc trƣng hay số chiều vector văn bản,

là trọng số đặc trƣng thứ i (với 1≤ i ≤n)

Nhƣ vậy, kho ngữ liệu q trình huấn luyện nhiều văn bản, ta kí hiệu Dj, văn thứ j tập ngữ liệu, vector vector đặc trƣng cho văn Dj, là trọng số thứ i vector văn j 3 Bài toán phân loại văn

3.1 Bài toán phân loại văn

Trong lĩnh vực xử lý ngôn ngữ tự nhiên, phân loại văn toán xử lý văn cổ điển, có nhiệm vụ ánh xạ văn vào chủ đề biết tập hữu hạn chủ đề dựa ngữ nghĩa văn Theo Yang & Xiu (1999)[1] “Phân loại văn tự động việc gán nhãn phân loại lên văn dựa mức độ tương tự văn so với văn gán nhãn tập huấn luyện” Ví dụ viết tờ báo thuộc (hoặc vài) chủ đề (nhƣ thể thao, sức khỏe, cơng nghệ thơng tin,…) Việc tự động phân loại văn vào chủ đề giúp cho việc xếp, lƣu trữ truy vấn tài liệu dễ dàng sau

khoảng 7000 loại ngôn ngữ

Ngày đăng: 01/04/2021, 13:43

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w