PHÂN TÍCH NGÔN NGỮ TỰ NHIÊNNgôn ngữ tự nhiên là ngôn ngữ của các dân tộc, ví dụ như tiếng Việt, tiếng Anh, tiếng Pháp,… Các ngôn ngữ này hình thành dầndần trong lịch sử một cách tự nhiên
Trang 2Trí tuệ nhân tạo và định hướng ứng dụng – Nhóm 2 GVHD: Trần Sơn Hải
LỜI NÓI ĐẦU
Nhân loại trong thời điểm hiện tại đã dần tiến bước xa hơn, đột tiến trong nền khoa học, đặc biệt là về công nghệ thông tin Trong đó, ngành khoa học nghiên cứu AI đã dần trở nên không còn xa lạ đối với mọi người trên thế giới, nó dần trở nên thân quen hơn, gần như là xuất hiện ở mọi nơi, mọi ngóc ngách trên Trái Đất này
Cũng chính vì điều này mà trong các khóa học ở nơi giảng đường đã xuất hiện một môn học đầy mới mẻ và thú vị - AI trí tuệ nhân tạo Sau một thờigian dài học tập và nghiên cứu, dưới sự diều dắt của thầy Hải, nhóm 2 chúng em đã bắt tay vào làm một đề tài tìm hiểu nhỏ, có tên là “Trí tuệ nhân tạ và định hướng ứng dụng” với mong muốn sẽ đem lại nhiều thông tin cũng như trải nghiệm bổ ích dành cho mọi người
Mời thầy và các bạn cũng xem qua sản phẩm của nhóm em
Xin kính chúc thầy và các bạn thật nhiều sức khỏe, may mắn
Trang 3Trí tuệ nhân tạo và định hướng ứng dụng – Nhóm 2 GVHD: Trần Sơn Hải
Mục Lục
MỞ ĐẦU………
I PHÂN TÍCH NGÔN NGỮ TỰ NHIÊN……….
II CÁCH THỨC XỬ LÝ NGÔN NGỮ TỰ NHIÊN HOẠT ĐỘNG NHƯ THẾ NÀO?
III XỬ LÝ NGÔN NGỮ TỰ NHIÊN………
IV XỬ LÝ NGÔN NGỮ TỰ NHIÊN ĐƯỢC SỬ DỤNG ĐỂ LÀM GÌ?
V KHẢO SÁT VỚI GOOGLE CLOUD NATURAL LANGUAGE API………
VI LỢI ÍCH CỦA XỬ LÝ NGÔN NGỮ TỰ NHIÊN.………
VII ỨNG DỤNG TRONG GIÁO DỤC – ĐÀO TẠO……….
VII TỔNG KẾT………
Trang 4Trí tuệ nhân tạo và định hướng ứng dụng – Nhóm 2 GVHD: Trần Sơn Hải
I PHÂN TÍCH NGÔN NGỮ TỰ NHIÊN
Ngôn ngữ tự nhiên là ngôn ngữ của các dân tộc,
ví dụ như tiếng Việt, tiếng Anh, tiếng Pháp,… Các ngôn ngữ này hình thành dầndần trong lịch sử một cách tự nhiên, thông qua hoạt động nhận thức và cải tạo thực tiễn của các dân tộc Các ngôn ngữ tự nhiên hình thành và phát triển một cách tự phát, nghĩa là ngôn ngữ tự nhiên không phải là kết quả hoạt động tự giácnhằm tạo ra chúng của một người hay một nhóm người nào đó Các quy tắc hình thành ngôn ngữ tự nhiên, chẳng hạn quy tắc ngữ pháp, cú pháp ,… vì thế nhiều khi không được xác định ở dạng tường minh
Tư duy gắn một cách hữu cơ với ngôn ngữ Bởi vậy,
để hiểu rõ các hình thức và quy luật của tư duy thì không thể không hiểu ngôn ngữ về mặt logic Việc phân tích ngôn ngữ tự nhiên giúp ta hiểu và hình thức hóa được các phán đoán và suy luận logic, thông qua đó mà xác định được chính xác thông tin chứa trong chúng cần thiết cho quá trình tư duy tiếp theo
CLOUD NATURAL LANGUAGE
Natural language processing (NLP) refers to the branch of computer science - and more specifically, the branch of artificial intelligence or AI - concerned withgiving computers the ability to understand text and spoken words in much the same way human beings can
NLP combines computational linguistics - rule-based modeling of human language - with statistical, machine learning, and deep learning models Together, these technologies enable computers to process human language in the form of text or voice data and to ‘understand’ its full meaning, complete with the speaker or writer’s intent and sentiment
NLP drives computer programs that translate text from one language to another, respond to spoken commands, and summarize large volumes of text rapidly - even in real time There’s a good chance you’ve interacted with NLP in the
Trang 5Trí tuệ nhân tạo và định hướng ứng dụng – Nhóm 2 GVHD: Trần Sơn Hải
form of voice - operated GPS systems, digital assistants, speech – to - text dictation software, customer service chatbots, and other consumer
conveniences But NLP also plays a growing role in enterprise solutions that help streamline business operations, increase employee productivity, and simplify mission-critical business processes
Cloud natural language là một nhánh ứng dụng AI của hệ thống Google, là trangweb dùng để phân tích các ngôn ngữ tự nhiên theo những thông số khách quan
Là một công cụ hữu ích đối với người dùng trong việc giao tiếp với khách hàng.Bên cạch đó việc phân tích ngôn ngữ sẽ giúp người dung sử dụng ngôn từ mộtcách hợp lý, khách quan và có logic hơn trong giao tiếp Là công cụ dễ dàngtruy cập và tiếp cận đối với con người trong thế hệ 4.0 ngày nay, nên độ chínhxác và khoa học rất cao
1 Tiền xử lý dữ liệu: Gồm các việc chuẩn bị và “dọn dẹp” dữ liệu văn bản cho
máy móc nhằm phục vụ cho quá trình phân tích Các cách để thực hiện cáccông việc trên gồm:
Mã hóa: Chia văn bản thành các đơn vị nhỏ hơn để làm việc
Dừng từ loại bỏ: Các từ phổ biến bị xóa khỏi văn bản và giữ lại các từ duynhất cung cấp nhiều thông tin nhất về văn bản
Lemmatization và gốc: Các từ được rút gọn về dạng gốc để xử lý
Trang 6Trí tuệ nhân tạo và định hướng ứng dụng – Nhóm 2 GVHD: Trần Sơn Hải
Gắn thẻ một phần của bài phát biểu: Đây là khi các từ được đánh dấu dựatrên phần của bài phát biểu – chẳng hạn như danh từ, động từ và tính từ
2 Phát triển thuật toán: Một thuật toán được phát triển để xử lý dữ liệu sau
khi dữ liệu qua giai đoạn tiền xử lý dữ liệu Có hai loại thuật toán xử lý ngônngữ tự nhiên khác nhau thường được sử dụng là:
Hệ thống dựa trên quy tắc: Đây là cách được sử dụng rất sớm cho đến ngàynay Hệ thống này sử dụng các quy tắc ngôn ngữ được thiết kế cẩn thận
Hệ thống dựa trên Machine learning: Đây là cách sử dụng các phương phápthống kê Phương pháp này thực hiện các tác vụ dựa vào dữ liệu đào tạo màchúng được cung cấp và điều chỉnh phương pháp của chúng khi có nhiều dữliệu hơn được xử lý Kết hợp machine learning, deep learning và neuralnetworks – phương pháp này xử lý và học lặp đi lặp lại nhằm trau dồi cácquy tắc của riêng
Nguồn tham khảo
https://bkhost.vn/blog/nlp-xu-ly-ngon-ngu-tu-nhien/#cach_thuc_xu_ly_ngon_ngu_tu_nhien_hoat_dong_nhu_the_nao
III XỬ LÝ NGÔN NGỮ TỰ NHIÊN: Công nghệ giúp máy tính hiểu và giao
tiếp với con người
Xử lý ngôn ngữ tự nhiên (natural languageprocessing), một nhánh nghiên cứu của trí tuệ nhân tạo, trong đó phát triển cácthuật toán, xây dựng các chương trình máy tính có khả năng phân tích, xử lý, vàhiểu ngôn ngữ của con người, chính là lĩnh vực nhằm hiện thực hóa mục tiêunày Do đó ngay từ khi trí tuệ nhân tạo mới ra đời
Xử lý ngôn ngữ tự nhiên có thể được chia ra thành hai nhánh lớn, khônghoàn toàn độc lập, bao gồm xử lý tiếng nói (speech processing) và xử lý văn bản(text processing)
Trang 7Trí tuệ nhân tạo và định hướng ứng dụng – Nhóm 2 GVHD: Trần Sơn Hải
Xử lý tiếng nói tập trung nghiên cứu, phát triển các thuật toán, chương trình
máy tính xử lý ngôn ngữ của con người ở dạng tiếng nói (dữ liệu âm thanh).Các ứng dụng quan trọng của xử lý tiếng nói bao gồm nhận dạng tiếng nói và
tổng hợp tiếng nói Nếu như nhận dạng tiếng nói là chuyển ngôn ngữ từ dạngtiếng nói sang dạng văn bản thì ngược lại, tổng hợp tiếng nói chuyển ngôn ngữ
từ dạng văn bản thành tiếng nói
Xử lý văn bản tập trung vào phân tích dữ liệu văn bản Các ứng dụng quan
trọng của xử lý văn bản bao gồm tìm kiếm và truy xuất thông tin, dịch máy, tómtắt văn bản tự động, hay kiểm lỗi chính tả tự động Xử lý văn bản đôi khi đượcchia tiếp thành hai nhánh nhỏ hơn bao gồm hiểu văn bản và sinh văn bản Nếunhư hiểu liên quan tới các bài toán phân tích văn bản thì sinh liên quan tớinhiệm vụ tạo ra văn bản mới như trong các ứng dụng về dịch máy hoặc tóm tắtvăn bản tự động
Xử lý văn bản bao gồm 4 bước chính sau:
1 Phân tích hình vị: là sự nhận biết, phân tích, và miêu tả cấu trúc của
hình vị trong một ngôn ngữ cho trước và các đơn vị ngôn ngữ khác, như từgốc, biên từ, phụ tố, từ loại, v.v Trong xử lý tiếng Việt, hai bài toán điển hìnhtrong phần này là tách từ (word segmentation) và gán nhãn từ loại (part-of-speech tagging)
2 Phân tích cú pháp: là quy trình phân tích một chuỗi các biểu tượng, ở
dạng ngôn ngữ tự nhiên hoặc ngôn ngữ máy tính, tuân theo văn phạm hìnhthức Văn phạm hình thức thường dùng trong phân tích cú pháp của ngôn ngữ
tự nhiên bao gồm Văn phạm phi ngữ cảnh (Context-free grammar – CFG),Văn phạm danh mục kết nối (Combinatory categorial grammar – CCG), vàVăn phạm phụ thuộc (Dependency grammar – DG) Đầu vào của quá trình
Trang 8Trí tuệ nhân tạo và định hướng ứng dụng – Nhóm 2 GVHD: Trần Sơn Hảiphân tích là một câu gồm một chuỗi từ và nhãn từ loại của chúng, và đầu ra làmột cây phân tích thể hiện cấu trúc cú pháp của câu đó.
3 Phân tích ngữ nghĩa: là quá trình liên hệ cấu trúc ngữ nghĩa, từ cấp độ
cụm từ, mệnh đề, câu và đoạn đến cấp độ toàn bài viết, với ý nghĩa độc lậpcủa chúng Nói cách khác, việc này nhằm tìm ra ngữ nghĩa của đầu vào ngôn
từ Phân tích ngữ nghĩa bao gồm hai mức độ: Ngữ nghĩa từ vựng biểu hiệncác ý nghĩa của những từ thành phần, và phân biệt nghĩa của từ; Ngữ nghĩathành phần liên quan đến cách thức các từ liên kết để hình thành những nghĩarộng hơn
4 Phân tích diễn ngôn: là phân tích văn bản có xét tới mối quan hệ giữa
ngôn ngữ và ngữ cảnh sử dụng (context-of-use) Phân tích diễn ngôn, do đó,được thực hiện ở mức độ đoạn văn hoặc toàn bộ văn bản thay vì chỉ phân tíchriêng ở mức câu
Một số ứng dụng của NLP
NLP ngày càng được ứng dụng nhiều Một số ứng dụng có thể kể đến như:
1.Nhận dạng tiếng nói (Automatic Speech Recognition – ASR, hoặc Speech
To Text – STT) chuyển đổi ngôn ngữ từ dạng tiếng nói sang dạng văn bản,thường được ứng dụng trong các chương trình điều khiển qua giọng nói
2.Tổng hợp tiếng nói (Speech synthesis hoặc Text to Speech – TTS) chuyển
đổi ngôn ngữ từ dạng văn bản sang tiếng nói, thường được dùng trong đọc vănbản tự động
3.Truy xuất thông tin (Information Retrieval – IR) có nhiệm vụ tìm các tài
liệu dưới dạng không có cấu trúc (thường là văn bản) đáp ứng nhu cầu vềthông tin từ những nguồn tổng hợp lớn Những hệ thống truy xuất thông tinphổ biến nhất bao gồm các công cụ tìm kiếm như Google, Yahoo, hoặc Bingsearch Những công cụ này cho phép tiếp nhận một câu truy vấn dưới dạng
Trang 9Trí tuệ nhân tạo và định hướng ứng dụng – Nhóm 2 GVHD: Trần Sơn Hảingôn ngữ tự nhiên làm đầu vào và cho ra một danh sách các tài liệu được sắpxếp theo mức độ phù hợp.
4.Trích chọn thông tin (Information Extraction – IE) nhận diện một số loại
thực thể được xác định trước, mối quan hệ giữa các thực thể và các sự kiệntrong văn bản ngôn ngữ tự nhiên Khác với truy xuất thông tin trả về một danhsách các văn bản hợp lệ thì trích chọn thông tin trả về chính xác thông tin màngười dùng cần Những thông tin này có thể là về con người, địa điểm, tổchức, ngày tháng, hoặc thậm chí tên công ty, mẫu sản phẩm hay giá cả
5.Trả lời câu hỏi (Question Answering – QA) có khả năng tự động trả lời câu
hỏi của con người ở dạng ngôn ngữ tự nhiên bằng cách truy xuất thông tin từmột tập hợp tài liệu Một hệ thống QA đặc trưng thường bao gồm ba mô đun:
Mô đun xử lý truy vấn (Query Processing Module) – tiến hành phân loại câuhỏi và mở rộng truy vấn; Mô đun xử lý tài liệu (Document ProcessingModule) – tiến hành truy xuất thông tin để tìm ra tài liệu thích hợp; và Môhình xử lý câu trả lời (Answer Processing Module) – trích chọn câu trả lời từtài liệu đã được truy xuất
6.Tóm tắt văn bản tự động (Automatic Text Summarization) là bài toán thu
gọn văn bản đầu vào để cho ra một bản tóm tắt ngắn gọn với những nội dungquan trọng nhất của văn bản gốc Có hai phương pháp chính trong tóm tắt, làphương pháp trích xuất (extractive) và phương pháp tóm lược ý (abstractive).Những bản tóm tắt trích xuất được hình thành bằng cách ghép một số câuđược lấy y nguyên từ văn bản cần thu gọn Những bản tóm lược ý thườngtruyền đạt những thông tin chính của đầu vào và có thể sử dụng lại nhữngcụm từ hay mệnh đề trong đó, nhưng nhìn chung được thể hiện ở ngôn ngữcủa người tóm tắt
7.Chatbot là việc chương trình máy tính có khả năng trò chuyện (chat), hỏi
đáp với con người qua hình thức hội thoại dưới dạng văn bản (text) Chatbot
Trang 10Trí tuệ nhân tạo và định hướng ứng dụng – Nhóm 2 GVHD: Trần Sơn Hảithường được sử dụng trong ứng dụng hỗ trợ khách hàng, giúp người dùng tìmkiếm thông tin sản phẩm, hoặc giải đáp thắc mắc.
8.Dịch máy (Machine Translation – MT) là việc sử dụng máy tính để tự động
hóa một phần hoặc toàn bộ quá trình dịch từ ngôn ngữ này sang ngôn ngữkhác Các phương pháp dịch máy phổ biến bao gồm dịch máy dựa trên ví dụ(example-based machine translation – EBMT), dịch máy dựa trên luật (rule-based machine translation – RBMT), dịch máy thống kê (statistical machinetranslation – SMT), và dịch máy sử dụng mạng nơ-ron (neural machinetranslation)
9.Kiểm lỗi chính tả tự động là việc sử dụng máy tính để tự động phát hiện
các lỗi chính tả trong văn bản (lỗi từ vựng, lỗi ngữ pháp, lỗi ngữ nghĩa) vàđưa ra gợi ý cách chỉnh sửa lỗi
Nguồn tham khảo
(1) ACL Anthology N.d A Digital Archive of Research Papers inComputational Linguistics
(2) Daniel Jurafsky, James H Martin 2009 Prentice-Hall 2nd edition Speechand Language Processing: An Introduction to Natural Language Processing,Speech Recognition, and Computational Linguistics
(3) Christopher Manning and Hinrich Schütze 1999 MIT Press Foundations ofStatistical Natural Language Processing
(4) Christopher Manning, Hinrich Schütze, and Prabhakar Raghavan 2008.Cambridge University Press Introduction to Information Retrieval
IV XỬ LÝ NGÔN NGỮ TỰ NHIÊN ĐƯỢC SỬ DỤNG ĐỂ LÀM GÌ?
Xử lý ngôn ngữ tự nhiên thực hiện các chức năng sau:
Phân loại văn bản: Các văn bản được gắn thẻ để xếp vào danh mục Giúpcho việc phân tích tình cảm, hỗ trợ thuật toán xử lý ngôn ngữ tự nhiên xácđịnh tình cảm hoặc cảm xúc đằng sau văn bản Giúp phát hiện ý định, giúp
dự đoán những gì người nói hoặc người viết có thể làm
Trang 11Trí tuệ nhân tạo và định hướng ứng dụng – Nhóm 2 GVHD: Trần Sơn Hải
Khai thác văn bản: Là kỹ thuật tự động tóm tắt văn bản và tìm các phần dữliệu quan trọng
Dịch máy: Là quá trình máy tính dịch văn bản từ một ngôn ngữ sang mộtngôn ngữ khác mà không cần sự can thiệp của con người
Tạo ngôn ngữ tự nhiên: Là kỹ thuật sử dụng thuật toán xử lý ngôn ngữ tựnhiên để phân tích dữ liệu phi cấu trúc và tự động tạo nội dung dựa trên dữliệu đó
Các chức năng vừa nêu được sử dụng trong nhiều ứng dụng trong thế giới thựcnhư:
Phân tích phản hồi của khách hàng: AI phân tích các bài đánh giá trên mạng
xã hội
Tự động hóa dịch vụ khách hàng: Với tính năng nhận dạng giọng nói, trợ lýgiọng nói ở đầu bên kia của đường dây điện thoại dịch vụ khách hàng có thểhiểu những gì khách hàng đang nói, để điều hướng cuộc gọi một cách chínhxác
Dịch tự động: Là sử dụng các công cụ như Google Translate, Translate Me
và Bing Translator
Nghiên cứu và phân tích học thuật: Dựa trên siêu dữ liệu của văn bản và trênchính văn bản đó AI có thể phân tích một lượng lớn tài liệu học thuật và tàiliệu nghiên cứu
Phân tích và phân loại hồ sơ y tế: AI có thể dự đoán và ngăn ngừa bệnh tậtthông qua việc sử dụng thông tin chuyên sâu
Trình xử lý văn bản để chống đạo văn và hiệu đính : sử dụng các công cụnhư Grammarly và Microsoft Word
Dự báo chứng khoán và hiểu biết sâu sắc về giao dịch tài chính: AI có thểphân tích lịch sử thị trường và tài liệu chứa các bản tóm tắt toàn diện về hoạtđộng tài chính của công ty
Trang 12Trí tuệ nhân tạo và định hướng ứng dụng – Nhóm 2 GVHD: Trần Sơn Hải
Tuyển dụng nhân tài trong nguồn nhân lực và tự động hóa các nhiệm vụkiện tụng thông thường
Các nhà phân tích có thể sử dụng NLP để sàng lọc một lượng lớn văn bảnmiễn phí để tìm thông tin liên quan
Phân tích tình cảm: Đây là chức năng khác của NLP Với chức năng này cácnhà khoa học dữ liệu có thể xem thương hiệu của doanh nghiệp họ đanghoạt động như thế nào thông qua đánh giá nhận xét trên mạng xã hội đểcũng như xác định những lĩnh vực mà mọi người muốn doanh nghiệp hoạtđộng tốt hơn thông qua xem xét các ghi chú từ nhóm dịch vụ khách hàng
V KHẢO SÁT VỚI GOOGLE CLOUD NATURAL LANGUAGE API
Để hiểu rõ cách hoạt động cũng như độ chính xác của các công cụ xử lí ngôn ngữ tự nhiên Nhóm 2 sử dụng công cụ Cloud Natural Language - Dịch vụphân tích văn bản dựa trên các mô hình Google Deep Learning
https://cloud.google.com/natural-language để phân tích tính tích cực hay tiêu cực của một số bình luận trên trang
Sư Phạm Confessions https://www.facebook.com/suphamcfs?
mibextid=ZbWKwL
Một số thuật ngữ:
Sentiment là phân tích chỉ số về mặt tình cảm mang tính tích cực hay tiêu cực
Được chia làm hai cột Score (điểm) và Magnitude (độ lớn)
Nếu số điểm dương và cột Score có màu xanh lá câu được phân tích mang tính tích cực
Nếu số điểm âm và cột Score có màu đỏ câu được phân tích mang tính tiêu cực