Xử lý ngôn ngữ tự nhiên NLP Xử lý ngôn ngữ tự nhiên natural language processing - NLP là một trong những lĩnh vực khó nhất của trí tuệ nhân tạo, tập trung vào các ứng dụng "dạy" máy
Trang 1Giảng viên:
Hoàng Anh Việt
hoanganhviet@gmail.com
2011
Trang 2Nội dung chương 01
Trang 3Tổng quan
17/10/14
3
Trang 4Máy tính trung tâm- Trí tuệ ảo
17/10/14
4
Trang 6Xử lý ngôn ngữ tự nhiên
(NLP)
Xử lý ngôn ngữ tự nhiên (natural
language processing - NLP) là một trong những lĩnh vực khó nhất của trí tuệ nhân tạo, tập trung vào các ứng dụng "dạy"
máy tính hiểu được ý nghĩa và tương tác, giao tiếp bằng chính ngôn ngữ con người
Kết quả trên thế giới >> Việt Nam
‘Xử lý tiếng Việt’ phải do người Việt thực hiện.
17/10/14
6
Trang 7Chúng ta nên quan tâm
NLP?
Lượng lớn tri thức tồn tại ở dạng ngôn ngữ
tự nhiên trên các thiết bị điện tử, máy tính
Các phương tiện giao tiếp giữa con người ngày càng đóng vai trò quan trọng Trong
đó máy tính là trung gian.
17/10/14
7
Trang 8Tiềm năng
Ngành công nghiệp IT (Số liệu năm 2005):
Yahoo, Google, AltaVista ($100-$1,000) mil./yr
Information Retrieval
Monster.com, HotJobs.com (Job finders) – a market
expected to reach $4,5 billions in 2004 Information Extraction + Information Retrieval
Systran powers Babelfish AltaVista, (€ 24 mil./yr.)
Machine Translation
Ask Jeeves ($60 mil./yr.) Question Answering
Nghiên cứu
Các tập đoàn, công ty lớn có phòng thí nghiệm NLP:
IBM, Microsoft, AT&T, Xerox, Sun, etc.
Phòng nghiên cứu, nhóm nghiên cứu tại các trường đại học.
17/10/14
8
Trang 9Thế giới thương mại
17/10/14
9
Slide from: Speech and Language Processing Jurafsky and Martin
Trang 10Google Translate
Slide from: Speech and Language Processing Jurafsky and Martin
Trang 11Google Translate
Slide from: Speech and Language Processing Jurafsky and Martin
Trang 12Web Q/A
Slide from: Speech and Language Processing Jurafsky and Martin
Trang 13Xây dựng Máy tính trung tâm – Trí tuệ ảo
Nhận dạng giọng nói
Hiểu ngôn ngữ tự nhiên
Truy vấn, trích rút thông tin
Trang 14Các chủ đề nghiên cứu
17/10/14
14
Trang 15Các chủ đề nghiên cứu
Các Ứng dụng:
Phân loại văn bản (Classify text into categories)
Đánh chỉ số và tìm kiếm (Index and search large texts)
Dịch tự động (Automatic translation)
Hiểu tiếng nói (Speech understanding):
Hiểu nội dung hội thoại qua điện thoại.
Khai phá thông tin (Information extraction)
Trích rút các thông tin quan trọng
Tóm tắt văn bản (Automatic summarization)
Cô đọng 1 quyển sách trên một trang giấy
Hỏi đáp (Question answering)
Thu tri thức (Knowledge acquisition)
Sinh ngôn ngữ (Text generations / dialogs)
Kiểm tra cú pháp văn bản (grammar checking)
…
17/10/14
15
Trang 16NLP trong Computer
Science
Computers Artificial Intelligence Algorithms
Semantics Parsing
Trang 18 Các thuật toán và phương pháp tiếp cận:
Dựa từ điển, tập ngữ liệu (corpus)
Dựa trên tri thức
Trang 19Các chủ đề nghiên cứu
Các mức phân tích:
Phonology (âm vị): Âm, chữ cái và cách phát âm
Morphology (hình thái học): Cách từ được xây dựng, các tiền tố và hậu tố cũng như thành tố chính
Syntax (cú pháp): Mối liên hệ giữa các từ và ngữ để tạo nên cấu trúc của câu.
Semantics (ngữ nghĩa): Ý nghĩa của một từ hay một cụm
từ, câu.
Discourse (Diễn ngôn): Quan hệ giữa các ý hoặc các câu.
Pragmatic (Thực chứng): mục đích phát ngôn, cách sử dụng ngôn ngữ trong giao tiếp
World Knowledge (tri thức thế giới): các tri thức về thế giới, các tri thức ngầm
17/10/14
19
Trang 20Language Technology
Coreference resolution
Question answering (QA)
Part-of-speech (POS) tagging
Word sense disambiguation (WSD)
making good progress
still really hard
Colorless green ideas sleep furiously.
ADJ ADJ NOUN VERB ADV
Einstein met with UN officials in Princeton
PERSON ORG LOC
You’re invited to our dinner party, Friday May 27 at 8:30
You’re invited to our dinner party, Friday May 27 at 8:30
Party May 27 add
Best roast chicken in San Francisco!
The waiter ignored us for 20 minutes.
Carter told Mubarak he shouldn’t run again.
I need new batteries for my mouse.
I need new batteries for my mouse.
The 13 th Shanghai International Film Festival…
The 13 th Shanghai International Film Festival…
第 13 届上海国际电影节开幕…
The Dow Jones is up Housing prices rose
Economy is good
Economy is good
Q How effective is ibuprofen in reducing fever in patients with acute febrile illness?
Q How effective is ibuprofen in reducing fever in patients with acute febrile illness?
I can see Alcatraz from the window!
XYZ acquired ABC yesterday ABC has been taken over by XYZ
Where is Citizen Kane playing in SF?
Castro Theatre at 7:30 Do you want a ticket?
Castro Theatre at 7:30 Do you want a ticket?
The S&P500 jumped The S&P500 jumped
Trang 21 Thiếu các tập ngữ liệu cần thiết
Baomoi.com, VnDOCR
17/10/14
21
Trang 22Hình thái học
hạn trước và sau không bắc buộc (điển hình là các phụ âm )
Google, Facebook, Apple
Việt Nam, Lập trình, => khó xác định đâu là một từ
17/10/14
22
Trang 23Tách từ
Tách từ là một quá trình xử lý nhằm mục đích
xác định ranh giới của các từ trong câu văn
Là đầu vào cho các bài toán xử lý khác trong hệ thống XLNNTN
Tiếng Trung Quốc, Nhật, Thái, Việt Nam
Ví dụ:
Con ngựa đá con ngựa đá
Con ngựa | đá | con ngựa | đá
Con ngựa đá | con ngựa đá|
Con ngựa đá | con ngựa | đá
Trang 24Tách từ (tiếp)
chỉ có 1 cách đúng trong từng ngữ cảnh
Ông già | đi | nhanh | quá
Ông | già | đi | nhanh | quá
Cách tiếp cận:
Tiếp cận dựa vào từ điển cố định
Tiếp cận dựa vào thống kê thuần túy
Tiếp cận dựa trên cả hai phương pháp trên
Trang 25Tách từ (tiếp)
So khớp từ dài nhất ( Longest Matching )
So khớp cực đại ( Maximum Matching )
Mô hình Markov ẩn ( Hidden Markov Models- HMM )
Học dựa trên sự cải biến ( Transformation-based Learning – TBL)
Chuyển đổi trạng thái trọng số hữu hạn ( Weighted Finite State Transducer – WFST )
Độ hỗn loạn cực đại ( Maximum Entropy – ME )
Máy học sử dụng vectơ hỗ trợ ( Support Vector Machines )
Kết hợp những phương pháp trên
17/10/14
25
Trang 26Profits/ N soared/ V at/ P Boeing/ N Co./ N ,/ , easily/ ADV topping/ V
forecasts/ N on/ P Wall/ N Street/ N ,/ , as/ P their/ POSS CEO/ N
Alan/ N Mulally/ N announced/ V first/ ADJ quarter/ N results/ N /
Trang 27Gán nhãn từ loại
(Part-Of-Speech tagging)
INPUT:
Con ngựa đá con ngựa đá
Ông già đi nhanh quá
OUTPUT:
1.Con ngựa/ N đá/ V con ngựa/ N đá/ Adj
2 Ông/ ĐaT già/ Adj đi/Phó_từ nhanh/ Adj quá/ Adv
3 Ông già/ N đi/ V nhanh/ Adj quá/ Adv
Trang 28Nhập nhằng cấu trúc
“At last, a computer that understands you like your mother”
1 (*) It understands you as well as your
mother understands you
2 It understands (that) you like your mother
3 It understands you as well as it
understands your mother
Trang 31Nhận dạng thực thể
(Name Entity Recognition)
INPUT : Profits soared at Boeing Co., easily
topping forecasts on Wall Street, as their CEO Alan Mulally announced first quarter results
OUTPUT : Profits soared at [Company Boeing Co ] , easily topping forecasts on [Location Wall
Street ] , as their CEO [Person Alan Mulally ]
announced first quarter results
Trang 32Diễn ngôn: Đồng tham
chiếu
President John F Kennedy was assassinated.
The president was shot yesterday.
Friends of the Massachusetts native will hold a
town.
17/10/14
32
Trang 33 Tầm quan trọng của ngữ nghĩa?
Machine Translation: Dịch sai
Information Retrieval: Thông tin sai
Anaphora Resolution: Tham chiếu sai
Trang 34Trích rút thông tin
Information extraction
bài báo “Part-of-Speech Tagging from 97% to 100%: Is It Time for Some Linguistics?” tại hội nghị quốc tế lần thứ
12, CICLing 2012 Bài báo đã được đánh giá chất lượng rất cao về tính khoa học….
Trang 35 Các câu hỏi thống kê: “Số lượng sinh viên đăng ký học CNTT tăng lên bao nhiêu phần trăm?”
17/10/14
35
Trang 36Truy tìm thông tin
Information Retrieval
có cấu trúc (thông thường là văn bản),
Trang 37Hệ thống truy tìm thông tin
mềm thực hiện:
Lưu trữ và quản lý thông tin trên những tài liệu (văn bản …)
thông báo về sự tồn tại và vị trí của những tài liệu có thể chứa thông tin mong muốn.
Những hệ thống IR phổ biến nhất hiện nay là các bộ máy tìm kiếm trên Web
Trang 38Hệ thống truy tìm thông tin
Tạo ra những biểu diễn
cầu thông tin (information need).
nhu cầu thông tin với các mục thông tin.
Trang 39Mô hình truy tìm thông tin
Retrieval Model
IR
vấn từ người dùng quyết định sự có liên
quan (relevance) của các tài liệu ứng với các
truy vấn.
Trang 40
Bài toán Truy tìm thông tin
Cho trước:
Một tập tài liệu lớn, ổn định
Một nhu cầu thông tin
Bài toán: Tìm tất cả tài liệu có liên quan đến nhu cầu thông
tin
Những vấn đề cần giải quyết:
Biểu diễn tập tài liệu như thế nào?
Biểu diễn nhu cầu thông tin như thế nào?
Bằng cách nào hệ thống có thể trả về những tài liệu có liên quan
đến nhu cầu thông tin một cách có hiệu quả?
Kết quả trả về được trình bày như thế nào?
Đa ngôn ngữ? (Cross Language Information Retrieval)
Trang 41Máy dịch
Machine Translation
Trang 42Dịch máy – Chuyển đổi
17/10/14
42
Trang 43Dịch máy – Ngữ liệu song ngữ
Trung, Anh- Việt?
Thu thập từ internet: web crawler
Thu thập từ cộng đồng: hellochao.com (1 triệu cặp)
17/10/14
43
Trang 44Bài toán Dóng hàng – Dịch máy
17/10/14
44
Trang 46Thảo luận
17/10/14
46