1. Trang chủ
  2. » Công Nghệ Thông Tin

giới thiệu tổng quan về xử lý ngôn ngữ tự nhiên

46 1,4K 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 4,79 MB

Nội dung

Xử lý ngôn ngữ tự nhiên NLP  Xử lý ngôn ngữ tự nhiên natural language processing - NLP là một trong những lĩnh vực khó nhất của trí tuệ nhân tạo, tập trung vào các ứng dụng "dạy" máy

Trang 1

Giảng viên:

Hoàng Anh Việt

hoanganhviet@gmail.com

2011

Trang 2

Nội dung chương 01

Trang 3

Tổng quan

17/10/14

3

Trang 4

Máy tính trung tâm- Trí tuệ ảo

17/10/14

4

Trang 6

Xử lý ngôn ngữ tự nhiên

(NLP)

Xử lý ngôn ngữ tự nhiên (natural

language processing - NLP) là một trong những lĩnh vực khó nhất của trí tuệ nhân tạo, tập trung vào các ứng dụng "dạy"

máy tính hiểu được ý nghĩa và tương tác, giao tiếp bằng chính ngôn ngữ con người

Kết quả trên thế giới >> Việt Nam

‘Xử lý tiếng Việt’ phải do người Việt thực hiện.

17/10/14

6

Trang 7

Chúng ta nên quan tâm

NLP?

Lượng lớn tri thức tồn tại ở dạng ngôn ngữ

tự nhiên trên các thiết bị điện tử, máy tính

Các phương tiện giao tiếp giữa con người ngày càng đóng vai trò quan trọng Trong

đó máy tính là trung gian.

17/10/14

7

Trang 8

Tiềm năng

Ngành công nghiệp IT (Số liệu năm 2005):

Yahoo, Google, AltaVista ($100-$1,000) mil./yr

Information Retrieval

Monster.com, HotJobs.com (Job finders) – a market

expected to reach $4,5 billions in 2004 Information Extraction + Information Retrieval

Systran powers Babelfish AltaVista, (€ 24 mil./yr.)

Machine Translation

Ask Jeeves ($60 mil./yr.) Question Answering

Nghiên cứu

Các tập đoàn, công ty lớn có phòng thí nghiệm NLP:

 IBM, Microsoft, AT&T, Xerox, Sun, etc.

Phòng nghiên cứu, nhóm nghiên cứu tại các trường đại học.

17/10/14

8

Trang 9

Thế giới thương mại

17/10/14

9

Slide from: Speech and Language Processing Jurafsky and Martin

Trang 10

Google Translate

Slide from: Speech and Language Processing Jurafsky and Martin

Trang 11

Google Translate

Slide from: Speech and Language Processing Jurafsky and Martin

Trang 12

Web Q/A

Slide from: Speech and Language Processing Jurafsky and Martin

Trang 13

Xây dựng Máy tính trung tâm – Trí tuệ ảo

Nhận dạng giọng nói

Hiểu ngôn ngữ tự nhiên

Truy vấn, trích rút thông tin

Trang 14

Các chủ đề nghiên cứu

17/10/14

14

Trang 15

Các chủ đề nghiên cứu

Các Ứng dụng:

Phân loại văn bản (Classify text into categories)

Đánh chỉ số và tìm kiếm (Index and search large texts)

Dịch tự động (Automatic translation)

Hiểu tiếng nói (Speech understanding):

 Hiểu nội dung hội thoại qua điện thoại.

Khai phá thông tin (Information extraction)

 Trích rút các thông tin quan trọng

Tóm tắt văn bản (Automatic summarization)

 Cô đọng 1 quyển sách trên một trang giấy

Hỏi đáp (Question answering)

Thu tri thức (Knowledge acquisition)

Sinh ngôn ngữ (Text generations / dialogs)

Kiểm tra cú pháp văn bản (grammar checking)

17/10/14

15

Trang 16

NLP trong Computer

Science

Computers Artificial Intelligence Algorithms

Semantics Parsing

Trang 18

Các thuật toán và phương pháp tiếp cận:

Dựa từ điển, tập ngữ liệu (corpus)

Dựa trên tri thức

Trang 19

Các chủ đề nghiên cứu

Các mức phân tích:

Phonology (âm vị): Âm, chữ cái và cách phát âm

Morphology (hình thái học): Cách từ được xây dựng, các tiền tố và hậu tố cũng như thành tố chính

Syntax (cú pháp): Mối liên hệ giữa các từ và ngữ để tạo nên cấu trúc của câu.

Semantics (ngữ nghĩa): Ý nghĩa của một từ hay một cụm

từ, câu.

Discourse (Diễn ngôn): Quan hệ giữa các ý hoặc các câu.

Pragmatic (Thực chứng): mục đích phát ngôn, cách sử dụng ngôn ngữ trong giao tiếp

 World Knowledge (tri thức thế giới): các tri thức về thế giới, các tri thức ngầm

17/10/14

19

Trang 20

Language Technology

Coreference resolution

Question answering (QA)

Part-of-speech (POS) tagging

Word sense disambiguation (WSD)

making good progress

still really hard

Colorless green ideas sleep furiously.

ADJ ADJ NOUN VERB ADV

Einstein met with UN officials in Princeton

PERSON ORG LOC

You’re invited to our dinner party, Friday May 27 at 8:30

You’re invited to our dinner party, Friday May 27 at 8:30

Party May 27 add

Best roast chicken in San Francisco!

The waiter ignored us for 20 minutes.

Carter told Mubarak he shouldn’t run again.

I need new batteries for my mouse.

I need new batteries for my mouse.

The 13 th Shanghai International Film Festival…

The 13 th Shanghai International Film Festival…

第 13 届上海国际电影节开幕…

The Dow Jones is up Housing prices rose

Economy is good

Economy is good

Q How effective is ibuprofen in reducing fever in patients with acute febrile illness?

Q How effective is ibuprofen in reducing fever in patients with acute febrile illness?

I can see Alcatraz from the window!

XYZ acquired ABC yesterday ABC has been taken over by XYZ

Where is Citizen Kane playing in SF?

Castro Theatre at 7:30 Do you want a ticket?

Castro Theatre at 7:30 Do you want a ticket?

The S&P500 jumped The S&P500 jumped

Trang 21

 Thiếu các tập ngữ liệu cần thiết

 Baomoi.com, VnDOCR

17/10/14

21

Trang 22

Hình thái học

hạn trước và sau không bắc buộc (điển hình là các phụ âm )

 Google, Facebook, Apple

 Việt Nam, Lập trình, => khó xác định đâu là một từ

17/10/14

22

Trang 23

Tách từ

Tách từ là một quá trình xử lý nhằm mục đích

xác định ranh giới của các từ trong câu văn

Là đầu vào cho các bài toán xử lý khác trong hệ thống XLNNTN

Tiếng Trung Quốc, Nhật, Thái, Việt Nam

Ví dụ:

 Con ngựa đá con ngựa đá

 Con ngựa | đá | con ngựa | đá

 Con ngựa đá | con ngựa đá|

 Con ngựa đá | con ngựa | đá

Trang 24

Tách từ (tiếp)

chỉ có 1 cách đúng trong từng ngữ cảnh

 Ông già | đi | nhanh | quá

 Ông | già | đi | nhanh | quá

Cách tiếp cận:

 Tiếp cận dựa vào từ điển cố định

 Tiếp cận dựa vào thống kê thuần túy

 Tiếp cận dựa trên cả hai phương pháp trên

Trang 25

Tách từ (tiếp)

 So khớp từ dài nhất ( Longest Matching )

 So khớp cực đại ( Maximum Matching )

 Mô hình Markov ẩn ( Hidden Markov Models- HMM )

 Học dựa trên sự cải biến ( Transformation-based Learning – TBL)

 Chuyển đổi trạng thái trọng số hữu hạn ( Weighted Finite State Transducer – WFST )

 Độ hỗn loạn cực đại ( Maximum Entropy – ME )

 Máy học sử dụng vectơ hỗ trợ ( Support Vector Machines )

 Kết hợp những phương pháp trên

17/10/14

25

Trang 26

Profits/ N soared/ V at/ P Boeing/ N Co./ N ,/ , easily/ ADV topping/ V

forecasts/ N on/ P Wall/ N Street/ N ,/ , as/ P their/ POSS CEO/ N

Alan/ N Mulally/ N announced/ V first/ ADJ quarter/ N results/ N /

Trang 27

Gán nhãn từ loại

(Part-Of-Speech tagging)

INPUT:

Con ngựa đá con ngựa đá

Ông già đi nhanh quá

OUTPUT:

1.Con ngựa/ N đá/ V con ngựa/ N đá/ Adj

2 Ông/ ĐaT già/ Adj đi/Phó_từ nhanh/ Adj quá/ Adv

3 Ông già/ N đi/ V nhanh/ Adj quá/ Adv

Trang 28

Nhập nhằng cấu trúc

“At last, a computer that understands you like your mother”

1 (*) It understands you as well as your

mother understands you

2 It understands (that) you like your mother

3 It understands you as well as it

understands your mother

Trang 31

Nhận dạng thực thể

(Name Entity Recognition)

INPUT : Profits soared at Boeing Co., easily

topping forecasts on Wall Street, as their CEO Alan Mulally announced first quarter results

OUTPUT : Profits soared at [Company Boeing Co ] , easily topping forecasts on [Location Wall

Street ] , as their CEO [Person Alan Mulally ]

announced first quarter results

Trang 32

Diễn ngôn: Đồng tham

chiếu

President John F Kennedy was assassinated.

The president was shot yesterday.

Friends of the Massachusetts native will hold a

town.

17/10/14

32

Trang 33

Tầm quan trọng của ngữ nghĩa?

Machine Translation: Dịch sai

Information Retrieval: Thông tin sai

Anaphora Resolution: Tham chiếu sai

Trang 34

Trích rút thông tin

Information extraction

bài báo “Part-of-Speech Tagging from 97% to 100%: Is It Time for Some Linguistics?” tại hội nghị quốc tế lần thứ

12, CICLing 2012 Bài báo đã được đánh giá chất lượng rất cao về tính khoa học….

Trang 35

Các câu hỏi thống kê: “Số lượng sinh viên đăng ký học CNTT tăng lên bao nhiêu phần trăm?”

17/10/14

35

Trang 36

Truy tìm thông tin

Information Retrieval

có cấu trúc (thông thường là văn bản),

Trang 37

Hệ thống truy tìm thông tin

mềm thực hiện:

Lưu trữ và quản lý thông tin trên những tài liệu (văn bản …)

thông báo về sự tồn tại và vị trí của những tài liệu có thể chứa thông tin mong muốn.

Những hệ thống IR phổ biến nhất hiện nay là các bộ máy tìm kiếm trên Web

Trang 38

Hệ thống truy tìm thông tin

Tạo ra những biểu diễn

cầu thông tin (information need).

nhu cầu thông tin với các mục thông tin.

Trang 39

Mô hình truy tìm thông tin

Retrieval Model

IR

vấn từ người dùng quyết định sự có liên

quan (relevance) của các tài liệu ứng với các

truy vấn.

Trang 40

Bài toán Truy tìm thông tin

Cho trước:

Một tập tài liệu lớn, ổn định

Một nhu cầu thông tin

Bài toán: Tìm tất cả tài liệu có liên quan đến nhu cầu thông

tin

Những vấn đề cần giải quyết:

Biểu diễn tập tài liệu như thế nào?

Biểu diễn nhu cầu thông tin như thế nào?

Bằng cách nào hệ thống có thể trả về những tài liệu có liên quan

đến nhu cầu thông tin một cách có hiệu quả?

Kết quả trả về được trình bày như thế nào?

Đa ngôn ngữ? (Cross Language Information Retrieval)

Trang 41

Máy dịch

Machine Translation

Trang 42

Dịch máy – Chuyển đổi

17/10/14

42

Trang 43

Dịch máy – Ngữ liệu song ngữ

Trung, Anh- Việt?

 Thu thập từ internet: web crawler

 Thu thập từ cộng đồng: hellochao.com (1 triệu cặp)

17/10/14

43

Trang 44

Bài toán Dóng hàng – Dịch máy

17/10/14

44

Trang 46

Thảo luận

17/10/14

46

Ngày đăng: 17/10/2014, 07:23

HÌNH ẢNH LIÊN QUAN

Hình thái học - giới thiệu tổng quan về xử lý ngôn ngữ tự nhiên
Hình th ái học (Trang 22)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w