Sinh viên được trang bị các kiến thức cơ bản để có thể trở thành người chú giải ngôn ngữ (linguistic annotators), biên tập viên nội dung số, nhà nghiên cứu về ngôn ngữ học kho ngữ liệu (corpus linguistics), và nhà nghiên cứu về ngôn ngữ học tính toán (computational linguistics), v.v.
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
KHOA NGÔN NGỮ HỌC
ĐỀ CƯƠNG MÔN HỌC
MÔN: NHẬP MÔN NGÔN NGỮ HỌC TÍNH TOÁN
(Computer Linguistics)
Chương trình đào tạo : Cử nhân Ngôn ngữ học.
Đào tạo theo nhiệm vụ chiến lược của ĐHQG Hà Nội
Người biên soạn:
TS Nguyễn Phương Thái
HÀ NỘI - 2012
Trang 2ĐỀ CƯƠNG MÔN HỌC MÔN: HẬP MÔN NGÔN NGỮ HỌC TÍNH TOÁN
1 Thông tin về giảng viên:
Giảng viên 1:
- Họ và tên: Nguyễn Phương Thái
- Chức danh, học vị: Giảng viên, Tiến sĩ
- Thời gian làm việc: Thứ…… (8:00 -16:00)
- Địa điểm làm vịêc: Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, ĐHQG Hà Nội (P306, Nhà E3, 144 Xuân Thủy, Cầu Giấy, Hà Nội)
- Điện thoại: 0902059945
- Email: thainp@vnu.edu.vn
Các hướng nghiên cứu chính:
+ Các vấn đề về giao tiếp ngôn ngữ
+ Các vấn đề về ngôn ngữ máy tính
+ Dịch máy và các vấn đề liên quan
Giảng viên 2:
- Họ và tên: Lê Anh Cường
- Chức danh, học vị: Giảng viên, Tiến sĩ
- Thời gian làm việc: Thứ…… (8:00 -16:00)
- Địa điểm làm vịêc: Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, ĐHQG Hà Nội (P306, Nhà E3, 144 Xuân Thủy, Cầu Giấy, Hà Nội)
- Điện thoại: 0902134662
- Email: cuongla@vnu.edu.vn
Các hướng nghiên cứu chính:
+ Các vấn đề về ngôn ngữ tự nhiên và ngôn ngữ nhân tạo
+ Các vấn đề về ngôn ngữ lập trình máy tính
Trang 3+ Dịch máy và các vấn đề liên quan
Giảng viên 3:
- Họ và tên: Phạm Bảo Sơn
- Chức danh, học vị: Giảng viên, Tiến sĩ
- Thời gian làm việc: Thứ…… (8:00 -16:00)
- Địa điểm làm vịêc: Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, ĐHQG Hà Nội (P306, Nhà E3, 144 Xuân Thủy, Cầu Giấy, Hà Nội)
- Điện thoại: 0936413663
- Email: sonpb@vnu.edu.vn
2 Thông tin về môn học
- Tên môn học: Ngôn ngữ học Máy tính
- Số tín chỉ: 02
- Loại môn học: Tự chọn
- Môn học tiên quyết: Dẫn luận Ngôn ngữ học Ứng dụng
- Số giờ tín chỉ: 30 trong đó:
+ Lí thuyết: 30
+ Thực hành: 0
+ Tự học: 0
3 Mục tiêu và chuẩn đầu ra môn học
3.1 Mục tiêu chung
Sinh viên được trang bị các kiến thức cơ bản để có thể trở thành người chú giải ngôn ngữ (linguistic annotators), biên tập viên nội dung số, nhà nghiên cứu về ngôn ngữ học kho ngữ liệu (corpus linguistics), và nhà nghiên cứu về ngôn ngữ học tính toán (computational linguistics), v.v
3.2 Chuẩn đầu ra môn học
3.2.1 Chuẩn đầu ra về kiến thức
Trang 4- Hiểu được đối tượng, mục đích, nhiệm vụ, phương pháp nghiên cứu của ngôn ngữ học máy tính (NNHMT), ứng dụng của NNHMT, và một
số hướng nghiên cứu chính trong NNHMT
- Hiểu được văn phạm phi ngữ cảnh, ứng dụng văn phạm này trong biểu diễn cú pháp ngôn ngữ tự nhiên
- Hiểu cấu trúc của WordNet, ứng dụng của WordNet
- Hiểu quá trình chú giải ngữ liệu, ngôn ngữ đánh dấu dùng biểu diễn dữ liệu
- Nắm được một số tiến bộ trong xử lý ngôn ngữ nói chung và xử lý tiếng Việt nói riêng
3.2.2 Chuẩn đầu ra về kỹ năng
- Biết cách xây dựng văn phạm phi ngữ cảnh với các yêu cầu cho trước (liên quan đến dạng câu, hiện tượng ngôn ngữ, v.v.)
- Có thể tham gia vào công việc chú giải ngôn ngữ học
- sử dụng một số công cụ tin học hỗ trợ
- sử dụng ngôn ngữ đánh dấu
- tuân thủ các yêu cầu về qui trình chú giải, đánh giá, guideline
- áp dụng kiến thức, lập luận ngôn ngữ học trong quá trình chú giải
- Hiểu và sử dụng hiệu quả hơn các công cụ tin học như từ điển, tìm kiếm, dịch tự động, v.v
3.2.3 Chuẩn đầu ra về thái độ
- Sự khác biệt giữa xử lý ngôn ngữ bởi máy tính và bởi con người
- Vai trò của nhà ngôn ngữ học trong xây dựng một ứng dụng xử lý ngôn ngữ
- Hướng đến mục tiêu chung của hai ngành tin học và ngôn ngữ học: tự động hóa xử lý ngôn ngữ, máy tính hiểu được tiếng Việt
4 Tóm tắt nội dung môn học
Bài giảng 1 giới thiệu các thông tin cơ bản về môn học như thông lệ của
một đề cương Bài giảng 2 giới thiệu một số ứng dụng phổ biến, nguyên lý
Trang 5hoạt động, các vấn đề ngôn ngữ học mà các ứng dụng này phải giải quyết và các hạn chế hiện tại Bài giảng này có mục đích dẫn dắt người học bắt đầu từ thực tế, hướng đến các nội dung kế tiếp Bài giảng 3 giới thiệu về chương trình máy tính, ngôn ngữ máy tính Việc giới thiệu là tổng quan, không đi quá sâu vào kỹ thuật Bài giảng 4 giới thiệu về ngôn ngữ hình thức và phân loại văn phạm của Chomsky Ngôn ngữ hình thức là công cụ nền tảng để máy tính
xử lý được các loại ngôn ngữ từ nhân tạo đến tự nhiên Bài giảng 5 giới thiệu
về các bài toán xử lý ngôn ngữ và tiếp cận giải quyết Trọng tâm là tiếp cận dựa trên kho ngữ liệu Bài giảng 6 giới thiệu về chú giải ngôn ngữ học, các vấn đề liên quan đến chú giải Bài giảng 7 cung cấp nội dung thực hành hết sức quan trọng, thông qua đó sinh viên có thể áp dụng kiến thức đã học để chú giải ngôn ngữ, xử lý nhập nhằng, v.v Bài giảng 8 là nội dung lựa chọn, cung cấp cho người học một số kiến thức về thống kê ngôn ngữ Chú ý là mỗi bài giảng có thể trong một hoặc vài buổi học
5 Nội dung môn học
- Nội dung 1: Giới thiệu môn học
o Mục tiêu môn học, các yêu cầu
o Qui trình phát triển một ứng dụng xử lý ngôn ngữ, vai trò của nhà ngôn ngữ học
o Nội dung môn học
o Tài liệu tham khảo
- Nội dung 2: Các công cụ tin học thông dụng liên quan đến xử lý ngôn ngữ và nguyên lý hoạt động
o Công cụ tìm kiếm
o Công cụ dịch tự động
o Công cụ kiểm lỗi chính tả
o V.v
- Nội dung 3: Chương trình máy tính, ngôn ngữ máy tính, và xử lý ngôn ngữ trên máy tính
Trang 6o Chương trình máy tính
o Ngôn ngữ máy tính (ngôn ngữ nhân tạo)
o Các mức độ xử lý ngôn ngữ tự nhiên trên máy tính: bảng mã, từ, câu, v.v
- Nội dung 4: Ngôn ngữ hình thức và phân loại văn phạm của Chomsky
o Các khái niệm cơ bản của ngôn ngữ hình thức
o Sơ đồ phân loại văn phạm của Chomsky
o Biểu diễn tri thức ngôn ngữ học bằng văn phạm hình thức (biểu thức chính qui, văn phạm phi ngữ cảnh, v.v.)
- Nội dung 5: Các bài toán xử lý ngôn ngữ và các hướng tiếp cận chính
o Các bài toán
o Tiếp cận dựa trên luật
o Tiếp cận thống kê (nhấn mạnh vai trò của kho ngữ liệu và chú giải ngôn ngữ)
- Nội dung 6: Chú giải ngôn ngữ
o Qui trình chú giải
o Biểu diễn dữ liệu bằng XML
o Đảm bảo chất lượng kho ngữ liệu
o Các ví dụ
- Nội dung 7: Thực hành chú giải ngôn ngữ cho các bài toán xử lý ngôn ngữ cơ bản Demo công cụ xử lý ngôn ngữ Chọn một hoặc một số trong danh sách sau đây để thực hành:
o Bài toán tách từ
o Bài toán gán nhãn từ loại
o Bài toán phân tích cú pháp
o Xử lý nhập nhằng nghĩa của từ
o Các ứng dụng lớn: dịch tự động, tóm tắt văn bản, hỏi đáp
- Nội dung 8 (lựa chọn): Phân tích thống kê kho ngữ liệu
Trang 7o Thống kê từ vựng
o Thống kê ngữ cảnh sử dụng của từ
o Thống kê mẫu cú pháp
6 Tài liệu phục vụ cho môn học
6.1 Tài liệu bắt buộc
[1] Jurafsky, D and Martin, J.H (2nd edition) Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition Prentice Hall, Upper Saddle River, NJ ISBN 0-13-095069-6
6.2 Tài liệu tham khảo thêm
[2] Elenal Tognini-Bonelli Corpus Linguistics at Work John Benjamins Publishing Company 2001
[3] Corpus Linguistics Investigating Language Structure and Use Douglas Biber, Susan Conrad, Randi Reppen Cambridge University Press 1998
[4] Manning, C.D and Schütze, H Foundations of Statistical Natural Language Processing MIT Press ISBN 0-262-13360-1
[5] http://jones.ling.indiana.edu/~mdickinson/09/615/
[6] http://nlp.stanford.edu/~manning/courses/compapp/
7 Lịch trình giảng dạy môn học
Tuần 1
HÌNH
THỨC
DẠY HỌC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Lý thuyết 1 Mục tiêu môn học, các yêu
cầu
2 Quy trình phát triển một ứng dụng xử lý ngôn ngữ, vai trò của nhà ngôn ngữ học
- Nắm được tầm quan trọng, mục tiêu, các yêu cầu của môn học
- Nắm vững quy trình phát triển một ứng dụng
xử lý ngôn ngữ, vai trò của nhà ngôn ngữ học
Đọc các phần tương ứng trong tài
Trang 8liệu 1; 2; 3
Thảo luận Vai trò nhà ngôn ngữ học
Tuần 2
HÌNH
THỨC
DẠY HỌC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Lý thuyết 1 Giới thiệu khái quát nội
dung môn học
2 Vị trí của ngôn ngữ học tính toán trong ngôn ngữ học ứng dụng
3 Mối quan hệ giữa ngôn ngữ học tính toán với các phân môn ngôn ngữ học
2 Giới thiệu tài liệu tham khảo phục vụ môn học
- Nắm được các nội dung mà môn Ngôn ngữ học tính toán quan tâm
- Thấy được vị trí của ngôn ngữ học tính toán trong ngôn ngữ học ứng dụng nói riêng và các phân ngành khác của ngôn ngữ học nói chung
Đọc các phần tương ứng trong tài liệu 1;2;3
Thảo luận Thảo luận xung quanh các nội
dung mà ngôn ngữ học tính toán hướng đến
Bài tập
Luyện kĩ
năng
Tuần 3
HÌNH
THỨC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Trang 9DẠY HỌC
Lý thuyết Khái quát về các công cụ tin
học thông dụng liên quan đến
xử lý ngôn ngữ và nguyên lý hoạt động
- Hiểu và làm quen được với các công cụ tin học thông dụng liên quan đến xử lý ngôn ngữ và nguyên lý hoạt động của chúng
Đọc các phần tương ứng trong tài liệu 1;2;3;4
Thảo luận Thảo luận xung quanh nội
dung bài học có hướng dẫn của GV
Bài tập
Luyện kĩ
năng
Thực hành về các công
cụ tin học
Tuần 4
HÌNH
THỨC
DẠY HỌC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Lý thuyết 1 Công cụ tìm kiếm
2 Công cụ dịch tự động
- Sử dụng thành thạo thanh công cụ tìm kiếm
- Sử dụng tốt thanh công cụ dịch tự động
Đọc các phần tương ứng trong tài liệu 1;2;3;5
Bài tập
Luyện kĩ
năng
Rèn luyện các kỹ năng sử dụng các thanh công cụ có trong bài học
Thực hành theo hướng dẫn
Trang 10Tuần 5
HÌNH
THỨC
DẠY HỌC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Lý thuyết 1 Công cụ kiểm chữa lỗi
chính tả
2 Một số công cụ phụ trợ khác
- Sử dụng thành thạo thanh công cụ chữa lỗi chính tả và một số công cụ phụ trợ khác
Đọc các phần tương ứng trong tài liệu 1;2;3;4;
5
Bài tập
Luyện kĩ
năng
Rèn luyện các kỹ năng sử dụng các thanh công cụ có trong bài học
Thực hành theo hướng dẫn
Tuần 6
HÌNH
THỨC
DẠY HỌC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Lý thuyết Chương trình máy tính, ngôn
ngữ máy tính, và xử lý ngôn ngữ trên máy tính:
1 Chương trình máy tính
2 Ngôn ngữ máy tính (ngôn ngữ nhân tạo)
3 Các mức độ xử lý ngôn ngữ tự nhiên trên máy tính: bảng mã, từ, câu…
- Hiểu biết về chương trình máy tính
- Bước đầu nắm bắt được cơ chế ngôn ngữ máy tính
- Làm quen với các mức độ xử lý ngôn ngữ
tự nhiên trên máy tính:
bảng mã, từ, câu, v.v
Đọc các phần tương ứng trong tài liệu 1;2;3;4;
5
Trang 11Bài tập
Luyện kĩ
năng
Thực hiện một số thao tác xử
lý ngôn ngữ trên máy tính theo hướng dẫn
Tuần 7
HÌNH
THỨC
DẠY HỌC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Lý thuyết 1 Giới thiệu về Ngôn ngữ
hình thức và phân loại văn phạm của Chomsky
2 Các khái niệm cơ bản của ngôn ngữ hình thức
- Có nhận thức căn bản
về ngôn ngữ hình thức
- Nắm vững các khái niệm cơ bản của ngôn ngữ hình thức theo quan niệm của Chomsky
Đọc các phần tương ứng trong tài liệu 1;2;3;4;
5
Bài tập
Luyện kĩ
năng
Rèn kỹ năng nhận biết các đặc điểm của ngôn ngữ hình thức theo cách nhận diện của Chomsky
Tuần 8
HÌNH
THỨC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Trang 12DẠY HỌC
Lý thuyết Kiểm tra giữa kỳ
Bài tập
Luyện kĩ
năng
Tuần 9
HÌNH
THỨC
DẠY HỌC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Lý thuyết 1 Sơ đồ phân loại văn phạm
của Chomsky
2 Biểu diễn tri thức ngôn ngữ học bằng văn phạm hình thức (biểu thức chính qui, văn phạm phi ngữ cảnh, v.v.)
- Nắm được sơ đồ phân loại văn phạm của Chomsky
- Nắm được cách biểu diễn tri thức ngôn ngữ học bằng văn phạm hình thức (biểu thức chính qui, văn phạm phi ngữ cảnh, v.v.)
Đọc các phần tương ứng trong tài liệu 1;2;3;4;
5
Bài tập
Luyện kĩ
năng
- Thực hành phân loại văn bản
- Thực hành biểu diễn tri thức ngôn ngữ học bằng văn phạm hình thức (biểu thức chính qui, văn phạm phi ngữ cảnh, v.v.)
Làm tốt các kỹ năng được yêu cầu trong bài học
Trang 13Tuần 10
HÌNH
THỨC
DẠY HỌC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Lý thuyết 1 Giới thiệu về các bài toán
xử lý ngôn ngữ và các hướng tiếp cận chính
2 Một số dạng bài toán cụ thể
- Nắm vững các hướng tiếp cận chính
- Xử lý được một số dạng bài toán cụ thể
Đọc các phần tương ứng trong tài liệu 1;2;3;4;
5
Thảo luận - Thảo luận về các bài toán
xử lý ngôn ngữ; các hướng tiếp cận chính
Bài tập
Luyện kĩ
năng
- Thực hành một số
dạng bài toán cụ thể
Tuần 11
HÌNH
THỨC
DẠY HỌC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Lý thuyết 1 Hướng tiếp cận dựa trên
luật
2 Hướng tiếp cận Tiếp cận thống kê (nhấn mạnh vai trò của kho ngữ liệu và chú giải
- Nắm vững được hai hướng tiếp cận chính trong xử lý ngôn ngữ hình thức
Đọc các phần tương ứng
Trang 14ngôn ngữ) trong
tài liệu 1;2;3;4;
5
Thảo luận - Thảo luận về hai hướng tiếp
cận giới thiệu trong bài học
Bài tập
Luyện kĩ
năng
Thực hành cách tiếp cận bài toán dựa trên luật và dựa vào thống kê
Tuần 12
HÌNH
THỨC
DẠY HỌC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Lý thuyết Chú giải ngôn ngữ:
1 Qui trình chú giải
2 Biểu diễn dữ liệu bằng XML
3 Đảm bảo chất lượng kho ngữ liệu
4 Các ví dụ
- Nắm vững quy trình chú giải
- Biết biểu diễn dữ liệu bằng XML
Đọc các phần tương ứng trong tài liệu 1;2;3;4;
5
Bài tập
Luyện kĩ
năng
- Thực hành biểu diễn
dữ liệu bằng XML
- Thực hiện quy trình
Trang 15chú giải
Tuần 13
HÌNH
THỨC
DẠY HỌC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Lý thuyết - Thực hành chú giải ngôn
ngữ cho các bài toán xử lý ngôn ngữ cơ bản Demo công
cụ xử lý ngôn ngữ Chọn một hoặc một số trong danh sách sau đây để thực hành:
1 Thực hiện bài toán tách từ
2 Thực hiện bài toán gán nhãn từ loại
- Hiểu và thực hiện tốt bài toán tách từ và bài toán gán nhãn từ loại
Đọc các phần tương ứng trong tài liệu 1;2;3;4;
5
Thảo luận Thảo luận về sự cần thiết phải
thực hiện các bài toán xử lý ngôn ngữ
Bài tập
Luyện kĩ
năng
Thực hành bài toán tách từ và bài toán gán nhãn từ loại
Tuần 14
HÌNH
THỨC
DẠY HỌC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Lý thuyết 1 Bài toán phân tích cú
pháp
2 Xử lý nhập nhằng nghĩa của từ
- Hiểu và thực hiện tốt bài toán phân tích cú pháp; Xử lý được vấn
Đọc các phần tương
Trang 163 Các ứng dụng lớn: dịch
tự động, tóm tắt văn bản, hỏi đáp
đề nhập nhằng nghĩa từ
- Bước đầu làm chủ các ứng dụng lớn: dịch
tự động, tóm tắt văn bản, hỏi đáp
ứng trong tài liệu 1;2;3;4;
5
Thảo luận Các ứng dụng lớn: dịch tự
động, tóm tắt văn bản, hỏi đáp
Bài tập
Luyện kĩ
năng
Kỹ năng giải quyết bài toán phân tích cú pháp
và phân tích ngữ nghĩa
Tuần 15
HÌNH
THỨC
DẠY HỌC
NỘI DUNG CHÍNH
YÊU CẦU ĐỐI VỚI SINH VIÊN
GHI CHÚ
Lý thuyết Phân tích thống kê kho ngữ
liệu:
1. Thống kê từ vựng
2. Thống kê ngữ cảnh sử dụng của từ
3. Thống kê mẫu cú pháp
Biết cách phân tích thống kê từ vựng, bối cảnh sử dụng, mẫu cú pháp
Đọc các phần tương ứng trong tài liệu 1;2;3;4;
5
Thảo luận Vai trò của việc phân tích
thống kê kho ngữ liệu
Đặt câu hỏi xung quanh nội dung môn