1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo giữa kì nhập môn xử lý ngôn ngữ tự nhiên introduction to natural language processing

32 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 379,05 KB

Nội dung

1.1.2 Định nghĩa Về bản chất, Nhận dạng Thực thể được Đặt tên NER là một nhiệm vụ chuyên biệt trong lĩnh vực Xử lý ngôn ngữ tự nhiên NLP, tập trung vào việc xác định và phân loại các thự

Trang 1

BÁO CÁO GIỮA KÌ NHẬP MÔN XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Trang 2

BÁO CÁO GIỮA KÌ NHẬP MÔN XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Trang 3

LỜI CẢM ƠN

Đầu tiên, chúng tôi xin gửi lời cám ơn chân thành đến thầy Lê Anh Cường.Thầy là người đã hỗ trợ, hướng dẫn tôi trong suốt quá trình làm báo cáo này, thầycòn giải đáp những thắc mắc, những điều nhóm chúng tôi còn chưa hiểu và giúpchúng tôi hoàn thiện bài báo cáo này

Tiếp đến, chúng tôi xin gửi lời cảm ơn đến khoa Công Nghệ Thông Tin vì đã

tạo điều kiện cho tôi được học tập môn “Nhập môn Xử lý ngôn ngữ tự nhiên”.

Khoa luôn sẵn sàng giúp đỡ tôi, cung cấp những tài liệu cần thiết để tôi có thêmnhững kiến thức bổ ích để làm bài và tích lũy được nhưng kinh nghiệm quý báutrong quá trình học tập tại Đại Học Tôn Đức Thắng

Sau cùng, trong quá trình làm bài, chúng tôi nhận được sự giúp đỡ của Quýthầy/cô và các anh chị khóa trên Do chưa có nhiều kinh nghiệm và kiến thức nênnhóm chúng tôi còn nhiều sai sót nên kính mong Quý thầy cô và các anh chị chỉdẫn, góp ý để chúng tôi có thể làm bài tốt hơn trong những lần tiếp theo

TẬP THỂ NHÓM XIN CHÂN THÀNH CẢM ƠN Ạ

Trang 4

BÁO CÁO ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

Chúng tôi xin cam đoan đây là bài báo cáo của riêng chúng tôi và được sựhướng dẫn của Thầy Lê Anh Cường; Các nội dung nghiên cứu, kết quả trong đề tàinày là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những sốliệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chínhtác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo

Ngoài ra, trong báo cáo còn sử dụng một số nhận xét, đánh giá cũng như sốliệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồngốc

Nếu phát hiện có bất kỳ sự gian lận nào chúng tôi xin hoàn toàn chịu trách nhiệm về nội dung bài báo cáo của mình Trường đại học Tôn Đức Thắng

không liên quan đến những vi phạm tác quyền, bản quyền do chúng tôi gây ra trongquá trình thực hiện (nếu có)

TP Hồ Chí Minh, ngày tháng năm

Tác giả (ký tên và ghi rõ họ tên)

Đoàn Nhật Duy

Trang 5

PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN

Phần xác nhận của GV hướng dẫn

_

Tp Hồ Chí Minh, ngày tháng năm

(kí và ghi họ tên)

Phần đánh giá của GV chấm bài

_

Tp Hồ Chí Minh, ngày tháng năm

(kí và ghi họ tên)

Trang 6

TÓM TẮT

Bài làm gồm 3 phần:

Phần 1: Mô hình nhận dạng thực thể tên (Named Entity Recognition - NER)Phần 2: Các phương pháp Fasttext cho việc biểu biểu diễn từ bằng vector (Word2Vec và Word Embeddings)

Phần 3: Code và thực nghiệm

Trang 7

MỤC LỤC

LỜI CẢM ƠN i

PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN iii

TÓM TẮT iv

MỤC LỤC 1

DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ 3

PHẦN 1 - NAMED ENTITY RECOGNITION: NER 4

1.1 Nhận dạng thực thể được đặt tên (NER) 4

1.1.1 Giới thiệu 4

1.1.2 Định nghĩa 5

1.1.3 Hoạt động 6

1.1.4 Các loại hệ thống NER 8

1.1.5 Các trường hợp sử dụng 8

1.1.6 Ai sử dụng NER 8

1.1.7 Uư và nhược điểm NER 8

1.2 Phương pháp phân loại trong Nhận dạng thực thể được đặt tên (NER) .9

1.2.1 Ví dụ về mô hình phân loại NER 8

1.3 Phương pháp LSTM 9

1.3.1 Giới thiệu 9

1.3.2 Kiến trúc LSTM 10

1.3.3 Logic đằng sau LSTM 10

1.3.4 Cấu trúc LSTM 10

1.3.5 Phương pháp LSTM trong NER 10

PHẦN 2 - WORD2VEC VÀ WORD EMBEDDINGS .14

2.1 Fast text 14

2.2 Giới thiệu Word Embeddings 21 2.3 Word2Vec và các phương pháp biểu diễn từ truyền thống\

Trang 8

142.4FastText – Khắc phục nhược điểm của Word2Vec

21PHẦN 3 – CODE VÀ THỰC NGHIỆM 4

TÀI LIỆU THAM KHẢO 24

Trang 9

DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ

DANH MỤC HÌNH

DANH MỤC BẢNG

Trang 10

PHẦN 1 - NAMED ENTITY RECOGNITION: NER

1.1 Nhận dạng thực thể được đặt tên (NER)

1.1.1 Giới thiệu

Trong bối cảnh sự phát triển không ngừng của Xử lý ngôn ngữ tự nhiên

(NLP), có một công nghệ nổi bật đang làm thay đổi cách mà máy móc hiểu ngôn

ngữ của con người: Nhận dạng Thực thể được Đặt tên (NER) Kỹ thuật đột phá này

không chỉ cho phép máy móc nắm bắt nội dung văn bản mà còn giúp chúng xác

định và phân loại các thực thể quan trọng bên trong Từ việc nhận diện tên cá nhân

cho đến xác định địa điểm, tổ chức, thời gian và nhiều thông tin khác, NER mở ra

cánh cửa cho một sự hiểu biết sâu sắc hơn về ngôn ngữ, tạo điều kiện cho những

ứng dụng thông minh và sáng tạo trong nhiều lĩnh vực khác nhau

1.1.2 Định nghĩa

Về bản chất, Nhận dạng Thực thể được Đặt tên (NER) là một nhiệm vụ

chuyên biệt trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP), tập trung vào việc xác

định và phân loại các thực thể trong văn bản Những thực thể này có thể bao gồm

nhiều loại thông tin đa dạng, chẳng hạn như tên cá nhân, tổ chức, địa điểm, ngày

tháng, và các giá trị số khác NER đóng vai trò quan trọng trong việc giúp máy móc

hiểu và phân tích nội dung văn bản một cách hiệu quả và chính xác

1.1.3 Nhận dạng thực thể được đặt tên (NER) hoạt động như thế nào?

NER hoạt động như một kỹ thuật trích xuất thông tin, và quy trình của nó có thểđược tóm tắt qua một số bước chính sau:

 Tiền xử lý văn bản: Bước đầu tiên là chuẩn bị dữ liệu văn bản cho quá

trình phân tích Điều này thường bao gồm việc chia văn bản thành các từ

hoặc cụm từ và gán nhãn từ loại cho từng đơn vị

Trang 11

 Nhận dạng thực thể: Sau khi văn bản đã được xử lý, thuật toán NER sẽtiến hành quét văn bản để xác định các chuỗi từ tương ứng với các thựcthể cụ thể.

 Phân loại thực thể: Khi các thực thể đã được nhận dạng, NER sẽ phânloại chúng vào các nhóm hoặc loại đã được xác định trước Các loại phổbiến bao gồm Người, Tổ chức, Địa điểm, Ngày tháng, v.v

 Phân tích theo ngữ cảnh: NER không chỉ dừng lại ở việc nhận diện vàphân loại các thực thể mà còn xem xét ngữ cảnh mà chúng xuất hiện.Điều này giúp đảm bảo rằng việc phân loại các thực thể diễn ra một cáchchính xác và phù hợp

1.1.4 Các loại hệ thống NER

Có bốn hệ thống Nhận dạng Thực thể được Đặt tên (NER) khác nhau: dựatrên quy tắc, dựa trên từ điển, dựa trên học máy (ML) và học sâu

 Hệ thống dựa trên từ điển

Đây là cách tiếp cận NER đơn giản nhất, trong đó một từ điển chứa tập hợpcác từ vựng được sử dụng Các thuật toán khớp chuỗi cơ bản sẽ được áp dụng đểkiểm tra xem các thực thể có xuất hiện trong văn bản hay không, so sánh với cácmục trong từ điển Mặc dù phương pháp này dễ triển khai, nó có những hạn chếđáng kể, đặc biệt là việc cần phải liên tục cập nhật và duy trì từ điển để đảm bảo độchính xác và đầy đủ của thông tin

 Ưu điểm: Dễ thực hiện và dễ hiểu.

 Nhược điểm: Giới hạn ở các thực thể trong từ điển, yêu cầu cập nhật

liên tục và có thể bỏ sót các biến thể hoặc lỗi chính tả

 Trường hợp sử dụng: Phù hợp với các lĩnh vực có thuật ngữ ổn định

và được định nghĩa rõ ràng, chẳng hạn như văn bản y khoa hoặc pháplý

Trang 12

 Hệ thống dựa trên quy tắc

Trong phương pháp này, mô hình sử dụng một bộ quy tắc đã được xác địnhtrước để trích xuất thông tin Có hai loại quy tắc chính được áp dụng: quy tắc dựatrên mẫu, dựa vào hình thái của các từ, và quy tắc dựa trên ngữ cảnh, phụ thuộc vàocách mà từ được sử dụng trong tài liệu Ví dụ điển hình của quy tắc dựa trên ngữcảnh là: "Nếu chức danh của một người được theo sau bởi một danh từ riêng, thìdanh từ đó có thể được coi là tên của người đó"

 Dựa trên mẫu: Sử dụng biểu thức chính quy và mẫu để xác định

 Trường hợp sử dụng: Hiệu quả trong việc trích xuất các định

dạng cụ thể như ngày tháng, số điện thoại hoặc địa chỉ email

 Hệ thống dựa trên máy học

Các hệ thống Nhận dạng Thực thể được Đặt tên (NER) dựa trên máy học(ML) sử dụng các mô hình thống kê để phát hiện các thực thể Các mô hình này tạo

ra các biểu diễn dựa trên các đặc trưng của dữ liệu quan sát được Phương pháp nàygiúp khắc phục nhiều hạn chế của các cách tiếp cận dựa trên từ điển và quy tắc, chophép nhận diện các thực thể ngay cả khi có sự khác biệt nhỏ về chính tả

Quá trình sử dụng giải pháp NER dựa trên ML thường trải qua hai giai đoạnchính Trong giai đoạn đầu, mô hình ML được huấn luyện trên các tài liệu đã đượcchú thích Thời gian đào tạo sẽ phụ thuộc vào độ phức tạp của mô hình và kíchthước của tập dữ liệu Sau khi hoàn tất việc đào tạo, mô hình có thể được sử dụng

Trang 13

để chú thích các tài liệu thô, tự động xác định và phân loại các thực thể trong vănbản.

 Thuật toán: Các thuật toán phổ biến bao gồm Cây quyết định,

Rừng ngẫu nhiên, SVM, v.v

 Kỹ thuật đặc điểm: Sử dụng các đặc điểm như hình dạng từ, thẻ

từ loại và các từ xung quanh

 Ưu điểm: Có thể áp dụng vào nhiều lĩnh vực khác nhau, có thể

học hỏi từ ví dụ

 Nhược điểm: Yêu cầu dữ liệu đào tạo có nhãn, có thể gặp khó

khăn với các thực thể hiếm

 Trường hợp sử dụng: Phù hợp với các miền có dữ liệu đào tạo

khả dụng và nhiều loại thực thể khác nhau

 Phương pháp học sâu

Trong những năm gần đây, các mô hình dựa trên học sâu (DeepLearning - DL) đã trở thành lựa chọn hàng đầu để xây dựng các hệ thốngNhận dạng Thực thể được Đặt tên (NER) tiên tiến Việc áp dụng các kỹthuật học sâu mang lại nhiều lợi thế so với các phương pháp truyền thống

đã được thảo luận trước đây

Trang 14

Khi sử dụng phương pháp học sâu, dữ liệu đầu vào được ánh xạ thànhcác biểu diễn phi tuyến tính, cho phép mô hình nắm bắt và học hỏi cácmối quan hệ phức tạp có trong dữ liệu Một lợi ích đáng kể khác là khảnăng giảm thiểu thời gian và tài nguyên cần thiết cho việc kỹ thuật hóađặc trưng, điều này thường là một yêu cầu bắt buộc trong các phươngpháp truyền thống Nhờ vậy, các hệ thống NER dựa trên học sâu khôngchỉ nâng cao độ chính xác mà còn cải thiện hiệu suất tổng thể trong việcnhận diện và phân loại các thực thể.

 Mô hình: Sử dụng các mô hình như RNN, LSTM, BERT,

Trang 15

 Trường hợp sử dụng: Lý tưởng cho các ứng dụng phức

tạp và quy mô lớn, chẳng hạn như phân tích phương tiệntruyền thông xã hội hoặc xử lý đa ngôn ngữ

 Phương pháp lai

Nhiều hệ thống Nhận dạng Thực thể được Đặt tên (NER) hiện nay kếthợp các phương pháp khác nhau để tận dụng những ưu điểm và giảm thiểunhược điểm của từng phương pháp Chẳng hạn, một nhà cung cấp dịch vụchăm sóc sức khỏe thường phải đối mặt với thách thức trong việc tríchxuất nhiều loại thông tin, bao gồm chi tiết về bệnh nhân, tình trạng bệnh

lý, phương pháp điều trị và thuốc từ hồ sơ bệnh án Để giải quyết vấn đềnày, họ đã chọn áp dụng một phương pháp kết hợp giữa các kỹ thuật dựatrên quy tắc và học sâu

Trong hệ thống này, thành phần dựa trên quy tắc sử dụng các biểuthức chính quy và mẫu để xác định các định dạng cụ thể, chẳng hạn nhưngày tháng và ID bệnh nhân Đồng thời, một thành phần học sâu, sử dụng

mô hình LSTM, giúp nhận diện các thuật ngữ y khoa phức tạp hơn bằngcách học từ ngữ cảnh và các mối quan hệ giữa các từ

Bằng cách tích hợp kết quả từ cả hai thành phần, hệ thống lai này cókhả năng trích xuất và phân loại chính xác nhiều loại thông tin khác nhau

từ hồ sơ y tế Sự kết hợp này không chỉ tận dụng thế mạnh của cả phươngpháp học sâu và dựa trên quy tắc, mà còn cung cấp một giải pháp toàndiện cho nhu cầu trích xuất thông tin của nhà cung cấp dịch vụ chăm sócsức khỏe

 Kết hợp: Có thể kết hợp dựa trên quy tắc với học máy hoặc họcsâu

 Ưu điểm: Độ chính xác, tính linh hoạt và độ bền được cảithiện

Trang 16

 Nhược điểm: Phức tạp trong việc tích hợp và điều chỉnh.

 Trường hợp sử dụng: Thích hợp cho các ứng dụng đòi hỏi độ

chính xác và khả năng thích ứng cao.

1.1.5 Các trường hợp sử dụng Nhận dạng Thực thể được Đặt tên (NER)\

Nhận dạng Thực thể được Đặt tên (NER) thể hiện tính linh hoạt trong nhiều lĩnhvực khác nhau Dưới đây là một số ứng dụng tiêu biểu:

 Chatbot: NER hỗ trợ các chatbot, như GPT, hiểu và xử lý truy vấn của

người dùng bằng cách nhận diện các thực thể quan trọng trong câu hỏi

 Hỗ trợ khách hàng: NER giúp phân loại phản hồi theo sản phẩm, từ đó rút

ngắn thời gian phản hồi và nâng cao trải nghiệm khách hàng

 Tài chính: Trong lĩnh vực tài chính, NER trích xuất dữ liệu quan trọng từ

báo cáo tài chính, hỗ trợ phân tích xu hướng và đánh giá rủi ro

 Chăm sóc sức khỏe: NER rút trích thông tin cần thiết từ hồ sơ lâm sàng,

thúc đẩy quá trình phân tích dữ liệu nhanh chóng và hiệu quả hơn

 Nhân sự: NER tối ưu hóa quy trình tuyển dụng bằng cách tóm tắt hồ sơ ứng

viên và truyền đạt phản hồi một cách rõ ràng

 Nhà cung cấp tin tức: NER phân loại nội dung tin tức thành các thông tin

có liên quan, giúp tăng tốc độ báo cáo và cải thiện độ chính xác

 Công cụ khuyến nghị: Các công ty như Netflix sử dụng NER để cá nhân

hóa các đề xuất nội dung dựa trên hành vi của người dùng

 Công cụ Tìm kiếm: NER nâng cao độ chính xác của kết quả tìm kiếm bằng

cách phân loại nội dung web, giúp người dùng tìm kiếm thông tin nhanhchóng và hiệu quả hơn

 Phân tích tình cảm: NER trích xuất các đề cập đến thương hiệu từ các bài

đánh giá, hỗ trợ các công cụ phân tích tình cảm trong việc hiểu rõ hơn vềcảm nhận của khách hàng

1.1.6 Ai sử dụng nhận dạng thực thể được đặt tên (NER)?

Trang 17

Nhận dạng Thực thể được Đặt tên (NER) là một trong những kỹ thuật mạnh

mẽ trong xử lý ngôn ngữ tự nhiên (NLP), đã được áp dụng rộng rãi trong nhiềungành và lĩnh vực khác nhau Dưới đây là một số ví dụ tiêu biểu:

1 Công cụ tìm kiếm

NER là thành phần cốt lõi của các công cụ tìm kiếm hiện đại như Google vàBing Kỹ thuật này cho phép xác định và phân loại các thực thể từ các trang web vàtruy vấn tìm kiếm, từ đó cung cấp kết quả tìm kiếm phù hợp hơn Chẳng hạn, NERgiúp phân biệt giữa "Apple" (công ty) và "quả táo" (trái cây) dựa trên ngữ cảnh

2 Chatbot

Các chatbot và trợ lý AI sử dụng NER để hiểu các thực thể chính trong truyvấn của người dùng, giúp cung cấp phản hồi chính xác hơn Ví dụ, khi người dùnghỏi "Tìm nhà hàng Ý gần Công viên Trung tâm", NER giúp chatbot nhận diện "Ý"

là loại món ăn, "nhà hàng" là địa điểm và "Công viên Trung tâm" là vị trí cần tìm

3 Báo chí điều tra

Hiệp hội Các nhà báo Điều tra Quốc tế (ICIJ) đã áp dụng NER để phân tích

Hồ sơ Panama, một vụ rò rỉ lớn gồm 11.5 triệu tài liệu tài chính và pháp lý Trongtrường hợp này, NER được sử dụng để tự động xác định người, tổ chức và địa điểmtrong hàng triệu tài liệu phi cấu trúc, giúp phát hiện các mạng lưới trốn thuế ở nướcngoài

4 Tin sinh học

Trong lĩnh vực Tin sinh học, NER được sử dụng để trích xuất các thực thểquan trọng như gen, protein, thuốc và bệnh tật từ các tài liệu nghiên cứu y sinh vàbáo cáo thử nghiệm lâm sàng Dữ liệu này hỗ trợ đẩy nhanh quá trình khám pháthuốc

5 Giám sát phương tiện truyền thông xã hội

Các thương hiệu trên mạng xã hội sử dụng NER để theo dõi hiệu quả của cácchiến dịch quảng cáo và hoạt động của đối thủ Ví dụ, một hãng hàng không có thể

Ngày đăng: 05/12/2024, 14:40

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w