1.1.2 Định nghĩa Về bản chất, Nhận dạng Thực thể được Đặt tên NER là một nhiệm vụ chuyên biệt trong lĩnh vực Xử lý ngôn ngữ tự nhiên NLP, tập trung vào việc xác định và phân loại các thự
Trang 1BÁO CÁO GIỮA KÌ NHẬP MÔN XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Trang 2BÁO CÁO GIỮA KÌ NHẬP MÔN XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Trang 3LỜI CẢM ƠN
Đầu tiên, chúng tôi xin gửi lời cám ơn chân thành đến thầy Lê Anh Cường.Thầy là người đã hỗ trợ, hướng dẫn tôi trong suốt quá trình làm báo cáo này, thầycòn giải đáp những thắc mắc, những điều nhóm chúng tôi còn chưa hiểu và giúpchúng tôi hoàn thiện bài báo cáo này
Tiếp đến, chúng tôi xin gửi lời cảm ơn đến khoa Công Nghệ Thông Tin vì đã
tạo điều kiện cho tôi được học tập môn “Nhập môn Xử lý ngôn ngữ tự nhiên”.
Khoa luôn sẵn sàng giúp đỡ tôi, cung cấp những tài liệu cần thiết để tôi có thêmnhững kiến thức bổ ích để làm bài và tích lũy được nhưng kinh nghiệm quý báutrong quá trình học tập tại Đại Học Tôn Đức Thắng
Sau cùng, trong quá trình làm bài, chúng tôi nhận được sự giúp đỡ của Quýthầy/cô và các anh chị khóa trên Do chưa có nhiều kinh nghiệm và kiến thức nênnhóm chúng tôi còn nhiều sai sót nên kính mong Quý thầy cô và các anh chị chỉdẫn, góp ý để chúng tôi có thể làm bài tốt hơn trong những lần tiếp theo
TẬP THỂ NHÓM XIN CHÂN THÀNH CẢM ƠN Ạ
Trang 4BÁO CÁO ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG
Chúng tôi xin cam đoan đây là bài báo cáo của riêng chúng tôi và được sựhướng dẫn của Thầy Lê Anh Cường; Các nội dung nghiên cứu, kết quả trong đề tàinày là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những sốliệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chínhtác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo
Ngoài ra, trong báo cáo còn sử dụng một số nhận xét, đánh giá cũng như sốliệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồngốc
Nếu phát hiện có bất kỳ sự gian lận nào chúng tôi xin hoàn toàn chịu trách nhiệm về nội dung bài báo cáo của mình Trường đại học Tôn Đức Thắng
không liên quan đến những vi phạm tác quyền, bản quyền do chúng tôi gây ra trongquá trình thực hiện (nếu có)
TP Hồ Chí Minh, ngày tháng năm
Tác giả (ký tên và ghi rõ họ tên)
Đoàn Nhật Duy
Trang 5PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN
Phần xác nhận của GV hướng dẫn
_
Tp Hồ Chí Minh, ngày tháng năm
(kí và ghi họ tên)
Phần đánh giá của GV chấm bài
_
Tp Hồ Chí Minh, ngày tháng năm
(kí và ghi họ tên)
Trang 6TÓM TẮT
Bài làm gồm 3 phần:
Phần 1: Mô hình nhận dạng thực thể tên (Named Entity Recognition - NER)Phần 2: Các phương pháp Fasttext cho việc biểu biểu diễn từ bằng vector (Word2Vec và Word Embeddings)
Phần 3: Code và thực nghiệm
Trang 7MỤC LỤC
LỜI CẢM ƠN i
PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN iii
TÓM TẮT iv
MỤC LỤC 1
DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ 3
PHẦN 1 - NAMED ENTITY RECOGNITION: NER 4
1.1 Nhận dạng thực thể được đặt tên (NER) 4
1.1.1 Giới thiệu 4
1.1.2 Định nghĩa 5
1.1.3 Hoạt động 6
1.1.4 Các loại hệ thống NER 8
1.1.5 Các trường hợp sử dụng 8
1.1.6 Ai sử dụng NER 8
1.1.7 Uư và nhược điểm NER 8
1.2 Phương pháp phân loại trong Nhận dạng thực thể được đặt tên (NER) .9
1.2.1 Ví dụ về mô hình phân loại NER 8
1.3 Phương pháp LSTM 9
1.3.1 Giới thiệu 9
1.3.2 Kiến trúc LSTM 10
1.3.3 Logic đằng sau LSTM 10
1.3.4 Cấu trúc LSTM 10
1.3.5 Phương pháp LSTM trong NER 10
PHẦN 2 - WORD2VEC VÀ WORD EMBEDDINGS .14
2.1 Fast text 14
2.2 Giới thiệu Word Embeddings 21 2.3 Word2Vec và các phương pháp biểu diễn từ truyền thống\
Trang 8142.4FastText – Khắc phục nhược điểm của Word2Vec
21PHẦN 3 – CODE VÀ THỰC NGHIỆM 4
TÀI LIỆU THAM KHẢO 24
Trang 9DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ
DANH MỤC HÌNH
DANH MỤC BẢNG
Trang 10PHẦN 1 - NAMED ENTITY RECOGNITION: NER
1.1 Nhận dạng thực thể được đặt tên (NER)
1.1.1 Giới thiệu
Trong bối cảnh sự phát triển không ngừng của Xử lý ngôn ngữ tự nhiên
(NLP), có một công nghệ nổi bật đang làm thay đổi cách mà máy móc hiểu ngôn
ngữ của con người: Nhận dạng Thực thể được Đặt tên (NER) Kỹ thuật đột phá này
không chỉ cho phép máy móc nắm bắt nội dung văn bản mà còn giúp chúng xác
định và phân loại các thực thể quan trọng bên trong Từ việc nhận diện tên cá nhân
cho đến xác định địa điểm, tổ chức, thời gian và nhiều thông tin khác, NER mở ra
cánh cửa cho một sự hiểu biết sâu sắc hơn về ngôn ngữ, tạo điều kiện cho những
ứng dụng thông minh và sáng tạo trong nhiều lĩnh vực khác nhau
1.1.2 Định nghĩa
Về bản chất, Nhận dạng Thực thể được Đặt tên (NER) là một nhiệm vụ
chuyên biệt trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP), tập trung vào việc xác
định và phân loại các thực thể trong văn bản Những thực thể này có thể bao gồm
nhiều loại thông tin đa dạng, chẳng hạn như tên cá nhân, tổ chức, địa điểm, ngày
tháng, và các giá trị số khác NER đóng vai trò quan trọng trong việc giúp máy móc
hiểu và phân tích nội dung văn bản một cách hiệu quả và chính xác
1.1.3 Nhận dạng thực thể được đặt tên (NER) hoạt động như thế nào?
NER hoạt động như một kỹ thuật trích xuất thông tin, và quy trình của nó có thểđược tóm tắt qua một số bước chính sau:
Tiền xử lý văn bản: Bước đầu tiên là chuẩn bị dữ liệu văn bản cho quá
trình phân tích Điều này thường bao gồm việc chia văn bản thành các từ
hoặc cụm từ và gán nhãn từ loại cho từng đơn vị
Trang 11 Nhận dạng thực thể: Sau khi văn bản đã được xử lý, thuật toán NER sẽtiến hành quét văn bản để xác định các chuỗi từ tương ứng với các thựcthể cụ thể.
Phân loại thực thể: Khi các thực thể đã được nhận dạng, NER sẽ phânloại chúng vào các nhóm hoặc loại đã được xác định trước Các loại phổbiến bao gồm Người, Tổ chức, Địa điểm, Ngày tháng, v.v
Phân tích theo ngữ cảnh: NER không chỉ dừng lại ở việc nhận diện vàphân loại các thực thể mà còn xem xét ngữ cảnh mà chúng xuất hiện.Điều này giúp đảm bảo rằng việc phân loại các thực thể diễn ra một cáchchính xác và phù hợp
1.1.4 Các loại hệ thống NER
Có bốn hệ thống Nhận dạng Thực thể được Đặt tên (NER) khác nhau: dựatrên quy tắc, dựa trên từ điển, dựa trên học máy (ML) và học sâu
Hệ thống dựa trên từ điển
Đây là cách tiếp cận NER đơn giản nhất, trong đó một từ điển chứa tập hợpcác từ vựng được sử dụng Các thuật toán khớp chuỗi cơ bản sẽ được áp dụng đểkiểm tra xem các thực thể có xuất hiện trong văn bản hay không, so sánh với cácmục trong từ điển Mặc dù phương pháp này dễ triển khai, nó có những hạn chếđáng kể, đặc biệt là việc cần phải liên tục cập nhật và duy trì từ điển để đảm bảo độchính xác và đầy đủ của thông tin
Ưu điểm: Dễ thực hiện và dễ hiểu.
Nhược điểm: Giới hạn ở các thực thể trong từ điển, yêu cầu cập nhật
liên tục và có thể bỏ sót các biến thể hoặc lỗi chính tả
Trường hợp sử dụng: Phù hợp với các lĩnh vực có thuật ngữ ổn định
và được định nghĩa rõ ràng, chẳng hạn như văn bản y khoa hoặc pháplý
Trang 12 Hệ thống dựa trên quy tắc
Trong phương pháp này, mô hình sử dụng một bộ quy tắc đã được xác địnhtrước để trích xuất thông tin Có hai loại quy tắc chính được áp dụng: quy tắc dựatrên mẫu, dựa vào hình thái của các từ, và quy tắc dựa trên ngữ cảnh, phụ thuộc vàocách mà từ được sử dụng trong tài liệu Ví dụ điển hình của quy tắc dựa trên ngữcảnh là: "Nếu chức danh của một người được theo sau bởi một danh từ riêng, thìdanh từ đó có thể được coi là tên của người đó"
Dựa trên mẫu: Sử dụng biểu thức chính quy và mẫu để xác định
Trường hợp sử dụng: Hiệu quả trong việc trích xuất các định
dạng cụ thể như ngày tháng, số điện thoại hoặc địa chỉ email
Hệ thống dựa trên máy học
Các hệ thống Nhận dạng Thực thể được Đặt tên (NER) dựa trên máy học(ML) sử dụng các mô hình thống kê để phát hiện các thực thể Các mô hình này tạo
ra các biểu diễn dựa trên các đặc trưng của dữ liệu quan sát được Phương pháp nàygiúp khắc phục nhiều hạn chế của các cách tiếp cận dựa trên từ điển và quy tắc, chophép nhận diện các thực thể ngay cả khi có sự khác biệt nhỏ về chính tả
Quá trình sử dụng giải pháp NER dựa trên ML thường trải qua hai giai đoạnchính Trong giai đoạn đầu, mô hình ML được huấn luyện trên các tài liệu đã đượcchú thích Thời gian đào tạo sẽ phụ thuộc vào độ phức tạp của mô hình và kíchthước của tập dữ liệu Sau khi hoàn tất việc đào tạo, mô hình có thể được sử dụng
Trang 13để chú thích các tài liệu thô, tự động xác định và phân loại các thực thể trong vănbản.
Thuật toán: Các thuật toán phổ biến bao gồm Cây quyết định,
Rừng ngẫu nhiên, SVM, v.v
Kỹ thuật đặc điểm: Sử dụng các đặc điểm như hình dạng từ, thẻ
từ loại và các từ xung quanh
Ưu điểm: Có thể áp dụng vào nhiều lĩnh vực khác nhau, có thể
học hỏi từ ví dụ
Nhược điểm: Yêu cầu dữ liệu đào tạo có nhãn, có thể gặp khó
khăn với các thực thể hiếm
Trường hợp sử dụng: Phù hợp với các miền có dữ liệu đào tạo
khả dụng và nhiều loại thực thể khác nhau
Phương pháp học sâu
Trong những năm gần đây, các mô hình dựa trên học sâu (DeepLearning - DL) đã trở thành lựa chọn hàng đầu để xây dựng các hệ thốngNhận dạng Thực thể được Đặt tên (NER) tiên tiến Việc áp dụng các kỹthuật học sâu mang lại nhiều lợi thế so với các phương pháp truyền thống
đã được thảo luận trước đây
Trang 14Khi sử dụng phương pháp học sâu, dữ liệu đầu vào được ánh xạ thànhcác biểu diễn phi tuyến tính, cho phép mô hình nắm bắt và học hỏi cácmối quan hệ phức tạp có trong dữ liệu Một lợi ích đáng kể khác là khảnăng giảm thiểu thời gian và tài nguyên cần thiết cho việc kỹ thuật hóađặc trưng, điều này thường là một yêu cầu bắt buộc trong các phươngpháp truyền thống Nhờ vậy, các hệ thống NER dựa trên học sâu khôngchỉ nâng cao độ chính xác mà còn cải thiện hiệu suất tổng thể trong việcnhận diện và phân loại các thực thể.
Mô hình: Sử dụng các mô hình như RNN, LSTM, BERT,
Trang 15 Trường hợp sử dụng: Lý tưởng cho các ứng dụng phức
tạp và quy mô lớn, chẳng hạn như phân tích phương tiệntruyền thông xã hội hoặc xử lý đa ngôn ngữ
Phương pháp lai
Nhiều hệ thống Nhận dạng Thực thể được Đặt tên (NER) hiện nay kếthợp các phương pháp khác nhau để tận dụng những ưu điểm và giảm thiểunhược điểm của từng phương pháp Chẳng hạn, một nhà cung cấp dịch vụchăm sóc sức khỏe thường phải đối mặt với thách thức trong việc tríchxuất nhiều loại thông tin, bao gồm chi tiết về bệnh nhân, tình trạng bệnh
lý, phương pháp điều trị và thuốc từ hồ sơ bệnh án Để giải quyết vấn đềnày, họ đã chọn áp dụng một phương pháp kết hợp giữa các kỹ thuật dựatrên quy tắc và học sâu
Trong hệ thống này, thành phần dựa trên quy tắc sử dụng các biểuthức chính quy và mẫu để xác định các định dạng cụ thể, chẳng hạn nhưngày tháng và ID bệnh nhân Đồng thời, một thành phần học sâu, sử dụng
mô hình LSTM, giúp nhận diện các thuật ngữ y khoa phức tạp hơn bằngcách học từ ngữ cảnh và các mối quan hệ giữa các từ
Bằng cách tích hợp kết quả từ cả hai thành phần, hệ thống lai này cókhả năng trích xuất và phân loại chính xác nhiều loại thông tin khác nhau
từ hồ sơ y tế Sự kết hợp này không chỉ tận dụng thế mạnh của cả phươngpháp học sâu và dựa trên quy tắc, mà còn cung cấp một giải pháp toàndiện cho nhu cầu trích xuất thông tin của nhà cung cấp dịch vụ chăm sócsức khỏe
Kết hợp: Có thể kết hợp dựa trên quy tắc với học máy hoặc họcsâu
Ưu điểm: Độ chính xác, tính linh hoạt và độ bền được cảithiện
Trang 16 Nhược điểm: Phức tạp trong việc tích hợp và điều chỉnh.
Trường hợp sử dụng: Thích hợp cho các ứng dụng đòi hỏi độ
chính xác và khả năng thích ứng cao.
1.1.5 Các trường hợp sử dụng Nhận dạng Thực thể được Đặt tên (NER)\
Nhận dạng Thực thể được Đặt tên (NER) thể hiện tính linh hoạt trong nhiều lĩnhvực khác nhau Dưới đây là một số ứng dụng tiêu biểu:
Chatbot: NER hỗ trợ các chatbot, như GPT, hiểu và xử lý truy vấn của
người dùng bằng cách nhận diện các thực thể quan trọng trong câu hỏi
Hỗ trợ khách hàng: NER giúp phân loại phản hồi theo sản phẩm, từ đó rút
ngắn thời gian phản hồi và nâng cao trải nghiệm khách hàng
Tài chính: Trong lĩnh vực tài chính, NER trích xuất dữ liệu quan trọng từ
báo cáo tài chính, hỗ trợ phân tích xu hướng và đánh giá rủi ro
Chăm sóc sức khỏe: NER rút trích thông tin cần thiết từ hồ sơ lâm sàng,
thúc đẩy quá trình phân tích dữ liệu nhanh chóng và hiệu quả hơn
Nhân sự: NER tối ưu hóa quy trình tuyển dụng bằng cách tóm tắt hồ sơ ứng
viên và truyền đạt phản hồi một cách rõ ràng
Nhà cung cấp tin tức: NER phân loại nội dung tin tức thành các thông tin
có liên quan, giúp tăng tốc độ báo cáo và cải thiện độ chính xác
Công cụ khuyến nghị: Các công ty như Netflix sử dụng NER để cá nhân
hóa các đề xuất nội dung dựa trên hành vi của người dùng
Công cụ Tìm kiếm: NER nâng cao độ chính xác của kết quả tìm kiếm bằng
cách phân loại nội dung web, giúp người dùng tìm kiếm thông tin nhanhchóng và hiệu quả hơn
Phân tích tình cảm: NER trích xuất các đề cập đến thương hiệu từ các bài
đánh giá, hỗ trợ các công cụ phân tích tình cảm trong việc hiểu rõ hơn vềcảm nhận của khách hàng
1.1.6 Ai sử dụng nhận dạng thực thể được đặt tên (NER)?
Trang 17Nhận dạng Thực thể được Đặt tên (NER) là một trong những kỹ thuật mạnh
mẽ trong xử lý ngôn ngữ tự nhiên (NLP), đã được áp dụng rộng rãi trong nhiềungành và lĩnh vực khác nhau Dưới đây là một số ví dụ tiêu biểu:
1 Công cụ tìm kiếm
NER là thành phần cốt lõi của các công cụ tìm kiếm hiện đại như Google vàBing Kỹ thuật này cho phép xác định và phân loại các thực thể từ các trang web vàtruy vấn tìm kiếm, từ đó cung cấp kết quả tìm kiếm phù hợp hơn Chẳng hạn, NERgiúp phân biệt giữa "Apple" (công ty) và "quả táo" (trái cây) dựa trên ngữ cảnh
2 Chatbot
Các chatbot và trợ lý AI sử dụng NER để hiểu các thực thể chính trong truyvấn của người dùng, giúp cung cấp phản hồi chính xác hơn Ví dụ, khi người dùnghỏi "Tìm nhà hàng Ý gần Công viên Trung tâm", NER giúp chatbot nhận diện "Ý"
là loại món ăn, "nhà hàng" là địa điểm và "Công viên Trung tâm" là vị trí cần tìm
3 Báo chí điều tra
Hiệp hội Các nhà báo Điều tra Quốc tế (ICIJ) đã áp dụng NER để phân tích
Hồ sơ Panama, một vụ rò rỉ lớn gồm 11.5 triệu tài liệu tài chính và pháp lý Trongtrường hợp này, NER được sử dụng để tự động xác định người, tổ chức và địa điểmtrong hàng triệu tài liệu phi cấu trúc, giúp phát hiện các mạng lưới trốn thuế ở nướcngoài
4 Tin sinh học
Trong lĩnh vực Tin sinh học, NER được sử dụng để trích xuất các thực thểquan trọng như gen, protein, thuốc và bệnh tật từ các tài liệu nghiên cứu y sinh vàbáo cáo thử nghiệm lâm sàng Dữ liệu này hỗ trợ đẩy nhanh quá trình khám pháthuốc
5 Giám sát phương tiện truyền thông xã hội
Các thương hiệu trên mạng xã hội sử dụng NER để theo dõi hiệu quả của cácchiến dịch quảng cáo và hoạt động của đối thủ Ví dụ, một hãng hàng không có thể