Luận văn thạc sĩ Khoa học máy tính: Hệ thống trích xuất nội dung bất động sản ứng dụng học máy

NHIỆM VỤ VÀ NỘI DUNG: - Thu thập dữ liệu từ các trang bất động sản ở Việt Nam - Xử lý dữ liệu và đánh nhãn cho các đoạn văn - Triển khai và đánh giá kết quả mô hình DIET - Xây dựng hệ t

Giới thiệu về đề tài

Giới thiệu chung

Hệ thống trích xuất nội dung (information extraction) là kĩ thuật của trí tuệ nhân tạo, một giúp xác định và truy xuất thông tin cụ thể từ các nguồn dữ liệu phi cấu trúc

Nó giúp các tổ chức và doanh nghiệp có được những hiểu biết có giá trị từ các nhóm dữ liệu trực tuyến và ngoại tuyến ngày càng lớn Thông thường việc trích xuất nội dung sử dụng các phương pháp tiếp cận cứng nhắc và hạn chế như đối sánh mẫu (template matching) hoặc trích xuất dựa trên quy tắc (rule-based approach) Những kỹ thuật như vậy gặp khó khăn trong việc xử lý với các cấu trúc thông tin thay đổi nhanh chóng và lượng dữ liệu khổng lồ được số hóa đưa ra Do đó, học máy và học sâu đã trở thành phương pháp được ưa chuộng để trích xuất dữ liệu hữu ích trên quy mô lớn và với độ chính xác cao hơn

Minh hoạ hệ thống trích xuất nội dung Đối với thương mại điện tử và các hệ thống môi giới trung gian như hệ thống môi giới bất động sản làm trung gian giữa người muốn mua và bán nhà, người mua và người bán không cần gặp gỡ trực tiếp, mà họ giao dịch với nhau trên các hệ thống Vì vậy, rất cần có một trợ lí bán hàng tự động Việc tìm ra một “chuyên gia” tư vấn thông minh,

2 thân thiện, am hiểu các sản phẩm trên các website, và am hiểu mong muốn của người bán cũng như người mua vô cùng quan trọng và cũng chính là một thách thức

Vấn đề này có thể được giải quyết bằng việc tích hợp các kĩ thuật trích xuất nội dung dựa trên ngôn ngữ thông tin hoặc/và đặc trưng hình ảnh của sản phẩm để đưa ra sự hiểu biết sâu sắc về các sản phẩm đó để có thể gợi ý hoặc đưa ra kết quả tìm kiếm cho người muốn mua Điều này nếu muốn làm thủ công hoặc các phương pháp tiếp cận truyền thống sẽ không được linh hoạt so sánh với các hệ thống bằng học máy khi lượng dữ liệu ngày càng lớn và thay đổi liên tục và đa dạng như ở thị trường bất động sản Việt Nam

Hệ thống trích xuất nội dung của tập đoàn Zillow

Các trang môi giới bất động sản hàng đầu như localize.com, zillow.com, trulia.com sử dụng kỹ thuật trích xuất nội dung từ trang web để nắm bắt thông tin bất động sản Bằng cách này, họ có thể nâng cao trải nghiệm khách hàng, cải thiện chất lượng dịch vụ và tối đa hóa lợi nhuận.

Dưới góc nhìn của nhà cung cấp dịch vụ như các sàn môi giới, việc hiểu rõ về các sản phẩm được đăng lên sàn thương mại vô cùng quan trọng, để hiểu càng sâu càng tốt các sản phẩm mà họ cần phải môi giới, từ đó có thể dễ dàng đưa ra đề xuất hoặc tìm kiếm cho các khách hàng mục tiêu, giúp họ ăn được tiền hoa hồng và đem lại lợi nhuận cho nền tảng Ngược lại dưới góc nhìn của khách hàng, với một khối lượng thông tin lớn gây ra khó khăn cho việc tìm kiếm các thông tin thực sự cần thiết, nếu không được tổ chức và đề xuất một cách hợp lý Hệ thống trích xuất nội dung được ra đời và cả 2 bài toán này được giải quyết đồng thời

Với sự nổi lên của các kiến trúc đột phá có khả năng giải quyết các dữ liệu dạng chuỗi tuần tự như mô hình RNN, cơ chế Self Attention [1], kiến trúc Transformer [1] đã đạt được các cột mốc đáng nhớ trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural language processing) hay sự nổi lên của các mô hình ngôn ngữ lớn (Large language model) và các cơ chế trích xuất đặc trưng như nhận dạng thực thể có đặt tên (Named-entity recognition) đã giúp rất nhiều trong các hệ thống trích xuất đặc trưng Đó là lý do tôi thực hiện đề tài “Hệ thống trích xuất nội dung bất động sản ứng dụng học máy”, mà cụ thể là bài toán nhận dạng ý định và thực thể có đặt tên, bằng việc dự đoán các cụm từ đã được định nghĩa nhãn từ trước và ý định cụ thể của 1 đoạn văn bằng những cơ chế dựa vào ngữ cảnh của câu và các cơ chế của mô hình học sâu để dự đoán, từ đó giúp nâng cao chất lượng kết quả trích xuất nội dung được đưa ra.

Mô tả bài toán trích xuất nội dung của bất động sản sử dụng nhận dạng ý định và thực thể được đặt tên

ý định và thực thể được đặt tên

Trong việc trích xuất nội dung, hai đặc điểm quan trọng nhất cần quan tâm là tính đa dạng của thông tin và tính chính xác trong việc nhận diện thực thể Ví dụ, khi một người dùng đăng tải thông tin về một bất động sản trên một trang web, thông tin đó có thể bao gồm nhiều loại thực thể khác nhau như diện tích, giá cả, số phòng ngủ, vị trí địa lý, và các tiện ích xung quanh

Minh hoạ tổng quát của hệ thống nhận dạng ý định và thực thể được đặt tên

Các thành phần chính của Hệ thống trích xuất nội dung bao gồm:

- Tập các thực thể cần nhận diện (Named Entities): Những thông tin quan trọng như diện tích (area), giá cả (price), số phòng ngủ (bedrooms), vị trí (position), loại bất động sản (real estate type),

Văn bản mô tả bất động sản cung cấp thông tin chi tiết về các đặc điểm, tiện ích và vị trí của một bất động sản Thông tin này thường được sử dụng để trích xuất thực thể bằng hệ thống, hỗ trợ phân tích và tổng hợp dữ liệu liên quan đến bất động sản.

- Các ý định của văn bản mô tả bất động sản: Ý định của người bán thực sự muốn như bán đất, cho thuê nhà, …

Trong thực tế, khi tham gia vào một phiên hoạt động, người dùng có thể đăng tải hoặc tìm kiếm rất nhiều thông tin liên quan đến bất động sản ví dụ như các thực thể liên quan đến ngoại thất như hồ bơi, sân vườn, các thực thể liên quan đến nội thất như bàn ghế,… , các thực thể liên quan đến các tiện ích xung quanh như gần bệnh viện, trường học,… Tuy nhiên, trong phạm vi nghiên cứu và thực hiện luận văn tốt nghiệp này, học viên sẽ tập trung vào việc trích xuất các thực thể cụ thể như diện tích, giá cả, và số phòng ngủ thường thấy từ văn bản mô tả bất động sản ở Việt Nam Giới hạn này giúp cho việc thiết lập dữ liệu huấn luyện đơn giản hơn nhưng lại có ý nghĩa thực tiễn cao, vì những thông tin này thường là yếu tố quyết định trong việc đánh giá bất động sản ở Việt Nam

Khi đó, nhiệm vụ của Hệ thống trích xuất nội dung là xác định và phân loại chính xác các thực thể quan trọng từ văn bản mô tả bất động sản, và người mua có thể click vào 1 trang chi tiết 1 bất động sản và các bất động sản có các từ khoá giống bất động sản hiện tại được hiển thị cho người mua, từ đó giúp người mua dễ dàng tiếp cận và sử dụng thông tin để tìm kiếm các căn nhà yêu thích (Hình 1.4)

Nhiệm vụ của hệ thống trính xuất nội dung bất động sản sử dụng nhận dạng ý định và thực thể được đặt tên bằng cách gợi ý các sản phẩm giống nhau Hoặc người mua có thể tìm kiếm và lọc theo từ khoá cụ thể ví dụ như siêu thị, trường học, mặt tiền hoặc hẻm xe hơi để tìm ra các bất động sản như ý (hình 1.5)

Nhiệm vụ của hệ thống trích xuất nội dung bất động sản sử dụng nhận dạng ý định và thực thể được đặt tên bằng cách tìm kiếm bất động sản theo từ khoá.

Mục tiêu và nhiệm vụ của luận văn

Mục tiêu của luận văn hướng đến việc nghiên cứu và xây dựng hệ thống trích xuất nội dung của bất động sản, sử dụng mô hình ngôn ngữ học sâu, cụ thể là mô hình Dual Intent and Entity Transformer (DIET) [2] như là một cách tiếp cận và đặc biệt vì hiệu suất mô hình tốt và đây là một mô hình nhẹ và train nhanh hơn đến 6 lần so với các mô hình khác (BERT) [3] có thể tận dụng vào những công việc liên quan cho hệ thống môi giới bất động sản và đưa ra kết quả đầu ra của mô hình DIET, cụ thể:

- Nắm được các cơ sở lý thuyết của mô hình DIET

- Vận dụng mô hình DIET vào thực tế của bất động sản ở Việt Nam

- Kiểm nghiệm tính hiệu quả của mô hình DIET trong thực tế Để hoàn thành các mục tiêu kể trên, tác giả sẽ lần lượt giải quyết các nhiệm vụ sau:

- Thu thập dữ liệu thực tế từ các trang bất động sản lớn hiện nay để chuẩn bị dữ liệu cho việc train model

- Tìm hiểu về mô hình DIET [2] cũng như các công trình liên quan đến DIET [2] hoặc transformer trong bài toán trích xuất nội dung bất động sản

- Triển khai mô hình DIET [2] dựa trên data thu thập được từ các trang bất động sản lớn hiện nay

- Thực nghiệm và đánh giá kết quả

- Xây dựng ứng dụng tương tác người bán và người mua để minh hoạ tính thực tiễn của đề tài.

Giới hạn đề tài và đối tượng nghiên cứu

Trọng phạm vi của một đề tài luận văn thạc sĩ, tác giả đề xuất giới hạn nội dung nghiên cứu cụ thể như sau:

- Tập dữ liệu dùng để huấn luyện mô hình được lấy từ các trang bất động sản thực tế ở Việt Nam, được đánh nhãn dựa trên những nhãn thường thấy ở các bài đăng bất động sản ở Việt Nam, cụ thể sẽ trình bày rõ trong chương 5

- Tìm hiểu về mô hình DIET [2]

- Xây dựng và minh hoạ hệ thống gợi ý dựa trên mô hình DIET (Dual Intent and Entity Transformer) [2].

Đóng góp của luận văn

Trong luận văn , học viên:

- Sử dụng bộ dữ liệu tự thu thập được từ các trang bất động sản ở Việt Nam, sau đó đánh nhãn cho các thực thể và ý định để tiến hành huấn luyện model

- Ứng dụng mô hình DIET [2] cho việc đoán ý định và nhận dạng thực thể được đặt tên cho bộ dữ liệu về bất động sản

- Xây dựng ứng dụng nhằm minh hoạ để người mua bán có thể tương tác nhằm mục đích ứng dụng hệ thống trích xuất nội dung bất động sản trong thực tế.

Tóm tắt nội dung

Luận văn “Hệ thống trích xuất nội dung bất động sản ứng dụng học máy” bao gồm những nội dung chính sau đây:

- Chương 1, GIỚI THIỆU ĐỀ TÀI: trình bày tổng quan về đề tài, lý do thực hiện đề tài và ý nghĩa thực tiễn của bài toán, cũng như giới hạn và phạm vi của đề tài Cuối cùng là nhiệm vụ và cấu trúc của luận văn

Chương hai của luận văn đề cập đến Cơ sở lý thuyết, nêu ra những vấn đề học thuật có liên quan nhất sẽ được sử dụng để giải quyết bài toán Trọng tâm là nội dung trích dẫn, đóng vai trò là nền tảng lý luận cho việc nghiên cứu và phân tích trong luận văn.

7 xuất đặc trưng như nhận dạng thực thể, nhúng từ, cơ chế attention, transformer, BERT và cơ chế của Conditional Random field

- Chương 3, CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: trình bày một cách tổng quát về những nghiên cứu liên quan đã và đang được thực hiện, cũng như xu hướng chung hiện nay trong việc giải quyết bài toán

- Chương 4, MÔ HÌNH NHẬN DẠNG Ý ĐỊNH VÀ THỰC THỂ ĐƯỢC ĐẶT

TÊN: giới thiệu mô hình cơ sở cho Bài toán nhận dạng ý định và thực thể được đặt tên DIET [2]

Chương 5 báo cáo các kết quả thực nghiệm thu được từ quá trình thu thập dữ liệu, xử lý dữ liệu và đánh giá Các kết quả này đã được sử dụng để xây dựng một ứng dụng minh họa các ứng dụng thực tế của hệ thống.

- Chương 6: KẾT LUẬN: Kết quả đạt được, các vấn đề còn tồn đọng, và hướng phát triển của đề tài

Cơ sở lý thuyết

Nhận dạng thực thể (Named-entity recognition)

Nhận dạng thực thể được đặt tên (Named Entity Recognition - NER) là một phần quan trọng của xử lý ngôn ngữ tự nhiên (NLP) Mục tiêu chính của NER là xử lý dữ liệu có cấu trúc và phi cấu trúc để phân loại các thực thể được đặt tên vào các danh mục xác định trước Các danh mục phổ biến bao gồm tên, địa điểm, công ty, thời gian, giá trị tiền tệ, sự kiện, và nhiều loại khác

NER có vai trò nhận dạng các cụm từ trong văn bản và phân loại chúng vào các nhóm đã được định nghĩa trước Một số nhóm phổ biến trong NER bao gồm:

- Tên người: Ví dụ: "Nguyễn Văn A", "John Smith"

- Tổ chức: Ví dụ: "Google", "Đại học Quốc gia Hà Nội"

- Địa điểm: Ví dụ: "Hà Nội", "New York"

- Thời gian: Ví dụ: "ngày 1 tháng 1 năm 2024", "tháng 7 năm 2023"

- Loại sản phẩm: Ví dụ: "iPhone", "Toyota Camry"

- Nhãn hiệu: Ví dụ: "Coca-Cola", "Nike"

Kết quả của tác vụ nhận dạng thực thể được đặt tên có thể được sử dụng cho nhiều bài toán phức tạp hơn như:

- Chatbot: NER giúp chatbot hiểu và phản hồi chính xác các câu hỏi liên quan đến các thực thể cụ thể

- Question Answering: Hệ thống có thể tìm kiếm và trả lời các câu hỏi dựa trên thông tin đã được phân loại

- Search: Cải thiện hiệu quả tìm kiếm bằng cách nhận diện và xử lý các thực thể quan trọng trong truy vấn tìm kiếm

- Phân tích dữ liệu: Giúp tổ chức và phân loại thông tin trong các tài liệu lớn để trích xuất các thông tin quan trọng một cách hiệu quả hơn

NER là một kỹ thuật nền tảng trong NLP, đóng vai trò quan trọng trong việc hiểu và xử lý ngôn ngữ tự nhiên, từ đó nâng cao hiệu quả và độ chính xác của các ứng dụng liên quan

Nhận diện thực thể được đặt tên

Nhúng từ (word embedding)

Máy tính không hiểu những mặt chữ tự nhiên như con người Thay vào đó, nó chỉ hiểu những dãy số Để máy tính có thể xử lý và hiểu các từ trong ngôn ngữ tự nhiên, cần phải chuyển đổi các từ này thành các dãy số đặc trưng, gọi là vector Mỗi từ, dù thuộc bất kỳ ngôn ngữ nào trên thế giới, đều được biểu diễn bằng một dãy số đặc trưng riêng Quá trình tạo ra vector cho từ gọi là word embedding (nhúng từ)

Có hai loại nhúng từ chính: nhúng từ truyền thống và nhúng từ có ngữ cảnh

2.2.1 Nhúng từ truyền thống (traditional word embedding)

Nhúng từ truyền thống, sử dụng các phương pháp như Word2Vec và GloVe, học cách biểu diễn các từ bằng vector một cách toàn cục Quá trình này xây dựng một bộ từ điển cho tất cả các từ trong tập dữ liệu mà không quan tâm đến ngữ cảnh của từ đó so với các từ khác trong câu Phương pháp này triển khai biểu diễn vector tương tự của từ (similar representations) để mô hình học được các từ xuất hiện gần nhau trong bộ từ điển

Cụ thể, các phương pháp nhúng từ truyền thống như Word2Vec sử dụng các mạng nơ-ron để học mối quan hệ giữa các từ trong tập dữ liệu bằng cách dự đoán từ ngữ dựa trên ngữ cảnh xung quanh (CBOW - Continuous Bag of Words) hoặc dự đoán ngữ cảnh xung quanh dựa trên từ ngữ (Skip-gram) GloVe, mặt khác, sử dụng ma trận đồng xuất hiện (co-occurrence matrix) để học biểu diễn vector của từ Điểm yếu chính của các phương pháp nhúng từ truyền thống là chúng chỉ tạo ra một vector duy nhất cho mỗi từ trong từ điển, bất kể từ đó xuất hiện trong ngữ cảnh nào Điều này có nghĩa là các từ giống nhau ở tất cả các câu sẽ được nhúng thành cùng một vector duy nhất, không phản ánh được sự khác biệt về ngữ nghĩa dựa trên ngữ cảnh

Ví dụ, xét hai câu sau:

- "Hôm nay tôi chơi đá cầu."

Trong cả hai câu, từ "đá" có các ý nghĩa khác nhau, nhưng nhúng từ truyền thống sẽ biểu diễn từ "đá" bằng cùng một vector duy nhất, không để ý đến bối cảnh của các câu Điều này làm giảm khả năng của mô hình trong việc hiểu đúng ngữ nghĩa của từ trong các tình huống khác nhau

Nhúng từ truyền thống đã đóng góp rất nhiều cho sự phát triển của NLP, nhưng sự hạn chế của nó về việc không thể nắm bắt ngữ cảnh đã dẫn đến sự ra đời của các phương pháp nhúng từ có ngữ cảnh (contextual embedding) như BERT và ELMo, giúp cải thiện độ chính xác và hiệu suất của các mô hình xử lý ngôn ngữ tự nhiên

2.2.2 Nhúng từ có ngữ cảnh (contextual embedding)

Nhúng từ có ngữ cảnh (Contextual Embedding) là một kỹ thuật trong xử lý ngôn ngữ tự nhiên (NLP) sử dụng các mô hình như BERT (Bidirectional Encoder Representations from Transformers) và ELMo (Embeddings from Language Models) Khác với các phương pháp nhúng từ truyền thống như Word2Vec hay GloVe, nhúng từ có ngữ cảnh tạo ra các vector nhúng phụ thuộc vào ngữ cảnh của từ trong câu

Cụ thể, BERT và ELMo không chỉ xem xét từ một cách độc lập mà còn tính đến ngữ cảnh xung quanh của từ trong câu Điều này có nghĩa là chúng học một cách tuần tự và hai chiều (trái qua phải và phải qua trái) để hiểu rõ hơn về ý nghĩa của từ dựa trên bối cảnh của nó Ví dụ, từ "đá" trong câu " Hôm nay tôi chơi đá cầu" và " Viên đá lạnh

11 quá" sẽ được gán cho hai vector khác nhau, phản ánh sự khác biệt về ý nghĩa dựa trên bối cảnh

Tóm lại, nhúng từ có ngữ cảnh là một bước tiến quan trọng trong việc xử lý ngôn ngữ tự nhiên, giúp các mô hình hiểu rõ hơn về ý nghĩa của từ dựa trên ngữ cảnh, từ đó cải thiện độ chính xác và hiệu suất của các ứng dụng NLP.

Trường ngẫu nhiên có điều kiện (Conditional Random Fields – CRF)

Các mô hình phân loại truyền thống giả định rằng các mục dữ liệu là độc lập Tuy nhiên, dữ liệu trong thế giới thực thường xen kẽ và có cấu trúc phức tạp Giả sử chúng ta muốn phân loại các trang web thành các danh mục khác nhau, ví dụ: trang chủ của sinh viên và giảng viên Danh mục của một trang web thường liên quan đến các danh mục của các trang được liên kết với nó Thay vì phân loại các trang một cách độc lập, chúng ta nên mô hình hóa chúng cùng nhau để kết hợp các dấu hiệu ngữ cảnh như vậy Trường ngẫu nhiên có điều kiện (Conditional Random Field - CRF) [4] là một cách tiếp cận có điều kiện để phân loại dữ liệu có cấu trúc Trong khi các mô hình phân loại truyền thống dự đoán nhãn cho một mẫu đơn lẻ mà không xem xét các mẫu "lân cận", CRF có thể tính đến ngữ cảnh Để làm như vậy, các dự đoán được mô hình hóa dưới dạng mô hình đồ họa, mô hình này thể hiện sự hiện diện của các phụ thuộc giữa các dự đoán Loại đồ thị nào được sử dụng tùy thuộc vào ứng dụng Ví dụ: trong xử lý ngôn ngữ tự nhiên, CRF "chuỗi tuyến tính" (linear chain) là phổ biến, mà mỗi dự đoán chỉ phụ thuộc vào các hàng xóm trực tiếp của nó Trong xử lý hình ảnh, biểu đồ thường kết nối các vị trí với các vị trí lân cận hoặc tương tự để củng cố rằng các vùng ấy nhận được các dự đoán tương tự

CRF là một mô hình xác suất cho các bài toán dự đoán có cấu trúc và đã được áp dụng rất thành công trong rất nhiều lĩnh vực như thị giác máy tính, xử lý ngôn ngữ tự nhiên, sinh-tin học.

Cơ chế Attention

Cơ chế Attention xuất hiện trong bối cảnh để giải quyết điểm yếu của những mạng hồi quy như RNN, LSTM, … Các mạng hồi quy này khi gặp chuỗi đầu vào quá dài sẽ bị mất dần xác suất và ngữ cảnh của 1 từ ở xa so với so với từ hiện tại sẽ bị suy giảm

12 theo cấp số nhân phụ thuộc vào khoảng cách Điều đó có nghĩa là khi mô hình trở nên quá dài, mô hình thường quên các vị trí các từ ở xa nhau trong chuỗi

Cơ chế Attention, nghĩa là chỉ chú ý vào 1 nhóm từ cụ thể trong từng ngữ cảnh nhất định Ví dụ khi dịch một câu, tôi đặc biệt chú ý đến từ mà tôi hiện đang dịch Khi đang chép lại một bản ghi âm, tôi sẽ lắng nghe cẩn thận phân đoạn mà tôi đang chủ động viết ra Và nếu bạn yêu cầu tôi mô tả căn phòng tôi đang ngồi, tôi sẽ liếc nhìn xung quanh những đồ vật mà tôi đang mô tả khi tôi làm như vậy

Cơ chế Attention được đề xuất lần đầu tiên bởi với mục đích cải tiến hiệu quả của bài toán machine translation (dịch máy) Sau đó, vào năm 2017, Vaswani và cộng sự đã công bố bài báo "Attention Is All You Need" [1] Cả hai bài báo này đã thực sự gây được tiếng vang rất lớn trong cộng đồng các nhà nghiên cứu về các mô hình học máy Thực tế, cơ chế Attention đều áp dụng được với tất cả các bài toán xử lý dữ liệu dạng chuỗi với mô hình học máy có áp dụng RNN và Seq2Seq Tuy nhiên, để dễ hiểu thì nên bắt đầu với việc áp dụng cơ chế Attention cho bài toán machine translation như mô hình được đề xuất lần đầu tiên

Nhóm tác giả đã nhận thấy rằng, trong từng bước xử lý của phần Decoder chỉ cần dùng một phần liên quan trong vector ngữ cảnh (context), kết quả của quá trình Encoder, là đủ thông tin để dự đoán từ tiếp theo trong câu ngôn ngữ dịch Phương pháp này được đặt tên là Attention là cơ chế tạo sự chú ý đến những phần thông tin liên quan đến việc dự đoán trong Encoder thay vì là tất cả thông tin như hầu hết các công trình nghiên cứu về học máy trước đó

Các bước áp dụng cơ chế Attention trong bài toán machine translation (Hình 2.2) được mô tả chi tiết như sau:

- Tính attention score của từng từ trong câu ngôn ngữ gốc bằng phép nhân vô hướng (dot product) như công thức dưới đây Trong đó ℎ là vector hidden state của bước xử lý thứ t trong phần Decoder và ℎ là tập hợp các vector hidden state của từng từ trong phần Encoder

- Tính attention weight bằng cách đưa kết quả tính attention score qua hàm softmax

- Tính context vector bằng phép tính tổng các tích số của attention weight và vector hidden state của từng từ trong phần Encoder

The attention distribution is calculated as a product of the weight matrix Wc with a matrix formed by concatenating the context vector and the hidden state vector from the previous time step in the decoder section.

- Cuối cùng là đưa attention distribution qua hàm tanh để có được attention vector

Bước mã hoá câu để dịch từ tiếng anh sang tiếng việt

Cơ chế self-attention

Giả sử câu sau là câu đầu vào mà chúng ta cần dịch từ tiếng Anh sang tiếng Việt:

“The animal didn't cross the street because it was too tired” Từ “it” trong câu trên đại diện cho cái gì? “Con vật” (animal) hay “đường phố” (street)? Câu hỏi này đơn giản với con người nhưng không đơn giản với các thuật toán

Khi mô hình xử lý từ “it”, self – attention cho phép nó liên kết “it” với “animal” Khi mô hình xử lý từng từ (từng vị trí trong câu đầu vào), self – attention cho phép nó quan sát các vị trí khác trong câu để tìm ra ý tưởng cho việc mã hóa từ hiện tại tốt hơn Self – attention là cách mà Transformer sử dụng để duy trì hiểu biết về các từ khác có liên quan đến từ hiện tại

Trong Hình 2.4, tại layer thứ 5 (layer trên cùng của ngăn xếp encoder trong mô hình transformer), chúng ta có thể nhận thấy mô hình đã học và liên kết từ “it” với “The animal”, phần lớn tập trung vào “The animal” (màu đậm) và ít tập trung hơn vào các từ khác có trong câu

Các bước tính toán self attention

Bước một để tính self-attention là tạo ra ba vector từ mỗi vector đầu vào của encoder (trong trường hợp này là embedding của mỗi từ) Với mỗi từ, ta sẽ tạo một vector truy vấn (Query), một vector khóa (Key), và một vector giá trị (Value) Các vector này được tạo ra bằng cách nhân vector embedding với ba ma trận được cập nhật trong

15 quá trình huấn luyện Chú ý rằng, các vector mới này có chiều nhỏ hơn vector embedding

Bước thứ hai để tính self – attention là tính điểm Giả sử chúng ta tính self – attention cho từ đầu tiên trong ví dụ, “Thinking” Ta cần tính điểm cho mỗi từ trong câu đầu vào so với từ này Điểm sẽ quyết định cần chú ý bao nhiêu vào các phần khác của câu đầu vào khi ta đang mã hóa một từ cụ thể Điểm được tính bằng phép nhân vô hướng giữa véc tơ truy vấn với vector khóa của từ mà ta đang tính điểm Nếu ta tiến hành self – attention cho từ ở vị trí thứ nhất, điểm đầu tiên sẽ là tích vô hướng của q1 và k1 Điểm thứ hai là tích vô hướng của q1 và k2

Bước thứ ba và bước thứ tư là chia điểm cho 8 (căn bậc hai của số chiều của véc tơ khóa, trong bài báo gốc là 64) Sau đó truyền kết quả qua một phép softmax Softmax chuẩn hóa các điểm để chúng là các số dương có tổng bằng 1 Điểm softmax sẽ quyết định mỗi từ sẽ được thể hiện nhiều hay ít tại vị trí hiện tại Rõ ràng là từ tại vị trí này sẽ có điểm softmax cao nhất

Bước thứ năm là nhân mỗi véc tơ giá trị với điểm softmax (trước khi cộng chúng lại) Để bảo toàn giá

Bước thứ sáu của lớp tự chú ý là cộng các véc tơ giá trị đã được nhân trọng số với nhau Kết quả thu được chính là đầu ra của lớp tự chú ý tại vị trí hiện tại Trong ví dụ của chúng ta, đó chính là từ đầu tiên.

Các bước tính toán self – attention hoàn chỉnh

Transformer

Mô hình transformer được giới thiệu vào năm 2017 trong bài báo "Attention Is All You Need" [1] Mô hình transformer được phát triển để giải quyết các vấn đề truyền tuần tự (sequence transduction) hoặc dịch máy (machine translation) Nghĩa là tất cả các bài toán liên quan đến việc biến đổi chuỗi đầu vào thành chuỗi đầu ra đều có thể được giải quyết bằng mô hình transformer, ví dụ như nhận dạng giọng nói (speech recognition), chuyển đổi văn bản thành giọng nói (text – to – speech transformation), v.v…

Kiến trúc mô hình transformer

Transformer là 1 mô hình gồm 2 phần chính là phần encoder (mã hoá) và decoder (giải mã) và 1 kết nối giữa bộ mã hoá và nộ giải mã Thành phần mã hóa là một ngăn xếp encoder (các encoder xếp chồng lên nhau) (bài báo gốc sử dụng 6 encoder – đây

17 không phải là một con số đặc biệt, ta hoàn toàn có thể thử nghiệm với các cấu hình khác) Thành phần giải mã là một ngăn xếp decoder với cùng số lượng

Các encoder có kiến trúc giống nhau (nhưng không có cùng trọng số) Mỗi encoder lại được tạo nên bởi hai lớp con Đầu vào của encoder đầu tiên sẽ đi qua một lớp self-attention – một lớp giúp cho encoder nhìn vào các từ khác khi đang mã hóa một từ cụ thể Đầu ra của self – attention được truyền vào một mạng nơ ron truyền thẳng (feed – forward) Tất cả các vị trí khác nhau đều sử dụng chung một mạng truyền thẳng

Decoder cũng có hai thành phần đó (self – attention và feed – forward) nhưng nằm giữa chúng là một lớp attention giúp decoder tập trung vào phần quan trọng của câu đầu vào.

BERT (Bidirectional Encoder Representations from Transformers)

BERT là viết tắt của Bidirectional Encoder Representations from Transformers [3] được hiểu là một mô hình học sẵn hay còn gọi là pre-train model, học ra các vector đại diện theo ngữ cảnh 2 chiều của từ, được sử dụng để transfer sang các bài toán khác trong lĩnh vực xử lý ngôn ngữ tự nhiên BERT [3] đã thành công trong việc cải thiện những công việc gần đây trong việc tìm ra đại diện của từ trong không gian số (không gian mà máy tính có thể hiểu được) thông qua ngữ cảnh của nó

2.8.1 Sự ra đời của BERT

Các nhà nghiên cứu làm việc tại Google AI tái khẳng định, sự thiếu hụt dữ liệu đào tạo là một trong những thách thức lớn nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên Đây là một lĩnh vực rộng lớn và đa dạng với nhiều nhiệm vụ riêng biệt, hầu hết các tập dữ liệu đều chỉ đặc thù cho từng nhiệm vụ Để thực hiện được tốt những nhiệm vụ này ta cần những bộ dữ liệu lớn chứa hàng triệu thậm chí hàng tỷ ví dụ mẫu Tuy nhiên, trong thực tế hầu hết các tập dữ liệu hiện giờ chỉ chứa vài nghìn hoặc vài trăm nghìn mẫu được đánh nhãn bằng tay bởi con người(các chuyên gia ngôn ngữ học) Sự thiếu hụt dữ liệu có nhãn chất lượng cao để đào tạo mô hình gây cản trở lớn cho sự phát triển của NLP nói chung

18 Để giải quyết thách thức này, các mô hình xử lý ngôn ngữ tự nhiên sử dụng một cơ chế tiền xử lý dữ liệu huấn luyện bằng việc transfer từ một mô hình chung được đào tạo từ một lượng lớn các dữ liệu không được gán nhãn Ví dụ một số mô hình đã được nghiên cứu trước đây để thực hiện nhiệm vụ này như Word2vec, Glove hay FastText Việc nghiên cứu các mô hình này sẽ giúp thu hẹp khoảng cách giữa các tập dữ liệu chuyên biệt cho đào tạo bằng việc xây dựng mô hình tìm ra đại diện chung của ngôn ngữ sử dụng một số lượng lớn các văn bản chưa được gán nhãn lấy từ các trang web Tuy nhiên, các mô hình kể trên có những yếu điểm riêng của nó, đặc biệt là không thể hiện được sự đại diện theo ngữ cảnh cụ thể của từ trong từng lĩnh vực hay văn cảnh cụ thể

Mô hình BERT (Bidirectional Encoder Representations from Transformers) của Google là một kỹ thuật NLP tiên tiến cho phép tạo ra các hệ thống hỏi đáp hiệu quả hơn Mặc dù xử lý ngôn ngữ tự nhiên là một lĩnh vực rộng lớn với nhiều nhiệm vụ khác nhau, nhưng sự thiếu hụt dữ liệu đào tạo được gắn nhãn chất lượng cao là một thách thức lớn Để giải quyết vấn đề này, mô hình BERT sử dụng cơ chế học chuyển giao từ một mô hình chung được đào tạo trên một lượng lớn dữ liệu không được gắn nhãn Mô hình chung này được xây dựng trước và có thể được tinh chỉnh cho các bài toán cụ thể, giúp cải thiện đáng kể kết quả trong xử lý ngôn ngữ tự nhiên và các lĩnh vực khác.

19 máy tính, BERT là một trong những đại diện ưu tú nhất trong Transfer Learning cho xử lý ngôn ngữ tự nhiên, nó gây tiếng vang lớn không chỉ bởi kết quả mang lại trong nhiều bài toán khác nhau, mà còn bởi vì nó hoàn toàn miễn phí, tất cả chúng ta đều có thể sử dụng BERT cho bài toán của mình

2.8.2 BERT có thể biểu diễn ngữ cảnh 2 chiều

Về mặt lý thuyết, các kỹ thuật khác như Word2vec, FastText hay Glove cũng tìm ra đại diện của từ thông qua ngữ cảnh chung của chúng Tuy nhiên, những ngữ cảnh này là đa dạng trong dữ liệu tự nhiên Ví dụ các từ như "con chuột" có ngữ nghĩa khác nhau ở các ngữ cảnh khác nhau như "Con chuột máy tính này thật đẹp!!" và "con chuột này to thật." Trong khi các mô hình như Word2vec, FastText tìm ra 1 vector đại diện cho mỗi từ dựa trên 1 tập ngữ liệu lớn nên không thể hiện được sự đa dạng của ngữ cảnh Việc tạo ra một biểu diễn của mỗi từ dựa trên các từ khác trong câu sẽ mang lại kết quả ý nghĩa hơn nhiều Như trong trường hợp trên ý nghĩa của từ con chuột sẽ được biểu diễn cụ thể dựa vào phần trước hoặc sau nó trong câu Nếu đại diện của từ "con chuột" được xây dựng dựa trên những ngữ cảnh cụ thể này thì ta sẽ có được biểu diễn tốt hơn BERT mở rộng khả năng của các phương pháp trước đây bằng cách tạo các biểu diễn theo ngữ cảnh dựa trên các từ trước và sau đó để dẫn đến một mô hình ngôn ngữ với ngữ nghĩa phong phú hơn, bằng cách dựa trên transformer (cơ chế attention học các mối quan hệ theo ngữ cảnh giữa các từ trong văn bản) Vì mục tiêu của BERT là tạo mô hình biểu diễn ngôn ngữ, nên nó chỉ cần phần bộ mã hóa Đầu vào cho bộ mã hóa cho BERT là một chuỗi token, trước tiên được chuyển đổi thành vector và sau đó được xử lý trong mạng neural

Các công trình nghiên cứu liên quan

Gợi ý phân loại về bất động sản với thông tin thuộc tính văn bản

Nhóm tác giả của bài viết Gợi ý phân loại về bất động sản với thông tin thuộc tính văn bản (Taxonomic Recommendations of Real Estate Properties with Textual Attribute

Information) [5] đã đề xuất hệ thống gợi ý bất động sản cho tập đoàn Zillow bằng cách dựa vào thông tin mô tả của bất động sản và các hình ảnh mô tả của ngôi nhà và đưa vào mô hình phân tích đã được huấn luyện trước để đưa ra các nhãn bối cảnh và các từ khoá cho những bức ảnh và các đoạn mô tả căn nhà

Trích xuất đặc trưng bằng đa mô hình

Bắt đầu bằng mô hình phát hiện bối cảnh xác định phòng khách, phòng tắm như thuộc tính khái niệm cấp cao Sau đó, sử dụng mô hình sinh ngôn ngữ tạo nhãn như mặt bàn bằng đá granite hoặc sàn gỗ từ khoá cho bất động sản thuộc tính khái niệm cấp thấp hơn Cuối cùng, áp dụng học giám sát yếu nhằm giải quyết bài toán.

Tạo các nhãn cấp thấp hơn để học giám sát yếu

Huấn luyện mô hình nhúng (word embedding) các từ phụ về các mô tả của bất động sản để tạo ra các vectơ nhúng về thông tin chi tiết về ngôi nhà và các nodes được trích xuất từ bước trên để huấn luyện mô hình phân loại học Sau đó dựa theo các đặc điểm người dùng quan tâm để gợi ý các căn nhà tương ứng

Mô hình phân loại học cho bất động sản

Hệ thống gợi ý hai chiều tuyển người và tìm việc ở thị trường tuyển dụng

Tác giả của bài viết Hệ thống gợi ý hai chiều dựa trên NLP: Hướng tới việc giới thiệu việc làm cho người tìm việc và sơ yếu lý lịch cho nhà tuyển dụng (NLP-Based Bi-

Directional Recommendation System: Towards Recommending Jobs to Job Seekers and Resumes to Recruiters) [6]

Vì tác giả tạp chí đã dùng các phương pháp quét dữ liệu trên Internet nên dữ liệu ở dạng thô gồm nhiều loại dữ liệu như HTML, dạng bảng, dạng mô tả dữ liệu (meta description), nên cần phải làm sạch dữ liệu trước, tác giả đã sử dụng mô hình nhận dạng thực thể được đặt tên (NER) để xử lý các thực thể trong đoạn mô tả và phân loại chúng vào những loại đã được định nghĩa trước

Sử dụng mô hình nhận dạng thực thể để trích xuất các thông tin quan trọng

Sau đó sử dụng mô hình word2vec để tính toán được các giá trị của các từ ngữ sau đó sử dụng độ đo cosine (cosine similarity) để tính ra được độ giống nhau giữa các từ để tìm ra các đơn xin việc và công việc phù hợp với nhau

Sau khi phân tích các hồ sơ ứng viên

Thảo luận

Có thể thấy đây là một hướng tiếp cận cho bài toán gợi ý bất động sản, hướng tiếp cận này dựa theo nội dung của người bán và đưa ra những gợi ý chính xác cho người mua, có thể tránh trường hợp hộp đen tức là người muốn mua tìm kiếm một nhu cầu nào đó và hệ thống trả ra kết quả không liên quan hoặc liên quan theo một cách nào đó không liên quan nhiều đến truy vấn của người mua

Mô hình nhận dạng ý định và thực thể được đặt tên

Học chuyển giao cho vector nhúng dày đặc (Transfer Learning of dense representations)

Học sâu đang trở nên phổ biến rộng rãi, nhưng để đạt hiệu quả đòi hỏi một lượng dữ liệu lớn Việc xây dựng tập dữ liệu huấn luyện từ đầu là một thách thức Transfer Learning được tạo ra để giải quyết hạn chế này.

Học chuyển giao (Transfer Learning) là quá trình áp dụng tri thức đã được học từ mô hình trước đó, khai thác và tái sử dụng để giải quyết một bài toán mới mà không cần xây dựng một mô hình huấn luyện từ ban đầu

Minh hoạ so sánh học chuyển giao và không chuyển giao

Trong lĩnh vực xử lý ngôn ngữ tự nhiên, vì các vector nhúng đã được đào tạo trên kho văn bản ngôn ngữ tự nhiên quy mô lớn nên chúng khái quát hóa tốt giữa các nhiệm vụ và có thể được chuyển dưới dạng tính năng đầu vào cho các nhiệm vụ hiểu ngôn ngữ khác có hoặc không có tinh chỉnh Các phương pháp tinh chỉnh khác nhau cũng đã được đề xuất để học chuyển giao hiệu quả giữa các nhiệm vụ khác nhau

Mô hình nhận dạng ý định và thực thể được đặt tên

Tuy nhiên, việc tinh chỉnh một mô hình ngôn ngữ được đào tạo trước lớn như BERT có thể không tối ưu cho mọi tác vụ tiếp theo Hơn nữa, các mô hình ngôn ngữ quy mô lớn này chậm, đào tạo tốn kém và do đó không lý tưởng cho các ứng dụng AI đàm thoại trong thế giới thực Để đạt được một mô hình nhỏ gọn hơn [diet] có thể đào tạo trước bộ mã hóa cấp độ từ và câu trên kho ngữ liệu đàm thoại quy mô lớn Các biểu diễn dày đặc ở cấp độ câu thu được, khi được chuyển (không tinh chỉnh) sang nhiệm vụ phân loại mục đích tiếp theo, sẽ hoạt động tốt hơn nhiều so với các phần nhúng từ BERT và ELMo.

Trích xuất đặc trưng câu đầu vào (Featurization)

Classifiers take an input sentence and segment it into tokens, which may be single words or contiguous spans of words depending on the algorithm, and append a special classification token ( CLS ) to the end of the sentence Tokens are characterized by both dense and sparse features Dense features may include any pretrained word embedding method; sparse features include one-hot encodings and n-grams (n

Tiêu đề	Hệ thống trích xuất nội dung bất động sản ứng dụng học máy
Tác giả	Vũ Thành Nhân
Người hướng dẫn	PGS.TS Bùi Hoài Thắng, PGS.TS Quản Thành Thơ
Trường học	Đại học Quốc gia TP. HCM
Chuyên ngành	Khoa học Máy Tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	68
Dung lượng	1,46 MB