Mẫu huấn luyện biến dạng

Một phần của tài liệu (LUẬN văn THẠC sĩ) sinh câu miêu tả cho hình ảnh sử dụng mô hình ngôn ngữ (Trang 40 - 46)

Hình 3-2 là thí dụ cho thấy một vài mẫu huấn luyện ngẫu nhiên từ tập dữ liệu VOC 2007. Hình ảnh đối tượng bị biến dạng tuy nhiên vẫn giữ được nội dung

toàn cục của đối tượng.

3.3. Sinh câu miêu tả cho đối tượng

Mục đích của giai đoạn sinh câu miêu tả cho đối tượng là từ kết quả đầu ra của quá trình phát hiện đối tượng, đó là tập các nhãn bao gồm các danh từ, có thể có thêm động từ, chúng ta quy ước là Bag-Of-Words, tới từ ngữ rời rạc như thế, chúng ta phải tìm ra câu trả lời có xác suất cao.

Trong đó mơ hình ngơn ngữ hết sức quan trọng, chứa tập các giá trị phân phối xác suất giữa các từ với nhau. Thông qua mơ hình ngơn ngữ chúng ta có thể thể tìm ra cặp từ có xác suất lớn nhất, thí dụ như: “walking” chúng ta có “walking alone”, “walking across”, “walking and”… kèm theo là giá trị xác suất tương ứng. Giá trị này sẽ dùng để tính tốn hàm chi phí từ đó quyết định trực tiếp tới chất

lượng của kết quả tìm được.

Chúng ta quan sát minh hoạ ở hình 3-6, các từ nhận được từ giai đoạn nhận dạng đối tượng là: { person, standing, tree}, hệ thống phải sinh ra được câu hoàn chỉnh:

<S> A person is standing next to the tree </S>.

Như vậy chúng ta cần bổ sung các từ {A, is, next, to}, những từ này được xác định bằng cách sử dụng mơ hình ngơn ngữ, thơng qua bước tìm kiếm lựa chọn trong các ứng viên áp dụng thuật tốn tìm kiếm theo lựa chọn tối ưu.

Sinh câu miêu tả được thực hiện theo thứ tự lần lượt từ trái qua phải, áp dụng thuật tốn tìm kiếm theo lựa chọn tối ưu (Hình 1-6). Trong thuật tốn tìm kiếm

này chúng ta thường sử dụng danh sách để lưu các trạng thái (chuỗi) đã sinh ra và trạng thái đang được lựa chọn, trạng thái đang được lựa chọn là trạng thái mà tổng

xác suất tìm được là cao nhất. Giả sử ở trạng thái đang được lựa chọn bất kỳ chứa chuỗi có chiều dài l thì nút tiếp theo sau khi tìm được sẽ ở trạng thái có chiều dài

l+1.

Hình 3-6. Thí dụ sinh câu bất kỳ theo ngữ cảnh là các từ person, standing, tree. Ký hiệu +, - tương ứng với ý nghĩa có thể mở rộng và khơng thể mở rộng, OWs nghĩa là "từ ngẫu nhiên" trong tập các ứng viên.

Thuật toán sinh câu miêu tả cho hình ảnh:

procedure SinhCauMieuTa;

begin

1. Khởi tạo danh sách L chỉ chứa một từ ban đầu {<S>}; 2. loop do

2.1 if L rỗng then

Thông báo sinh câu thất bại; Break;

Loại trạng thái u ở đầu danh sách L; 2.3 if u là </S> then

Thông báo thành công; Break;

2.4 for mỗi từ v kề từ đang xét u do

Xen v vào danh sách L sao cho L được sắp theo thứ tự tăng dần của giá trị tính bởi hàm đánh giá;

Danh sách L chứa các trạng thái khác nhau với mỗi trạng thái là giá trị xác suất tương ứng, Danh sách này luôn luôn được quan sát, sau mỗi bước tìm kiếm thì danh sách được cập nhật lại bổ sung thêm các trạng thái mới và giá trị xác suất tương ứng, trường hợp sau khi cập nhật các trạng thái mới mà phát hiện trạng thái khác có xác suất lớn hơn trạng thái đang xét thì lật tức chuyển sang xét trạng thái mới phát hiện đó. Q trình này được lặp đi lặp lại cho đến khi phát hiện ra chuỗi

đang xét có chứa ký hiệu kết thúc câu </S>.

Để xây dựng hàm đánh giá cho thuật toán sinh câu miêu tả, chúng ta giả sử

có S{𝑤D, 𝑤E, … , 𝑤H} là tập các từ w có thể cấu thành nên câu S cần tìm.

Như đề cập ở chương 2, để tính xác suất của các cặp từ trong một tập văn

bản chúng ta áp dụng cơng thức xác suất có điều kiện:

𝑃 𝐵 𝐴 = 𝑃(𝐴, 𝐵)

𝑃(𝐴) (3.2-1)

Tương đương với:

𝑃 𝐴, 𝐵 = 𝑃 𝐵 𝐴 ×𝑃(𝐴) (3.2-2)

Suy ra,

P(𝑤i, 𝑤iQE)= P(𝑤iQE|𝑤i) × P(𝑤iQE) (3.2-3)

Để tính xác suất của 1 chuỗi các từ chúng ta lấy tích của xác suất của các cặp

từ:

Ta sẽ có:

Suy ra,

𝑃 𝑤E𝑤F… 𝑤H = 𝑃 𝑤E 𝑤D ×𝑃 𝑤F 𝑤E𝑤D × …×𝑃 𝑤H 𝑤HQE… 𝑤D (3.2-5) Tương đương với:

𝑃 𝑆 =

Y∈ˆ P(𝑤iQE|𝑤i) × P(𝑤iQE)

H

ijE

(3.2-6)

Nhưng khi cài đặt tính tốn chúng ta khơng nên để giá trị ở dạng xác suất mà chúng ta lấy logarith cơ số 2 của hai vế, bởi vì máy tính hiện tại chỉ cho phép biểu diễn số dấu chấm động không vượt quá dải biểu diễn, nghĩa là không dưới 2QEF‰

và không được vượt quá 2EF‰ đối với giá trị dương, nếu 1 câu dài dễ dẫn đến hiện tượng underflow, ngồi ra cịn 1 lý do khác như chúng ta đã biết thì phép tính tổng sẽ nhanh hơn phép tính tích, việc lấy logarith cơ số 2 của 2 vế sẽ đưa q trình tính tích của các xác suất về tính tổng giá trị giải quyết được hiện tượng underflow và cho phép hệ thống tính tốn nhanh hơn.

Công thức (2.3-6) tương đương với:

𝑙𝑜𝑔F 𝑃 𝑆 =

Y∈ˆ logFP 𝑤iQE 𝑤i + logFP 𝑤iQE

H

ijD

(3.2-7)

Sinh câu miêu tả cho hình ảnh áp dụng thuật tốn tìm kiếm theo lựa chọn tối

ưu, thuật toán này yêu cầu một hàm đánh giá, tính tốn chi phí giữa mỗi nút tìm

kiếm, nếu trong bài tốn tìm kiếm đường đi tốt nhất chúng ta có thể sử dụng tổng giá trị quãng đường đã đi qua để xác định quãng đường ngắn nhất thì trong bài

tốn này, bản chất là tìm ra một đường dẫn qua các từ sao cho hình thành 1 chuỗi có xác suất là lớn nhất. Mà theo công thức (3.2-5) chúng ta thấy rằng xác suất của 1 câu hay 1 chuỗi các từ là tích các xác suất giữa các cặp từ kề nhau trong một câu. Xác suất này đạt giá trị lớn nhất tương đương với giá trị logarith cơ số 2 của chúng là lớn nhất, suy ra hàm đánh giá cho thuật toán sinh câu như sau:

H(s) =

Y∈ˆ H logFP 𝑤iQE 𝑤i + logFP 𝑤iQE

ijD (3.2-8)

Trường hợp lý tưởng của sinh câu miêu tả là các từ đã đã được sắp xếp theo thứ tự, tuy nhiên trong thực tế chúng ta không thể xác định được sự xuất hiện và tương tác giữa các đối tượng như thế nào, các từ trong một tập bag-of-words là lộn xộn (Hình 3-6).

Như thí dụ được minh hoạ trên hình 3-6 chúng ta thấy rằng sự thay đổi của thứ tự xuất hiện của đối tượng trong câu thì ý nghĩa sẽ thay đổi, hệ thống máy tính

khơng có khả năng nhận biết được ý nghĩa này.

Vì thế chúng tôi đưa ra giải pháp cải thiện hiện tượng này, chúng ta sẽ xét các từ trong bag-of-words theo thứ tự khác nhau sau, từ đó sinh ra các câu tương

ứng, bước cuối cùng là xếp hạng lại các câu theo chỉ số xác suất để chọn ra câu

có khả năng xảy ra cao nhất.

Hình 3-7. Thí dụ minh hoạ về sự khác biệt ngữ nghĩa khi thay đổi thứ tự của từ [15].

Chương 4. THỰC NGHIỆM

4.1. Môi trường cài đặt

Hệ thống được cài đặt trên Amazon server:

Cấu hình

CPU Intel(R) Xeon(R) CPU E5-2670 0 @ 2.60GHz

Môi trường Linux AMI release 2015.03

HDD 493 GB RAM 15 GB Công cụ hỗ trợ cài đặt: Công cụ Ngôn ngữ lập trình Python 2.7 Cơng cụ phát triển Ipython notebook Framework Caffe

Cơng cụ tạo mơ hình ngơn ngữ

4.2. Quá trình thử nghiệm

4.2.1. Nhận dạng đối tượng

Chúng tơi đã sử dụng mơ hình nhận dạng R-CNN cho ImageNet. Ảnh thử

nghiệm đầu vào được chọn từ bộ dữ liệu Microsoft COCO

Đối tượng sẽ được nhận dạng dựa trên các đầu mục huấn luyện ban đầu, đầu

ra nhận được là các nhãn có trong đầu mục và các điểm số tương ứng.

Dưới đây là kết quả phát hiện đối tượng trong ảnh đám đông bên đèn hiệu

giao thông. Chúng tôi chỉ lọc ra 3 kiểu đối tượng có mức điểm số cao nhất trong

ảnh.

Một phần của tài liệu (LUẬN văn THẠC sĩ) sinh câu miêu tả cho hình ảnh sử dụng mô hình ngôn ngữ (Trang 40 - 46)

Tải bản đầy đủ (PDF)

(64 trang)