1. Trang chủ
  2. » Công Nghệ Thông Tin

Tính toán khắp nơi và di động

15 185 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 15
Dung lượng 619,66 KB

Nội dung

VIỆN ĐÀO TẠO SAU ĐẠI HỌC BÁCH KHOA HÀ NỘI o0o TIỂU LUẬN KHOA HỌC TÍNH TOÁN KHẮP NƠI DI ĐỘNG Đề tài: Nghiên cứu mô hình hoạt động ROC Comment: Automated Descriptive and Subjective Captioning of Behavioral Videos Giảng viên hướng dẫn: Học viên thực hiện: PGS Ngô Hồng Sơn Bùi Khánh Trình Đoàn Văn Vơn Contents Lời mở đầu Những nhận xét người dùng tạo phương tiện truy ền thông xã hội trực tuyến gần trở nên ngày ý nh m ột nguồn thích mô tả chung cho đối tượng kỹ thuật số nh ảnh ho ặc video Bởi người có trình độ chuyên môn khác nên ch ất l ượng ý kiến họ khác từ hữu ích hoàn toàn vô dụng Mục đích cung cấp h ỗ tr ợ tự động cho vi ệc ki ểm soát ý kiến hữu ích người dùng tạo từ nguồn công khai c đối tượng kỹ thuật số Sau xây dựng tiêu chuẩn vàng có ngu ồn gốc từ ý kiến hữu ích không hữu ích, sử dụng ph ương pháp học tập máy chuẩn để phát triển trình phân loại h ữu ích, khám phá tác động tính dựa biểu cảm khuôn mặt, cú pháp, ng ữ nghĩa biểu thuộc tính ngôn ngữ người nói Sau áp dụng mô hình phát tần suất sử dụng trình phân loại học để điều tra mẫu văn hoá nhận xét hai t ảng truy ền thông xã hội phổ biến Chúng nhận thấy tỷ lệ ph ổ bi ến c ý ki ến HỮU ÍCH tảng cụ thể chịu ảnh hưởng nhiều từ phương tiện truyền thông nhận xét (người, địa điểm, kiện), khoảng th ời gian (ví dụ năm kiện) mức độ phân cực bình luận Giới thiệu ROC Comment, với mục đích tạo nhận xét ngôn ng ữ t ự nhiên dựa hành vi video Chúng tập trung vào lĩnh v ực nói trước công chúng mà nhiều người coi nỗi sợ hãi l ớn nh ất h ọ Chúng thu thập liệu 196 đoạn phim nói tr ước công chúng từ 49 cá nhân tập hợp 12173 nhận xét, h ơn 500 ng ười đ ộc lâp đánh giá Sau đào tạo mô hình dựa k-NearestNeighbor (kNN) cách trích xuất tính đơn (ví dụ: âm lượng) khuôn mặt (ví dụ: cười) Với video mới, trích xuất tính chọn nhận xét gần sử dụng mô hình k-NN Chúng tiếp t ục l ọc nhận xét cách nhóm chúng DBScan loại trừ nh ận xét không liên quan Mô hình triển khai tr ực ến, cho phép cá nhân tải lên video họ nhận nhận xét m diễn gi ải Hãy tưởng tượng bạn muốn nhận phản h ồi định tính phát biểu mà bạn chuẩn bị Một khả để ghi lại chia sẻ video với người mà bạn tin tưởng Tuy nhiên, trình không đảm bảo phản hồi số người v ẫn cảm th không thoải mái chia sẻ video họ Được thúc đẩy nh ững ti ến b ộ gần hình ảnh thích video tự động, khám phá ý tưởng tự động tạo nhận xét chủ quan cho video Nh ững nghiên c ứu trước phụ đề tự động nhằm tạo mô tả ngôn ngữ tự nhiên v ề đối tượng hoạt động hình ảnh / video Các video nh nói trước công chúng video vấn việc làm ch ưa đ ược nghiên c ứu ngữ cảnh Việc tạo bình luận hành vi video m ột nỗ lực khó khăn - chủ yếu không phân tích ểm ảnh thuộc tính dãy hình ảnh mà hiểu biến thiên khác biệt thêm vào đề xuất mô t ả có th ể th ực liên quan đến giới thực (ví dụ nói tr ước công chúng) Trong báo này, tập trung vào lĩnh vực nói tr ước công chúng, gây lo lắng, sợ hãi chí công hoảng loạn Sử dụng giao diện (Nhận xét ROC), ghi lại phát biểu nhận ý kiến nhận xét chất lượng mà chia sẻ video với người khác Để đào tạo mô hình này, thu th ập m ột b ộ d ữ li ệu c 196 đoạn phim nói trước công chúng từ 49 cá nhân v ới 12173 ý ki ến từ 500 người Mỗi người cung cấp ý kiến chủ quan kỹ nói trước công chúng người nói Đối với nh ận xét, t ạo thẻ bắt đầu # hữu ích để tóm tắt nhận xét Số liệu cho thấy video tự nhiên, thu th ập cách cho phép ng ười tham gia ghi lại môi trường họ máy tính xách tay họ Video đánh giá độc lập, đưa nhãn chủ quan diễn giải, với thông tin thời gian liên quan đến nh ững hành vi xảy video Hệ thống tự động chiết xuất tính âm (ví dụ: âm lượng) video (ví dụ: nụ cười) từ video đào t ạo s ắp xếp tính với nhận xét người tạo đ ể huấn luy ện mô hình dựa k-neighbour (k-NN) Trong giai đoạn th nghiệm, người dùng tải lên video từ trích xuất tính mặt tính âm Sử dụng cửa sổ thời gian, sau kết h ợp tính video thử nghiệm chọn k (= 10) c ửa s ổ video đào tạo có vectơ tính tương tự Từ cửa sổ chọn, thu thập nhận xét Để phát ý kiến không liên quan riêng bi ệt, gom Figure 1: Using our interface, a user can record and upload his or her video Our framework then automatically extracts the relevant audio and video features Using the training data, our proposed k-NN– based model selects the nearest feature vectors and their corresponding comments Using pairwise BLEU scores and DBScan, the outlier comments are identified and filtered from the output cụm ý kiến chọn tìm điểm sử dụng mật độ d ựa clustering (DBScan) [7] Chúng sử dụng điểm BLEU [10] làm ch ỉ s ố độ gần thuật toán phân cụm Do đó, giao diện phát tri ển lấy nhận xét có liên quan cho video th nghi ệm m ới b ằng cách phân tích biểu khuôn mặt thuộc tính khác c người tham gia Chúng tích hợp mô hình v ới giao di ện ng ười dùng dựa web hoàn chỉnh, hoàn toàn tự động (http://tinyurl.com/roccomment) cho phép cá nhân tải lên ghi l ại video họ nhận kết luận mở, ý kiến xây d ựng, v ới thẻ tóm tắt nhận xét họ Để xác nhận tính h ợp lệ nhận xét c ROC Comment, tiến hành nghiên cứu người dùng v ới 30 ng ười tham gia Kết nghiên cứu cho thấy nh ững người tham gia nhận nhận xét thẻ hữu ích Tổng quan Trong vài năm gần đây, có quan tâm ngày tăng đối v ới phụ đề hình ảnh tự động tầm nhìn máy tính lẫn c ộng đ ồng x lý ngôn ngữ tự nhiên Mục tiêu phụ đề hình ảnh tự động để tạo mô tả dường người hình ảnh Các ph ương pháp mô t ả hình ảnh phân loại thành hai nhóm: (1) cách tiếp cận d ựa k-nearest-neighbor (k-NN) (2) cách tiếp cận sâu d ựa m ạng n ơron (deep neural network–based) Các mô hình dựa k-NN đơn giản khái niệm đ ược hi ển thị để làm việc tốt cho hình ảnh captioning [4,11] Nh ững ph ương pháp dựa vào tập liệu huấn luyện bao gồm s ưu tập lớn hình ảnh, nhãn gắn nhãn với nhiều phụ đề ng ười tạo Các phương pháp trích xuất k hình ảnh đào t ạo mà h ầu h ết tương tự hình ảnh thử nghiệm tạo thích m ới d ựa phụ đề người tạo hình ảnh đào tạo Các kỹ thu ật sau xử lý áp dụng để cải thiện khả tổng quát tính liên quan phụ đề Các mô hình mô tả hình ảnh dựa mạng nơ-ron (deep neural network–based) học mô hình ngôn ngữ th ần kinh cho ph ụ đề liệu huấn luyện xếp vùng hình ảnh khác từ cụm từ tương ứng thích [10,17] M ặc dù mô hình hoạt động tốt thực tế, chúng khó đào tạo h ơn đòi hỏi số lượng lớn liệu đào tạo để tránh bị lạm dụng Một số báo gần nghiên cứu v ấn đề thích video tự động Với đoạn video ngắn, phương pháp t ạo m ột câu ngôn ngữ tự nhiên mô tả đối tượng hoạt đ ộng xảy clip Một số công việc bao gồm tạo biểu diễn ngữ nghĩa c n ội dung thị giác thông qua đào tạo trường ngẫu nhiên có ều kiện [12], sử dụng mạng nơ-ron xoắn tái diễn [16] sử dụng cấu trúc phụ thuộc mạng nơ-ron sâu [18] để tạo mô tả video clip ngắn Trong báo này, mô tả cách áp d ụng k-NN đ ể tự động tạo ý kiến giải thích hữu ích cho video hành vi, m ột v ấn đề chưa khám phá trước Hệ thống Chúng phát triển hệ thống web, nơi người có th ể tải lên video ghi hình trước ghi lại đoạn video nói tr ước công chúng tự động nhận nhận xét Một ví dụ đầu th ể hình Người dùng xem video họ đọc nhận xét Hình cho thấy chức tổng thể hệ thống Nhận xét ROC Chúng chiết xuất tính mặt tính đơn điệu từ video đào tạo nhận ý kiến với timestamps từ người bình luận Các tính sau xếp theo ý ki ến b ằng cách sử dụng dấu thời gian Module tạo bình luận bao gồm mô hình d ựa k-NN phương pháp lọc dựa cụm Từ video th nghiệm, mô hình dựa k-NN chọn bình luận sử d ụng tính c video Sau sử dụng DBScan, ph ương pháp phân nhóm d ựa mật độ, tìm điểm tập h ợp ý ki ến chọn Bộ liệu Bộ liệu bao gồm 196 video 49 cá nhân đ ưa phát biểu trước máy tính họ Những người tham gia ển dụng từ Amazon Mechanical Turk Để đạt đa dạng h s l ưu trữ chúng tôi, không áp đặt h ạn ch ế đ ối v ới việc tuyển dụng Có 22 nữ 27 nam giới, với độ tuổi t 20 đến 60 tu ổi Chúng cho diễn giả lựa chọn gi ữa năm ch ủ đ ề: s thích ưa thích; Làm để tìm thấy vé máy bay giá rẻ; Làm th ực s ự học tập xảy bên lớp học; Vì trẻ em nên xem truy ền hình hơn; diễn văn tốt nghiệp giả tưởng Chúng yêu c ầu h ọ nói chuyện trước máy ảnh web họ khoảng không riêng t khoảng hai phút Để thu thập nhận xét video, ển d ụng người đánh giá từ Amazon Mechanical Turk ("Turkers") yêu c ầu họ đưa ba nhận xét cho video, với thông tin d ấu th ời gian, ba loại: cử thể, thân thiện giọng nói (Một bình luận yêu cầu cho thể loại.) Hơn 500 người (v ới t ỷ l ệ ch ấp nhận 95 phần trăm) bình luận video Để tạo thẻ bắt đ ầu #, lấy số nhận xét mẫu tìm kiếm từ khoá nhận xét Mỗi từ khóa liên kết v ới nhi ều th ẻ b đ ầu # Sau đó, nhận xét tập huấn luy ện, n ếu ch ứa từ khoá nào, hashtag gán liên quan đến đ ể gi ảm tính đơn điệu Thách thức Trong tập liệu, hệ thống phải đối mặt với số thách th ức liên quan đến video hành vi thực tế Các video đ ược ghi l ại b ởi 49 cá nhân, ánh sáng khác với độ phân giải khác nhau, ảnh hưởng đến tính trích xuất Các loa khác có kho ảng cách khác từ micrô chúng, dẫn đến biến thể âm lượng t ập liệu Một số người có lộn xộn - ví dụ nh hình ảnh khuôn mặt - làm tăng tiếng ồn theo dõi khuôn m ặt phát nụ cười Chúng bình thường hoá tất tính đ ược giải nén, mức độ đó, giải nh ững v ấn đ ề M ột số thách thức cố hữu đưa thu th ập ý ki ến từ người Thổ Nhĩ Kỳ Người Thổ Nhĩ Kỳ bình luận video chuyên gia có nhiều cấp độ kỹ năng, nguồn gốc giáo dục khác K ết qu ả là, có khác biệt lớn chất lượng ý ki ến tập huấn luyện Một số nhận xét mặt văn học không xác, đáng tin cậy có thẩm quyền người dùng cuối Để lọc chúng ra, sử dụng cụm mật độ dựa nhận xét T ự đ ộng lo ại b ỏ câu không ngữ pháp ph ần c công vi ệc tương lai Khai thác tính Chúng trích xuất tính biểu kỳ quặc, biểu khuôn mặt từ video đào tạo th nghiệm Chúng sử dụng công cụ phân tích giọng nói mã nguồn mở Praat [3] để trích xu ất tính đơn điệu Các tính tiên tiến quan trọng bao gồm pitch, c ường độ giọng nói, tần số ba formants (F1, F2, F3), băng thông trung bình Chúng chiết xuất nụ cười cách s dụng khuôn kh ổ SHORE [19] Giá trị cường độ nụ cười số nguyên d ương gi ữa 100, cho thấy nụ cười 100 cho th n ụ c ười đầy đủ Chúng trích xuất phép đo chuy ển đ ộng c th ể cách ước tính độ lệch điểm ảnh khung hình liên tiếp T ất c ả tính trích xuất để tạo thành chụp 10 mili giây Đối với tính khuôn mặt, l trung bình tính trích xuất từ khung nằm cửa sổ 10-milli giây Để giảm thiểu khác nhiều video, chu ẩn hóa t ất c ả tính trích xuất Đối với đào tạo th nghiệm, xem xét phân đoạn dài giây tổng h ợp tính toàn b ộ giây cách lấy trung bình tất 10 mili giây phân đo ạn Tính nhận xét Figure 3: An example of comment generation from a user's video From the uploaded video, features are extracted and feature vectors are created ( vl ) Using the k-NN model, the nearest feature vector that has comments associated with it are selected From those comments, we perform clustering and identify the outliers Phương pháp kết hợp vector đặc tr ưng ρ cách tìm mức trung bình chúng Từ nh ững vect v ừa tạo ra, mô hình tìm k vector gần nh ất t tập huấn luyện sử dụng khoảng cách Euclidean làm thước đo khoảng cách Nh m ỗi nhận xét tập huấn luyện có dấu thời gian, láng giềng k, tìm thấy ý kiến không τ giây Sau đó, đưa nhận xét độc đáo Trong công trình này, đ ặt ρ = 100, τ = 5, k = 10 Các thông số lựa chọn cách ch ạy mô hình xác nhận nhỏ năm video chọn nh ững tốt nh ất, dựa phán đoán người Chúng loại bỏ nhận xét cụ thể theo giới tính cách thay "anh ấy" "cô ấy" "anh / cô ấy" "của anh ấy" "của mình" với "người đó" Sau chọn ý kiến từ vector đặc tính gần nhất, tính điểm số BLEU theo cặp Sử dụng điểm số BLEU thước đo gần nhau, gom cụm ý kiến cách sử dụng mật độ dựa clustering (DBScan) DBScan khám phá cụm với hình dạng tùy ý tham số đầu vào không xác định nhãn điểm ngoại lệ, gán cho cụm Sử dụng DBScan, loại bỏ ý kiến ý kiến từ đầu Hình cho thấy cách nhận xét hiển thị cho người dùng Hình cho th điểm thuật toán hệ thống Đánh giá Để đánh giá nhận xét ROC Comment, tiến hành nghiên cứu người dùng với n = 30 người Thổ Nhĩ Kỳ Trong h ướng d ẫn c chúng tôi, cung cấp liên kết tới Nh ận xét ROC Comment, hướng người tham gia ghi lại đoạn video nói tr ước công chúng khoảng hai phút hỏi 10 câu hỏi kh ảo sát tr ực ến Mục tiêu đánh giá ý kiến hệ thống tạo ra, tổng thể Vì lý này, không áp đặt kho ảng th ời gian chuẩn bị phát biểu trước thu âm Trong mười câu hỏi, bảy m ục tiêu đánh giá để đánh giá tính hữu ích, chất lượng tính xác c nhận xét thẻ bắt đầu # Ba người hỏi liệu ng ười dùng có nghĩ ý kiến từ thuật toán người hay máy tính Trong bảy câu hỏi đầu tiên, hỏi liệu họ có đồng ý hay không đồng ý với báo cáo, người tham gia trả lời cách đưa giá trị từ đến sáu, có nghĩa không đồng ý sáu có nghĩa đồng ý mạnh mẽ Các báo cáo xếp hạng trung bình (với độ lệch tiêu chuẩn) th ể Hình Bản báo cáo bốn năm trình bày với tình cảm ngược lại v ới báo cáo khác để làm cho người tham gia ý Những người tham gia cho nhận xét h ữu ích (kho ảng 3.53 / 6.00), thẻ bắt đầu # gần (trung bình 3,33 / 6,00) Tuy nhiên, họ đồng ý "bình luận không phù h ợp b ối c ảnh phát biểu" (3,90 / 6,00) Người dùng nhận thấy nh ận xét ph ần nằm ngữ cảnh ,bởi liệu huấn luy ện chúng tôi, m ột s ố nhận xét có tính ngữ cảnh cụ thể Tuy nhiên, loại bỏ nh ững người tham gia đưa sáu (đồng ý) cho "nhận xét không phù h ợp ng ữ cảnh phát biểu tôi", nhận thấy điểm trung bình c tính hữu dụng ý kiến trở thành 4.23 Điều rằng, xác định nhận xét theo ngữ cảnh cụ thể loại bỏ nh ững ý kiến đó, khả sử dụng ý kiến tăng lên Sửa đổi đơn giản, chẳng hạn như, loại bỏ ý kiến có chứa tên chủ đề có th ể làm gi ảm vấn đ ề đ ến mức độ Chúng thấy có t ương quan tiêu c ực gi ữa tính hữu ích đánh giá nhận xét bên ngữ cảnh (correlation = -0.81) Có tương quan cao tính hữu ích độ xác (correlation = 0.83) Những người tham gia không ý thức m ột thuật toán máy tính tạo nhận xét Năm người tham gia nghĩ nhận xét đến từ người thật Nhìn vào biện hộ c h ọ cho thấy hiểu biết sâu sắc Một người tham gia cho biết: "Nhận xét tư dường máy tính tạo điều khó hiểu máy tính Tuy nhiên, nhận xét v ề ch ủ đề không cho phép nghĩ tạo máy tính " Chúng nhận thấy nhiều ý kiến có liên quan h ữu ích đ ược t ạo ROC Bình luận Từ bình luận đ ược tạo ra, rõ ràng m ột s ố ý kiến thực tổng quát khối lượng thuộc tính thân thiện Vì mô hình không thực hiểu biết ngôn ngữ nào, nhận số nhận xét không phù hợp với chủ đề Hạn chế người tham gia phản ánh: "Các bình luận cảm thấy chung chung với không xác phát bi ểu Đó khái niệm thú vị " Tương lai Tính đơn giản hiệu mô hình dựa k-NN lọc d ựa cụm động lực thúc đẩy khai thác chúng nh điểm khởi đầu Tuy nhiên, nghiên cứu gần cho thấy ph ương pháp mô tả dựa mạng thần kinh thực tốt so với mô hình dựa k-NN đạt điểm đánh giá tự động tương t ự [6] Chúng dự định tiếp tục mở rộng tập liệu đào tạo cách thêm nhiều video clip nhận xét người tạo áp d ụng mô hình dựa mạng nơ-ron để hiểu rõ mối quan hệ gi ữa tính video nhận xét ngôn ngữ tự nhiên tương ứng H ơn n ữa, xem xét tính ý nghĩa ngữ nghĩa nh ận xét t ập huấn luyện khai thác tín hiệu để t ự đ ộng so ạn th ảo nh ận xét cách kết hợp nhiều ý kiến có liên quan vào liệu huấn luyện Mục tiêu tạo nhận xét đủ c ụ th ể đ ể giúp người nâng cao kỹ nói trước công chúng có th ể cung c ấp cho họ nhìn sâu sắc Chúng dự định t ự động phát hi ện c ụm t không tổng quát hóa tốt tỉa chúng mô hình d ựa tree-base [4] Trong tương lai, nghiên cứu video hành vi vi ệc nói trước công chúng (ví dụ: vấn nghề nghiệp, đàm phán) Cho đ ến nay, tập trung vào việc cung cấp nhận xét hành vi phi ngôn ng ữ (ví dụ: điều chỉnh giọng nói, thân thiện) Bao gồm nội dung miệng c phát biểu nỗ lực thú vị tương lai Mặc dù tính đo nụ cười có mối tương quan cao v ới s ự thân thiện, nhận thấy vài tr ường h ợp ngo ại lệ Đôi khi, nhận thấy diễn giả đánh giá thân thi ện m ặc dù không mỉm cười họ thể cảm thông từ bi thông qua t nói tục ngữ họ Phần lớn người tham gia gợi ý không dễ dàng cho người đưa nhiều ý kiến cách nhanh chóng, kết luận r ằng ý kiến tạo máy tính Nó nhìn th nh người tham gia đánh giá hệ thống giới thiệu chậm trễ việc cung cấp ý kiến tạo m ột ảo t ưởng ý kiến đến từ người thực Thử nghiệm v ới ý t ưởng phần công việc tương lai c Kết luận Chúng phát triển triển khai giao diện tr ực ến cho phép người dùng tải lên ghi lại phát biểu tự động nh ận nhận xét chủ quan Chúng phát triển mô hình sử dụng mô hình k-NN, tập huấn liệu nói trước công chúng m ới t ự nhiên, thu thập "tự nhiên" Việc tạo nhận xét tự động diễn giải từ video hành vi không thực kh ứ Trong công trình thăm dò ban đầu chúng tôi, bắt đầu th thách việc thu thập 196 video tự nhiên gắn nhãn họ cách sử dụng nhân viên trực tuyến Chúng phát triển giao diện trực ến hoàn toàn t ự động để xác định tính khả thi kỹ thuật Mặc dù thu ật toán cải thiện n ữa v ới th ước đo đánh giá nghiêm ngặt hơn, cảm thấy b ước ti ến thú vị để giải vấn đề khó khăn với hàm ý t ức th ời giới thực Tài liệu tham khảo Nazia Ali and Ruchi Nagar 2013 To study the effectiveness of occupational therapy intervention in the management of fear of public speaking in school going children aged between 12-17 years Methodology : 45, 3: 21–25 E Boath, a Stewart, and a Carryer 2012 Tapping for PEAS : Emotional Freedom Technique ( EFT ) in reducing Presentation Expression Anxiety Syndrome ( PEAS ) in University students Innovative Practice in Higher Education 1, April: 1–12 Paul Boersma and David Weenink Praat: doing phonetics by computer Retrieved from http://www.fon.hum.uva.nl/praat/ Yejin Choi, Tamara L Berg, U N C Chapel Hill, Chapel Hill, and Stony Brook 2014 TREE TALK : Composition and Compression of Trees for Image Descriptions 2: 351–362 Purvinis Dalia and Susnienė Rūta 2010 Insights on Problems of Public Speaking and Ways of Overcoming It Nation & Language: Modern Aspects of Socio-Linguistic Developmen;2010, p106 Jacob Devlin, Saurabh Gupta, Ross Girshick, Margaret Mitchell, and C Lawrence Zitnick 2015 Exploring Nearest Neighbor Approaches for Image Captioning arXiv preprint arXiv:1505.04467 Martin Ester, Hans P Kriegel, Jorg Sander, and Xiaowei Xu 1996 A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise Second International Conference on Knowledge Discovery and Data Mining: 226–231 http://doi.org/10.1.1.71.1980 Ali Farhadi, Mohsen Hejrati, Mohammad Amin Sadeghi, et al 2010 Every picture tells a story: Generating sentences from images Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) 6314 LNCS, PART 4: 15– 29 http://doi.org/10.1007/978-3-642-15561-1_2 Michelle Fung, Yina Jin, Ru Zhao, and Mohammed Ehsan Hoque 2015 ROC Speak: Semi-Automated Personalized Feedback on Nonverbal Behavior from Recorded Videos Proceedings of 17th International Conference on Ubiquitous Computing (Ubicomp) 10 Kishore Papineni, Salim Roukos, Todd Ward, and Wj Zhu 2002 BLEU: a method for automatic evaluation of machine translation Proceedings of the 40th Annual Meeting on Computational Linguistics (ACL), July: 311–318 http://doi.org/10.3115/1073083.1073135 11 Polly Anne Rice Emotional Freedom Techniques (EFT): Tap Into Empowerment Retrieved from http://happyrealhealth.com/emotionalfreedomtechniques-eft/ 12 Marcus Rohrbach, Wei Qiu, Ivan Titov, Stefan Thater, Manfred Pinkal, and Bernt Schiele 2013 Translating video content to natural language descriptions Proceedings of the IEEE International Conference on Computer Vision, December: 433– 440 http://doi.org/10.1109/ICCV.2013.61 13 Bahador Saket, Sijie Yang, Hong Tan, Koji Yatani, and Darren Edge 2014 TalkZones: Section-based Time Support for Presentations Proceedings of the 16th international conference on Human-computer interaction with mobile devices & services (MobileHCI ’14): 263–272 http://doi.org/10.1145/2628363.2628399 14 M Iftekhar Tanveer, Emy Lin, and Mohammed Ehsan Hoque 2015 Rhema : A Real-Time In-Situ Intelligent Interface to Help People with Public Speaking IUI 2015: Proceedings of the 20th International Conference on Intelligent User Interfaces, 286–295 http://doi.org/10.1145/2678025.2701386 15 Ha Trinh, Koji Yatani, and Darren Edge 2014 PitchPerfect Proceedings of the 32nd annual ACM conference on Human factors in computing systems - CHI ’14: 1571–1580 http://doi.org/10.1145/2556288.2557286 16 Subhashini Venugopalan, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond Mooney, and Kate Saenko 2014 Translating videos to natural language using deep recurrent neural networks arXiv preprint arXiv:1412.4729 17 Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan 2014 Show and Tell: A Neural Image Caption Generator Retrieved from http://arxiv.org/abs/1411.4555 18 R Xu, C Xiong, W Chen, and Jj Corso 2015 Jointly modeling deep video and compositional text to bridge vision and language in a unified framework Proceedings of AAAI Retrieved from http://www.acsu.buffalo.edu/~rxu2/xu_corso_AAA I2015_v2t.pdf 19 SHORETM - Object and Face Recognition Retrieved http://www.iis.fraunhofer.de/en/ff/bsy/tech/bildanalyse/shoregesichtsdetektion.html from

Ngày đăng: 30/10/2017, 16:50

TỪ KHÓA LIÊN QUAN

w