2018 全國(guó)“視覺與學(xué)習(xí)青年學(xué)者研討會(huì)”(VALSE 2018)4月20日于大連拉開帷幕。該研討會(huì)的主要目的是為計(jì)算機(jī)視覺、圖像處理、模式識(shí)別與機(jī)器學(xué)習(xí)研究領(lǐng)域內(nèi)的中國(guó)青年學(xué)者提供一個(gè)深層次學(xué)術(shù)交流的舞臺(tái),促進(jìn)國(guó)內(nèi)青年學(xué)者的思想交流和學(xué)術(shù)合作,提升中國(guó)學(xué)者在AI領(lǐng)域做出重量級(jí)的學(xué)術(shù)貢獻(xiàn),及其在國(guó)際學(xué)術(shù)舞臺(tái)上的影響力。
會(huì)議期間,來(lái)自國(guó)內(nèi)各大高校計(jì)算機(jī)視覺領(lǐng)域權(quán)威學(xué)者、國(guó)內(nèi)人工智能領(lǐng)域的科技公司專家代表和互聯(lián)網(wǎng)知名企業(yè)阿里巴巴、百度、滴滴等齊聚現(xiàn)場(chǎng),展示AI業(yè)內(nèi)前沿技術(shù)、深度學(xué)習(xí)應(yīng)用成果,并圍繞此展開深入探討。
魔視智能沈春華教授受邀作為大會(huì)報(bào)告人,在視覺與語(yǔ)言專題討論會(huì)上(VALSE Workshop on Vision and Language)作了一場(chǎng)關(guān)于視覺問答(Visual Question Answering,以下簡(jiǎn)稱為VQA)的報(bào)告。視覺問答/對(duì)話是一個(gè)融合計(jì)算機(jī)視覺和自然語(yǔ)言處理的終極任務(wù),相比較圖片文本描述任務(wù)(ImageCaptioning),VQA更能反映出對(duì)于圖像的深層理解能力。報(bào)告主要包含以下內(nèi)容。
魔視智能沈春華教授發(fā)表主題演講
融合知識(shí)庫(kù)的VQA模型框架以及基于常識(shí)的VQA數(shù)據(jù)集(FVQA)
VQA任務(wù)通常的做法是使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)得到的特征或預(yù)測(cè)出的屬性聯(lián)合針對(duì)圖片的問題一起作為遞歸網(wǎng)絡(luò)(RNN,LSTM,GRU等)的輸入,然后生成答案。但是當(dāng)前存在的VQA任務(wù)的模型框架由于只考慮了圖片的視覺信息,并不能很好地回答更深層的問題,要回答這些深層問題就需要一些額外的知識(shí)作為支持。
沈教授團(tuán)隊(duì)提出一個(gè)融合了知識(shí)庫(kù)的模型框架,能夠結(jié)合圖片所包含的信息和額外的知識(shí)庫(kù)[1,2,3]。另外,當(dāng)前的VQA的任務(wù)沒有給出問題答案的原因,使得答案不能追溯圖片的相關(guān)特征以及相關(guān)知識(shí)。沈教授團(tuán)隊(duì)提出了一個(gè)VQA-Machine的框架[4],融合了多種計(jì)算機(jī)視覺任務(wù)的結(jié)果并且能額外輸出給出答案的理由。考慮到當(dāng)前的VQA數(shù)據(jù)集的圖片樣本所提供問題和答案都過于淺顯,沈教授團(tuán)隊(duì)提出的一個(gè)基于常識(shí)事實(shí)的新的VQA數(shù)據(jù)集(FVQA)[5],對(duì)于每張圖還會(huì)額外提供與圖片問題相關(guān)的事實(shí)基礎(chǔ)。
類人對(duì)話生成
考慮到目前的VQA任務(wù)的輸出比較機(jī)器化,簡(jiǎn)短,報(bào)告里還介紹了其團(tuán)隊(duì)提出的一種使用對(duì)抗學(xué)習(xí)(GAN)以及強(qiáng)化學(xué)習(xí)輔助生成更加自然的類人的語(yǔ)言的方法[6]。該方法使用了一種融合圖片、問題和歷史問答數(shù)據(jù)的聯(lián)合注意力的編碼器(Co-attention encoder)作為一個(gè)生成器(generator)和一個(gè)使用歷史生成器記憶的判別器(discriminator)來(lái)區(qū)分機(jī)器生成的對(duì)話和類人的對(duì)話。
參考文獻(xiàn):
[1] Image Captioning and Visual QuestionAnswering Based on Attributes and External Knowledge. Wu & Wang et al.TPAMI 2017
[2] Ask Me Anything: Free-Form VisualQuestion Answering Based on Knowledge from External Sources. Wu & Wang etal. CVPR2016
[3] What Value Do Explicit High-LevelConcepts Have in Vision to Language Problems. Wu et al. CVPR 2016
[4] The VQA-machine Learning How to UseExisting Vision Algorithms to Answer New Questions. Wang & Wu et al. CVPR2017
[5] FVQA: Fact-Based Visual QuestionAnswering. Wang & Wu et al. TPAMI 2018
[6] Are You Talking to Me? Reasoned VisualDialog Generation Through Adversarial Learning. Wu & Wang et al. CVPR 2018
魔視智能始終密切關(guān)注著業(yè)內(nèi)前沿動(dòng)態(tài),同時(shí)十分重視對(duì)青年學(xué)者這一新生力量的培養(yǎng),作為本次大會(huì)的鉑金贊助商之一,由CEO虞正華博士帶隊(duì),向參會(huì)的各位青年學(xué)者及業(yè)內(nèi)公司代表介紹了魔視智能的團(tuán)隊(duì)情況、核心優(yōu)勢(shì)及最新研究成果。在展示區(qū),我們著重展示了魔視智能的核心技術(shù)優(yōu)勢(shì)與最新產(chǎn)品基于嵌入式深度學(xué)習(xí)的前視ADAS一體機(jī)產(chǎn)品,為期三天的展示中,駐足瀏覽的參會(huì)人員絡(luò)繹不絕。
我們非常歡迎優(yōu)秀學(xué)子的加入, 在濃厚的學(xué)術(shù)氛圍團(tuán)隊(duì)中加快實(shí)踐技能的提升,一起實(shí)現(xiàn)汽車產(chǎn)業(yè)人工智能化,開啟汽車的人工智能大腦。