Code Monkey home page Code Monkey logo

one-sentence-summarization's Introduction

One-sentence-summarization

One sentence summarization for what I have read 可以按照 10篇摘要 3篇略读 0.5篇精读来进行

one-sentence-summarization's People

Contributors

zihaozheng98 avatar

Stargazers

Ren Tianhe avatar

Watchers

 avatar

one-sentence-summarization's Issues

20210927

Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules

弱监督获取问答过程中关注的区域,使用了胶囊网络。模型图还是比较直观的。胶囊网络不太懂。
image

Towards General Purpose Vision Systems
简单粗暴,直接搞了一个能处理各种多模态任务的统一模型,输入时只要输入图文即可(针对特定任务构造prompt),有趣的是,其在做特定任务的输出时,另一个分支也能得到输出(做vqa时,另一个分支可以得到图中支持的区域).
image

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

ICCV 21
一句话:在视频-文本匹配任务中,同时考虑了全局特征和局部特征,并且使用了一种高效的方式处理局部特征的对齐。

之前的方法主要是将视频的表示和文本的表示拉近,作者认为这种方式会损失很多细粒度的信息,于是作者考虑了局部信息。作者将视频分为若干个segment,每个segment的表示作为视频的local表示,将所有local表示使用max pooling融合,即得到视频的global表示。同时,对于句子来说,每个词是local表示,句子的表示是global表示。
而这种方式会产生大量的local表示,计算上很低效,并且也诶必要。作者认为视频和句子是由一个个topic组成的,因此使用K+1个预训练的向量分别作为K个topic的表示(其中最后一个表示用来过滤空白信息)。在实际计算的时候,相当于将每个局部特征的信息分散到每个topic上。刚开始看的时候,我会怀疑,这个相当于固定了topic的数目,感觉不合理,但是仔细想来,无用的信息其实都会被分散到第k+1个表示上。最后就很容易了,分别针对local和global的表示,计算相似度即可。

可以借鉴的点:topic的使用。在处理长文本的图文数据的对齐上,有价值的词可能就只出现1次,这样就很影响模型效果,并且计算效率很低。这种方式能够很好地强调出文本中最有价值的信息。

论文推荐指数:一般
image

Learning to Compose Neural Networks for Question Answering

NAACL 16

one sentence: 根据特定问题,构建特定神经网络,提高了模型的组合泛化性以及可解释性。

为了提高模型对全新问题组合的理解能力,作者提出了Neural module network,简单来说是将问题分解为句法树,然后按照作者预定义的规则,将句法树转换为若干个布局,使用一个神经网络Z对不同布局打分得到不同布局的分布,最后采样得到最终的布局。将布局中特定节点替换为特定神经网络模块即得到最终的神经网络Y。在预测时,将图片输入到问题构建出的神经网络中,得到预测结果。

亮点:训练数据不包含对Z的标注数据,作者使用强化学习策略梯度的方式对Z网络进行参数更新。
论文推荐指数:较推荐,其中强化学习更新参数的部分,能够借鉴到很多中间有隐变量的模型中。是绕不开的坑。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.