zihaozheng98 / one-sentence-summarization Goto Github PK

View Code? Open in Web Editor NEW

1.0 1.0 0.0 2 KB

One sentence summarization for what I have read

one-sentence-summarization's Introduction

One-sentence-summarization

One sentence summarization for what I have read 可以按照 10篇摘要 3篇略读 0.5篇精读来进行

one-sentence-summarization's People

Contributors

Stargazers

Watchers

one-sentence-summarization's Issues

20210927

Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules
弱监督获取问答过程中关注的区域，使用了胶囊网络。模型图还是比较直观的。胶囊网络不太懂。

Towards General Purpose Vision Systems
简单粗暴，直接搞了一个能处理各种多模态任务的统一模型，输入时只要输入图文即可（针对特定任务构造prompt)，有趣的是，其在做特定任务的输出时，另一个分支也能得到输出（做vqa时，另一个分支可以得到图中支持的区域）.

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

ICCV 21
一句话：在视频-文本匹配任务中，同时考虑了全局特征和局部特征，并且使用了一种高效的方式处理局部特征的对齐。

之前的方法主要是将视频的表示和文本的表示拉近，作者认为这种方式会损失很多细粒度的信息，于是作者考虑了局部信息。作者将视频分为若干个segment,每个segment的表示作为视频的local表示，将所有local表示使用max pooling融合，即得到视频的global表示。同时，对于句子来说，每个词是local表示，句子的表示是global表示。
而这种方式会产生大量的local表示，计算上很低效，并且也诶必要。作者认为视频和句子是由一个个topic组成的，因此使用K+1个预训练的向量分别作为K个topic的表示（其中最后一个表示用来过滤空白信息）。在实际计算的时候，相当于将每个局部特征的信息分散到每个topic上。刚开始看的时候，我会怀疑，这个相当于固定了topic的数目，感觉不合理，但是仔细想来，无用的信息其实都会被分散到第k+1个表示上。最后就很容易了，分别针对local和global的表示，计算相似度即可。

可以借鉴的点：topic的使用。在处理长文本的图文数据的对齐上，有价值的词可能就只出现1次，这样就很影响模型效果，并且计算效率很低。这种方式能够很好地强调出文本中最有价值的信息。

论文推荐指数：一般

Learning to Compose Neural Networks for Question Answering

NAACL 16

one sentence: 根据特定问题，构建特定神经网络，提高了模型的组合泛化性以及可解释性。

为了提高模型对全新问题组合的理解能力，作者提出了Neural module network，简单来说是将问题分解为句法树，然后按照作者预定义的规则，将句法树转换为若干个布局，使用一个神经网络Z对不同布局打分得到不同布局的分布，最后采样得到最终的布局。将布局中特定节点替换为特定神经网络模块即得到最终的神经网络Y。在预测时，将图片输入到问题构建出的神经网络中，得到预测结果。

亮点：训练数据不包含对Z的标注数据，作者使用强化学习策略梯度的方式对Z网络进行参数更新。
论文推荐指数：较推荐，其中强化学习更新参数的部分，能够借鉴到很多中间有隐变量的模型中。是绕不开的坑。

zihaozheng98 / one-sentence-summarization Goto Github PK

one-sentence-summarization's Introduction

One-sentence-summarization

one-sentence-summarization's People

Contributors

Stargazers

Watchers

one-sentence-summarization's Issues

20210927

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

Learning to Compose Neural Networks for Question Answering

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent