Topic: image-text-retrieval Goto Github

Some thing interesting about image-text-retrieval

👇 Here are 26 public repositories matching this topic...

alipay / ant-multi-modal-framework

image-text-retrieval, Research Code for Multimodal-Cognition Team in Ant Group

Organization: alipay

image-text-retrieval multimodal-learning multimodal-llm video-editing video-text-retrieval

ammopy / semantic-search-question-answer

image-text-retrieval,Matching questions to correct answers using pre-trained BERT models.

User: ammopy

bert bert-embeddings fine-tuning natural-language-processing semantic-search sentence-transformers image-processing image-text-retrieval

chuhaojin / text2poster-icassp-22

image-text-retrieval,Official implementation of the ICASSP-2022 paper "Text2Poster: Laying Out Stylized Texts on Retrieved Images"

User: chuhaojin

aigc deep-learning multimodal-generation image-processing image-retrieval layout-design poster-generation artificial-neural-networks pytorch geneative-creation

cobanov / image-captioning

image-text-retrieval,Image captioning using python and BLIP

User: cobanov

image-captioning blip image-text-retrieval img2text vision-language visual-reasoning

eric-ai-lab / comclip

image-text-retrieval,Official implementation and dataset for the NAACL 2024 paper "ComCLIP: Training-Free Compositional Image and Text Matching"

Organization: eric-ai-lab

Home Page: https://sites.google.com/view/comclip

blip2 causality clip compositionality flickr30k flickr8k-dataset image-text-matching image-text-retrieval slip svo

eric-ai-lab / cpl

image-text-retrieval,Official implementation of our EMNLP 2022 paper "CPL: Counterfactual Prompt Learning for Vision and Language Models"

Organization: eric-ai-lab

causal-inference counterfactual-reasoning image-classification image-text-retrieval prompt-tuning vision-and-language vqa

frank-chris / imagetextretrieval

image-text-retrieval,In this work, we implement different cross-modal learning schemes such as Siamese Network, Correlational Network and Deep Cross-Modal Projection Learning model and study their performance. We also propose a modified Deep Cross-Modal Projection Learning model that uses a different image feature extractor. We evaluate the model’s performance on image-text retrieval on a fashion clothing dataset.

User: frank-chris

image-text-retrieval cross-modal-retrieval cross-modal-learning pytorch tensorflow flask

greyovo / picquery

image-text-retrieval,🔍 Search local images with natural language on Android, powered by OpenAI's CLIP model. / 在 Android 上用自然语言搜索本地图片 (基于 OpenAI 的 CLIP 模型)

User: greyovo

android clip image-text-retrieval material-design-3 openai image-text-search jetpack-compose

howard-hou / bagformer

image-text-retrieval,PyTorch code for BagFormer: Better Cross-Modal Retrieval via bag-wise interaction

User: howard-hou

cross-modal-retrieval image-text-retrieval vision-language

hpc203 / chinese-clip-opencv-onnxrun

image-text-retrieval,使用OpenCV+onnxruntime部署中文clip做以文搜图，给出一句话来描述想要的图片，就能从图库中搜出来符合要求的图片。包含C++和Python两个版本的程序

User: hpc203

clip image-text-retrieval multimodal-large-language-models opencv-dnn

kaylode / tern

image-text-retrieval,Cross-modal Retrieval using Transformer Encoder Reasoning Networks (TERN). With use of Metric Learning and FAISS for fast similarity search on GPU

User: kaylode

cross-modal-retrieval image-text-matching image-text-retrieval transformer

marialymperaiou / knowledge-enhanced-multimodal-learning

image-text-retrieval,A list of research papers on knowledge-enhanced multimodal learning

User: marialymperaiou

conditional-image-generation image-text-matching image-text-retrieval knowledge-graph multimodal-deep-learning multimodal-retrieval story-visualization vision-and-language vision-and-language-navigation vision-and-language-pre-training

milvlg / rosita

image-text-retrieval,ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration

Organization: milvlg

vision-and-language vqa pre-training image-text-retrieval referring-expression-comprehension

moenupa / clip-image-search

image-text-retrieval,Searching Images: From Clip And Beyond

User: moenupa

image-search image-text-retrieval multi-modal-retrieval openclip clip-roberta

ofa-sys / chinese-clip

image-text-retrieval,Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

Organization: ofa-sys

chinese computer-vision multi-modal-learning nlp pytorch vision-and-language-pre-training image-text-retrieval clip pretrained-models vision-language

opengvlab / internvl

image-text-retrieval,InternVL Family: A Pioneering Open-Source Alternative to GPT-4V. [CVPR 2024 Oral]

Organization: opengvlab

Home Page: https://arxiv.org/abs/2404.16821

image-classification image-text-retrieval llm mme semantic-segmentation video-classification vision-language-model vit-22b vit-6b multi-modal

paranioar / awesome_image_text_retrieval_benchmark

image-text-retrieval,The Unified Code of Image-Text Retrieval for Further Exploration.

User: paranioar

cross-modal-retrieval image-text-matching benchmark image-text-retrieval

paranioar / awesome_matching_pretraining_transfering

image-text-retrieval,The Paper List of Large Multi-Modality Model, Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insight.

User: paranioar

cross-modal-retrieval tutorial awesome-list image-text-matching image-text-retrieval large-language-models large-vision-language-models large-vision-models memory-efficient-tuning multimodal-pretraining

paranioar / rcar

image-text-retrieval,[TIP2023] The code of “Plug-and-Play Regulators for Image-Text Matching”

User: paranioar

cross-modal-retrieval image-text-matching image-retrieval image-text-retrieval text-matching tip

paranioar / sgraf

image-text-retrieval,[AAAI2021] The code of “Similarity Reasoning and Filtration for Image-Text Matching”

User: paranioar

cross-modal-retrieval image-text-matching image-retrieval image-text-retrieval text-matching aaai

romrawinjp / modern-image-search

image-text-retrieval,Modern Image Search's course repository for Super AI Engineer Development Program SS4

User: romrawinjp

image-processing image-processing-python image-retrieval image-search image-text-retrieval

salesforce / blip

image-text-retrieval,PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Organization: salesforce

vision-language vision-and-language-pre-training image-text-retrieval image-captioning visual-question-answering visual-reasoning vision-language-transformer

sdc17 / crossget

image-text-retrieval,CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers.

User: sdc17

Home Page: https://arxiv.org/pdf/2305.17455.pdf

efficient-deep-learning model-acceleration multimodal-learning vision-language-transformer image-captioning visual-question-answering visual-reasoning framework transformer image-text-retrieval

sdc17 / upop

image-text-retrieval,[ICML 2023] UPop: Unified and Progressive Pruning for Compressing Vision-Language Transformers.

User: sdc17

Home Page: https://dachuanshi.com/UPop-Project/

efficient-deep-learning model-compression multimodal-learning vision-language-transformer image-captioning image-text-retrieval visual-question-answering visual-reasoning text-image-retrieval framework

slavabarkov / tidy

image-text-retrieval,Offline semantic Text-to-Image and Image-to-Image search on Android powered by quantized state-of-the-art vision-language pretrained CLIP model and ONNX Runtime inference engine

User: slavabarkov

android clip computer-vision deep-learning image-retrieval kotlin nlp onnx quantization image-text-retrieval

x-plug / mplug

image-text-retrieval,mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections. (EMNLP 2022)

Organization: x-plug

Home Page: https://arxiv.org/abs/2205.12005

image-captioning image-text image-text-retrieval multimodal pretraining pytorch transformer visual-language vqa

Topic: image-text-retrieval Goto Github

👇 Here are 26 public repositories matching this topic...

alipay / ant-multi-modal-framework

ammopy / semantic-search-question-answer

chuhaojin / text2poster-icassp-22

cobanov / image-captioning

eric-ai-lab / comclip

eric-ai-lab / cpl

frank-chris / imagetextretrieval

greyovo / picquery

howard-hou / bagformer

hpc203 / chinese-clip-opencv-onnxrun

kaylode / tern

marialymperaiou / knowledge-enhanced-multimodal-learning

milvlg / rosita

moenupa / clip-image-search

ofa-sys / chinese-clip

opengvlab / internvl

paranioar / awesome_image_text_retrieval_benchmark

paranioar / awesome_matching_pretraining_transfering

paranioar / rcar

paranioar / sgraf

romrawinjp / modern-image-search

salesforce / blip

sdc17 / crossget

sdc17 / upop

slavabarkov / tidy

x-plug / mplug

Recommend Projects

Recommend Topics

Recommend Org