多模态模型

【Paper Reading】7.DiT(VAE+ViT+DDPM) Sora的base论文

VAE DDPM 分类内容论文题目 Scalable Diffusion Models with Transformers 作者 William Peebles (UC Berkeley), Saining Xie (New York University) 发表年份 2023 摘要介绍了一类新的扩散模型，这些模型利用Transformer架构，专注于图像生…

【名词解释】ImageCaption任务中的CIDEr、n-gram、TF-IDF、BLEU、METEOR、ROUGE 分别是什么？它们是怎样计算的？

CIDEr CIDEr（Consensus-based Image Description Evaluation）是一种用于自动评估图像描述（image captioning）任务性能的指标。它主要通过计算生成的描述与一组参考描述之间的相似性来评估图像描述的质量。CIDEr的独特之处在于它考…

GLEE：一个模型搞定目标检测/实例分割/定位/跟踪/交互式分割等任务！性能SOTA!

GLEE，这是一个面向目标级别的基础模型，用于定位和识别图像和视频中的目标。通过一个统一的框架，GLEE实现了对开放世界场景中任意目标的检测、分割、跟踪、定位和识别，适用于各种目标感知任务。采用了一种协同学习策略，…

【AI视野·今日CV 计算机视觉论文速览第278期】Mon, 30 Oct 2023

AI视野今日CS.CV 计算机视觉论文速览 Mon, 30 Oct 2023 Totally 50 papers 👉上期速览✈更多精彩请移步主页 Daily Computer Vision Papers Image Clustering Conditioned on Text Criteria Authors Sehyun Kwon, Jaeseung Park, Minkyu Kim, Jaewoong Cho, Ernest…

【PaperReading】5. Open-Vocabulary SAM

Category Content 论文题目 Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively 作者 Haobo Yuan1 Xiangtai Li1 Chong Zhou1 Yining Li2 Kai Chen2 Chen Change Loy1 1S-Lab, Nanyang Technological University 2Shanghai Artificial In…

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

目录前言一、多模态模型进展与探索1、GPT-4V (多模态)测试2、LLM时代文档图像处理技术趋势3、LLM时代文档图像技术机会4、MLLM时代文档图像处理技术趋势5、知名文档图像大模型OCR性能分析二、图像安全1、篡改种类2、系统架构3、文档图像处理开放平台4、AIGC假图鉴别5、图像篡…

【论文极速读】视频检索中的模态均衡方法

【论文极速读】视频检索中的模态均衡方法 FesianXu 20231206 at Baidu Search Team 前言传统的视频搜索系统相关性部分主要以文本匹配为基础手段，在其中引入多模态向量容易收到『模态不均衡』的问题，论文[1]尝试对其进行解决，本文进行笔记。…

Talk｜香港科技大学苟耘豪：MoCLE - 指令聚类MoE+通用专家解决多模态大模型任务冲突

本期为TechBeat人工智能社区第571期线上Talk。北京时间2月8日(周四)20:00，香港科技大学博士生—苟耘豪的Talk已准时在TechBeat人工智能社区开播！ 他与大家分享的主题是: “MoCLE - 指令聚类MoE通用专家解决多模态大模型任务冲突”，系统地介绍…

【PaperReading】2. MM-VID

Category Content 论文题目 MM-VID: Advancing Video Understanding with GPT-4V(ision) 作者 Kevin Lin, Faisal Ahmed, Linjie Li, Chung-Ching Lin, Ehsan Azarnasab, Zhengyuan Yang, Jianfeng Wang, Lin Liang, Zicheng Liu, Yumao Lu, Ce Liu, Lijuan Wang (Microso…

VLE基于预训练文本和图像编码器的图像-文本多模态理解模型：支持视觉问答、图文匹配、图片分类、常识推理等

项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）：汇总有意义的项目设计集合，助力新人快速实…

【Paper Reading】6.RLHF-V 提出用RLHF的1.4k的数据微调显著降低MLLM的虚幻问题

分类内容论文题目 RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback 作者作者团队：由来自清华大学和新加坡国立大学的研究者组成，包括Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Y…

Kosmos-1: 通用接口架构下的多模态大语言模型

Kosmos-1: 通用接口架构下的多模态大语言模型 FesianXu 20230513 at Baidu Search Team 前言在大规模语言模型（Large Language Model, LLM）看似要带来新一番人工智能变革浪潮之际，越来越多尝试以LLM作为通用接口去融入各种任务的工作&#…