20220929 vit dino自监督学习 bert

news/2024/11/19 19:23:02/

   1、vit

GitHub - google-research/vision_transformer

是监督学习

CV攻城狮入门VIT(vision transformer)之旅——VIT代码实战篇_秃头小苏的博客-CSDN博客

2、DINO

GitHub - facebookresearch/dino: PyTorch code for Vision Transformers training with the Self-Supervised learning method DINO

自监督学习流程

https://zhuanlan.zhihu.com/p/448182903

论文导读:DINO -自监督视觉Transformers|文章|原理|dino_网易订阅

1、CV中的无监督学习方法:MoCo - 知乎

1、Self-Attention 自注意力机制 - 知乎 (zhihu.com)

(192条消息) 计算机视觉中的Transformer_小白学视觉的博客-CSDN博客

(193条消息) transformer通俗理解_追光少年羽的博客-CSDN博客_transformer模型通俗理解

(193条消息) Vision Transformer入门解析_luemeon的博客-CSDN博客

假设,初始输入图像尺寸shape=(b, 3, 256, 256),将其打成patch尺寸shape=(b, 3, 256/32, 256/32),共256x256/32x32=64个patches,每个patch均有32×32×3=3072个像素。输入到线性投影层 (相当于通道数由 3 降维为 1) 得到个数为64、大小(像素数)为(32×32×1)=1024的图像块嵌入,每个图像块嵌入按元素加入位置向量后,尺寸仍为 N×D=64×1024,再concat成一个用于预测分类结果的 1×1024 可学习嵌入向量构成大小为 65×1024 嵌入整体 (长度为64+1=65),输入编码器经过一系列前向处理后,得到尺寸仍为65×1024的输出。 

2.bert自监督学习

自监督学习:1、BERT模型 - 知乎


http://www.ppmy.cn/news/894684.html

相关文章

手把手带你跑通目标检测中的DINO-main模型

源码地址:https://github.com/IDEA-Research/DINO 我是在Ubuntu中的Pycharm上面跑的, 首先配置一个新的环境,环境名字就命名为DINO(方法很简单,这里我就不阐述了,不会的小伙伴去看看其他的博文&#xff0…

最强Zero-Shot视觉应用:Grounding DINO+Segment Anything+Stable Diffusion

借着Meta发布的Segment Anything视觉大模型,跟朋友们做了一个最强Zero-Shot视觉应用:最强的Zero-Shot检测器,最强的Zero-Shot分割器,最强的Zero-Shot生成器,三合一模型简称为Grounded-SAM。 代码地址如下: …

DINO:2022.3_SOTA_COCO_DETR

通过使用一个对比的方式为了去噪训练,一个混合的query选择方法为了anchor初始化,和一个向前看两次的方案为了box预测。 DINO在模型大小和数据大小上表现出良好的可扩展性,用SwinL backbone在Object365大数据集预训练,达到了COCO …

Grounding DINO: Marrying DINO with Grounded Pre-Training forOpen-Set Object Detection

Hello~大家好久不见,一直没时间在这里翻译论文了,最近在学GroundingDINO,强迫症的菜鸡就想先翻译成中文然后再慢慢啃....废话不多说了,因为时间关系,只翻译了关键内容,其他内容有时间再补充啦。 论文&…

Win系统使用DINO训练自己数据集

数据集 在工程主目录下创建一个coco文件夹,并修改main.py文件中的‘--coco_path’。 数据集目录: train2017用来训练,val2017用来验证。 test2017是为了训练得到模型之后,测试模型泛化性能的,有没有都可以。 annota…

DINO代码分析-自监督学习

​ 论文链接:https://arxiv.org/abs/2104.14294 代码链接:github仓库 本文目录 一、官方Readme预训练模型PyTorch Hub 上的预训练模型 训练文档DINO训练:多节点训练提升 DINO 性能:t-rex:ResNet-50 和其他卷积神经网络…

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection翻译

点击下载 代码下载 摘要 我们提出了 DINO(是DETR with Improved deNoising anchOr boxes中的大写字母的缩写),一个目前最好的端到端的目标检测模型。 DINO通过在降噪训练上使用对比方法、锚框初始化的混合查询选择方法、盒子预测的前看两次方法,提高了…

自动驾驶遥控泊车RPA系统功能规范

目 录 1. 版本履历... 4 2. 文档使用范围... 4 3. 术语缩写... 4 4. 系统概述... 5 4.1 系统功能说明... 5 4.2 泊车状态说明... 6 5. 产品基本参数... 6 5.1控制器基本参数... 6 5.2全景摄像头基本参数... 7 5.3 超声波传感器基本参数... 7 …