给 Crop-CLIP 一个口令,就能自动搜图,还能帮忙裁剪出图片中的关键部分。
项目地址:https://github.com/vijishmadhavan/Crop-CLIP
在线试用地址:https://huggingface.co/spaces/Vijish/Crop-CLIP
![图片](https://image.jiqizhixin.com/uploads/editor/63b33b1a-f5da-4017-85cc-60177fdcf9e6/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/b1b9cb35-8198-482e-a6c1-e4ef81689e80/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/a4fde530-7c2d-47bb-96f5-067f725a9a8a/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/5405319c-cef0-4550-a2ab-ba2bf4542ce1/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/d97bfa1b-7f0b-486b-92df-07ecfebeffe3/640.png)
检测和裁剪对象 (yolov5s)
使用 CLIP 对裁剪后的图像进行编码
使用 CLIP 编码搜索查询
找到最佳匹配部分
![图片](https://image.jiqizhixin.com/uploads/editor/bf4df220-3c82-4c85-b9f0-e0fe216dcdc4/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/90468885-8ec8-4e98-bbab-bacff43e311f/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/c6741103-b679-4a2d-bd1f-6205aa03aa56/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/9eb7bf51-669a-4e9c-bf05-52fb4849bca7/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/c5a89846-27e2-4326-b3de-aeb60abc7cda/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/a7d98137-b418-4739-9428-a79f08fb4612/640.png)
Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
给 Crop-CLIP 一个口令,就能自动搜图,还能帮忙裁剪出图片中的关键部分。
项目地址:https://github.com/vijishmadhavan/Crop-CLIP
在线试用地址:https://huggingface.co/spaces/Vijish/Crop-CLIP
检测和裁剪对象 (yolov5s)
使用 CLIP 对裁剪后的图像进行编码
使用 CLIP 编码搜索查询
找到最佳匹配部分
现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。
(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。