去除器

还在用ps抠图抠瞎眼机器学习通用背景去除

发布时间:2023/1/10 16:11:46   
南昌治疗白癜风医院 http://m.39.net/pf/a_10119765.html

大数据文摘作品

作者:GidiShperber

编译:糖竹子,康璐,赖小娟,Aileen

这篇文章图描述了我们在greenScreen.AI的研究工作。欢迎大家留言评论!

介绍

在过去几年机器学习潮流下,我一直想要搭建实用的机器学习产品。

几个月前,在Fast.AI上学习了很棒的深度学习课程后,这一想法更清楚了,我的机会来了:深度学习技术的进步让许多以前不可能完成的事变得可能,而且新工具被开发出来,让部署过程变得前所未有的简单。

在刚才提到的课程中,我认识了AlonBurg,一位资深网络开发者,为了搭建实体产品这一共同目标我们成为了搭档。我们一起为自己设定了以下目标:

1.增进我们的深度学习技巧2.增进我们人工智能产品的部署技巧3.打造满足市场需求的有用产品4.产品要做的有趣(让自己觉得有趣,也要让用户用的有趣)5.分享我们的经验

基于上面的考虑,我们有以下的想法:

1.产品是还未被完成过的事(或者未被正确完成的事)2.产品不会过于困难计划和完成-我们计划时长是2-3个月的时间,每周花一个工作日时间3.产品要有一个简单美观的用户界面-我们希望做一款人们可以使用的产品而不仅仅是为了论证科学道理4.产品的训练数据要容易获取-正如任何一名机器学习专业者了解的,有时候数据比算法更重要5.将使用前沿的深度学习技巧(这些技巧目前还未被Google,Amazon和其他云平台商品化),但又不会过于崭新(这样我们能够在网上找到类似的案例)6.产品有形成生产品的潜力

我们最初的想法是做一些与医疗有关的项目,因为这一领域非常接近我们的理念,并且我们认为(且一直认为)深度学习在医疗领域仍有累累硕果唾手可得。然而,我们意识到将在数据收集和法律法规上遇见问题,这与我们想要保持项目简单的目标相违背。所以我们第二选择是做一款背景去除产品。

背景去除是一项如果你用了某种标记和边缘检测功能,手工或者半手工(使用Photoshop甚至PowerPoint这类工具)就能完成的非常简单的任务,这里有个例子。然而,全自动的背景去除是相当有难度的任务,而且据我们所知,尽管有人尝试,但仍然没有哪个产品能够满足这个要求。

我们要去除的是什么样的背景呢?这个问题变得非常重要,因为模型在物体、角度等问题上越具体,模型的分割质量就会越高。当我们开始时,我们想了一个广泛的目标:一款通用背景去除产品,能够自动识别各种图片类型中的前景和后景。但在训练完第一个模型后,我们意识到把精力放在某一套特定的图片上会更好。因此,我们决定专注于自拍照和人像照。

自拍图片具有凸显和聚焦的前景(一个或多个人),保证物体(脸和上半身)与背景能够很好分离,同时几乎都是一样的角度而且总是同样的物品(人)。

带着这些假设,我们开始了一系列的调查研究、代码实现和大量的训练,来创造鼠标一点就能轻松去除背景的服务。

我们的主要工作是训练模型,但也不能低估正确部署的重要性。好的分割模型仍然不能像分类模型一样简洁(例如SqueezeNet)而且我们积极的检查了服务器和浏览器部署选项。

如果你想阅读更多我们产品部署过程的细节,欢迎从服务端和客户端查看我们的公告。

如果你想阅读模型和训练过程内容,请继续。

语义分割

当思索深度学习和计算机视觉任务有哪些和我们目标相似时,我们很容易发现技术上最优选择是语义分割。

其他如通过深度检测分离的策略也存在,但看起来仍不够成熟以满足我们的目的。

语义分割是众所周知的三大计算机视觉任务之一,其余两个是分类任务和目标检测。从把图片每个像素归为某一类别的意义上说,分割任务实际是分类任务的一种。与图片分类或图片侦测不同,分割模型真正展现了对图片的理解,不仅能够辨别出“图像里有一只猫”还能在像素层面指出这只猫的位置和属性。

那么分割是怎样完成的呢?为了更好的理解,我们必须调查相关领域的早期研究。

最初的想法是采用如VGG和Alexnet的早期分类网络。VGG在年是当时最先进的图片分类模型,由于其简单直接的架构至今仍非常有用。在检查VGG初始网络层时,也许会注意到对需要分类的物品设置了很多激活,而且网络层越深激活更强,然而他们本质上非常粗糙因为只是重复池化。有了这些认识,我们假定分类训练经过微调后也可用于寻找或分割物体。

语义分割的早期结论是随分类算法出现的。在这篇文章中,你会看到使用VGG得到的粗分割结果。

车图分割,淡紫色(29)为校车区域

双线性上采样后:

这些结果仅来自于将全连接层转换(或保留)至他们原有的形状,保留他们的空间特征,得到一个完全卷积网络。在上述例子中,我们为VGG输入一张*的图片,并得到了24*32*的层。24*32是图片池化的形式(步长为32),是网络图像类别的数量,我们将从中得到分割结果。

为了使预测结果更平滑,研究员们使用了简单的双线性上采样层。

在FCN的论文中,研究员们改进了上述想法。为了预测结果更有效,他们依据上采样率把一些层逐渐连接起来,命名为FCN-32,FCN-16和FCN-8.

在层与层之间增加跳跃连接能让预测器从原图得到更好的细节编译。进一步的训练对结果的改进更多。

这一技术本身并没有想象中糟糕,并且证明了深度学习的语义分割确实有改进空间。

图4.以熔断来自不同步幅的层级信息来精炼全卷积网络达到提高分割细节的目的。前三张图片展示我们32、16、和8像素步幅网(见图3)

来自论文的FCN结论:

全卷积网络(FCN)的分割的概念与传统不同,研究员为这此尝试了不同架构。但核心思想依然保持相似:使用已知的架构,上采样,和网络间的跳跃层。这些依然在新模型中常见。

你可以在这些优秀文章中了解到相关领域的前沿内容:



转载请注明:http://www.aideyishus.com/lkzp/2971.html

------分隔线----------------------------