新智元报道
最近AIGC有多火不用多说了,只需一张朴实无华的自拍,就可以让你变身肌肉型男,拥有一个自己二次元的完美角色。
自2022年8月首次公开发布以来,Stable Diffusion依靠其支持本地化运行的特性以及强悍的性能从一众软件中脱颖而出,得到了苹果的青睐。
而就在上周三,苹果在官博发文表示,他们已在Github上发布了针对 macOS 13.1 和 iOS 16.2 平台的Stable Diffusion的Core ML优化。
此次更新可允许Stable Diffusion AI图像生成器使用Apple专有的Core ML模型在Apple Silicon上运行。
这些优化将使应用程序开发人员能够使用Apple Neural Engine硬件运行Stable Diffusion,速度是之前基于Mac的两倍左右。
Stable Diffusion (SD) 于今年8月推出,是一款开源AI图像合成模型。通过发布新的SD优化版本,苹果希望释放其设备上图像合成的全部潜力。
上一张图看看SD优化版的图像有多炸。
以「宇航员在宇宙中骑着龙/马的高质量图片」为关键词输入,下面为Stable Diffusion的多个模型和版本中图片生成的效果图。
随着 Stable Diffusion 的应用程序越来越多,确保开发人员能够有效地利用这项技术对于创建各地的创意人员都能够使用的应用程序非常重要。
苹果还表示隐私和避免云计算成本是在Mac或Apple设备上运行AI生成模型的优势。
在本地设备上部署 Stable Diffusion 比基于服务器的方法更可取的原因有很多。首先就是最终用户的隐私将受到保护;
其次,初始下载后,用户无需互联网连接即可使用该模型;最后,本地部署此模型使开发人员能够减少或消除与服务器相关的成本。
相比之下,在 Apple Silicon Mac 上运行 Stable Diffusion 的传统方法要慢得多,在M1 Mac Mini测试中使用 Diffusion Bee 以50步生成 512×512 图像大约需要69.8秒。
根据 Apple 在GitHub上的基准测试,而生成相同的512×512图像Apple新的Core ML SD优化版只需35秒。
此外,M2芯片可在23秒内完成任务,而Apple最强大的硅芯片M1 Ultra仅需9秒即可完成相同的结果。
这是一个巨大的改进,在搭载M1芯片的情况下,生成时间几乎减少了一半。
Apple 的 GitHub 版本是一个 Python 包,可将 Stable Diffusion 模型从 PyTorch 转换为 Core ML,并包含一个用于模型部署的Swift包,这些优化适用于Stable Diffusion 1.4、1.5 和新发布的 2.0。
Github链接:https://github.com/apple/ml-stable-diffusion
目前,在 Mac 上本地使用 Core ML 设置 Stable Diffusion 的体验主要针对开发者,需要基本的指令技能。
同时Hugging Face也发布了一个通用指南来为那些想要设置Apple Core ML优化版的用户体验。
项目链接:https://huggingface.co/blog/diffusers-coreml
除了根据文本提示生成图像外,开发人员还发现了 Stable Diffusion 的其他个性化用途,例如图像编辑、修复、风格转换甚至调色板生成。
图为Hugging Face开发的DreamBooth,对Stable Diffusion的个性化处理
随着 Stable Diffusion 的应用程序越来越多,确保开发人员能够有效地利用这项技术非常重要。
CoreML是苹果发布的机器学习框架 ,用户可以将机器学习算法应用于一组训练数据来创建模型。
在创建模型之后,将其整合到你的应用程序中,并将其部署到用户的设备上。你的应用程序使用Core ML APIs和用户数据来进行预测,并训练或微调模型。
CoreML流程图,左边是一个Core ML模型文件图标,中间是Core ML框架图标,右边是一个通用的应用程序图标,标为「你的应用」。
用户可以用Xcode捆绑的Create ML应用程序建立和训练模型,并在自己的应用程序中使用。
或者,可以使用各种其他机器学习库,再用Core ML工具将模型转换为Core ML格式。一旦模型出现在用户的设备上,就可以使用Core ML在设备上用该用户的数据重新训练或微调。
Core ML通过利用CPU、GPU和神经引擎优化设备上的性能,最大限度地减少内存占用和功耗。模型严格在用户的设备上运行模型,不需要任何网络连接,保持用户数据的私密性和应用的响应速度。
苹果称,Core ML是特定领域框架和功能的基础。它支持用于分析图像的视觉,用于处理文本的自然语言,用于将音频转换为文本的语音,以及用于识别音频中声音的声音分析。
Core ML本身建立在加速器和BNNS等低级基元以及金属性能着色器之上。
按照官网介绍,苹果机器学习栈架构如上图所示。
顶层是「你的应用」单一模块,横跨整个框图的宽度。第二层有四个块,分别标记为 「视觉」、「自然语言」、「语音」和 「声音分析」。第三层为 Core ML。第四层也是最后一层有两个块,「加速和BNNS」 和 「金属性能着色器」。
此次,苹果Core ML提供对「AI大画家」Stable Diffusion的深度支持,果粉们在手机上就可以一展身手了。
https://github.com/apple/ml-stable-diffusion
文章转发自新智元微信公众号,版权归其所有。文章内容不代表本站立场和任何投资暗示。
Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM