在人工智能(AI)的世界里,开源已经成为一种趋势,而Stability AI无疑是这一趋势的先锋。Stability AI由有远见的Emad Mostaque创立,它不仅推动了AI的开源化,更使得现代AI技术对每个人都可用。其理念与开源的哲学相呼应,相信开源为创造和获取开创性的研究铺平了道路。
Stable Diffusion,作为Stability AI的代表作,是一款开源的生成式绘画工具。这款工具的出现,极大地推动了AI生成式绘画的发展,使得创作者可以更加便捷地创作出高质量的图像。Stable Diffusion的开源性质,使得它在相对简单的硬件上也能运行,吸引了大量用户的使用,目前已经拥有超过4000万的用户,数量还在不断增加。
Stable Diffusion的成功,离不开Stability AI的线上版本。通过线上版本,Stability AI不仅为自己创造了营收,也吸引了更多的用户。然而,近两年的新闻反映出Stability AI的公司营收偏少,对正常的运营造成了一定的压力。尽管如此,Stability AI依然坚持开源的道路,不断推动AI技术的发展。
Stability AI的理念不仅仅体现在开源上,更体现在其广泛的社区建设上。自成立以来,Stability AI已经建立了一个由超过20万名创作者、开发者和研究者组成的社区,研究中心遍布全球。这个社区不仅为Stability AI的技术发展提供了强大的支持,也为全球的AI研究做出了贡献。
在实际应用方面,Stability AI的工具已经被广泛应用于图像创作、艺术设计、游戏开发等领域。例如,设计师可以使用Stable Diffusion来快速生成多样化的设计方案,艺术家可以使用它来创作出独特的艺术作品,游戏开发者可以使用它来丰富游戏场景和角色设计。
展望未来,随着人工智能技术的不断发展,开源将成为推动其进步的重要力量。Stability AI作为开源先锋,将继续引领人工智能技术的发展,为全球的AI研究和实践做出贡献。同时,随着其社区的不断扩大和技术的不断进步,Stability AI的未来也充满了无限可能。
总的来说,Stability AI以其开源的生成式AI工具,推动了人工智能技术的发展,为图像创作带来了无限可能。其坚持开源、广泛建立社区的理念,不仅为其自身的发展提供了强大的支持,也为全球的AI研究和实践做出了贡献。
Stability AI 如何诞生的?
Stability AI 的创立理念,是基于一家名为 Open AI 的公司。
追溯到 10 年前,AI 热度逐渐火热之时,相关的技术研究却受制于有限的算力和资金,对于 AI 这种新型技术感兴趣的研究人员只能望而却步。
而 Open AI 的出现为 AI 研究人员创造了新的可能,这家公司提供了相对自由的研究环境,又有大量的资金与算力做支撑,可以帮助技术研发部门专心深入 AIGC 领域。
然而好景不长,公司在 2020 年爆发了内部问题,已经无法支撑非盈利项目的后续运营,这也导致了大批核心研究员出走。
为了延续 Open AI 的企业价值理念,Emad Mostaque 站出来了。
曾在多家技术公司担任工程师、分析师以及投资官等职位的 Emad Mostaque 决定凭借自己至少 20 年的投资基金工作经历成立一家和 Open AI 一样非盈利模式的、同时更加开放的机构。
在 2020 年,他创办了 Stability AI,Mostaque 希望其能够延续 Open AI 的理念并发扬光大,将公司使命定为构建开源 AI 项目,并在不久后推出了首个免费的开源产品模型 Stable Diffusion。
Stable Diffusion 是一个根据文字生成图片的 AI 技术模型,只需要几秒钟的时间,就可以生成分辨率、清晰度高,同时不失真实性和艺术性的图片。
该技术模型项目的开发者来自于 AI 视频剪辑公司 Runway 的 Patrick Esser 和就职于慕尼黑大学机器视觉部门的 Robin Romabach。
他们从 DALL-E2、Imagen 等开源模型项目中总结了经验作为项目参考,同时在 Stable Diffusion 推出时就得到了 Stability AI 技术团队和外部开发社区的支持。
近几年,AI 技术和科研的过程往往都是高度封闭的。
而 Stability AI 的团队平衡了算力、资金和公众的关系,选择将其代码和模型设计为开源,用户可以在 Stable Diffusion 代码的基础上构建与设计、增强现实、视频游戏、广告甚至电子商务相关的应用程序,由此成功解决了 AI 技术封闭的问题。
除此之外,Stability AI 甚至为不懂代码的用户提供了无代码的网站供其使用。
凭借着稀缺的开源特征和用户友好的使用体验,项目一经公测就受到大批研究者和用户的欢迎,Stability AI 早早积累下了相当规模的用户群体。
同时,凭借积累的人脉,Stability AI 在包括学术和工业界的整个 AI 研究和应用领域都受到了广泛的关注和肯定。Stability AI 赋予尖端的 AI 模型普适的特点,更多用户都能够享受和利用这项技术。
最初,Stability AI 以 1 亿美元估值完成 1000 万美元融资。近日,Stability AI 宣布获得来自 Coatue 和光速的 1.01 亿美元投资,且估值将达 10 亿美元。
Stability AI 表示,公司计划利用这笔融资持续投入研发,并将公司规模从 100 人扩张到 300 人。除了 Stable Diffusion,公司正在研发用于生成语言、音频、视频和 3D 的 AI 生成模型,为未来的内容创作提供更多开源模型。
那么,Stable Diffusion 和其他 AI 开发模型相比有何特别?Stability AI 又是如何在竞争激烈的 AI 市场中崭露头角的?
Stability AI 如何崭露头角?
此前,Open AI 在今年发布的图像生成器 DALL-E2 已经拥有超过 150 万用户,每天创建超过 200 万张图像;另一款 AI 生成器 Midjourney 在其官方的 Discord 上拥有超过 300 万用户。
风险投资公司红杉资本表示,AI 内容生产能够创造数万亿美元的经济价值。种种迹象表明,AIGC 已经成为了未来发展的重要趋势之一。
今年 8 月,Stability AI 发布开源模型 Stable Diffusion,这是一个类似于 DALL-E2 的系统,可以通过文本描述生成对应的图像,而与 DALL-E2、Open AI 等老牌企业不同的是,它允许任何人在没有监督的情况下使用和构建其模型。
Stable Diffusion 开源的底层代码能使得开发者绕开数据方面的限制,实现在其他平台难以实现的功能。
这意味着任何人都可以查看代码并运行修改后的版本,甚至是可以使用该软件为自己的商业产品提供动力。
此外,在其他平台上被禁止的名人画像和敏感图像,在 Stable Diffusion 平台上也可以被使用。自 8 月份发布代码以来,已有超过 20 万人下载了该代码,并使用基于 Stable Diffusion 算法构建的工具创建了数百万张图像。
然而,2022 年 8 月 20 日,Stability AI 关闭了他们的免费 Discord 图像生成器,并发布了 DreamStudio 应用程序。
这是由 Stable Diffusion 提供支持的新 AI 系统,可以根据自然语言的描述创建逼真的图像、艺术和动画。
DreamStudio 旨在通过自然语言处理和革命性的输入控制的结合,赋予每个人无限想象力和轻松的视觉表达,以加快创造力。
这款面向消费者的产品,目前注册用户已经超过 100 万,这些用户来自全球 50 多个国家,共同创建了超过 1.7 亿张图像。尽管 Stable Diffusion 模型已经开源,但是 DreamStudio 作为一项服务,用户必须为生成的图像付费。
每个新用户都会获得 200 个免费 DreamStudio 积分的一次性奖励,在默认设置下,每张图片将向用户收取一个信用额度。
DreamStudio 会根据用户选择的图像分辨率和步数(大小、配置比例、种子、步数和图像数)来收取积分。一旦免费的积分用完,用户将需要自行购买积分。
Stability AI 希望能将权利重新交还给开发者社区,为开创性的应用打开了大门。
Stability AI 的创始人兼首席执行官 Emad Mostaque 表示,「将 AIGC 交到数十亿人手中将带来新机遇的爆炸式增长。」
Stability AI 能成为 AIGC 龙头吗?
AIGC 正成为继 PGC(专业生产内容)、UGC(用户生产内容)之后的新型内容创作方式。只需要输入简单的文字描述,AI 便能够在几秒钟内自动生成一幅真实的画作,AI 技术的发展使得人们的想象逐步成为了现实。
2022 年 8 月,在美国科罗拉多州博览会艺术比赛的数字类别中,一幅 AIGC 绘画作品《太空歌剧院》获得头奖,同时该画作很快陷入了质疑。
利用 AI 所创作出的作品能否被认定为艺术品受到了不少人类艺术家们的争论,但是资本与机构的加速入场已经透露出 AIGC 已然成为了新的风向。
上文我们提到,Stability AI 已完成 1.01 亿美元投资,估值高达 10 亿美元;而此前,AIGC 初创公司 Jasper 宣布其以 15 亿美元的估值获得 1.25 亿美元 A 轮融资。
除了 Stability AI、Jasper 这些新晋独角兽,科技巨头也正积极为加入 AIGC 赛道做准备。
9 月,Meta 宣布将推出 Make-A-Video;10 月,谷歌推出 Imagen Video 和 Phenaki,只需要几行文字或是几句话,就可以将想象力带入现实,打造出独一无二的视频。
AIGC 的出现可以说是 AI 算法的一次重大突破,这意味着人类能够利用 AI 技术持续辅助人类进行内容生产,正如 AIGC 画作《太空歌剧院》一样,这幅作品不完全是 AI 创作,也并非作者独立完成。
今年 9 月,红杉资本联合 GPT-3 发表了一篇名为《生成式 AI:一个创造性的新世界》的文章,其中写道,「人们的梦想:生成式 AI 将创造和知识工作的编辑成本降至零,生产巨大的劳动生产率和经济价值,以及相应的市值。」
这也意味着,人人都能成为创作者将成为现实,AIGC 内容平台将迎来爆发式增长。
从 AI 作画到 AI 视频,我们的内容生产创作方式正在发生改变,AI 技术正在创意产业中发挥着越来越大的作用。
得益于相关技术的发展与迭代,使得 AI 可以快速、灵活地生成不同模态的数据内容,而 Stable Diffusion 的正式开源无疑是拉开了 AIGC 时代的帷幕,为更广泛的用户提供了重新定义想象力的机会。
Stability AI 与其他大型 AI 公司的「家长式作风」不同,Emad Mostaque 通过开源做到了将技术民主化,为那些真正有才华的开发者提供最大的自由度,同时,Stability AI 还与各国政府和机构开展合作,以便建立更加开放的社区。
Stability AI 正在催化其生态系统的发展,然而所有的平台都将向商业化的道路探索,因此能否建立一个良好的商业模式可能将是 Stability AI 成为龙头的关键,让我们拭目以待。
为什么说 AIGC 对元宇宙很重要?
全球知名咨询机构 Gartner 在《2021 年预测:人工智能对人类和社会的影响》 中指出,到 2023 年将有 20% 的内容被生成式 AI 所创建。
同时,Gartner 还预计到 2021 年生成式 AI 产生的数据将占所有数据的 10%,而当下这一比例还不到 1%,而 Gartner 所指的生成式 AI 正是我们现在所熟悉的 AIGC。
根据目前的内容生产来看,其实图文和音视频的创作门槛已经因为一些社交媒体的出现而变得简单起来,这也是内容生产力得到解放的重要原因,并由此带来了过去 5 年短视频的爆发增长。
但另一方面,我们知道,现在一些流行的内容创造方式已经开始从 2D 转变为 3D 图像,这在创作上为不少内容从业者带来了门槛。
因此,AIGC 的出现可以极大降低这个门槛,并为元宇宙的出现埋下伏笔。
诸如我们熟悉的虚拟人,如果仅仅是依赖人力来创作内容,包括虚拟人的人物创造、环境构造或者虚拟现实的增强都会极大耗费内容创作者精力,因此才出现了像 EPIC 公司开发的虚幻引擎,来减少虚拟场景的构建时间,但虚幻引擎依然不够友好,毕竟它不是普通人能够涉猎的内容创作方式。
因此,在虚幻引擎的基础上,我们看到了 AIGC 的诞生,仅仅通过文字描述就能构建我们想要的音频、视频或者画面,这就好比以前耕作需要人力和畜力,但现在我们有了各种播种收割机,必然带来生产力的飞速提升。
我们依然处于 AIGC 行业发展的早期,甚至我们可以将 2022 年定义为「AIGC 元年」。
而在元宇宙出现之前,AIGC 的应用场景其实并没有那么丰富,毕竟大家对当下内容的需求已经足够。
可随着元宇宙的发展和普及,我们发现,内容的构建成本被再次拉升,于是像 AIGC 这样可以便捷构建内容的方式被关注起来,也由此拉开了新的局面。
可以说,元宇宙和 AIGC 就像需求和生产力变革的关系,当需求改变时,新的生产方式必然会被得到认可。
当下 AIGC 的内容生成来说依然存在不少问题,比如内容创作没有边界,存在涉黄涉暴的情况,这也是人工智能与监管者需要寻找的契合点;以及部分 AIGC 的创作结果存在理解误区,导致出现「苹果长在水里」这样的神奇画面,尽管有趣,但并不符合现实意义,而这也是人工智能需要成长的地方。
不过上述提到的关于 AIGC 的问题可能并不会妨碍其发展,问题只在于这些「问题」何时被解决,如此,人们对 AIGC 的关注和使用可能会进一步得到提升。
当然,对于广大内容创作者来说,AIGC 既是行业「神器」,也会是行业「利器」,掌握者可能在内容创作中再上台阶,错失者可能被人工智能所抛弃。
AIGC 的突然爆红,会让我们感慨似乎站在了一个全新的时代开端上,但某种意义上其实我们也并不知道时代究竟何时到来。