Midjourney 创始人 Holz：人工智能应该是思想的延伸_IT科技

在近期的 WAIC 2023 产业发展论坛上，Midjourney 的创始人兼首席执行官 David Holz 以视频的方式发表演讲。David Holz 在演讲中表达了自己对于中国的喜爱，并透露 Midjourney 的名字就出自道家的《庄子》。Holz 还在演讲中透露了 Midjourney 下个版本的功能，以及他本人对于人工智能产品的开发。

Midjourney 创始人 Holz：人工智能应该是思想的延伸

以下为 David Holz 演讲实录：我是 Midjourney 的创始人兼首席执行官 David Holz。感谢陈先生和上海市政府今天的邀请。我很荣幸参与此次 WAIC，我期待有一天能亲自到场参与。

Q：请问 Midjourney 为 AI 行业做出了怎样的贡献，对艺术家、设计师和媒体制作人意味着什么？A：我认为世界上最重要的技术之一是引擎。引擎是产生、传递和放大行动的机器。我们用引擎来建各种车辆、飞机和船只。重要的是，要把人工智能看作是一种新的引擎。在 Midjourney，我们正试图用这种引擎来建造一种新的车辆，不是一种实体的交通工具，而是我们思想和想象力的交通工具，就像你用汽车在世界中行动一样。我希望我们可以创造一种交通工具，不是用来移动，而是想象。我认为在我们创造之前，首先必须想象，我们能成为什么？我们能去哪里？想想我们的一切可能。我认为正在制造的工具比任何东西都更注重放大想象力的原始力量。我认为从广义上讲，这是一个机会，整个人类可以有效的想想。

Q：您提到在 Leap Motion 构建硬件时曾访问过中国，您能告诉我们跟读欧冠与您与中国和上海的联系吗？A：我过去曾多次带着 Leap Motion 访问中国。 Leap Motion 的第一个国际办公室在上海，我很喜欢上海的环境和风格，感觉古典与现代共存，像是各种城市。比如旧金山、纽约、欧洲一些古老城市和中国风格在一个地方可以同时享受。它有那种古老历史的力量，有一种现实和未来的兴奋，那真的是非常，非常的酷。我最喜欢读的两本书是科幻小说和中国古代文学。我认为中国古代文学有一些最美丽、对人类历史有深度的思考。 Midjourney 这个名字实际上来自我最喜欢的一个道家书籍一个译本，它来自《庄子》。我喜欢这个名字。我之所以喜欢 " 中道 " 翻译的这个词，是因为我觉得有时候很容易忘记过去。很容易产生这样的感觉，对未来感到迷失和不确定。但更多的是，我觉得我们实际上是在旅途中，我们来自这个丰富和美丽的过去。而在我们面前的是这个疯狂和不可想象的宝贵未来。

Q：恭喜 Midjourney 推出了 V5.2！您能告诉我们更多关于 MidJourney 的最新功能以及未来版本的计划吗？A：因此，我们最近发布了 5.2 版本的 Midjourney，在主要版本发布之前开发 5.3. 我希望称之为第六版。我们引入的最新功能是扩图，并能通过文本提示进行生成。所以当你放大时，你可以围绕中心主题创造不同的故事。本周我们发布了一个类似的功能，也就是 PAN，他允许用户平移镜头。然后当你横向移动相机时可以不断改变提示，然后讲故事。我们还发布了 /weird 这个智灵功能，这是一种结合起来，能对图像进行更多控制的方法。你可以把它和 /style 功能结合起来。名字有点混乱，但想法是你要能够告诉人工智能做出多么漂亮的东西，以及你愿意冒多少风险，使这种美变得不传统、混乱的，怪异一点的。这让人们可以控制风险性和随机性之间的平衡，也可以控制对图像的传统美感的关注程度。我们还引入了我们称之为涡轮模式的东西。涡轮模式是指我们尽可能多地使用 GPU，使图像生成变得非常快。我想他快乐 4 或 5 倍。我想你实际上是在同时使用 64 个 A100 显卡，这相当于超过一般的 100 我哪美元的计算机。这有点疯狂，但我们还在研究更疯狂的技术。虽然一些功能实现还需要很长时间，但我们认为随着时间推移，Midget 将发展到不仅创造 2D 图像，还可以创造 3D 图像、移动图像以及和像素直接交互。所有的一切都在不断的流动和改变，完全根据画面风格试试相应。也许在未来，人们可以有一个巨大的人工智能处理器，所有这些不同的世界和梦境与我们的思想互动。

Q：由于生成模型和扩散模型的出现，人工智能的能力似乎有了显著的飞跃。您如何评价迄今为止这些领域的进展？其他人工智能领域呢？

A：关于 Diffusion 模型、transformer 模型和 GLIP 模型的发现发现让我真正进入了图像空间。那是大约 2 年前，在任何服务出来之前，我们只是在旧金山讨论。我记得所有的研究人员都说，当时我觉得觉得这些，特别是 Diffusion 模型在出现时让我感到非常不同，尤其是与过去最先进的 GAN 模型相比，那是以前大家用来生成图像的东西。我只记得每个人都以一种不寻常的方式立即点头，说 Diffusion 模型真的很不一样。这感觉的真的很真切，感觉像是我必须参与的事情，并试图带来一个更人性化的用户界面。但就未来而言，很难确切地知道技术是什么样子的。有时我们现在谈论语言模型将如何向 Diffusion 模型发展，也就是说，也许我们会使用 Diffusion 模型来制作文本。或者图像模型会变得更像语言模型。或者蔚来可能会变成混合模型。这真的很难说。我认为我们在这个领域仅仅只是开始，但我百分之一百确定有很多进展要去的。 10 倍甚至 100 倍的进展是很有可能的。在这个层面上的进步不仅仅是在原始性能上，而是在用户界面和产品上，这些产品允许我们使用这些原始技术，无论单独使用还是共同使用，制造真正的酷的东西，它们可以变得更好并解决问题。

Q：我们如何以更人性化的方式使用人工智能？Midjoyrney 对此有何看法？A：Douglas Engelbart 实际上是第一个创造文本编辑器的人。那个时候用的是打孔卡，在卡上打孔来给计算机编程。但后来 Douglas 想了想说，如果我们用计算机编程会怎么样？这在当时听起来很疯狂。这个想法是，通过在计算机上编程，可以加速循环，使我们更有效的操作，使计算机变得更好并放大一切。那个想法成功了，虽然我们有这些不同的文化，如人工智能，还有 hci（人机界面），智能应用文化，但我认为到目前为止，技术上的大部分进步都来自于努力让人变得更有效，并增强人们的能力。其实我们还没有真正看到所谓的 AGI 时代真正到来。比如一些独立的 AI 自己独立的操作，无需用户交互。去解决一些问题，我认为如果我们在这方面想的太多，我们可能错过技术领域的很多机会。我想了很多，不仅仅是人工智能能做什么，而是如何在不同的事物之间创造流动和羁绊，因为一个工具不应该感觉像一个人。它应该感觉是你自己、你的身体，你的思想的延伸。我想了很多关于如何建立这些技术，这种交织感觉应该不是你在和艺术家一起工作，而是你几乎只是在想象一些东西，然后它就出现在屏幕上。很多人这样描述了 Midjounery 给他们的感觉，感觉这几乎是他们思想的一部分。我认为这就是很多人工智能应该是这样的，他应该感觉像是我们的延伸。所以我想再次感谢陈先生和所有的观众，很高兴参加这次活动，希望下次能到现场参加。。我期待能与中国有更多的合作，我记得我在中国的所有美好经历，希望大家也喜欢与中国的互动。谢谢。

Midjourney 创始人 Holz：人工智能应该是思想的延伸

相关推荐