假如有这么一个需求:
-
让AI生成一张小女孩读书的图片;
-
用语音来描述这张图片;
-
读书小女孩的姿势和下图一样。
经过几分钟之后,AI真的生成了一张图:
同时还生成了一段语音,语音内容是:“一个女孩坐在床上看书”。
卧槽,这是怎么做到的?
这就是开源项目Jarvis的本事。
Jarvis是微软和浙大共同搞的,它的名字来自电影里钢铁侠的那个高级AI管家。
它可以通过LLM连接、控制各种AI模型,来一起解决复杂的AI任务。
咱们通俗的解释一下Jarvis:
如果把Jarvis比喻成一个团队,团队里除了有ChatGPT,还有很多其他模型,比如文本转图像的模型、文本转语音的模型、图像读取、姿势识别的……
接到任务之后,ChatGPT负责指挥大家一起干活。
我们通过上面那个需求,来看看Jarvis是如何干活的。
第一步:任务规划——ChatGPT先搞清楚需求,并拆分成一个一个的任务:识别男孩骨骼姿势、把姿势生成图片……生成图片描述、把描述文本变成声音。
第二步:模型选择——任务拆分之后,ChatGPT去Hugging Face上找模型,为每个任务选择一个最合适的AI模型来完成任务。
第三步:任务执行——模型选好之后,那就撸袖子干吧,干完之后再把结果给到ChatGPT。
第四部:响应生成——最后一步,在所有任务都干完之后,ChatGPT把所有结果整理一下,整成最终成品。
这四步的图如下:
!
看到这儿,我明白了……原来ChatGPT是领导啊,和我们团队的领导干的活儿一样:
从老板那接需求、任务分解、任务分配到人、让人干活、干完给老板交付。
下面我替大家体验了一把。
首先打开体验网址(https://huggingface.co/spaces/microsoft/HuggingGPT)。
体验之前需要先输入你的OpenAI API Key和Hugging Face Token。
-
OpenAI API Key,可以打开这个地址(https://platform.openai.com/account/api-keys),登录你的OpenAI账号之后搞定。
-
Hugging Face Token,需要先注册Hugging Face,然后打开这个地址(https://huggingface.co/settings/tokens)创建一个token。
把OpenAI API Key和Hugging Face Token粘贴并提交之后,就可以体验了。
我先让它生成一个程序员的笑话和图片
它给了我一个笑话:Why did the programmer hate nature? Because it has so many bugs!
同时还有一个图片,不过这个图片打不开,貌似地址有问题。
最后它说用到了两个模型:ChatGPT和Stable diffusion(文本生成图片)。
除了没看到图片,其他的还行。
接下来我试了一个官方自带的例子:根据一张图(下面扣篮的图)的姿势,和另一张图(下面小男孩的图)的内容,生成一张新图。
为了干这活,它用了三个模型:
1、根据扣篮的图,用openpose-control model生成了一张图。
2、根据小男孩的图,用ydshieh/vit-gpt2-coco-en模型生成了一段文字:a young boy is riding a bike with a basket(明显这句话有点不太对劲)。
3、根据前两步的图和文字,生成了一张新图。
因为那句话的问题,导致生成的这个图
离谱他妈给离谱开门,离谱到家了。
后面我还体验了几个任务,结果有好有坏。
虽然还不完善,但是Jarvis的推出和开源,它将ChatGPT和其他开源模型的力量整合在一起,对解决复杂AI问题提供了一个参考。
最后,附上Jarvis的地址
github:https://github.com/microsoft/JARVIS
体验:https://huggingface.co/spaces/microsoft/HuggingGPT
我建了一个免费ChatGPT学习群,在群里就可以免费使用ChatGPT,入群扫码: