Google Gemini 2.0 Flash 全新开放原生图像生成功能,为开发者带来了多模态输入、增强推理能力和自然语言理解的全新体验。
多模态输入支持
- 支持文字与图片的联合输入(如:上传产品图+输入「将背景换成雪山场景」)
- 实现精准的语义理解(如:输入「把模特衣服换成蓝色丝绸材质」可直接修改图片细节)
怎么使用?
网址:https://aistudio.google.com/
注意:需要科学上网,有些代理区域是用不了的,参考下面可用地区
可用地区:https://ai.google.dev/gemini-api/docs/available-regions?hl=zh-cn
切换大模型 Gemini 2.0 Flash Experimental
然后输入提示词,发送给大模型即可
如果需要编辑图片,可以直接在提示词框中,粘贴图片,给出一段提示词即可
玩法
这里我举几个例子
- 教学插图
- 故事绘本
- 图像调整
- 产品设计
教学插图
提示词:
我是一个厨艺小白,请教我学会做红烧牛肉面,细化每一个步骤,并给出相应的图片
故事绘本
提示词:
为小朋友创作一个故事绘本,需要同时给出图片,需要保证图片的一致性