Skip to content

图像与视觉(多模态)

xopc 支持在对话中接收图片、通过 image 工具图像理解 / 视觉分析,并在配置好模型与 API Key 时使用 image_generate 工具进行文生图


配置(agents.defaults

字段类型作用
imageModelstring{ primary, fallbacks? }image 工具主对话模型不支持视觉时对入站图片做描述的模型链。
imageGenerationModelstring{ primary, fallbacks? }image_generate 使用的文生图模型链(如 openai/gpt-image-1dashscope/wan2.6-t2i)。
mediaMaxMbnumber(可选)image 工具加载单张图片时的体积上限(MB)。

若未填写 imageModel / imageGenerationModel,运行时会根据已配置的 Provider 自动推断合理候选。


行为说明

  • 入站图片 — 当会话主模型支持视觉时,图片以原生图像部件进入模型;否则会先用支持视觉的模型转成文字描述再进入主流程。
  • image 工具 — 使用 imageModel 及其 fallback 做描述或分析。
  • image_generate 工具 — 使用 imageGenerationModel 与已注册的生成提供方。部分提供方支持图生图 / 编辑;具体参数以当前版本的工具 schema 为准。

参数摘要见 内置工具 — 图像


网关 API(需认证)

方法路径说明
GET/api/image/capabilities图像相关配置快照与 Provider / 模型提示。
POST/api/image/validate-model请求体 { "modelRef": "provider/model" },校验格式、密钥与模型解析。
GET / PATCH/api/config读取或更新 imageModelimageGenerationModel 及主备字段。

CLI

xopc image — 子命令如 statusset-understandingset-generationadd-fallbackremove-fallbackprovidersset-max-size 等。xopc models list 可能对生成 / 视觉相关模型标注 [gen] / [vision]


相关文档

基于 MIT 许可证发布