让 flash 级模型逼近 pro 级表现、让 GLM-5.2 逼近世界顶级模型 —— 只在关键决策那步聚合多模型择优,综合成本仅约 1.3×。
每一轮请求,主模型先跑一次,再由一个极廉价的判别器决定本轮要不要聚合增强。
用你选的主模型先完整执行一次本轮。
廉价判别器判断本轮是否含写改操作,千次成本约 1 元。
只读步骤原样返回,价格与直接用原模型一致。
要落地改动时,多角色并行 + 聚合择优,关键决策更准。
任何 OpenAI 兼容客户端,只需换 base_url 和 Key,立即可用。
# cURL curl https://open.circow.cn/v1/chat/completions \ -H "Authorization: Bearer sk-你的Key" \ -H "Content-Type: application/json" \ -d '{"model":"sesame-deepseek-v4-flash", "messages":[{"role":"user","content":"你好"}]}'
# Python (openai SDK) from openai import OpenAI client = OpenAI( base_url="https://open.circow.cn/v1", api_key="sk-你的Key", ) resp = client.chat.completions.create( model="sesame-deepseek-v4-flash", messages=[{"role":"user","content":"你好"}], )
填入你自己的上游 Key,主答 + 各角色 + 聚合都走你的 Key,芝麻只收每轮判别费 —— 1 元约 1000 次判别。
已支持:…(更多模型持续接入;判别器固定用最廉价的 flash 非思考模式)。