大模型 Token 服务

一、平台概述

济南人工智能大模型工场是一站式 AI 服务平台，提供大模型部署、调用与管理能力。当前已接入多款主流大模型与向量嵌入模型，支持通过标准 OpenAI 兼容接口进行调用。

二、支持模型列表

1. 语言模型（LLM）


模型 ID	模型名称	上下文长度	语言	能力	模型描述
qwen3-32B	Qwen3-32B	40k	en/zh	对话、推理、混合专家、工具调用	Qwen3 是通义千问系列最新一代大语言模型，提供密集型与混合专家（MoE）模型组合，在推理、指令遵循、智能体能力与多语言支持上实现突破性进展。
qwen3-14B	Qwen3-14B	40k	en/zh	对话、推理、混合专家、工具调用	同 Qwen3-32B，为 14B 参数版本，资源占用更低，适合轻量化部署场景。
deepseek-r1-distill-qwen	DeepSeek-R1-Distill-Qwen	128k	en/zh	对话	由 DeepSeek-R1 蒸馏而来，基于 Qwen 架构，高效支持长上下文对话。
deepseek-r1-distill-llama	DeepSeek-R1-Distill-Llama	128k	en/zh	对话	由 DeepSeek-R1 蒸馏而来，基于 Llama 架构，高效支持长上下文对话。
deepseek-r1-0528-qwen3	DeepSeek-R1-0528-Qwen3	128k	en/zh	对话	DeepSeek-R1 minor 版本升级，当前版本为 0528，在推理与对话能力上显著优化。
DeepSeek-V3.1	DeepSeek-V3.1	128k	en/zh	对话	混合模式模型，同时支持思考模式与非思考模式，兼顾推理效率与响应速度。
DeepSeek-V3.2	DeepSeek-V3.2	160k	en/zh	对话、推理、智能体	平衡高计算效率与卓越推理能力，适合复杂任务与长上下文场景。
glm-4.7(后续支持)	GLM-4.7	128k	en/zh	对话、代码	进一步增强 Interleaved Thinking，引入 Preserved Thinking 与 Turn-level 思考能力，是优秀的代码伙伴。
Qwen3-VL-Instruct(后续支持)	Qwen3-VL-Instruct	256k	en/zh	多模态对话	Qwen3 系列当前最强视觉 - 语言模型，支持图文理解与生成。

2. 嵌入模型（Embedding）


模型 ID	模型名称	维度	最大 Token 数	语言	描述
bge-m3	BGE-M3	1024	8192	zh/en	强大的多语言向量嵌入模型，支持长文本编码，广泛应用于检索、聚类、语义匹配等场景。

三、API 调用说明

1. 基础信息

服务地址：https://www.sdagi.cn:7998

认证方式：Bearer Token（需在大模型工场平台获取 API Key）

接口规范：兼容 OpenAI Chat Completions API

2. 文本对话接口（Chat Completions）

接口：POST /v1/chat/completions

请求头

Content-Type: application/json
Authorization: Bearer sk-你的API密钥

请求参数：


名称	类型	必填	说明
model	string	是	模型 ID，如 qwen3-32B
messages	array	是	对话消息列表，格式见下文
max_tokens	int	否	最大生成 Token 数量
temperature	float	否	采样温度，0～2 之间，值越小输出越确定
top_p	float	否	核采样概率，0～1 之间，与 temperature 二选一修改
stream	bool	否	是否流式输出，默认 false
frequency_penalty	float	否	频率惩罚，-2.0～2.0，降低重复内容
presence_penalty	float	否	存在惩罚，-2.0～2.0，鼓励新主题
stop	array	否	停止词列表，最多 16 个
response_format	object	否	指定输出格式，如

messages 消息格式：


名称	类型	必填	说明
role	string	是	角色：system/user/assistant/tool
content	string	是（user/system）	消息内容

Curl 示例（非流式）

curl -X POST https://www.sdagi.cn:7998/v1/chat/completions
-H "Content-Type: application/json"
-H "Authorization: Bearer sk-你的API密钥"
-d '{
"model": "qwen3-32B",
"messages": [{"role": "user", "content": "你好"}]
}'

请求图示（非流式）

响应示例

{
"id": "chat4520ab40-2681-11f1-bcaf-7ef32d834c72",
"object": "chat.completion",
"created": 1774247208,
"model": "qwen3-32B",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "你好！很高兴见到你 😊 今天过得怎么样呀？..."
}，
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 13,
"completion_tokens": 47,
"total_tokens": 60
}
}

响应图示（非流式）

Curl 示例（流式）

将 stream设为 true，响应将以 SSE 形式逐段返回：
curl -X POST https://www.sdagi.cn:7998/v1/chat/completions
-H "Content-Type: application/json"
-H "Authorization: Bearer sk-你的API密钥"
-d '{
"model": "qwen3-32B",
"messages": [{"role": "user", "content": "10个字介绍济南"}],
"stream": true
}'

请求图示（流式）

流式响应片段示例

data: {"id":"...","object":"chat.completion.chunk","created":...,"model":"qwen3-32B","choices":[{"index":0,"delta":{"content":"泉城"},"finish_reason":null}]}
data: {"id":"...","object":"chat.completion.chunk","created":...,"model":"qwen3-32B","choices":[{"index":0,"delta":{"content":"风光秀丽"},"finish_reason":null}]}
data: [DONE]

响应图示（流式）

大模型 Token 服务 ​

一、平台概述 ​

二、支持模型列表 ​

1. 语言模型（LLM） ​

2. 嵌入模型（Embedding） ​

三、API 调用说明 ​

1. 基础信息 ​

2. 文本对话接口（Chat Completions） ​

请求头 ​

请求参数： ​

messages 消息格式： ​

Curl 示例（非流式） ​

响应示例 ​

Curl 示例（流式） ​

流式响应片段示例 ​