Appearance
一、什么是人工智能计算? 
人工智能计算(AI Computing)是通过 算法模型 与 大规模数据 训练,使机器具备感知、推理、决策能力的计算范式,核心包含:
- 训练阶段:使用GPU/TPU集群加速模型参数优化
- 推理阶段:部署轻量化模型提供实时预测服务
- 灵犀易算云平台定位:提供从数据管理、分布式训练到模型部署的全栈AI开发环境,支持TensorFlow/PyTorch等主流框架。
二、为什么需要云端AI计算? 
典型应用场景 
| 领域 | 应用案例 | 
|---|---|
| 计算机视觉 | 图像分类、目标检测、医学影像分析、工业质检 | 
| 自然语言处理 | 机器翻译、智能对话、舆情分析、文档摘要 | 
| 推荐系统 | 电商商品推荐、短视频内容匹配、广告CTR预估 | 
| 科学AI | 分子性质预测、蛋白质结构生成、气候模式建模 | 
何时使用云端AI? 
- 本地GPU显存不足(如训练参数量>1亿的模型)
- 需快速进行超参数搜索或大规模数据增强
- 要求弹性扩缩容(如从单卡调试扩展到百卡训练)
三、灵犀易算云平台的AI开发优势 
| 痛点 | 传统本地开发 | 灵犀易算云平台 | 
|---|---|---|
| 环境配置 | 依赖手动安装CUDA/cuDNN | 预置框架容器镜像(PyTorch 2.0+等) | 
| 资源利用 | 固定硬件,空闲时浪费 | 按需申请A100/V100 GPU,按秒计费 | 
| 数据管理 | 本地存储受限 | 提供PB级共享数据集与高速缓存服务 | 
资源选择策略
| 任务类型 | 推荐配置 | 
|---|---|
| 模型调试 | 1×T4 GPU(低成本) | 
| 大模型训练 | 8×A100节点(NVLink拓扑) | 
| 高并发推理 | T4+TensorRT量化 | 
四、 新手快速上手 
步骤1:准备开发环境 
Bash
# 选择预置环境镜像(含PyTorch+CUDA)
yisuan env create --name=ai-lab \
  --image=registry.yisuan/pytorch:2.1-cuda12.1
# 挂载数据集(示例:ImageNet)
yisuan data mount /datasets/imagenet步骤2:提交训练任务 
Bash
# 单卡调试任务
yisuan submit \
  --type=ai_train \
  --gpu-type=a100 \        # 指定GPU型号
  --gpu-count=1 \          # 使用1块GPU
  --framework=pytorch \    # 自动加载环境
  --script="train.py \ 
    --batch-size=64 \ 
    --epochs=50"
# 多机分布式训练(16节点 x 8卡)
yisuan submit \
  --type=deepspeed \       # 分布式训练类型
  --nodes=16 \
  --gpu-per-node=8 \
  --script="deepspeed train.py \
    --deepspeed configs/ds_config.json"步骤3:模型部署 
Bash
# 将训练结果打包为推理服务
yisuan model export \
  --checkpoint=./output/model_final.pth \
  --format=onnx \          # 支持ONNX/TensorRT格式
  --output=deploy/
# 启动API服务(自动负载均衡)
yisuan deploy create \
  --model=deploy/model.onnx \
  --gpu-type=t4 \          # 推理优化GPU
  --replicas=4 \           # 启动4个服务实例
  --api-key=YOUR_KEY五、 常见AI任务模板 
5.1 自动化超参数搜索 
Bash
# 使用Optuna进行超参数优化
yisuan submit \
  --type=hyperparam \
  --algorithm=optuna \     # 支持Optuna/Ray Tune
  --trials=100 \           # 并行试验次数
  --script="hpo_search.py \
    --param-space='{lr: [1e-5,1e-3], batch_size: [32,128]}'"5.2 强化学习训练 
Bash
# 启动多环境并行PPO训练
yisuan submit \
  --type=rl \
  --envs=2048 \            # 并行环境数量
  --algorithm=ppo \
  --script="train_rl.py \
    --env-name=Ant-v4 \ 
    --rollout-steps=5000"