易算云文档中心

一、什么是人工智能计算？

人工智能计算（AI Computing）是通过算法模型与大规模数据训练，使机器具备感知、推理、决策能力的计算范式，核心包含：

训练阶段：使用GPU/TPU集群加速模型参数优化
推理阶段：部署轻量化模型提供实时预测服务
灵犀易算云平台定位：提供从数据管理、分布式训练到模型部署的全栈AI开发环境，支持TensorFlow/PyTorch等主流框架。

二、为什么需要云端AI计算？

典型应用场景

领域	应用案例
计算机视觉	图像分类、目标检测、医学影像分析、工业质检
自然语言处理	机器翻译、智能对话、舆情分析、文档摘要
推荐系统	电商商品推荐、短视频内容匹配、广告CTR预估
科学AI	分子性质预测、蛋白质结构生成、气候模式建模

何时使用云端AI？

本地GPU显存不足（如训练参数量>1亿的模型）
需快速进行超参数搜索或大规模数据增强
要求弹性扩缩容（如从单卡调试扩展到百卡训练）

三、灵犀易算云平台的AI开发优势

痛点	传统本地开发	灵犀易算云平台
环境配置	依赖手动安装CUDA/cuDNN	预置框架容器镜像（PyTorch 2.0+等）
资源利用	固定硬件，空闲时浪费	按需申请A100/V100 GPU，按秒计费
数据管理	本地存储受限	提供PB级共享数据集与高速缓存服务

资源选择策略

任务类型	推荐配置
模型调试	1×T4 GPU（低成本）
大模型训练	8×A100节点（NVLink拓扑）
高并发推理	T4+TensorRT量化

四、新手快速上手

步骤1：准备开发环境

Bash

# 选择预置环境镜像（含PyTorch+CUDA）
yisuan env create --name=ai-lab \
  --image=registry.yisuan/pytorch:2.1-cuda12.1

# 挂载数据集（示例：ImageNet）
yisuan data mount /datasets/imagenet

步骤2：提交训练任务

Bash

# 单卡调试任务
yisuan submit \
  --type=ai_train \
  --gpu-type=a100 \        # 指定GPU型号
  --gpu-count=1 \          # 使用1块GPU
  --framework=pytorch \    # 自动加载环境
  --script="train.py \ 
    --batch-size=64 \ 
    --epochs=50"

# 多机分布式训练（16节点 x 8卡）
yisuan submit \
  --type=deepspeed \       # 分布式训练类型
  --nodes=16 \
  --gpu-per-node=8 \
  --script="deepspeed train.py \
    --deepspeed configs/ds_config.json"

步骤3：模型部署

Bash

# 将训练结果打包为推理服务
yisuan model export \
  --checkpoint=./output/model_final.pth \
  --format=onnx \          # 支持ONNX/TensorRT格式
  --output=deploy/

# 启动API服务（自动负载均衡）
yisuan deploy create \
  --model=deploy/model.onnx \
  --gpu-type=t4 \          # 推理优化GPU
  --replicas=4 \           # 启动4个服务实例
  --api-key=YOUR_KEY

五、常见AI任务模板

5.1 自动化超参数搜索

Bash

# 使用Optuna进行超参数优化
yisuan submit \
  --type=hyperparam \
  --algorithm=optuna \     # 支持Optuna/Ray Tune
  --trials=100 \           # 并行试验次数
  --script="hpo_search.py \
    --param-space='{lr: [1e-5,1e-3], batch_size: [32,128]}'"

5.2 强化学习训练

Bash

# 启动多环境并行PPO训练
yisuan submit \
  --type=rl \
  --envs=2048 \            # 并行环境数量
  --algorithm=ppo \
  --script="train_rl.py \
    --env-name=Ant-v4 \ 
    --rollout-steps=5000"

一、什么是人工智能计算？ ​

二、为什么需要云端AI计算？ ​

典型应用场景 ​

何时使用云端AI？ ​

三、灵犀易算云平台的AI开发优势 ​

四、 新手快速上手 ​

步骤1：准备开发环境 ​

步骤2：提交训练任务 ​

步骤3：模型部署 ​

五、 常见AI任务模板 ​

5.1 自动化超参数搜索 ​

5.2 强化学习训练 ​

一、什么是人工智能计算？

二、为什么需要云端AI计算？

典型应用场景

何时使用云端AI？

三、灵犀易算云平台的AI开发优势

四、新手快速上手

步骤1：准备开发环境

步骤2：提交训练任务

步骤3：模型部署

五、常见AI任务模板

5.1 自动化超参数搜索

5.2 强化学习训练