甜品卡5060Ti-16G已上线,欢迎大家使用。另更多A100 80G Nvlink也即将上架!

  • 算力中心
  • AI云主机docker
  • AIGC宝箱
  • Token服务 new
  • 数据中心

Facefusion

FaceFusion 是一款**开源面部替换与增强工具**,依托深度学习技术,助力用户轻松在图片与视频中实现高质量的面部合成效果。

AI换脸

Z-image-turbo

可以在16G 显存的消费设备上轻松运行,它擅长生成逼真的图像、双语文本渲染(英文和中文),并具有强大的指令遵循能力

AI绘画

AutoGen

一个用于创建可以自主行动或与人类一起工作的多智能体 AI 应用程序的框架。

多Agent协同

GPT-SoVITS

一个能够高质量高效率完成声音克隆的工具。

声音克隆

ComfyUI

ComfyUI的较新版本(0.3.59),让用户通过拖拽连接模块来构建图像生成流

AI绘画

Qwen-Image-Edit

亮点在于其强大的语义和外观编辑能力,语义编辑是指在修改图像内容的同时,保留原有的视觉语义。

AI绘画

Qwen-Image

针对复杂文本渲染构建了一套全面的数据处理体系,从大规模图文数据的收集到精细化过滤,系统性地提升了数据质量与图文对齐度。

AI绘画

Wan2.2-I2V-14B

专为图像到视频生成设计,支持480P和720P分辨率。该模型采用了混合专家(MoE)架构,实现了更稳定的视频合成,减少了不真实的摄像机移动,并提供了对多样化风格场景的支持。

图生视频

Wan2.2-IT2V-5B

阿里通义万相继Wan2.1后的新版本Wan 2.2,是阿里云团队推出的新一代多模态视频生成模型。

视频生成

Step-Audio

业界首个利用 LLM-Chat 范式在大规模合成数据集上训练的文本转语音 (TTS) 模型

TTS-Audio

Hunyuan3D-2.0

混元 3D 2.0 是一款先进的大规模 3D 资产创作系统,它可以用于生成带有高分辨率纹理贴图的高保真度3D模型。

3D生成

OpenMusic

根据文本描述生成高质量音乐作品,支持音频编辑、处理、录音等多种音乐创作功能

文生音乐

Ollama

简单方便部署,轻松快捷交互,支持文本生成、对话系统、问答、文本摘要、翻译等多种自然语言处理任务。

大语言模型

Echomimic

EchoMimic是阿里巴巴达摩院推出的AI驱动口型同步技术项目。这项技术能够通过给定的音频和一张或多张人物的面部照片,生成一个看起来像是在说话的视频。

AI数字人

Stable-Diffusion-forge

专业设计师进阶版,绘画更加逼真,出图更加生动。

AI绘画

F5-TTS

零样本声音克隆、速度控制、情感表现控制、长文本合成、多语言支持

声音克隆

MuseTalk

实时的音频驱动唇部同步模型,能达到数字人物口型与声音完美匹配的效果。

高质量数字人(口型)工具

LLaMA-Factory

Easy and Efficient LLM Fine-Tuning

微调大语言模型

ComfyUI-Plus

专业设计师进阶版,含预处理器及专业插件、预置更多模型

AI绘画

Text-Generation-qwen2

阿里云通义千问团队开发的开源模型,性能堪比众多闭源大模型

AI对话

Text-Generation-llama3

Meta旗下大模型,开发者可以进行再训练,实现专属大模型,搭建私有对话机器人

AI对话

Stable-Diffusion-plus

专业设计师进阶版,支持快速微调、含预处理器及专业插件、预置更多模型

AI绘画

Stable-Diffusion

纯净版封装,更加简洁清爽,适合爱好者练手,也便于开发人员二次调整源码进行自定义配置

AI绘画