FunHPC | 算力简单易用 AI乐趣丛生

Facefusion

FaceFusion 是一款**开源面部替换与增强工具**，依托深度学习技术，助力用户轻松在图片与视频中实现高质量的面部合成效果。

AI换脸

Z-image-turbo

可以在16G 显存的消费设备上轻松运行，它擅长生成逼真的图像、双语文本渲染（英文和中文），并具有强大的指令遵循能力

AI绘画

AutoGen

一个用于创建可以自主行动或与人类一起工作的多智能体 AI 应用程序的框架。

多Agent协同

GPT-SoVITS

一个能够高质量高效率完成声音克隆的工具。

声音克隆

ComfyUI

ComfyUI的较新版本（0.3.59），让用户通过拖拽连接模块来构建图像生成流

AI绘画

Qwen-Image-Edit

亮点在于其强大的语义和外观编辑能力，语义编辑是指在修改图像内容的同时，保留原有的视觉语义。

AI绘画

Qwen-Image

针对复杂文本渲染构建了一套全面的数据处理体系，从大规模图文数据的收集到精细化过滤，系统性地提升了数据质量与图文对齐度。

AI绘画

Wan2.2-I2V-14B

专为图像到视频生成设计，支持480P和720P分辨率。该模型采用了混合专家（MoE）架构，实现了更稳定的视频合成，减少了不真实的摄像机移动，并提供了对多样化风格场景的支持。

图生视频

Wan2.2-IT2V-5B

阿里通义万相继Wan2.1后的新版本Wan 2.2，是阿里云团队推出的新一代多模态视频生成模型。

视频生成

Step-Audio

业界首个利用 LLM-Chat 范式在大规模合成数据集上训练的文本转语音 (TTS) 模型

TTS-Audio

Hunyuan3D-2.0

混元 3D 2.0 是一款先进的大规模 3D 资产创作系统，它可以用于生成带有高分辨率纹理贴图的高保真度3D模型。

3D生成

OpenMusic

根据文本描述生成高质量音乐作品，支持音频编辑、处理、录音等多种音乐创作功能

文生音乐

Ollama

简单方便部署，轻松快捷交互，支持文本生成、对话系统、问答、文本摘要、翻译等多种自然语言处理任务。

大语言模型

Echomimic

EchoMimic是阿里巴巴达摩院推出的AI驱动口型同步技术项目。这项技术能够通过给定的音频和一张或多张人物的面部照片，生成一个看起来像是在说话的视频。

AI数字人

Stable-Diffusion-forge

专业设计师进阶版，绘画更加逼真，出图更加生动。

AI绘画

F5-TTS

零样本声音克隆、速度控制、情感表现控制、长文本合成、多语言支持

声音克隆

MuseTalk

实时的音频驱动唇部同步模型，能达到数字人物口型与声音完美匹配的效果。

高质量数字人（口型）工具

LLaMA-Factory

Easy and Efficient LLM Fine-Tuning

微调大语言模型

ComfyUI-Plus

专业设计师进阶版，含预处理器及专业插件、预置更多模型

AI绘画

Text-Generation-qwen2

阿里云通义千问团队开发的开源模型，性能堪比众多闭源大模型

AI对话

Text-Generation-llama3

Meta旗下大模型，开发者可以进行再训练，实现专属大模型，搭建私有对话机器人

AI对话

Stable-Diffusion-plus

专业设计师进阶版，支持快速微调、含预处理器及专业插件、预置更多模型

AI绘画

Stable-Diffusion

纯净版封装，更加简洁清爽，适合爱好者练手，也便于开发人员二次调整源码进行自定义配置

AI绘画