AI工具

Moshi – 法国AI实验室Kyutai开发的实时音频多模态模型

Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型,拥有听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。作为对标...

Fish Speech – 开源的高效文本到语音合成TTS工具

Fish Speech是一款由Fish Audio开发的开源的文本到语音(TTS)工具,支持中文、英文和日文。通过约15万小时的多语种数据训练,实现了接近人类水平的语音合成...

FreeAskInternet – 免费开源的本地AI搜索引擎

FreeAskInternet是一个免费开源的本地AI搜索引擎,整合了GPT-3.5等先进的大型语言模型(LLM)和SearXNG元搜索引擎,为用户提供搜索和智能答案生成服务。

MimicMotion – 腾讯推出的AI人像动态视频生成框架

MimicMotion是腾讯的研究人员推出的一个高质量的人类动作视频生成框架,利用置信度感知的姿态引导技术,确保视频帧的高质量和时间上的平滑过渡。此外,MimicM...

Gemma 2 – 谷歌DeepMind推出的新一代开源人工智能模型

Gemma 2是谷歌DeepMind推出的新一代开源人工智能模型,包含90亿和270亿参数版本。该模型以卓越的性能、高效的推理速度和广泛的硬件兼容性为特点,能够与参数...

CriticGPT – OpenAI推出的识别GPT输出代码错误的模型

CriticGPT是OpenAI发布的一个新型人工智能模型,基于GPT-4构建,专门用于审查和识别大型语言模型(如ChatGPT)生成的代码中的错误。CriticGPT通过人类反馈强...

字节跳动发布“豆包MarsCode”智能开发工具,面向国内开发者免费

6月26日,字节跳动在北京发布了基于豆包大模型打造的智能开发工具 - 豆包MarsCode ,面向国内开发者免费开放。本场发布会以“用 AI 激发创造”为主题,在草地露...

MOFA-Video – 腾讯开源的可控性AI图生视频模型

MOFA-Video是由腾讯AI实验室和东京大学的研究人员开源的一个可控性的图像生成视频的模型,该技术利用生成运动场适应器对图像进行动画处理以生成视频。

Toucan TTS – 免费开源的文本转语音工具,支持超7000种语言

Toucan TTS是由德国斯图加特大学自然语言处理研究所(IMS)开发的文本到语音合成工具箱,支持超过7000种语言,包括多种方言和变体,提供多说话人语音合成、语...

ExVideo – 阿里和华东师大推出的AI视频长度扩展调优技术

ExVideo是由阿里巴巴和华东师大的研究人员推出的一种视频合成模型的后调优技术,能够扩展现有视频合成模型的时间尺度,以生成更长的视频。该团队基于Stable V...
1 5 6 7 8 9 24