FramePack是一种革命性的视频生成技术,这项技术通过创新的神经网络架构实现了高效、低硬件门槛的视频生成,尤其在长视频生成领域表现突出。
OpenAI.fm 是由 OpenAI 推出的一个互动演示平台,旨在为开发者提供一个调试和体验最新语音模型的场所。
Portkey AI Gateway 是一个功能强大且灵活的 AI 应用控制面板。该平台旨在帮助企业快速构建、部署、监控和优化生成式 AI 应用程序,同时降低开发成本并提高效率。
n8n 是一个开源的工作流自动化平台,旨在通过连接各种应用程序和服务,帮助用户自动化任务和流程。其核心功能包括无代码和低代码工作流构建、灵活的节点设计、强大的自定义能力以及对第三方 API 的集成支持。
RuoYi AI 是一个基于 Spring Boot 的全栈式 AI 开发平台,旨在帮助开发者快速构建和部署个性化 AI 应用。
ChatGPT-Web是一个基于OpenAI自然语言处理模型的开源项目,旨在提供一个简单易用且功能丰富的界面,让用户能够与先进的自然语言处理模型进行互动。
ChuanhuChatGPT是一个多功能的ChatGPT增强工具,旨在通过提供轻快好用的Web图形界面和多项附加功能,极大扩展了ChatGPT等大语言模型的应用范围。
LibreChat 是一个开源的、增强版的 ChatGPT 克隆平台,集成了多种先进的人工智能技术。它提供了与 ChatGPT 类似的用户界面,并且支持多种 AI 模型,包括 OpenAI、GPT-4 Vision、Bing、Anthropic、OpenRouter 和 Google Gemini 等。
ChatGPT-Next-Web 是一个基于 GPT 模型的网页应用,允许用户通过网页与模型进行交互,输入问题并获得回答。
Open WebUI 是一个全功能、自托管的 WebUI 框架,旨在为本地大模型提供用户友好的界面。它支持完全离线操作,并且支持多种大型语言模型(LLM)运行环境,包括 Ollama 和兼容 OpenAI 的 API 。
StableSwarmUI是一个模块化且可定制的Web用户界面,专为Stable Diffusion设计。它不仅提供了一个直观的操作界面,还通过一系列有用的特性,使得所有经验水平的用户都能轻松访问Stable Diffusion的强大功能。
ComflowySpace是一个开源的AI图像和视频生成工具,旨在提供比标准SDWebUI和ComfyUI更好的、更互动的用户体验。它基于ComfyUI和Stable Diffusion,通过简化和增强AI图像及视频生成工具的使用体验,使得用户界面更加用户友好和高效。
Tiledesk Design Studio 是 Tiledesk 提供的一个开源、无代码开发平台,用于创建聊天机器人和对话应用。该平台提供了一个用户友好的拖放界面,预设了动作和集成,结合了 LLM/GPT AI 的强大功能和灵活的“图形”方法,以轻松创建对话和自动化。
Stable Diffusion WebUI Forge是一个基于Stable Diffusion WebUI(基于Gradio)的绘画平台
Gradio是一个开源的Python库,主要用于创建机器学习模型的交互式界面。它允许用户快速地为模型构建一个可视化的、易于使用的Web界面,无需编写任何Web前端代码。
chatgpt-web-midjourney-proxy 项目是在 ChenZhaoYu的基础上进行二次开发的,使用 midjourney-proxy 提供的 midjourney api 作为后端。部署后,可以在基于该开源项目体验 ChatGPT、Midjourney 的功能。
ComfyUI是一个开源的基于图形界面Workflow可视化引擎,提供一个用户友好的图形界面。可以将多个Stable Diffusion模型及其Hypernetwork组合成一个完整的工作流(Workflow),实现自动化的图像生成和优化。
LocalAI介绍LocalAI是免费、开源的OpenAI替代品。LocalAI充当一个与Open[…]
Langchain-Chatchat(原Langchain-ChatGLM)基于 Langchain 与 ChatGLM 等语言模型的本地知识库问答。该项目是一个可以实现完全本地化推理的知识库问答增强方案,重点解决企业知识库数据安全、私域化部署的痛点。
FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景!
Dify介绍Dify.AI是一款开源且易用的LLMOps平台,可以帮助开发者更简单、更快速地构建AI[…]
LobeChat 是一个开源的、可扩展的高性能聊天机器人框架。它支持一键免费部署私人 ChatGPT/LLM 网页应用程序。经过精心设计的界面,具有优雅的外观和流畅的交互效果,支持亮暗色主题,适配移动端。支持 PWA,提供更加接近原生应用的体验,会话支持插件扩展,用户可以安装和使用各种插件,例如搜索引擎、网页提取等,同时也支持自定义插件的开发,满足自定义需求。
SkyReels-V2是昆仑万维团队于2025年4月21日发布的一款创新性视频生成模型,其核心特点在于支持无限[…]
MemFree是一款开源的混合AI搜索引擎,通过整合多种AI模型和搜索引擎,提供高效、多样化的搜索体验。
多模态大模型Ovis是由阿里国际AI团队开发的一款先进的多模态人工智能模型。该模型在多个领域展现出色的表现,包括数学推理问答、物体识别、文本提取和复杂任务决策等
什么是NVIDIANeMoNVIDIANeMo是一个由NVIDIA提供的端到端云原生框架,用于构建[…]
Mini-Omni 是由清华大学启元实验室开发并开源的多模态大型语言模型,具有实时端到端语音输入和流式音频输出对话功能。
xGen-MM是Salesforce推出的一款开源多模态AI模型,该模型具有处理交错数据的能力,能够同时理解和生成文本、图像等多种数据类型,
浦语灵笔IXC-2.5是由上海人工智能实验室联合多所知名大学和企业共同研发的新一代视觉语言模型。它不仅拥有7B规模的大型语言模型(LLM)后端,更以其对长上下文的理解和生成能力,达到了与GPT-4V相媲美的水平。
Idefics2是一个开放的多模态模型,它能够接受任意序列的图像和文本输入,并产生文本输出。无论是回答有关图像的问题、描述视觉内容、基于多张图像创造故事,还是作为纯语言模型在没有视觉输入的情况下运行,Idefics2都能游刃有余。
InternVL简介InternVL是一个具有6亿参数的视觉变换器(ViT),它与大型语言模型(LLM)相结[…]
DiT(Diffusion Transformer)是一种基于Transformer的扩散模型技术,这种技术被用于构建Sora这样的技术产品。
NPHM数据集(Neural Parametric Head Models)是一个用于3D头部建模和动画的神经参数化模型,主要用于单目RGB视频跟踪和生成高保真度的头部动画。该数据集由Simon Giebenhaugen等人在2023年的CVPR会议上提出,并得到了广泛关注。
Awesome MCP Servers 是一个开源项目,旨在为开发者和研究人员提供一个全面的 Model Context Protocol (MCP) 服务器集合。
MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个面向自然语言处理(NLP)研究的超大规模中文语料数据集,旨在为中文大模型训练提供多样化的高质量文本资源。
MultimodalC4的数据集是一个开放的、10亿规模的、与文本交错的图像语料库,其中包含了585M[…]
Common Crawl 是一个大型的非营利性网络爬虫项目,旨在抓取互联网上的网页数据并提供开源下载。这个数据集覆盖了广泛的领域,包括新闻、法律、维基百科和通用网络文档等。
Custom Diffusion数据集是与Custom Diffusion技术相关的数据集,主要用于支持和实现多概念定制化的文本到图像生成模型。
LibGen数据集(LibraryGenesis数据集)是一个由俄罗斯科学家于2008年创建的数字图书馆,[…]
“万卷·丝路”多语言预训练语料库是由上海人工智能实验室联合大模型语料数据联盟成员共同发布的一个高质量多语言预训[…]
NEXET数据集是由以色列公司Nexar发布的一个用于自动驾驶技术发展的数据集。该数据集包含来自全球80个国家的超过5万张照片,展示了不同天气和时间条件下道路状况。
GSM8K数据集是一个由OpenAI团队创建的高质量、语言多样化的小学数学单词问题数据集,包含8500个问题。[…]
WorldClim数据集是一个全球性的气候数据集,由Robert Hijmans和Susan Cameron等人于2005年开发,基于ANUSPLIN插值法,整合了大量国家和区域尺度的气象数据。
HD-VILA-100M数据集是一个大规模、高分辨率和多样化的视频语言数据集,由微软亚洲研究院的研究人员开发。
Emilia数据集是一个大规模、多语言和多样化的语音生成数据集,旨在支持大规模语音生成研究。
CelebA-HQ数据集是CelebA数据集的高质量版本,由30,000张分辨率为1024x1024的人脸图像组成.
CelebA数据集,全称为CelebFaces Attributes Dataset,是由中国香港中文大学多媒体实验室发布的一个大规模人脸属性数据集。
GarDiff是一种创新的虚拟试穿技术,旨在通过生成高保真且细节丰富的试穿图像来提升在线试穿体验。
DressCode数据集是一个用于图像基础虚拟试衣的高分辨率多类别数据集。
CelebV-Text数据集是一个大规模、高质量、多样化的人脸文本-视频数据集,旨在促进人脸文本到视频生成任务的研究。该数据集包含70,000个野外面部视频剪辑,每个视频剪辑都配有20个文本描述。
SA-1B 数据集,全称为Segment Anything 1 Billion,是一个大规模的图像分割数据集,旨在为通用对象分割模型提供训练数据。
DreamBooth数据集是一个用于训练扩散模型以识别和生成特定个体图像的数据集。
Fashion-MNIST数据集是由德国Zalando公司提供的一种服饰物品图像数据集,旨在替代经典的MNIS[…]
DragBench数据集是一个用于评估交互式点基图像编辑方法性能的基准数据集。
什么是3D-FRONT数据集3D-FRONT数据集是一个大规模且综合性的合成室内场景数据集,旨在提供高质量的[…]
LAION-5B是一个大规模的多模态数据集,用于研究目的,包含约58.5亿个图像-文本对。这些数据对是通过CLIP模型过滤的,其中23亿对包含英语文本,22亿对来自超过100种其他语言,其余12.7亿对则包含无法明确归类于某一语言的文本。
Diff3DEdit是一种基于深度学习的3D编辑方法。它通过迭代三个阶段来实现对3D对象的编辑:视图合成阶段、去畸变阶段和修复阶段。
Deep-Live-Cam是一款基于深度学习技术的开源AI工具,能够实现实时人脸替换和一键生成高质量视频深度伪造(Deepfake)
Hi3DGen是一款由中国香港中文大学(深圳)、字节跳动和清华大学联合研发的高精度3D生成框架,旨在将单张2D图像快速转化为高质量、细节丰富的3D模型。其核心技术基于“法线图”作为中间表示,通过创新性地解耦传统3D生成过程,实现了从图像到法线估计、再到几何学习的全流程训练。
TripoSG 是由 VAST AI 研究团队推出的一款高保真 3D 形状生成模型,其核心功能是将单张图像转化为高质量的 3D 网格模型。
什么是DiffSplatDiffSplat是一个创新的3D生成框架,它能够直接从文本提示或单视图图像生成高质[…]
Stable Diffusion 3.5是Stability AI最新发布的AI图像生成模型,相较于前代产品SD3,它在图像生成的逼真度、提示响应和文本渲染方面都有显著提升。
PixelDance是由字节跳动开发的一款高动态视频生成模型,它结合了文本指令和图像指令来生成视频内容。该模型基于扩散模型,通过模拟数据的扩散过程来生成新的数据样本。
Tora是阿里巴巴集团推出的一款AI视频生成框架,基于轨迹导向的扩散变换器(DiT)技术。它能够整合文本、视觉和轨迹数据,精确控制视频内容的动态变化,并生成高质量且符合物理世界动态的视频内容。
Flash-VStream是一种基于记忆机制的视频-语言模型,旨在实时处理和理解长视频流,并能够同时响应用户查询。
Stable Diffusion XL(SDXL)是Stability AI公司推出的一款最新图像生成模型,旨在提供更高质量和更逼真的图像输出。
MovieDreamer是由浙江大学与阿里巴巴集团联合研发的新型视频生成框架。它巧妙地结合了自回归模型的复杂逻辑处理能力和扩散模型的视觉渲染技术,旨在生成具有丰富情节和高视觉保真度的长时视频内容。
VideoLLaMA2是由阿里巴巴集团达摩院团队开发的新一代视频理解模型。它在空间-时间建模和音频理解方面取得了显著进步,为用户提供了更为精准和全面的视频内容分析能力。
MVGFormer:用于3D人体姿态估计的多视角几何Transformers
Open Glass AI是一个开源项目,旨在将任何普通眼镜改装成具有人工智能功能的智能眼镜。
SignLLM项目由全球多所顶尖大学联合发起,旨在创建首个全面性的多语种手语数据集Prompt2Sign,并基于此数据集开发了首个多语种手语生成(SLP)模型。
PaliGemma是谷歌推出的一款开源视觉语言模型,该模型结合了图像处理和语言理解的能力,旨在支持多种视觉语言任务,如图像和短视频字幕生成、视觉问答、图像文本理解、物体检测、文件图表解读以及图像分割等。
VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率(VSR)模型
DINOv2是一种由Meta AI开发的自监督视觉变换器模型,旨在通过自我监督学习方法训练高性能的计算机视觉模型。
OpenPose是一个开源的人体姿态识别工具,它基于卷积神经网络和监督学习开发,使用Caffe作为其框架。OpenPose能够实时地检测图像中的人体关键点,包括面部表情、躯干、四肢以及手指的跟踪,适用于单人或多人场景。它能够检测多达135个关键点,包括身体、手势和人脸的关键点。
PhotoMaker是一款由腾讯实验室出品的AI图像生成工具,它主要利用了堆叠ID嵌入的技术来生成定制化的逼真人体照片。这项技术能够将用户的输入图像编码成堆叠ID嵌入,从而保留ID信息并容纳不同ID的特征,实现个性化的图像生成。
InsightFace 是一个开源的 2D&3D 深度人脸分析库,通过深度卷积神经网络和大规模数据集进行训练,它提供了高性能和准确性的人脸识别模型。
Stable Cascade作为一款新型的文本到图像转换模型,凭借其创新的三阶段架构,标志着人工智能领域的一个重要里程碑。基于Würstchen架构,此模型不仅在质量、灵活性、细化调整和效率方面树立了新的标准,而且特别注重打破硬件限制,使更多的研究人员和消费者能够轻松接触和训练高级AI模型。
Upscayl是一款开源免费的AI图片无损放大工具。它采用先进的人工智能模型,能够将低分辨率的图像进行质量提升,通过应用先进的算法和深度学习技术能够以更高的精度和细节还原能力,将模糊的图像转化为超清晰的图像。
Vary-toy是MEGVII Technology发布的一款适用于标准GPU的高级视觉词汇大型语言模型。通过优化视觉词汇创建,旨在提高图像感知能力。
适用于视频合成、图像到视频、视频修补、风格化生成等内容创作和视频编辑应用
LightRAG是由中国香港大学研究团队推出的一种检索增强生成(Retrieval-Augmented Generation, RAG)系统,旨在提升大型语言模型(LLM)的准确性和上下文相关性。该系统通过图结构集成和双层知识检索,优化了信息检索的全面性和效率。
Spoken2Sign是一种将口语语言翻译成手语语言的功能系统。
Mistral Large 2是法国人工智能初创公司Mistral AI最新发布的大型语言模型,具有1230亿参数和128K的上下文窗口。该模型在代码生成、数学和推理方面表现出色,并且支持多种编程语言和多语言处理能力。
Mem0是一个为大型语言模型(LLM)设计的智能记忆层,它通过保留用户、会话和AI代理的信息,确保了交互的连续性和上下文。这种多层次的记忆机制不仅提高了用户体验,还使得AI能够更加智能地响应用户需求。
Samba是一个开源的语言模型项目,其全称为“Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling”。它通过一种创新的混合架构,实现了对无限长度上下文的有效建模。
X-LLM是中国科学院自动化研究所和中国科学院大学联合推出一种先进的大型语言模型,通过引入多模态数据和自监督学习来提升其理解和生成自然语言的能力。
FinGPT是一个开源的金融领域大型语言模型,旨在提供一个适用于金融数据的训练和微调平台。它通过最新的调整方法如LoRA增强模型的适应性和准确性,支持多任务处理,如情感分析和市场数据分析。
RAGFlow是一个基于深度文档理解的开源RAG引擎。它通过集成大型语言模型(LLMs),实现了对复杂格式数据的深度理解和智能问答。
AnythingLLM 是一个全栈应用程序,您可以使用现成的商业大语言模型或流行的开源大语言模型,再结合向量数据库解决方案构建一个私有 ChatGPT
MedicalGPT 是一个基于ChatGPT训练流程的医疗行业语言模型项目,主要包括增量预训练、有监督微调和强化学习。项目旨在通过不同的训练阶段,优化模型以更好地适应医疗数据,提高问答和文本生成的准确性和质量。
Perplexica是一个开源的AI驱动搜索引擎,它不仅能够深入互联网寻找答案,而且能够理解用户的查询。
Llama 3 是 Meta 发布的最新大型语言模型,旨在让个人、创作者、研究人员和各种规模的企业能够负责任地试验、创新和扩展他们的想法。
h2oGPT是一个基于H2O.ai生态系统的开源大语言模型(LLM)微调框架,具备文档问答能力的聊天界面。
FreeAskInternet 是一款集免费、本地、隐私、强大搜索和智能问答于一身的AI实用工具。
PrivateGPT简介PrivateGPT是一个已完成的AI项目,允许用户在没有互联网连接的情况下,使用大[…]
Grok-1 是由马斯克旗下的人工智能初创公司 xAI 开发的一款大型语言模型,是一个混合专家(MoE)模型,拥有 3140 亿参数,使其成为目前参数量最大的开源大语言模型。
Gemma是由Google DeepMind和Google其他团队合作开发的一系列轻量级且先进的开放模型。这些模型采用了与创建Gemini模型相同的研究和技术,旨在支持开发者和研究人员负责任地构建AI。
LLaMA-Factory是一个易于使用的大型语言模型(LLM)微调框架。它支持多种开源的大型语言模型,如 LLaMA、ChatGLM、Falcon 等。
XAgent是一个开源的基于大型语言模型(LLM)的自主智能体,可以自动解决各种任务。它被设计为一个通用的智能体,可以应用于各种任务。作为一个开源实验性大型语言模型(LLM)驱动的自主代理,其核心是利用先进的自然语言处理和机器学习技术,使其能够理解和生成人类语言,从而自动解决各种任务。
Moonshine是一款由Useful Sensors推出的开源语音识别模型,旨在为资源受限的设备提供高效、快速且准确的语音转文本服务。
FireRedTTS是一个由小红书技术团队FireRed开发的开源文本转语音(TTS)系统,基于大语言模型(LLM)构建。该系统旨在为用户提供高质量的语音合成服务,并具有丰富的标点符号处理能力。
EzAudio是一个由腾讯AI实验室和约翰霍普金斯大学联合开发的文本到音频(T2A)生成模型。
ToucanTTS是由德国斯图加特大学自然语言处理研究所(IMS)开发的一个高级文本转语音(Text-to-Speech, TTS)工具箱
ImagetoMusicV2是一个图片生成音乐的在线AI工具,利用先进的机器学习算法和神经网络模型,通过对图像的特征进行分析和提取,自动生成相应的音乐,生成音频文件。
英特尔为开源音频编辑程序 Audacity 发布了一个名为 OpenVINO AI 的 AI 工具套件。这些插件允许 Audacity 用户在本地转录播客并根据提示生成音乐。
Amphion介绍Amphion是一个用于音频、音乐和语音生成的开源工具包,不论是搞语音识别应用,还是音频编[…]
开源的文本到语音系统
针对视频自动配音设计的数据集