使用微信聊天记录微调大语言模型,使用微信语音消息实现高质量声音克隆,实现自己的数字分身
开源Deep Researcher 工具
一键将SVG转换为3D模型
深度搜索Agent,执行深度Web 搜索并生成问题的综述
Manus 开源替代
开源浏览器Agent,可自主执行 Web 复杂任务
学术论文阅读伴侣应用程序,集成了PDF处理、AI翻译、RAG检索、AI问答和语音交互等多种功能
超逼真对话式语音合成模型,1.6B 参数,目前只支持英文
实现Claude控制Ableton Live,直接使用自然语言提示词创作音乐
基于LLM的高效文本转语音模型,支持支持零样本语音克隆
通过MCP为Cursor等AI编程工具提供Figma设计文件,从设计图直接生成代码
开源数据引擎,同时支持自定义转换逻辑和专门用于数据索引的增量更新
开源RAG系统,可以为任何主题创建AI 问答助手
支持在私有数据进行深度推理分析、搜索的工具,支持主流推理大模型和向量数据库
为微信OCR功能提供跨语言调用接口的开源项目
社交媒体AI机器人管理平台,每个机器人都可以拥有自己独特的个性、声音和行为
AI数字分身模型,训练你的数字分身
Google 开源的多模态医疗模型,可以根据医学影像和病历描述生成诊断报告
公司调研的Agent框架,从各种数据源收集公司数据,生成全面的公司研究报告
AI驱动会议记录和摘要工具
AI Web搜索引擎大汇总
AI 每日新闻简报,通过抓取数百个来源,提供简洁、个性化的每日简报来消除新闻噪音
多 AI Agent 框架,创建各类 AI Agent,实现任务自动化和解决各种问题
AI浏览器助手,允许用户使用自然语言命令来控制浏览器
开源AI自动化工具,原理类似按键精灵
将非结构化文本转为可视化可交互的知识图谱的AI工具
根据论文自动生成学术海报
微软开源的AI量化投资平台
让 AI 能够以结构化的方式浏览和操作网页的MCP Searver
开源音频基础模型,在音频理解、生成和对话方面表现出色
让Agent使用语义搜索搜索任何应用程序,以将其内容转换为Agent可搜索理解的知识
开源文本转语音工具,支持超长文本,多角色配音
把微信的 OCR 功能提取出来做 Docker 服务,v2ex.com/t/1120897
事物描述多模态模型,指定图像或视频中某个特定区域,自动生成详细描述
无限长电影生成模型
开源Agentic 浏览器,可在本地运行 AI, Dia 、Perplexity Comet 的开源隐私优先替代方案
爬取某个网站并将其用作 MCP 服务器
AI将手绘2D 草图,一键转换为 3D 模型
基于本地视频和LLM的AI婴儿监视器
统一的 MCP 客户端库,可将任何LLM服务器连接到任何 MCP 服务器
用于 Web 浏览 AI 的高性能服务引擎
AI 科学家,通过代理树搜索实现研讨会级自动化科学发现
开源浏览器自动化工具(RPA 2.0),通过一次性录制浏览器操作,生成可无限运行的确定性工作流程
实时摄像头目标检测的高效解决方案
AI 驱动的知识库系统
ControlNet 开发者的新项目,高效的视频生成框架
通过将文本数据编码到视频中,实现对数百万个文本块进行闪电般的语义搜索
字节跳动开源的Deep Research框架
开源AI Deep research 搜索引擎
让FastAPI接口秒变MCP工具的零配置工具
多Agent交易框架,为投资交易提供决策
从文档中提取结构化数据和洞察,能够识别和分析文档中的关键内容
自动化的社交媒体分析工具,专门用于关注和分析社交媒体平台上的内容
微软开源的人机协作的网页自动化系统
开源TTS模型,性能媲美ElevenLabs
集成了 browser use、MCP、自动工具调用、任务规划、Deep Research等能力的 AI Agent框架
开源版DeepWiki,支持生成GitHub/Gitlab/Bitbucket仓库的Wiki
面向端侧的GUI Agent,拥有中英文APP操作能力,并基于RFT优化思考能力
让每个Coding Agent拥有独立的容器化环境,类似项目 github.com/trycua/cua