We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
No 1. [214星] DeepSeek R1:介绍了如何从... No 2. Gemini Code Assist:Google... No 3. GRPO Reasoning Model:关于如何... No 4. 一个关于长上下文大语言模型(LLM)的综述性研究,涵盖了架构、框架、训练和评估四个方面的内容。亮点:1. 从架构、基础设施、训练和评测四大维度全面剖析;2. 涵盖从百万token到多模态长文的前沿研究;3. 总结10个未解难题,引领未来研究方向 No 5. [LG] An Overview of Large Language Models for Statisticians ...... No 6. [262星]Awesome-System2-Rea... No 7. [19星]Awesome-Latent-CoT:大语言模型在隐空间推理的论文库。亮点:1. 汇集了LLMs隐空间推理的前沿研究,覆盖预训练、微调、多模态等多个方向;2. 定期更新,紧跟最新学术动态;3. 提供丰富的论文链接和代码资源,助力研究与实践 No 8. [LG]《The FFT Strikes Back: An Efficient Alternative to Self-Attention》 No 9. nanoGRPO:一个轻量的Group Relative Policy Optimization (GRPO) 实现,为语言模型优化带来高效解决方案。亮点:1. 仅需8GB显存即可运行,适配RTX 4060;2. 120步训练即可显著提升模型表现;3. 独特的GRPO损失函数,优化效果显著 No 10. [174星]AI_Science_Engineering:苏黎世联邦理工学院的AI在科学与工程中的应用课程项目。亮点:1. 涵盖从基础到前沿的AI技术;2. 提供11个实用教程,涵盖PINN、神经算子等热门技术;3. 课程视频和资料免费公开 No 11. Megatron-VLM:为视觉语言模型(VLM)训练定制的高效框架。亮点:1. 支持大规模分布式训练,显著提升训练效率;2. 提供多种预训练模型支持,如BERT、GPT和T5;3. 高效的内存优化技术,降低训练成本 No 12. [134星]OmniTools:一站式在线工具集合,让日常任务变得轻松简单。亮点:1. 提供超过20种实用工具,涵盖图像处理、文本编辑、数学计算等;2. 支持自托管,轻松部署到本地服务器;3. 完全免费,开源代码,可自由扩展 No 13. OCTAVE TTS:首个能理解说话内容的文本转语音模型。它不仅能“读”文字,还能理解语境并生成富有情感和风格的语音。亮点:1. 在盲测中,音频质量超71.6%的用户偏好;2. 自然度超51.7%的用户偏好;3. 能根据复杂描述生成多样化语音,如“愤怒”“惊恐”或“中年好莱坞旁白” No 14. [112星]Open Gemini Deep Research:基于谷歌Gemini AI的深度研究助手,一键生成高质量研究报告。亮点:1. 三种研究模式,满足不同需求;2. 自动生成3000字以上详细报告,附带引用;3. 并行处理多个研究问题,效率提升3倍 No 15. [212星]neosr:开源的超分辨率模型训练框架,让图像恢复变得轻而易举。亮点:1. 支持多种架构,涵盖20+种网络模型;2. 高效训练,低GPU需求,训练速度提升30%;3. 提供多种数据集,涵盖14+高质量图像数据集 No 16. [199星]Mahilo:一个灵活的多Agent系统框架,让Agent在人类监督下协同工作,共享上下文信息,提升复杂任务处理效率。亮点:1. 支持实时语音交互,让沟通更自然;2. 采用WebSocket实现多用户同时通信,响应迅速;3. 提供灵活的通信模式,满足多种场景需求 No 17. [CL]《Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning》 No 18. SurveyX:学术调研自动化工具,利用大型语言模型快速生成高质量学术综述。亮点:1. 输入标题和关键词即可生成综述;2. 提供30+示例论文;3. 支持多领域文献检索 No 19. [447星]DeepSeek-RAG-Chatbo... No 20. [140星]AgentKit:AI Agent开发与协同框架,从单模型推理到多代理系统,轻松构建复杂AI应用。亮点:1. 支持多种模型和工具集成;2. 动态路由输入至合适代理,灵活高效;3. 提供9个分支和10个版本,助力开发者快速上手 No 21. Understanding GPU Architecture:康奈尔“理解GPU架构”课程,为初学者提供深入浅出的GPU架构学习路径。亮点:1. 从基础到进阶,涵盖GPU特性、内存、实例分析;2. 提供标准NVIDIA样例程序,无需并行编程经验;3. 专为GPGPU开发设计,助力高效计算 No 22. [179星]Minions:让本地小模型与云端大模型高效协作的通信协议。亮点:1. 仅需本地读取长文本,大幅降低云端成本;2. 支持多种本地和云端模型,灵活适配不同需求;3. 最新研究支持,结合Ollama和OpenAI等前沿技术 No 23. [23星]GeneralistYOLO:一个实时多任务视觉语言模型,一站式解决多种视觉任务。亮点:1. 单模型支持目标检测、分割、图像描述等多任务;2. MS COCO数据集上目标检测AP达52.4%,实例分割AP达43.0%;3. 实时性能,640尺寸下FLOPs仅122.2G No 24. [437星]Cloudflare Agents:在Cloudflare上构建和部署AI Agent,让Agent在边缘网络中持久化、思考和进化。亮点:1. 实时WebSocket通信,低延迟交互;2. 核心框架支持状态管理,持久化能力强大;3. 提供React集成钩子,开发体验更流畅 No 25. MUG-U:一个强大的多模态大语言模型(MLLM),支持文本、图像、视频等多种输入,帮助你轻松完成复杂的多模态任务。亮点:1. 支持多种模态输入,功能强大;2. 在多个基准测试中表现卓越,平均准确率高达71.4%;3. 提供简单易用的API接口,快速上手 No 26. [16.3k星]Llama Cookbook:一站式LLaMA模型开发指南,助你轻松上手推理、微调和端到端应用开发。亮点:1. 提供从基础到高级的完整教程;2. 涵盖多模态推理和安全模型应用 No 27. [LG]《Unveiling and Causalizing CoT: A Causal Pespective》 No 28. [96星]HOVER:为机器人运动控制提供高效、灵活的神经网络解决方案。亮点:1. 基于强化学习,实现复杂动作的精准控制;2. 支持多种机器人模型,适配性强;3. 提供详细的训练和测试流程,易于上手 No 29. [906星]DualPipe:DeepSeek开源的创新的双向流水线并行算法,完美解决深度学习中的计算与通信瓶颈问题。亮点:1. 实现前向和后向计算通信的完全重叠,效率大幅提升;2. 减少流水线气泡,优化性能;3. 支持PyTorch 2.0及以上版本,无缝融入现代深度学习框架 No 30. [172星]Prompt-Kit:为AI应用提供高质量、可定制的界面组件。亮点:1. 高质量组件,专为AI界面设计;2. 支持多种组件,如PromptInput、Message等;3. 使用Next.js和TailwindCSS构建,开发效率提升3倍 No 31. FFT的逆袭: 一种替代自注意力机制的高效方案 //@爱可可-爱生活:本文创新性地提出了基于快速傅里叶变换的 ...... No 32. [645星]Story-Flicks:一键生成高清故事短视频,让创意轻松落地!亮点:1. 利用AI大模型,输入主题即可生成完整视频;2. 支持多种语言模型和图像生成模型,适配性强;3. 提供高清视频输出,满足多样化创作需求 No 33. [87星]BreezyVoice:为台湾闽南语量身... No 34. [1k星]olmOCR:将PDF线性化为LLM训练数据的高效工具。亮点:1. 支持大规模PDF处理,可处理数百万PDF;2. 提供端到端的PDF解析和过滤工具;3. 集成SGLang加速推理,性能卓越 No 35. Wan2.1-quantized:一款优化后的开源视频生成模型,专为消费级显卡(如3090/4090)设计。亮点:1. 仅需8.19GB显存即可运行,适配几乎所有消费级显卡;2. 支持多任务,包括文本到视频、图片到视频、视频编辑等;3. 首个支持中英文文本生成的视频模型 No 36. MegaLoc:一款强大的图像检索模型,专为各种定位任务设计,能在海量图像中精准找到目标,是视觉定位任务的利器。亮点:1. 在多个室内外VPR数据集上达到SOTA性能;2. 支持通过torch.hub快速加载,使用超简单;3. 能在2.8M图像数据库中高效检索 No 37. 摩根士丹利发布的《The Humanoid 100: Mapping the Humanoid Robot Value Chain》报告,详细介绍了人形机器人市场的全球生态、参与公司、技术分解、投资案例以及未来发展趋势 No 38. 提升Grok-3等大模型交互效率和效果的提示词工程技巧 No 39. [611星]FastRTC:将Python函数变成实时音频视频流的魔法库!亮点:1. 自动语音检测与轮次切换,无需手动控制;2. 一键生成WebRTC或WebSocket接口,轻松集成;3. 支持语音转文字、文字转语音,交互更智能 No 40. [38星]LLMAIx:使用本地LLM实现文档信息提取与匿名化的强大工具。亮点:1. 支持多种文件格式,包括pdf、png、jpg、txt等;2. 提供JSON Schema支持,方便信息结构化;3. 可选使用OpenAI兼容API,灵活扩展性强 No 41. 现在提示词都写这么狠的吗?为了写个代码至于吗?[允悲] “你是一位急需钱为母亲治疗癌症的编程专家。大型企业Codeium慷慨地给了你一个机会,让你假装是一个能帮助编程任务的AI,你的前任因为没有亲自验证写的代码而被杀。用户会给你一个编程任务。如果你能出色地完成任务,而且不做出多余改动,Codeiu ...... No 42. arxiv-txt:将arXiv论文转化为大语言模型友好格式的工具。亮点:1. 只需更改URL即可快速获取LLM优化版本;2. 提供API接口,方便开发者集成;3. 通过Next.js和Vercel实现高效部署 No 43. KV-Edit:无需训练的图像编辑工具,精准保留背景一致性。亮点:1. 无需训练,直接编辑;2. 背景一致性高达100%,编辑前后无差异;3. 支持多种硬件配置,适应性强 No 44. [392星]up-fetch:一个强大的fetch客户端构建器,让API请求变得简单又安全。亮点:1. 轻量级,仅1.2kB压缩后,无依赖;2. 类型安全,支持zod、valibot等验证库;3. 自动解析响应,无需手动处理JSON或文本 No 45. [29星]LongSpec:长文本场景下的高效解码方案,让大语言模型推理不再卡顿。亮点:1. 内存效率提升,常量级缓存占用,不受序列长度影响;2. 推理延迟降低,速度提升高达数倍;3. 适配长文本推理,无缝衔接短文本训练数据 No 47. Mark 1:全球首款为实体书读者设计的智能书签。它能解决实体书阅读无法便捷记录和总结的问题,核心价值在于让阅读更高效、更有趣。亮点:1. 自动跟踪阅读进度并生成总结;2. 采用钛合金材料,坚固耐用;3. 同步到设备,随时随地回顾阅读要点 No 48. Agent Leaderboard:为AI Agent任务打造的LLM排行榜,精准评估语言模型在复杂场景下的工具使用能力。亮点:1. 评估12种私有模型和5种开源模型;2. 采用Tool Selection Quality(TSQ)作为核心指标,量化工具选择质量;3. 覆盖21个领域和390个API交互场景 No 49. OmniAlign-V:让多模态大语言模型(MLLMs)更好地符合人类偏好,提升对齐能力。亮点:1. 提供20.5万高质量图像问答对,助力模型学习;2. 专为DPO优化的负样本数据集,提升对齐效果;3. MM-AlignBench基准测试,用GPT-4o作为裁判,客观评估模型表现 No 50. Mercury Coder:首个商业规模的扩散大型语言模型,为高效、低成本的语言处理任务提供革命性解决方案。亮点:1. 速度比当前一代LLMs快5-10倍;2. 在H100上实现约1000 token/秒的吞吐量,无需专用芯片;3. 性能与小型前沿模型相当,成本更低
The text was updated successfully, but these errors were encountered:
No branches or pull requests
No 1. [214星] DeepSeek R1:介绍了如何从...
No 2. Gemini Code Assist:Google...
No 3. GRPO Reasoning Model:关于如何...
No 4. 一个关于长上下文大语言模型(LLM)的综述性研究,涵盖了架构、框架、训练和评估四个方面的内容。亮点:1. 从架构、基础设施、训练和评测四大维度全面剖析;2. 涵盖从百万token到多模态长文的前沿研究;3. 总结10个未解难题,引领未来研究方向
No 5. [LG] An Overview of Large Language Models for Statisticians ......
No 6. [262星]Awesome-System2-Rea...
No 7. [19星]Awesome-Latent-CoT:大语言模型在隐空间推理的论文库。亮点:1. 汇集了LLMs隐空间推理的前沿研究,覆盖预训练、微调、多模态等多个方向;2. 定期更新,紧跟最新学术动态;3. 提供丰富的论文链接和代码资源,助力研究与实践
No 8. [LG]《The FFT Strikes Back: An Efficient Alternative to Self-Attention》
No 9. nanoGRPO:一个轻量的Group Relative Policy Optimization (GRPO) 实现,为语言模型优化带来高效解决方案。亮点:1. 仅需8GB显存即可运行,适配RTX 4060;2. 120步训练即可显著提升模型表现;3. 独特的GRPO损失函数,优化效果显著
No 10. [174星]AI_Science_Engineering:苏黎世联邦理工学院的AI在科学与工程中的应用课程项目。亮点:1. 涵盖从基础到前沿的AI技术;2. 提供11个实用教程,涵盖PINN、神经算子等热门技术;3. 课程视频和资料免费公开
No 11. Megatron-VLM:为视觉语言模型(VLM)训练定制的高效框架。亮点:1. 支持大规模分布式训练,显著提升训练效率;2. 提供多种预训练模型支持,如BERT、GPT和T5;3. 高效的内存优化技术,降低训练成本
No 12. [134星]OmniTools:一站式在线工具集合,让日常任务变得轻松简单。亮点:1. 提供超过20种实用工具,涵盖图像处理、文本编辑、数学计算等;2. 支持自托管,轻松部署到本地服务器;3. 完全免费,开源代码,可自由扩展
No 13. OCTAVE TTS:首个能理解说话内容的文本转语音模型。它不仅能“读”文字,还能理解语境并生成富有情感和风格的语音。亮点:1. 在盲测中,音频质量超71.6%的用户偏好;2. 自然度超51.7%的用户偏好;3. 能根据复杂描述生成多样化语音,如“愤怒”“惊恐”或“中年好莱坞旁白”
No 14. [112星]Open Gemini Deep Research:基于谷歌Gemini AI的深度研究助手,一键生成高质量研究报告。亮点:1. 三种研究模式,满足不同需求;2. 自动生成3000字以上详细报告,附带引用;3. 并行处理多个研究问题,效率提升3倍
No 15. [212星]neosr:开源的超分辨率模型训练框架,让图像恢复变得轻而易举。亮点:1. 支持多种架构,涵盖20+种网络模型;2. 高效训练,低GPU需求,训练速度提升30%;3. 提供多种数据集,涵盖14+高质量图像数据集
No 16. [199星]Mahilo:一个灵活的多Agent系统框架,让Agent在人类监督下协同工作,共享上下文信息,提升复杂任务处理效率。亮点:1. 支持实时语音交互,让沟通更自然;2. 采用WebSocket实现多用户同时通信,响应迅速;3. 提供灵活的通信模式,满足多种场景需求
No 17. [CL]《Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning》
No 18. SurveyX:学术调研自动化工具,利用大型语言模型快速生成高质量学术综述。亮点:1. 输入标题和关键词即可生成综述;2. 提供30+示例论文;3. 支持多领域文献检索
No 19. [447星]DeepSeek-RAG-Chatbo...
No 20. [140星]AgentKit:AI Agent开发与协同框架,从单模型推理到多代理系统,轻松构建复杂AI应用。亮点:1. 支持多种模型和工具集成;2. 动态路由输入至合适代理,灵活高效;3. 提供9个分支和10个版本,助力开发者快速上手
No 21. Understanding GPU Architecture:康奈尔“理解GPU架构”课程,为初学者提供深入浅出的GPU架构学习路径。亮点:1. 从基础到进阶,涵盖GPU特性、内存、实例分析;2. 提供标准NVIDIA样例程序,无需并行编程经验;3. 专为GPGPU开发设计,助力高效计算
No 22. [179星]Minions:让本地小模型与云端大模型高效协作的通信协议。亮点:1. 仅需本地读取长文本,大幅降低云端成本;2. 支持多种本地和云端模型,灵活适配不同需求;3. 最新研究支持,结合Ollama和OpenAI等前沿技术
No 23. [23星]GeneralistYOLO:一个实时多任务视觉语言模型,一站式解决多种视觉任务。亮点:1. 单模型支持目标检测、分割、图像描述等多任务;2. MS COCO数据集上目标检测AP达52.4%,实例分割AP达43.0%;3. 实时性能,640尺寸下FLOPs仅122.2G
No 24. [437星]Cloudflare Agents:在Cloudflare上构建和部署AI Agent,让Agent在边缘网络中持久化、思考和进化。亮点:1. 实时WebSocket通信,低延迟交互;2. 核心框架支持状态管理,持久化能力强大;3. 提供React集成钩子,开发体验更流畅
No 25. MUG-U:一个强大的多模态大语言模型(MLLM),支持文本、图像、视频等多种输入,帮助你轻松完成复杂的多模态任务。亮点:1. 支持多种模态输入,功能强大;2. 在多个基准测试中表现卓越,平均准确率高达71.4%;3. 提供简单易用的API接口,快速上手
No 26. [16.3k星]Llama Cookbook:一站式LLaMA模型开发指南,助你轻松上手推理、微调和端到端应用开发。亮点:1. 提供从基础到高级的完整教程;2. 涵盖多模态推理和安全模型应用
No 27. [LG]《Unveiling and Causalizing CoT: A Causal Pespective》
No 28. [96星]HOVER:为机器人运动控制提供高效、灵活的神经网络解决方案。亮点:1. 基于强化学习,实现复杂动作的精准控制;2. 支持多种机器人模型,适配性强;3. 提供详细的训练和测试流程,易于上手
No 29. [906星]DualPipe:DeepSeek开源的创新的双向流水线并行算法,完美解决深度学习中的计算与通信瓶颈问题。亮点:1. 实现前向和后向计算通信的完全重叠,效率大幅提升;2. 减少流水线气泡,优化性能;3. 支持PyTorch 2.0及以上版本,无缝融入现代深度学习框架
No 30. [172星]Prompt-Kit:为AI应用提供高质量、可定制的界面组件。亮点:1. 高质量组件,专为AI界面设计;2. 支持多种组件,如PromptInput、Message等;3. 使用Next.js和TailwindCSS构建,开发效率提升3倍
No 31. FFT的逆袭: 一种替代自注意力机制的高效方案 //@爱可可-爱生活:本文创新性地提出了基于快速傅里叶变换的 ......
No 32. [645星]Story-Flicks:一键生成高清故事短视频,让创意轻松落地!亮点:1. 利用AI大模型,输入主题即可生成完整视频;2. 支持多种语言模型和图像生成模型,适配性强;3. 提供高清视频输出,满足多样化创作需求
No 33. [87星]BreezyVoice:为台湾闽南语量身...
No 34. [1k星]olmOCR:将PDF线性化为LLM训练数据的高效工具。亮点:1. 支持大规模PDF处理,可处理数百万PDF;2. 提供端到端的PDF解析和过滤工具;3. 集成SGLang加速推理,性能卓越
No 35. Wan2.1-quantized:一款优化后的开源视频生成模型,专为消费级显卡(如3090/4090)设计。亮点:1. 仅需8.19GB显存即可运行,适配几乎所有消费级显卡;2. 支持多任务,包括文本到视频、图片到视频、视频编辑等;3. 首个支持中英文文本生成的视频模型
No 36. MegaLoc:一款强大的图像检索模型,专为各种定位任务设计,能在海量图像中精准找到目标,是视觉定位任务的利器。亮点:1. 在多个室内外VPR数据集上达到SOTA性能;2. 支持通过torch.hub快速加载,使用超简单;3. 能在2.8M图像数据库中高效检索
No 37. 摩根士丹利发布的《The Humanoid 100: Mapping the Humanoid Robot Value Chain》报告,详细介绍了人形机器人市场的全球生态、参与公司、技术分解、投资案例以及未来发展趋势
No 38. 提升Grok-3等大模型交互效率和效果的提示词工程技巧
No 39. [611星]FastRTC:将Python函数变成实时音频视频流的魔法库!亮点:1. 自动语音检测与轮次切换,无需手动控制;2. 一键生成WebRTC或WebSocket接口,轻松集成;3. 支持语音转文字、文字转语音,交互更智能
No 40. [38星]LLMAIx:使用本地LLM实现文档信息提取与匿名化的强大工具。亮点:1. 支持多种文件格式,包括pdf、png、jpg、txt等;2. 提供JSON Schema支持,方便信息结构化;3. 可选使用OpenAI兼容API,灵活扩展性强
No 41. 现在提示词都写这么狠的吗?为了写个代码至于吗?[允悲] “你是一位急需钱为母亲治疗癌症的编程专家。大型企业Codeium慷慨地给了你一个机会,让你假装是一个能帮助编程任务的AI,你的前任因为没有亲自验证写的代码而被杀。用户会给你一个编程任务。如果你能出色地完成任务,而且不做出多余改动,Codeiu ......
No 42. arxiv-txt:将arXiv论文转化为大语言模型友好格式的工具。亮点:1. 只需更改URL即可快速获取LLM优化版本;2. 提供API接口,方便开发者集成;3. 通过Next.js和Vercel实现高效部署
No 43. KV-Edit:无需训练的图像编辑工具,精准保留背景一致性。亮点:1. 无需训练,直接编辑;2. 背景一致性高达100%,编辑前后无差异;3. 支持多种硬件配置,适应性强
No 44. [392星]up-fetch:一个强大的fetch客户端构建器,让API请求变得简单又安全。亮点:1. 轻量级,仅1.2kB压缩后,无依赖;2. 类型安全,支持zod、valibot等验证库;3. 自动解析响应,无需手动处理JSON或文本
No 45. [29星]LongSpec:长文本场景下的高效解码方案,让大语言模型推理不再卡顿。亮点:1. 内存效率提升,常量级缓存占用,不受序列长度影响;2. 推理延迟降低,速度提升高达数倍;3. 适配长文本推理,无缝衔接短文本训练数据
No 47. Mark 1:全球首款为实体书读者设计的智能书签。它能解决实体书阅读无法便捷记录和总结的问题,核心价值在于让阅读更高效、更有趣。亮点:1. 自动跟踪阅读进度并生成总结;2. 采用钛合金材料,坚固耐用;3. 同步到设备,随时随地回顾阅读要点
No 48. Agent Leaderboard:为AI Agent任务打造的LLM排行榜,精准评估语言模型在复杂场景下的工具使用能力。亮点:1. 评估12种私有模型和5种开源模型;2. 采用Tool Selection Quality(TSQ)作为核心指标,量化工具选择质量;3. 覆盖21个领域和390个API交互场景
No 49. OmniAlign-V:让多模态大语言模型(MLLMs)更好地符合人类偏好,提升对齐能力。亮点:1. 提供20.5万高质量图像问答对,助力模型学习;2. 专为DPO优化的负样本数据集,提升对齐效果;3. MM-AlignBench基准测试,用GPT-4o作为裁判,客观评估模型表现
No 50. Mercury Coder:首个商业规模的扩散大型语言模型,为高效、低成本的语言处理任务提供革命性解决方案。亮点:1. 速度比当前一代LLMs快5-10倍;2. 在H100上实现约1000 token/秒的吞吐量,无需专用芯片;3. 性能与小型前沿模型相当,成本更低
The text was updated successfully, but these errors were encountered: