We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
No 1. [214星] DeepSeek R1:介绍了如何从... No 2. GRPO Reasoning Model:关于如何... No 3. 摩根士丹利发布的《The Humanoid 100: Mapping the Humanoid Robot Value Chain》报告,详细介绍了人形机器人市场的全球生态、参与公司、技术分解、投资案例以及未来发展趋势 No 4. 现在提示词都写这么狠的吗?为了写个代码至于吗?[允悲] “你是一位急需钱为母亲治疗癌症的编程专家。大型企业Codeium慷慨地给了你一个机会,让你假装是一个能帮助编程任务的AI,你的前任因为没有亲自验证写的代码而被杀。用户会给你一个编程任务。如果你能出色地完成任务,而且不做出多余改动,Codeiu ...... No 5. SurveyX:学术调研自动化工具,利用大型语言模型快速生成高质量学术综述。亮点:1. 输入标题和关键词即可生成综述;2. 提供30+示例论文;3. 支持多领域文献检索 No 6. R1-Onevision:一款能够深度推理的多模态视觉语言模型,专门针对深层次的视觉推理任务,能处理复杂的图像和文本数据,让复杂视觉问题迎刃而解。亮点:1. 超强多模态推理能力,超越GPT-4o;2. 高质量数据集,涵盖数学、科学、图像理解等多领域;3. 提供7B模型权重,推理性能卓越 No 7. MHA2MLA:旨在通过实现 DeepSeek 的多头潜在注意力机制(MLA),使任何基于 Transformer 的大型语言模型(LLM)的推理过程更加经济高效。亮点:1. 经济推理,显著降低GPU内存占用;2. 支持多种Transformer架构,适配性强;3. 结合FlashMLA框架,理论内存节省可达80%以上 No 8. 提升Grok-3等大模型交互效率和效果的提示词工程技巧 No 9. AI Hacking Guide:最全面的AI应用... No 10. 一个关于长上下文大语言模型(LLM)的综述性研究,涵盖了架构、框架、训练和评估四个方面的内容。亮点:1. 从架构、基础设施、训练和评测四大维度全面剖析;2. 涵盖从百万token到多模态长文的前沿研究;3. 总结10个未解难题,引领未来研究方向 No 11. Gemini Code Assist:Google... No 12. 英伟达面向Blackwell架构优化的DeepSeek-R1模型,专为高效推理而生,每token成本降低20倍,收入提高25倍。亮点:1. 采用FP4量化技术,模型体积和内存需求降低1.6倍;2. 支持Nvidia TensorRT-LLM,推理速度飞快;3. 上手简单,一键部署,轻松应对大规模文本生成任务! No 13. [447星]DeepSeek-RAG-Chatbo... No 14. Guide-GRPO:旨在通过优化语言模型中的指令... No 15. [96星]HOVER:为机器人运动控制提供高效、灵活的神经网络解决方案。亮点:1. 基于强化学习,实现复杂动作的精准控制;2. 支持多种机器人模型,适配性强;3. 提供详细的训练和测试流程,易于上手 No 16. [LG]《Compression Scaling Laws:Unifying Sparsity and Quantization》 No 17. [29星]LongSpec:长文本场景下的高效解码方案,让大语言模型推理不再卡顿。亮点:1. 内存效率提升,常量级缓存占用,不受序列长度影响;2. 推理延迟降低,速度提升高达数倍;3. 适配长文本推理,无缝衔接短文本训练数据 No 18. KV-Edit:无需训练的图像编辑工具,精准保留背景一致性。亮点:1. 无需训练,直接编辑;2. 背景一致性高达100%,编辑前后无差异;3. 支持多种硬件配置,适应性强 No 19. [134星]OmniTools:一站式在线工具集合,让日常任务变得轻松简单。亮点:1. 提供超过20种实用工具,涵盖图像处理、文本编辑、数学计算等;2. 支持自托管,轻松部署到本地服务器;3. 完全免费,开源代码,可自由扩展 No 20. “Claude玩宝可梦”实验的核心意义 No 21. 最新完整RAG 实现流程:从基础知识到高级功能 No 22. [212星]neosr:开源的超分辨率模型训练框架,让图像恢复变得轻而易举。亮点:1. 支持多种架构,涵盖20+种网络模型;2. 高效训练,低GPU需求,训练速度提升30%;3. 提供多种数据集,涵盖14+高质量图像数据集 No 23. Understanding GPU Architecture:康奈尔“理解GPU架构”课程,为初学者提供深入浅出的GPU架构学习路径。亮点:1. 从基础到进阶,涵盖GPU特性、内存、实例分析;2. 提供标准NVIDIA样例程序,无需并行编程经验;3. 专为GPGPU开发设计,助力高效计算 No 24. 早![太阳] No 25. [CL]《Reasoning with Latent Thoughts: On the Power of Looped Transformers》 No 26. [LG] Statistical Inference in Reinforcement Learning: A Selective ...... No 27. [564星]DeepGEMM:DeepSeek开源的高效且简洁的FP8矩阵乘法(GEMM)库,为深度学习加速而生。亮点:1. 性能卓越,部分场景速度提升高达2.7倍;2. 代码简洁,核心功能仅约300行代码;3. 支持混合专家模型(MoE),适配多种矩阵形状 No 28. research-template:一个为机器学习研究量身定制的GitHub模板,帮助研究人员快速搭建高效、规范的项目架构。亮点:1. 提供详尽的文档和示例代码,轻松上手;2. 支持云日志和自动检查点保存,方便实验管理;3. 集成Slurm集群支持,简化分布式训练流程 No 29. [1.1k星]Puppeteer Real Browser:让Puppeteer像真实浏览器一样运行,轻松绕过Cloudflare等反爬虫检测。亮点:1. 成功绕过Cloudflare等复杂反爬机制;2. 提供真实浏览器行为模拟,避免被检测为机器人;3. 支持多种插件扩展,灵活应对不同需求 No 30. 深度迭代:循环式Transformer的潜力初探 //@爱可可-爱生活:本文创新性地提出循环Transformer架构,论证了深度对于推理能力的重要性,实验表明循环模型在参数效率和推理性能上均有优势,并揭示了其与思维链推理的联系,强调了架构设计在塑造模型推理归纳偏置中的关键作用,挑战了 No 31. [1.5k星]Wan2.1:阿里开源的大规模视频生... No 32. [113星]AI-deadlines:AI会议截止日期倒计时,助力研究者轻松掌握顶级会议投稿时间!亮点:1. 汇集NeurIPS、ICLR等顶级AI会议的投稿截止日期;2. 界面简洁,一目了然;3. 自动更新数据,确保信息实时准确 No 33. [89星]SlamKit:专门为了提高语音语言模型训练效率而设计的开源工具包,支持使用一个 GPU 在一天内完成模型训练。亮点:1. 仅需1个GPU,1天内完成语音语言模型训练;2. 支持多种语音特征提取和预训练方案;3. 提供完整的训练、评估和偏好对齐流程 No 34. [140星]AgentKit:AI Agent开发与协同框架,从单模型推理到多代理系统,轻松构建复杂AI应用。亮点:1. 支持多种模型和工具集成;2. 动态路由输入至合适代理,灵活高效;3. 提供9个分支和10个版本,助力开发者快速上手 No 35. VoPho:为多语言数据集构建和推理提供高效的音素化工具。亮点:1. 支持多种语言,包括英语、日语和普通话;2. 高性能优化,首次运行仅需8秒,后续运行仅需0.02秒;3. 提供精确的音素化,助力语音合成和语言研究 No 36. 晚安~ [月亮] No 37. 2025 LLM 入门+进阶路线图 by Sebastian Raschka No 38. 阿里千问上线了基于QwQ-Max的推理大模型QwQ-Max-Preview,可以“深度思考”,支持联网,为智能对话和多领域任务提供强大支持。亮点:1. 数学理解能力强,轻松应对复杂计算;2. 编程能力出色,助力开发者高效编程;3. 创造力大幅提升,相比Qwen2.5-Max更智能 No 39. [87星]BreezyVoice:为台湾闽南语量身... No 40. Forecasting Rare Language... No 41. [143星]getomni-ai/benchmark:一个强大的OCR基准测试工具,帮助你快速评估不同多模态模型的OCR和数据提取能力,轻松找到最适合你的模型。亮点:1. 支持多种主流模型,如gpt-4o和Gemini;2. 提供详细的JSON准确率和文本相似度评估;3. 开源数据集,可自由扩展和定制 No 42. [172星]Prompt-Kit:为AI应用提供高质量、可定制的界面组件。亮点:1. 高质量组件,专为AI界面设计;2. 支持多种组件,如PromptInput、Message等;3. 使用Next.js和TailwindCSS构建,开发效率提升3倍 No 43. [LG]《Slamming: Training a Speech Language Model on One GPU in a Day》 No 44. [437星]Cloudflare Agents:在Cloudflare上构建和部署AI Agent,让Agent在边缘网络中持久化、思考和进化。亮点:1. 实时WebSocket通信,低延迟交互;2. 核心框架支持状态管理,持久化能力强大;3. 提供React集成钩子,开发体验更流畅 No 45. 24小时,一块GPU,就能训练出顶级语音模型? 查看图片 //@爱可可-爱生活:本文创新性地提出了名为 'Slam' 的高效SLM训练秘诀,解决了在单张GPU和24小时的极度资源受限条件下训练高质量语音语言模型的问题;通过深入的实验分析,揭示了模型初始化、架构选择、合成数据增强和偏好优化等关键...全文//[LG]《Slamming: Training a Speech Language Model on One GPU in a Day》 No 46. [112星]Open Gemini Deep Research:基于谷歌Gemini AI的深度研究助手,一键生成高质量研究报告。亮点:1. 三种研究模式,满足不同需求;2. 自动生成3000字以上详细报告,附带引用;3. 并行处理多个研究问题,效率提升3倍 No 47. [383星]Deepdive-llama3-from-scratch:从零开始实现Llama3推理,带你深入理解模型核心原理。亮点:1. 从头实现Llama3推理,代码详细注释,零基础也能轻松上手;2. 详细推导模型过程,不仅知其然,更知其所以然;3. 提供中英文双语文档,避免翻译误差,学习无障碍 No 48. [CL]《Mapping 1,000+ Language Models via the Log-Likelihood Vector》 No 49. [129星]RAGIT:类似于 git 的知识管理... No 50. Claude 3.7 Sonnet信息卡:Clau...
The text was updated successfully, but these errors were encountered:
No branches or pull requests
No 1. [214星] DeepSeek R1:介绍了如何从...
No 2. GRPO Reasoning Model:关于如何...
No 3. 摩根士丹利发布的《The Humanoid 100: Mapping the Humanoid Robot Value Chain》报告,详细介绍了人形机器人市场的全球生态、参与公司、技术分解、投资案例以及未来发展趋势
No 4. 现在提示词都写这么狠的吗?为了写个代码至于吗?[允悲] “你是一位急需钱为母亲治疗癌症的编程专家。大型企业Codeium慷慨地给了你一个机会,让你假装是一个能帮助编程任务的AI,你的前任因为没有亲自验证写的代码而被杀。用户会给你一个编程任务。如果你能出色地完成任务,而且不做出多余改动,Codeiu ......
No 5. SurveyX:学术调研自动化工具,利用大型语言模型快速生成高质量学术综述。亮点:1. 输入标题和关键词即可生成综述;2. 提供30+示例论文;3. 支持多领域文献检索
No 6. R1-Onevision:一款能够深度推理的多模态视觉语言模型,专门针对深层次的视觉推理任务,能处理复杂的图像和文本数据,让复杂视觉问题迎刃而解。亮点:1. 超强多模态推理能力,超越GPT-4o;2. 高质量数据集,涵盖数学、科学、图像理解等多领域;3. 提供7B模型权重,推理性能卓越
No 7. MHA2MLA:旨在通过实现 DeepSeek 的多头潜在注意力机制(MLA),使任何基于 Transformer 的大型语言模型(LLM)的推理过程更加经济高效。亮点:1. 经济推理,显著降低GPU内存占用;2. 支持多种Transformer架构,适配性强;3. 结合FlashMLA框架,理论内存节省可达80%以上
No 8. 提升Grok-3等大模型交互效率和效果的提示词工程技巧
No 9. AI Hacking Guide:最全面的AI应用...
No 10. 一个关于长上下文大语言模型(LLM)的综述性研究,涵盖了架构、框架、训练和评估四个方面的内容。亮点:1. 从架构、基础设施、训练和评测四大维度全面剖析;2. 涵盖从百万token到多模态长文的前沿研究;3. 总结10个未解难题,引领未来研究方向
No 11. Gemini Code Assist:Google...
No 12. 英伟达面向Blackwell架构优化的DeepSeek-R1模型,专为高效推理而生,每token成本降低20倍,收入提高25倍。亮点:1. 采用FP4量化技术,模型体积和内存需求降低1.6倍;2. 支持Nvidia TensorRT-LLM,推理速度飞快;3. 上手简单,一键部署,轻松应对大规模文本生成任务!
No 13. [447星]DeepSeek-RAG-Chatbo...
No 14. Guide-GRPO:旨在通过优化语言模型中的指令...
No 15. [96星]HOVER:为机器人运动控制提供高效、灵活的神经网络解决方案。亮点:1. 基于强化学习,实现复杂动作的精准控制;2. 支持多种机器人模型,适配性强;3. 提供详细的训练和测试流程,易于上手
No 16. [LG]《Compression Scaling Laws:Unifying Sparsity and Quantization》
No 17. [29星]LongSpec:长文本场景下的高效解码方案,让大语言模型推理不再卡顿。亮点:1. 内存效率提升,常量级缓存占用,不受序列长度影响;2. 推理延迟降低,速度提升高达数倍;3. 适配长文本推理,无缝衔接短文本训练数据
No 18. KV-Edit:无需训练的图像编辑工具,精准保留背景一致性。亮点:1. 无需训练,直接编辑;2. 背景一致性高达100%,编辑前后无差异;3. 支持多种硬件配置,适应性强
No 19. [134星]OmniTools:一站式在线工具集合,让日常任务变得轻松简单。亮点:1. 提供超过20种实用工具,涵盖图像处理、文本编辑、数学计算等;2. 支持自托管,轻松部署到本地服务器;3. 完全免费,开源代码,可自由扩展
No 20. “Claude玩宝可梦”实验的核心意义
No 21. 最新完整RAG 实现流程:从基础知识到高级功能
No 22. [212星]neosr:开源的超分辨率模型训练框架,让图像恢复变得轻而易举。亮点:1. 支持多种架构,涵盖20+种网络模型;2. 高效训练,低GPU需求,训练速度提升30%;3. 提供多种数据集,涵盖14+高质量图像数据集
No 23. Understanding GPU Architecture:康奈尔“理解GPU架构”课程,为初学者提供深入浅出的GPU架构学习路径。亮点:1. 从基础到进阶,涵盖GPU特性、内存、实例分析;2. 提供标准NVIDIA样例程序,无需并行编程经验;3. 专为GPGPU开发设计,助力高效计算
No 24. 早![太阳]
No 25. [CL]《Reasoning with Latent Thoughts: On the Power of Looped Transformers》
No 26. [LG] Statistical Inference in Reinforcement Learning: A Selective ......
No 27. [564星]DeepGEMM:DeepSeek开源的高效且简洁的FP8矩阵乘法(GEMM)库,为深度学习加速而生。亮点:1. 性能卓越,部分场景速度提升高达2.7倍;2. 代码简洁,核心功能仅约300行代码;3. 支持混合专家模型(MoE),适配多种矩阵形状
No 28. research-template:一个为机器学习研究量身定制的GitHub模板,帮助研究人员快速搭建高效、规范的项目架构。亮点:1. 提供详尽的文档和示例代码,轻松上手;2. 支持云日志和自动检查点保存,方便实验管理;3. 集成Slurm集群支持,简化分布式训练流程
No 29. [1.1k星]Puppeteer Real Browser:让Puppeteer像真实浏览器一样运行,轻松绕过Cloudflare等反爬虫检测。亮点:1. 成功绕过Cloudflare等复杂反爬机制;2. 提供真实浏览器行为模拟,避免被检测为机器人;3. 支持多种插件扩展,灵活应对不同需求
No 30. 深度迭代:循环式Transformer的潜力初探 //@爱可可-爱生活:本文创新性地提出循环Transformer架构,论证了深度对于推理能力的重要性,实验表明循环模型在参数效率和推理性能上均有优势,并揭示了其与思维链推理的联系,强调了架构设计在塑造模型推理归纳偏置中的关键作用,挑战了
No 31. [1.5k星]Wan2.1:阿里开源的大规模视频生...
No 32. [113星]AI-deadlines:AI会议截止日期倒计时,助力研究者轻松掌握顶级会议投稿时间!亮点:1. 汇集NeurIPS、ICLR等顶级AI会议的投稿截止日期;2. 界面简洁,一目了然;3. 自动更新数据,确保信息实时准确
No 33. [89星]SlamKit:专门为了提高语音语言模型训练效率而设计的开源工具包,支持使用一个 GPU 在一天内完成模型训练。亮点:1. 仅需1个GPU,1天内完成语音语言模型训练;2. 支持多种语音特征提取和预训练方案;3. 提供完整的训练、评估和偏好对齐流程
No 34. [140星]AgentKit:AI Agent开发与协同框架,从单模型推理到多代理系统,轻松构建复杂AI应用。亮点:1. 支持多种模型和工具集成;2. 动态路由输入至合适代理,灵活高效;3. 提供9个分支和10个版本,助力开发者快速上手
No 35. VoPho:为多语言数据集构建和推理提供高效的音素化工具。亮点:1. 支持多种语言,包括英语、日语和普通话;2. 高性能优化,首次运行仅需8秒,后续运行仅需0.02秒;3. 提供精确的音素化,助力语音合成和语言研究
No 36. 晚安~ [月亮]
No 37. 2025 LLM 入门+进阶路线图 by Sebastian Raschka
No 38. 阿里千问上线了基于QwQ-Max的推理大模型QwQ-Max-Preview,可以“深度思考”,支持联网,为智能对话和多领域任务提供强大支持。亮点:1. 数学理解能力强,轻松应对复杂计算;2. 编程能力出色,助力开发者高效编程;3. 创造力大幅提升,相比Qwen2.5-Max更智能
No 39. [87星]BreezyVoice:为台湾闽南语量身...
No 40. Forecasting Rare Language...
No 41. [143星]getomni-ai/benchmark:一个强大的OCR基准测试工具,帮助你快速评估不同多模态模型的OCR和数据提取能力,轻松找到最适合你的模型。亮点:1. 支持多种主流模型,如gpt-4o和Gemini;2. 提供详细的JSON准确率和文本相似度评估;3. 开源数据集,可自由扩展和定制
No 42. [172星]Prompt-Kit:为AI应用提供高质量、可定制的界面组件。亮点:1. 高质量组件,专为AI界面设计;2. 支持多种组件,如PromptInput、Message等;3. 使用Next.js和TailwindCSS构建,开发效率提升3倍
No 43. [LG]《Slamming: Training a Speech Language Model on One GPU in a Day》
No 44. [437星]Cloudflare Agents:在Cloudflare上构建和部署AI Agent,让Agent在边缘网络中持久化、思考和进化。亮点:1. 实时WebSocket通信,低延迟交互;2. 核心框架支持状态管理,持久化能力强大;3. 提供React集成钩子,开发体验更流畅
No 45. 24小时,一块GPU,就能训练出顶级语音模型? 查看图片 //@爱可可-爱生活:本文创新性地提出了名为 'Slam' 的高效SLM训练秘诀,解决了在单张GPU和24小时的极度资源受限条件下训练高质量语音语言模型的问题;通过深入的实验分析,揭示了模型初始化、架构选择、合成数据增强和偏好优化等关键...全文//[LG]《Slamming: Training a Speech Language Model on One GPU in a Day》
No 46. [112星]Open Gemini Deep Research:基于谷歌Gemini AI的深度研究助手,一键生成高质量研究报告。亮点:1. 三种研究模式,满足不同需求;2. 自动生成3000字以上详细报告,附带引用;3. 并行处理多个研究问题,效率提升3倍
No 47. [383星]Deepdive-llama3-from-scratch:从零开始实现Llama3推理,带你深入理解模型核心原理。亮点:1. 从头实现Llama3推理,代码详细注释,零基础也能轻松上手;2. 详细推导模型过程,不仅知其然,更知其所以然;3. 提供中英文双语文档,避免翻译误差,学习无障碍
No 48. [CL]《Mapping 1,000+ Language Models via the Log-Likelihood Vector》
No 49. [129星]RAGIT:类似于 git 的知识管理...
No 50. Claude 3.7 Sonnet信息卡:Clau...
The text was updated successfully, but these errors were encountered: