BATCH - 搜索 News

Recently, the reporter learned from the Human Resource and Social Security Department of Guangxi that the department has successfully processed a batch of electronic social security cards with informa ...

腾讯网10 小时

100行纯JAX代码，完美复现Llama 3！

作为一个基于 Transformer 架构的解码器，LLaMA 3 在计算效率和可扩展性方面进行了创新。而复现大模型有多难？在最新的技术探索中，开发者 Saurabh 利用纯 JAX 成功实现了 LLaMA 3 ...

腾讯网6 小时

揭开DeepSeek-R1的神秘面纱：GRPO 核心技术详解

相信各位做LLM的朋友春节期间都已经被DeepSeek-R1给刷屏了，如果有阅读过DeepSeek-R1技术报告的朋友肯定都被其中的一个核心技术GRPO给吸引了，那么今天就来给大家过一过强化学习的瘾，仔细解读一波。作者：ethanGRPO技术背景GR ...

14 小时

10美元成功复现DeepSeek顿悟时刻，3B模型爆发超强推理！微软论文反驳 ...

结果，令人出乎意料的事情发生了：只用不到10美元的成本，他就在一个3B模型上复刻了DeepSeek的顿悟时刻。几乎就像是这个3B模型本身就具备了做出惊人事情的潜力，我们需要的，只是通过正确的方式赋予它一定的自主性而已。

三亚新闻网13 小时

三亚黄秋葵，出口迪拜！

时下，正值三亚黄秋葵上市季。今年，三亚黄秋葵首次走出国门，登上迪拜百姓餐桌。春节前，黄秋葵、芒果、木瓜等一批三亚农产品搭乘专机，从海口美兰国际机场出发飞往迪拜，该批果蔬抵达迪拜清关后，迅速被分拣运送到各大商场、超市酒店和餐厅，让迪拜的消费者能第一时间 ...

3 天

领康时代长春CDMO基地成功整合，打造全球一体化生物制药服务平台

长春新区是由国务院批复设立的第17个国家级新区，承担着国家赋予的“创新经济发展示范区”、“新一轮东北振兴重要引擎”、“图们江合作开发重要平台”、“体制机制改革先行区”的定位要求，享有副省级行政管理和审批权限。长春新区范围包括长春高新技术产业开发区、长 ...

20 小时

谷歌超硬核教科书来了，Jeff Dean带货揭Gemini训练秘籍：在TPU上scaling

近日，谷歌DeepMind科学家Jacob Austint在X上，发布了基于JAX和TPU的大模型Scaling教科书《How to Sacle Your Model》。进入教科书网站，可以看到大写的标题：「如何扩大模型规模（ How ...

BBRTV北部湾在线3 天

China-Laos border port clears 31 metric tons of medicinal herbs for the first time

On Wednesday, 31 metric tons of Chinese medicinal herbs from Laos entered China through the Mengkang Port on the China-Laos ...

SHINE29 天

China approves 52 bln yuan in 2nd batch of pilot programs for long-term stock investments

China's financial regulatory authority has approved the launch of the second batch of pilot programs for long-term stock investments, with a scale of 52 billion yuan (7.25 billion US dollars). China ...

4 天

除了利用DPPA和活性醇反应制备叠氮化物，现在又有了新方法！

利用DPPA通过Mitsunobu反应取代羟基合成叠氮化物的文章（点击：），但 Mitsunobu反应会生成大量的副产物，不易纯化。下面介绍一种可以得到相同产物的方法，利用DPPA和DBU，可以取代羟基得到构型翻转的叠氮化物，此反应生成副产物 ...

红板报 on MSN12 天

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

豆包大模型团队投稿量子位 | 公众号 QbitAI 字节出了个全新架构，把推理成本给狠狠地打了下去！有多狠？推理速度相比MoE架构提升2-6倍，推理成本最高可降低83%。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果