The US move to release the "America First Investment Policy" memorandum seriously affects normal economic and trade ...
上述研究均来自谷歌新作《SFT Memorizes, RL Generalizes: AComparative Study of Foundation Model Post-training》。 目前看起来这篇论文的研究结果跟DeepSeek以及o系列推理模型的训练报告都非常契合,特别是DeepSeek-R1的“SFT->RL->增强SFT->增强RL”这种左脚踩右脚直接起飞的操作。