这不只是初度正在界限上超越 DeepSeek-Math Corpus(120B)的开源数据集,更代表从「只靠网页」到「面向推理」的强大超过。短短数日时代,数据集下载量曾经来到 3 万余次,而且一连正在 Hugging Face 趋向榜上名列三甲。
正在现有主流闭源数学语料如 Qwen-2.5-Math(1T)和 DeepSeekMath(120B)一连涌现优异数学才干的同时,开源磋议社区长久缺乏等量级、等质料的数学数据。而今可用的开源数据集(如 OpenWebMath、FineMath)界限过幼,无法维持更大界限的模子演练;过滤太甚,导致数学样本量缺失多样性缺乏。
为处置这一痛点,MegaMath 团队本着「做穷困而准确的事项」为目的,以界限 × 质料 × 多样性为中央安排,历时 9 个月时代,修筑了一共绽放的数学推理数据底座。
若何修筑云云一个巨大的推理数据集呢?作家将他们要紧分为 3 块实质,并谨慎安排了分另表数据「流水线」,确保高效、高质料的数据开垦。
为了彻底优化数学文本的执掌流程,作家从新下载执掌了2014–2024 年间完全的 99 个 Common Crawl 文献包,并对互联网的数学文本提取举办一系列洪量的工程优化来确保数据质料:
而今常用的开源文本抽取器械对 HTML 中数学的元素并没有很好地执掌,团队以是开垦了一套HTML 布局优化的剧本,正在抽取前就提取和优化LaTeX、KaTeX、mathml 等元素中的公式音讯举办重构,以确保正在抽取时充实保存文本中的数学符号、公式和定理。
因为分别抽取器的执掌速率有区别,团队革新地采用了两段式提取门径,第一阶段看重功用,用火速的抽取器举办抽取 + 筛除非数学样本;第二阶段看重精度,用包括更多端正的执掌器进一步移除文本噪音和精致筛选出和数学强干系的数据。这使得 MegaMath 最终保存出数学强干系、且更整洁的大界限数学文本数据。
看待若何演练稳重而确实的文天职类器,团队也发掘了由于种子数据征采带来的分散偏移题目,以是正在第一阶段的粗筛之后通过从新征采种子数据演练分类器来举办二阶段筛选。
探求到目前磋议社区看待续演练(Continual Pre-training)、中期演练(Mid-Training)的渊博需求,作家还使用讲话模子对文本的教导代价进活跃态打分,再次过滤取得包括极高教导代价的数学子集,并进一步用 LLM 举办精辟,取得了远超开源任何数据集质料的子集;正在和现存最高质料的数据 FineMath 举办一对一平正比照时,也能明显抢先 4% 的下游机能。
代码数据被渊博验证,有利于提拔模子的数学展现、提拔模子使用「天生代码 + 实践求解」范式举办解题的才干。
以是,这是一份珍贵的数据范畴。MegaMath 正在现存最大的代码预演练数据集 Stack v2 中开采了数学干系代码块,同时连系团队之条件出的Programming Every Example(ProX)门径,使用(1)大模子评分(LLM scoring);(2)微调幼模子火速筛选(SLM filtering)的式样,高效洗涤出了包罗科学谋略、符号推理、逻辑圭表等范畴的代码数据,酿成 MegaMath-Code,一个包括28.1B tokens的数学干系语料,包括了共 11 种编程讲话,进一步增强了数据集的充裕水准。
近年来,合成数据曾经成为大模子演练不行缺失的一个别数据;更加是当古板的数据曾经被洪量挖掘和使用的环境下,合成数据代表了一类可一连被开垦的高质料数据源。这正在之前的开源预演练数据齐集,通俗是没有被探求的。
MegaMath 团队主动拥抱合成数据,并开源了预演练界限的高质料文本,包括(1)Q&A 问答阵势(处置数学题);(2)合成代码(跨讲话转为 Python);(3)文本 + 代码交叉数据(更靠近确切解题场景);完全样本都进程质料检测(包罗代码块的可实践性校验)。团队通过不绝优化 Prompt、简化工程安排,抵达正在融解实行中展现一共优于现有合成的基线。
这包罗:(1)文本抽取流程验证;(2)去重政策比照(正在呆板继承限度内寻求最优的 MinHash 去重政策);(3)fastText 过滤阈值、演练政策调优;(4)代码数据比重 & SLM 召回率融解;(5)合成政策的迭代。
为了检讨这些政策,完全的实行都正在足够大的标准下举办了预演练 + 下游评测的验证明验,用来为最终的计划和政策供应足够明显的实行信号。
实行表白,MegaMath 可能正在 GSM8K、MATH 等数 10 个规范数学劳动上赢得15–20% 的绝对提拔。这些数字实打实地诠释了 MegaMath 数据集正在数学推理上的明显后果。
作家生机,MegaMath 的揭晓,能正在肯定水准上促进开源数学预演练数据集正在界限、质料与多样性上的进一步生长,也生机 MegaMath 能成为修筑更强数学讲话模子的一个坚实起始,激勉更多来自学术界与工业界的互帮与革新。
正在迈向更强推理才干与更高智能上限的流程中,MegaMath 只是开始阶段的测试。行为一个戮力于绽放科学与开源磋议的团队,团队深知这项任务的寻事与限造,也万分感谢开源社区予以的诸多策动与帮帮。
额表谢谢 Hugging Face、DeepSeek、Qwen 等卓绝开源团队长久从此供应的模子、器械和数据计划,让团队有机遇站正在伟人的肩膀上一连打磨和完满这个任务。
上一篇:大数据采撷的设施大数据采撷与预治理据采撷设施有哪几大类大数据采撷东西有哪些 下一篇:大数据收集与预治理本事大数据收集的本事大数据收集东西