约瑟夫·陈 (Josef Chen) 表示,他将所有人类烹饪压缩为两兆字节。这是一个大胆的主张。它还检查出来。
伦敦食品 AI 初创公司 KAIKAKU.AI 的联合创始人兼首席执行官 Chen 本周与研究员 Jakub Radzikowski 一起在 arXiv 上发表了一篇论文,展示了 Epicure——三个 AI 模型,经过来自 11 个数据集的 414 万个食谱的训练七种语言。结果是:一张包含 1,790 种成分的地图,每种成分都由 300 个数字进行描述,符合您的电子邮件附件限制,并且还有剩余空间。
“410 万种食谱。7 种语言。1,790 种成分。300 个维度,”Chen 在 X 上写道。“所有人类烹饪都压缩到 2 兆字节。”
Launching our new paper on arXiv: we trained the largest multilingual food model ever built.
4.1M recipes. 7 languages. 1,790 ingredients. 300 dimensions.
All of human cooking compressed into 2 megabytes. pic.twitter.com/b4GiZ62UMt
— Josef Chen (@josefchen) May 26, 2026
它不存储食谱
在你想象一个 2MB 的 U 盘里塞满了炒菜指令之前,该模型并没有存储任何食谱。两兆字节与其说是一本食谱,不如说是一个坐标表。
将其视为一张地图。每种成分都会根据其在全球数百万种真实菜肴中的表现而获得精确的位置。数学很简单:1,790 种成分 × 每种成分 300 个数字 × 每个 4 字节 ≈ 2.05 兆字节。这些数字编码哪些成分一起出现,哪些成分共享风味化合物,哪些成分属于相同的烹饪传统。一旦模型从菜谱中学到了所有这些,菜谱就可以开始了。知识存在于坐标中。
这本质上与 2013 年在语言上使用的 word2vec 技巧相同,当时 Google 研究人员表明你可以进行有意义的算术运算。美食家就是这样做的。拿牛肉,把它指向美国,你会得到面包、生菜,也许还有啤酒。将其指向东南亚,模型就不再考虑汉堡和烧烤,而是开始考虑酱油、生姜和芝麻油。
这是通过论文中描述的称为 SLERP 旋转的转向操作员来实现的。选取一种种子成分——鸡肉——并以数学方式将其转向烹饪方向。 30 度时,您将开始看到德克萨斯-墨西哥领土。在 60 度的温度下,鸡肉和牛肉汇聚在同一个墨西哥食品储藏室中:玉米饼、莎莎酱、蒙特利杰克、波布拉诺辣椒。这个角度是“靠近这种成分”和“降落在新的地方”之间的转盘。
Epicure 提供三个版本,选择正确的版本取决于您实际询问的内容。 Cooc 从菜谱共现中学习,即真实菜肴中同时出现的菜品。 Chem 从风味化学中学习,哪些成分共享 FlavorDB 化学数据库中的香气化合物。核心是前两者的混合。
问 Cooc 什么与巧克力搭配,你可能会得到甜点储藏室的伴侣:可可粉、香草、杏仁。询问 Chem,您会得到风味化学同行:太妃糖、软糖、甘纳许。
相同的成分,不同的问题。寻找替代品的厨师与绘制风味兼容性的厨师有着不同的需求。
为什么这不是食品领域的 ChatGPT
美食家没有一般知识,没有语言生成,也没有能力对从未见过的成分产生幻觉。它知道 1,790 种成分。就这个模型而言,这就是整个世界。它在广度上放弃的东西却获得了可靠性——与食谱聊天机器人不同,如果你以错误的方式推动它们,它们会自信地建议毒药作为烹饪原料。
这里之前最先进的是 FlavorGraph,这是一个 2021 年的模型,将化学数据与纯英文 Recipe1M+ 数据集相结合。 Epicure 引入了四倍以上的多语言语料库,并清理了词汇以提高效率。
实际用途并不难想象。一位厨师询问东亚的地中海食材是什么样子的。食品开发人员询问哪些经过最低限度加工的交换物与添加剂处于相同的风味区域。当食品储藏室中缺少某种成分时,食谱应用程序需要进行连贯的替代。最后一个是专门构建的小型模型悄然超越大型通用模型的差距。
Epicure 论文是一份研究报告。经过训练的模型已在 Huging Face 上上线,交互式成分图可在 epicure.kaikaku.ai 上公开访问。他们甚至为您的代理发布了MCP。目前尚未发布完整的训练代码。
