您现在的位置：返回首页

田渊栋给OpenAI神秘Q项目泼冷水：合成数据不是AGI救星能力仅限简单数学题

发布时间: 2023-11-28 20:24 文章来源: 互联网作者: admin

　　AI大牛田渊栋也详细分析了一番，「Q*=Q-learning+A*」的假设，究竟有多大可能性。

　　然而，学习这样的新模式是否需要数十亿的数据，仍是一个未决问题，这可能表明，我们的架构/学习范式存在一些根本性缺陷。

　　而英伟达高级科学家Jim Fan也对此表示同意:合成数据将发挥重要作用，但仅仅是通过盲目扩展，并不足以达到 AGI。

　　田渊栋表示，根据自己过去在 OpenGo（AlphaZero 的再现）上的经验，A* 可被视为只带有值(即启发式)函数Q的确定性MCTS版本。

　　A*很适用于这样的任务:给定行动后，状态很容易评估;但给定状态后，行动却很难预测。符合这种情况的一个典型例子，就是数学问题。

　　相比之下，围棋却是另一番景象:下一步候选棋相对容易预测（只需通过检查局部形状），但要评估棋盘形势，就棘手得多。

　　对于LLM，使用 Q（s，a）可能会有额外的优势，因为评估 Q(s，a) 可能只需要预填充，而预测策略a = pi(s) ，则需要自回归采样，这就要慢得多。另外，在只使用解码器的情况下，s的KV缓存可以在多个操作中共享。

　　田渊栋表示，自己是这样猜测的:因为解决的入门级数学问题，所以值函数设置起来应该相对容易一些（例如，可以从自然语言形式的目标规范中预测）。

　　LeCun转发了田渊栋的讨论，对他的观点表示赞同——「他解释了A*（在图形中搜索最短路径）和MCTS(在指数增长的树中搜索)之间适用性的差异。」

　　对于LeCun的转发，田渊栋表示，自己一直在做许多不同的事情，包括规划、理解Transformers/LLM和高效的优化技术，希望能把这些技术都结合起来。

　　有网友表示怀疑称，「要使A*有效，就需要一个可证明的、可接受且一致的启发式函数。但我非常怀疑能有人想出这样的函数，因为确定子序列的值并不容易。」

　　对大模型稍微有些了解的人都知道，如果拥有解决基本数学问题的能力，就意味着模型的能力取得了重大飞跃。

　　AI训练初创公司Tromero的联合创始人Charles Higgins表示，现在困扰大模型的关键按难题，就是怎样对抽象概念进行逻辑推理，如果实现了这一步，就是毫无疑问的重大飞跃。

　　如果Q*的确就是Q-learning+A*，这就表明，OpenAI的全新模型可以将支持ChatGPT的深度学习技术与人类编程的规则相结合。而这种方法，可以帮助解决LLM的幻觉难题。

　　Tromero联创Sophia Kalanovska表示，这具有非常重要的象征意义，但在实践层面上，它不太可能会终结世界。

　　Kalanovska认为，从目前传出的说法看来，Q*能够结合大脑的两侧，既能从经验中了解一些事情，还能同时推理事实。

　　显然，这就离我们公认的智能又近了一步，因为Q*很可能让大模型有了新的想法，而这是ChatGPT做不到的。

　　萨里人类中心AI研究所的所长Andrew Rogoyski表示，现在已有的大模型，都可以做本科水平的数学题，但一旦遇到更高级的数学题，它们就全部折戟了。

　　但如果LLM真的能够解决全新的、看不见的问题，这就是一件大事，即使做出的数学题是相对简单的。

　　Q*的爆火引起一众大佬的猜想，而对于传闻中「巨大的计算资源，使新模型能够解决某些数学问题」，大佬们猜测这重要的一步有可能是RLAIF（来自 AI 反馈的强化学习）。

　　RLAIF是一种由现成的 LLM 代替人类标记偏好的技术，通过自动化人工反馈，使针对LLM的对齐操作更具可扩展性。

　　之前在LLM训练中大放异彩的RLHF（基于人类反馈的强化学习）可以有效地将大型语言模型与人类偏好对齐，但收集高质量的人类偏好标签是一个关键瓶颈。

　　于是Anthropic、Google等公司已经尝试转向RLAIF，使用AI来代替人类完成反馈训练的过程。

　　这也就意味着，合成数据才是王道，并且使用树形结构为以后提供越来越多的选择，以得出正确的答案。

　　「我敢打赌，大多数严肃的LLM小组都知道这一点。关键问题是如何保持质量并避免过早停滞不前。」

　　Jim Fan还引用了Richard S. Sutton的文章《The Bitter Lesson》，来说明，人工智能的发展只有两种范式可以通过计算无限扩展:学习和搜索。

　　「在撰写这篇文章的2019年是正确的，而今天也是如此，我敢打赌，直到我们解决 AGI 的那一天。」

　　Richard S. Sutton是加拿大皇家学会和英国皇家学会的院士，他被认为是现代计算强化学习的创始人之一，对该领域做出了多项重大贡献，包括时间差异学习和策略梯度方法。

　　利用计算的通用方法最终是最有效的，而且效率很高。但有效的原因在于摩尔定律，更确切地说是由于每单位计算成本持续呈指数下降。

　　最初，研究人员努力通过利用人类知识或游戏的特殊功能来避免搜索，而一旦搜索得到大规模有效应用，所有这些努力都会显得无关紧要。

　　统计方法再次战胜了基于人类知识的方法，这导致了整个自然语言处理领域的重大变化，几十年来，统计和计算逐渐成为了主导。

　　人工智能研究人员经常试图将知识构建到系统中，这在短期内是有帮助的，但从长远来看，有可能会阻碍进一步的进展。

　　心灵的实际内容是极其复杂的，我们应该停止尝试寻找简单的方法来表示思想，相反，我们应该只构建可以找到并捕获这种任意复杂性的元方法。

　　——所以，看起来Q*似乎抓住了问题的关键（搜索和学习），而合成数据将进一步使它突破以往的限制，达成自己的飞跃。

　　「如果我们能大规模模拟它们，大量的合成数据将来自具身智能体，例如Tesla Optimus。」

　　Jim Fan认为 RLAIF 或者来自 groundtruth 反馈的 RLAIF 如果正确扩展将有很长的路要走。此外，合成数据还包括模拟器，原则上可以帮助LLM开发世界模型。

　　LeCun于是给出一个例子作为解释，人类用于承接几百万年进化成果的手段只有基因，而人类基因组中的数据量很小，只有800MB。

　　连一个小型的7B LLM 都需要14GB的存储空间，相比之下，人类基因中确实没有太多的数据。

　　另外，黑猩猩和人类基因组之间的差异约为1%（8MB）。这一点点差别完全不足以解释人与黑猩猩之间能力的差异。

　　而说到后天学习的数据量，一个2岁的孩子看到的视觉数据总量是非常小的，他所有的学习时间约3200万秒（2x365x12x3600）。

　　人类有200万根光神经纤维，每根神经纤维每秒传输大约10个字节。——这样算下来总共有6E14个字节。

　　相比之下，LLM 训练的数据量通常为1E13个token，约为2E13个字节。——所以2岁孩子获得的数据量只相当于LLM的30倍。

　　不论大佬们的争论如何，大型科技公司如Google、Anthropic、Cohere 等正在通过过程监督或类似 RLAIF 的方法创建预训练大小的数据集，为此耗费了巨大的资源。

　　所以大家都清楚，合成数据是扩大数据集的捷径。在短期内，我们显然可以利用它创建一些有用的数据。

　　11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

　　“出局-跳槽-返岗”，5天之后，SamAltman最终重新拿回CEO一职，与力挺他的原董事会主席GregBrockman一同回到了OpenAI。当人们以为这家AI巨头上演的宫斗剧彻底落下帷幕时，路透社甩出一个大瓜:在Altman被罢免之前，OpenAI几位研究人员向董事会发出警告信，内容是一项强大的人工智能发现可能威胁人类这封信可能是Altman下台的关键。”如今，Altman杀回来了，相信这个善于制造热点、运作资本的商业领袖，必然不会让人错过有关Q*的消息。

　　近期报道揭示了OpenAI正在进行的秘密研究项目，名为Q*，这被认为是迈向通用人工智能的一项重大进步。该项目由OpenAI的首席科学家IlyaSutskevar以及其他杰出的研究人员，如JakubPachocki和SzymonSidor共同创建。这一秘密研究的进展离通用人工智能的实现又更近了一步。

　　根据OpenAI的说法，其非营利董事会的六名成员将决定公司何时「实现AGI」，即它所定义的「在大多数具有经济价值的工作中胜过人类的高度自主系统」。得益于一个「法律上受约束去追求非营利组织使命」的营利部门，一旦董事会决定AGI已经实现，这样的系统将「被排除在与Microsoft的知识产权许可和其他商业条款之外，这些仅适用于AGI之前的技术」。』这听起来不像是微软会�

　　【新智元导读】传闻中OpenAI的Q*，已经引得AI大佬轮番下场。AI2研究科学家NathanLambert和英伟达高级科学家JimFan都激动的写下长文，猜测Q*和思维树、过程奖励模型、AlphaGo有关。是时候解决最后一章了深度学习专家SebastianRaschka对此表示——如果你出于任何原因，不得不在这个周末学习Q-learning，并且碰巧在你的书架上有一本「MachineLearningwithPyTorchandScikit-Learn」，那么，现在是时候�

　　在OpenAI首席执行官SamAltman被解雇四天前，几位公司研究人员向董事会发送了一封信函，警告一项强大的人工智能发现可能对人类构成威胁，两位熟悉此事的人士向路透社透露。这封未曾报道的信件和人工智能算法成为导致董事会罢免Altman——生成式AI的代表人物——的催化剂，这两位消息人士表示。路透社表示无法独立验证研究人员声称的Q*能力。

　　OpenAI在给员工的内部信息中承认了一个名为Q*的项目。OpenAI的一些人认为，Q* （读作 Q-Star）可能会成为这家初创公司探索人工通用智能 (AGI)的一个突破口。OpenAI将AGI定义为在大多数有经济价值的任务中超越人类的自主系统。

　　OpenAI在周一的一场旧金山开发者大会上，宣布了对其人工智能平台的最新更新，这包括为开发者提供更低的价格和能力强大的定制「代理」人工智能，从洗衣建议到合同谈判均能提供帮助。自从一年前ChatGPT引人注目地首次亮相以来，生成式AI的潜在益处及其风险已成为科技界热议的话题。」他说，总有一天这些数字大脑「将变得比我们更聪明。

　　OpenAI宣布将与合作伙伴共同生成用于训练AI模型的公共/私有数据集，以推动AI的未来发展并让更多组织从中受益。为了实现这一目标，OpenAI计划收集反映人类社会、涵盖不同语言、主题和格式的大量数据，并寻求合作伙伴的帮助以数字化并删除敏感信息。OpenAI表示，通过这些举措，旨在推动AI技术的进一步发展，并确保其造福全人类。

　　在最新的研究中，来自谷歌DeepMind的研究团队提出了一个名为“LevelsofAGI”的框架，旨在系统地分类人工通用智能模型及其前身，类似于自动驾驶的级别。这个框架引入了三个重要的维度:自主性、普适性和性能，为比较模型、评估风险以及追踪人工智能进展提供了一个共同的词汇。该框架强调了将其负责和安全地整合到以人为中心的环境中的需求，并提供了一种结构化的方式来评估、比较和指导AGI系统的发展和部署。

　　FutureNotes 是一款摘要记录与分享工具。它能够通过 AI 技术将你的想法摘要成文档，并支持与他人分享。无论是思路碰撞、会议记录还是学习总结，FutureNotes 都能帮助你捕捉、概括和分享。价格灵活合理，可免费使用，适用于个人和团队。

　　Summarize.One是一款能够快速总结语音消息的工具，用户可以通过将语音消息转发至Summarize.One的WhatsApp聊天中，即可立即获得总结。该产品支持定制化设置，提供免费和付费版本，严格遵守欧洲数据法规，并承诺为受听力损伤影响的用户提供免费服务。

　　InstaGraph是将文本或链接快速转换为见解丰富知识图谱的首选应用。想更深入理解复杂主题中实体之间的关系?只需将文本输入InstaGraph,瞬间一张漂亮的知识图谱呈现在您面前。它拥有简单易用、转换速度快捷、可视化直观的优点,能够节省大量查阅资料的时间。

　　Postli是一个基于AI驱动的LinkedIn文章和帖子生成工具。它内置1000+模板和20个不同的AI生成器功能,可以一键生成吸引眼球和专业的内容。适合营销人员、影响者和专业人士使用。主要功能包括:一键生成文章,内置1000+文章模板,20个AI驱动生成器,定价合理。可以帮助用户轻松创建高质量的LinkedIn内容,提升个人和品牌影响力。

　　SurveyAnalyzer是一款基于人工智能的调查数据分析工具，能够帮助用户快速获得调查结果的洞察，提出问题并综合信息。我们支持Google Forms、Typeform、Qualtrics、Survey Monkey、Zoho Survey、Jotform等多种调查工具。定价灵活，适用于个人用户和企业用户。

　　Draw Fast是一个基于人工智能的在线绘图工具。它可以在几秒钟内将用户的涂鸦或手绘草图,转换生成细节丰富、逼真的图像。该产品具有智能识图、风格转换、图像 upsmapling 等功能。使用简单,无需专业绘图技能就可以创作精美图像。适用于创意人员、设计师、插画师等用户群体。

　　Magic Dash AI是一款快速洞察助手，用户可以通过输入查询语句来获取数据图表展示，支持多种数据库。优势在于快速获取洞察，定价灵活，定位于提升工作效率。

　　Noise Eraser是一款能够辨识并去除音频文件中的背景噪音的工具，提升人声的清晰程度。它使用 AI 技术对音频进行处理，可以帮助用户消除风声、雨声、车声等背景噪音，使人声更加突出。Noise Eraser提供了简单易用的操作界面，用户只需上传音频文件，通过一键处理即可得到清晰的人声音频。该工具适用于广告导演、专业音效师、行销人员、业余 YouTuber 等各种使用场景。用户可以免费试用基础功能，也可以通过订阅获取更多专业功能。

　　Stryde是一款由人工智能驱动的超级灵活的健身计划应用！您可以创建自己的训练计划（包括休息时间、超级组等），或者让Stryde AI为您完成。

　　Malloy利用AI将视频转录为准确无误的文字，无论是行业术语还是地方俚语，我们都能应对。我们的AI能够理解多种语言和行业术语，确保捕捉到视频内容的真实含义。

　　Curiosity是一个能够在一个地方搜索所有应用和文件的工具。它可以帮助用户轻松找到所需的信息，提高工作效率。Curiosity支持安全地存储在用户的计算机上，用户可以免费下载和使用。它可以在不同的应用和文件之间快速切换，提供便捷的搜索和访问体验。

　　Lorro是一款通过与AI导师对话来提高英语口语能力的产品。用户可以通过与AI导师进行对话练习，提高英语口语表达能力。该产品定位于帮助用户在较低成本的情况下提升英语口语能力。定价灵活，适合不同需求的用户。

　　Everbility是一款AI助手，专为物理治疗师设计，可帮助他们快速完成报告、总结客户笔记、产生新想法，并更专注于客户。产品定价灵活，提供14天免费试用，定位于提高工作效率、节省时间的助手工具。

　　TEXT2CRON是一个在线工具，可以将自然语言转换为Cron表达式，帮助用户更轻松地设置定时任务。优势在于简单易用，节省时间和精力。目前提供免费使用，定位于个人和小型团队的定时任务管理工具。

　　Pinbot是一个可以使用AI私密管理书签的Chrome浏览器扩展。它可以一键书签、搜索近似词、根据标签自适应等功能。Pinbot可以作为待办事项清单、知识数据库等用途。所有数据都可以在本地设备上离线运行，保护用户隐私。Pinbot的目标是让最新的AI技术能够被所有人使用，而不会泄露用户的隐私。

　　DuckTrack 是一款准确的计算机活动跟踪工具，可记录鼠标、键盘、屏幕视频和音频数据。它可以精确记录和回放鼠标和键盘操作，并提供屏幕录制功能。该工具适用于所有主要操作系统，是一款便捷易用的桌面应用程序。

　　Merse是一个记录生活的工具，可以将日常生活、故事、经历等转化为漫画、书籍、电影、语音记录、自传等形式，让用户的故事、经历和传承在世纪中回响。

　　DiffusionMat是一种新颖的图像抠图框架，采用扩散模型从粗糙到精细的阿尔法抠图过程。与传统方法不同，我们的方法将图像抠图视为一个逐步改进的学习过程，从对修剪地图的添加噪声开始，通过预训练的扩散模型迭代去噪，逐步引导预测向干净的阿尔法抠图。我们的框架的关键创新是一个校正模块，它在每个去噪步骤中调整输出，确保最终结果与输入图像的结构一致。我们还引入了Alpha可靠性传播，这是一种新颖的技术，旨在通过选择性地增强具有自信的阿尔法信息的修剪地图区域来最大化可用指导的效用，从而简化校正任务。为了训练校正模块，我们设计了专门的损失函数，以针对阿尔法抠图边缘的准确性和其不透明和透明区域的一致性。我们在几个图像抠图基准上评估了我们的模型，结果表明DiffusionMat始终优于现有方法。

　　Interview Mentor AI是一款个性化面试辅助工具，由先进的GPT-4 Turbo技术驱动。通过分析简历或职业偏好，AI会进行定制化的面试模拟，并提供宝贵的反馈和建议，帮助用户准备面试，提升信心。告别通用的建议，拥抱更智能、更贴合的面试准备方式。

　　HUSTLIX是一个面向副业爱好者和在线业务爱好者的搜索引擎，利用AI技术提供赚钱的副业创意和商业机会。它收集了各种使用AI的副业创意，帮助用户发现各种利用AI赚钱的机会。HUSTLIX的功能包括搜索AI副业创意、浏览分类、了解产品详细信息和使用示例等。该平台还提供了订阅通讯，用户可以获取最新的副业创意和商业机会。

(责任编辑：admin)

上一篇：月入1万在中国是一个什么水平？

下一篇：OpenAI内幕文件惊人曝出Q疑能破解加密！AI背着人类在编程网友：三个月接近A

本文标签：

栏目热点

更多>>

[我要投稿] [用户注册] [用户登录] [退出]

田渊栋给OpenAI神秘Q项目泼冷水：合成数据不是AGI救星能力仅限简单数学题

推荐内容

栏目热点