<description>&lt;figure&gt;&lt;img src="https://image.xyzcdn.net/FtlsrL_4pphT5vQAcQnqE2KLfeMh.png"/&gt;&lt;/figure&gt;&lt;p&gt;这一轮AI爆发,过程中大家无数次提及核心的三要素:算法、算力和数据;&lt;/p&gt;&lt;p&gt;当前这个时点,基于transformer的算法基础,无限堆叠算力的大叙事下,数据的重要性边际提升了。&lt;/p&gt;&lt;ul&gt;  &lt;li&gt;预训练数据的接近枯竭&lt;/li&gt;  &lt;li&gt;大模型合成数据的使用方法与效果评估&lt;/li&gt;  &lt;li&gt;后训练强化学习的激励模型构建&lt;/li&gt;  &lt;li&gt;训练过程中的数据清洗和工程实践&lt;/li&gt;  &lt;li&gt;未来可能范式- online learning对于数据以及数据处理的新要求&lt;/li&gt;  &lt;li&gt;……&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;以上这些问题其实一直都是过去几年乃至可见的未来几年,&lt;/p&gt;&lt;p&gt;所有大模型厂商都需要去持续解决的症结所在;&lt;/p&gt;&lt;p&gt;那么到底该如何看待数据之于AI,&lt;/p&gt;&lt;p&gt;此前业界默认承担后台基石功能的数据库系统在今天的新技术发展范式下如何演变?&lt;/p&gt;&lt;p&gt;为了了解清楚这些问题,我今天有幸请到了国内连续多年在行也内领先的蚂蚁集团旗下开源数据库OceanBase的CTO-日照,&lt;/p&gt;&lt;p&gt;以及最近刚刚结束的2025 年全国大学生计算机系统能力大赛暨第五届 OceanBase 数据库大赛冠军和亚军队伍的选手一起聊了聊。&lt;/p&gt;&lt;p&gt;关于OceanBase: &lt;a href="https://mp.weixin.qq.com/s/X4duP6JvCWbng2OcYmha2A"&gt;mp.weixin.qq.com&amp;nbsp;&lt;/a&gt;&lt;/p&gt;&lt;p&gt;关于全国大学生计算机系统能力大赛: &lt;a href="https://mp.weixin.qq.com/s/IZ1Umn6c9GYN0X9WQtmong"&gt;mp.weixin.qq.com&amp;nbsp;&lt;/a&gt;&lt;/p&gt;&lt;figure&gt;&lt;img src="https://bts-image.xyzcdn.net/aHR0cHM6Ly9pbWEtbm90ZWJvb2stcHJvZC5pbWFnZS5teXFjbG91ZC5jb20vMi9lV0RiQThZRGVYbGNHZlVmMnBSZmo5QS8yNzdkZGU0M2FhYzA0NTkyOGE4ZTQ0MDIzYjU2NTYxOS53ZWJwP3Etc2lnbi1hbGdvcml0aG09c2hhMSZxLWFrPUFLSUQ5SUR0TFpaS3FHUk83aFZGbk1uMHpqWFRYb3ZvVHRBTiZxLXNpZ24tdGltZT0xNzY4OTEwMzI3OzE3Njg5MzkxMjcmcS1rZXktdGltZT0xNzY4OTEwMzI3OzE3Njg5MzkxMjcmcS1oZWFkZXItbGlzdD0mcS11cmwtcGFyYW0tbGlzdD0mcS1zaWduYXR1cmU9MzRkZTM4NWU3OTBjNTM0Nzk1MDhhNTk4M2Y5NTQ1ODI4NjkwMjI0YQ=="/&gt;&lt;/figure&gt;&lt;p&gt;&lt;strong&gt;【对话嘉宾】&lt;/strong&gt;&lt;/p&gt;&lt;ul&gt;  &lt;li&gt;OceanBase CTO:日照&lt;/li&gt;  &lt;li&gt;本届数据库大赛冠军队伍北京邮电大学编程高手团队:吴同学&lt;/li&gt;  &lt;li&gt;本届数据库大赛亚军队伍华东师范大学抽空就干团队:杨同学&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;(想加粉丝群的请先+微信:rosicky311)&lt;/p&gt;&lt;p&gt;下面正片开始……&lt;/p&gt;&lt;p&gt;&lt;strong&gt;【时间点】&lt;/strong&gt;&lt;/p&gt;&lt;p&gt;00:20 去年11月我写的PPT-大模型厂商在解决什么问题:记忆、激励模型、Benchmark&lt;/p&gt;&lt;figure&gt;&lt;img src="https://bts-image.xyzcdn.net/aHR0cHM6Ly9pbWEtbm90ZWJvb2stcHJvZC5pbWFnZS5teXFjbG91ZC5jb20vMi9lV0RiQThZRGVYbGNHZlVmMnBSZmo5QS81OWIwZDUxMzMxMGE0YzllYjVkMzMyYTBjZGUyMWNhMS53ZWJwP3Etc2lnbi1hbGdvcml0aG09c2hhMSZxLWFrPUFLSUQ5SUR0TFpaS3FHUk83aFZGbk1uMHpqWFRYb3ZvVHRBTiZxLXNpZ24tdGltZT0xNzY4OTEwMzI3OzE3Njg5MzkxMjcmcS1rZXktdGltZT0xNzY4OTEwMzI3OzE3Njg5MzkxMjcmcS1oZWFkZXItbGlzdD0mcS11cmwtcGFyYW0tbGlzdD0mcS1zaWduYXR1cmU9YzI2MWNjYzE4MGQ0ZDcwMTZhNTVkMzNiZmM3MWUyOGFlYTQ2YzhjMg=="/&gt;&lt;/figure&gt;&lt;p&gt;00:52 26年偏共识的趋势:自主学习&lt;/p&gt;&lt;figure&gt;&lt;img src="https://bts-image.xyzcdn.net/aHR0cHM6Ly9pbWEtbm90ZWJvb2stcHJvZC5pbWFnZS5teXFjbG91ZC5jb20vMi9lV0RiQThZRGVYbGNHZlVmMnBSZmo5QS9iYzlmNWIyMjExYmQ0YWM0OWFkN2Y3NGE4YTU1MjhkYy53ZWJwP3Etc2lnbi1hbGdvcml0aG09c2hhMSZxLWFrPUFLSUQ5SUR0TFpaS3FHUk83aFZGbk1uMHpqWFRYb3ZvVHRBTiZxLXNpZ24tdGltZT0xNzY4OTEwMzI3OzE3Njg5MzkxMjcmcS1rZXktdGltZT0xNzY4OTEwMzI3OzE3Njg5MzkxMjcmcS1oZWFkZXItbGlzdD0mcS11cmwtcGFyYW0tbGlzdD0mcS1zaWduYXR1cmU9MjZmZTNlNTkzOGEwNzI3YWJhZGY5MDZiMDkzYjgwMWE5NjdhZGY3ZA=="/&gt;&lt;/figure&gt;&lt;p&gt;01:37 大家都说是工程的胜利,那么“工程”到底是什么?&lt;/p&gt;&lt;p&gt;02:25 嘉宾介绍&lt;/p&gt;&lt;p&gt;&lt;strong&gt;第一部分:AI 的瓶颈,正在变成数据问题&lt;/strong&gt;&lt;/p&gt;&lt;p&gt;03:46 数据的重要性在边际增强,这个结论现在可以下吗?&lt;/p&gt;&lt;p&gt;05:00 25年开始,私有数据与大模型结合成为很多企业面临的问题&lt;/p&gt;&lt;p&gt;06:03 echo去年MIT那份所谓95%企业投入AI没有获得成效的报告&lt;/p&gt;&lt;p&gt;07:25 预训练的数据真的挖掘完了吗?&lt;/p&gt;&lt;p&gt;08:21 Google年底模型能力超强,其实更多还是靠的预训练,为什么?&lt;/p&gt;&lt;p&gt;09:31 泛的数据工程这件事情在整个模型训练过程中的边际地位得到了提升&lt;/p&gt;&lt;p&gt;10:14 数据其实一直以来对于所有科技/互联网公司都是在核心位置&lt;/p&gt;&lt;p&gt;11:07 结构化到非结构化之后,对于数据库软件提出的新要求是什么?&lt;/p&gt;&lt;p&gt;12:11 语言-多模态- coding,到底是平行的三桌还是其实是一桌?&lt;/p&gt;&lt;p&gt;&lt;strong&gt;第二部分:比赛复盘---为什么今年一定要把 AI相关内容放进数据库比赛?&lt;/strong&gt;&lt;/p&gt;&lt;p&gt;14:43 数据是瓶颈,那么到底卡点在哪里?&lt;/p&gt;&lt;p&gt;16:24 趋势的变化,也体现在了大赛5年历程中考题的变化上&lt;/p&gt;&lt;p&gt;18:09 今年决赛题目:混合搜索+RAG&lt;/p&gt;&lt;p&gt;20:58 组队、参加比赛、解题、答辩的全过程&lt;/p&gt;&lt;p&gt;23:51 参赛过程中遇到的难题&lt;/p&gt;&lt;p&gt;26:48 数据库在新时代一定会更加“开放”&lt;/p&gt;&lt;p&gt;27:59 “幻觉”的问题,能不能解决?或者说是否需要100%解决?&lt;/p&gt;&lt;p&gt;32:23 技术趋势与出题的匹配程度&lt;/p&gt;&lt;p&gt;33:37 5年比赛做下来,参赛选手的画像发生了什么样的变化?&lt;/p&gt;&lt;p&gt;34:36 年轻一代如何看待vibe coding&lt;/p&gt;&lt;p&gt;36:56 AI coding能力越来越强,原来的”手艺人“怎么办呢?&lt;/p&gt;&lt;p&gt;38:40 大厂内部如何看待AI coding&lt;/p&gt;&lt;p&gt;39:45 AI coding工具引发的数据安全问题&lt;/p&gt;&lt;p&gt;&lt;strong&gt;第三部分:技术探讨---自主学习与开源生态&lt;/strong&gt;&lt;/p&gt;&lt;p&gt;40:47 想要实现online learning/自主学习,是不是更多的还是数据问题?&lt;/p&gt;&lt;p&gt;42:44 传统数据库-向量数据库-新的尝试,其实也是在匹配这个技术趋势&lt;/p&gt;&lt;p&gt;44:22 开源生态的崛起在这一轮AI浪潮中更加明显&lt;/p&gt;&lt;figure&gt;&lt;img src="https://bts-image.xyzcdn.net/aHR0cHM6Ly9pbWEtbm90ZWJvb2stcHJvZC5pbWFnZS5teXFjbG91ZC5jb20vMi9lV0RiQThZRGVYbGNHZlVmMnBSZmo5QS9jOWU1Yzk1NzE0OWQ0NDAyODgzZjJhZjdjNzI1ZjNlYy53ZWJwP3Etc2lnbi1hbGdvcml0aG09c2hhMSZxLWFrPUFLSUQ5SUR0TFpaS3FHUk83aFZGbk1uMHpqWFRYb3ZvVHRBTiZxLXNpZ24tdGltZT0xNzY4OTExMzUyJTNCMTc2ODk0MDE1MiZxLWtleS10aW1lPTE3Njg5MTEzNTIlM0IxNzY4OTQwMTUyJnEtaGVhZGVyLWxpc3Q9JnEtdXJsLXBhcmFtLWxpc3Q9JnEtc2lnbmF0dXJlPWFmMzg5NThjN2U1MDY3MGIwYWExN2IwMWM4ZDY1ZGY1NGU5NzkwZWI="/&gt;&lt;/figure&gt;&lt;p&gt;45:49 如果用一个关键词概括25年中国AI行业发展,开源可能是很多人会选择的答案&lt;/p&gt;&lt;p&gt;46:35 我们为什么在开源这个领域突然这么强?&lt;/p&gt;&lt;p&gt;47:25 OceanBase从蚂蚁内部项目到独立成商业公司的过程&lt;/p&gt;&lt;p&gt;48:22 OceanBase产品初心:做世界级的数据库&lt;/p&gt;&lt;p&gt;&lt;strong&gt;第四部分:未来与结语---从“炼丹师”到“造世主”&lt;/strong&gt;&lt;/p&gt;&lt;p&gt;49:18 问学计算机的年轻人,如何看待AI浪潮带来的影响?&lt;/p&gt;&lt;p&gt;50:22 吴同学是学安全的,AI时代的“安全”定义被无限放大了&lt;/p&gt;&lt;p&gt;53:06 杨同学之前只会后端,现在前端也要写了&lt;/p&gt;&lt;p&gt;54:05 OceanBase比赛的初衷&lt;/p&gt;&lt;p&gt;55:54 数据库人才的画像变化&lt;/p&gt;&lt;p&gt;56:37 两位过来人对于更年轻的学弟学妹有什么建议?&lt;/p&gt;&lt;p&gt;57:07 是否还要学计算机/coding?&lt;/p&gt;&lt;p&gt;59:00 其实企业内部用AI好的人之前也是写代码写的好的人&lt;/p&gt;&lt;p&gt;1:00:21 北邮在互联网行业的特殊性&lt;/p&gt;&lt;p&gt;1:01:35 AI PPT能力的提升已经让我感觉到压力了&lt;/p&gt;&lt;p&gt;1:03:52 对26年的期待&lt;/p&gt;&lt;p&gt;1:04:47 绕不开的Agent元年以及要元几年的讨论&lt;/p&gt;&lt;p&gt;1:06:54 目前看哪些场景/行业,AI的落地趋势更快一些?&lt;/p&gt;&lt;p&gt;1:10:18 只有在技术大爆发的时候才有“黑客松”&lt;/p&gt;&lt;p&gt;1:10:44 AI4S的期待&lt;/p&gt;&lt;p&gt;1:11:49 26年期待出现什么变化/里程碑&lt;/p&gt;&lt;p&gt;音乐:AI音乐工具&lt;a href="https://www.tianpuyue.cn/"&gt;天谱乐&lt;/a&gt;生成&lt;/p&gt;&lt;p&gt;&lt;strong&gt;【播客简介】&lt;/strong&gt;&lt;/p&gt;&lt;p&gt;屠龙之术是一档关注科技、互联网、风险投资的播客,&lt;/p&gt;&lt;p&gt;主播庄明浩是一个游走在互联网和风险投资行业的边缘人士。&lt;/p&gt;&lt;p&gt;其工作多年所积累的认知似乎都成为了某种意义上的”屠龙之术“……&lt;/p&gt;&lt;p&gt;或许某天再有新的“龙”出现的时候,就是这档播客停更之时。&lt;/p&gt;</description>

屠龙之术

庄明浩

Vol.84 数据不再是“后台的沉默基石”:OceanBase 与 00 后开发者眼中的 AI 变局

JAN 20, 202674 MIN
屠龙之术

Vol.84 数据不再是“后台的沉默基石”:OceanBase 与 00 后开发者眼中的 AI 变局

JAN 20, 202674 MIN

Description

这一轮AI爆发,过程中大家无数次提及核心的三要素:算法、算力和数据;当前这个时点,基于transformer的算法基础,无限堆叠算力的大叙事下,数据的重要性边际提升了。 预训练数据的接近枯竭 大模型合成数据的使用方法与效果评估 后训练强化学习的激励模型构建 训练过程中的数据清洗和工程实践 未来可能范式- online learning对于数据以及数据处理的新要求 ……以上这些问题其实一直都是过去几年乃至可见的未来几年,所有大模型厂商都需要去持续解决的症结所在;那么到底该如何看待数据之于AI,此前业界默认承担后台基石功能的数据库系统在今天的新技术发展范式下如何演变?为了了解清楚这些问题,我今天有幸请到了国内连续多年在行也内领先的蚂蚁集团旗下开源数据库OceanBase的CTO-日照,以及最近刚刚结束的2025 年全国大学生计算机系统能力大赛暨第五届 OceanBase 数据库大赛冠军和亚军队伍的选手一起聊了聊。关于OceanBase: mp.weixin.qq.com 关于全国大学生计算机系统能力大赛: mp.weixin.qq.com 【对话嘉宾】 OceanBase CTO:日照 本届数据库大赛冠军队伍北京邮电大学编程高手团队:吴同学 本届数据库大赛亚军队伍华东师范大学抽空就干团队:杨同学(想加粉丝群的请先+微信:rosicky311)下面正片开始……【时间点】00:20 去年11月我写的PPT-大模型厂商在解决什么问题:记忆、激励模型、Benchmark00:52 26年偏共识的趋势:自主学习01:37 大家都说是工程的胜利,那么“工程”到底是什么?02:25 嘉宾介绍第一部分:AI 的瓶颈,正在变成数据问题03:46 数据的重要性在边际增强,这个结论现在可以下吗?05:00 25年开始,私有数据与大模型结合成为很多企业面临的问题06:03 echo去年MIT那份所谓95%企业投入AI没有获得成效的报告07:25 预训练的数据真的挖掘完了吗?08:21 Google年底模型能力超强,其实更多还是靠的预训练,为什么?09:31 泛的数据工程这件事情在整个模型训练过程中的边际地位得到了提升10:14 数据其实一直以来对于所有科技/互联网公司都是在核心位置11:07 结构化到非结构化之后,对于数据库软件提出的新要求是什么?12:11 语言-多模态- coding,到底是平行的三桌还是其实是一桌?第二部分:比赛复盘---为什么今年一定要把 AI相关内容放进数据库比赛?14:43 数据是瓶颈,那么到底卡点在哪里?16:24 趋势的变化,也体现在了大赛5年历程中考题的变化上18:09 今年决赛题目:混合搜索+RAG20:58 组队、参加比赛、解题、答辩的全过程23:51 参赛过程中遇到的难题26:48 数据库在新时代一定会更加“开放”27:59 “幻觉”的问题,能不能解决?或者说是否需要100%解决?32:23 技术趋势与出题的匹配程度33:37 5年比赛做下来,参赛选手的画像发生了什么样的变化?34:36 年轻一代如何看待vibe coding36:56 AI coding能力越来越强,原来的”手艺人“怎么办呢?38:40 大厂内部如何看待AI coding39:45 AI coding工具引发的数据安全问题第三部分:技术探讨---自主学习与开源生态40:47 想要实现online learning/自主学习,是不是更多的还是数据问题?42:44 传统数据库-向量数据库-新的尝试,其实也是在匹配这个技术趋势44:22 开源生态的崛起在这一轮AI浪潮中更加明显45:49 如果用一个关键词概括25年中国AI行业发展,开源可能是很多人会选择的答案46:35 我们为什么在开源这个领域突然这么强?47:25 OceanBase从蚂蚁内部项目到独立成商业公司的过程48:22 OceanBase产品初心:做世界级的数据库第四部分:未来与结语---从“炼丹师”到“造世主”49:18 问学计算机的年轻人,如何看待AI浪潮带来的影响?50:22 吴同学是学安全的,AI时代的“安全”定义被无限放大了53:06 杨同学之前只会后端,现在前端也要写了54:05 OceanBase比赛的初衷55:54 数据库人才的画像变化56:37 两位过来人对于更年轻的学弟学妹有什么建议?57:07 是否还要学计算机/coding?59:00 其实企业内部用AI好的人之前也是写代码写的好的人1:00:21 北邮在互联网行业的特殊性1:01:35 AI PPT能力的提升已经让我感觉到压力了1:03:52 对26年的期待1:04:47 绕不开的Agent元年以及要元几年的讨论1:06:54 目前看哪些场景/行业,AI的落地趋势更快一些?1:10:18 只有在技术大爆发的时候才有“黑客松”1:10:44 AI4S的期待1:11:49 26年期待出现什么变化/里程碑音乐:AI音乐工具天谱乐生成【播客简介】屠龙之术是一档关注科技、互联网、风险投资的播客,主播庄明浩是一个游走在互联网和风险投资行业的边缘人士。其工作多年所积累的认知似乎都成为了某种意义上的”屠龙之术“……或许某天再有新的“龙”出现的时候,就是这档播客停更之时。