AI + 教育，是相爱还是相杀？

这一年在做「AI + 教育」会听到很多不同的声音。许多观点都在关心未来 AI 是否完全替代了真人老师，还有自适应学习是否能真正做到个性化教学。

也有一些老师，会反对过度吹嘘 AI 的能力，反而降低了教学的品质。在这个时候，我为什么还如此坚定做这件事情？

首先我们认为 AI + 教育会成为未来最重要的教学模式，如果类比教育和交通，AI 课就像是汽车代替马，让我们更低成本、更高效地学习，AI 教育会是我们未来最重要的学习工具，甚至是一种教学理念。

已经开始就必须信心满满，即便落地困难重重。读《技术与文明》时，提到汽车刚问世时，速度并没有比马快多少，容易故障还造成大气污染等问题，车祸死亡率也很高。即便如此，科学家和商人们不断创新改进，才有了现在的汽车时代。现在已经到了开发无人驾驶的时候，现在我们距离自动化教学的未来还很远。

AI 是否能做出现代化和具有创造力的教育产品呢？这是一个大问题，目前还没有思考很深。但不妨碍我现在的畅想，如果未来的路满天下的 AI 教育产品，现在做 AI 教育产品的终局是什么？

AI + 教育的终极理想是什么？

如果类比到无人驾驶，AI 在教育这条赛道，可以让人类凭借 AI 学习获取哪些知识和技能？

我国学者一般依据学习的内容和结果，把学习分为四种：

（1）知识的学习：包括知识的感知和理解等；（2）技能和熟练的学习：主要指运动、动作技能和熟练（3）心智的、以思维为主的学习；（4）道德品质和行为习惯的学习。

– 《小学教育心理学》

如果我从教学内容和结果来分：

高阶：自适应学习+自动化生产+无需真人的个性化教学，（1）到（4）都由 AI 完成，学生达到了学习效率最高巅峰。
中阶：人类老师和学生关注在（3）和（4）更重要的启发性和创造力的情感交流，由 AI 辅助老师完成（1）和（2）知识技能层面的学习。
低阶：（3）和（4）完全真人，（1和2）的辅助教学，在复杂输出需要人类老师，在输入和简单输出上可以 AI 代替教学环节。

现在整个行业没有哪家已经做出高阶的 AI 教育。所以我们都依然处于中低阶段的 AI 落地。

高阶的 AI 教育产品

高阶段的学习难点就卡在自动写作和自由对话。这种非常主观的判断标准，完全无法产生可量化和可观测的数据。

而这并不仅仅是 AI 技术的难题，而是语言学习本身的难题。举个例子，为什么图像识别可以达到99.9%，而语音识别远远达不到？这是基因和模因的根本区别。一个是基因带来的判断，另一个是文化模因，语言是社会文化而不是与生俱来。基因判断是有标准的，容易人为客观得出统一的结论，比如你不会纠结苹果这张图是不是香蕉，你也不会把中国人标记为外国人（当然可能有混血，这个另说），这样就让数据采集和利用变得很容易。

而语音和文字的判断，尤其是在教学层面，你无法做「是」「否」「对」「错」的简单的二分类。语言学习，首先非常依赖语境、周围环境。语言的性质分为显性和隐性，在隐性层面没有办法获得明显数据，更无法客观衡量，所以缺乏标准。

语言不仅是人类最为重要的交际工具，同时也是人类最为重要的思维工具。

语言的交际工具的职能是外显性的，思维工具则是内隐性的。外显性的职能易于观察，能产生一些观察数据，可以通过数据来评定语言的功能发挥程度。内隐性的职能则不易观察。不易产得到观察数据。

– 《论语言的功能分类》李宇明

这就导致，我们没有谁敢说「AI 能完全替代真人」这句话。在教育公司做高阶 AI 产品非常困难，仅限探索可以，商业化落地还是有局限性。难度在以下两方面：

从技术方面：

即便有海量的数据，很多也并没有被利用，能利用的也只是通过有限（简单粗暴）的数据标注方式，来做简单分类、识别转写、打分评测等。这个问题我还在探索，如何结构化利用这些数据，发现数据更有价值的地方。之前做 NLP 的时候就遇到了。

从产品方面：

我们交付的「教学效果」也并非客观量化，也只能用课堂专注度、参与率、完课率来评估群体的教学质量。对个体而言，想要知道学生「为什么参与率不高」，老师「哪些地方教不好」是非常困难的，需要有经验的产品和教研老师共同分析，看海量数据是非常花时间的，并且个体分析的数据经验，得出的观点不能代表整个教育的评价标准。

所以，高阶段的 AI 我继续探索，而做中阶和低阶的 AI 产品是相对可行的，当然整个过程，也并不容易。

低阶的 AI 教育产品

在低阶的知识内容学习，我们需要理解，用户关心的是什么，当用户输出的时候，应该得到的是怎样的反馈？如果反馈的不恰当，可能包括反馈方式设计不合理，也包括算法不准，我们就需要解决这样的问题。让用户感觉他付出的努力所得到合理的反馈，然后再引导用户以正确的方式练习，加强学习的结果。

以口语评测举例。现在大家都在用的流利说，里面的口语打分，制定了0-100分的标准，实际上这也是模糊的界限。假如题目是「apple」。「apple」完全没说话和说了一半，这个给低分学生是能理解的也能接受的。但是，当学生说了一个看似标准的「apple」，我们没法判断学生说的「apple」的「æ」发音是非常标准的95分，还是差一点标准的90分。如果再说出来的是「e」，应该给80分还是85分？给什么反馈合理呢？这是我最早来做的第一个项目纠结的第一个问题了。当然很多人都说哎呀口语评测就是陪着小孩儿玩儿，孩子开心就好了，给多少分都不重要，但是我开始是真的很固执地思考这个问题的。

那时候，初入语音算法并没理解什么深层内涵，就狂妄地刷了一大堆论文，拆分了非常细致的逻辑，做了数据标注，还招聘了英语专业的标注同学帮忙分析数据。从语音学角度，给出丢分项，哪些数据是没有连读、略读、重音，以及流利度的合理间隔区间是要在0.25s 还是在0.3s 纠结了非常久。做了很多看起来很傻的事情，但是效果并不够好。

最终，我终于放弃了要给这条数据标多少分的问题。因为这样精细化标注的的人工成本太大了。而后我们简化了标注方式，让更专业的教研专家设定了规则，将抽选出测试集的数据分为几类，再映射到分值，做定性横向分析：对比同一波数据的机器打分、专家打分、还有普通老师打分，得出的分差值，看在多大的分差范围内，用户感知到的变化是最小的。然后再输出合理的反馈，并整理出机器给出得分不合理的地方，找出一些通用的语音语调上的问题，单独解决做规则解决，比如「the end」的第一个发音是’ði’不是’ðə’，还有「take a break」的「a」需要连读的时候没连读的得分区间设定。

所以，这个问题从「在什么情境下得多少分」，改成「判分逻辑在什么区间是合理的」，也就是把阈值设宽了，中间差异化的反馈设明显了。当用户的感受是合理的之后，我们在低阶的学习过程中，就继续挖掘 AI 辅助教学如何做更多的业务拓展。而中阶的技能学习，更倾向于提高真人老师的产能，让老师结合 AI 课做的教学流程优化。

中阶的 AI 教育产品

AI 课是我在做的第 N 个项目，这是希望让 AI 加大辅助真人老师来完成的中阶段的技能学习，是我们新开发的课程。（参考专访VIPKID林陈斌：AI互动录播课关键数据超直播课）可以期待一下。

为什么做这个项目？未来教育资源是逐渐均衡的。这个机会是我们 AI 落地最大的优势，公司也需要覆盖更大面积的市场而给这个项目提供更多的资源。

通过 AI 课来解决资源均衡问题。如果我们需要扩大教育供给资源，就需要提高老师效率、降低成本从而下调价格，而又不能接受质量下降。对下沉的用户市场，即使价格降低了，我们依然面临极大的产品挑战。在段时间内我们要打磨出不低于直播课的 AI 课程体验。

大家会好奇，什么是 AI 课？

最早 AI 课雏形是用摄像头对着老师上课录制出来的视频，以纯静态视频的形式存在。后来演化成电脑录屏，老师边操作边录播，然后大家可以看到的是一个回放视频。在前几年，结合机器判断客观题，回放视频可以做简单的互动答题，学习体验大大提升。现在市面上大多数的在线 AI 录播课、还有直播课也已经结合了口语评测，让学生可以完成封闭式的语音题，并且在人脸识别应用到检测课堂专注度，能边上课边给提示和反馈。

目前，可以由语音算法和 NLP 语义分析，完成半开放式的对话，互动形式也逐渐丰富多样化，结合教学和输出题，互动氛围，让一节 AI 录播课已经达到和大班直播公开课没有差别。

在思考 AI 课的产品目标收益问题的时候，我们预期效果和收益、衡量指标是挺困难的。首先，教育产品交付的不仅仅是产品本身的用户满意度指标，还有教学效果指标。

如何定义一节好的 AI 课是怎样的？

如果给最好的真人一对一的直播课体验打满分 10 分，那么 AI 课的体验是多少分呢？

而 AI 课和直播课的体验差异在哪？具体哪些细节可以提升？如老师表现力、课件内容、视觉风格、交互方式、技术性能等。

这些细节问题的信息，部分是靠用户上课测试发现、访谈或问卷主观打分收集。其他通过数据层面获取。然后靠一些指标来定义是否好的 AI 课。当然，目前这样的衡量方式是浅显的。有哪些指标呢？和市面上大多在线教育产品一样，我们靠「完课率」和「课消量」来衡量整体的 AI 课产品效果。教学效果比较难检测，长周期的用户成绩提升效果难以监控，回收数据太漫长，也无法确定学生是否受到其他影响。

我们只能在此基础上，通过外显的指标，来拆分更细的过程数据指标。目前能实现在 AI 技术（如视觉、语音、NLP）等辅助下，得出许多课堂分析维度，如参与率、专注度、互动率等。虽然，这些也仅仅只能帮产品经理发现：在课堂的哪些节点的互动率高低，从而倒推问题是什么。

在 AI 课的落地阶段，最困难的起点在内容生产流程。

这归咎于 AI 课和已有的在线直播课有非常大的差异。之前一直做的是直播的业务框架，学生上课的行为判断都是靠真人老师判断。内容系统只支持老师触发和判断，比如老师发现在学生不懂的时候老师会多次引导，并不由 AI 发现和控制。在这套业务体系之下，学生一节课所学到内容结果，过程是否理解，很多数据并没有办法保留完整。

而在历史的业务平台上面来打造 AI 课，就会出现在古代的黄泥路开汽车一样的情况，道路结构本身就导致很多问题不兼容的情况。所以，我做这个项目最早撬动历史业务也是跌宕起伏了大半年，部门协作的阻力非常大。

我在设计这整个教室框架的时候，不仅需要思考如何打通各个路径的数据传输、让新型非自动化的生产流程结构选择现有成本最低的方案快速落地。尽管早期探索失败了几次，学生整体体验也很差，可复用和能满足的教学场景单一，让我无从下手。但这并没有影响我对 AI 课的信心。因为我相信汽车总会跑起来。~ 好吧，我确实也因为压力哭过好几次，我相信还会继续哭。

其次困难点在于发现问题和设计教学问题的反馈体系。

没有真人老师的第一天，可能给用户解释怎么做一道题的难度会比答题内容本身还要难。因为学生可能会出现很多不同情况是我们没有提前想到的。还有一个难点是在于 AI 课的录播老师很难实时反馈，如何设计反馈方式比之前做语音算法的反馈更大，不仅是分数区间的问题，还有用户体验、激励设计的问题。学生在没有真人老师的控制下，光靠 AI 的人脸和语音检测是远远不够的，这还需要搭配人工服务和监控模式。

在会看数据的时候，这也让产品出现很难定义问题。有些行为不知道如何定义。比如，从教学目标来看，数据表现出来的样子是否就定义了学生行为的好坏，如何定义「行为好坏」是很主观的，如学生大部分是面无表情地望着屏幕，究竟是没听懂还是正在思考？

生产课件、教研成本也是很大的阻力。批量产 AI 课的内容，效率太低也会影响质量和交付时间。并且课件和老师是灵魂，如果课件为了适应 AI 而改变了更优质量的方式从而牺牲了效果，这个是不被允许的。

所以，在后来就开始吸取历史教训。

我会考虑更多教学场景，尽可能让学生专注、理解、并完成不同类型的教学活动，能理解所有学习过程、包括：每种类型的题目设计、答题方式、提交逻辑、整个激励体系的设计、活动方式和互动反馈方式等。同时让 AI 老师在上课的过程中，需要老师理解他和 AI 结合互动的过程，这样才不会让课堂画面出现违和感，这也突破了老师已有的传统的教学经验和上课方式。

目前在获得更多资源的前提下，技术架构来结合产品方案，打通现有公司业务，我们也需要让教研和老师都切换新的设计思路上一节能在整体各环节能自行运转的 AI 课。只有这样，才能让学生在课程体验是流畅的。这就好比发明了汽车，也需要改造整个交通道路体系，社区环境建设，才能让更具有拓展性的内容生产系统一起结合产品和 AI 技术，才能让一节课既有质量也充满生命力。

上面整个案例，将一节 AI 课背后的逻辑讲解完毕。

AI 课的挑战，技术瓶颈在儿童语音识别。

儿童语音识别是一个世界难题。现在还没有彻底突破技术难点，目前不到 80% 的准确率。这是AI 课里面非常痛的问题，如果做开放式题型，光是 AI 语音题目，就会有多种不同类型的技术和规则，以满足不同教学目标和用户场景。

好吧，还没到高阶的 AI 教育产品落地都已经如此困难，我在这里奋斗的使命就是完成它。

AI 和教育不是相杀而是相爱

尽管 AI 目前并没有完全让我们信任，而产品们迫于现实指标的压力，还需要平衡内心的理想化的教育理念。二者平衡非常困难，所以我们不能离开让其他商家做劣币驱逐良币的事情。AI 教育变成是价值取向的问题。

而我希望自己能在这做出有意义的教育产品，而非仅限于 AI 技术结合。未来，是可以让 AI 发挥出学生的创造力和想象力的、激发更多内在的探索和学习动机。学生在 AI 产品下能给形成一种新的思考方式，而不会所有人都是在一套主观的界定标准下分层。每一个接受到教育的孩子更能对这个世界的保持好奇。

而做了教育行业的产品经理，和之前做的 AI 产品不同的是，教育不再像是为了自己，而是要对孩子的未来负责。永远保持敬畏之心，以启发学生的思维能力为目标，在这个理想下，所有困难都无所畏惧。

以这本《教育神经科学的使命与未来》格兰特·威金斯博士访谈文章摘选的一句话结束。

现代课程观的课程目的是引发学生的思维，而不是「储备」或「训练」思维。现代课程的基本单位是「问题」。由于知识的量多且容易琐碎化，现代学生所需要的是理解问题是怎样产生于知识并超越知识的能力。当这种能力通过汇集知识和智慧，在解决问题的过程中得到神话，并拓宽了对重要问题的看法，就测量出了教育的进步。

只有当学生看到的是自己的问题，而不是目前储备的知识，才是判断自己是否真正受到教育的标准时，学生才学会了自信。

最后，感恩这一年来，所有指导我、帮助我的朋友，还有不嫌弃我的领导们。

created at 190612