教案生成PPT课件实测⑤:
五款AI终极测评
——谁才是你最靠谱的课件搭档?
持续3周,8款AI工具。作为一名幼教工作者,当我提供给它相同的已设计好的优质教案及提示词,测评其在理解力、呈现力、友好度等方面的综合表现情况,并选择了其中最有代表性的5个AI平台撰写了公众号测评。在这一篇文章中,我将深度解析各款AI工具的表现,并依据“基于理解的教学设计”(Understanding by Design)的教育理论对这五款AI的评分数据对比及分析,最终给出推荐意见,并探讨一个更深层次的问题:当我们测评AI的时候,究竟是在测评什么?如果你在这篇贴子里只是想知道写什么提示词能生成好PPT,那么恐怕你会失望;如果你想知道根据已有教案生成PPT哪个平台更好用,那么我会给到你数据与分析;但如果你希望了解:AI在教育场景中”好”与”不好”的评价标准系,那么恭喜你,你来对了!——因为提示词会因为过时、平台模型会更新,但一个好的思维模式却能让你在这剧变的时代笃定地应对技术的发展与未来的变化。
01
写在前面:为什么选择“生成课件”这一教学场景,
一个故事及一个教育理论
虽然之前也有前辈让我写一写老师们如何用AI设计教案,但我最终还是选择了以AI“根据已有教案生成PPT课件”为教学场景,作为我AI实测系列的起点。
原因是因为它排除了复杂的价值判断------当一篇李慰宜导学班设计的、获奖活动教案摆在眼前,我们默认它在活动价值、目标定位、成功标准、评估依据、环节设计、教学方法及学生的学习结果都是得到了检验的------而只有这样,才能够构建一个相对稳定的测试基座;而为什么是美术活动?因为它对AI视觉处理的要求最高,对AI技术门槛的要求也最高------控制变量本身是一种“实验思维”。
但比起AI”能不能生成”更重要、也更有趣的,是探索“评价AI生成课件的标准有哪些”。
这里,我来先讲一个故事:有一天,孩子心心念念要吃松鼠桂鱼,于是妈妈带着孩子去找饭店。第一家店员告诉我“我们不卖松鼠”,妈妈带着孩子走了;第二家店说有松鼠桂鱼,只是番茄酱没有了问用辣椒酱可以么?妈妈当然说不行我带了娃,于是走了;第三家,终于吃到了松鼠桂鱼,但是色泽、刀工、新鲜度、口味全部都不达预期,妈妈皱了皱眉本着不浪费的原则,自己吃了大半、没敢给孩子多吃;她不死心继续找,第四家,只有鲈鱼没有桂鱼;第五家,不但有还是创新菜, 但一看菜单上的图片,鱼肉一小块、大部分是青豆胡萝卜块,美其名曰:营养更均衡……最终决定带着娃回家,但妈妈和孩子心里还是想着那道过“齿”不忘的“松鼠桂鱼”……

想用AI生成一个理想课件的过程就像你寻找理想中的松鼠桂鱼的过程——而当你发了一个有质量的教案给到AI、想要它帮你生成一个上课用的课件,你希望它给你的是只是一个包含你教案内容的PPT,还是一个真的满足你教学需求、能切实助力学生发展的课件?我想大家一定会毫不犹豫地选后者。
那么我们评价一个生成课件评价的标准或依据是什么呢?如果采访一位星级大厨,他可能会从型、色、香、味、材来告诉你怎么样的松鼠桂鱼才称得上地道;那看待一个AI生成的PPT课件呢?我带着极大的好奇做了一个大胆的假设:我们是否也能用经验丰富的名师做教学设计的方法去测评AI的设计呢?
这里,我们先引入一个重要的理论锚点:Grant Wiggins 和 Jay McTighe 在“基于理解的教学设计”(Understanding by Design,简称UbD)中提出了以下核心观点——教师不是内容的搬运工,而是意义的建构者;不是标准考试的检测员,而是评估证据的收集者;不是知识内容的讲解者,而是学习体验的设计者。我们也可以借用高质量教学理论中“认知设计师”来概括这些角色。这一转变的本质是将教学重心从知识的覆盖(coverage)转向理解的深度(depth),从对知识的检验转向理解的迁移(transfer)——而如果AI生成的课件能像“认知设计师”一样思考,那么它就有可能做出我们理想中的那道“松鼠桂鱼”。

回到我在测评开篇中提到到几个核心问题:“哪些AI最懂教案意图?哪些AI设计最为优良?哪些AI对使用者最为友善?”参照游戏测评的方式,分别从理解力、呈现力、友好度及综合评价几个方面进行测评及推荐。让我们一一来看。
02
从“搬运文字”到“建构理解”
——【理解力】是评判AI工具的第一要素
“教学的本质,不是知识的传递,而是理解的建构及迁移运用。”
依据UbD理论,我将AI模型在用户需求、教学对象、教学意图、素材内容、协同边界等方面的理解力作为评估要素,并以它交出课件的布局、模板、结构、素材匹配度、审美等多个方面作为评估的表现性证据。我们先来回顾一下教案内容和提示词:
“我是一名幼儿园老师,请帮我按照这个教学活动的计划设计一个课堂教学PPT。
要注意的是:我标的重点环节需要多一些的篇幅,不要所有的环节都平均分配。图片使用参照我文档里的范例。图片为主,文字可以不要。风格根据我的活动设计内容选定。围绕主题内容,可以有创造性地的创设。对象是幼儿园3-4幼儿,请考虑幼儿年龄特点。”

五个AI平台在理解力方面的最终评分如下:

在这次测评中,NotebookLM在理解力上的得到了最高的5分,而千问我则给了1.5分。这个差别在哪里?我们一一个一个来讲。
①对用户意图的理解用户意图就是你在提示词所交代的内容,是一个对幼儿的上课的课件还是说课的演示文稿。从下面两张图的对比中你肯定一眼就能感知到:同样的提示词,前者是课件,而后者更像活动说课的演示文档。


这就好比我带孩子去饭店想点松鼠桂鱼,结果服务员回答你“我们没有松鼠”一样——对用户意图是否理解,直接决定了这个PPT是否是你要点的“那道菜”。
②对教学对象的理解教幼儿园的孩子和教小学、中学的孩子一样么?幼儿园小班和幼儿园大班的孩子教法一样么?AI能否像老师一样对学生已有经验、发展水平、兴趣偏好、认知方法、注意力特点等方面有所了解决定了它在多大程度上可以真实用于实际教学中——就像我点了松鼠桂鱼给娃吃,结果店家上了加了辣——食材都对,但娃完全不能吃。
③对教学意图的理解教学意图的理解是各项理解中最重要的一项、是对教学结果影响最大的、也是最难达成的一项,它决定了设计出的课件是出自一个经验丰富的名师还是一个经验尚浅的新手。要体现对教学意图的理解,就需要让AI能够从“教案文字的搬运工”转向“学生认知体验的设计师”,就需要AI不仅能”看见”教案的文字,更要能”读懂”文字背后的学习逻辑;不仅能”复制”环节的流程,更要能”识别”流程中的认知挑战;不仅能”呈现”知识的内容,更要能”搭建”理解及迁移的脚手架。这一点从PPT的布局架构可以看出。先来回顾教案设计本身,然后再进放数据。
在《有趣的脸》这个教案中,活动最大的意义和价值是什么?认识米罗(知识)?学米罗画人脸(技能)?答案显然是否定的。它一定不是在教“画得像”的技能、而是在育“看得懂”的审美,是在“理解大师作品为何有趣、如何创作”的基础上进行认知迁移、体验像大师一样作画的乐趣——即素养、概念理解与学习方法维度的教育目标。在这样的价值判断下,对米罗画作的赏析是建构和巩固理解的重要部分,如果没有充分的欣赏与引导,幼儿就很形成对米罗欣赏不足绘画特点的理解,也就谈不上后面在真实课堂中的迁移运用了。那么,各个AI是否在架构PPT的结构时也体现了对这个环节的重视呢?我根据PPT结构:片头、画家介绍、欣赏感受、创作表现、展示交流、片尾、其他等几个部分来进行数据统计,我们来看各个AI平台在各环节的数据情况及”欣赏感受“环节的重点数据:

当我把“欣赏感受”环节在各个AI生成的PPT中页数占比拿出来比较会发现,NotebookLM体现出了高占比60%;Kimi、Coze体现出了中等占比,分别为45.5%和40%;而千问和豆包的占比很低,分别是21.4%和13.3%。

从数据中可以看出,前三个AI平台制作的PPT能够体现出该环节在整个活动中重要性,而后两个平台的PPT会导致在课堂中出现明显的欣赏不足而直接影响幼儿的学习结果。当一个AI对教学意图(即孩子将取得哪些学习结果)不够清晰的时候,就好比饭店的服务员的确端上一条酱汁发黑、花刀不均匀的松鼠桂鱼,夹了一筷子吃到嘴里,酱汁超酸没有甜味、鱼肉也软软的完全不酥脆,再吃一口,感觉这个鱼完全不新鲜…… 用两个字来概括就是“鸡肋”——我吃了,但是不愉悦也没营养——课是上了、时间也投入了,但是无法为学生带来理解、认知与能力的增长。
④对素材内容的理解幼儿园虽然没有统编“教材”,但是可以把这里的“素材”代入到“教材”场景中——同样是《白鹭》,郭沫若写的散文和白居易写的绝句一样么?显然不一样;同样是“人脸”,米罗画的“脸”和网络表情包中“脸”所带给孩子欣赏的价值一样么?当然也完全不会相同。
如果不理解这一点,AI输出的PPT就“跑题”——就像我点的使松鼠桂鱼,而店家给我上的是松鼠鲈鱼一样——此鱼非彼鱼。
⑤对协同边界的理解最后,我们谈“人机协同”的“边界”。谈到人机协同,两个主体显而易见,一个是人:即教师,一个是机:即AI。这里先谈AI对协同边界理解的展现,在文章最后我会集中来谈谈老师的角色。
细化到《有趣的脸》的课堂教学中,这个活动为什么要PPT?在什么环节用最合适?在哪些环节是要把课堂交给老师的?——AI是否也能知道自己该在什么时候发挥、在什么时候退后么?我们来看NotebookLM和豆包在数据上的对比:

不难发现,前者在创作表现上以2页”材料介绍"和“操作指引”作为主体,最后一张直接交给现场孩子们去创作了,后面的展示页没有再多笔墨——因为教案中的“展示交流”在实际课堂中一定会发生在幼儿的实体作品上而不是在预设的课件中。


这就像我点了松鼠桂鱼,店家上菜时说:“这道菜我们创新改良过了,青豆和胡萝卜的量是鱼的2倍才更符合您一日营养配比”——越俎代庖地乱发挥,造成的必然只能是混乱。看完以上5点,我们再来看NotebookLM的全面产出,你是否也能感受到它在用户需求、教学对象、教学意图、素材内容、协同边界方面有着像“名师”一样的教育理解与思考呢?

03
对象感、审美与图像生成能力
——【呈现力】是理解与技术的载体
如果说理解力直接决定“是不是知道我要什么”,那么呈现力则是“能不能把它优秀地展现出来”了。
还是先来看呈现力方面评分对比:

下面一一来拆解:①风格审美:几款AI生成的模板风格可以分成两种:简约与卡通。那么问题来了:儿童的就一定是卡通的么?显然不是。
真正懂教育的AI,不会用花哨的背景填满屏幕、不会简单地把儿童和卡通划等号——因为它知道视觉降噪是为了让幼儿本来就短的注意力更聚焦在米罗那些极简却充满想象力的线条本身上。而整个课件的视觉审美本身也是艺术素养培养的一个组成部分。
如果你是孩子,下面几个课件中,哪些更能让你关注到米罗的作品呢?



②素材选用与视觉生成:当AI为”有趣的脸”挑选图片时,是选择了教案中米罗原作的线稿(那些极简线条勾勒的夸张脸型),还是随便找一张“可爱卡通脸”?两者的区别体现了它是否理解“艺术素养培养需要原真审美经验”——米罗的”不像”恰恰是”有趣”的源泉、是对“图像变形”的艺术表现,而不经筛选的卡通图片的滥用只会将孩子从艺术素养培养的道路上越拉越远。
我个人认为,豆包这次的生成给我们提供了一个很有价值的“反面案例”:


04
综合评述:模型能力坐标系
——五个模型的测评一览
我将依据AI理解力和呈现力这两项基本能力创建了坐标系,并通过两条关键阈值线(3分和4分)将平面划分为三个区域,分别是:
高推荐区(绿色):可放心选用
中推荐区(黄色):有条件使用
低推荐区(红色):不建议使用
具体结果如下:

从坐标系中不难看出,NotebookLM各方面领先,coze和Kimi综合也有着不俗的表现。而豆包和千问在这一使用场景中惨遭”淘汰“——因为AI课件的存在是为了帮助老师提质增效,更是为了支持学生更好地学习,只有当AI打破了“质量、专业、轻松”的不可能三角时,它才能真正成为教师教学的同行者。
结合友好度,一表总结:

05
逃不开的话题:
谈谈“人”的位置——人机协同中的价值锚点
测评至此,也让我们看到,在同一场景下,不同AI平台技术能力的边界与差异。但最后,还想说说人机协同中的”人“——即教师的位置。
我认为,AI重构了教师的工作形态,但在价值观与价值判定的坐标上,依然必须”教师先行”。在这一场景中,教师要先于AI完成五个理解维度的确认:PPT是做给谁看的?幼儿的学习方式是怎样的?我这节活动的教学意图在素养、理解、认知、技能与情感上的定位到底是什么?什么样的素材才能支持到学习?即哪些部分AI能帮我完成,哪些是我主导的?只有人先完成精准的价值锚定,才能具备判断”AI是否把那个最重要的价值转化并设计出来”的能力——而这又何尝不是AI时代教师最重要的AI素养之一呢?
教师必须是那个负责任的守门人,不是因为AI不够强,而是因为
"An AI system can never replace ultimate human responsibility and accountability. AI系统永远无法取代人类的最终责任和问责。"
06
写在最后及后续预告
其实这篇文章的产出时间比预期整整了一个星期、又熬了很多夜~ 不是因为没有用AI工具,而是因为AI的很多表述、理解还不够让我满意,并且自己始终又有新的感悟出现。于是足足花了一个多星期慢慢改、慢慢试。
还记得第一篇文章里我提到:面对铺天盖地的AI工具,老师们像站在河边的”小马”,不知道水有多深。而我做的事情,只是把所有的水都趟一遍——测试理解力的边界,检验模型能力的底线,验证对象感的真伪,然后把水的深度、流速、暗礁,摆在老师面前供大家参考。
而发文前,我也突然想到去询问下我的前搭班——李慰宜导学班的成员——姜岚老师关于这几个PPT的评价。结果NotebookLM生成的PPT成了她唯一看的上的一个。但她同时也提到“不是所有的美术活动都要做PPT的。”的确,在“AI生万物”的时代,我们对于“是否每个活动都需要用AI生成课件”也需要时刻保有自己清醒的价值判断。
如果本文给你带来了一点点有用的信息和些许的思考,欢迎转发、点赞、收藏~


如果你有哪些教育场景希望测试的也可以文末留言哦~ 
PS,接下来可能会留一些篇幅给我们家的“后浪”,也欢迎持续关注哦~
相关链接:
AI教案转PPT课件实测①: Kimi——一个理解你设计意图的务实派
教案转PPT课件实测②:Coze——一个能高效交付但需调教的"打工人"
我是谁
END
