摘要:本系列博客为记录各个 AI Coding Agent 在不同任务下的对比, 每期进行综合评分排名, 评分维度可能包括:
逻辑正确程度 UI 精美程度(如果有) 开发体验(报错次数是否少) 一些别的维度, 视具体任务而定
每一项满分 10 分, 最后会给出一个综合评分排名. 参赛的选手包括:
Claude GPT Gemini Composer (Cursor 自研的一个模型, 速度极快) Kimi Qwen
每一期不一定全部选手参赛. 声明: 本系列偏向娱乐性质, 单次任务的测试方差较大, 最后的排名不代表各个模型真正的能力 (虽然大趋势上应该是比较能说明梯度情况的).如需真正模型评分和排名, 请参考专业机构.
本系列博客为记录各个 AI Coding Agent 在不同任务下的对比, 每期进行综合评分排名, 评分维度可能包括:
每一项满分 10 分, 最后会给出一个综合评分排名.
参赛的选手包括:
每一期不一定全部选手参赛.
声明: 本系列偏向娱乐性质, 单次任务的测试方差较大, 最后的排名不代表各个模型真正的能力 (虽然大趋势上应该是比较能说明梯度情况的). 如需真正模型评分和排名, 请参考专业机构.
逻辑正确程度 UI 精美程度(如果有) 开发体验(报错次数是否少) 一些别的维度, 视具体任务而定
每一项满分 10 分, 最后会给出一个综合评分排名. 参赛的选手包括:
Claude GPT Gemini Composer (Cursor 自研的一个模型, 速度极快) Kimi Qwen
每一期不一定全部选手参赛. 声明: 本系列偏向娱乐性质, 单次任务的测试方差较大, 最后的排名不代表各个模型真正的能力 (虽然大趋势上应该是比较能说明梯度情况的).如需真正模型评分和排名, 请参考专业机构.
本系列博客为记录各个 AI Coding Agent 在不同任务下的对比, 每期进行综合评分排名, 评分维度可能包括:
每一项满分 10 分, 最后会给出一个综合评分排名.
参赛的选手包括:
每一期不一定全部选手参赛.
声明: 本系列偏向娱乐性质, 单次任务的测试方差较大, 最后的排名不代表各个模型真正的能力 (虽然大趋势上应该是比较能说明梯度情况的). 如需真正模型评分和排名, 请参考专业机构.