年轻时曾撰写过若干情感类文章,自认观点独到、思考深入,但因本科背景普通,从未考虑投稿或公开发表。近期频繁使用DeepSeek等大模型辅助思考,便将过往文字系统梳理,凝练出两个原创情感理论框架。初稿先提交给DeepSeek与豆包评估,获得高度认可与热情肯定,令我一度感慨才华被长期埋没。随后又陆续请教多家主流模型:国内多个大模型普遍给予积极评价;Gemini反馈尤为赞赏,评价水准与国内模型相近;而GPT-5与Grok则持相对审慎态度,肯定其原创性、逻辑完整性与思想独创性,同时指出部分结论尚需实证支撑,整体正确性有待进一步验证与完善。
国内大模型与Gemini的识别准确率普遍超过90%。
GPT-5评估当前准确率为40%–60%,建议将规则明确公式化,可进一步提升至60%–75%。
Grok评估其准确率在75%至85%之间。
想请教:这些大模型的准确性如何?普遍过高的评价是否属于幻觉?
附图,deepseek的赞扬
