慧评星(Mind Mark Star, MMStar) 是一款基于大语言模型的主观题智能阅卷与反馈系统,旨在为教育机构、在线教育平台和企业培训提供一种高效、智能化的主观题阅卷与反馈解决方案。系统通过大语言模型对主观题答案进行智能评分与反馈,显著提升阅卷效率并提供细粒度的个性化学习建议。
慧评星系统专注于教育评价领域中的主观题智能评阅,通过结合自然语言处理技术和先进的大语言模型,为教育机构提供高效的主观题评分和深度反馈解决方案。传统阅卷方式依赖人工,耗时且带有较强的主观性。慧评星系统旨在利用智能化手段,大幅提高阅卷效率,并提供数据驱动、细粒度的反馈,以辅助教学改进,更注重学生思维能力与语言表达等综合素质的评估。
在技术层面,慧评星系统采用大语言模型API接口,融合自然语言处理与语义分析技术,对主观题答案进行深入理解和智能评分。系统不仅提高了评分准确性,还能通过分层次的答案分析(如结构、逻辑、关键点覆盖)来捕捉更多细节。此外,系统的性能得到了显著增强,包括优化的存取速度、批量评分功能等,同时提供个性化学习建议和多语言支持,确保了服务的广泛适用性和灵活性。
为了提供最佳用户体验,慧评星系统设计了简洁直观的界面,分为教师端和学生端,分别针对不同的用户群体提供相应的功能模块。系统强调人性化的交互设计,例如实时校对格式、人机交互评分等功能,确保使用便捷高效。该系统适用于多种场景,包括但不限于中小学及高校的线上考试、网课平台的作业评阅,以及企业培训的效果评估。整个过程形成了一个功能闭环:从学生提交答案,到智能评分和反馈生成,再到教师审核确认,最后数据存储与报告生成,全面支持教育评价的智能化转型。
详见系统设计与开发文档4.2节。
提交的数据库内置1个默认管理员账号用于演示:
- 管理员
- 姓名:Admin
- 邮箱:[email protected]
- 密码:123456
您可以注册新的教师和学生,但管理员不支持注册新用户。如果想新增管理员,必须通过Django超级管理员在后台操作。
系统设计和开发文档4.3节介绍了如何获取和配置合适的API Key。
由于我们需要大模型返回的格式是包含"score"和"reason"键的字典字符串(不需要json代码块格式),因此评分prompt务必提供严格的输出格式要求。不合格的prompt可能导致智能评分失败。
此外,良好的模型选择也是评分成功的重要因素之一。
以下是一个规范的评分prompt示例,已验证对于Qwen-Plus模型稳定有效:
你是一名专业的评分员,负责根据标准对主观题答案进行评分。请你根据以下试题内容和评分标准,对考生的答案进行打分。评分时请注意以下原则:
1. **抓住要点给分**:考生的答案只要涵盖了评分标准中的关键点,即可获得相应分数,语言表述可以不同,但意思必须正确。
2. **酌情给分**:如果考生的答案没有完全按照评分标准作答,但提供了其他合理的答案或解释,且符合题目要求,体现出一定的学术素养和对课程知识的掌握,可酌情给分。
3. **不苛求字面一致**:不要求考生的答案与标准答案完全一致,意思表达清楚即可。
4. **要求答题的完整性**:如果只写出关键词但未作任何解释,可酌情给分,但原则上不得满分。
#### **试题内容**
(5分)试述关系模型的外码约束和普通参照完整性约束的规则。
#### **评分标准**
- 外码约束规则:若属性(或属性组)F是基本关系R的外码,它与基本关系S的主码K相对应(基本关系R与S不一定是不同的关系)(2分),则对于R中每个元组在F上的值必须为S中某个元组的主码值。(1分)
- 普通参照完整性规则不要求F是S的主码(1分),取值方面的要求与外码相同(1分)。
#### **你的任务**
根据上述试题内容和评分标准,对考生的答案进行打分,并简要说明扣分原因(如有)和答题评价。你的回答必须严格遵照以下格式(内容为示例,仅供参考):
{
"score": 4,
"reason": “对外码约束规则与普通参照完整性规则的认识基本正确,表述清晰,但没有提及普通参照完整性规则在取值方面的要求,扣1分。”
}