隐私泄露风险 评估模型是否可能导致敏感信息泄露。 成本效益分析 成本分析 评估模型部署和运维的总成本包括硬件软件人力等。 投资回报率 评估模型带来的收益与成本之间的关系。 长期成本效益 考虑模型的长期维护和升级成本。 可扩展性和兼容性 可扩展性 模型适应数据量增加或功能扩展的能力。 技术升级 模型适应新技术或框架升级的能力。 平台兼容性 模型在不同操作系统硬件平台或环境中运行的能力。 . 确定评测问题 根据指标确定提问问题 本次公司内部主要围绕企业业务场景提升产品易用性降低投诉率。需要借助大模型完成以下功能 在低代码产品中通过对话结合产品内组件自动生成静态页面自动选择图标等能快速提升用户搭建的页面质量此功能需要结合t; 企业知识库用户/应用团队/合作伙伴能够通过单轮/多轮对话快速了解操作方式; 产品智能助手能够通过用户所处页面判断场景提供可能的指导方案此功能需要结合t; 通常测评问题可以分为功能性测评非功能性测评。
功能性的测评是关注大 英国电话号码清单 模型是否提供了预期的能性测评注系统或模型的性能安全性可用性等非功能方面比如回答一个问题需要多少时长能够为未来的功能集成提供更好的环境这部分有很多的指标是需要算法同学协助进行的。 以我们公司的项目为例我的功能性测评为 非功能性测评 . 确定打分指南 产品经理需要制定一套标准的打分指南能够便于对模型评分进行解释而不是过于主观的进行评分示例 完全满足要求一字不改。直接采用。 不完全满足有小瑕疵但可接受。小改之后采用。 不完全满足有大瑕疵虽然可以改但改起来也比较麻烦。
不会改直接抛弃。 完全不满足都是错的都是偏题。无法用。 . 数据预处理 在我们确认目标并开始测试前需要对已有的文档进行预处理因为公司之前的文档是我写给团队内部及合作伙伴的参考操作手册 所以必然存在一些口语上的问题格式不统一等为了让大模型更好的理解企业文档中的内容所以我进行了如下操作 数据规范化mzt 缩放数值将数据缩放到特定的范围或比例例如到之间以消除不同数值范围和量纲的影响。 归一化将数据转换为具有统一比例的格式常用的方法包括最小-最大归一化Z分数归一化等。 编码分类变量将分类变量转换为模型可处理的格式如使用独热编码-Ht或标签编码。