量化用户研究：可用性测试样本量易用性置信度|什么是软件可靠性、软件可用性_在线兼职

用户研究听起来是个非常大的学科和话题，没有具象的描述和切实的研究方法就显得虚无缥缈，让人有种雾里看花的感觉。

用户研究和用户体验一样，在国外市场得到验证、认可并被不同行业的企业所接受，而国内市场处于萌芽阶段，只有部分行业的头部企业对其有较为清晰的认知和应用。

那么怎么定义用户研究？

首先，用户研究的目的是了解用户，对用户有更清晰、具象的画像，是一系列研究方法的概括型的名称。

作为体验设计师或交互设计师，可以通过研究方法对用户目标、需求和能力的系统研究，用于指导设计、产品结构或者工具的优化，提升用户工作和生活体验。

二、HOW怎么做用户研究

研究中包含的用研方法有很多，可以根据实际场景和资源选择适合的方法，目前常用的实用性、可操作性比较强的四大方法：可用性测试、网站访客（埋点数据）、用户调查、A/BTest。

在设计过程中的每个阶段，用户研究是都需要做的工作，但很多时候由于工期较短，deadline在前，设计师在产品设计初期没有办法做到较为完善的用户研究，那么这部分工作就会被延后，在验证阶段研究任务就会变得比较重，后期的优化对此依赖性也比较强。

可用性测试是设计师在验证阶段相对比较能贴近用户的用研方式，在测试过程中通过观察用户行为，从即时的反馈中更容易获得贴近真实的定性数据，用对话沟通的方式深度挖掘用户遇到的问题，从而锁定优化重点。

1.了解可用性测试

（1）可用性测试的优势

（2）可用性测试的类型

可用性测试可以分为两种测试类型：形成性测试（FormativeTest）和总结性测试（SummativeTest）。

①形成性测试

主要作用于查找与修复可用性问题，提供及时反馈便于改进，是设计师重点参与的测试类型。

②总结性测试

用指标度量可用性，用来评估效果，其中又分为基准测试和比较测试。

（3）可采集的数据

样本量：通常大于30，当数据量小于10可通过统计学方法计算得到有效统计分析结论。

代表性：样本能够代表预期要描述的用户群，若存在不同用户群组中有重要差异因素的使用分层抽样（StratifiedSampling）的方式。

随机性：考虑所有重要变量，设计理想样本，合理合并用户群组。

测试数据：现场/远程测试，观察记录用户用户行为，与用户互动深入挖掘问题。

完成率：即成功率，完成=1、失败=0，完成率=完成任务用户数/用户总数。

可用性问题：根据问题出现的频率和影响程度评估严重性、优先级。

出错数：尝试任务产生的无意识的出错数量，诊断失败原因，预判可能出现的场景。

满意度评分：使用标准化可用性问卷，回收数据计算得出。

复合分数：复合型总结可为用户体验提供更好的总体描述。

2.可用性测试问卷

经过长期的研究和市场验证，目前已沉淀出很多标准化的可用性问卷，不同的问卷的评估针对性不一样，可以满足大部分用研需求。

使用标准化的问卷是因为这些问卷是经过大量的使用后验证校准后产生的，是被认可具有通识性的衡量标准，这些问卷都具备客观性、重复性、量化、经济、沟通、科学的普适性的优质属性。

（1）标准化的可用性测试问卷

问卷类型主要可以分为以下两大类：

列表中的问卷大部分是需要缴纳一定的费用后才能使用，但其中系统可用性整体评估问卷、软件可用性问卷、场景后问卷是标准可用性问卷中可以免费使用的。

应用广泛且被专家推荐的测试问卷是：软件可用性问卷主要针对系统或功能进行整体评估，问题设计精炼清晰，使用快捷方便；单项难易度问题追求的是心理测试的简单和适用性，有5分和7分制，7分制的可靠性更高；主观脑力负荷问题是在线测试，灵敏性更好。

综合评估下，软件可用性问卷（SoftwareUsabilityScale，SUS）是设计日常中最合适最经济实用的测试问卷。

（2）软件可用性问卷（SUS）

软件可用性问卷是可用性测试结束时的主观性评估问卷，应用广泛，测试后该问卷使用占比约43%。

整个问卷共10题，每题为5分制，奇数项为正面描述，偶数项为反面描述，可以通过修改问题文案聚焦测试范围；如有需要可以将偶数项的问题调整为正面描述，但数据验证调整为正面描述的问卷结果与包含负面描述的问卷差异不大，不影响问卷的测试结论。

在完成测试任务后，用户需快速完成各个题目，不进行过多思考，若用户因某些原因无法完成其中某个题目，则视为选择中间值。

（3）可用性、易用性抽取

（4）分值计算

得分计算：范围在0-4，每题进行转化分值；奇数题（正面）：原始分减去1，（x-1）；偶数题（负面）：5减去原始分，（5-x）

3.统计学描述方法

样本量小的情况下这个样本量所能概括的整体是范围比较大的，会存在较大误差，那么在较为严谨的报告中，可能需要对所得分数和除测试样本外的分值预期进行描述，这时候会涉及到统计学中常用的描述方式，即通过置信度及置信区间来描述，根据置信区间的下边界看软件是否低于行业标准。

置信区间是指在一定概率下包含样本位置总体参数的这部分数值区间，通过计算置信区间来描述测试结果的概率。置信区间宽度和样本量之间是一个逆平方根的关系，样本量越小，误差越大，未知样本数据可能所在的区间更大。

置信度就是说，你测得的均值，和总体真实情况的差距小于这个给定的值的概率，应该是1-α；换句话描述，即我们有1-α的信心认为，你测得的这个均值和总体的实际期望很接近了（测得的均值就是总体期望是很草率的，但是说，我有95%的把握认为我测得的均值，非常接近总体的期望了）。研究员可以选择0%-100%之间的任意数值的置信度，通常设为90%或95%（最常用）。

临界值是在原假设下，检验统计量在分布图上的点，这些点定义一组要求否定原假设的值。

（2）置信区间计算

置信区间=（样本平均值-误差幅度）～（样本平均值+误差幅度）=（x-（x-μ））～（x+（x-μ））

tips：临界值可以通过所设置信度和样本量在t分布表中查找相应的值。

（3）可用性测试策划应用

Step2：确定测试任务（任务内容、测试方案、SUS问卷地址），任务内容可以通过抽取用户体验地图（UserJourneyMap）流程中的触点设计，保证流程的完整性和任务的关联性。

Step4：用户填写SUS问卷，回收问卷分数进行计算，得出SUS分数、可用性分数、易用性分数的均值作为本次测试的结论。

Step5：作为补充，可以计算SUS样本分数的置信区间，预期未被测到的目标用户对产品的评分可能落在的区间，区间下限可横向对比，看是否低于行业标准。可以描述为“样本分数标准误差约=5.34，置信区间为63.78～69.12；有95%的把握认为测得的均值接近总体期望，未测样本分值将落在63.78～69.12之间，符合行业标准预期”。

Step6：通过测试过程中观察用户行为，探讨用户提出或下意识忽略的问题，并进行问题的记录和分类。

Step7：用户访谈记录问题进行解析，对问题的严重程度进行评级，选出问题较多的部分并提供可能的解决办法进行优化。

Step8：根据以上结论对测试进行总结性分析。

Reference：

图片：

作者：藜漫；公众号：酷家乐用户体验设计

本文由@酷家乐用户体验设计原创发布于人人都是产品经理，未经许可，禁止转载

THE END

量化用户研究：可用性测试样本量易用性置信度

软件可靠性需求有哪些–PingCode

软件工程基础(复习题及答案)

软件可靠性和硬件可靠性的区别软件可靠性和软件可用性的区别聚合数据

什么是软件质量?软件质量标准有哪些?

量化用户研究：可用性测试样本量易用性置信度

《网络信息安全》教程

软件工程十大技术之八：可靠性工程技术