可用性量表很多(见下图),SUS只是其中一个。
SUS简介:
量表作者:John Brooke (DigitalEquipment Corporation, UK, 1986)
问卷组成:10个问题,在5点量表上打分
量表中文版以及计分方式:查看这里
信度:0.85 (见上图)
优点:
- 问卷短,省时
- 最后会得出一个分数,直观
- 免费
- 对于小样本( n<14),SUS的优势更明显(见下图),图中的意思:随即抽取14名被试的SUS问卷均能判断网站1比网站2要好,而抽取的CSUQ问卷只有90%能做出这个正确的判断)
用途:
- 同一个界面,完成不同的任务之间进行比较(因为有的任务可能会更难或不常使用,例如安装软件这个操作可能只需执行一次,而不像其他操作那样频繁使用;用户在完成不同类型和难度的任务之后,分别评多次SUS的分数,然后再进行对比,因为如果所有任务只评一个SUS分数的话,可能会因为某些任务较难而降低了评分);
- 同一个界面,先后不同版本之间进行比较(不过需要注意的是增加新功能或改版后,用户在初期可能会不适应,而导致SUS在短期内会下降,但长期会回升)
- 备用方案之间、竞品之间进行比较。
- 不同种类的界面之间进行比较(例如同一个产品有PC版、网页版、Android版、iSO版;或者百度地图与微信之间比较)
(Bangor没怎么解释为什么可以在不同任务、不同时间、不同界面之间进行比较)
如何解释SUS分数?
1)SUS分数反映的是总体的可用性,单独抽取某个题目的得分在产品之间作横向比较意义不大
理由:
a)10道题目之间高度相关;
b)Bangor等人在2008年的那篇paper中,通过因素分析结果发现,10道题只提取出一个因素 ;但2009年有研究者提出,SUS分数反映了总体的满意度,同时第4和第10道题测量了易于学习性(learnability),而其他8道题测量了可用性。(详见)
2)如果某个界面的SUS分数为76,这表示什么?
解决方案一:
AT&T Labs的Bangor,Kortum 和Miller在2009年发了一篇文章来解决这个问题。他们在SUS的结尾增加了1个问题(见下图),让用户使用Poor、Ok、Good等形容词来总体评价这个用户界面,其用意是想将SUS与这些形容词关连起来。
以下是每个形容词对应的SUS分数:按照这次的数据,被用户评为Good的那些界面,SUS的平均分为71.4(标准差为:11.6,感觉有点离散)。
不过Bangor等人并没有明确说,是否有足够的证据来证明可以使用71.4或某个分数来判断一个产品是否合格
解决方案二:
就像GRE的分数一样,将SUS分数转换成percentile百分位数,解释的时候就说:“比百分之xxx的其他界面的SUS分数要高”。(不过这需要一个相对较大的SUS分数库)
例如,由Jeff Sauro开发的SUS Package收集了500多个研究、5000多份SUS问卷。在这个分数库中,如果SUS得分为74,那么它比500多个界面中的70%都要高(见下图)
结合其他2篇paper中的SUS平均分,可以看出当一个界面的SUS得分为78时,可以说它大约比75%的其他用户界面都要好
a) Bangor, Kortum & Miller, 2009的研究中,3个百分数如下
75%:77.8
50%:70.5
25%:62.6
a) Bangor, Kortum & Miller, 2008的研究中,3个百分数如下
75%:78.5
50%:70.9
25%:62.3
如何报告SUS分数?
可以参考一下Jeff Sauro的SUS Package
图A:计算SUS,并区分出Usability和Learnability 2个维度
图B:将SUS转换成百分位数
图C:比较SUS
SUS十年回顾
Bangor等人在2008年发的那篇论文,总结了从1996年开始,收集了206个研究、2324份SUS问卷(即2324个被试)。(注:以下内容以这篇paper为主,同时辅以其他论文上的数据)
一、SUS分数的分布
- 2324份问卷的SUS平均分为70.14,标准差21.71,取值范围是0-100;206个研究的SUS平均分为 69.69,标准差 = 11.87,取值范围是30-93.9;
- 2324份问卷的SUS分数呈负偏态分布,206个研究的SUS平均分接近正态分布
(注:Figure 2是直接计算2324个被试的2324份问卷的SUS平均分;
因为一个研究大约会有10个被试左右,所以Figure3是先计算每个研究所有被试的SUS平均分,再计算这206个研究的平均分)
结合其他2篇paper和blog中的SUS平均分,可以看出当一个界面的SUS得分为70时,可以说它达到了平均水平
- M=69.69 206个研究、2324份问卷 (Bangor, Kortum & Miller, 2009)
- M=69.69 273个研究、3500份问卷 (Bangor, Kortum & Miller, 2008)
- M=68 500个研究、>5000份问卷 (Jeff Sauro)
2)不同类型的界面测到的SUS分数差异不大
将206个研究界面分成6类,方差分析发现,6类之间差异不显著
3)SUS与任务完成率、完成时间不太相关
JeffSauro发现,SUS分数与任务完成率、完成时间的相关系数为r=.24,属于轻度相关(但原文中没说是否显著)。r=.24的意思是:任务完成率与完成时间这2个数值5.76%的方差可以用SUS分数来解释(5.76%=0.24 x 0.24)。不知道Sauro是如何可以计算SUS与另外2个变量的相关,却得出一个相关系数,而不是2个。