系统可用性量表(System Usability Scale, SUS)

系统可用性量表(System Usability Scale, SUS)

可用性量表很多(见下图),SUS只是其中一个。


SUS简介:

量表作者:John Brooke (DigitalEquipment Corporation, UK, 1986)

问卷组成:10个问题,在5点量表上打分

量表中文版以及计分方式:查看这里

信度:0.85 (见上图)

优点:

  • 问卷短,省时
  • 最后会得出一个分数,直观
  • 免费
  • 对于小样本( n<14),SUS的优势更明显(见下图),图中的意思:随即抽取14名被试的SUS问卷均能判断网站1比网站2要好,而抽取的CSUQ问卷只有90%能做出这个正确的判断)

用途:

  • 同一个界面,完成不同的任务之间进行比较(因为有的任务可能会更难或不常使用,例如安装软件这个操作可能只需执行一次,而不像其他操作那样频繁使用;用户在完成不同类型和难度的任务之后,分别评多次SUS的分数,然后再进行对比,因为如果所有任务只评一个SUS分数的话,可能会因为某些任务较难而降低了评分);
  • 同一个界面,先后不同版本之间进行比较(不过需要注意的是增加新功能或改版后,用户在初期可能会不适应,而导致SUS在短期内会下降,但长期会回升)
  • 备用方案之间、竞品之间进行比较。
  • 不同种类的界面之间进行比较(例如同一个产品有PC版、网页版、Android版、iSO版;或者百度地图与微信之间比较)

(Bangor没怎么解释为什么可以在不同任务、不同时间、不同界面之间进行比较)

如何解释SUS分数?

1)SUS分数反映的是总体的可用性,单独抽取某个题目的得分在产品之间作横向比较意义不大

理由:

a)10道题目之间高度相关;

b)Bangor等人在2008年的那篇paper中,通过因素分析结果发现,10道题只提取出一个因素 ;但2009年有研究者提出,SUS分数反映了总体的满意度,同时第4和第10道题测量了易于学习性(learnability),而其他8道题测量了可用性。(详见

2)如果某个界面的SUS分数为76,这表示什么?


解决方案一:

AT&T Labs的Bangor,Kortum 和Miller在2009年发了一篇文章来解决这个问题。他们在SUS的结尾增加了1个问题(见下图),让用户使用Poor、Ok、Good等形容词来总体评价这个用户界面,其用意是想将SUS与这些形容词关连起来。

以下是每个形容词对应的SUS分数:按照这次的数据,被用户评为Good的那些界面,SUS的平均分为71.4(标准差为:11.6,感觉有点离散)。

不过Bangor等人并没有明确说,是否有足够的证据来证明可以使用71.4或某个分数来判断一个产品是否合格

解决方案二:

就像GRE的分数一样,将SUS分数转换成percentile百分位数,解释的时候就说:“比百分之xxx的其他界面的SUS分数要高”。(不过这需要一个相对较大的SUS分数库)

例如,由Jeff Sauro开发的SUS Package收集了500多个研究、5000多份SUS问卷。在这个分数库中,如果SUS得分为74,那么它比500多个界面中的70%都要高(见下图)


结合其他2篇paper中的SUS平均分,可以看出当一个界面的SUS得分为78时,可以说它大约比75%的其他用户界面都要好

a) Bangor, Kortum & Miller, 2009的研究中,3个百分数如下

75%:77.8

50%:70.5

25%:62.6

a) Bangor, Kortum & Miller, 2008的研究中,3个百分数如下

75%:78.5

50%:70.9

25%:62.3

如何报告SUS分数?

可以参考一下Jeff Sauro的SUS Package

图A:计算SUS,并区分出Usability和Learnability 2个维度

图B:将SUS转换成百分位数

图C:比较SUS


SUS十年回顾

Bangor等人在2008年发的那篇论文,总结了从1996年开始,收集了206个研究、2324份SUS问卷(即2324个被试)。(注:以下内容以这篇paper为主,同时辅以其他论文上的数据)

一、SUS分数的分布

  • 2324份问卷的SUS平均分为70.14,标准差21.71,取值范围是0-100;206个研究的SUS平均分为 69.69,标准差 = 11.87,取值范围是30-93.9;
  • 2324份问卷的SUS分数呈负偏态分布,206个研究的SUS平均分接近正态分布


(注:Figure 2是直接计算2324个被试的2324份问卷的SUS平均分;

因为一个研究大约会有10个被试左右,所以Figure3是先计算每个研究所有被试的SUS平均分,再计算这206个研究的平均分)

结合其他2篇paper和blog中的SUS平均分,可以看出当一个界面的SUS得分为70时,可以说它达到了平均水平

  1. M=69.69 206个研究、2324份问卷 (Bangor, Kortum & Miller, 2009)
  2. M=69.69 273个研究、3500份问卷 (Bangor, Kortum & Miller, 2008)
  3. M=68 500个研究、>5000份问卷 (Jeff Sauro)

2)不同类型的界面测到的SUS分数差异不大

将206个研究界面分成6类,方差分析发现,6类之间差异不显著


3)SUS与任务完成率、完成时间不太相关

JeffSauro发现,SUS分数与任务完成率、完成时间的相关系数为r=.24,属于轻度相关(但原文中没说是否显著)。r=.24的意思是:任务完成率与完成时间这2个数值5.76%的方差可以用SUS分数来解释(5.76%=0.24 x 0.24)。不知道Sauro是如何可以计算SUS与另外2个变量的相关,却得出一个相关系数,而不是2个。

推荐阅读