Pathway
ГЛАВА 2

Как подготовиться к тестированию

2.1 Цель, гипотезы и исследовательские вопросы

Перед тем как проводить исследование, нужно понять, что вы хотите узнать и как потом применить результаты — то есть определить цель.

Примеры целей:
  • Проверить, насколько элемент интерфейса понятен, заметен или легко находится.
  • Узнать, как люди воспринимают интерфейс.
  • Узнать, какой из двух интерфейсов потенциальные пользователи предпочитают.
  • Понять, на какие категории разложить каталог или меню страницы.

Гипотеза — это обоснованное предположение, которое требует проверки. Ее формулируют как утверждение о продукте или интерфейсе.

Примеры гипотез:
  • Большинство людей поймет, куда нажать, чтобы оформить налоговый вычет.
  • Пользователи поймут, что баннер на главной странице призывает подписаться на скидки.

Исследовательский вопрос — вопрос, на который нужно ответить в ходе исследования. Он нужен, если у вас нет гипотезы и вы ищете новое решение для улучшения продукта.

Примеры исследовательских вопросов:
  • Какой способ доставки предпочитает большинство людей?
  • Как пользователи поймут название кнопки?
  • Какой вариант предложения выглядит более доверительным?

Гипотезу или исследовательский вопрос лучше сформулировать, когда вы только начинаете думать о тестах. Так вы сможете понять:

  • Правда ли нужно исследование пользователей, а, например, не A/B-тест.
  • Каким исследовательским методом проверить гипотезу или ответить на исследовательский вопрос.
  • Как сформулировать задание на тест.
  • Как структурировать и анализировать результаты по итогам теста.

2.2 Как сформулировать гипотезы и вопросы

За один тест можно проверить только одну гипотезу. Поэтому важно, чтобы формулировка содержала только одно утверждение.

Пользователи позитивно оценят новое название и поймут его.
Пользователи поймут новое название.

Гипотеза или исследовательский вопрос должны быть сформулированы так, чтобы на них можно было ответить «да» или «нет». Либо чтобы в качестве результата можно было показать соотношение респондентов, которые выбрали тот или иной вариант.

Пользователи смогут поделиться впечатлениями, как им новая иконка приложения.
Пользователи позитивно оценят новую иконку приложения.

Гипотеза или исследовательский вопрос должны быть конкретны.

Люди поймут текст на кнопке.
Когда люди прочитают текст кнопки, они поймут, что доставка товара будет перенесена на день.

Проверка гипотезы должна давать новое знание, которого нет в best practices и проведенных исследованиях вашего продукта.

Пользователи поймут, что иконка лупы — значок поисковой строки.
Пользователи поймут, что текст «Поехали» в поисковой строке означает отправку запроса.

Гипотеза или вопрос должны быть такими, чтобы вы получили результаты, которые пойдут в работу. Если проверяете утверждение ради того, чтобы проверить утверждение, исследование лучше не запускать.

Узнать, какой из вариантов иконки будет более понятен пользователям, если у разработчика нет времени переделывать иконки.
Узнать, какой из вариантов иконки будет более понятен пользователям. С разработкой уже договорились.

2.3 Аудитория

Чтобы получить результаты, с которыми потом можно будет работать, надо понять, чьи ответы окажутся полезны.

Важно учесть опыт респондентов и поведенческие факторы. Если вы делаете конкурента «1С», будут нужны бухгалтеры, а если агрегатор по покупке билетов, надо рекрутировать тех, кто часто путешествует.

Демографические факторы (возраст, география, пол и так далее) также могут иметь значение, если вы знаете, что пользователи из разных демографических группы ведут себя по-разному.

Чаще всего про аудиторию можно посоветоваться с продуктовым менеджером.

2.4 Сколько нужно респондентов

Увы, простого ответа нет, поэтому сперва расскажем, от чего это зависит.

В зависимости от целей используют качественные или количественные исследования. Если коротко, то качественные — чтобы найти проблемы и придумать решения, количественные — чтобы проверить гипотезы и получить статистически значимый ответ.

Необходимое количество респондентов для каждого типа будет разным. Как посчитать — рассказываем дальше.

Для качественного исследования

Если вы проводите качественное исследование (например, анализируете взаимодействие пользователей с прототипом, собираете ответы на открытые вопросы или результаты карточной сортировки), в большинстве случаев для немодерируемого теста рекомендуем брать 15–20 респондентов.

Почему именно столько?
Для модерируемых UX-исследований есть классическая рекомендация — 5–7 респондентов (согласно Nielsen Norman Group), но в случае немодерируемых исследований у вас нет возможности задавать контекстные вопросы или направить исследование в нужную сторону, а еще нужно учесть, что некоторые ответы могут оказаться некачественными или неинформативными. Поэтому рекомендуем брать в 2–3 раза больше.

Важно отметить, что эта рекомендация не является универсальной, как и рекомендации Neilsen Norman Group про 5-7 респондентов. Иногда нужно больше, иногда — меньше. Например, если вы исследуете сегментированную аудиторию, которая ведет себя по-разному, вам может понадобиться выборка большего размера.

Для количественного исследования

В количественном исследовании мы проверяем гипотезу на большом числе респондентов, чтобы получить статистически значимый результат.

«Статистически значимый» значит, что этот результат будет правдив не только для тех людей, кто участвовал в тесте, но и для всех остальных пользователей.

Пример
Представим, что нашим сервисом пользуются 10 000 человек.

Мы взяли 100 человек и показали им кнопку для новой функции. Все 100 поняли, что делает эта кнопка.

Но поймут ли оставшиеся 9 900 человек? Это большой вопрос, ведь 100 человек — это всего 1% и, возможно, нам просто повезло. Вот тут приходит на помощь статистическая значимость.

Давайте познакомимся с несколькими терминами — они помогут в подсчете количества респондентов.

Генеральная совокупность — все люди, которые входят в аудиторию вашего продукта. Например, все, кто делает покупки в интернете, или все, кто зарегистрирован как самозанятый.

Размер выборки — опросить всю аудиторию невозможно, поэтому появилось понятие выборки и ее размера. Статистические методы помогают на основе выборки обобщить результаты на генеральную совокупность.

Погрешность — это возможное отклонение результатов, которые получили при тестировании выборки, от реальных значений в генеральной совокупности.

Пример
На примере того же сервиса:
Генеральная совокупность (все пользователи) = 10 000.
Выборка = 100 человек.

Допустим, 50 человек из выборки поняли, что делает новая кнопка. Погрешность ±10% означает, что про всех 10 000 пользователей можно будет сказать: от 4 до 6 тысяч из них тоже поймут смысл новой кнопки.

Коротко: если 50% выборки поняли, значит, при погрешности ±10% от 40 до 60% из генеральной совокупности тоже поймут.

Количество респондентов — всегда сложный вопрос. С одной стороны, чем больше респондентов, тем ближе полученный результат будет к реальности, с другой — придётся потратить больше ресурсов на привлечение респондентов.

Поэтому при ответе на него всегда приходится балансировать между стоимостью исследования и точностью результатов.

Сколько респондентов нужно для количественного исследования

В общем случае мы рекомендуем привлекать к каждому количественному UX-исследованию 95–100 человек. Максимально возможная погрешность результатов с такой выборкой будет ≈ 10%.

Для подавляющего большинства случаев этого будет достаточно: для немодерируемых исследований не имеет смысла добиваться точности в несколько процентов или увидеть очень маленькую разницу, сравнивая несколько вариантов. Для этого лучше подходит А/Б тестирование.

Важно отметить, что использование другого количества респондентов (обычно, варьируется от 30 до 400 человек) — не ошибка, а просто другая точка баланса между точностью результатов и стоимостью исследования. В следующем разделе мы подробнее рассмотрим, как это работает.

Как рассчитать количество респондентов для количественного исследования

Количество респондентов зависит от максимальной допустимой погрешности полученных результатов относительно генеральной совокупности.

Если упростить, то допустимая погрешность — это та, которая вас устраивает (помните про баланс между точностью и стоимостью исследования?).

Статистически значимое минимальное изменение метрики — это разница между результатами тестов, при которой можно считать, что результаты будут различаться и для генеральной совокупности.

Таблица ниже показывает, как погрешность и минимальное изменение зависят от количества респондентов в выборке.

Размер выборкиПогрешность
3018%
4315%
9610%
3845%

Для расчета значений в таблице мы использовали уровень значимости 95% и предположили, что имеем дело с большой генеральной совокупностью — более 100 000 человек.

Пример
Мы провели тест первого клика на выборке из 96 человек. Если 50% из них сделали целевое нажатие, то с 95%-й вероятностью в генеральной совокупности количество правильно понявших интерфейс людей будет от 40 до 60% (погрешность ±10%).

Вы можете поменять эти значения и рассчитать размер выборки с другими погрешностью и доверительным уровнем, используя наш калькулятор:

Максимальная погрешность
Например, введите «10», чтобы погрешность полученных результатов на полученном размере выборки не превышала ± 10%.
Уровень значимости
Вероятность того, что реальное значение находится в пределах погрешности. В большинстве случаев используют 95%.
Необходимо NaN респондентов.
С вероятностью 95% погрешность полученных результатов на выборке NaN человек, относительно всей совокупности пользователей, не будет превышать ± %.

2.5 Какой вид теста выбрать

Краткое описание ниже поможет разобраться, какой тест вам, скорее всего, подойдет. Подробные описания смотрите в разделе «4. Подробнее о видах тестов».

Тест первого клика — респонденту нужно куда-то нажать на экране, чтобы совершить действие.

Пример вопроса
«Куда вы нажмете, чтобы оформить страховку?» или просто «Оформите страховку».

Preference (или Side-by-Side) тест — пользователь должен выбрать, какой из двух макетов одного и того же экрана его привлекает больше.

Пример вопроса
«Какой из двух вариантов объявления вызывает у вас большее доверие к сервису?»

Пятисекундный тест — у респондента есть 5 или больше секунд, за которые надо посмотреть на экран и запомнить то, что показалось важным.

Пример вопроса
«Пожалуйста, посмотрите на баннер на главной странице сайта. О чем эта реклама?»

Карточная сортировка — пользователь сортирует сущности по категориям в меню или каталоге. Исследователь может дать готовые названия категорий либо предложить пользователю решить самому, по какому признаку надо рассортировать сущности. Тест помогает определить, какой каталог или меню был бы для пользователя удобен.

Пример задания
«Пожалуйста, распределите банковские счета и вклады по представленным категориям. В этом задании нет правильных или неправильных ответов — распределите карточки так, как вы считаете нужным».

Сценарное тестирование — респондент должен совершить на странице простое действие, ради которого нет смысла проводить большое модерируемое исследование. Еще сценарное тестирование называют мини-юзабилити-тестом.

Пример задания
«Пожалуйста, выберите способ оплатить доставку еды на этом экране».

2.6 Как сформулировать задания для теста

В вопросе не должны скрываться два вопроса — нужно, чтобы он был однозначным, простым и понятным.

«Перейдите в форму оплаты медиаподписки. Какие элементы вы запомнили, когда проходили задание?»
«Перейдите в форму оплаты медиаподписки.»

Важно, чтобы вопрос звучал как реальная задача из жизни респондента — не используйте исследовательскую или дизайнерскую терминологию. При этом старайтесь не переборщить с подробностями, чтобы не запутать пользователя деталями.

Представьте, что вы ищете работу бухгалтером. Кликните на сниппет объявления, которое вам кажется наиболее подходящим.
Представьте, что вы хотите купить телефон. Выберите самое выгодное предложение с доставкой завтра.

Если нужно, дайте контекст, чтобы человек понял, что происходит на экране и что ему нужно сделать.

Купите ОСАГО.
Представьте, что вы уже выбрали тариф, срок и вид ОСАГО, заполнили анкету. Пожалуйста, оплатите страховку.

Проверьте, насколько легко формулировки читаются и нет ли в них очевидных грамматических или орфографических ошибок. Иначе респондентам будет сложнее понять задание, и они отвлекутся от сути вопроса.

Пожалуйста, выберите, какая иконка, по вашим субъективным ощущениям и мнению, кажется более уместной.
Пожалуйста, выберите иконку, которая вам кажется более уместной.

Если готовите опрос, сделайте как можно меньше открытых вопросов. Чем больше вопросов, на которые надо отвечать развернуто, тем меньше подробностей будут давать респонденты. А результаты будет сложнее обработать.

Где вы покупаете авиабилеты?
Что думаете о сервисе Aviasales?
Где вы покупаете авиабилеты?
  1. На агрегаторах
  2. На сайтах авиакомпаний
  3. Другое

Как вы оцениваете сервис Aviasales по шкале от 1 до 10?

Если предлагаете варианты ответа, добавьте вариант «Другое» с возможностью оставить комментарий. Иначе респондент может запутаться, если не найдет подходящий вариант, — и вы получите недостоверные данные.

Где вы заказываете пиццу?
  1. Достаевский
  2. Яндекс Еда
  3. Delivery Club
Где вы заказываете пиццу?
  1. Достаевский
  2. Яндекс Еда
  3. Delivery Club
  4. Другое

2.7 Типичные ошибки в формулировках

Не указывайте в вопросе на элемент интерфейса. Например, если кнопка называется «Оформить подписку», то вопрос «Куда нажать, чтобы оформить подписку» недопустим.

Не просите респондентов смоделировать далекую от них ситуацию. Не нужно предлагать пользователю представить, что он ищет работу, если в реальной жизни он этим не занят.

Не задавайте два вопроса в одном. Тогда респонденты могут дать некорректные ответы на оба из них. Пример двойного вопроса: «Какой вариант кнопки вам нравится больше и на какой бы вы нажали?»

Не используйте сложные термины и профессиональную исследовательскую лексику. Иначе часть респондентов напишут в ответах, что не знают, как сделать задание. А вторая часть выполнят задание и при этом не признаются, что не поняли его суть.

Примеры терминов, которые наверняка вызовут затруднения:
«чекаут», «точка входа», «футер»

2.8 Чек-лист: о чем еще подумать перед запуском

Спросите себя «Какое знание я хочу получить?»
Подумайте, какой формат ответа вам подойдет — например свободный ответ, клик или выбор из нескольких вариантов.
Проверьте, что в формулировке вопроса не скрыто два вопроса.
Посмотрите, насколько вопрос понятен и однозначен.
Дайте контекст, если это нужно для выполнения задания. Например, респонденту будет важно понять, как он оказался на странице чекаута.
Если возможно, запускайте тест или опрос не сразу на всю выборку. Лучше сделайте пилотную версию на 20–30 респондентов. Так по первым ответам отловите проблемы и сможете их исправить.
Покажите исследование коллегам в своей команде — возможно, у них будут ценные комментарии.

2.9 Чек-лист: как подготовить макет или прототип

Подумайте, какие пути в прототипе оставить, а какие убрать. Не оставляйте только один путь — респонденты точно по нему пройдут, но результаты теста вам не пригодятся.
Посмотрите, насколько данные на макете реалистичны. Молоко не может стоить 500 рублей, а призыв к действию «Ну пожалуйста, купите» в реальной жизни никто не пишет.
Посмотрите, насколько понятно, о каком элементе вы спрашиваете. Нужный объект можно поместить в рамку или указать на него стрелкой. Если указываете стрелкой, убедитесь, что рядом с нужным элементом не стоят другие, — иначе респондент не поймет, на что надо обратить внимание.
Если сравниваете два и больше экрана, проверьте, что макеты различаются только той деталью, которую тестируете.
Посмотрите, совпадают ли качество и размер двух или больше макетов, если проводите Preference-тест.
Поместите прототип в отдельный файл в Figma или другом дизайнерском редакторе. Тогда макет будет быстрее открываться и меньше зависать.
Откройте доступ для всех, если макет или прототип открывается по ссылке.
Проверьте, что макет подходит к устройству, с которого респондент будет выполнять задание.
Отключите подсказки, куда можно нажать, если они есть.