Как подготовиться к тестированию
2.1 Цель, гипотезы и исследовательские вопросы
Перед тем как проводить исследование, нужно понять, что вы хотите узнать и как потом применить результаты — то есть определить цель.
- Проверить, насколько элемент интерфейса понятен, заметен или легко находится.
- Узнать, как люди воспринимают интерфейс.
- Узнать, какой из двух интерфейсов потенциальные пользователи предпочитают.
- Понять, на какие категории разложить каталог или меню страницы.
Гипотеза — это обоснованное предположение, которое требует проверки. Ее формулируют как утверждение о продукте или интерфейсе.
- Большинство людей поймет, куда нажать, чтобы оформить налоговый вычет.
- Пользователи поймут, что баннер на главной странице призывает подписаться на скидки.
Исследовательский вопрос — вопрос, на который нужно ответить в ходе исследования. Он нужен, если у вас нет гипотезы и вы ищете новое решение для улучшения продукта.
- Какой способ доставки предпочитает большинство людей?
- Как пользователи поймут название кнопки?
- Какой вариант предложения выглядит более доверительным?
Гипотезу или исследовательский вопрос лучше сформулировать, когда вы только начинаете думать о тестах. Так вы сможете понять:
- Правда ли нужно исследование пользователей, а, например, не A/B-тест.
- Каким исследовательским методом проверить гипотезу или ответить на исследовательский вопрос.
- Как сформулировать задание на тест.
- Как структурировать и анализировать результаты по итогам теста.
2.2 Как сформулировать гипотезы и вопросы
За один тест можно проверить только одну гипотезу. Поэтому важно, чтобы формулировка содержала только одно утверждение.
Гипотеза или исследовательский вопрос должны быть сформулированы так, чтобы на них можно было ответить «да» или «нет». Либо чтобы в качестве результата можно было показать соотношение респондентов, которые выбрали тот или иной вариант.
Гипотеза или исследовательский вопрос должны быть конкретны.
Проверка гипотезы должна давать новое знание, которого нет в best practices и проведенных исследованиях вашего продукта.
Гипотеза или вопрос должны быть такими, чтобы вы получили результаты, которые пойдут в работу. Если проверяете утверждение ради того, чтобы проверить утверждение, исследование лучше не запускать.
2.3 Аудитория
Чтобы получить результаты, с которыми потом можно будет работать, надо понять, чьи ответы окажутся полезны.
Важно учесть опыт респондентов и поведенческие факторы. Если вы делаете конкурента «1С», будут нужны бухгалтеры, а если агрегатор по покупке билетов, надо рекрутировать тех, кто часто путешествует.
Демографические факторы (возраст, география, пол и так далее) также могут иметь значение, если вы знаете, что пользователи из разных демографических группы ведут себя по-разному.
Чаще всего про аудиторию можно посоветоваться с продуктовым менеджером.
2.4 Сколько нужно респондентов
Увы, простого ответа нет, поэтому сперва расскажем, от чего это зависит.
В зависимости от целей используют качественные или количественные исследования. Если коротко, то качественные — чтобы найти проблемы и придумать решения, количественные — чтобы проверить гипотезы и получить статистически значимый ответ.
Необходимое количество респондентов для каждого типа будет разным. Как посчитать — рассказываем дальше.
Для качественного исследования
Если вы проводите качественное исследование (например, анализируете взаимодействие пользователей с прототипом, собираете ответы на открытые вопросы или результаты карточной сортировки), в большинстве случаев для немодерируемого теста рекомендуем брать 15–20 респондентов.
Важно отметить, что эта рекомендация не является универсальной, как и рекомендации Neilsen Norman Group про 5-7 респондентов. Иногда нужно больше, иногда — меньше. Например, если вы исследуете сегментированную аудиторию, которая ведет себя по-разному, вам может понадобиться выборка большего размера.
Для количественного исследования
В количественном исследовании мы проверяем гипотезу на большом числе респондентов, чтобы получить статистически значимый результат.
«Статистически значимый» значит, что этот результат будет правдив не только для тех людей, кто участвовал в тесте, но и для всех остальных пользователей.
Мы взяли 100 человек и показали им кнопку для новой функции. Все 100 поняли, что делает эта кнопка.
Но поймут ли оставшиеся 9 900 человек? Это большой вопрос, ведь 100 человек — это всего 1% и, возможно, нам просто повезло. Вот тут приходит на помощь статистическая значимость.
Давайте познакомимся с несколькими терминами — они помогут в подсчете количества респондентов.
Генеральная совокупность — все люди, которые входят в аудиторию вашего продукта. Например, все, кто делает покупки в интернете, или все, кто зарегистрирован как самозанятый.
Размер выборки — опросить всю аудиторию невозможно, поэтому появилось понятие выборки и ее размера. Статистические методы помогают на основе выборки обобщить результаты на генеральную совокупность.
Погрешность — это возможное отклонение результатов, которые получили при тестировании выборки, от реальных значений в генеральной совокупности.
Генеральная совокупность (все пользователи) = 10 000.
Выборка = 100 человек.
Допустим, 50 человек из выборки поняли, что делает новая кнопка. Погрешность ±10% означает, что про всех 10 000 пользователей можно будет сказать: от 4 до 6 тысяч из них тоже поймут смысл новой кнопки.
Коротко: если 50% выборки поняли, значит, при погрешности ±10% от 40 до 60% из генеральной совокупности тоже поймут.
Количество респондентов — всегда сложный вопрос. С одной стороны, чем больше респондентов, тем ближе полученный результат будет к реальности, с другой — придётся потратить больше ресурсов на привлечение респондентов.
Поэтому при ответе на него всегда приходится балансировать между стоимостью исследования и точностью результатов.
Сколько респондентов нужно для количественного исследования
В общем случае мы рекомендуем привлекать к каждому количественному UX-исследованию 95–100 человек. Максимально возможная погрешность результатов с такой выборкой будет ≈ 10%.
Для подавляющего большинства случаев этого будет достаточно: для немодерируемых исследований не имеет смысла добиваться точности в несколько процентов или увидеть очень маленькую разницу, сравнивая несколько вариантов. Для этого лучше подходит А/Б тестирование.
Важно отметить, что использование другого количества респондентов (обычно, варьируется от 30 до 400 человек) — не ошибка, а просто другая точка баланса между точностью результатов и стоимостью исследования. В следующем разделе мы подробнее рассмотрим, как это работает.
Как рассчитать количество респондентов для количественного исследования
Количество респондентов зависит от максимальной допустимой погрешности полученных результатов относительно генеральной совокупности.
Если упростить, то допустимая погрешность — это та, которая вас устраивает (помните про баланс между точностью и стоимостью исследования?).
Статистически значимое минимальное изменение метрики — это разница между результатами тестов, при которой можно считать, что результаты будут различаться и для генеральной совокупности.
Таблица ниже показывает, как погрешность и минимальное изменение зависят от количества респондентов в выборке.
Размер выборки | Погрешность |
---|---|
30 | 18% |
43 | 15% |
96 | 10% |
384 | 5% |
Для расчета значений в таблице мы использовали уровень значимости 95% и предположили, что имеем дело с большой генеральной совокупностью — более 100 000 человек.
Вы можете поменять эти значения и рассчитать размер выборки с другими погрешностью и доверительным уровнем, используя наш калькулятор:
2.5 Какой вид теста выбрать
Краткое описание ниже поможет разобраться, какой тест вам, скорее всего, подойдет. Подробные описания смотрите в разделе «4. Подробнее о видах тестов».
Тест первого клика — респонденту нужно куда-то нажать на экране, чтобы совершить действие.
Preference (или Side-by-Side) тест — пользователь должен выбрать, какой из двух макетов одного и того же экрана его привлекает больше.
Пятисекундный тест — у респондента есть 5 или больше секунд, за которые надо посмотреть на экран и запомнить то, что показалось важным.
Карточная сортировка — пользователь сортирует сущности по категориям в меню или каталоге. Исследователь может дать готовые названия категорий либо предложить пользователю решить самому, по какому признаку надо рассортировать сущности. Тест помогает определить, какой каталог или меню был бы для пользователя удобен.
Сценарное тестирование — респондент должен совершить на странице простое действие, ради которого нет смысла проводить большое модерируемое исследование. Еще сценарное тестирование называют мини-юзабилити-тестом.
2.6 Как сформулировать задания для теста
В вопросе не должны скрываться два вопроса — нужно, чтобы он был однозначным, простым и понятным.
Важно, чтобы вопрос звучал как реальная задача из жизни респондента — не используйте исследовательскую или дизайнерскую терминологию. При этом старайтесь не переборщить с подробностями, чтобы не запутать пользователя деталями.
Если нужно, дайте контекст, чтобы человек понял, что происходит на экране и что ему нужно сделать.
Проверьте, насколько легко формулировки читаются и нет ли в них очевидных грамматических или орфографических ошибок. Иначе респондентам будет сложнее понять задание, и они отвлекутся от сути вопроса.
Если готовите опрос, сделайте как можно меньше открытых вопросов. Чем больше вопросов, на которые надо отвечать развернуто, тем меньше подробностей будут давать респонденты. А результаты будет сложнее обработать.
Что думаете о сервисе Aviasales?
- На агрегаторах
- На сайтах авиакомпаний
- Другое
Как вы оцениваете сервис Aviasales по шкале от 1 до 10?
Если предлагаете варианты ответа, добавьте вариант «Другое» с возможностью оставить комментарий. Иначе респондент может запутаться, если не найдет подходящий вариант, — и вы получите недостоверные данные.
- Достаевский
- Яндекс Еда
- Delivery Club
- Достаевский
- Яндекс Еда
- Delivery Club
- Другое
2.7 Типичные ошибки в формулировках
Не указывайте в вопросе на элемент интерфейса. Например, если кнопка называется «Оформить подписку», то вопрос «Куда нажать, чтобы оформить подписку» недопустим.
Не просите респондентов смоделировать далекую от них ситуацию. Не нужно предлагать пользователю представить, что он ищет работу, если в реальной жизни он этим не занят.
Не задавайте два вопроса в одном. Тогда респонденты могут дать некорректные ответы на оба из них. Пример двойного вопроса: «Какой вариант кнопки вам нравится больше и на какой бы вы нажали?»
Не используйте сложные термины и профессиональную исследовательскую лексику. Иначе часть респондентов напишут в ответах, что не знают, как сделать задание. А вторая часть выполнят задание и при этом не признаются, что не поняли его суть.