Когда производится замер «состояния рынка труда», – например, оценивается баланс между вакансиями и резюме, – исследователи сталкиваются с вопросом: какие резюме учитывать? Те, что оставлены с момента основания job-сайта или те, что появились не позже недели назад? Как оценить актуальность резюме?
«Как определяется актуальность резюме?» — это типичный методологический вопрос, который задают нам молодые команды, исследующие рынок труда.
В чем тут сложность? В количестве и дате.
Так, известный сайт hh.ru утверждает, что в его базах данных 57 289 318 резюме.
Еще 2 года назад, в марте 2020 года, в базе HH было заявлено 44 274 356 резюме. Такими темпами еще через пару лет количество резюме на HH превысит число всего трудоспособного населения РФ.
Конечно, на HH большое количество соискателей (и работодателей) из других стран. Подробнее мы разбирали эту тему здесь.
Кроме резюме из других стран, астрономическая цифра с сайта HH фактически включает в себя все резюме, выложенные с момента основания сайта двадцать с лишним лет назад. В это число входят дубликаты резюме (подробнее о «миражных резюме» и мнимых соискателях здесь), удаленные резюме, брошенные вместе с аккаунтом, резюме давно умерших людей и резюме людей не существующих («фейковые резюме» – тема отдельной статьи, впрочем, их доля ничтожна) и даже просто попытки создать резюме (никогда не опубликованное, но занявшее свое ID в базе данных).
Актуальность резюме: что предлагают job-сайты?
Они предлагают работодателям самостоятельно оценить актуальность резюме, выбрав нужный промежуток времени:
Достаточно грубый инструмент, существенно снижающий возможности выбора:
За сутки | 18 044 шт. | 0,34% |
За три дня | 50 867 шт. | 0,97% |
За неделю | 80 702 шт. | 1,54% |
За месяц | 219 299 шт. | 4,19% |
За все время | 5 233 518 шт. | 100% |
Что же реально происходит с резюме?
На сайте trudvsem.ru есть доступные к выдаче резюме, опубликованные еще в 2015 году. Речь идет о десятках тысяч резюме (44 903 #длязануд). Некоторые из них — вполне актуальные на сегодня (но только некоторые!). Как так происходит?
Три статуса резюме
На trudvsem в резюме есть три отметки:
- Дата создания резюме — когда соискатель впервые создал новый документ.
- Дата публикации резюме — дата, когда пользователь опубликовал, то есть выложил резюме в доступ (для зарегистрированных работодателей).
- Дата модификации резюме — когда пользователь последний раз обновил имеющееся резюме.
Первая – дата создания – представляет интерес сугубо научный. Например, дает возможность оценить, сколько людей «не доходят» от создания резюме до его публикации. Так, в период отладки сайта в ноябре 2016 года процент публикаций составлял всего 29,53% от числа созданных резюме; но уже через два года он подрос до 94,23%* (*есть методологические разногласия в подсчетах, но порядок цифр сохранен).
Вторая отметка – дата публикации – это уже значимый момент: резюме появилось в сети, соискатель появился на рынке труда. Это резюме учитывается в маркерах баланса, отслеживающих число соискателей и вакансий.
И тут возникает вопрос: можно ли считать любое опубликованное резюме актуальным?
Утратило или нет актуальность резюме, опубликованное месяц назад и не снятое? А если не месяц, а полгода назад?
Актуальность резюме: по результатам опроса
В прошлом году [1] команда исследовательского центра проводила онлайн-опрос соискателей разного пола и возраста, которым в числе прочего задавался открытый вопрос с вспомогательными ответами:
Вы разместили резюме, после чего трудоустроились. Как вы поступаете с резюме?
– Достаточно быстро снимаю свое резюме с публикации.
– Осознанно оставляю резюме на job-сайте.
– Не обращаю на это внимания / не задумываюсь.
– Как правило, не интересуюсь его статусом, пока снова не начну искать работу.
– Снимаю по требованию работодателя.
– Если часто пишут/звонят.
– Другой ответ.
В результате опроса (более 2000 верифицированных ответов) получился удивительный результат:
Это печальная новость для работодателя, хотя сама проблема легко решается на уровне сервиса job-сайта. Например, если соискатель в обязательном порядке не обновил своё резюме в течение месяца, то на следующий день резюме автоматически снимается с публикации.
И, наконец, третья отметка в резюме – дата модификации — говорит нам о том, что пользователь так или иначе обновил свое резюме. Из любви к науке и точности мы не поленились посмотреть, как коррелируют три параметра: дата публикации, дата модификации и дата последнего места работы, чтобы подтвердить очевидную вещь: чаще всего дата модификации совпадает с датой увольнения с последнего места работы.
Это подтверждает печальную статистику диаграммы: когда отечественный соискатель находит работу, он не спешит убирать свое резюме из выборки.
Вот как выглядит распределение дат создания, публикации и модификации резюме за последние неполных три года:
Чем обусловлены «вспышки роста» в марте 2020 года и марте 2021 года — тема отдельной статьи о специфике работы портала trudvsem.
Интересно, что начиная с осени 2022 г. соискатели чаще публикуют резюме, чем создают их. Значит ли это, что соискатели стали чаще искать работу, заново публикуя свои ранее закрытые (снятые с публикации) резюме? Детальный анализ поведения соискателей, особенно в разрезе предлагаемых ими профессий, места проживания, а также общей статистики по уникальным пользователям, дает интересные гипотезы о происходящем на рынке труда.
Посмотрите на распределение резюме “по свежести” здесь. |
Остается вопрос: как же нам оценить актуальность резюме, чтобы посчитать число реальных рабочих рук на рынке труда?
Вот в этом месте начинается значительное усложнение математики и методов расчета.
Средняя скорость трудоустройства по профессии
Еще во времена, когда наша страна называлась иначе, был разработан рейтинг профессий по скорости трудоустройства [2]: среднее значение того, насколько быстро находили работу представители разных профессий: швеи, слесари, электрики, …. Однако этот рейтинг не пользовался успехом. Во-первых, все еще массово работала система распределения и трудоустройства, а во-вторых, специфика трудоустройства (как и сейчас) сильно отличалась в каждом городе. А так как малочисленные ИВЦ (информационно-вычислительные центры) обслуживали только «серьезные» задачи и были редкостью, методика рейтинга опережала технические возможности страны, и рейтинг, как сейчас говорят, «не взлетел». Но сама идея такого рейтинга весьма самоценна.
Как это работает? Допустим, у нас есть:
- Профессия 1 со средним сроком трудоустройства 3 месяца
- Профессия 2 со средним сроком трудоустройства 2 месяца
- Профессия 3 со средним сроком трудоустройства 1 месяца
- Профессия 4 со средним сроком трудоустройства 0,5 месяца
Под профессией мы в данном случае понимаем не название («швея» или «автослесарь»), но и разряд (категорию) или особые требования к квалификации (если есть).
Когда у нас есть такой «рейтинг», мы определяем срок для нужной нам профессии и берем все резюме по ней, что были опубликованы за этот срок, а также те резюме, что были модифицированы в указанный период (даже при более ранней дате публикации). Именно это число примем за актуальное количество условно свободной рабочей силы на сегодня (правильнее сказать, актуальное число соискателей, рассматривающих вакансии по данной профессии).
Машинное обучение приходит на помощь старперам
В свете того, что безумное количество онлайн-курсов выпускает горе-программистов в области т. н. искусственного интеллекта – то есть машинного обучения, – возникла новая методика формирования рейтинга, но рейтинга не профессий, а… соискателей.
У нас есть интервальные срезы по соискателям с trudvsem и аналогичные базы с других job-сайтов, которые можно объединить в единую базу данных, достаточную для машинного обучения. Сравнение срезов позволяет проанализировать уникальных пользователей: когда они публиковали свои резюме и когда эти резюме исчезали из общего доступа (снимались с публикации). При новом появлении старого резюме обновляется строка с датами предыдущего места работы.
Фактически такая БД может рассматриваться как статистика скорости трудоустройства разных людей разных профессий с разными уровнями навыков, особенностями (например, объемом текста в резюме или количеством ошибок в этом тексте; указанными хобби и увлечениям; особо выделенным ими личным качествам; ну и классическим данным: полу и возрасту).
Используя эти исходные базы в программах машинного обучения, мы можем их применять для «предсказания» скорости трудоустройства новых уникальных пользователей с учетом их профессии, города проживания, возраста, пола, предыдущего опыта и смены работы. Конечно, учитывая разнообразие маркеров, для людей разных профессий и городов проживания получается разная степенью достоверности прогноза. Пока еще эта модель апробируется и проверяется.
Другая программа машинного обучения, используя накопленные нами базы резюме за несколько лет, «видит» модель поведения конкретного пользователя (соискателя) относительно его дат создания, публикации и модификации резюме и определяет, насколько склонен данный соискатель снимать свое резюме после трудоустройства.
Эти два прогноза вместе могут определить степень вероятности: насколько данное резюме (и конкретный соискатель) являются «актуальными рабочими руками» для рынка труда.
Актуальные вакансии
И раз уж зашла тема об отношении числа актуальных вакансий к числу актуальных резюме (индекс Фраучи), коротко посмотрим на маркеры вакансий.
Принято считать, что работодатели более ответственны, чем соискатели, и не оставляют «миражных вакансий» (неактуальных на текущий момент) на job-сайтах.
Во-первых, это не так.
А во-вторых, современный работодатель в последнее время все чаще вообще перестает публиковать вакансии, ограничиваясь поиском по базе резюме.
Точно так же, значимое число соискателей, зарегистрированных на job-сайтах, принципиально не выкладывают свои резюме, а «мониторят» опубликованные вакансии работодателей, тем самым выпадая из статистики рынка труда, – как и «невидимые работодатели», что не оставляют своих вакансий.
Вернемся к вакансиям. У каждой есть такие параметры, как:
- Дата создания — дата начала работы с новой вакансией («создание нового документа»).
- Дата публикации — дата появления вакансии на job-сайте.
- Дата модификации — дата последнего обновления/изменения текста вакансии.
Конечно же, команда исследователей RuTrud.com не поленилась задать самой себе скучные вопросы #длязануд, ответы на которые дает анализ дат:
- Как много вакансий создается, но не публикуется?
- Какой средний и медианный срок проходит от создания вакансии до её публикации?
- Какова взаимосвязь длительности срока от создания до публикации и других параметров («крупность» компании, размер оклада, наименование профессии/должности, количество информации в вакансии, тип занятости, число других открытых вакансий и так далее)?
- Как часто обновляются вакансии? Как частота обновления коррелирует с другими известными нам данными? (Например, для разных профессий – разная частота обновлений или это больше зависит от компании? Или размера заработной платы?).
- Как быстро вакансия закрывается? Как быстро она закрывается по конкретным профессиям? Какие данные коррелируют со скоростью закрытия вакансии?
- Каков итог «предсказаний» (с помощью инструментов машинного обучения) срока закрытия конкретной вакансии (исходя из аналогичных вакансий в этом же периоде в этом же городе)? Что дает ретроспективный тест предсказаний и статистика закрытых вакансий?
И другие.
Наверное, если вы все еще читаете этот текст, вы уже догадались, что есть инструменты, позволяющие определить – «брошена» эта вакансия или актуальна, несмотря на достаточно большой срок с даты ее публикации.
И еще раз об индексе Фраучи
Важно: индекс рассчитывается по стране в целом, по городу в целом, по профессии в стране или в городе, по каждой конкретной профессии в конкретном городе, и по каждой группе профессий в конкретном городе — это касается всех методик.
Когда мы рассчитываем индекс Фраучи (соотношение вакансий и резюме), мы используем одинаковые цифры вакансий и резюме, но разные методики построения для разных ситуаций (какую методику построения индекса использовать – определяет конкретный эксперт в зависимости от задач своего исследования):
- Просто берем все имеющиеся в доступе вакансии и резюме и сравниваем абсолютные числа.
- Берем все имеющиеся в доступе вакансии и резюме за определенный период.
- Берем вакансии и резюме с предварительной чисткой. Например, убираем миражные резюме и вакансии – и/или используем другие параметры чистки (их много).
- Берем только вакансии и резюме с полным рабочим днем (или неполным, если есть такой запрос).
- Берем только вакансии и резюме с указанием зарплаты.
- Берем вакансии и резюме по конкретном (точному) наименованию профессии, специальности или должности и разряду (категории).
- Берем вакансии и резюме по гнездам профессий («группам профессий»).
Здесь встречаются разные типы формирования «гнезд», в которые могут входить идентичные или похожие профессии:- По синонимам профессий («буровик – мастер буровой»).
- По семантическим полям (рабочий – разнорабочий – подсобный рабочий и т.д.).
- По квалификационным полям (все профессии, специальности и должности с одинаковым набором ядра профессионально важных качеств // компетенций).
И по другим методикам формирования «гнезд профессий» (групп профессий).
Некоторые эксперты, проводящие исследования рынка труда, используют различные комбинации этих методов. Например, «полный рабочий день для групп / гнезд профессий по ПВК с предварительной чисткой», и тому подобное.
Но всегда методика подсчета, оценивающего актуальность резюме (или соискателей), должна совпадать с методикой подсчета актуальных вакансий, то есть:
- если мы определяем актуальность резюме, используя вышеупомянутый рейтинг скорости трудоустройства, то тогда определение актуальных вакансий происходит с использованием рейтинга скорости закрытия вакансии.
- если мы делаем индивидуальный прогноз по конкретному соискателю, насколько вероятно, что он уже трудоустроен и «бросил» незакрытым свое резюме, то мы используем точно такой же индивидуальный подход к работодателю, определяя по его предыдущему поведению вероятность того, что данная вакансия «брошена» и не закрыта.
И так далее.
Резюмируем и обращаемся к интересантам
В процессе анализа рынка труда мы стараемся получить результаты с помощью самых разных методик, но практически все они используются только для сравнения динамики изменения показателей. То есть задача всех индексов и маркеров — вовремя показать нам, что тут и тут происходят какие-то изменения, выходящие за средние нормы среди таких же изменений.
В результате только по одному населенному пункту одновременно рассчитываются и измеряются свыше ста тысяч параметров — каждый из которых о чем-то сигнализирует. Учитывая уровень детализации по городам и профессиям, фактически каждый день мы полностью заполняем все ячейки страницы в Excel (это 17 млрд. ячеек, хотя, разумеется, мы делаем это не в Excel).
Для ежедневного анализа рынка труда необходимы вычислительные мощности, способные совершать операции с 10Tb данных. Нужны запасы объема памяти для хранения данных (за сутки прирост составляет ~150 Гб, и это число растет).
Все это требует колоссальных расходов, но позволяет получить идеально прозрачную картину рынка труда по каждому городу, по каждой профессии, буквально по каждому работодателю и соискателю.
Мы знаем «ЧТО», мы знаем «КАК», но у нас заканчивается «ГДЕ и НА ЧЕМ».
На сегодняшний день наша команда обладает специалистами, которые в состоянии обсудить методологию любого из сотен тысяч индикаторов рынка труда и интерпретировать их колебания, скачки и падения. Эта ситуация не вечная. Мы хотели бы сохранить и передать наши знания и умения. Рассматриваем предложения. Форма для связи с руководителем проекта.