Система мониторинга «Газпромнефть»
Современный личный кабинет, с помощью которого менеджеры могут контролировать погрузку и отправку товара
Одна из основных проблем, с которой сталкиваются органы системы здравоохранения — это медицинская статистика. Таблица со сжатыми систематизированными данными для врачей становится своего рода обратной связью от населения: какие болезни превалируют? чего стоит опасаться? где можно расслабиться?
И поэтому в таких случаях часто остро встает вопрос о выборе метода анализа данных. Конечно, сегодня эту задачу значительно упрощают IT-технологии.
НИИ гриппа имени А. А. Смородинцева проводил исследование, чтобы изучить распространение вируса гриппа по России. Руководители проекта также столкнулись с вопросом о выборе метода, и, в какой-то момент, обратились к нам с заказом на обработку составленной ими базы данных.
Так в сотрудничестве с институтом мы реализовали Data Science проект из области медицины.
В качестве метода анализа данных мы выбрали кластеризацию, которая применима в исследованиях из самых разных сфер. На самом деле, в подобных проектах этот подход особенно удобен: он позволяет человеку самостоятельно выявлять критерии кластеризации, тогда как при обычной классификации распределение объектов на группы происходит по заранее заданным признакам. Так, среди признаков, выявленных в нашем исследовании, были пол пациентов, их возраст, частота обращения в клиники и т. д.
Для разработки самого алгоритма анализа, как наиболее удобный инструмент, мы выбрали Python, для которого существует уже множество фреймворков и библиотек, оптимизирующих процесс реализации машинного обучения. Как наиболее популярный и отказоустойчивый метод мы выбрали K-means.
Наша команда была рада не просто поучаствовать в масштабном проекте, но и помочь системе российского здравоохранения, предоставив НИИ гриппа данные о том, насколько вирус гриппа распространен в России.
Sixhands GPT Alpha