Основные навыки, необходимые для работы специалистом по данным в iGaming

Общеизвестно, что профессии data science сейчас на пике популярности. В 2007 году объем цифровых данных превысил объем аналоговых данных почти в 15 раз, составив 280 экзабайт цифровых данных против всего 19 экзабайт аналоговых. В настоящее время более 90% всей информации является цифровым. С появлением огромных массивов данных, называемых большими данными, возникла потребность в ускоренной разработке методов и моделей, способных быстро и эффективно обрабатывать большие объемы информации. В качестве определяющих характеристик больших данных традиционно используются так называемые «три V»:

  • Объем – как физический объем,
  • Скорость — скорость роста, а также потребность в высокой скорости обработки и результатов,
  • Разнообразие — возможность одновременной обработки различных типов структурированных и полуструктурированных данных.

Туристическая информация+(4).png
Итак, вот поверхностный список функций специалиста по данным: обработка и систематизация данных, выявление скрытых связей и закономерностей, структурирование, визуализация и многое другое.
На данный момент я работаю в проекте Casino-now.co.uk в качестве внешнего специалиста, и я хотел бы поделиться своим опытом с начинающими аналитиками и разработчиками, чтобы предоставить им самый простой способ стать компетентным специалистом по данным.
Тина+(1).png
В связи с этим я подготовил специальную интеллект-карту, которая очень помогла в росте взлома игорного портала:
Лучшие навыки, необходимые для работы специалистом по данным в iGaming.png
Вот объяснение представленной интеллект-карты, а также относительная градация уровня знаний, которая поможет вам быть конкурентоспособным с точки зрения науки о данных при работе с гемблинг-проектами:

  • сложное умение — высокий уровень сложности.
  • средний навык – средний уровень сложности.
  • мягкий навык — довольно легко приобрести.

1. Технические навыки

  • Питон или же р (средний навык) — знание специализированных языков программирования. В этой статье я не буду останавливаться на преимуществах именно этих языков, так как эта информация общедоступна и бесспорна. Хочу лишь сказать, что любую идею заказчика можно реализовать с помощью линк-библиотек и минимального количества codelines: написание своего парсера, создание уникальных образов автоматически и многое другое.
  • SQL (средний навык). Знание и продвинутое использование системы баз данных. Вы должны уметь: хранить данные, делать простые сортировки, объединять таблицы данных — возможно, понимание SQL откроет широкие возможности и значительно упростит вашу текущую работу.
  • Рамки науки о данных: тензорный поток (сложное умение), жесткий (средний навык), Апач Спарк (сложное умение). Эта часть знаний является приоритетной для многих; ваша задача как исследователя данных — не изобретать велосипед, а использовать готовые и мощные инструменты для реализации идей. Более подробную информацию о каждом фреймворке вы можете легко найти в Интернете.
  • Технология графического процессора (средний навык). Это возможность организовать быстрые распределенные вычисления огромных массивов данных. Графические процессоры в 1000 раз быстрее ЦП, поэтому это важнейший инструмент разработчика данных, который позволяет обучать нейронные сети на большом количестве информации, что является неотъемлемой частью науки о данных. Благодаря распределенным вычислениям на видеокарте, поддержка NLP-проектов существует и активно развивается. Вы должны рационально оценить вычислительные возможности оборудования, с которым планируете работать. Так что не пытайтесь сэкономить на оперативной памяти и видеокарте при покупке оборудования.
  • Функции API (мягкий навык) – для сбора и обработки информации необходимо использование сторонних ресурсов. Например, если говорить о моей сфере — азартных играх, то я часто имею дело с такими сервисами, как величественный, Арефс. Функции API сегодня предоставляют все основные информационные порталы и социальные сети: Твиттер, Фейсбук, ИМДБ и другие. Следует понимать, что API-функции каждого сервиса уникальны, но понятность и скорость растут в геометрической прогрессии с его применением. Не бойтесь работать с API, так как это максимизирует скорость интеллектуального анализа данных. Также обратите внимание на почта и получить json-запросы — упрости свою жизнь!

2. Образование

Этот блок является одним из самых важных. Далеко не каждый современный и успешный специалист имеет хороший багаж знаний и возможность получить качественное образование в ведущих университетах мира, но если есть желание, то есть возможность!

  • Свободно теоретическая база с практической основой
    В эту часть входят современные образовательные порталы, такие как курсра, удемы, Линда и многие другие. Возможно, вам стоит обратить внимание на следующие курсы, которые могут заложить определенную основу для освоения ключевых фреймворков в работе специалиста по науке о данных:
  • Практические навыки улучшение.
    Если вы все еще читаете эту статью, то я думаю, что такие проекты, как болтать, управляемые данные, крауданалитикс, кукарекал, топкодер, настроить не нуждается в представлениях 😃. Тем не менее, я все же скажу несколько слов. Для меня на определенном этапе профессионального роста такие соревнования были основной возможностью отточить свои профессиональные навыки на больших объемах реальных данных. Это проблема отсутствия практики работы с реальными данными, с которой сталкивается большинство исследователей в области науки о данных. Однако даже сейчас, работая над крупными проектами в высококонкурентной гемблинг-нише, kaggle и driveData остаются для меня своеобразной поддержкой. Часто просматривая топовые решения какой-либо проблемы, возникает мысль, как модернизировать и адаптировать предложенное кем-то решение к моему случаю.

3. Знание предметной области

  • Понять Бизнес/Онлайн-казино/Азартные игры (средний навык)
    Глубокое знание предметной области – залог успеха, ведь только ориентируясь в предметной области, вы сможете ставить полезные задачи своему работодателю. Вы должны понимать типы казино, что такое rtp, знать потребности клиентов, знать разнообразие брендов и продуктов, которые они предоставляют.
  • Навыки коммуникации (хард/средние/мягкие навыки).
    Пожалуй, единственный навык, понимание которого сложно оценить, но не стоит недооценивать его важность. Самая распространенная ошибка дата-сайентистов — они глубоко зарылись в математические методы и модели, стратегии, фреймворки, когда на практике часто отлично работает набор простейших методов и моделей с топовым MVP, после которых могут понадобиться хардкорные методы.
  • Командная работа (средние навыки). Важным навыком любого специалиста по данным является умение, желание и потенциал работать в команде. Только обогащаясь идеями, прислушиваясь к мнению товарищей по команде, можно получить по-настоящему понятное, изящное и самое важное, эффективное решение, которое будет полезным и может принести прибыль.

Для начала стоит определить, что все задачи можно разделить на 4 большие категории: кластеризация данных, регрессионное отображение зависимостей, визуализация и анализ. И для каждого блока знаний нужен свой набор методов и моделей.
Однако в настоящее время советую обратить внимание на машинное обучение (сложное умение).
223.png

  • Базовые модели и описательная статистика (мягкий навык)
    б. Модели на основе дерева (средний навык)
    Это почти универсальное средство для решения основных классов задач. Если вы обладаете навыком прокачки деревьев решений, то процесс решения этими методами будет увлекательным и принесет максимальную пользу. Для меня эти модели представляют особую ценность при решении задач кластеризации, когда у меня есть матрица объект-свойство, выборка без учителя, и мне нужно построить тесные группы. Деревья решений достаточно устойчивы к выбросам, а также достаточно сложно поддаются переобучению, например, в отличие от нейросетей; а с помощью валидации вы всегда можете проверить качество построенного вами дерева. Кроме того, сформированные в процессе обучения правила — ветви дерева достаточно легко интерпретируются и дают качественно новое понимание процессов.
  • Глубокое обучение (сложное умение)
    13.png
    я. Машина Больцмана (мягкий навык)
    II. Сверточная нейронная сеть (Си-Эн-Эн) (средний навык)
    Сверточная нейронная сеть
    III. Рекуррентные нейронные сети (РНН) (сложное умение) — позволяет обучать модель на процессах во времени
    IV. Рекурсивные нейронные сети(сложное умение) — позволяет включить обратную связь между элементами схемы
    Современное разнообразие нейронных сетей позволяет решать огромный пул задач повышенной сложности. В рамках гемблинга весьма перспективно такое направление, как обработка естественного языка. От популярного примера оценки тональности отзывов о брендах казино или отдельных слотах, до семантического анализа и кластеризации запросов потенциальных клиентов с целью формирования оптимизированного задания на написание контента, максимально клиентоориентированного и полностью оптимизированного под Запросы.
    453.png
    Объем знаний и навыков в области науки о данных поистине безграничен!
    критика.png

На мой взгляд, ключевое качество специалиста по данным — любознательность! Это приводит к постоянному развитию профессиональных качеств, и заставляет часами проводить перед строками и цифрами кода, чтобы понять и найти ранее не выявленные закономерности, которые позволят реализовать любые проекты, качество и количество которых ограничено только ваше воображение.
Однако каждый специалист по данным должен помнить:

С большой силой должна прийти и большая ответственность
Стэн Ли.jpg

Ведь правильно разработанная и интерпретированная модель может привести к большому выигрышу для работодателя, а одна ложная регрессия и псевдозависимости могут оказаться фатальными.
Позвольте мне закончить словами классика 😃
6y3.png
Смело! Желаем Вам удачи и успехов в Вашей сфере! Не забудьте поделиться своим отзывом: tinaward@mail.uk или же Тина Уорд

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *