Контрольная работа
Цель работы: изучение организации источников данных с распределенной структурой, изучение организации облачных сервисов в контексте создания цифровых решений для распределенной обработки данных.
Раздел 1. Секционирование исходных данных для анализаЗадание
1.Рассмотреть задачу анализа больших данных, поставленную при выполнении лабораторной работы 1 «Характеристика больших данных организации», с точки зрения их распределенной природы. Разбить все данные на несколько секций. Заполнить таблицу:
Секция
Данные
Источник
Источник указывать для исходных данных.
2.Распределить секции по узлам хранения с учетом востребованности данных в узлах. Построить структурную схему распределенной системы.
Раздел 2. Разработка архитектуры облачной платформыЗадание
1.Разработать архитектуру цифровой платформы для обслуживания распределенной системы, структура которой разработана при выполнении практической работы 1. В состав платформы включить следующие сервисы типа SaaS, либо типа, производного от SaaS:
-сервис для сбора и предобработки данных;
-сервис для решения задачи анализа;
-сервис для представления результатов анализа.
Возможно более детальное распределение задач между сервисами. Желательно, чтобы данные одной секции обрабатывались одним сервисов.
Заполнить таблицу:
Наименование сервиса
Тип сервиса
Связанные секции данных
2.С учетом структуры распределенной системы и необходимости обработки данных, расположенных на разных узлах, спланировать процедуры репликации данных для обеспечения надежной и максимально быстрой работы системы. Заполнить таблицу репликации:
Узел-источник
Секция данных
Условие выбора данных
Узел-приемник
Параметры репликации
Частота
Длительность
Раздел 3. Оптимизация ИТ-персонала организации в условиях эксплуатации облачного решенияЗадание
Разработать решения по перераспределению компетенций ИТ-персонала организации в условиях перехода на облачные сервисы. Представить (можно примерно) штатное расписание и организационную структуру ИТ-отдела AS-IS (как есть) и TO-BE (как должно быть).
Контрольные вопросы и задания
1. Что такое распределенные данные?
2. По каким критериям распределяются данные в распределенной системе?
3. Что такое секционирование данных и каково его назначение?
4. Сколько секций необходимо для оптимальной производительности распределенной системы?
5. Перечислите критерии распределения данных в вашей индивидуальной задаче.
6. Как связаны между собой сервисы типа Saasи PaaS?
7. Что такое репликация данных?
8. Перечислите критерии эффективности репликации данных.
9. Как внедрение распределенных технологий обработки данных отражается на структуре персонала предприятия?
=============================================Лабораторная работа
Тема: Характеристика больших данных организации
Цель: изучение организации как источника и накопителя больших данных, приобретение навыков предварительного анализа больших данных организации на предмет их переработки с помощью технологий Big Data.
Задание- Дать краткую характеристику организации, выбранной в качестве объекта исследования.
- Идентифицировать и охарактеризовать по формуле 7V большие данные, генерируемые, циркулирующие и накапливающиеся в организации. Выделить недостатки существующей технологии обработки данных.
- Обосновать необходимость и целесообразность применения технологий распределенной обработки данных для переработки больших данных организации.
Контрольные вопросы- Каковы цели и назначение организации?
- Какова динамика информационных процессов, протекающих в организации?
- Какие большие данные циркулируют в организации?
- Чем обусловлено решение применения в организации технологий распределенной обработки данных?
- Насколько рациональным является решение о применении технологий распределенной обработки данных для решения указанных в отчете задач организации?
Теоретические положения
Формула Big Data: 7VСуть технологий Big Data – это работа с гигантскими массивами данных (что следует, впрочем, уже из самого термина). Но объем данных еще не делает погоды. Аналитики придумали емкую формулу Big Data – они считают, что в определении проекта Big Data должны фигурировать семь важных характеристик, «7 V»: Volume, Velocity, Variety, Veracity, Variability, Visualization, Value. То есть объем, скорость, разнообразие, достоверность, изменчивость, визуализация, ценность. При этом каждая «V» важна для понимания общей картины.
Меньше всего вопросов вызывают первые три «V»: Volume, Velocity, Variety. Действительно, кто будет спорить, что Big Data – это прежде всего объем, Volume? Объем данных растет по экспоненте: например, самолеты ежегодно генерируют 2,5 млрд ТБ данных с датчиков, установленных в двигателях. При этом данные постоянно обновляются, генерятся новые, и скорость обновления (Velocity – вторая «V») также важна для того, чтобы считать их «большими». Например, каждую минуту в мире выполняется почти 2,5 миллиона запросов к поисковой системе Google. Задача проектов Big Data заключается в том, чтобы справиться с огромной скоростью, с которой данные создаются, и анализировать их в режиме реального времени.
Третья «V» – Variety, разнообразие. Это означает, что проекты Big Data должны включать данные в самых разных форматах: структурированные и неструктурированные данные, текстовые, графические, данные корпоративной почты или соцсетей, вплоть до видео. Каждый из этих типов данных требует различных типов анализа и подходящих инструментов. Социальные медиа могут помочь владельцам бренда проанализировать настроения клиентов, а сенсорные данные предоставят информацию о том, как чаще всего используется продукт, чтобы применить эти знания для его улучшения.
Еще недавно трех «V» было вполне достаточно. Но все на свете изменяется, в том числе и подходы к определению. Поэтому аналитики присовокупили еще четыре «V», чтобы избежать недопонимания. Итак, в определение были добавлены Veracity, Variability, Visualization, Value. Рассмотрим каждый из этих пунктов.
4. Veracity – Достоверность: безусловно, эта характеристика является крайне важной, поскольку любой анализ будет совершенно бесполезен, если данные окажутся недостоверными. Более того, нам крайне важно заранее удостовериться, что с данными все ок, ведь их неточность может привести к неправильным решениям. Самый простой пример – контакты с ложными именами и неточной контактной информацией.
5. Variability – Изменчивость: новое веяние в сфере Big Data. Здесь речь идет о том, что значение одних и тех же данных может различаться в зависимости от контекста, например, одни и те же слова в Твиттере могут иметь различные значения и отражать различные настроения. Мы должны учитывать все нюансы! Для того чтобы выполнить правильный анализ настроений, алгоритмы должны быть в состоянии понять контекст и быть в состоянии расшифровать точное значение слова в этом контексте.
6. Visualization – Визуализация: это необходимая часть анализа, поскольку именно визуализация делает большие данные доступными для человеческого восприятия. Визуализация больших объемов сложных данных гораздо более эффективна и понятна для человека, чем электронные таблицы и отчеты, полные чисел и формул. Конечно, визуализация в рамках Big Data не означает построение обычных графиков или круговых диаграмм: возможно, будут построены сложные графики, которые будут включать в себя множество переменных данных, однако они все равно останутся понятными и читаемыми.
7. Value – Ценность: здесь речь идет о том, чтобы извлечь максимум пользы из результатов анализа больших данных. Важно то, как вы будете использовать эти данные и сможете ли превратить свою организацию в продвинутую компанию, которая опирается на идеи, полученные из анализа данных, для принятия решений.