Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики Страница 6

Тут можно читать бесплатно Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики. Жанр: Бизнес / Управление, подбор персонала, год -. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте «WorldBooks (МирКниг)» или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики

Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики краткое содержание

Прочтите описание перед тем, как прочитать онлайн книгу «Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики» бесплатно полную версию:
По убеждению Билла Фрэнкса, ведущего аналитика всемирно известной компании Teradata, уже сейчас наступила эпоха совершенно новых подходов в аналитической сфере и в использовании больших объемов данных. Что такое большие данные, каково их значение, каковы методы, технологии и принципы новейшей аналитики и как это повлияет на последующее развитие бизнеса – в этой книге вы найдете подробную, четко структурированную, изложенную простым языком и наиболее полную информацию об этом явлении.

Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики читать онлайн бесплатно

Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики - читать книгу онлайн бесплатно, автор Билл Фрэнкс

Риски, связанные с большими данными

С большими данными связаны определенные риски. Так, например, организация может оказаться настолько перегруженной большими данными, что не будет способна на какой-либо прогресс. Ключевой момент здесь, как мы увидим в главе 8, – наличие нужных людей, которые не допустят этого. Вам нужны правильные люди, способные справиться с проблемами, которые возникают с появлением больших данных. Если такие специалисты есть, организации могут избежать пробуксовки в своем развитии.

Другой риск заключается в том, что расходы по сбору больших данных растут быстрее, чем возможности организации по их использованию. Избежать этой проблемы можно, лишь обеспечив соответствующий темп развития. Нет необходимости браться за все сразу и с завтрашнего дня собирать 100 % информации, поступающей из каждого нового источника данных. Необходимо собирать и изучать образцы новых данных. С их помощью можно провести экспериментальный анализ, чтобы определить, что действительно важно в каждом источнике и как каждый из них может быть использован. Основываясь на этом, организация будет готова к проведению полномасштабного эффективного анализа источника данных.

Вероятно, самый серьезный риск, связанный с источниками больших данных, – это конфиденциальность. Если бы все люди были хорошими и честными, то нам не пришлось бы беспокоиться о конфиденциальности. Однако это не так. Нехорошими и нечестными бывают не только люди, но и компании. Существуют даже нехорошие и нечестные правительства. Вот поэтому большие данные могут доставить неприятности. Проблему конфиденциальности, связанную с большими данными, необходимо решать, иначе их потенциал невозможно реализовать полностью. Без надлежащего ограничения большие данные могут поднять такую волну протеста, что некоторые их источники будут полностью закрыты.

Не так давно стало известно, как несоблюдение безопасности привело к тому, что номера кредитных карт и правительственные документы были украдены и опубликованы в интернете. Не будет преувеличением сказать, что, если данные где-то хранятся, кто-то рано или поздно попытается их украсть. Как только злоумышленники получат к ним доступ, они будут их использовать в своих целях. Из-за непродуманной или ненадлежащим образом определенной политики конфиденциальности крупные организации сталкивались с проблемами: данные были использованы таким образом, который пользователи не понимали или не одобряли, и это вызывало негативную реакцию. По мере развития сферы больших данных должны развиваться сферы самостоятельного и правового регулирования их использования.

Наличие саморегулирования критически важно. Оно говорит о том, что отрасли не все равно. Участники рынка должны обеспечить саморегулирование и разработать правила, которых может придерживаться каждый. Такие правила обычно более эффективны и менее жестки, чем те, которые вводятся государственными органами, когда отрасль не может контролировать себя самостоятельно.

С большими данными связаны большие проблемы конфиденциальности

Принимая во внимание природу многих источников больших данных, нетрудно понять, что конфиденциальность представляет собой серьезную проблему. При наличии подобных объемов данных всегда найдутся нечестные люди, которые попытаются использовать их без вашего согласия или таким образом, который вам вряд ли понравится. Правила обработки, хранения и применения больших данных должны развиваться наряду с аналитическими возможностями. С самого начала пересмотрите подход вашей организации к вопросам конфиденциальности. Ваша позиция должна быть совершенно ясной и прозрачной.

Люди уже обеспокоены тем, как отслеживается история просмотра веб-страниц. Существуют опасения по поводу отслеживания местоположения пользователей с помощью приложений для мобильных телефонов и GPS-систем. Раз несанкционированное использование больших данных возможно, рано или поздно кто-нибудь попытается это сделать. Значит, необходимо предпринять шаги, чтобы этого не допустить. Организации должны четко объяснить, как они будут обеспечивать безопасность данных и как будут их использовать, если они хотят получить разрешение пользователей на их сбор и анализ.

Почему большие данные необходимо укротить

Многие организации пока мало используют большие данные. На ваше счастье, если вы до сих пор игнорировали большие данные, в 2012 году ваша организация не слишком отстала от остальных (если только вы не относитесь к таким отраслям, как электронная коммерция, – анализ больших данных уже стал неотъемлемой частью этой сферы). Однако скоро все изменится, поскольку развитие этого направления быстро набирает скорость. До сих пор большинство организаций упускали возможность оказаться впереди всех, и для многих из них это вполне нормально. В настоящее время еще есть шанс опередить остальных. Через несколько лет любая организация, которая не занимается анализом больших данных, безнадежно отстанет. Осваивать большие данные необходимо уже сейчас.

Нечасто компании удается воспользоваться совершенно новыми источниками данных, чтобы извлечь из них пользу для своего бизнеса, пока конкуренты не сделали то же самое. Такую возможность предоставляют сегодня большие данные. У вас есть шанс опередить своих конкурентов. В ближайшие годы мы увидим множество примеров того, как с помощью анализа больших данных компании полностью трансформируют себя; как конкуренты были застигнуты врасплох и остались далеко позади. Речь идет не только о таких модных новых индустриях, как электронная коммерция. Уже сейчас в публикациях, на конференциях и в других источниках приводятся убедительные примеры прорыва, в том числе компаний, работающих в скучных, старых и тяжеловесных отраслях. Мы расскажем об этом в главах 2 и 3.

Время пришло!

Ваша организация должна начать процесс освоения больших данных уже сейчас. Пока что, если вы до сих пор игнорировали большие данные, то лишь упустили возможность быть в авангарде. Сегодня вы еще можете оказаться впереди всех. А если будете оставаться в стороне, через несколько лет окажетесь далеко позади. Если ваша организация уже занимается сбором данных и использует анализ в процессе принятия решений, то переход к большим данным не будет проблемой. Это просто расширение той деятельности, которой вы занимаетесь сегодня.

Фактически решение об использовании больших данных не должно стать проблемой. Большинство организаций уже подходят к сбору и анализу данных как к одной из основных частей своей стратегии. Хранилища данных, отчетность и анализ используются повсеместно. Если организация понимает, что данные представляют собой ценность, работа с большими данными будет лишь расширением ее деятельности. Не позволяйте скептикам убедить вас в том, что исследование больших данных не стоит затраченных усилий, или что их ценность еще не доказана, или что это слишком рискованно. Те же самые доводы помешали бы прогрессу, достигнутому за последние несколько десятилетий в области анализа данных. Обратите внимание сомневающихся на то, что работа с большими данными – это лишь продолжение того, что организация уже делает. Большие данные не представляют собой чего-то принципиально нового, и их не следует бояться.

Структура больших данных

В этой книге часто говорится о том, что данные могут быть структурированными, неструктурированными, полуструктурированными или даже мультиструктурированными. Большие данные нередко описываются как неструктурированные, а традиционные данные – как структурированные. Однако границы между ними не столь ясны, как можно понять из названия. Рассмотрим три типа структуры данных с точки зрения неспециалиста. Технические детали выходят за рамки данной книги.

Большая часть традиционных источников данных – полностью структурированные. Это означает, что традиционные источники предоставляют данные в четко предопределенном формате. Он не меняется день ото дня или в зависимости от обновления. В случае торговли акциями в первом поле может указываться дата в формате ДД/ММ/ГГГГ. Далее может идти 12-значный номер счета. Затем может быть указан символ акции, состоящий из трех-пяти знаков. И т. д. Каждый фрагмент используемой информации известен заранее, представлен в определенном формате и подчинен определенному порядку. Это облегчает работу.

Источники неструктурированных данных – а к ним относятся текстовые данные, видео– и аудиоданные – вы не можете контролировать. Вы получаете то, что получаете. Изображение подразумевает такой формат, при котором отдельные пикселы располагаются в строках, однако их взаимное расположение, определяющее то, что видит зритель, существенно различается в каждом конкретном случае. Приведенные примеры источников больших данных относятся к совершенно неструктурированным. Однако значительная часть данных относится к категории полуструктурированных.

Перейти на страницу:
Вы автор?
Жалоба
Все книги на сайте размещаются его пользователями. Приносим свои глубочайшие извинения, если Ваша книга была опубликована без Вашего на то согласия.
Напишите нам, и мы в срочном порядке примем меры.
Комментарии / Отзывы
    Ничего не найдено.