Обзор подготовлен

версия для печати
Хранилища данных: оптимизация неизбежна

Хранилища данных: оптимизация неизбежна

Изменение цифровой картины мира в связи с повсеместным взрывным ростом количества информации требует новых подходов к построению хранилищ данных. Речь идет о качественно иной парадигме – вместо наращивания вычислительных мощностей систем хранения – их оптимизация.

По данным  IDC, общие объемы информации, хранимые в мире на всех существующих цифровых носителях, могут превысить к началу 2012 года 1800 экзабайт. А по прогнозам экспертов Cisco, среднемесячный объем глобального IP-трафика достигнет уровня 44 экзабайта (528 экзабайт в год).

Объем российского рынка СХД, $ млн

Источник: IDC, 2011

Все эти данные нужно где-то хранить и обрабатывать. А современные реляционные СУБД начинают ощутимо "подвисать", когда объем обрабатываемых данных приближается к нескольким терабайтам. В результате ИТ-инфраструктура либо не справляется с потоком данных, либо становится чрезмерно громоздкой и дорогой. Оптимизация хранилищ данных представляется одним из способов успешного решения данной задачи.

Проектировать ответственно

Компании сталкиваются с проблемой обработки и хранения больших массивов данных не только тогда, когда их поступает больше из внешних источников информации, но и когда расширяется круг бизнес-задач, изменяются бизнес-процессы или происходят организационные изменения в самой компании, например слияния или поглощения.

Результат один – BI-система перестает удовлетворять заявленным требованиям по производительности. "И тогда встает вопрос о трансформации всей системы хранения данных, – говорит Гаяне Арутюнян, архитектор решений по бизнес-аналитике, IBM в России и СНГ. – Возможность оптимизации хранилища закладывается уже на этапе планирования системы, в процессе разработки ее архитектуры. Правильно спроектированная система должна предусматривать возможность масштабирования хранилища. Именно на этом этапе должны приниматься решения по всем ключевым вопросам: скорости передачи данных, времени их хранения, возможности интеграции данных из различных приложений, способам и механизмам их очистки. Такой подход  позволит сделать хранилище данных изначально оптимизированным".

Следует сказать, что не все заказчики испытывают проблемы с неконтролируемым ростом данных. Так, к примеру, в одном федеральном ведомстве, как рассказали в компании "Логика бизнеса", вся деятельность строго регламентирована законодательством, а потому прогнозируема как в отношении количества отчетов, так и содержащихся в них данных. Тем не менее, оптимизация хранилища потребовалась. Цель проекта состояла в  создании единого источника хранения и обработки информации. Для этого был произведен полный реинжиниринг, и взамен старой системы создана новая.

Подобные задачи были решены и в ходе проекта, выполненного компанией "Форс" в Федеральной миграционной службе РФ. Здесь была произведена консолидация больших объемов разнородных данных из нескольких учетных систем. Функциональные возможности хранилища были существенно расширены за счет интеграции с дополнительными источниками данных, реализована возможность ретроспективного и предиктивного анализа.

Чтобы избежать возможных рисков, связанных с трансформацией хранилищ данных, следует уделить особое внимание тому, каким образом  проектируется система. "Важно использовать лучшие практики, рекомендации и современную методологию построения хранилищ данных, – подчеркивает Евгений Курилович, руководитель проектов компании "Форс". – Для оценки технических требований к системе лучше привлечь специалистов вендора, особенно при разработке конфигурации аппаратного обеспечения. Средства и алгоритмы загрузки должны быть разработаны с учетом возможного масштабирования при появлении нового класса аналитических задач".

Виктор Митин, архитектор ECM-решений компании "Босс-Референт", отмечает, что прежде всего нужно максимально использовать инструментарий и функциональные возможности, заложенные в самой платформе. В качестве примера можно привести политики хранения, позволяющие определить, каким образом лучше хранить тот или иной контент. Для больших медиафайлов, доступ к которым сотрудникам требуется не часто, лучше использовать объемные, но не быстрые накопители. Для нормативно-справочной информации, наоборот, можно использовать быстрые и необъемные накопители. Конфиденциальная информация требует более защищенного хранения с резервным копированием на уровне устройства хранения. А некоторые документы после 3–5-летнего хранения подлежат удалению без возможности восстановления.

Храните только нужное

Возникает вопрос, как определить, насколько та или иная информация важна для бизнеса. Может, чтобы избежать риска утери нужных данных, лучше хранить все, и, желательно, вечно. До недавнего времени такой подход преобладал в большинстве российских компаний, но постепенно ситуация стала меняться. "Существуют внешние факторы, которые определяют рамки и объемы хранения информации. Одним из таких факторов являются нормативные требования – законодательные, отраслевые.

Основные же требования к хранилищу данных формируются самим заказчиком – какие-то данные должны храниться в оперативном хранилище, какие-то в архиве. Но когда звучит фраза "нужно хранить все", то это, скорее, затрагивает определенный бизнес-процесс или конкретную задачу, которую необходимо решить в данный момент времени", – поясняет Гаяне Арутюнян. Иными словами, если данный вид информации имеет для компании стратегическое значение, то его хранение "вечно" может быть оправдано. Так, банки могут хранить кредитную историю своих клиентов.

По мнению Анатолия Семина, руководителя дирекции систем бизнес-анализа компании R-Style, преобладающий в российском бизнесе подход к хранению данных в плане логики хранения отличается от принятого в мировой практике незначительно. Чаще всего он состоит в том, чтобы "хранить необходимое", и это самый разумный путь. Евгений Курилович констатирует обратное – заказчикам все еще не хватает понимания, что хранить все нецелесообразно, и дешевле определиться с приоритетами  и критериями отбора информации, подлежащей хранению в том или ином виде. Поэтому довольно часто приходится выступать в роли консультанта, убеждая заказчика сконцентрироваться на главных целях, решаемых аналитической системой.

Последнюю точку зрения разделяет и Гаяне Арутюнян, которая отмечает недостаточную подготовленность российского заказчика к вопросу о том, какая информация ему нужна. За рубежом заказчики, как правило, формулируют свои критерии более четко и до старта проекта, у нас же – на этапе проектирования. Поэтому часто возникают ситуации, когда неожиданно потребовалось оперативное получение информации по историческим данным и старым отчетам, которые уже заархивированы. Чтобы избежать подобных рисков,  заказчики стараются обезопасить себя, им психологически трудно принять решение об удалении неактуальных данных, отмечает Дмитрий Харлашко, начальник управления систем бизнес-анализа компании "Парма-Телеком".

Что храним – то имеем

При оценке того, как и что нужно хранить, исходят из совокупности факторов. Например, используют такой показатель, как релевантность – частоту обращения к данному виду информации. Кроме того, следует учитывать специфику внутренних регламентов  компании по использованию и хранению документации. Исходя из этого, рассуждает, Виктор Митин, можно понять, какие действия предпринять в отношении конкретного вида информации.

Гаяне Арутюнян  предупреждает, что для оценки востребованности той или иной группы данных одних инструментальных методов недостаточно, поскольку подобная система мониторинга способна определить лишь формальную частоту обращения к данным, но не их реальную важность для бизнеса. Следовательно, требуется сочетание инструментальных и неформальных методов, каковым является беседа с заказчиком. Автоматизированная оценка востребованности данных в чистом виде подходит лишь для узкоспециальных задач, таких, как архивация данных или построение многоуровневых файловых систем.

Способы архивации данных, так же как и их стоимость, различны. "Тот или иной способ – архивация исторических данных, архивация систем, потерявших функциональную актуальность, архивация в целях резервного копирования, частичная или полная архивация (слепок хранилища данных) – необходимо выбирать, исходя из целей и задач, которые ставит бизнес перед ИТ-службой. Самый дорогой способ – это частичная архивация исторических данных, поскольку такая операция требует разработки и тестирования процедур очистки данных", – рассказывает Анатолий Семин.

Евгений Курилович обращает внимание на то, что однозначного ответа, что дороже и что лучше, нет. Иногда целесообразнее просто хранить данные в виде резервных копий на ленточной библиотеке и при необходимости восстанавливать, однако тогда потребуется оплачивать услуги администратора. Именно такой способ – запись данных в виде текстовых файлов на ленте – предпочитает один из клиентов компании "Парма-Телеком". Можно хранить копию БД с историческими данными на отдельном сервере. А можно – в отдельной дисковой стойке, что сопряжено с затратами  на специальную организацию такого способа хранения. Самым дорогостоящим на данный момент носителем информации Гаяне Арутюнян  называет твердотельные диски. Они обеспечивают чрезвычайно высокую скорость доступа, однако пока  не получили широкого распространения из-за ограниченного срока хранения данных.

Однако, по словам Дмитрия Харлашко, чистка данных в самом хранилище требуется не всегда:  "Сегодня никто из наших заказчиков не чистит данные в хранилищах. Это связано с тем, что даже очень большие объемы накопленной информации не влияют на производительность системы". Неактуальные показатели и редко востребованные виды отчетов просто помечаются соответствующим образом, но не удаляются из системы. "Временно отложить решение задачи по оптимизации хранилища можно. Для этого нужно либо существенно увеличить производительность серверного оборудования, либо отключить часть функционала хранилища (чаще всего на уровне витрин/отчетов).

Возможен и другой путь – снижение глубины хранения данных. Но все это даст лишь временную отсрочку. Если хранилище данных не удовлетворяет требованиям  бизнеса, его рано или поздно придется оптимизировать. Это неизбежно", – резюмирует Анатолий Семин.

Вера Семушина

Техноблог | Форумы | ТВ | Архив
Toolbar | КПК-версия | Подписка на новости  | RSS