Проблемы интеграции данных
Курсовая работа, 12 Декабря 2010, автор: пользователь скрыл имя
Описание
Современная бизнес – среда характеризуется такими проблемами, как возрастающая глобализация, необходимость поддерживать устойчивый рост на уже сложившихся рынках и дальнейшее ужесточение законодательных требований; конфликт между стремлением сделать корпорацию более гибкой за счет упрощения бизнес-процессов и IT-систем; необходимостью обрабатывать значительные объемы информации (лавинообразный рост количества данных).
Решение этих проблем – оперативная, согласованная и легкодоступная информация.
Целью интеграции данных является получение единой и цельной картины корпоративных бизнес – данных, а также формирование знаний.
Без интеграции данных в единое целое информационное пространство сложно говорить о пространстве знаний предприятия и об инновационном развитии в целом.
Современная экономика требует архитектурного подхода к интеграции информации, который позволит работать с реальными данными, даже если они иногда являются непоследовательными или неполными.
Существуют три основных метода интеграции данных консолидация, федерализация и распространение данных. Также будет рассмотрена классификация технологий интеграции данных.
Содержание
Введение 3
Цели и задачи интеграции данных 4
Основные проблемы в области интеграции данных 4
Причины неудач глобальных интеграционных проектов 5
Методы интеграции данных 9
Значение Хранилищ данных 14
Классификация технологий интеграции 18
Правительственный шлюз в интеграции информационных систем 20
Брокер сообщений 20
Основные стандарты XML и веб-служб 25
Базовые принципы применения XML и веб-служб для организации межведомственного взаимодействия 26
Платформа интеграции Microsoft .NET 28
Реализации архитектуры и инфраструктуры интеграции на примере Microsoft BizTalk Server 28
Заключение 29
Список литературы 30
Работа состоит из 1 файл
курсак весь.docx
— 59.61 Кб (Скачать документ)Небольшое количество технически квалифицированного персонала, способного создать программное обеспечение для работы в этих непростых условиях, означает довольно высокий уровень риска. Ограниченное число представителей бизнеса, обладающих полномочиями для согласования приоритетов с основной массой организации, подверженной постоянным переменам, существенно сокращает выбор потенциальных кандидатов на роль управляющих глобальными интеграционными проектами.
Своевременное
осуществление глобального
- Методы интеграции данных
Существует три основных метода интеграции данных.
- Консолидация данных
При использовании этого метода данные собираются из нескольких первичных систем и интегрируются в одно постоянное место хранения. Такое место хранения может быть использовано для подготовки отчетности и проведения анализа, как в случае Хранилища данных, или как источник данных для других приложений, как в случае операционного склада данных.
При
использовании этого метода обычно
существует некоторая задержка между
моментом обновления информации в первичных
системах и временем, когда данные
изменения появляются в конечном
месте хранения. В зависимости
от потребностей бизнеса такое отставание
может оставлять несколько
Конечные места хранения данных, содержащие данные с большими временами отставания (например, более одного дня), создаются с помощью пакетных приложений интеграции данных, которые извлекают данные из первичных систем с определенными, заранее заданными интервалами. Такой подход использует запросы к данным, которые получают периодические "мгновенные снимки" первичных данных. Хотя подобные запросы получают текущие данные, они не отражают тех изменений, которые произошли между двумя последовательными запросами. А за это время данные могли обновляться несколько раз.
Конечные
места хранения данных с небольшим
отставанием обновляются с
Методы извлечения и передачи могут использоваться вместе. Например, оперативное приложение передачи данных может накапливать изменения данных в какой-то области промежуточного хранения, а пакетное приложение извлечения данных может обращаться к нему через определенные интервалы. При этом важно понимать, что метод передачи зависит от того, происходят ли определенные события, а метод извлечения работает по требованию.
Бизнес-приложения, которые обрабатывают консолидированный склад данных, могут генерировать запросы к этим данным, создавать отчеты на их основании и проводить анализ данных. Как правило, эти приложения не могут производить обновления консолидированных данных из-за проблем, связанных с синхронизацией подобных обновлений с первичными системами данных. Тем не менее, некоторые программные продукты для интеграции данных все же предлагают возможности записи, обеспечивая средства решения конфликтов данных, которые могут иметь место между обновленными данными в консолидированном складе и первичными системами.
Некоторые
приложения производят обновления консолидированного
склада данных и передают эти изменения
назад в первичные системы. Примером
такой системы является конечный
склад данных, который используется
для создания еженедельной модели ценообразования.
Модель может быть оптимизирована и
обновлена в течение недели, а
затем снова загружена в
Преимуществом консолидации данных является то, что этот подход позволяет осуществлять трансформацию значительных объемов данных (реструктуризацию, согласование, очистку и/или агрегирование) в процессе их передачи от первичных систем к конечным местам хранения. Некоторые сложности, связанные с данным подходом, - это значительные вычислительные ресурсы, которые требуются для поддержки процесса консолидации данных, а также существенные ресурсы памяти, необходимые для поддержки конечного места хранения. Но с учетом постоянно совершенствования аппаратных средств это не проблема.
Консолидация данных - это основной подход, который используется приложениями Хранилищ данных для построения и поддержки оперативных складов данных и корпоративных Хранилищ. Консолидация данных также может найти применение для создания зависимой витрины данных, но в этом случае в процессе консолидации используется только один источник данных (например, корпоративное Хранилище). В среде Хранилищ данных одной из самых распространенных технологий поддержки консолидации является технология ETL (извлечения, преобразования и загрузки - extract, transform, and load). Еще одна распространенная технология консолидации данных - управление содержанием корпорации (enterprise content management, сокр. ECM). Большинство решений ECM направлены на консолидацию и управление неструктурированными данными, такими как документы, отчеты и web-страницы.
- Федерализация данных
Обеспечивает единую виртуальную картину одного или нескольких первичных файлов данных. Если бизнес-приложение генерирует запрос к этой виртуальной картине, то процессор федерализации данных извлекает данные из соответствующих первичных складов данных, интегрирует их таким образом, чтобы они отвечали виртуальной картине и требованиям запроса, и отправляет результаты бизнес-приложению, от которого пришел запрос. По определению, процесс федерализации данных всегда заключается в извлечении данных из первичных систем на основании внешних требований. Все необходимые преобразования данных осуществляются при их извлечении из первичных файлов. Интеграция корпоративной информации (Enterprise information integration, сокр. EII) - это пример технологии, которая поддерживает федеративный подход к интеграции данных.
Один
из ключевых элементов федеративной
системы - это метаданные, которые
используются процессором федерализации
данных для доступа к первичным
данным. В некоторых случаях эти
метаданные могут состоять исключительно
из определений виртуальной
Некоторые
федеративные решения могут обеспечивать
дополнительные бизнес-метаданные, которые
отражают семантические связи между
элементами данных в первичных системах.
Примером таких данных являются данные
о потребителях. Метаданные могут
содержать общий индикатор
Считается, что основное преимущество федеративного подхода - тот факт, что он обеспечивает доступ к текущим данным и избавляет от необходимости консолидировать первичные данные в новом складе данных. Но следует помнить, что федерализация данных не очень хорошо подходит для извлечения и согласования больших массивов данных или для тех приложений, где существуют серьезные проблемы с качеством данных в первичных системах. Еще один существенный фактор - потенциальное влияние на производительность и дополнительные затраты на доступ к многочисленным источникам данных во время выполнения программы.
Федерализацию данных можно использовать в тех случаях, когда стоимость консолидации данных перевешивает бизнес-преимущества, которые она предоставляет. Оперативная обработка запросов и подготовка отчетов могла бы служить примером подобной ситуации. Федерализация данных также, вероятно, оказалась бы полезной в тех случаях, когда политика безопасности данных и лицензионные ограничения запрещают копирование данных первичных систем. Обычно в эту категорию попадают синдикаты данных. Помимо этого, федерализация могла бы использоваться как кратковременное решение для интеграции данных после приобретения или слияния компаний. Но в целом, как показывает опыт, даже в названных выше ситуациях консолидация данных часто оказывается более приемлемым решением, чем федерализация.
Изучение и профилирование первичных данных, необходимые для федерализации, несильно отличаются от аналогичных процедур, требуемых для консолидации. Таким образом, организациям стоит использовать такие продукты для интеграции данных, которые поддерживают как федерализацию, так и консолидацию, или, по крайней мере, продукты, которые могут обеспечивать совместное использование метаданных, необходимых для обоих подходов.
Федеративная
архитектура очень полезна для
крупных транснациональных
Необходимо отметить, что в англоязычной литературе термин federated data warehouse сейчас используется в двух разных значениях. Часть специалистов подразумевает под федеративным Хранилищем создание виртуальной структуры, оперирующей с выборками данных. Другие называют федеративным Хранилищем единый физический репозиторий, работающий с копиями данных, который другими словами может быть назван распределенным Хранилищем.
- Приложения распространения данных
Осуществляют копирование данных из одного места в другое. Эти приложения обычно работают в оперативном режиме и производят перемещение данных к местам назначения, т.е. зависят от определенных событий. Обновления в первичной системе могут передаваться в конечную систему синхронно или асинхронно. Синхронная передача требует, чтобы обновления в обеих системах происходили во время одной и той же физической транзакции. Независимо от используемого типа синхронизации, метод распространения гарантирует доставку данных в систему назначения. Такая гарантия - это ключевой отличительный признак распространения данных. Большинство технологий синхронного распространения данных поддерживают двусторонний обмен данными между первичными и конечными системами. Примерами технологий, поддерживающих распространение данных, являются интеграция корпоративных приложений (Enterprise application integration, сокр. EAI) и тиражирование корпоративных данных (Еnterprise data replication, сокр. EDR).
Большим преимуществом метода распространения данных является то, что он может быть использован для перемещения данных в режиме реального времени или близком к нему. Другие достоинства включают гарантированную доставку данных и двустороннее распространение данных. Доступность многих из этих удобств зависит от конкретного продукта. Метод распространения данных может также использоваться для уравновешивания рабочей нагрузки, создания резервных копий и восстановления данных, в том числе в случае чрезвычайных ситуаций.
Практическое применение этого метода отличается достаточно большим разнообразием, как в плане производительности, так и в отношении возможностей реструктуризации и очистки данных. Некоторые корпоративные продукты распространения данных могут поддерживать перемещение и реструктуризацию крупных массивов данных, тогда как продукты EAI часто имеют ограниченные возможности передвижения большого количества данных и их реструктуризации. Одна из причин подобного различия - тот факт, что в центре архитектуры тиражирования корпоративных данных лежат данные, а в центре технологии EAI - сообщения или транзакции.
- Гибридный подход
Методы, используемые приложениями
интеграции данных, зависят как
от нужд бизнеса, так и от
технологических требований. Достаточно
часто приложение интеграции
данных использует так