Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

6868

.pdf
Скачиваний:
0
Добавлен:
23.11.2023
Размер:
904.22 Кб
Скачать

2.Интерпретация

3.Преобразований данных

4.Очистка данных

5.Data Mining

17. Что означает термин «имитационное моделирование»?

а) разновидность математического моделирования, реализуемого с помощью экономико-

математических моделей и функций преобразования экономической информации б) разновидность моделирования, реализуемого с помощью набора математических инструмен-

тальных средств, технологий программирования в) разновидность структурного моделирования, реализуемого с помощью контекстных диаграмм

г) это численный метод проведения на компьютерах вычислительных экспериментов с математи-

ческими моделями, имитирующими поведение реальных объектов, процессов и систем во времени в течение заданного периода

18. Что такое трансформация данных?

а) Специальная процедура, когда диапазон значений, в пределах которого изменяется числовая величина, разбивается на заданное количество интервалов, каждому из которых присваивается определенный номер б) Комплекс методов и алгоритмов, направленных на оптимизацию представления и форматов

данных с точки зрения решаемых задач и целей анализа в) процесс дополнения данных некоторой информацией, позволяющей повысить эффективность решения аналитических задач г) Объединение данных из нескольких источников

19. Аналитическая платформа — это … а) специализированное программное решение (или набор решений), которое включает в себя все

инструменты для извлечения закономерностей из сырых данных б) набор данных, каждая запись которого представляет собой учебный пример, содержащего за-

данный входной влияние, что и отвечает ему правильный выходной результат в) это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов

г) подразделение искусственного интеллекта изучающий методы построения алгоритмов, способ-

ных обучаться на данных

20. Почему в анализе данных используются автоматические методы обнаружения и корректировки аномалий?

11

а) автоматические методы, как правило, работают лучше ручных б) существуют функциональные зависимости между зависимыми и независимыми показателями и

переменными

в) большой объем данных накладывает ограничения на ручные методы г) задача поиска аномалий хорошо формализуется в виде алгоритмов

3. Методические указания по подготовке к практическим занятиям

. 3.1 Общие рекомендации по подготовке к практическим занятиям

В ходе подготовки к практическим занятиям необходимо изучать основную литературу, по-

знакомиться с дополнительной литературой. При этом необходимо учесть рекомендации препода-

вателя и требования учебной программы.

В соответствии с этими рекомендациями и подготовкой полезно дорабатывать свои конспек-

ты лекции, делая в нем соответствующие записи из литературы, рекомендованной преподавателем и предусмотренной учебной программой. Целесообразно также подготовить тезисы для возмож-

ных выступлений по всем учебным вопросам, выносимым на практическое занятие.

При подготовке к занятиям можно также подготовить краткие конспекты по вопросам темы.

Очень эффективным приемом является составление схем и презентаций.

Готовясь к докладу или реферативному сообщению, желательно обращаться за методической помощью к преподавателю. Составить план-конспект своего выступления. Продумать примеры с целью обеспечения тесной связи изучаемой теории с реальной жизнью. Своевременное и каче-

ственное выполнение самостоятельной работы базируется на соблюдении настоящих рекоменда-

ций и изучении рекомендованной литературы.

. 3.2 Примеры задач для практических занятий Задание 1.

Файлы e070_produce.txt и e070_sales.txt содержат соответственно, справочник цен на товары

(Цена поставки) и чеки продаж за определенный период времени (Дата продажи, Товар, Код,

Количество, Сумма, Скидка).

Дополнительно известны следующие бизнес-правила:

1.Розничная цена=(Сумма+Скидка)/Количество.

2.Постоянным покупателям предоставляются следующие скидки: 2%, 3%, 5%, 10%, 20%.

Скидка в %= (скидка/(Сумма+Скидка))∙100%

12

Требуется:

I. Провести аудит данных и сложный профайлинг данных, написав соответствующий сцена-

рий в Deductor.

II. Заполнить предлагаемую форму отчета: 1. Аудит данных

Табл. 1. Сводная оценка качества данных (файл e070_produce)

 

 

 

данныхТип

данныхВид

 

Пропуски

 

Аномалии

 

Дубликаты

 

Поле

 

 

 

 

 

 

 

 

Кол-

 

 

Кол-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Действия

 

Действия

 

 

 

 

 

 

 

во

 

 

во

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сокращения: I – целый, S – строковый, F – вещественный, Д – дискретный, Н – непре-

 

рывный

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Диапазон изменения цен

 

 

 

 

 

 

 

 

 

Всего записей: до очистки –

, после очистки –

, удалено % –

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Табл. 2. Сводная оценка качества данных (файл e070_sales)

№ Поле

1

2

3

Тип данных

Вид данных

 

 

 

Пропуски

Аномалии

 

 

 

 

 

Кол-

 

Действия

Кол-во

Действия

во

 

 

 

 

 

 

 

 

 

 

Сокращения: I – целый, S – строковый, F – вещественный, D/V – дата/время, Д – дискретный, Н – непрерывный.

 

 

Дубликаты

 

Противоречия

Поле

 

 

 

 

 

Кол-во групп и за-

 

Действия

Кол-во

Действия

 

 

 

 

 

писей

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

13

Всего записей: до очистки –

, после очистки –

, удалено % –

 

 

 

 

 

 

Ваш комментарий и совокупная оценка качества данных:

 

 

2. Сложный профайлинг данных

 

 

 

 

 

 

Табл. 3. Сводная оценка профайлинга данных

 

 

 

 

 

 

 

 

Подозрение на ошибку

 

Выявлено

В % от всех чеков

 

 

 

случаев

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

Розничная цена меньше цены поставщика

 

 

 

 

 

 

 

 

 

 

 

2

Аномальное количество товара

 

 

 

 

 

 

 

 

 

 

 

 

3

Аномальная скидка

 

 

 

 

 

 

 

 

 

 

 

 

4

Ошибка в цене поставки

 

 

 

 

 

 

 

 

 

 

 

выводы:

Задание 2.

В выборах на пост мэра города участвуют 10 кандидатов. Перед выборами было опрошено

135 человек с целью выяснения предпочтений о кандидатах. Оценка кандидатов в бальной системе от 1 до 10.

Используя датчик случайных чисел, построить результаты опроса по кандидатам.

1)Построить гистограмму и полигон.

2)Для не сгруппированных данных определить числовые характеристики (среднее арифме-

тическое, мода, медиана, среднее квадратичное отклонение) с помощью инструмента Описатель-

ная статистика из Пакета анализа.

3) Для сгруппированных данных определить числовые характеристики (среднее арифмети-

ческое, мода, медиана, среднее квадратичное отклонение), используя формулы расчета из лекции. 4) Применив критерии согласия Пирсона, оценить степень соответствия данных известному

теоретическому распределению:

а) равномерному распределению б) нормальному распределению.

Задача 3. Одноканальная телефонная линия. Заявка, поступившая в момент, когда линия занята, получает отказ. Простейший поток заявок поступает с интенсивностью =60 звонков/ч.

Время обслуживания заявки есть случайная величина, которая подчиняется экспоненциальному

закону распределения. Средняя продолжительность разговора =2,5мин. Определить показатели

14

эффективности работы СМО.

Задача 4. В супермаркете имеется M касс. Посетители занимают места в очереди кассы.

Как правило, очереди к различным кассам примерно одинаковые. Было замечено, что при длине очереди больше N покупатель уходит из супермаркета без покупки. Время прихода покупателей и время их обслуживания имеет экспоненциальную зависимость. Среднее время прихода равно T, а

среднее время обслуживания равно Z. Для привлечения покупателей перед супермаркетом постро-

ена парковка на X машин. В течение суток супермаркет работает S часов. В соответствии с вари-

антом задания предлагается построить имитационную модель работы супермаркета и определить статистические характеристики системы.

Задача 5.

Торговая фирма разработала несколько вариантов продажи товаров на предстоящей ярмар-

ке с учетом меняющейся конъюнктуры рынка и спроса покупателей. Получающиеся от их воз-

можных сочетаний показатели дохода известны.

I. Нужно сформулировать экономико-математическую модель задачи и, используя Поиск решения, найти оптимальный план выпуска продукции, при котором общая стоимость продукции будет максимальной.

II. Используя протоколы Поиска решения, выполните анализ полученного оптимального решения исходной задачи:

a)Все ли типы продукции выгодно производить?

b)Проанализируйте использование ресурсов в оптимальном плане. III. Проведите анализ полученного решения на чувствительность.

1. Первая задача анализа на чувствительность: на сколько можно сократить или увеличить

запасы ресурсов?

a) На сколько можно снизить запас некоторого ресурса при сохранении полученного опти-

мального значения целевой функции.

b) На сколько можно увеличить запас некоторого ресурса для улучшения полученного оп-

тимального значения целевой функции.

c) Попробуйте изменить ограничения на ресурсы, чтобы все ресурсы стали дефицитными.

2.Вторая задача анализа на чувствительность: увеличение объема какого из ресурсов наиболее выгодно?

a) Выяснить ценность дополнительной единицы каждого вида ресурсов.

b) Будет ли экономически целесообразным увеличивать время работы оборудования, если стоимость дополнительного часа работы оборудования изменится.

3.Третья задача анализа на чувствительность: в каких пределах допустимо изменение ко-

15

эффициентов целевой функции? (Коэффициенты целевой функции определяются ценами на гото-

вую продукцию).

a) Определите интервал изменения прибыли от продажи каждого типа продукции, в кото-

ром оптимальное решение остается неизменным (нужно определить диапазон изменения (увели-

чения или уменьшения) того или иного коэффициента целевой функции).

b) Насколько уменьшится прибыль, если, несмотря на оптимальное решение, включить в план 1 единицу нерентабельной продукции.

.4. Методические указания по организации самостоятельной работы

. 4.1 Общие рекомендации для самостоятельной работы

Самостоятельная работа студентов является основным способом овладения учебным мате-

риалом в свободное от обязательных учебных занятий время.

Целями самостоятельной работы студентов являются:

-систематизация и закрепление полученных теоретических знаний и умений студентов;

-углубление и расширение теоретических знаний;

-формирование умений использовать нормативную, правовую, справочную документацию

испециальную литературу;

-развитие познавательных способностей и активности студентов:

-формирования самостоятельности мышления, способностей к саморазвитию, самосовер-

шенствованию и самореализации.

Запланированная в учебном плане самостоятельная работа студента рассматривается как связанная либо с конкретной темой изучаемой дисциплины, либо с подготовкой к контрольной работе. В данном разделе рассматривается только самостоятельная работа первого вида.

Самостоятельная работа выполняется в два этапа: планирование и реализация.

Планирование самостоятельной работы включает:

-уяснение задания на самостоятельную работу;

-подбор рекомендованной литературы;

-составление плана работы, в котором определяются основные пункты предстоящей подго-

товки.

Составление плана дисциплинирует и повышает организованность в работе.

На втором этапе реализуется составленный план. Реализация включает в себя:

-изучение рекомендованной литературы;

-составление плана (конспекта) по изучаемому материалу (вопросу);

-взаимное обсуждение материала.

16

Необходимо помнить, что на лекции обычно рассматривается не весь материал. Оставшаяся восполняется в процессе самостоятельной работы. В связи с этим работа с рекомендованной лите-

ратурой обязательна.

Работа с литературой и иными источниками информации включает в себя две группы при-

емов: техническую, имеющую библиографическую направленность, и содержательную. Первая группа – уяснение потребностей в литературе; получение литературы; просмотр литературы на уровне общей, первичной оценки; анализ надежности публикаций как источника информации, их относимости и степени полезности. Вторая – подробное изучение и извлечение необходимой ин-

формации.

Для поиска необходимой литературы можно использовать следующие способы:

-поиск через систематический каталог в библиотеке;

-просмотр специальных периодических изданий;

-использование материалов, размещенных в сети Интернет.

В процессе взаимного обсуждения материала закрепляются знания, а также приобретается практика в изложении и разъяснении полученных знаний, развивается речь.

При необходимости студенту следует обращаться за консультацией к преподавателю.

Составление записей или конспектов позволяет составить сжатое представление по изучае-

мым вопросам. Записи имеют первостепенное значение для самостоятельной работы студентов.

Они помогают понять построение изучаемого материала, выделить основные положения, просле-

дить их логику.

Ведение записей способствует превращению чтения в активный процесс. У студента, си-

стематически ведущего записи, создается свой индивидуальный фонд подсобных материалов для быстрого повторения прочитанного. Особенно важны и полезны записи тогда, когда в них находят отражение мысли, возникшие при самостоятельной работе.

Можно рекомендовать следующие основные формы записи: план, конспект, тезисы, пре-

зентация.

План – это схема прочитанного материала, краткий (или подробный) перечень вопросов,

отражающих структуру и последовательность материала. Подробно составленный план вполне заменяет конспект.

Конспект – это систематизированное, логичное изложение материала источника. Объем конспекта не должен превышать 10 страниц. Шрифт Times New Roman, кегль 14, интервал 1,5.

Список литературы должен состоять из 5-8 источников, по возможности следует использовать по-

17

следние издания учебных пособий и исследований.

Тезисы — это последовательность ключевых положений из некоторой темы без доказа-

тельств или с неполными доказательствами. По объему тезисы занимают одну страницу формата А4 или одну – две страницы в ученической тетради. В конце тезисов студент должен сделать соб-

ственные выводы.

Презентации по предложенной теме составляются в программе Power Point или Impress.

Количество слайдов должно быть не менее 15 и не превышать 20 слайдов. Кроме текста на слай-

дах можно создавать схемы и таблицы. Шрифт должен быть читаемым, например, шрифт черного цвета на светлом фоне или светлый шрифт на темном фоне. Также шрифт не должен быть слиш-

ком мелким. В слайдах указываются только основные тезисы, понятия и нормы.

. 4.2 Темы для самостоятельного изучения

1.Технологии анализа данных. Data Mining, Visual Mining, Text Mining.

2.Современные методы анализа данных. Обнаружение логических закономерностей в данных.

3.Оперативная аналитическая обработка данных. OLAP-технологии. Примеры применения.

4.Интеллектуальный анализ данных средствами MS SQL Server.

5.Современные пакеты прикладных программ анализа, включающие методы Data Mining.

6.Интеллектуальные анализ данных и прогнозирование в «1С:Предприятии».

7.Технологии больших данных (Big Data) (Большие данные.)

8.Методики анализа больших данных. Аналитический инструментарий.

9.Большие данные: свойства, методы обработки, описание.

5. Методические указания по выполнению контрольной работы (Общие рекомендации)

. 5.1 Общие требования к оформлению контрольной работы

Контрольная работа оформляется на листах формата А4 в печатном виде в формате Word (шрифт 12-14, поля: слева 2,5 см, остальные – по 2 см). Страницы работы следует пронумеровать.

Работа сдаётся на кафедру «Прикладной информатики и статистики». Работа, признанная не отве-

чающей предъявляемым требованиям, возвращается студенту для доработки. При этом указыва-

ются недостатки работы и даются рекомендации по их устранению.

Критериями оценки контрольной работы служат следующие параметры:

полнота решения задач контрольной работы;

18

аргументированные пояснения в решении;

качество оформления контрольной работы в соответствии с предъявляемыми требованиями.

Оценка «зачтено» выставляется студенту, являющемуся автором контрольной работы, со-

ответствующей всем предъявляемым требованиям, в том числе формальным.

Оценка «не зачтено» выставляется студенту, являющемуся автором контрольной работы, не соответствующей предъявляемым требованиям. Оценка «не зачтено» выставляется также, если студент неправильно решил более 50% задач, не ориентируется в тексте работы; не может дать ответы на уточняющие вопросы, касающиеся теоретических предложений и формул, использо-

ванных при решении задач и т.д.).

. 5.2 Примерные варианты контрольной работы

В задачах 1–20 выборочные совокупности заданы из соответствующих генеральных сово-

купностей. Требуется: 1) по несгруппированным данным найти выборочную среднюю; 2) найти доверительный интервал для оценки неизвестного математического ожидания признака X гене-

ральной совокупности (генеральной средней), если признак X распределен по нормальному зако-

ну; известно –надежность и – среднее квадратическое отклонение; 3) составить интервальное распределение выборки с шагом h, взяв за начало первого интервала х0; 4) построить гистограмму частот; 5) дать экономическую интерпретацию полученных результатов.

1. Получены результаты о фондовооруженности в 25 производственных объединениях (тыс. руб.):

16,8 17,2 17,6 17,6 17,9 18,0 18,2 18,4 18,6 18,9 18,9

19.0 19,1 19,2 19,2 19,3 19,7 19,9 20,0 20,0 20,2 20,3

20,4 20,8 21,5

=0,95; =1; h=1; х0=16,5.

2. Для определения удельного веса активных элементов основных производственных фондов было выборочно обследовано 25 производственных объединений и получены следующие результаты:

22,3 23,7 24,5 25,9 26,1 26,6 27,3 27,9 28,2 28,5 28,8

29.1 29,2 29,9 30,5 30,7 31,4 32,2 32,3 33,5 34,2 34,4

34.9 35,7 38,9

=0,95; =4; h=5; x0=20.

3. Произведено выборочное обследование 25 магазинов по величине товарооборота. Получены следующие результаты (в тыс. руб.):

42,5 60,0 63,5 70,5 82,0 83,5 92,0 95,5 100,0 101,0 105,0

19

108,5 110,0 115,5 120,0 120,5 122,0 130,0 138,5 140,0

142,0 150,5 160,0 162,1 180,5

=0,96; =31; h=20; х0=42,5.

4. При изучении уровня инфляции за некоторый период времени было обследовано 25 стран, по-

лучены следующие результаты:

0,35 0,41 0,53 0,59 0,64 0,68 0,71 0,73 0,77 0,78 0,82

0,83 0,85 0,86 0,88 0,89 0,92 0,93 0,97 1,01 107 108 1,14 1,25 1,28

=0,98; =0,22; h=0,2; х0=0,3.

5. Для определения себестоимости продукции было произведено выборочное обследование 25

предприятий пищевой промышленности и получены следующие результаты (руб.)

15,0 16,4 17,8 18,0 18,4 19,2 19,8 20,2 20,6 20,6

20,6 21,3 21,4 21,7 22,0 22,2 22,3 22,7 23,0 24,2

24,2 25,1 25,3 26,0 26,5 27,1.

=0,95; =2,8; h=2,5; x0=15.

6. Проведено выборочное обследование 25 частных фирм по количеству занятых в них служащих,

получены следующие результаты (чел.):

266 278 315 336 347 354 368 369 391 408

411 416 427 437 444 448 457 462 481 483

495 512 518 536 576

=0,96; =65; h=50; х0=250.

7. Проведена случайная выборка личных заемных счетов в банке, получены следующие результа-

ты (тыс. руб.):

1850 2200 2400 2450 2500 2550 2800 2900 2950 3100 3150 3200 3200 3300 3350 3400 3450

3550 3550 3600 3800 3900 4100 4300 4550

=0,96; =690; h=500; x0=1550.

8. Выборочно исследовано 25 предприятий для определения объема выпущенной продукции в ме-

сяц на одного рабочего, получены следующие результаты:

773 792 815 827 843 854 861 869 877 886 889 892 885

901 903 905 911 918 919 923 929 937 941 955 981

=0,92; =50; h=40; x0=760.

9. В Сбербанке проведено выборочное обследование 25 вкладов, которое дало следующие резуль-

таты (тыс.руб.):

75 210 350 350 400 520 540 560 590 680 700 700 720

20

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]