Министерство образования и науки Российской Федерации
Всероссийский заочный финансово-экономический институт
Кафедра экономико - математических методов и моделей
Дисциплина: "Эконометрика"
Контрольная работа
Тема: «Кластерный анализ»
Руководитель:
Исполнитель: студентка группы №
№ зачетной книжки
вариант № 39
Факультет: учетно-статистический
Специальность: бухгалтерский учет и аудит
Москва-2008
Содержание:
1. Введение. Понятие метода кластерного анализа.
2. Описание методики применения кластерного анализа. Контрольный пример решения задач.
3. Решение задач для контрольной работы.
4. Список используемой литературы
Введение. Понятие метода кластерного анализа.
Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором признаков (параметров) Х1, Х2,…,Хк.
Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами (класс, таксон, сгущение).
Кластерный анализ - одно из направлений статистического исследования. Особо важное место от занимает в тех отраслях науки, которые связаны с изучением массовых явлений и процессов. Необходимость развития методов кластерного анализа и их использования продиктована тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности. Кроме того, методы кластерного анализа могут использоваться с целью сжатия информации, что является важным фактором в условиях постоянного увеличения и усложнения потоков статистических данных.
Методы кластерного анализа позволяют решать следующие задачи:
- проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов;
- проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;
- построение новых классификаций для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру (1. стр. 85-86).
Описание методики применения кластерного анализа. Контрольный пример решения задач.
Кластерный анализ позволяет из n объектов, характеризуемых k признаками, сформировать разбивку на однородные группы (кластеры). Однородность объектов определяется по расстоянию p(xi xj), где xi = (xi1, …., xik) и xj= (xj1,…,xjk) - векторы, составленные из значений k признаков i-го и j-го объектов соответственно.
Для объектов, характеризуемых числовыми признаками, расстояние определяется по следующей формуле:
k
p(xi , xj) = v ?(x1m-xjm)2 (1)*
m=1
Объекты считаются однородными, если p(xi xj) < p предельного.
Графическое изображение объединения может быть получено с помощью дерева объединения кластеров – дендрограммы. (2. Глава 39).
Контрольный пример (пример 92).
Пять производственных объектов характеризуются двумя признаками: объемом продаж и среднегодовой стоимостью основных производственных фондов.
Объект
1
2
3
4
5

Объем продаж
1
3
6
13
12

Среднегодовая стоимость основных производственных фондов
9
10
8
5
7

Проведем классификацию этих объектов с помощью принципа «ближнего соседа». Найдем расстояния между объектами по формуле (1)* . Заполним таблицу.
Объекты
1
2
3
4
5

1
0
2,24
5,10
12,65
11,18

2

0
3,61
11,18
9,49

3


0
7,62
6,08

4



0
2,24

5




0

Поясним, как заполняется таблица.
На пересечении строки i и столбца j указано расстояние p(xi xj) (результат округляем до двух цифр после запятой).
Например, на пересечении строки 1 и столбца 3 указано расстояние p(x1, x3) = v(1-6)2+(9-8)2 ? 5,10, а на пересечении строки 3 и столбца 5 указано расстояние p(x3, x5) = v (6-12)2+(8-7)2 ? 6,08. Так как p(xi, xj) = p(xj,xi), то нижнюю часть таблицы можно не заполнять.
Применим принцип «ближнего соседа». Находим в таблице наименьшее из расстояний (если таких несколько, то выберем любое из них). Это р 1,2 ? р 4,5=2,24. Пусть р min = р 4,5 = 2,24. Тогда мы можем объединить в одну группу объекты 4 и 5, то есть в объединенном столбце 4 и 5 будет наименьшее из соответствующих чисел столбцов 4 и 5 первоначальной таблицы расстояний. Аналогично поступаем и со строками 4 и 5. Получим новую таблицу.
Объекты
1
2
3
4 и 5

1
0
2,24
5,10
11,18

2

0
3,61
9,49

3


0
6,08

4 и 5



0

Находим в полученной таблице наименьшее из расстояний (если таких несколько, то выберем любое из них): р min = р 1,2 = 2,24. Тогда мы можем объединить в одну группу объекты 1,2,3, то есть в объединенном столбце 1,2,3 будет наименьшее из соответствующих чисел столбцов 1 и 2 и 3 предыдущей таблицы расстояний. Аналогично поступаем и со строками 1 и 2 и 3. Получим новую таблицу.
Объекты
1,2,3
4,5

1,2,3
0
6,08

4,5

0

Мы получили два кластера: (1,2,3) и (4,5).
На дендрограмме указаны порядок выбора элементов и соответствующие минимальные расстояния р min.
6,08
3,61
2,24 2,24
1 2 3 4 5
3. Решение задач для контрольной работы.
Задача 85.
Условия: Пять производственных объектов характеризуются двумя признаками: объемом продаж и среднегодовой стоимостью основных производственных фондов.
Объект
1
2
3
4
5

Объем продаж
2
5
7
12
13

Среднегодовая стоимость основных производственных фондов
7
9
10
8
5

Провести классификацию этих объектов с помощью принципа «ближайшего соседа».
Решение: Найдем расстояния между объектами по формуле (1)* (округление проведем до двух знаков после запятой):
р 1,1 = v (2-2)2 + (2-2)2 = 0
р 1,2 = v (2-5)2 + (7-9)2 ? 3,61
р 1,3 = v (2-7)2 + (7-10)2 ? 5,83
…….
р 2,2 = v (5-5)2 + (9-9)2 =0
р 2,3 = v (5-7)2 + (9-10)2 ? 2,24
…….
р 3,4 = v (7-12)2 + (10-8)2 ?5,39
р 3,5 = v (7-13)2 + (10-5)2 ? 7,81
…….
р 4,5 = v (12-13)2 + (8-5)2 ? 3,16
На основании результатов расчетов заполним таблицу:
Объекты
1
2
3
4
5

1
0
3,61
5,83
10,05
11,18

2

0
2,24
7,07
8,94

3


0
5,39
7,81

4



0
3,16

5




0


Применим принцип «ближайшего соседа». Для этого в таблице находим наименьшее из расстояний (если таких несколько, то выбираем любое из них). Это р 2,3=2,24. Пусть р min = р 2,3 = 2,24, тогда мы можем объединить объекты столбцов «2» и «3», а также объединить строки объектов «2» и «3». В новой таблице в объединенные группы вносим наименьшие значения из первоначальной таблицы.
Объекты
1
2 и 3
4
5

1
0
3,61
10,05
11,18

2 и 3

0
5,39
7,81

4


0
3,16

5



0


В новой таблице находим наименьшее из расстояний (если таких несколько, то выбираем любое из них). Это р 4,5=3,16. Пусть р min = р 4,5 = 3,16, тогда мы можем объединить объекты столбцов «4» и «5», а также объединить строки объектов «4» и «5». В новой таблице в объединенные группы вносим наименьшие значения из первоначальной таблицы.
Объекты
1
2 и 3
4 и 5

1
0
3,61
10,05

2 и 3

0
5,39

4 и 5


0


В новой таблице находим наименьшее из расстояний (если таких несколько, то выбираем любое из них). Это р 1, 2 и 3=3,61. Пусть р min = р 1, 2 и 3 = 3,61, тогда мы можем объединить объекты столбцов «1» и «2 и 3», а также объединить строки. В новой таблице в объединенные группы вносим наименьшие значения из первоначальной таблицы.
Объекты
1,2,3
4,5

1, 2, 3
0
5,39

4, 5

0


Мы получаем два кластера: (1,2,3) и (4,5).
На дендрограмме указаны порядок выбора элементов и соответствующие минимальные расстояния р min.
5,39
3,61
2,24 3,16
1 2 3 4 5
Ответ: В результате кластерного анализа по принципу «ближайшего соседа» образованы 2-а кластера схожих между собой объектов: (1,2,3) и (4,5).
Задача 211.
Условия: Пять производственных объектов характеризуются двумя признаками: объемом продаж и среднегодовой стоимостью основных фондов.
Объект
1
2
3
4
5

Объем продаж
a
b
c
d
e

Среднегодовая стоимость основных производственных фондов
f
g
h
k
m


Провести классификацию этих объектов с помощью принципа «ближайшего соседа».
a
b
c
d
e
f
g
h
k
m

211
9
3
4
3
3
1
1
8
3
4


Решение: Для решения задачи приведем данные в первоначальную таблицу. Определим расстояния между объектами. Проведем классификацию объектов по принципу «ближайшего соседа». Результаты представим в виде дендрограммы.
Объект
1
2
3
4
5

Объем продаж
9
3
4
3
3

Среднегодовая стоимость основных производственных фондов
1
1
8
3
4


По формуле (1)* найдем расстояния между объектами:
р 1,1=0, р 1,2=6, р 1,3=8,60, р 1,4=6,32, р 1,5=6,71, р 2,2=0, р 2,3=7,07, р 2,4=2, р 2,5=3,32, р 3,3=0, р 3,4=5,10, р 3,5=4,12, р 4,4=0, р 4,5=1, р 5,5=0.
Результаты представим в таблице:
Объект
1
2
3
4
5

1
0
6
8,6
6,32
6,71

2

0
7,07
2
3,32

3


0
5,10
4,12

4



0
1

5




0

Наименьшим значением из расстояний в таблице является р 4,5=1. Пусть р min = р 4,5 = 1, тогда мы можем объединить объекты столбцов «4» и «5», а также объединить строки объектов «4» и «5». В новой таблице в объединенные группы вносим наименьшие значения из первон