Анализ эмпирических данных. Публикации по электрике, материалам и мебели

Меню
Главная страница

Главная страница Анализ эмпирических данных

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 [ 41 ] 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105

(4.6)

В этом случае оценка uk с необходимостью будет положительна (отрицательна), так как все y( неотрицательны, а все Zki положительны (отрицательны) й, следовательно, могут быть применены обычные методы регрессионного анализа.

В качестве меры связи отклика y и единственного фактора Zk должен использоваться коэффициент корреляции fk. Значение г показывает, какую долю дисперсии y отклика объясняет единственный фактор (иногда оно называется коэффициентом детерминации). Выражение для г\ в случае однородной линейной функции регрессии, проходящей через начало координат, имеет вид [35]

4 = ,{ZzL-/Ey?P (4.7)

(суммирование по i ведется от 1 до К).

Другие выражения для fk следует применять с осторожностью; так, например, выражение

(4.8)

непригодно в случае однородной регрессионной зависимости [36].

НО определить, с помощью величины остаточной дисперсии:

6 = [Qmhh/(K-N)]s (4.4)

где Qmhii -минимальное значение Q, соответствующее найденным оптимальным оценкам Uj коэффициентов из уравнения (4.2), Л - число ненулевых коэффициентов.

Если рассматривать линейную зависимость Y,- от единственного параметра, например Zk, решение задачи выглядит особенно просто:

ukLiZu/tzl . (4.5)

E(Y,-d,A,)V(K-i)

132 Глава 4

-1--i- ------ -Ч

На начальном этапе исследования в модель включались все 16 показателей, даже несмотря на то, что некоторые из них являлись линейными комбинациями других. Так, общее число операторов есть сумма исполняемых и неисполняемых операторов (TS==EX4- -Ь NEX). Аналогично общее количество интерфейсов есть сумма числа системных и программных интерфейсов (TI = AP + SYS). Результатом такого предварительного рассмотрения явился выбор подмножества из 10 независимых параметров, предназначенных для последующего анализа.

Хотя RAT и WK-LD также являются независимыми параметрами, их пришлось исключить из рассмотрения, поскольку значения этих параметров были известны не для всех программ. Итак, вслед за анализом полного набора параметров, проведенного с учетом неотрицательности коэффициентов (фаза I), был проведен стандартный линейный регрессионный анализ лишь по независимым параметрам (фаза И). Ограничения при этом не учитывались, а поверхность отклика проводилась через начало координат. Для выявления регрессоров, обладающих наибольшей предсказывающей способностью, проводился дополнительный анализ, состоявший в построении линейных регрессионных моделей зависимости числа ошибок от каждого из факторов. Следующим этапом было построение графика остатков для 10 существенных факторов с целью обнаружения возможных трендов в модели. После этого был применен метод улучшения качества одномерных регрессий путем исключения грубых выбросов или таких моделей, для которых отклонение фактического числа ошибок от предсказанного по модели было значительным. Почти во всех случаях при этом оказалось возможным объяснить аномальное поведение соответствующих программ специфическими особенностями их разработки и/или тестирования. Дальнейший анализ программных модулей проводился с помощью их разбиения на классы, причем считалось, что каждый класс наилучшим образом описывается зависимостью от показателей, в наибольшей мере характеризующих свойства именно этого класса. Так, например,

.ЧИСЛО ошибок сопряжений рассматривалось как линейная функция общего- числа интерфейсов.

В последующих разделах представлены исходные данные, результаты регрессионного анализа и их обсуждение. Выдвигаются гипотезы, справедливость которых следует определять по дополнительным данным.

4.3. Результаты регрессионного анализа (фаза I)

4.3.1. Группировка данных по подсистемам

Оценки коэффициентов и стандартного отклонения б- по всем 16 факторам для данны.х, сгруппированных по подсистемам, приведены в табл. 4.2. Как указывалось выше, все 16 параметров используются для подсистем А, В, F и 14 параметров- для подсистем G и Н. Аналогичные данные для одномерных линейных регрессий представлены в табл. 4.3. Заметим, что коэффициенты корреляции определялись только для существенных параметров, т.е. для параметров с отличными от нуля коэффициентами.

Для всех подсистем, кроме Е, стандартное отклонение в случае многомерного (по всем параметрам), регрессионного анализа меньше, чем любая из стандартных ошибок одномерных регрессионных анализов. ; Другими словами, для всех подсистем, кроме Е, один -(любой) параметр не обеспечивает той точности, ко- Торая может быть получена при исполь.зовании некоторой совокупности параметров, характерной для данной подсистемы.

Было решено также проводить стандартный линейный регрессионный анализ (без учета ограничений), исключив из рассмотрения во всех группах функций те параметры, для которых коэффициенты значимости оказались равными нулю. Такое решение было обусловлено следующими причинами: во-первых, желанием проверить, можно ли с помощью линейного регрессионного анализа получить для существенных параметров коэффициенты регрессии, обеспечивающие точность, сравнимую с точностью.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 [ 41 ] 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105