ПЕРВИЧНАЯ ОБРАБОТКА КОЛИЧЕСТВЕННЫХ ДАННЫХ И НЕКОТОРЫЕ СТАТИСТИЧЕСКИЕ ПОКАЗАТЕЛИ ПРИ АНАЛИЗЕ РАСПРЕДЕЛЕНИЯ ПОЧВЕННЫХ БЕСПОЗВОНОЧНЫХ
Вариационно-статистическая обработка материала используется во всех разделах биологии, в которых исследователь имеет дело с варьирующими количественными данными. Ее главная задача— сведение большого числа измерений к нескольким показателям, каждый из которых отражает определенную сторону исходного материала (Юл, Кендэл, 1960; Василевич, 1969).
Методы вариационной статистики используются в целях упорядочивания и облегчения анализа исходных данных, оценки их достоверности и пригодности для тех или иных математических операций. Некоторые из статистических индексов могут служить показателями определенных популяционных и ценотических отношений. Часто обработка материала заканчивается определением средней арифметической, что соответствует лишь задачам предварительных ориентировочных оценок. Более глубокий анализ количественных закономерностей популяционных отношений, биоценотических связей, биотопического распределения неизбежно предполагает привлечение вариационно-статистического аппарата. Вместе с тем количественные популяционно-биоце- нологические материалы обладают некоторыми специфическими особенностями, требующими большой осторожности использования методов вариационной статистики.Один из первых шагов к упорядочиванию количественных данных — составление упорядоченных рядов. Так, в процессе учета диплопод в дубраве под Курском в пробах 25x25 см на каждую пробу получено следующее число особей Turanodesmus dmitriewi (в порядке взятия проб): 2, 1, 0, 5, З, 1, 3, 2, 4, 3, 0, 6, 2, 4, 1, 2, 3, 3, 4, 3, 2, 2, 3. Этот весьма громоздкий ряд цифр
184
можно перестроить по величине чисел- 0, 0, 1, 1, 1, 2, 2, 2, 2, 2. 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5, 6. Это упорядоченный ряд. В нем лег ко видеть минимальные и максимальные пределы числа особей данного вида\в пробах, частоту разных величин. Для еще большей наглядности его можно записать в следующем виде-
Число особей в пробе 0 1 2 3 4 5 6
Частота .........................................
2 3 6 7 З 1 1Эти данные отражены на графике (рис. 17), на котором на оси ординат — частота, т. е. число проб с данным числом особей, на оси абсцисс — значение признака, т. е. число особей в пробе. Это так называемая гистограмма распределения частот. Если вершины столбиков соединить линией, то получим вариационную кривую, смысл которой сводится к тому, что чаще всего встречаются значения признака (в данном случае число особей в пробе), наиболее близкие к средней арифметической (2, 6) нашего ряда; отклонения тем реже, чем дальше они отстоят от средней величины. Размах кривой отражает пределы варьирования признака (лимит или амплитуда). Пик кривой или гистограммы называется модой (наиболее часто встречающийся показатель). В данном случае мода равна 3. Эта величина наряду со средней может использоваться как мера уровня признака (обилия). Причем в ряде случаев, при очень сильных колебаниях крайних показателей, мода оказывается даже более удобной, чем средняя арифметическая. Иногда используется еще одна мера уровня признака — медиана. Это — показатель, располагающийся в середине упорядоченного ряда. В нашем ряду это также — 3. При четном числе членов ряда медиану находят как среднее арифметическое из двух срединных чисел. В почвенно-зоологических работах мода и медиана используются очень редко. Необходимо помнить, что все статистические показатели, получаемые в процессе обработки вариационных рядов (средняя арифметическая, мода, медиана, ошибка средней и т. д.) должны выражаться в тех же единицах, что и исходные учетные данные. Если мы учитывали животных в пробах 25X25 см, то все прочие показатели должны относиться только к данной площади. К дальнейшим экстраполяциям на другие площади и объемы среды эти показатели уже не имеют отношения. Если при большой повторности мы получим гистограмму, на которой отчетливы не одна, а две или более вершины с провалами между ними, то это может служить показателем того, что имеем дело с разными группами организмов с различными экологическими диапазонами, или в нишей совокупности смешаны выборки, соответствующие весьма различным условиям, определяющим разный тип распределения и разные уровни численности учитываемых объектов.
При учете почвенных беспозвоночных в пробах общепринятых размеров мы часто сталкиваемся с таким положением, ког-
185
Рис. 17. Гистограмма распределения частот Объяснение © тексте
да большинство проб содержит минимальное число особей, или вовсе пусты. Гистограмма и кривая распределения частот принимают вид, показанный на рис. 18. В этом случае мода приходится на минимальное обилие в пробе и далеко отстоит от медианы. Такую гистограмму могут давать многие распределения (,в частности, распределения Пуассона). Если распределение особей случайное, то увеличивая размер пробы, мы увеличиваем среднюю, а в случае большой средней случайное распределение аппроксимируется нормальным (Урбах, 1964). В любом другом случае увеличение размера проб не дает приближения к нормальному распределению.
В почвенно-зоологических исследованиях определенный размер проб применяется для учета одновременно большого числа видов и групп с разной численностью. Кроме того, размер проб часто диктуется техническими соображениями, например, при учетах в эклекторах Эти обстоятельства весьма ограничивают использование вариационно-статистических показателей, большинство из которых в строгом смысле применимы лишь при нормальном распределении величин. Эти трудности преодолеваются путем нормирующих преобразований, разработанных для каждого распределения.
Часто численность мелких почвенных животных, таких как коллемболы, клещи, а тем более щематоды, 'варьирует в очень больших пределах. Так, число особей отдельных видов коллембол в пробах 5x5 см может колебаться от 0 до нескольких сотен. В силу этого иногда невозможно сгруппировать непосредственно цифры вариационного ряда, так как почти каждая проба имеет свое число особей. В таких случаях весь ряд полученных цифр разбивают на классы. Например, если животное встречено в пробах от 1 до 30, то полученные цифры можно разбить на классы: 1—5, 6—10, 11 —15, 16—20, 21—25, 26—30.
Подсчитав число проб с каждым из классов, можно построить гистограмму точно таким же образом, как на рис. 18 и 19. На оси ординат мы откладываем классы обилия, на оси абсцисс — Частоты. Классовый интервал (в данном случае—5 особей) может быть самым различным, что зависит от уровня численности, размера проб и от целей обработки Чаще всего выделяют 5—7 классов. Обычно классовые интервалы бывают равные186
по всему ряду, что увеличивает возможность дальнейших математических операций с полученными данными. Однако иногда можно использовать шкалу с разными интервалами. Так, ногохвостка Folsomia diplophthalma в тундре встречена в пробах (всего 100 проб) в количестве от 0 до 160 особей. Однако подавляющее число проб содержало от 1 до 40 особей, всего
6 проб — свыше 40. Вероятно, в этом случае интервал от 40 до 160 целесообразно объединить в один класс. Группировка учетных данных по классам обилия широко используется для различных целей в почвенной зоологии. Это сильно облегчает анализ количественных материалов.
После нахождения величин, характеризующих уровень признака (средняя арифметическая, иногда средняя геометрическая, мода, медиана), амплитуду, тип распределения, как ира вило, встает задача расчета показателей, отражающих меру варьирования исследуемых величин. Наиболее распространенный из них — среднее квадратичное отклонение (о):
где х, — величины данного признака в отдельных измерениях (например, число особей в отдельных пробах), М — средняя арифметическая, п — число измерений (проб), т. е повторность. Выражение х, — М называют отклонением (различие между отдельными измерениями и средней). При больших повторностях, например более 30 проб, величину п—1 можно заменить на п, но при очень малых выборках, наоборот, рекомендуется делить на и — 2 (Урбах, 1964; Василевич, 1969).
Таким образом, среднее квадратическое отклонение—это корень из суммы квадратов отклонений, деленной на число повторностей. Оно показы-187
вает, насколько в среднем каждое отдельное измерение удалено от средней арифметической, о измеряется в тех же величинах, что и средняя арифметическая, т. е. это величина именованная. Средняя арифметическая в совокупности со средним квадратическим отклонением в общем характеризует характер распределения признака. Однако надо помнить, что а может строго применяться только в случаях более или менее нормального распределения. При больших выборках (ц^ЗО) о может применяться строго независимо от характера реального распределения (Урбах, 1964). В этом случае в границах Л1±о находится примерно 68% всей совокупности величин признака (генеральная совокупность), в границах Л4±2ц — 95%, а в границах Л4±3а — 99,7% (Василевич, 1969).
Как уже отмечалось, а измеряется в тех же единицах, что и средняя. Но иногда встает задача сравнить характер варьирования признаков в двух или нескольких различных вариационных рядах, например, полученных в результате учета разных групп животных разными методами. При этом средняя арифметическая может выражаться в разных единицах (экз./дм2, экз./дм2, экз./см3 и т. д.). Для сравнения таких рядов используют коэффициент вариации, который обозначают CV или V:
Коэффициент вариации —это процент сигмы от средней арифметической. Обычно наиболее многочисленные доминирующие виды имеют меньший коэффициент вариации. При снижении численности усиливается, случайность попадания вида в пробы, в связи с чем у видов, учитываемых в пробах единичными экземплярами, коэффициент вариации очень велик. Но надо помнить, что это не всегда отражает действительный характер распределения вида по площади. Чаще различия в величине V связаны именно с неравноценностью данного размера проб для разных видов, отличающихся активностью, подвижностью, величиной и т.
д. При увеличении размера проб соотношения коэффициентов вариации могут коренным образом измениться.При вариационно-статистической обработке количественных данных широко используются ошибки средней арифметической, среднего квадратического отклонения и коэффициента вариации. Они показывают границы, в которых находится истинное значение данных величин (в генеральной совокупности). Ошибка средней арифметической (т или Sj):
В границах от Л4 — 2т до М+2т генеральная средняя находится с вероятностью 95%. Это означает, что в 95 случаях из 100 истинное значение средней арифметической отстоит от выборочной средней не более, чем на две ошибки средней, но в пя-
188
ти случаях из 100 оно будет находиться вне этого интервала. Если же исследователь считает, что возможность ошибиться в 5% случаев слишком велика, можно расширить доверительный интервал для средней от М — Зт до ЛГ+З/п. В этом случае вероятность того, что генеральная совокупность лежит в указанных границах, равна 99,7% (Василевич, 1969).
Можно найти границы для генеральной средней с любой интересующей нас вероятностью. Для этой цели используется так называемое нормированное отклонение:
которое представляет разницу между каким-либо значением признака и средней арифметической, выраженную в долях ошибки средней. Тогда доверительный интервал можно записать в общем виде как Л4±//п. Вероятности, соответствующие определенным значениям t, находят из таблиц і, которые имеются в сводках по статистике и биометрии (Зайцев, 1973). Например, при л=50 10% вероятности соответствует /=1,68. Следовательно, генеральная средняя с вероятностью 10% лежит в интервале от 24 до 29%.
Ошибка средней арифметической в той или иной мере может характеризовать точность полученных данных. Для этого обычно используют процент ошибки от средней. Эта величина иногда называется относительной ошибкой. В почвенно-зоологических исследованиях при самых больших применяемых в практике повторностях проб для самых массовых видов ошибка средней редко составляет менее 10% от средней (табл. 4, 5). Чаще всего для видов со средним уровнем численности она лежит в преде-
Таблица 4
Основные вариационно-статистические показатели распределения коллембол в однородном моховом покрове полигональной тундры при повторности в 30 проб 5х 5 см (Западный Таймыр)