4.11.5. Программные средства статистического анализа данных
Во многих естественнонаучных областях статистические методы были и остаются важной составной частью процедуры обработки результатов измерений. Это касается практически всех отраслей знания: физики, химии, биологии, геологии, метеорологии и многих других. Современные программы для статистической обработки данных позволяют применять сложные современные методы анализа даже в тех областях, где ранее такие исследования были чрезвычайно трудоемкими и, следовательно, проводились достаточно редко. Некоторые примеры применения системы STATISTICA для обработки экспериментальных данных можно найти в научных работах, опубликованных в Интернете.
История статистических методов анализа. Первоначально статистические закономерности возникли из наблюдений за азартными играми, например, было замечено, что при бросании правильной кости различные грани выпадают примерно с одинаковой частотой; при бросании пары костей 24 раза пара шестерок появляется в менее половине игр, но при 25 бросках частота этого события уже более половины и т.д.
Типовые примеры раннего этапа применения статистических методов описаны в Ветхом Завете. Там, в частности, приводится число воинов в различных племенах. С математической точки зрения дело сводилось к подсчету числа попаданий значений наблюдаемых признаков в определенные градации.
В дальнейшем результаты обработки статистических данных стали представлять в виде таблиц и диаграмм, как это и сейчас делает Госкомстат РФ. Надо признать, что по сравнению с Ветхим Заветом есть прогресс - в Библии не было таблиц и диаграмм. Однако нет продвижения по сравнению с работами российских статистиков конца девятнадцатого - начала двадцатого века.
Сразу после возникновения теории вероятностей (Паскаль, Ферма, 17 век) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 0.5, анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже и т.д. Имеется достаточно много публикаций по истории теории вероятностей с описанием раннего этапа развития статистических методов исследований.
В 1794 г. (по другим данным - в 1795 г.) К.Гаусс разработал метод наименьших квадратов, один из наиболее популярных ныне статистических методов и применил его при расчете орбиты астероида Церера - для борьбы с ошибками астрономических наблюдений.
В Х1Х веке заметный вклад в развитие практической статистики внес бельгиец Кетле, на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей.
Интересно, что основные идеи статистического приемочного контроля и сертификации продукции обсуждались академиком Петербургской АН М.В. Остроградским (1801-1862) и применялись в российской армии ещё в середине Х1Х в. Сейчас весьма актуальны статистические методы управления качеством и сертификации продукции.
Современный этап развития статистических методов можно отсчитывать с 1900 г., когда англичанин К. Пирсон основал журнал «Biometrika». Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное (гауссово) распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.
Разработанную в первой трети ХХ в. теорию анализа данных называют параметрической статистикой, поскольку ее основной объект изучения - это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений должно входить в то или иное параметрическое семейство. Исключения хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением, и т.д. Однако подобных моделей нет в подавляющем большинстве реальных ситуаций, и приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств - чисто формальная операция.
Именно из таких соображений критиковал параметрическую статистику академик АН СССР С.Н.Бернштейн в 1927 г. в своем докладе на Всероссийском съезде математиков. Однако эта теория, к сожалению, до сих пор остается основой преподавания статистических методов и продолжает использоваться основной массой прикладников, далеких от новых веяний в статистике.
Современные системы статистического анализа на персональных компьютерах. Персональные компьютеры открывают статистические методы широкому кругу пользователей, на 90% процентов состоящему из непрофессиональных статистиков. Эти методы стали доступны не теоретически, а в высокоинтегрированных средах, где весь этап анализа от ввода данных, импорта их из других баз данных до построения автоотчетов и сохранения их в формате HTML полностью автоматизирован.
Существует около тысячи распространяемых на мировом рынке пакетов, решающих в том или ином виде задачи статистического анализа данных, в среде DOS, OS/2 или Windows (различных версий).
Из западных универсальных пакетов наиболее известны и хорошо отработаны компьютерные системы SAS, SPSS, SYSTAT, Minitab, Statgraphics (или, по другому, STSC). Несколько в стороне от них можно поставить популярный в у нас в стране пакет Statistica.
Из инструментария, активно используемого в мире в области анализа данных, в основном программистами (разработчиками и исследователями), наиболее известны библиотека численных и статистических методов IMSL (у нее есть конкурент по численным методам — NAG), а также интерактивная среда со встроенным ООП-языком программирования.
«Полу-специализированными» (по классификации) и «полу-универсаль-ными можно считать российские пакеты STADIA, ОЛИМП и белорусский пакет РОСТАН. К этому же классу, скорее всего, следует отнести и американские пакеты ODA, WinSTAT, Statit, UNISTAT, Multivariance 7, JMP, SOLO, STATlab.
Кроме того, встречаются и явно специализированные пакеты по классификации и снижению размерности, как отечественные: КЛАСС-МАСТЕР, КВАЗАР, PALMODA, Stat-Media, STARC – так и зарубежные, например, MVSP.
Довольно широко известными являются пакеты, которые решают смежные с классификацией задачи. Ими являются американские системы BMDP/W, SigmaStat, Statistix, TURBO Spring-Stat-Win, а также отечественный пакет «Статистик-Консультант для Windows».
Кроме того, на рынке имеются статистические экспертные системы, например, СТАТЭКС, Statistical Navigator Pro. Среди нестатистических пакетов, решающих задачи классификации, можно отметить пакеты PolyAnalyst, ДА-система, АРГОНАВТ, ЛОРЕГ, пакет ОТЭКС и разнообразные нейросетевые пакеты.
Универсальные (интегральные) статистические пакеты общего назначения. Все универсальные статистические пакеты, упоминаемые ниже, импортируют или экспортируют данные формата ASCII, dBASE, Lotus 1-2-3. Кроме того, они способны компоновать данные для анализа из различных файлов, осуществлять выборку подмножеств данных, их ранжирование или сортировку по тем или иным условиям. Наконец, всегда имеется возможность отредактировать данные в среде пакета и добавить описательный текст к анализируемым наборам данных (файлам).
Сводная табл.4.12 с общей информацией об основных пакетах приводится ниже. Почти все эти пакеты доступны российскому покупателю.
Таблица 4.12
Общие сведения об универсальных пакетах и сведения
о минимальных аппаратных и требованиям к ним
Стат.
система
|
Вер-сия
|
Ок-руж.
|
МП/
Част.
|
VHP
|
RAM
|
Фирма-продавец
|
User
|
Цена
|
SAS
|
6.11 6.07
|
W D
|
386/33
|
65* 44
|
8*** 4
|
SAS Institute, Inc.
|
H
|
850
|
Statgraphics+ Statgraphics+ Statgraphics
|
1.0
7.0
|
W D D
|
386/33
286/12
|
14.5 8.5 6.1
|
4 4 1
|
Manugistics, Inc.
|
M-L M M
|
1048 995 995
|
MINITAB
|
10.0 7.0
|
W D
|
386/16 286/12
|
12 4
|
4 1
|
MINITAB Inc.
|
M-L
|
895
|
SYSTAT
|
6.0 6.0
|
W D
|
386/33
|
8
|
4
|
SPSS, Inc.
|
H
|
995 995
|
SPSS/PC
|
7.0
|
W
|
486/50
|
65**
|
8
|
SPSS, Inc.
|
H
|
980
|
BMDP Dynamic
|
|
D
|
|
|
|
SPSS, Inc.
|
H
|
695
|
STATISTICA
|
5.1
|
W D
|
386/33
|
13
|
4
|
StatSoft, Inc.
|
H-M
|
995 795
|
IMSL-C (Num) Object Suite
|
2.0 1.0
|
W W
|
|
|
|
Visual Numerics
|
H H
|
700 700
|
S-Plus
|
|
W D
|
|
|
|
StatSci
|
H H
|
1450 1195
|
Примечания и обозначения:
1. Окруж. – сокращение от «Окружение»: W – Windows, D – MS-DOS;
2. Размеры в Мб: VHD – место, занимаемое на винчестере; RAM – оперативная память;
3. МП – основной микропроцессор; Част. – его тактовая частота в [МГц];
4. User – квалификация типичного пользователя: H (high) – статистик-профессионал M (middle) – «есть базовые статистические знания»; L (low) – «отсутствие базового уровня»; H-M – промежуточный;
Ниже приводится пример использования в США методологии NSTL оценки качества СПП применительно к шести первым (из приведенных в табл.4.12) статистическим пакетам общего назначения и, отдельно, применительно к тем их модулям, которые решают задачи статистического анализа временных рядов (по состоянию на 2005 год). Приведенные в табл.4.13 результаты, с одной стороны, дают общее представление о принятом на Западе рейтинге этих пакетов и модулей, а с другой стороны, демонстрируют работоспособность самой методологии.
Таблица 4.13
Результаты тестирования лучших зарубежных статистических
программных продуктов общего назначения (данные 2005 г.)
Название пакета
|
Разнообразие
|
Скорость работы
|
Качество выходных форм
|
Легкость использования
|
Легкость обучения
|
Общие оценки мощности
|
Общие оценки удобства
использования
|
Интегральная оценка
|
SYSTAT
|
7,8
|
7,3
|
6,1
|
8,1
|
7,1
|
7,5
|
7,9
|
7,7
|
SAS
|
7,9
|
6,2
|
5,9
|
7,3
|
6,5
|
7,3
|
7,0
|
7,2
|
STATGRAPHICS
|
6,3
|
3,3
|
8,0
|
8,6
|
8,6
|
5,8
|
8,7
|
7,2
|
SPSS/PC+
|
6,7
|
6,4
|
5,0
|
6,8
|
6,9
|
6,4
|
6,8
|
6,6
|
PC-90 (BMDP)
|
7,0
|
2,4
|
5,0
|
5,5
|
4,5
|
5,8
|
5,1
|
5,5
|
MINITAB
|
4,7
|
9,1
|
4,8
|
5,6
|
4,6
|
5,7
|
5,2
|
5,5
|
Как мы видим из табл.4.13, SYSTAT является бесспорным лидером как по общим оценкам «мощности» и «удобства использования», так и, соответственно, по интегральной оценке качества. Лидеры по отдельным базовым свойствам:
1) по разнообразию средств: SAS (7, 9) и SYSTAT (7, 8);
2) по легкости использования: STATGRAPHICS (8, 6), SYSTAT (8, 1);
3) по скорости вычислений: MINITAB (9, 1) и SYSTAT (7, 3)
SAS. Система SAS существует и развивается с 1976 г. и работает на самых различных платформах под управлением одной из 12-ти операционных систем (ОС). Фирма-разработчик SAS в 1995 г. занимала 13-е место в мире (и 14-е в 1994 г.) среди ведущих разработчиков разнообразных программных продуктов, имея 3200 сотрудников, поддерживающих более 3 миллионов пользователей в 120 странах.
По сути, SAS сегодня является мощным комплексом из свыше 20-ти различных программных продуктов, объединенных друг с другом «средствами доставки информации» (Information Delivery System или IDS, так что весь пакет иногда обозначается как SAS/IDS). Одной из последних версий для Windows является версия 8.11.
Если позиционировать SAS как товар на рынке статистического программного обеспечения, где одни сконцентрировались на графике, а другие на удобстве управления, то SAS прежде всего статистическая программа.
То есть основным «козырем» SAS является его непревзойденная мощность по набору статистических алгоритмов. Эту оценку мощности следует воспринимать лишь на фоне других универсальных СПП. Это не значит, например, что по богатству и качеству методов статистического анализа временных рядов соответствующий раздел SAS превосходит ряд других специализированных пакетов, например, широко известный отечественный пакет MESOSAUR.
Кроме того, SAS предоставляет пользователю возможность подключения его оригинальных алгоритмов.
Традиционно сложилось, что в СССР, а затем и в СНГ основными пользователями системы являются предприятия ВПК, крупные бизнесмены (некоторые крупные банки, включая Центробанк, биржи, торговые фирмы), некоторые атомные станции, крупнейшие медицинские и геофизические центры, крупные государственные структуры.
Под понятием IDS разработчик SASа понимает, что ее пользователю достаточно поставить на свой компьютер кроме ОС систему SAS и этим ограничиться для 100%-й информатизации деятельности любой фирмы (все остальные функции типа задач, решаемых на основе Excel, Word, любой из СУБД и др. полностью возьмет на себя SAS/IDS).
SAS/IDS — это интеграция весьма разнообразных возможностей доступа к данным и управления ими, средств анализа данных, способов представления информации и генерации отчетов. Система имеет модульную структуру и легко может быть сконфигурирована под специфические особенности ее пользователя.
Модули SAS, связанные с классификацией. В плане классификации и снижения размерности, и непосредственно связанных с ними задач, из системы SAS/IDS можно использовать следующие компоненты (модули системы).
Универсальные программные продукты. Это BASE SAS — ядро системы с встроенным языком программирования 4GL и языком работы с базами данных SQL, средства управления данными, поддержки индексов для баз данных, возможностями доступа к широкому набору форматов данных, процедуры описательной статистики и генерации отчетов.
Модуль FSP обеспечивает полноэкранный доступ к данным, ввод, редактирование, преобразование данных, генерацию отчетов и деловую переписку.
Модуль GRAPH содержит деловую, научную, рекламную графику, различные шрифты и карты. Дружественные к пользователю средства рисования и редактирования поддерживают создание сложных графических элементов, таких как сложные графики, трехмерные поверхности, разнообразные столбиковые или круговые диаграммы с любой степенью параметризации. Например, можно различными способами выделять группы данных или выполнять вращение системы координат (при этом будут синхронно изменяются изображения во всех открытых окнах).
Модуль STAT включает в себя многофункциональный набор статистических процедур анализа данных.
Дополнительные продукты, работающие под любой ОС. Модуль IML представляет собой интерактивный матричный язык программирования для выполнения углубленных математических, инженерных и статистических расчетов. Этот язык дает возможность математику легко программировать свои собственные процедуры, используя язык, близкий к языку линейной алгебры.
Модуль LAB обеспечивает пользователю экспертную поддержку. В частности, здесь система подсказывает пользователю, выполняются или нет предположения, лежащие в основе того или иного метода анализа данных.
Продукты, работающие под Windows, OS/2. Модуль ASSIST является средством для облегчения интерактивного доступа пользователей к различным возможностям системы SAS/IDS.
Модуль EIS является меню-управляемым инструментом разработки и поддержки мощных интерактивных исполняемых информационных систем методом объектно-ориентированной технологии. С помощью этого модуля легко настроить систему на свои данные и формы представления результатов.
Модуль ACCESS дает возможность строить отдельные интерфейсы для связи SAS/IDS с самыми разнообразными CУБД (ADABAS, DB2, ORACLE, SQL/DS и др.).
Модуль INSIGHT представляет собой в высокой степени интерактивный инструмент для графического анализа данных.
Ясно, что из вышеописанных модулей — «кирпичей» можно строить любые, «сколь угодно высокие дома», однако процесс освоения технологии строительства, самого строительства, а также получения лицензии на «право застройки» потребует немалых интеллектуальных и материальных затрат.
Достоинства и недостатки пакета. Основными достоинствами SAS являются мощное интеллектуальное ядро, поддержка всех пяти архитектур клиент-сервер, возможность доступа и интеграции данных из любых источников и наличие объектно-ориентированной технологии быстрой разработки приложений.
При этом, благодаря исключительной гибкости и переносимости системы, приложение, созданное в одной из ОС может быть перенесено на любую из платформ, поддерживаемых SAS/IDS, начиная от суперЭВМ типа CRAY до Mainframe или рабочей станции (правда при этом, оно будет требовать для работы системную часть SASa).
В практическом плане SAS сообщает пользователю, какие переменные определены, какого они типа, какие переменные являются активными, какой тип модели Вы бы хотели использовать для анализа, и специальные требования на используемый метод вычислений. Формирование отчетов нетрудно, если пользователь владеет соответствующими командами пакета.
Главные недостатки системы — громоздкость, большие трудности в освоении, высокие требования к статистической квалификации пользователя, жесткие требования к аппаратной части ПЭВМ, большой ее размер на диске. Особенностью пакета является и его дороговизна (см. примечания к табл.1), которая, правда, имеет тенденцию к снижению: в первый год выше $800 за каждый модуль и потом за него каждый год чуть более $300.
В подсистеме объяснения (Log system) просто сообщается, что при вводе команды Вы пропустили символ «;» и не приводится никакой контекстной, более эффективной помощи.
Второй, более существенный недостаток касается документации. Чрезвычайно высок уровень изложения статистической теории в руководствах SAS. Некоторые объяснения здесь требуют достаточной изощренности и опытности со стороны пользователя в области статистики. Правда в самых последних изданиях документации, фирма SAS начала браться за эту проблему и появилось много независимых от SASa публикаций на эти темы.
SPSS для Windows. Пакет SPSS стал известен в научном и деловом мире, будучи реализован на больших машинах. Основными пользователями его «пакетного варианта» традиционно были ученые, работающие в академических институтах и университетах, а также в разнообразных приложениях математической статистики, например, в области контроля качества.
Как и SAS, пакет предназначен в первую очередь для статистиков-профессионалов, так как имеет достаточно мощный аппарат статистического анализа, вполне соизмеримый по мощности с SAS.
Благодаря покупке фирмой SPSS компаний BMDP и SYSTAT, а также переориентации разработчиков в последние годы на платформу Windows, программа SPSS версий 8.0 и 8.5 для Windows XP, стала в настоящее время одним из лидеров среди универсальных статистических пакетов. В частности, версия 80 является призером редакции журнала PC Magazine.
Однако, как и все мощные универсальные пакеты, SPSS, «любит хорошее железо» (см. табл.1): процессор должен быть 486DX-2 и выше, для его использования рекомендуется 64 Мб оперативной памяти, а на винчестере модули Base и Professional Statistics для управления данными и с алгоритмами классификации потребуют, как минимум, 165–180 Мб (вместе с файлами «подкачки» — swap files).
SYSTAT. Эта система универсального характера разработана одноименной фирмой, которая с сентября 1994 г. «поглощена» корпорацией SPSS. Пакет SYSTAT отличается от ряда других универсальных систем типа SAS, SPSS, BMDP тем, что он изначально был спроектирован под платформу IBM PC. Главное достоинство пакета, как впрочем и пакетов SAS и SPSS, исключительно широкий диапазон и глубина проработки функционального наполнения. Здесь есть широкие возможности и для слабо подготовленного в статистике пользователя и для достаточно искушенного статистика.
Фирма SYSTAT была совсем недавно одним из лидеров — производителей высококачественного статистического программного обеспечения, часто привлекающей к разработке известных специалистов- статистиков.
В результате более 150 учебных заведений во всем мире готовят у себя специалистов на основе наукоемких продуктов этой фирмы. Число ее зарегистрированных пользователей еще два года назад перевалило за 200 тыс. Пакет SYSTAT имеется в двух версиях — под MS-DOS и MS-Windows платформы.
Ряд лет пакет был одним из лучших среди универсальных пакетов углубленного статистического анализа. Например, он был рекордсменом 1990-го года на конкурсе редакции журнала PC Week. Журнал Software Digest (Rating Report), издаваемый лабораторией NSTL, назвал SYSTAT в мае 1991 г. самым лучшим статистическим пакетом универсального характера (general-purpose). Редакция PC Magazine отмечала высокое качество статистических алгоритмов пакета, его явное доминирование в области планирования экспериментов. Также она, как и журнал InfoWorld, отмечала его великолепную графику, по которой еще недавно пакет являлся одним из лучших в своем классе. Однако, с современных позиций просматривается уже определенное отставание в графике в режиме «высокого разрешения».
MINITAB. Сейчас распроcтраняется версия 10.0 для среды Windows этой системы и уже появилась его улучшенная 32-х разрядная версия 11.0. Кроме рассматриваемых платформ, пакет также работает на Macintosh, в среде MS-DOS, на рабочих станциях и других компьютерах.
Пакет развивается более 20 лет и широко известен в США, где он является одним из основных учебных пакетов. Во многом правда, это объясняется тем, что пакет в свое время захватил этот сегмент рынка, а вовсе не его исключительными свойствами.
Он хорошо продуман по разделу описательной (дескриптивной) статистики, хорошо сконструирован и управляется с помощью очень удобного меню, или, по желанию пользователя, через команды, составлять которые помогают диалоговые окна пакета. Часто используемые команды можно запускать и по их первой букве. Общее число команд превышает 200. Можно составлять и специальные макросы для выполнения последовательностей команд.
Импорт/экспорт данных из других Windows-приложений делается через стандартный буфер обмена (то есть последовательным выбором команд в меню двух пакетов типа Cut/Copy — Paste to/From). В пакете имеются разнообразные возможности по управлению данными.
Документация пакета превосходна и включает в себя три тома: 28-страничное руководство для быстрого освоения, 240-страничное руководство пользователя и справочное руководство. Последнее содержит множество примеров и превосходные указатели.
Таким образом, пакет ориентирован на неспециалистов в области математической статистики, в частности, на студентов университетов. Пользователь Minitab может легко и быстро решать практически все типовые задачи, в основном из области одномерного анализа и анализа временных рядов. Фирмой Minitab, Inc. хорошо налажены поддержка пользователей и обмен опытом через Группу Пользователей Minitab. Кроме того, фирма весьма дешево продает мини-руководство по пакету для тех студентов, которые, возможно, его не имеют, но хотят больше о нем узнать в рамках своих учебных курсов.
В плане многомерного анализа 8-я версия пакета явно не являлась лидером, но тем не менее, она позволяет находить главные компоненты или же проводить стандартный линейный или даже квадратичный дискриминантный анализ. Однако, многомерный анализ был усилен в более поздних версиях.
Так, в версии 10.0 были добавлены алгоритмы факторного и кластерного анализа. Кроме того, эта версия позволяет получать множество хороших и сложных полноцветных графиков. Именно за графику критиковалась ранее 8-я версия пакета для «Макинтошей», особенно в режиме высокого разрешения. В плане характеристики мощность Minitab-10.0 достаточно силен и разнообразен, поэтому первые четыре буквы пакета скорее надо поменять на Maxi.
Недостатком пакета является отсутствие формул для статистик в справочном руководстве, что затрудняет анализ значимости влияния различных факторов на принимаемые решения. Но, с другой стороны, этот справочник изобилует ссылками на стандартные статистические учебники.
Statgraphics. Пакет предназначен в основном для тех пользователей, которые уже имеют определенный опыт в статистике. Особенно это касается модуля с многомерными методами. Для корректного их использования, пользователь должен иметь базовые знания по статистике и знать допущения и ограничения тех или иных статистических критериев и многомерных методов.
Однако в самой последней версии пакета Statgraphics+ для Windows и эти требования к пользователю постепенно начинают ослабляться. Разработчики пакета считают его одним из самых легких в обучении. Например, журнал PC Magazine (11 May, 2001) отозвался о нем весьма лестно.
Statgraphics хорошо известен российскому пользователю (иногда он обозначается STSC). Пакет был изначально разработан для платформы IBM PC и нацелен, в первую очередь, на графические возможности компьютерной статистики. Однако, постоянное его совершенствование в плане функциональных алгоритмов и способов управления данными существенно усилило его базовую характеристику мощность, что сильно повысило его конкурентоспособность.
Так, по данным за 1990 г., пакет занял по общему рейтингу второе-третье место, поделив их вместе с мощным пакетом SAS. Но уже к осени 1995 г., по признанию Sortware Digest (издание фирмы), пакет STSC был признан одной из наиболее эффективных интегрированных систем статистического анализа данных на ПЭВМ.
Его важнейшим «плюсом» считается удачное соединение математического аппарата обработки данных с современной интерактивной графикой. Другие, менее существенные его достоинства — это широкие возможности взаимодействия с электронными таблицами и СУБД (типа dBASE и ее «потомков»), а также с разнообразной периферией. Обмен с таблицами в Windows-версии выполняется через стандартный буфер обмена (Windows clipboard).
В плане классификации и смежных с нею задач, пакет содержит такие разделы, как Дескриптивная статистика, Разведочный анализ, Многомерный анализ. Кроме того, STSC имеет еще 8 крупных разделов по методам математической статистики.
STATISTICA. По мнению авторов, пакет не стоит использовать пользователю-новичку в статистике, т.к. предполагает владение статистической терминологией.
На рынке, кроме последней версии для MS Windows, также доступна его DOS-версия Statistica/DOS. Имеются и их упрощенные модификации, содержащие в начале слово Quick: Quick-Statistica/W и аналогично для DOS. Выделяются графические возможности этого СПП.
Мощность пакета Statistica. Ряд авторов считает, что пакет Statistica for Windows (ниже Statistica) является хорошо сбалансированным по соотношению «мощность/удобство». Наличие достаточно широкого спектра функциональных алгоритмов делает его достаточно привлекательным для статистиков- профессионалов. Однако, относительно распространена точка зрения, в соответствии с которой удобство работы с этим пакетом оценивается весьма невысоко. В частности, Statistica по своей структуре как бы состоит из нескольких связанных между собой «мини-пакетов». Эти «мини-пакеты» взаимодействуют друг с другом, имея одинаковый формат системных файлов. Так, если пользователю нужен раздел линейной регрессии, то он должны покинуть окружение главного модуля СПП и выйти в окружение модуля («мини-пакета») линейной регрессии.
В плане функционального наполнения пакет, например, по сравнению с программой STSC+/W, отличается большим разнообразием, включая в себя и те разделы анализа, которые STSC содержит лишь в дополнительных модулях (поставляемых за дополнительную цену). Например, он включает в себя ряд непараметрических методов анализа, методы многомерного анализа: дискриминантного, факторного, кластерного логлинейного и др.
StatView и Super ANOVA. С 1985 г. пакет StatView является бестселлером для Макинтошей в области анализа данных. Потому, что он легок в освоении и в использовании. Гибкий и интуитивно ясный графический интерфейс с пользователем, традиционный для «Маков», позволяет провести анализ данных подходящим способом.
Разработчик (фирма «Abacus Conceptr») представляет свой СПП как интегрированную систему для анализа данных и презентаций, ориентированную на исследователей и аналитиков. StatView версия 4.1 является хорошим, и возможно даже превосходным средством для решения этих задач, особенно для данных малого—среднего размера (меньше 1000 наблюдений).
Super ANOVA является самостоятельным СПП, предназначенным для линейного моделирования на Макинтошах. Но, поскольку, оба СПП могут легко обмениваться данными, то мы рассматриваем их вместе.
В StatView имеются два основных типа документов для данных и для их анализа. Первый тип имеет вид электронных таблиц. Документы для анализа могут комбинировать таблицы, текст, графику, с тем, чтобы можно было создать отчеты на основе документов первого типа.
Пакет StatView рекомендуют для проведения на Макинтошах разведочного и статистического анализа данных, а также для подготовки графических материалов для научных выступлений.
StatView использует интерфейс типа электронных таблиц для ввода данных и манипуляций над ними. Имеющиеся преобразования данных на основе заданных формул, основываются на более чем 150-ти встроенных арифметических, алгебраических, тригонометрических, статистических и других функциях. Преобразования могут быть статистическими или динамическими. В последнем случае изменение входных данных автоматически отслеживается в преобразованных данных. Поддерживается обработка данных с пропущенными значениями. Имеются возможности извлечения подвыборок, сортировки или разбиения данных на подмножества.
В функциональном плане StatView предлагает дескриптивную статистику, частотные распределения, вычисления процентных точек, t-критерии, доверительное оценивание, анализ корреляций и ковариаций, регрессию (простую, множественную, полиномиальную, пошаговую), дисперсионный анализ, анализ таблиц сопряженности, непараметрические методы и разведочный факторный анализ.
Возможность доступа к любому виду анализа обеспечивается графическим пользовательским интерфейсом. Всего имеется четыре вида базовых компонент для окон: стандартные «маковские» падающие вниз меню, иерархическая палетта анализа, палетта переменных и окно анализа результатов.
Super ANOVA, другой продукт этого же разработчика, имеет аналогичный пользовательский интерфейс. С точки зрения обычного пользователя предпочтительнее было бы проинтегрировать оба продукта в один.
По своим графическим возможностям StatView является выдающимся пакетом для графического представления данных.
Очень полезна 465-страничная документация StatView. Примерно половина ее посвящена деталям ввода данных, их импорта/экспорта, управления данными и проведения анализа данных. Вторая часть посвящена детальному обсуждению методов статистического анализа, поддерживаемых в пакете. В большинстве случаев, обсуждение включает обзор методов, рекомендаций, когда полезен тот или иной метод, предположений, как организовать и преобразовать данные, чтобы достичь наилучшего использования того или иного метода, обсуждение результатов. Также приводятся примеры работы с выборочными данными.
Документация по Super ANOVA располагает объемом в 322 страницы текста. Имеет то же качество, что и у пакета StatView.
В настоящее время Sci TECH Int. распространяет новую версию StatView. Она включает в себя средства для анализа данных типа времени жизни и для контроля качества, возможности обмена с файлами типа *.xls программы MS-Excel, многочисленные улучшения в плане легкости использования (более широкий набор шаблонов, доступных из меню). Также добавлены функции форматирования колонок в таблице данных и средства строкового программирования.
Инструментарий для разработчиков и исследователей, включающий мощную статистическую компоненту. К этому классу ПП можно отнести пакеты библиотечного типа IMSL и SSP, интерактивную среду S-plus, а также широко известные пакеты Mathcad (фирма Math Soft) и Mathematica Enhanced (фирма Wolfram Research), содержащие разнообразные математические и статистические средства и имеющие модульную структуру (анализ временных рядов, модули финансового анализа, разведочного анализа, решения дифференциальных уравнений, цифровой обработки сигналов и др.).
Например, последний пакет имеет язык программирования высокого уровня, который позволяет математику записать то или иное уравнение в привычном ему виде и быстро решить его, намного опережая по скорости разработки программирование задачи на ФОРТРАНЕ или С. Встроенные в Mathematica «электронные ноутбуки» позволяют легко организовать пользовательский текст, результаты вычислений и графику в выразительные технические отчеты и презентационные материалы. Так же легко получить 2-D и 3-D графики и выполнить другие способы визуализации данных.
IMSL. Пакет IMSL по сути является библиотекой процедур и ориентирован прежде всего на исследователей и на разработчиков прикладных программных продуктов.
IMSL можно использовать в виде библиотеки исходных текстов на Фортране-77 или на C. Библиотеки пакета IMSL можно использовать отдельно или же с подключением графической библиотеки Exponent Graphics или другой объектно-ориентированной библиотеки на языке C++, называемой Object Suite.
Последняя библиотека составлена из математического и графического модуля. Первый, кроме математических функций, поддерживает также разработку объектно-ориентированного интерфейса с пользователем. В табл. 1 указана цена только на математический модуль из Object Suite.
Пакет Exponent Graphics стоит на 20 % дороже, чем библиотека IMSL-C (Num.), например, связка IMSL-C Numerical Labs плюс IMSL Exponent Graphics, разработанная для среды разработчика MS-Visual C++, для платформы Windows NT поставляется разработчикам software за $1195.
IMSL состоит из двух больших разделов: Math/Library и Stat/Library, — кроме которых к ней также можно подключать графику. Последняя представлена либо мощной библиотекой графических функций Exponent Graphics или же графическим модулем из библиотеки Object Suite.
IMSL-библиотеки вычислительных и статистических модулей на C разработаны на основе аналогичных модулей широко известной библиотеки IMSL на Фортране, имеющей в мире за 25 лет ее существования более 250 тысяч пользователей, использующей ее на самых разных платформах.
IMSL содержит исчерпывающе полный набор математических и статистических функций, и, в частности, по набору первых даже конкурирует со специализированной вычислительной библиотекой NAG. IMSL реализует идею построения своего software из «больших готовых кирпичей», используя на практике международное разделение труда. Это сокращает время пользовательской разработки на 95%.
Документация на библиотеку имеется в бумажном варианте и в электронном виде. В последнем случае она может быть вызвана в любой момент времени в виде гипертекста с сотнями примеров использования исходного кода. Более того, аналогично тому как это делается в Turbo — инструментальных системах, можно копировать в буфер и «выдавливать» из него (Paste) куски исходного кода из примеров непосредственно в разрабатываемый пользовательский модуль.
S-Plus. S+ представляет собой интерактивную среду, которая включает в себя полноценный графический анализ данных и S – язык программирования, который является расширяемым и удобным для использования. Среда S+ ориентирована аналогично библиотеке IMSL.
S– язык разработан в AT&T Bell Labs и является единственным объектно-ориентированным языком, специально предназначенным для анализа данных. Именно поэтому получаемые результаты имеют неограниченную свободу при проведении исследований, анализа и моделирования данных в науке и технике.
S+ может быть очень полезной для статистика-аналитика, умеющего составлять свои программы на основе объектно-ориентированной технологии. S+ имеет в своем составе более 1650 функций, включая регрессию и дисперсионный анализ, многомерные методы, временные ряды, анализ сигналов и др. Имеются и современные робастные (устойчивые) методы. В плане классификации имеются современные непараметрические методы: древообразные модели классификации, модели целенаправленного проецирования данных на плоскость, обобщенные аддитивные модели. Пакет имеет мощные средства визуализации, а также добавочные модули, ориентированные под анализ сигналов или временных рядов, планирование эксперимента, анализ пространственной статистики.
|