|
Interprocess Communication
Проблемы именования связаны с тем, что
родственных связей нет и по наследству передать ничего нельзя. Если проблема
именования решена, то возникает проблема синхронизации доступа - как
организовать обмен с ресурсами, чтобы этот обмен был корректным. Если у нас
есть, например, ресурс "оперативная память", то когда один процесс еще не
дописал информацию, а другой процесс уже прочитал весь блок, то возникает
некорректная ситуация.
Проблема именования решается за счет ассоциирования с каждым ресурсом некоторого
ключа. В общем случае это целочисленное значение. То есть при создании
разделяемого ресурса его автор приписывает ему номер и определяет права доступа
к этому ресурсу. После этого любой процесс, который укажет системе, что он хочет
общаться с разделяемым ресурсом с ключом N, и обладает необходимыми правами
доступа, будет допущен для работы с этим ресурсом. Однако такое решение не
является идеальным, так как вполне возможна коллизия номеров - когда совпадают
номера разделяемых ресурсов. В этом случае процессы будут путаться, что
неизбежно приведет к ошибкам. Поэтому в системе предусмотрено стандартное
средство генерации уникальных ключей. Для генерации уникального ключа
используется функция ftok Суть ее действия - по
текстовой строке и символу генерируется уникальное для каждой такой пары
значение ключа. После этого сгенерированным ключом можно пользоваться как для
создания ресурса, так и для подтверждения использования ресурса. Более того, для
исключения коллизий, рекомендуется указывать в качестве параметра "указателя на
строку" путь к некоторому своему файлу. Второй аргумент - символьный, который
позволяет создавать некоторые варианты ключа, связанного с этим именем, этот
аргумент называется проектом (project). При таком подходе можно добиться
отсутствия коллизий. Общая схема работы с
разделяемыми ресурсами такова - есть некоторый процесс-автор, создающий ресурс с
какими-либо параметрами. При создании ресурса разделяемой памяти задаются три
параметра - ключ, права доступа и размер области памяти. После создания ресурса
к нему могут быть подключены процессы, желающие работать с этой памятью.
Соответственно, имеется действие подключения к ресурсу с помощью ключа, который
генерируется по тем же правилам, что и ключ для создания ресурса. Понятно, что
здесь имеется момент некоторой рассинхронизации, который связан с тем, что
потребитель разделяемого ресурса (процесс, который будет работать с ресурсом, но
не является его автором) может быть запущен и начать подключаться до запуска
автора ресурса. В этой ситуации особого криминала нету, так как имеются функции
управления доступом к разделяемому ресурсу, с использованием которых можно
установить некоторые опции, определяющие правила работы функций,
взаимодействующих с разделяемыми ресурсами. В частности, существует опция,
заставляющая процесс дождаться появления ресурса. Это также, может быть, не
очень хорошо, например, автор может так и не появиться, но другого выхода нету,
это есть некоторые накладные расходы. Вот в общих словах - что есть что. Первая функция - создание общей памяти. size - размер раздела памяти, который должен быть создан Данная функция возвращает идентификатор ресурса, который
ассоциируется с созданным по данному запросу разделяемым ресурсом. То есть в
рамках процесса по аналогии с файловыми дескрипторами каждому разделяемому
ресурсу определяется его идентификатор. Надо разделять ключ - это общесистемный
атрибут, и идентификатор, используя который мы работаем с конкретным разделяемым
ресурсом в рамках процесса. С помощью этой функции можно как создать новый
разделяемый ресурс "память" (в этом случае во флагах должен быть указан
IPC_CREAT)?, а также можно подключиться к существующему разделяемому ресурсу.
Кроме того, в возможных флагах может быть указан флаг IPC_EXECL, он позволяет
проверить и подключиться к существующему ресурсу - если ресурс существует, то
функция подключает к нему процесс и возвращает код идентификатора, если же
ресурс не существует, то функция возвращает -1 и соответствующий код в
errno. shmid - идентификатор
разделяемого ресурса При этом, если значение shmaddr - адрес, то память будет
подключена, начиная с этого адреса, если его значение - нуль, то система сама
подберет адрес начала. Также в качестве значений этого аргумента могут быть
некоторые предопределенные константы, которые позволяют организовать, в
частности выравнивание адреса по странице или началу сегмента памяти. Эта функция возвращает указатель на адрес, начиная с которого
будет начинаться запрашиваемая разделяемая память. Если происходит ошибка, то
возвращается -1. Хотелось бы немного поговорить о правах доступа. Они реально
могут использоваться и корректно работать не всегда. Так как, если аппаратно не
поддерживается закрытие области данных на чтение или на запись, то в этом случае
могут возникнуть проблемы с реализацией такого рода флагов. Во-первых, они не
будут работать, так как мы получаем указатель и начинаем работать с указателем,
как с указателем, и общая схема здесь не предусматривает защиты. Второе, можно
программно сделать так, чтобы работали флаги, но тогда мы не сможем указывать
произвольный адрес, в этом случае система будет подставлять и возвращать в
качестве адрес разделенной памяти некоторые свои адреса, обращение к которым
будет создавать заведомо ошибочную ситуацию, возникнет прерывание процесса, во
время которого система посмотрит - кто и почему был инициатором некорректного
обращения к памяти, и если тот процесс имеет нужные права доступа - система
подставит нужные адреса, иначе доступ для процесса будет заблокирован. Это
похоже на установку контрольной точки в программе при отладке, когда создавалась
заведомо ошибочная ситуация для того, чтобы можно было прервать процесс и
оценить его состояние. shmaddr - адрес прикрепленной к
процессу памяти, который был получен при подключении памяти в начале
работы. int
shmctl(int shmid, int cmd, struct shmid_ds *buf); В частности, могут быть
команды: IPC_SET (сменить права доступа и владельца ресурса - для этого надо
иметь идентификатор автора данного ресурса или суперпользователя), IPC_STAT
(запросить состояние ресурса - в этом случае заполняется информация в структуру,
указатель на которую передается третьим параметром, IPC_RMID (уничтожение
ресурса - после того, как автор создал процесс - с ним работают процессы,
которые подключаются и отключаются, но не уничтожают ресурс, а с помощью данной
команды мы уничтожаем ресурс в системе).
Следующим средством взаимодействия процессов в системе IPC - это передача
сообщений. Ее суть в следующем: в системе имеется так называемая очередь
сообщений, в которой каждое сообщение представляет из себя структуру данных, с
которой ассоциирован буфер, содержащий тело сообщения и признак, который
называется типом сообщения. Очередь сообщений может быть рассмотрена двояко:
очередь рассматривается, как одна единственная сквозная очередь, порядок
сообщений в которой определяется хронологией их попадания в эту очередь.
кроме того, так как каждое сообщение имеет тип (на схеме - буква рядом с
номером сообщения), то эту очередь можно рассматривать, как суперпозицию
очередей, связанную с сообщениями одного типа. Система IPC позволяет
создавать разделяемый ресурс, называемый "очередь сообщений" - таких очередей
может быть произвольное количество. По аналогии с разделяемой памятью - мы можем
создать очередь, подключиться к ней, послать сообщение, принять сообщение,
уничтожить очередь и т.д. Рассмотрим функции работы с очередями
сообщений: id - идентификатор очереди сообщения; size - размер сообщения, здесь указывается размер сообщения,
размещенного по указателю buf; flags - флаги, в частности, флагом может быть
константа IPC_NOWAIT. При наличии такого флага будут следующие действия -
возможна ситуация, когда буфера, предусмотренные системой под очередь сообщений,
переполнены. В этом случае возможны два варианта - процесс будет ожидать
освобождения пространства, если не указано IPC_NOWAIT, либо функция вернет -1 (с
соответствующим кодом в errno), если было указано IPC_NOWAIT. id - идентификатор очереди; size - размер буфера, в котором будет размещено тело
сообщения; type - если тип равен нулю, то будет принято первое сообщение из
сквозной очереди, если тип больше нуля, то в этом случае будет принято первое
сообщение из очереди сообщений, связанной с типом, равным значению этого
параметра. flags - флаги, в частности, IPC_NOWAIT, он обеспечит работу запроса
без ожидания прихода сообщения, если такого сообщения в момент обращения функции
к ресурсу не было, иначе процесс будет ждать. id -
идентификатор очереди; buf - этот параметр будет оставлен без
комментария. Мы описали два средства взаимодействия между процессами. Что
же мы увидели? Понятно, что названия и описания интерфейсов мало понятны. Прежде
всего следует заметить то, что как только мы переходим к вопросу взаимодействия
процессов, у нас возникает проблема синхронизации. И здесь мы уже видим
проблемы, связанные с тем, что после того, как мы поработали с разделяемой
памятью или очередью сообщений, в системе может оставаться "хлам", например,
процессы, которые ожидают сообщений, которые в свою очередь не были посланы.
Так, если мы обратились к функции получения сообщений с типом, которое вообще не
пришло, и если не стоит ключ IPC_NOWAIT, то процесс будет ждать его появления,
пока не исчезнет ресурс. Или мы можем забыть уничтожить ресурс (и система никого
не поправит) - этот ресурс останется в виде загрязняющего элемента системы.
Когда человек начинает работать с подобными средствами, то он берет на себя
ответственность за все последствия, которые могут возникнуть. Это первый набор
проблем - системная синхронизация и аккуратность. Вторая проблема -
синхронизация данных, когда приемник и передатчик работают синхронно. Заметим,
что самый плохой по синхронизации ресурс из рассмотренных нами - разделяемая
память. Это означает, что корректная работа с разделяемой памятью не может
осуществляться без использования средств синхронизации, и, в частности,
некоторым элементом синхронизации может быть очередь сообщений. Например, мы
можем записать в память данные и послать сообщение приемнику, что информация
поступила в ресурс, после чего приемник, получив сообщение, начинает считывать
данные. Также в качестве синхронизирующего средства могут применяться
сигналы. И это главное - не язык интерфейсов, а проблемы, которые могут
возникнуть при взаимодействии параллельных процессов. К сегодняшнему дню мы
разобрали два механизма взаимодействия процессов в системе IPC - это механизм
общей (или разделяемой) памяти и механизм сообщений. Мы с вами выяснили, что
одной из основных проблем, возникающей при взаимодействии процессов, является
проблема синхронизации. Ярким примером механизма, для которого эта проблема
является наиболее острой, является механизм взаимодействия процессов с
использованием разделяемой памяти. Вы помните, что механизм разделяемой памяти
позволяет создавать объект, который становится доступным всем процессам,
подтвердившим ключ доступа к этому объекту, а также имеют соответствующие права.
После этого общая память становится, с точки зрения каждого из этих процессов,
как бы фрагментом адресного пространства каждого из них, к которому этот процесс
может добираться через указатель этого адресного пространства. С другой стороны
нет никаких средств, которые позволили бы синхронизовать чтение и запись в эту
область данных. Так как в эту область данных одновременно имеет доступ
произвольное количество процессов, то проблема синхронизации здесь имеет место
быть. Возможна ситуация, когда один из процессов начал запись в разделяемую
память, но еще не закончил, но другой процесс не дождался завершения записи,
считал и начал пользоваться этой информацией. В этом случае возможны коллизии.
Т.е. без синхронизации использовать механизм разделяемой памяти
невозможно. Следующий механизм, который мы с вами рассмотрели - очередь
сообщений. Имеется возможность совместной работы с разделяемым объектом, который
называется очередь сообщений. Имеется сообщение, которое состоит из некоторого
спецификатора типа, и некоторого набора данных. Процесс, подтвердив ключ и имея
права доступа к этому разделяемому ресурсу, может осуществлять действия по
записи сообщений в очередь, и по чтению сообщений из очереди. Порядок чтения и
записи сообщений из очереди соответствует названию этой структуры - очередь.
Кроме того, за счет того, что каждое сообщение типизировано, есть возможность
рассмотрения этой очереди с нескольких точек зрения. Первая точка зрения - это
одна очередь и порядок в ней хронологический. Вторая точка зрения - это
возможность представление этой очереди в виде нескольких очередей, каждая из
которых содержит элементы определенного типа. Понятно, что механизм сообщений
может выступать в двух ролях: как средство передача данных, и как средство
синхронизации (понятно каким образом). Итак, к сегодняшнему дню мы
познакомились с двумя этими механизмами. Напомню, как только мы переходим к
работе от однопроцессной задачи к задаче многопроцессной, у нас сразу же
возникают проблемы, связанные с тем, что любой параллелизм накладывает
определенную ответственность на программу. Это ответственность по синхронизации
доступа к разделяемой памяти, ответственность за правильность подпрограммы,
занимающейся приемом и передачей сообщений и т.д. Можно, например, ошибиться в
механизме передачи и приема сообщений за счет того, что какой-то процесс будет
бесконечно долго ожидать несуществующее сообщение, то, которое никогда в очереди
не появится, и система вам никогда такую ошибку не зафиксирует. Т.е. возможны
зависания процессов, могут образоваться неосвобожденные ресурсы ("мусор"), и это
приводит к деградации системы. Сейчас мы напишем следующую программу: первый
процесс будет читать некоторую текстовую строку из стандартного ввода и в
случае, если строка начинается с буквы 'a', то эта строка в качестве сообщения
будет передана процессу А, если 'b' - процессу В, если 'q' - то процессам А и В
и затем будет осуществлен выход. Процессы А и В распечатывают полученные строки
на стандартный вывод. #include
<sys/message.h> } Message; key=ftok("/usr/mash",'s');
/*получаем уникальный ключ, однозначно определяющий доступ к ресурсу IPC_CREAT); /*создаем очередь
сообщений , 0666 определяет права доступа */
strcpy(Message.Data, str); /* и копируем ее в буфер сообщения */ case 'A': Message.mtype=1; /* устанавливаем тип
и посылаем сообщение в очередь*/ case 'B':
Message.mtype=2; case 'Q': Message.mtype=1; msgsnd(msgid, (struct msgbuf*) (&Message),
strlen(str)+1, 0); msgctl(msgid, IPC_RMID, NULL); /* уничтожаем очередь*/ процесс В
аналогичен с точностью до четвертого параметра в msgrcv #include <stdio.h>
key=ftok("/usr/mash",'s'); /* получаем ключ по тем же параметрам */
for(;;) { /* запускаем вечный цикл */ if
(Message.Data[0]='q' Message.Data[0]='Q')
break; С точки
зрения тех проблем, с которыми мы знакомимся, семафоры - это есть вполне
законное и существующее понятие. Впервые ввел это понятие достаточно известный
ученый Дейкстра. Семафор - это некоторый объект, который имеет целочисленное
значение S, и с которым связаны две операции: V(S) и P(S). 0
процесс продолжает работу. Если S<0, то процесс будет приостановлен и встанет
в очередь ожидания, связанную с семафором S, до тех пор, пока его не освободит
другой процесс. £ 0, то
разблокируется один из процессов, ожидающий в очереди процессов, связанной с
семафором S, и текущий процесс продолжит выполнение. Считается, что операции
P(S) и V(S) неделимы. Это означает, что выполнение этих операций не может
прерваться до их завершения. Т.е. если семафор реализован в системе, то это
должна быть одна команда. Частным случаем продекларированного семафора
является двоичный семафор, максимальное значение которого равно единичке. При
этом значение S может быть равно 1, это означает, что ни один из процессов
(связанных с этим семафором) не находится в критическом участке. При S=0 один из
процессов находится в критическом участке {вот-вот попадет в очередь}, а другой
нормально функционирует. При S= -1 один из процессов находится в критическом
участке, а другой заблокирован и находится в очереди. На самом деле двоичные
семафоры наиболее часто находили применение в аппаратных реализациях, например,
в многомашинных комплексах с общей оперативной памятью. Одним из
разделяемых ресурсов, который поддерживает система IPC является т.н. массив
семафоров. Система позволяет процессам, участвующим во взаимодействии с данным
разделяемым ресурсом, увеличивать или уменьшать один или несколько семафоров из
данного массива на произвольное значение (в пределах разрядной сетки). Система
обеспечивает ожидание процессами обнуления одного или нескольких
семафоров. struct sembuf{ short sem_op; /* код операции, которую надо выполнить */ Первый параметр функции semget - ключ, второй - количество
семафоров (длина массива семафоров) и третий параметр - флаги. Через флаги можно
определить права доступа и те операции, которые должны выполняться (открытие
семафора, проверка, и т.д.). Функция semget возвращает целочисленный
идентификатор созданного разделяемого ресурса, либо -1, если ресурс не удалось
создать (причина - в errno). Первый параметр функции semop - идентификатор
семафора, второй - указатель на структуру sembuf и третий параметр - количество
указателей на эту структуру, которые передаются функцией semop. В структуре
содержится вся информация о необходимом действии. Поле операции
интерпретируется следующим образом. Пусть значение семафора с номером sem_num
равно sem_val. В этом случае, если значение операции не равно нулю, то
оценивается значение суммы (sem_val + sem_op). Если эта сумма больше либо равна
нулю, то значение данного семафора устанавливается равным сумме предыдущего
значения и кода операции. Если эта сумма меньше нуля, то действие процесса будет
приостановлено до наступления одного из следующих событий: Пришел какой-то сигнал.
(Значение semop в этом случае будет равно -1). Если код
операции semop равен нулю, то процесс будет ожидать обнуления семафора. Если мы
обратились к функции semop с нулевым кодом операции, а к этому моменту значение
семафора стало равным нулю, то никакого ожидания не происходит. Рассмотрим
третий параметр - флаги. Если третий параметр равен нулю, то это означает, что
флаги не используются. Флагов имеется большое количество в т.ч. IPC_NOWAIT (при
этом флаге во всех тех случаях, когда мы говорили, что процесс будет ожидать, он
не будет ожидать). Обращаю ваше внимание, что за одно обращение к функции
semop можно передать n структур и соответственно выполнить действия с n
семафорами из этого массива. Если в этой последовательности будут присутствовать
две разных операции с одни семафором, то скорее всего, выполнится
последняя. Первый параметр - идентификатор,
второй - номер семафора в массиве, с которым мы будем выполнять команду cmd из
третьего параметра. Последний параметр - некоторое объединение типа sembuf.
Команды могут быть традиционные (IPC_RMID), и кроме них есть другие команды, и
среди них IPC_SET, которая устанавливает значение семафора, при этом значение
передается через объединение arg. При установке семафора этой функцией,
задержек, которые определяют основной смысл работы семафора, не будет. Мы
остановились на средствах синхронизации доступа к разделяемым ресурсам - на
семафорах. Мы говорили о том, что семафоры - это тот формализм, который
изначально был предложен ученым в области компьютерных наук Дейкстрой, поэтому
часто в литературе их называют семафорами Дейкстры. Семафор - это есть некоторая
переменная и над ней определены операции P и V. Одна позволяет увеличивать
значение семафора, другая - уменьшать. Причем с этими изменениями связаны
возможности блокировки процесса и разблокировки процесса. Обратим внимание, что
речь идет о неразделяемых операциях, то есть тех операциях, которые не могут
быть прерваны, если начались. То есть не может быть так, чтобы во время
выполнения P или V пришло прерывание, и система передала управление другому
процессу. Это принципиально. Поэтому семафоры можно реализовывать программно, но
при этом мы должны понимать, что эта реализация не совсем корректна, так
как в развитых вычислительных системах, которые
поддерживают многопроцессорную обработку или обработку разделяемых ресурсов в
рамках одного процесса, предусмотрены семафорные команды, которые фактически
реализовывают операции P и V. Это важно. Мы говорили о реализации
семафоров в Unix в системе IPC и о том, что эта система позволяет создать
разделяемый ресурс "массив семафоров", соответственно, как и к любому
разделяемому ресурсу, к этому массиву может быть обеспечен доступ со стороны
различных процессов, обладающих нужными правами и ключом к данному ресурсу. semop, которая позволяет реализовывать операции P и V над одним или
несколькими семафорами; - получение информации о состоянии семафора; - изменение значения семафора (под изменением значения здесь
понимается установление начальных значений, чтобы использовать в дальнейшем
семафоры, как семафоры, а не ящички для передачи значений, другие изменения -
только с помощью semop); Наша
программа будет оперировать с разделяемой памятью. 1 процесс - создает
ресурсы "разделяемая память" и "семафоры", далее он начинает принимать строки со
стандартного ввода и записывает их в разделяемую память. Таким образом мы имеем критический участок в
момент, когда один процесс еще не дописал строку, а другой ее уже читает.
Поэтому следует установить некоторые синхронизации и задержки. Следует
отметить, что, как и все программы, которые мы приводим, эта программа не
совершенна. Но не потому, что мы не можем ее написать (в крайнем случае можно
попросить своих аспирантов или студентов), а потому, что совершенная программа
будет занимать слишком много места, и мы сознательно делаем некоторые упрощения.
Об этих упрощениях мы постараемся упоминать. #include <sys/sem.h> key = ftok("/usr/mash/exmpl",'S'); /* создаем уникальный ключ */ shmid = shmget(key,256, 0666 IPC_CREAT); /*создаем
разделяемую память на 256 элементов */ shmaddr = shmat(shmid, NULL, 0); /*
подключаемся к разделу памяти, в shaddr - указатель на буфер с разделяемой
памятью*/ sops.sem_num = 0; sops.sem_flg = 0; if ((str =
gets(str)) == NULL) break; strcpy(shmaddr, str); /* копируем строку в
разд. память */ shmaddr[0]='Q'; /* укажем 2ому процессу на то, */
sops.sem_op = 0; /* ждем, пока обнулится семафор */ semctl(semid, 0,
IPC_RMID, (union semun) 0); /* убиваем семафор */ /* здесь нам надо корректно определить существование ресурса,
если он есть - подключиться, если нет - сделать что-то еще, но как раз этого мы
делать не будем */ #include
<sys/sem.h> /* далее аналогично предыдущему
процессу - инициализации ресурсов */ shmaddr = shmat(shmid, NULL,
0); printf("Ждем открытия семафора \n"); /* будем ожидать, пока "значение семафора"+"значение sem_op"
не перевалит за 0, то есть если придет "3", то "3-2=1" */ { /*критическая секция - работа с
разделяемой памятью - в этот момент первый процесс к разделяемой памяти доступа
не имеет*/} /* вернувшись в начало цикла мы опять будем
ждать, пока значение семафора не станет больше нуля */ Это программа,
состоящая из двух процессов, синхронно работающих с разделяемой памятью.
Понятно, что при наличии интереса можно работать и с сообщениями. Наша самоцель - не изучение тех средств, которые
предоставляет Unix, а изучение принципов, которые предоставляет система для
решения тех или иных задач, так как другие ОС предоставляют аналогичные или
похожие средства управления процессами. Система программирования - это комплекс программных
средств, обеспечивающих поддержку технологий проектирования, кодирования,
тестирования и отладки, называется системой программирования Было сказано, что на сегодняшний день достаточно сложно, а
практически невозможно создавать программное обеспечение без этапа
проектирования, такого же долгого, нудного и детального периода, который
проходит во время проектирования любого технического объекта. Следует понять,
что те программы, которые пишутся студентами в качестве практических и дипломных
задач не являются по сути дела программами - это игрушки, так как их сложность
невелика, объемы незначительны и такого рода программы можно писать слегка.
Реальные же программы так не создаются, так же, как и не создаются сложные
технические объекты. Никто никогда не может себе представить, чтобы какая-нибудь
авиационная компания продекларировала создание нового самолета и дала команду
своим заводам слепить лайнер с такими-то параметрами. Так не бывает. Каждый из
элементов такого объекта, как самолет, проходит сложный этап проектирования.
Например, фирма Боинг подняла в воздух самолет "Боинг-777", замечательность
этого факта заключается в том, что самолет взлетел без предварительной продувки
в аэродинамической трубе. Это означает, что весь самолет был спроектирован и
промоделирован на программных моделях, и это проектирование и моделирование было
настолько четким и правильным, что позволило сразу же поднять самолет в воздух.
Для справки - продувка самолета в аэродинамической трубе стоит сумасшедшие
деньги. Примерно та же ситуация происходит при создании сложных современных
программных систем. В начале 80х гг была начата СОИ (стратегическая оборонная
инициатива), ее идея была в том, чтобы создать сложной технической системы,
которая бы в автоматическом режиме установила контроль за пусковыми установками
СССР и стран Варшавского блока, и в случае фиксации старта с наших позиций
какого-то непродекларированного объекта автоматически начиналась война. То есть
запускались бы средства уничтожения данного объекта и средства для ответных
действий. Реально тот департамент вооруженных сил, который занимался этим
проектом, испытал ряд кризисов в связи с тем, что ведущие специалисты в области
программного обеспечения отказывались участвовать в реализации этого проекта из-
за невозможности корректно его спроектировать, потому что система обладала
гигантским потоком входных данных, на основе которых должны были быть приняты
однозначные решения, ответственность за которые оценить весьма сложно. На самом
деле эта проблема подтолкнула к развитию с одной стороны - языков
программирования, которые обладали надежностью, в частности, язык Ада, одной из
целью которого было создание безошибочного ПО. В таких языках накладывались
ограничения на места, где наиболее вероятно возникновение ошибки (межмодульные
интерфейсы; выражения, где присутствуют разные типы данных и т.п.) Заметим, что
язык C не удовлетворяет требованиям безопасности. С другой стороны - к
детальному проектированию, которое бы позволяло некоторым формальным образом
описывать создаваемый проект и работать с проектом в части его детализации.
Причем, переход от детализации к кодированию не имел бы четкой границы. Понятно,
что это есть некоторая задача не сегодняшнего, а завтрашнего дня, но реально
разработчики программ находятся на пути создания таких средств, которые
позволили бы совместить проектирование и кодирование. Сегодняшние системы
программирования, которые строятся на объектно-ориентированном подходе, частично
решают эту проблему. Следующая проблема проектирования. Мы продекларировали
модули, объявили их взаимосвязи, как-то описали семантику модулей (это тоже
проблема). Но никто не даст гарантии, что этот проект правилен. Для решения этой
проблемы используется моделирование программных систем. То есть, когда вместе с
построением проекта, который декларирует все интерфейсы, функциональность и
прочее, мы можем каким-то образом промоделировать работу всей или частей
создаваемой системы. Реально при создании больших программных систем на
сегодняшний день нет единых инструментариев для таких действий. Каждые из
существующих систем имеют разные подходы. Иногда эти подходы (как и у нас, так и
за рубежом) достаточно архаичны. Если составлен
нормальный проект, то с кодированием проблем нет. Но следует обратить внимание
на то, что специалист в программировании это не тот, кто быстро пишет на С, а
тот, кто хорошо и подробно сможет спроектировать задачу. При современном
развитии инструментальных средств закодировать сможет любой школьник, а
спроектировать систему - это и есть профессиональная задача людей, занимающихся
программированием - выбрать инструментальные средства, составить проект,
промоделировать решение. Основной компонент системы кодирования - язык
программирования. В голове каждого программиста лежит иерархия языков
программирования - от машинного кода и ассемблера до универсальных языков
программирования (FORTRAN, Algol, Pascal, C и т.д.), специализированных языков
(SQL, HTML, Java и т.д.) Мы имеем ЯП и программу, которая написана в нотации
этого языка. Система программирования обеспечивает перевод исходной программы в
объектный язык. Этот процесс перевода называется трансляцией. Объектный язык
может быть как некоторым языком программирования высокого уровня (трансляция),
так и машинный язык (компиляция). Мы можем говорить о трансляторах-компиляторах
и трансляторах-интерпретаторах. Интерпретатор - это транслятор, который
обычно совмещает процесс перевода и выполнения программы (компилятор сначала
переводит программу, а только затем ее можно выполнить). Он, грубо говоря,
выполняет каждую строчку, при этом машинный код не генерируется, а происходит
обращение к некоторой стандартной библиотеке программ интерпретатора. Если
результат работы компилятора - код программы на машинном языке, то результат
работы транслятора - последовательность обращений к функциям интерпретации. При
этом, также как и при компиляции, когда создается оттранслированная программа, у
нас тоже может быть создана программа, но в этом интепретируемом коде
(последовательности обращений к функциям интерпретации). Понятна разница -
компиляторы более эффективны, так как в интерпретаторах невозможна оптимизация и
постоянные вызовы функций также не эффективны. Но интерпретаторы более удобны за
счет того, что при интерпретации возможно включать в функции интерпретации
множество сервисных средств: отладки, возможность интеграции интерпретатора и
языкового редактора (компиляция это делать не позволяет). На прошлой лекции мы начали рассматривать системы программирования.
На самом деле эта тема может быть основанием целого курса, потому что эта тема
включает в себя все то, что может быть в современной науке о компьютерах - это и
хорошие практические решения, и разработанные, реально применяемые,
теоретические решения, и многое другое. Мы говорили, что система
программирования - это комплекс программ, обеспечивающий жизненный цикл
программы в системе. Жизненный цикл создаваемого программного обеспечения
содержит следующие этапы: Мы с вами говорили о важности этапа проектирования, о том что
программный продукт представляет из себя сложнейший объект, имеющий огромное
число связей между своими компонентами. Пропустить этап проектирования нельзя.
Для проектирования программных систем, необходимы специализированные средства,
которые позволили бы (в идеале) описывать проект некоторым формальным образом, и
последовательно уточняя его, приводить формальное описание проекта в реальный
код программы. Мы говорили, что важным этапом проектирования, является этап
моделирования системы, т.е. тот этап, когда мы берем внешние нагрузки, которые
могут поступать на систему, приписываем свойству потока событий, связанных с
этими внешними нагрузками, определенный статистический закон, и рассматриваем
предположительное поведение системы при такой эмуляции внешней среды. Понятно,
что без этапа моделирования тоже трудно создать какой-либо программный
продукт. Мы также говорили, что важной
частью системы программирования являются средства кодирования. Этап кодирования
в жизненном цикле программы традиционно (и обычно не правильно) однозначно
связывается с понятием системы программирования. Очень многие, когда начинают
говорить о системе программирования, подразумевают под этим транслятор языка
программирования. Хотелось бы этими лекциями вам показать, что система
программирования - это нечто существенно более широкое, чем транслятор. Все
компоненты одинаково необходимы. Транслятор - это программа, которая переводит
программу в нотации одного языка, в нотацию другого языка. Компилятор - это
транслятор, который переводит программу из нотации одного языка в нотацию
машинного языка. Машинным языком может быть либо код конкретной машины, либо
объектный код. Трансляторы могут быть интерпретаторами, т.е. совмещать анализ
исходной программы с ее выполнением. Результатом работы интерпретатора является
не машинный код, а последовательность обращений к библиотеке функций
интерпретатора. Интерпретатор, в отличие от транслятора, может выбирать одну за
одной инструкции и сразу их выполнять. При интерпретации (в отличие от
трансляции или компиляции), может быть начато выполнение программы которая имеет
синтаксические ошибки. Если рассматривать системы
трансляции, то есть еще один вид трансляторов - кросс-трансляторы (и кросс-
компиляторы). Кросс транслятор работает на некотором типе вычислительной
системы, которая называется инструментальная ЭВМ. Инструментальная ЭВМ может
характеризоваться своей архитектурой и/или операционным окружением, которое
функционирует на ней. Кросс-транслятор обеспечивает перевод программы,
записанной в нотации некоторого языка, в код вычислительной системы, отличной от
инструментальной ЭВМ. Та вычислительная система, для которой генерируется код,
называется объектной ЭВМ, и соответственно, тот код, который мы получаем,
называется объектным кодом (это не тоже, что объектный модуль). Например,
компьютеру, который управляет двигательной установкой самолета, совершенно не
нужно иметь операционную среду, которая обеспечит работу пользователя по
разработке программ для него. Ему совершенно не нужно иметь средства
редактирования текста, трансляции и т.д., потому что у него одна функция -
управлять двигательной установкой. На этом компьютере будет работать
операционная система реального времени. Для создания программ для такого рода
компьютеров и используются системы кросс-программирования и кросс-трансляторы.
На обычной машине типа PC может быть размещен транслятор, который будет
генерировать код для заданного компьютера. На
самом деле, бывают ситуации, когда тип объектной машины совпадает с типом
инструментальной машины, но отличаются операционные среды, которые функционируют
на данных машинах. В этом случае также нужна система кросс-
программирования. Кросс-трансляторы также нужны разработчикам новых машин,
которые хотят параллельно с ее появлением создать программное обеспечение,
которое будет работать на этой машине. С точки зрения этапа кодирования можно рассмотреть
последовательность обработки программы более крупноблочно, чем с точки зрения
трансляции. Мы с вами говорили на начальных лекциях о том что современные языки
программирования поддерживают модульность (программа представляется в виде
группы модулей и взаимосвязь между этими модулями осуществляется за счет
соответствующих объявлений в них). Давайте посмотрим, что происходит на этапе
обработки программы, написанной на одном из модульных языков. Пусть
есть некоторая группа модулей и есть соответствующие этим модулям тексты
программ, на языках, используемых для программирования. Языковыми средствами
определены связи между модулями. Первый этап, который происходит - это этап
трансляции (либо компиляции) каждого из модулей. После трансляции модуля в виде
исходного текста мы получаем объектный модуль - это есть машинно-ориентированное
представление программы, в котором присутствуют фрагменты программы в машинном
коде, а также информация о необходимых внешних связях (ссылки на объекты в
других модулях). Информация о необходимых внешних связях (помимо информации о
местонахождении внешних объектов) также включает в себя ссылки на те места
машинного кода, которые пытаются использовать адреса внешних объектов, т.е. на
те недообработанные команды, которые нельзя обработать из-за того, что при
трансляции модуля еще не известно где какие объекты находятся. Т.е. объектный
модуль - это машинное представление программного кода, в котором еще не
разрешены внешние связи. Объектный модуль может содержать дополнительную
информацию (например, информацию, необходимую для отладки - таблицы имен и
т.д.). Для каждого из исходных модулей мы получим объектный модуль. После
этого все объектные модули, которые составляют нашу программу, а также модули
требуемых библиотек функций, поступают на вход редактору внешних связей.
Редактор внешних связей моделирует размещение объектных модулей в оперативной
памяти и разрешает все связи между ними. В итоге мы получаем исполняемый модуль,
который может быть запущен как процесс. Иногда трансляторы в качестве результата
трансляции выдают модуль на ассемблере соответствующей машины. В эту же схему
также часто добавляется этап оптимизации программы, причем оптимизация может
происходить до этапа трансляции (т.е. в терминах исходного языка) или/и после
трансляции (в терминах машинного кода). Например до трансляции можно вычислить
все константные подвыражения и т.д. Для машин типа PC этап оптимизации может
быть не столь важен, потому что этот вопрос обычно разрешается покупкой какого-
нибудь более быстрого компонента, но есть класс машин (mainframe), для которых
этот этап необходим. Каждый транслятор при
обработке программы выполняет следующие действия. Лексический анализ. Лексический анализатор производит анализ
исходного текста на предмет правильности записи лексических единиц входного
языка. Затем он переводит программу из нотации исходного текста в нотацию
лексем. Лексические единицы - это минимальные конструкции, которые могут быть
продекларированы языком. К лексическим единицам относятся: Вещественные
константы в некоторых трансляторах могут представляться в виде группы
лексических единиц, каждая из которых является целочисленной константой. После
этого исходная программа переводится в вид лексем. Лексема - это некоторая
конструкция, содержащая два значения - тип лексемы и номер лексемы. Тип лексемы Тип лексемы - это код,
который говорит о том, что данная лексема принадлежит одной из обозначенных нами
групп. к примеру лексема может быть ключевым словом, тогда в поле типа будет
стоять соответствующий номер. Номер лексемы уточняет конкретное значение этой
лексемы. Если, к примеру, было ключевое слово begin, то номер лексемы будет
содержать число, соответствующее ключевому слову begin. Если тип лексемы -
идентификатор, то номер лексемы будет номером идентификатора в таблице имен
которую создаст лексический анализатор. Если тип лексемы - константа, то номер
лексемы тоже будет ссылкой на таблицу с константами. После лексического
анализатора мы получаем компактную программу, в которой нет уже ничего лишнего
(пробелов, комментариев, и т.д.). Вся программа составлена в виде таких лексем,
и поэтому она более компактна и проста.
Программа в виде лексем поступает на вход синтаксическому анализатору, который
осуществляет проверку программы на предмет правильности с точки зрения
синтаксических правил. Результатом работы синтаксического анализатора является
либо информация о том, что в программе имеются синтаксические ошибки и указание
координат этих ошибок и их диагностика, либо представление программы в некотором
промежуточном виде. Этим промежуточным видом может быть, предположим,
бесскобочная запись, либо запись в виде деревьев (хотя одно однозначно сводится
к другому). Это промежуточное представление, которое является синтаксически и
лексически правильной программой, поступает на вход семантическому
анализатору. Семантика - это все то, что не
описывается синтаксисом и лексикой языка. К примеру, лексикой и синтаксисом
языка сложно описать то, что нехорошо передавать управление в тело цикла не
через начало цикла. Выявление таких ошибок - одна из функций семантического
анализа. при этом семантический анализатор ставит в соответствие синтаксически и
семантически правильным конструкциям объектный код, т.е. происходит генерация
кода. Система программирования и трансляции - очень наукоемкая область
программного обеспечения. Организация трансляторов - это было первое применение
теоретических достижений науки, которые заключались в следующем. За счет
возможности использования тех или иных грамматик (наборов формальных правил
построения лексических конструкций и синтаксических правил), можно разделить
программную реализацию лексических и синтаксических анализаторов на два
компонента. Первый компонент - это программа, которая в общем случае ничего не
знает о том языке, который она будет анализировать. Второй компонент - это набор
данных, представляющий из себя формальное описание свойств языка, который мы
анализируем. Совмещение этих двух компонентов, позволяет автоматизировать
процесс построения лексических и синтаксических анализаторов, а также
генераторов кода, для различных языков программирования. Современные системы
программирования в своем составе имеют средства автоматизации построения
компиляторов. Для ОС UNIX есть пакет LEX - пакет генерации лексических
анализаторов, и есть пакет YACC - для генерации синтаксических анализаторов. Это
все достигается за счет возможности формализации свойств языка, и использования
этого формального описания, как параметров для тех или иных инструментальных
средств. . Мы с вами посмотрели на транслятор с
точки зрения функциональных этапов. Но очень часто мы слышим об однопроходных
трансляторах, двухпроходных, трехпроходных, и т.д. С проблемой трансляции
связано понятие "проход". Проход - это полный просмотр некоторого представления
исходного текста программы. Естьтрансляторы однопроходные. Это означает, что
транслятор просматривает исходный текст от начала и до конца, и к концу
просмотра (в случае правильности программы) он получает объектный модуль. Если
мы посмотрим Си-компилятор, с которым вы работаете, то скорее всего он
двухпроходный. Первый проход - это работа препроцессора. После первого прохода
появляется чистая Си-программа без всяких препроцессорных команд. На Втором
проходе происходит лексический, синтаксический и семантический анализ, и в итоге
вы получаете объектную программу в виде ассемблера. Количество проходов в
некоторых трансляторах связано с количеством этапов, т.е. бывают реализации, для
которых удобно сделать отдельный проход для лексического анализа, отдельный
проход для синтаксического анализа и отдельный проход для семантического
анализа. Если транслятор многопроходный, то возникает проблема сохранения
промежуточной нотации программы между проходами. . К этой же
проблеме кодирования относится средство поддержки разработки программных
проектов. Одним из популярных средств, ориентированных на работу одного или
нескольких программистов, является т.н. make-средство. Название происходит от
соответствующей команды ОС UNIX. C make-командой связан т.н. make-файл, в
котором построчно указываются взаимосвязи всевозможных файлов, получаемых при
трансляции, редактировании связей, и т.д., и те действия, которые надо
выполнить, если эти взаимосвязи нарушаются. В частности можно сказать, что
некоторый исполняемый файл зависит от группы объектных файлов, и если эта связь
нарушена, то надо выполнить команду редактирования связей (link ...). Что значит
нарушение зависимости и что значит связь? Make-команда проверяет существование
этих объектных файлов. Если они существуют, то времена их создания должны быть
более ранние, чем время создания исполняемого файла. В том случае, если это
правило будет нарушено (а это проверяет make-команда), то будет запущен редактор
связей (link), который заново создаст исполняемый файл. Тем самым такое средство
позволяет нам работать с программой, состоящей из большого количества модулей, и
не заботиться о том, соответствует ли в данный момент времени исполняемый файл
набору объектных файлов или не соответствует (можно просто запустить make-файл).
Make-файлы могут содержать большое количество такого рода строчек, которые
таким образом свяжут не только объектные и исполняемые файлы, но и каждый из
исходных файлов с соответствующим объектным файлом, и т.д. Т.е. суть такова, что
после работы не надо каждый раз для каждого файла запускать компилятор, редактор
связей, а можно просто запустить make-файл, а он уже сам определит и выберет те
файлы, которые нужно корректировать, и выполнит необходимые действия. На самом
деле такими средствами сейчас обладают почти все системы
программирования. Если make-файл - это
система, предназначенная для одного программиста, в лучшем случае, для
нескольких программистов, то если у нас существует большой коллектив, который
делает большой программный проект, то используется т.н. система контроля версий,
которая позволяет организовывать корректную работу больших коллективов людей над
одним и тем же проектом, которая основана на возможности декларации версий и
осуществлении контроля за этими версиями. Тестирование - это поиск ситуации, в которой программный
продукт не работает. При этом используются наборы тестов, определяющих внешнюю
нагрузку на программный продукт. Можно сказать, что программа оттестирована на
определенном наборе тестов. Утверждение, что программа оттестирована вообще в
общем случае некорректно. Отладка - это процесс поиска, локализации и
исправления ошибки. Отладка осуществляется, когда мы имеем программную систему,
и знаем, что она не работает на каком-то из тестов. Проблемы тестирования и
отладки - это есть проблемы крайней важности. По оценкам, на тестирование и
отладку затрачивается порядка 30% времени разработки проекта. Сложность
тестирования и отладки зависит от качества проектирования и кодирования.
Тестирования зачастую выполнить сложно и часто для тестирования используются
модельные нагрузки, например мы тестируем бортовую сеть самолета, что-то мы
сможем сделать на земле, а что-то так или иначе делается уже на реальном полете,
когда собираются данные и фиксируется работает система или не работает. Тема,
которую мы с вами начнем рассматривать будет короткой и простой, и мы обозначим
основные болевые точки. Детали и подробности вы должны изучить
сами. Для многих пользователей
программного обеспечения основным и единственным свойством, на которое обращает
внимание пользователь, является не внутреннее устройство системы, а тот
интерфейс, который предоставляется системой пользователю. Почти каждая система
имеет средства интерактивного взаимодействия с пользователем, т.е. средства,
которые позволяют в той или иной форме вводить запросы на выполнение действий. С
этой точки зрения UNIX поддерживает возможность работы с произвольным
количеством интерпретаторов команд. В файле /etc/passwd/ одно из полей,
относящихся к данному пользователю, содержит полное имя интерпретатора команд,
который должен быть запущен при входе пользователя в систему. В общем случае,
при входе пользователя в систему может быть запущена абсолютно любая
программа. Традиционными интерпретаторами команд в системе UNIX являются SH,
CSH и BASH. Давайте рассмотрим на концептуальном уровне что такое СSH (в
принципе все интерпретаторы команд похожи друг на друга и являются некоторым
расширением SH). Интерпретатор команд определяет структуру вводимой команды.
Команда (для CSH) - это последовательность символов, заканчивающаяся некоторым
кодом, и которая состоит из слов. Слова - это последовательности символов, не
содержащих разделители. Разделители - это набор фиксированных символов, в
частности привычным для нас разделителем является пробел. Кроме пробела
разделителями служат запятые, знаки < >, и т.д. Каждый из этих
разделителей имеет свою интерпретацию. В частности, символ "" означает создание
конвейера. Например команда Система UNIX поддерживает
набор специальных символов, которые называются метасимволами. Метасимволы обычно
встречаются в словах команды и интерпретируются по заранее определенным
правилам. Метасимволов существует много, в частности среди них есть знакомые нам
означает, что на месте этого символа может
быть один любой знак. Метасимволы могут быть парными. Например внутри квадратных
скобок указывается альтернативная группа, предположим, означает,
что вместо этой квадратной скобки может быть один из перечисленных в ней
символов (любую цифру можно задать так CSH позволяет
объединять команды. Для этого также используются метасимволы. Если внутри
круглых скобок перечислены некоторые команды, то запустится еще один
интерпретатор, который выполнит эту последовательность команд. Например команда
В чем разнится между тем, выполнилась ли эта команда в
интерпретаторе с которым мы работаем, или если был запущен еще один
интерпретатор. Разница в том что, в этом случае не изменится текущий каталог,
несмотря на то, что выполнилась команда смены каталога. . Все команды, перечисленные в
фигурных скобках будут запущены слева направо, но при этом на стандартный вывод
будет положена объединенная последовательность стандартных выводов всех команд.
- в файле tt.b окажется стандартный вывод
одной команды, а затем стандартный вывод другой, эта команда без фигурных скобок
поместила бы туда стандартный вывод только второй команды. Команды, которые реализованы в виде отдельных файлов. Это те команды,
которые можно модифицировать или добавлять новые. Команды, которые встроены в
интерпретатор команд, т.е. те команды, которые выполняет сам интерпретатор. К
таким командам относится команда , по которой осуществляется передача
соответствующего сигнала от имени интерпретатора. Есть также полезная команда
Интерпретатор команд CSH позволяет осуществлять работу с
предысторией. Он может организовать буферизацию N последних команд и организует
доступ к списку последних команд. В частности, можно выполнять и редактировать
командные строки из списка предыстории и снова их выполнять. CSH имеет
возможность именовать строки из списка предыстории. Ссылка на соответствующую
строку осуществляется с помощью команды, которая начинается с символа выполняет последнюю команду. Ссылка вида , где N - некоторое
число, выполняет строку из с писка предыстории с номером N. Если N отрицательно,
то номер строки отсчитывается с конца, к примеру, !<...> Интерпретатор команд
предоставляет возможность программирования на уровне CSH. Для этого
предусмотрена декларация переменных и возможность присвоения им значения, а
также набор высокоуровневых операторов, которые по своей семантике похожи на
операторы языка Си (отсюда и название интерпретатора SH). CSH фактически
есть высокоуровневый язык с операторами языка Си. Оперируя с переменными CSH
можно составлять программы, которые выполняют некоторые действия. Кроме всего
прочего, имеются предопределенные имена, которые отвечают за настройку системы,
в частности, о том, сколько строк предыстории сохраняются. Сохранение происходит
в двух ипостасях: первое - это оперативное сохранение, есть параметр (переменная
history), который определяет, сколько строк должно быть сохранено в течении
последнего сеанса работы. Второе - есть возможность сохранения предыстории между
сеансами, т.е. при очередном входе систему уже будет определен некоторый список
предыстории (размер списка - в переменной savehistory). Кроме переменных,
с помощью которых осуществляется настройка, и имена которых определены, есть еще
один класс переменных CSH - это т.н. внутренние переменные, которые также
являются зарезервированными. Это переменные, которые имеют предопределенные
имена и определяют свое значение через внутренние функции интерпретатора команд.
В частности, есть переменная , это есть текстовый массив, в котором
находятся текстовые строки, содержащие полные имена некоторых каталогов. В
соответствии с содержимым переменной , CSH осуществляет поиск файлов,
которые являются командами, введенными пользователями. Мы с вами говорили, что в
UNIX (кроме встроенных команд) специальных команд нет, командой является любой
исполняемый файл. Если пользователь ввел некоторое имя NAME, поиск исполняемого
файла с именем NAME будет осуществляться, во-первых, в текущем каталоге, а во
вторых, в каталогах, указанных в переменной Переменная
ignoreeof - это переменная, установка которой блокирует завершение сеанса работы
по вводу символа ^D (Ctrl-D). В системе можно варьировать вид приглашения (к
вводу) с помощью переменной prompt, причем это приглашение может быть достаточно
интеллектуальным. В нем, например, может присутствовать дата и т.п. , она может определять много директорий.
Представьте себе, что я ввожу некоторую командную строку NAME и в текущем
каталоге соответствующего файла нет. Это означает, что будет осуществлен поиск
файла с именем NAME по всем каталогам, записанным в переменной (со
всеми вытекающими последствиями). Это может быть долго. А если еще учесть, что
вы работаете в многопользовательской системе, и каждый постоянно вводит какие-то
команды, то накладные расходы получаются сумасшедшими. Система UNIX разумная
система, и одним из правил, которых придерживались ее разработчики было то, что
если где-то что-то можно оптимизировать, то надо это сделать. При входе
пользователя в систему на основании значения переменной path формируется hash-
таблица имен исполняемых файлов, находящихся во всех перечисленных каталогах
(естественно, учитывается порядок каталогов). Поиск команды (если она не найдена
в текущем каталоге) будет заключаться в просмотре этой быстрой hash-таблицы. За
счет этого достигается ускорение доступа к команде, хотя при входе в систему
возможна значительная задержка, которая вызвана формированием этой hash-
таблицы. Предположим, пользователь вошел в систему, а потом администратор
добавил команду, которая этому пользователю необходима. Но за счет того, что
hash-таблица уже сформировалась, доступ к ней (без набора полного имени) закрыт,
хотя она есть в каталоге, указанном в path. В этом случае можно переформировать
hash-таблицу с помощью команды rehash. Кроме всех этих переменных, CSH
имеет еще одну категорию переменных, которые называются переменными окружения.
Если вы вспомните, то при запуске процесса функции main передаются несколько
параметров, среди которых есть массив значений переменных окружения. В процесс
можно передать те параметры, которые характеризуют сеанс работы пользователя в
данный момент времени. В частности можно передать имя домашнего каталога, имя
текущего каталога, имя терминала, с которого вызван данный процесс и т.д. С помощью средств CSH можно составлять программы. В
этих программах могут фигурировать имена переменных CSH, которые мы можем
интерпретировать как имена файлов. Средствами CSH можно определять ряд свойств,
связанных с именем, которое мы интерпретируем как имя файла. В частности, есть
возможности проверки, существует ли такой-то файл. Есть возможность проверки,
является ли такой-то файл каталогом или не является. Есть возможность проверки
всех прав доступа. Есть возможность определения размера файла. И, наконец, есть
возможность запуска файла как команды. Кстати, с помощью этих средств
реализовано множество команд системы. Программы на CSH можно вводить построчно,
в этом случае CSH играет роль транслятора-интерпретатора, а можно программу на
CSH записать в некоторый файл и исполнять его как командный файл (Но все равно
будет происходить процесс интерпретации). Любой
командный язык имеет набор т.н. профайлов, или стартовых файлов. CSH имеет две
разновидности этих файлов: это файлы, которые могут выполняться при старте CSH,
и файлы, которые выполняются при завершении работы. - это командный файл, в котором пользователь по своему
усмотрению может размещать произвольное количество команд на CSH, которые будут
выполняться сразу после запуска CSH (например, в этом файле может находиться
команда тестирования файловой системы и т.д.). Файл
запускается при входе пользователя в систему. В этом файле также может
находиться любая последовательность команд, например там может быть
переопределение имен команд, наиболее приемлемое для данного пользователя
(потому что мнемоника команд в UNIX достаточно тяжелая, да и параметров у каждой
команды много). в котором также может находиться некоторый набор
команд. . Если у вас определена возможность сохранения
истории, то как раз в этом файле буферизуется предыстория вашей
работы. CSH - как язык программирования. Типы переменных CSH. Программирование
на CSH. Соглашения, которые определяет CSH при работе со строками. Разбиение
командной строки на слова. Интерпретация метасимволов. Возможность ссылки на
командные строки предыстории. Специальные
командные файлы CSH. Первые многомашинные ассоциации появились в начале 60-х годов и
это было связано с двумя проблемами. Первая проблема - проблема обеспечения
массового доступа к вычислительным ресурсам некоторой вычислительной системы.
Второе - появление задач, требовавших возможности привлечения для их решения
более чем одной вычислительной системы. С точки зрения интеллектуализации
многомашинных ассоциаций, первым типом многомашинных комплексов был терминальный
комплекс. Терминальный комплекс можно определить как набор программных и
аппаратных средств, предназначенных для взаимодействия пользователей с
вычислительной установкой, через телефонную или телеграфную сеть (или через
любую другую среду, через которую можно обеспечить связь). Есть вычислительная
система, имеется канал взаимодействия с внешним миром, к которому подключено
устройство, называемое мультиплексор. Это устройство, которое обеспечивает
взаимодействие группы внешних устройств с вычислительной системой (ВС) через
один канал ввода/вывода. К каналам мультиплексора могут быть подключены
локальные терминалы. Кроме того может быть подключено устройство, называемое
модемом. Модем позволяет выйти в телефонную или телеграфную сеть, работающую в
аналоговом режиме, и передавать информацию (модему, в другой части сети). К
модему подключается удаленный терминал. Модем преобразует дискретный сигнал,
поступающий от ВС (или терминала), в аналоговый сигнал, который уже можно
передавать по сети; и обратно - аналоговый в дискретный. Телефонная сеть
состоит из какого-то набора телефонных станций, и она предоставляет т.н.
коммутируемый канал. Суть его заключается в том, что при нескольких звонках к
одному и тому же абоненту, раз от раза маршруты коммутации (т.е. набор проводов,
по которым идет сообщение) отличаются друг от друга, за счет того, что каждый
раз выбираются свободные каналы. Может быть также многоуровневое
мультиплексирование. Вместо удаленного терминала, подключается удаленный
мультиплексор, и начиная от него может быть продолжение этого же уровня
рисунков. Это означает, что мы, работая за терминалом второго (или третьего,
четвертого, и т.д.) уровня существенно загружаем коммутируемую линию. точка-точка . Эта линия может быть либо арендуемой (мы
договариваемся с телефонными станциями и фиксируем коммутацию), либо
коммутируемой. Канал может быть многоточечным. При этом на входе находится
удаленный мультиплексор. Многоточечные каналы также могут быть либо арендуемыми,
либо коммутируемыми. Дуплексные каналы -
каналы, которые обеспечивают одновременную передачу информации в двух
направлениях. Полудуплексные каналы - каналы, которые обеспечивают передачу
информации в двух направлениях, но в каждый момент времени только в одну сторону
(подобно рации). ВС имеет комплекс программ, которые обеспечивают
взаимодействие пользователей через всю коммуникационную среду, с ВС. В качестве
локальных и удаленных терминалов могут присутствовать как реальные терминальные
устройства, так и компьютеры, которые эмулируют работу
терминала. Многомашинные
вычислительные комплексы (ММВК) - это программно аппаратное объединение группы
вычислительных машин, в которых: На каждой из машин работает своя операционная
система (этот признак отличает ММВК от многопроцессорного вычислительного
комплекса). ММВК использовались в качестве систем
сбора и обработки больших наборов данных, и для организации глобальных
терминальных комплексов. ММВК появились в начале 60-х и сейчас продолжают
успешно существовать. Одно из основных применений ММВК - это дублирование
вычислительной мощи, примером таких систем может служить любая система
управления важными технологическими процессами. И
терминальные комплексы, и ММВК можно считать частным случаем вычислительных
сетей, однако хронология развития многомашинных ассоциаций была именно такой -
сначала появились терминальные комплексы, потом ММВК, потом вычислительные
сети. Предположим у нас есть некоторая группа вычислительных машин, которые мы
будем называть абонентскими машинами (АМ). Имеется некоторое образование,
которое называется коммутационной средой. Коммутационная среда включает каналы
передачи данных, обеспечивающие взаимодействие между машинами, специальные
вычислительные машины, которые мы будем называть коммутационными машинами.
Абонентские машины могут осуществлять взаимодействие друг с другом через
коммутационную среду, в рамках которой используются каналы передачи данных и
коммутационные машины. Существует ряд классических разновидностей
сетей. . Суть ее заключается в том, что если
надо связать АМ2 с АМ3, то происходит соединение каналов и коммутационных машин
между этими АМ. Это соединение будет существовать до конца взаимодействия АМ2 и
АМ3. Достоинство этой сети в том, что скорость взаимодействия между машинами
равна скорости самого медленного компонента сети, участвующего в связи (это
максимально возможная скорость). Недостаток в том, что такая связь может
блокировать другие соединения (в данном случае АМ1 и АМ4 не свяжутся до конца
связи между АМ2 и АМ3). Уйти от этой проблемы можно потребовав от коммутационной
среды большой избыточности, т.е. организовать дополнительные (дублирующие)
каналы. . Если коммутация каналов - это
коммутация на время всего сеанса связи, то коммутация сообщений - это связь, при
которой весь сеанс разделяется на передачу сообщений (сообщение - некоторая,
логически завершенная, порция данных), и коммутация происходит на период
передачи сообщения. В такой сети на коммуникационные машины ложатся большие
нагрузки, они должны обладать возможностью буферизации сообщений в связи с
неравномерной скоростью передачи на разных участках сети. Достоинства - простота
логическая и физическая, недостатки - снижение скорости работы в сети, и потери,
связанные с буферизацией. . Сеанс разбивается на
сообщения, сообщения разбиваются на порции данных одинакового объема - пакеты.
По сети перемещаются не сообщения, а пакеты. Здесь действует принцип горячей
картошки: основное действие коммутационной машины - как можно быстрее избавиться
от пакета, определив кому его дальше можно перекинуть.. Т.к. все пакеты
одинакового объема, не возникает проблем с буферизацией, потому что мы всегда
можем рассчитать необходимую буферную способность коммутационных машин.
Логически происходит достаточно быстрое соединение, потому что сеть коммутации
пакетов практически не имеет ситуаций, когда какие-то каналы заблокированы. За
счет того, что происходит дробление сеанса на пакеты, имеетсявозможность
оптимизации обработки ошибок при передаче данных. Если мы получаем ошибку в
режиме коммутации каналов, то надо повторять весь сеанс, если в режиме
коммутации сообщений, то надо повторять сообщение, здесь же достаточно повторить
передачу пакета, в котором обнаружена ошибка. В реальных системах
используются многоуровневые сети, которые в каких-то режимах работают в режиме
коммутации каналов, в каких-то режимах работают в режиме коммутации сообщений и
т.д. На сегодняшний день можно сказать, что сетей, принадлежащих чисто к одному
из вышеперечисленных типов, нет. Развитие
многомашинных ассоциаций вообще, и сетей ЭВМ в частности, определило
возникновение необходимости стандартизации взаимодействия, происходящего в сети.
Поэтому в конце 70-х начале 80-х годов ISO (International Standard Organization)
предложила т.н. стандарт взаимодействия открытых систем ISO/OSI (Open System
Interface). Была предложена семиуровневая модель организации взаимодействия
компьютеров со средой передачи данных, с программами, функционирующими на разных
компьютерах, и в общем случае организация взаимодействия в сети. Предлагались к
рассмотрению семь уровней взаимодействия: или уровень сопряжения с
физическим каналом. На этом уровне решаются самые земные вопросы организации
взаимосвязи: это вопросы уровней и типов сигналов, и т.д. Этот уровень
определяет конкретную физическую среду. Предположим, физической средой может
быть среда, которая называется "витая пара", или среда, которая называется
"коаксиальный провод", или средой может быть оптоволокно, и т.д. Каждая из этих
физических сред определяет свои правила общения через них. . На этом уровне формализуются правила передачи данных через канал.
Если физический уровень связан непосредственно со средой (с каналом), то
канальный уровень связан с передачей информации по этому каналу. . Этот уровень управляет связью в сети между машинами. Здесь решается
вопрос адресации и маршрутизации данных. . Этот
уровень иногда называют уровнем логического канала. На этом уровне решаются
проблемы управления передачей данных, и связанные с этими проблемами задачи -
локализация и обработка ошибок и непосредственно сервис передачи
данных. обеспечивает взаимодействие программ
(понятно, что машины сами по себе не взаимодействуют, а взаимодействуют
программы). При этом решаются проблемы синхронизации обмена данных, отмены
сеанса в результате фатального исхода, подтверждения
паролей. . На этом уровне решается проблема с
представлением данных. Понятно, что разные системы имеют разные формы
представления данных. . На прикладном уровне решаются
проблемы стандартизации взаимодействия с прикладными системами. Итак, была
предложена такая семиуровневая модель, и было предложено использовать эту модель
в двух качествах: стандартизация взаимодействия в сети (разработка стандартов) и
применение этой модель для практических решений. Стандарты на физический уровень
уже разработаны, разрабатываются стандарты на канальный уровень. К сожалению,
реальные сети не соответствуют такой семиуровневой модели, хотя иногда можно
найти некоторое соответствие. Считается, что на каждой из ВС, функционирующих
в сети, существует набор уровней сетевого взаимодействия, соответствующий такой
семиуровневой модели. При этом считается, что гарантированно в сети существуют
подряд идущие уровни снизу вверх. Т.е. если есть сеансовый уровень, то
гарантированно есть все нижестоящие. У нас есть две машины, на каждой из
которых реализована эта семиуровневая модель. Система взаимодействия
предусматривает такое взаимодействие между машинами, при котором каждый уровень
общается с себе подобным уровнем. Правило взаимодействия систем на одноименных
уровнях, называется протоколом передачи данных. При этом одноименные уровни
реально напрямую друг с другом оперировать не могут. Они оперируют друг с другом
через нижестоящие уровни и физическую среду. Любой уровень нашей модели может
непосредственно взаимодействовать только с соседним уровнем (либо соседним
сверху, либо снизу). Правила взаимодействия между уровнями называются
интерфейсом. Если один уровень обращается к другому (в другой машине) через
протокол передачи данных, на самом деле происходит обращение через
соответствующую последовательность интерфейсов к нижестоящим уровням, далее
происходит передача через физическую среду, и затем происходит последовательная
передача от нижестоящего уровня к нужному. Сущность стандартизации заключается
в том, что после принятия стандарта этих уровней, можно уже менять реализации
уровней либо добавлять новые уровни, не беспокоясь об интерфейсах и протоколах.
Стандартизация определяет совместимость. Мы с вами
поговорим немного об Интернет, но не с точки зрения того, что нам говорят по
телевизору, причем часто говорят вещи откровенно глупые, а сточки зрения ее
устройства. Несколько слов предыстории. В конце 60-х годов американское
агентство перспективных исследований в обороне DARPA приняло решение о создании
экспериментальной сети с названием ARPANet. Основным свойством этой сети было
то, что предполагалось отсутствие какой-либо централизации. Этот проект начал
развиваться. В 70-ом году ARPANet стала считаться действующей сетью США, и в
частности, через эту сеть можно было добираться до ведущих университетских и
научных центров США. В начале 80-х годов началась стандартизация языков
программирования, а затем протоколов взаимодействия сетей. Здесь есть два
момента, повлиявших на появление Интернет. Первый - это сам факт стандартизации.
Второе - появление модели ISO/OSI. Этогт момент можно считать началом появления
Интернета. Мы начали обсуждать проблемы организации Интернет и обозначили
основное качество этой системы, заложенное изначально - что эта сеть абсолютна
симметрична с той точки зрения, что она не подразумевала какой-либо
централизации и иерархии. Это свойство, которое легло в основу сети, и создало
тот бум, который наблюдается сейчас, то есть Интернет может свободно
расширяться. Мы с вами рассмотрели вкратце предысторию сети. Изначально сеть
подразумевала чисто экспериментальную работу и уже в дальнейшем получила
университетскую распространенность, коммерция же пришла в Интернет где-то в
1994-95 годах. Èíòåðíåò основан на
протоколах TCP/IP (Transfer Control Protocol / Internet Protocol). Иногда
говорят: "протокол TCP/IP" - но это неправильно, так как под этой аббревиатурой
скрывается целый набор протоколов, объединенных под одним названием. Кстати,
здесь есть отдельно протокол TCP и отдельно протокол IP. Уровни
TCP/IP I. Прикладных
программ Уровень
доступа к сети TCP/IP обеспечивают аппаратные интерфейсы и драйверы этих
аппаратных интерфейсов. К примеру, протоколами уровня доступа к сети являются
протоколы Ethernet. Их суть в следующем. Ethernet - это система,
обеспечивающая "мгновенный" доступ с "контролем несущей" и обнаружением
столкновений. Ethernet - широковещательная сеть, это означает, что любое
сообщение, выходящее из источника становится видимым всем остальным Ethernet-
устройствам. Ethernet симметрична (нет никакого физического главенства), она
предполагает наличие некоторой физической среды (разновидности коаксиального
кабеля, кабель "витая пара", СВЧ диапазон и др.), Ethernet-устройства, которое
осуществляет взаимодействие в рамках данной среды. Так как сеть симметрична, то
возникает проблема столкновения пакетов передающихся данных, то есть, когда
одновременно посылаются два пакета данных из разных устройств - в этом случае
происходит отказ передачи данных у обоих устройств, после этого они замирают на
некоторое время, а затем делают еще одну попытку. Это напоминает разговор
вежливых людей в темной комнате: если один человек говорит, то остальные молчат;
когда, два человека, начинают говорить, то оба одновременно замолкают и делают
паузу. Существует ряд международных правил, которые создают невозможным
появление в мире двух Ethernet-устройств с одинаковым номером, будь-то уже
сгоревшие устройства или еще находящиеся в строю. Этот адрес можно сравнить со
штрих-кодом, который встречается на различных продуктах. Еще одно свойство
Интернет - широковещательность. Реально, любое сообщение, посланное в сеть,
проходит через все Ethernet-устройства сети. Соответственно все сообщения имеют
адресацию, и сообщения могут адресоваться всем устройствам, либо какому-то
отдельному, но в любом случае - сообщение пройдет через все устройства, а уж
каждое из них само решит - оставить его или нет. Вот в нескольких словах о
примере четвертого уровня доступа протоколов TCP/IP, это наиболее
распространенный вариант. Можно сказать о том, что такая сеть проста, но имеет
ряд недостатков, заключающихся в том, что когда в сети возникает много активных
пользователей, то учащаются столкновения сообщений и пропускная способность
существенно снижается. Следует обратить внимание, что когда мы говорим
Интернет - сеть, то это также верно, как и то, что TCP/IP - протокол. То есть
Интернет - это объединение сетей. Это
хост-компьютеры (host) и шлюзы (gate). В двух словах покажем, что есть что.
Реально, каждый из компьютеров, который работает в сети, может
классифицироваться по двум признакам. Если в компьютере расположена только одна
сетевая карта или интерфейс, то это хост-компьютер и обычно он принадлежит
какой-нибудь одной сети. Если в компьютере находятся две и более сетевых карт,
при этом каждая из карт подключается к своей сети, то такой компьютер называется
компьютером-шлюзом. Соответственно, через шлюзы можно объединять сети. То
есть, если смотреть с точки зрения принадлежности к сетям - хост принадлежит
одной сети, а шлюз принадлежит сразу двум или более сетям. Через шлюзы
осуществляется взаимодействие между компьютерами в различных сетях. И этот
механизм объединения и доступа является одной из отличительных черт Интернета,
которая базируется на межсетевом уровне TCP/IP, который в свою очередь
базируется на протоколе IP. Основная функция протокола IP - уникальная
межсетевая адресация. Одним из основных свойств или качеств IP-протокола
является IP-адрес. Это адрес, который приписывается как конкретной сети, так и
конкретному компьютеру в сети. Исходя из этого, мы можем сказать, что шлюз - это
компьютер, имеющий два или более IP-адреса (адрес в одной сети и в другой сети),
хост - компьютер, имеющий один IP-адрес. Также, в функции IP входит
маршрутизация, то есть выбор пути, по которому будут передаваться сообщения,
определение базовых блоков данных (они называются дейтаграммы), которые
передаются, и взаимодействие с транспортным уровнем и уровнем доступа к сети.
Соответственно, в связи с этим взаимодействием возможна фрагментация и
дефрагментация дейтаграмм. Два слова об IP-адресации. IP-адрес - это
четырехбайтовый код, в котором может размещаться информация об адресе сети и об
адресе компьютера в сети. Существует несколько категорий IP-адресов: Первый байт
кодирует номер сети, при этом его старший бит является нулевым (это признак
класса А), остальные биты определяют номер сети. Сетей класса А может быть 126
штук. Соответственно, последние три байта - номер компьютера в сети. Сети класса
А - гигантскиесети, которые могут принадлежать крупнейшим корпорациям. Признак класса B - старшие два бита равны
"10". Для нумерации сети используется остаток первого и целиком второй байт. 3 и
4 байты - номер компьютера в сети. Это также большие сети, их может быть большое
количество, но также ограниченное. Признак класса C - старшие три бита равны
"110". Для нумерации сети используются: остаток первого байта, второй и третий
байты целиком. Номер компьютера определяется четвертым байтом. Соответственно,
класс C представляет гигантское количество небольших сетей. Существует международная организация, которая распределяет
номера сетей. Здесь действует определенная иерархия. Организация, получившая
номер сети может распределять номера компьютеров в пределах этой сети по
собственному усмотрению. Следует отметить, что, несмотря на огромное число
адресов, которое можно представить четырьмя байтами, существует проблема их
узкости, и идут разговоры о расширении IP адресации. Это колоссальная проблема,
сравнимая разве что с проблемой 2000 года. На межсетевом уровне кроме
протокола IP существует еще группа вспомогательных протоколов. Часть из них
зависит от того, чем мы будем пользоваться и что мы будем делать. В любом случае
- основа для них - протокол IP. Следующие протоколы - транспортные. Здесь
присутствует два типа протоколов - UDP (User Datagram Protocol) и TCP.
Протокол TCP обеспечивает передачу данных с контролем и исправлением ошибок.
Кроме того, TCP гарантирует логическое соединение. То есть TCP позволяет
создавать логические каналы, гарантируя отправку и прием порций данных в
определенном порядке. Протокол жесткий, так как контролирует ошибки. Но за все
надо платить, и TCP является ресурсоемким протоколом. Протокол UDP - это
быстрая доставка сообщений без осуществления контроля доставки. Протокол TCP
больше рассчитан на использование в Интернете (для передачи на дальние
расстояния, где не может гарантироваться безошибочность передачи). UDP
ориентирован на работу в локальной сети, где гарантирован определенный уровень
качества передачи данных. Протоколы транспортного уровня общаются с прикладными
протоколами и межсетевыми протоколами. Далее идет уровень прикладных
систем. TCP/IP обладает тем свойством, что в семействе этих протоколов
стандартизованы протоколы, на которых базируются прикладные системы. В
частности, FTP (File Transfer Protocol). Реально система FTP присутствует в
каждой операционной системе и в каждой набор FTP систем может быть значительным.
Но за счет того, что имеется стандарт FTP, все эти приложения работают
единообразно. Есть сетевой продукт Telnet - сетевая эмуляция алфавитно-цифрового
терминала. То есть в системе стандартизованы протоколы с помощью которых
организованы прикладные системы. И мы можем строить свои приложения FTP или
Telnet из предоставленных кирпичиков. Разные прикладные системы общаются с
разными протоколами - кто-то с UDP, кто-то с TCP. FTP è Telnet, например,
работают через TCP, а сетевая файловая система NFS, которая позволяет объединять
файловые системы разных машин в одну (и видеть их, как свою локальную),
основывается на UDP, потому что NFS работает в рамках локальной
сети.
| |