Дерево непосредственных составляющих (ДНС) обеспечиваает структорное описание предложений. Граматика непосредственных составляющих (ГНС) характеризует ДНС. И то и другое поэтому играют важную роль в обработке естественного языка для создания структурных описаний предложения, которые могут быть использованы в обработке систем понимания или порожления речи.

Дерево непосредственных составляющих:
ДНС кодирует иерархическую структуру предложения. Эта информация двух видов: иерархическая структура группирования и синтаксические категории этих группирований.
Предложение
John wanted to publish the paper. (1)
имеет следующую структуру:
(2)
John wanted to publish
the paper
Эта структура может быть представлена и в скобочной конструкции:
[[John][[wanted][[to][publish][[the][paper]]]]] (3)
(2) и (3) описывают группирование без идентификации составляющих. Такие конструкции называются “скелетом”. Скелеты характеризуют фразу без обозначения вершин дерева. Скелет с обозначением категорий является ДНС, для фразы (1) это будет выглядеть так
S
NP VP
VP
NP (4)
NPR V P V
DET N
John wanted to publish
the paper
“John” является здесь именем собственным, которое является также группой подлежащего, “wanted” и “publish” - глаголы, “to”- предлог (точнее говоря “to” должно быть названо частицей или временем), “the” - детерминатор, “paper” - существительное, “the paper” - группа существительного, “to publish the paper” - группа сказуемого, “wanted to publish the paper” - тоже группа сказуемого, и наконец, “John wanted to publish the paper” - предложение.
Соответственно скобочная конструкция (3) будет выглядеть так:
[S[NR[NPR John]][VP[V to][V publish][NP[DET the][N paper]]]]] (5)
Конструкции (4) и (5) обычно (но не всегда) используются в системах обработки естественного языка.
Грамматика непосредственных составляющих (ГНС)
ГНС состоит из набора нетерминальных символов (таких как N, V, NP, VP, S и т.д.) и из набора терминальных символов (таки лексические единицы как John “wanted”, “to”, “publish”, “the”, “paper” и т. д. и из набора правил, которые позволяют переписывать нетерминальные символы в цепочку терминальных и нетерминальных симвлов. Если это переписывание не зависит от контекста, то это контексто-независимая грамматика (КНГ), в противном случае - это контекстозависимая грамматика (КЗГ). Правило перезаписи имеет следующую форму:
А --> Х (6)
где Х - последовательсть терминальных и нетерминальных символов, а А - нетерминальные.
КЗГ имеет иследующее правило перезаписи:
ZAW --> ZXW (7)
где X, Z, W - цепочки терминальных и нетерминальных символов, а А - нетерминальные.
В (7) А и Х находятся в окружении Z и W. Часто эта формула пишется в виде
A --> X (Z — W (8)

Деревация в КНГ начинается с начального символа S и далее идет до тех пор, пока не будет применено последнее правило. Порядок применения правил не важен.
S —> NP VP
NP —> NPR
NP —> DET N
VP —> V VP
VP —> P V NP
NPR —> John, Mary, Bill
N —> paper, man, cow
V —> wanted, meet, want
P —> to
DET —> the
Несколько формальных свойств ГНС:
Если все правила некоторой ГНС G являются контекстно сводными, то G называется контекстно свободной грамматикой (КСГ). Если некоторые правила ГНС являются контекстно зависимыми, то G разывается КЗГ.
Строчный язык некоторой ГНС G определяется как набор всех конечных строк, полученных из G и этот набор обозначается L(G). Строка w считается полученной из G, если w можно получить при последовательном переписывании начального символа S, используя правила грамматики G. Строчный язык L (т.е. набор конечнных строк) называется контексто свободным языком (КСЯ), если существует такая КСГ, что L(G)=L. L называется “строго контекстно зависимым языком”, если не существует такой КСГ, что КСГ, что L(G)=L, и существунт такая КЗГ, что L(G)=L. Заметьте, что грамматика G может быть контекстнозависимой, но ее строчный язык L(G) не обязательно должен быть КЗЯ. Класс КЗЯ включает класс КСЯ. В этом смысле, КЗЯ являются более мощным чем КСЯ.
Однако есть и другой случай, когда КЗЯ не являются более мощными чем КСЯ. Если некоторая КЗГ, G, используется для “анализа”, в этом случае язык анализируемый при поиощи G - контекстносвободный (6, 7). Для того чтобы объяснить использование КЗГ G для анализа данного дерева t, определим анализ t следующим образом. Груба говоря анализ t представляет собой некий срез дерева. Дадим более точное определение: Набор (Pt) для анализа дерева t определяется следующим образом
1. Если t=( (пустое дерево), тогда Pt = (
2. Если t=
A
t0 t1 .... tn
тогда Pt={A} v P(t0)P(t1)....P(tn) где t0, t1 ....tn - деревья, А “ . “ обозначает соединение; например:
S
A B
C d E
c e
Pt = {S, AB, AE, Ae, CdB, CdE, Cde,cdB, cdE, cde}
Пусть G - контекстно зависимая грамматика, т.е. ее правила имеют форму
А-->(/( - (
где А ( V - ( (V - алфавит, и ( набор терминальных символов), ( ( V+ (набор ненулевых строк на множестве V) и (, ( ( V* (набор всех строк на V). Если ( и ( - равны нулю, то такое правило называется контекскносвободным. Дерево t называется “анализируемым ” в терминах грамматики G, если для каждого узла дерева t выполняются правила G. Контекстно зависимое правило А--> (/( - (
выполняется для узла А, если строка соответствующая ответвлению от узла А, является ( и существует анализ t вида (1(А((2 , где (1, (2 ( V*. Контекстное условие ( - ( называется анализом предиката.
Наряду с контекстозависимымми правилами правилами, позволяющими специфицировать “правый” и “левый” контекст, часто необходимо иметь правила специфицирующие “верхний” и “нижний” контекст. Имеем узел А дерева t, область (( - (), (, ( ( V*, содержит узел А, если существует путь от корня до края дерева, и этот путь имеет форму
(1(А((2 ((1, (2 ( V*).
Контекстное условие, связанное с таким “вертикальным” анализом называется “господствующим предикатом”.
В общем виде правило имеет форму
А -->(/СА
где СА - булева комбинация анализа и господствующих предикатов.
Пусть G - конечный набор правил и ((G) - набор деревьев, анализируемый G. Предполагается, что деревья ((G) - предложения; т.е. корневой узел дерева ((G) обозначен начальным символом S, а конечные узлы - терминальными символами. Покажем, что строчный язык L(((G)) = {x(x, где х терминальная строка дерева t, и t ( ((G)} контекстно свободен (7).
Пример: Пусть V = {S, T, a, b, c, e} и ( = {a, b, c, e}, и G - конечный набор строгих правил.
1. S -->e
2. S --> aT
3. T --> aS
4. S --> bTc / (a_()) ( DOM (T_)
5. T --> bSc / (a_()) ( DOM (S_)
Для правил 1, 2, 3 имеет место нулевой контекст и эти правила - контекстносвободные. В четвертом и пятом правиле по условию требуется а слева и узел подчиняется Т (в пятом правиле S).
Язык, порожденный G, может быть порожден G1:
S --> e S --> aT1
S --> aT T--> aS1
T --> aS T1--> bSc
S1-->bTc
Грамматика G1 содержит дополнительные нетерминальные символы S1 и Т1 для проверки локального контекста при порождении. Легко заметить, что при помощи S1 и Т1, достигается гомоморфизм, позволяющий анализировать любое дерево G1 при помощи G и обратно - любое дерево G имеет гомоморфный прообраз в G1. Рассмотрим еще раз контекстно зависимое правило (10).
V --> wanted( -VP
когда (10) интерпретируется как ложное правило, как описано выше, лексема “wanted” появляется над узлом V, только если узел VP находится справа от нее (в дереве, где появляется V). Справа от V существует строка, имеющая VP “анализ”. Контекстно-зависимые правила в КГЗ используются для анализа обычных грамматик, а не есть правила простого переписывания строк.
Терминальные символы в ГНС. До этого момента терминальные символы были представлены как нереализуемые элементы. Это было сделано для простоты изложения. Терминальные символы представляют собой наборы топологических, синтаксических и семантических признаков (4, 8). [В принципе возможно ликвидировать все эти признаки посредством введения новых нетерминальных символов. Однако их количество будет слишком велико (в соответсвии с большим количеством всех возможных комбинаций этих признаков). Это также повлечет значительное усложнение грамматики]. Например, терминальные символы в (4) заменяются на составные (комплексные) символы и получаем (4’ ).
S
NP VP

NPR V VP
NP
John wanted P V
+N +V DET N
-DET- + - NP [to] publish
+Animate . +V the paper
+ - NP + DET +N
+Definite + DET -
+ Singilar
Здесь не обсуждается возможность связи комплексных символов и промежуточных узлов.
Форма (4’) является структурным описанием (СО) предложения (1):
John wanted to publish the paper
ГНС в трансформационной грамматике (ТГ).
ТГ также не обсуждаются в этой статье. Однако важно заметить, что ГНС (и деревья НС)