Официальный сайт кафедры Математической теории интеллектуальных систем и лабораторий Проблем теоретической кибернетики и Математичеких проблем искусственного интеллекта механико-математического факультета МГУ им. М. В. Ломоносова

Сотрудники

Сотрудники :: Гасанов Эльяр Эльдарович :: Публикации Гасанова Э.Э.

Решение проблемы оптимального синтеза информационных графов для базовых задач поиска информации

Гасанов Э.Э.
Кафедра математической теории интеллектуальных систем, механико-математический факультет МГУ им М.В.Ломоносова

0. Построена новая общая модель хранения и поиска информации, называемая информационно-графовой, частными случаями которой являются известные базовые примеры такого рода. Изучены основные свойства этой модели и решена проблема оптимального синтеза информационных графов для широкого класса задач поиска, включающего базовые примеры. Более полная версия излагаемых результатов содержится в [1].

1. Пусть – множество запросов с заданным на нем вероятностным пространством $\langle X,\sigma ,{\bf P}\rangle$ , где $\sigma$ – алгебра подмножеств множества , ${\bf P}$ – вероятностная мера на $\sigma$ ; – множество записей (объектов поиска); $\rho$ – бинарное отношение на $X\times Y$ , называемое отношением поиска; пятерку $S=\langle X,Y,\rho, \sigma,{\bf P}\rangle$ будем называть типом; тройку $I=\langle X,V,\rho\rangle$ , где – некоторое конечное подмножество множества , будем называть задачей информационного поиска (ЗИП) типа , и будем считать, что ЗИП $I=\langle X,V,\rho\rangle$ содержательно состоит в перечислении для произвольно взятого запроса $x\in X$ всех тех и только тех записей $y\in V$ , таких что $x \rho y$ ; $O(y,\rho )=\{x\in X:x\rho y\}$ ; если $I=\langle X,V,\rho\rangle$ , то $R(I) = \sum_{y\in V} {\bf P}(O(y,\rho))$ ; если $f: X\rightarrow \{0,1\}$ , то $N_f =\{x\in X:f(x)=1\}$ ; – множество символов одноместных предикатов, определенных на множестве ; – множество символов одноместных переключателей, определенных на множестве , под переключателями будем понимать функции, областью значений которых являются конечные подмножества натурального ряда; пару ${\cal F}=\langle F,G\rangle$ назовем базовым множеством;

Понятие информационного графа (ИГ) над базовым множеством ${\cal F}=\langle F,G\rangle$ , определяется следующим образом. Берется конечная многополюсная ориентированная сеть. В ней выбирается некоторый полюс, который называется корнем. Остальные полюса называются листьями и им приписываются записи из , причем разным листьям могут быть приписаны одинаковые записи. Некоторые вершины сети (в том числе это могут быть и полюса) называются переключательными и им приписываются переключатели из . Ребра, исходящие из каждой из переключательных вершин, нумеруются начиная с 1 и называются переключательными ребрами. Ребра, не являющиеся переключательными, называются предикатными и им приписываются предикаты из множества . Таким образом нагруженную многополюсную ориентированную сеть называем ИГ над базовым множеством ${\cal F}=\langle F,G\rangle$ .

Функционирование ИГ определяется следующим образом. Скажем, что: предикатное ребро проводит запрос $x\in X$ , если предикат, приписанный этому ребру, принимает значение 1 на запросе ; переключательное ребро, которому приписан номер , проводит запрос $x\in X$ , если переключатель, приписанный началу этого ребра, принимает значение на запросе ; ориентированная цепочка ребер проводит запрос $x\in X$ , если каждое ребро цепочки проводит запрос ; запрос $x\in X$ проходит в вершину $\beta$ ИГ, если существует ориентированная цепочка, ведущая из корня в вершину $\beta$ , которая проводит запрос ; запись , приписанная листу $\alpha$ , попадает в ответ ИГ на запрос $x\in X$ , если запрос проходит в лист $\alpha$ . Ответом ИГ на запрос назовем множество записей, попавших в ответ ИГ на запрос , и обозначим его ${\cal J}_U(x)$ . Эту функцию ${\cal J}_U(x)$ будем считать результатом функционирования ИГ .

Пусть нам дана ЗИП $I=\langle X,V,\rho\rangle$ . Скажем, что ИГ разрешает ЗИП $I=\langle X,V,\rho\rangle$ , если ${\cal J}_U(x) = \{ y\in V: x\rho y \}.$

Введем понятие сложности ИГ. Пусть $\beta$ – некоторая вершина ИГ. Предикат, определенный на множестве запросов, который принимает значение 1 на запросе , если запрос проходит в вершину $\beta$ , и 0 – в противном случае, назовем функцией фильтра вершины $\beta$ и обозначим $\varphi_\beta(x)$ .

Сложностью ИГ на запросе $x\in X$ назовем число $T(U,x)= \sum_{\beta \in {\cal P}} \varphi_\beta (x)+ \sum_{\beta \in {\cal R} \setminus {\cal P}} \psi_\beta \cdot \varphi_\beta (x),$ где ${\cal R}$ – множество вершин ИГ , ${\cal P}$ – множество переключательных вершин ИГ , $\psi_\beta$ – количество ребер, исходящих из вершины $\beta$ .

Скажем, что базовое множество ${\cal F}$ измеримое, если каждая функция из ${\cal F}$ – измеримая (относительно алгебры $\sigma$ ). Далее всюду будем предполагать, что базовое множество измеримое. В этом случае для любого ИГ над ${\cal F}$ функция как функция от измерима.

Сложностью ИГ назовем математическое ожидание величины , то есть число Сложностью задачи при базовом множестве ${\cal F}$ назовем число $T(I,{\cal F})=\inf \{T(U):U\in{\cal U}(I,{\cal F}) \},$ где ${\cal U}(I,{\cal F})$ – множество всех ИГ над базовым множеством ${\cal F}$ , разрешающих ЗИП .

2. Задача поиска идентичных объектов состоит в поиске в множестве объекта, идентичного объекту-запросу, и формально принадлежит типу ${S_{id}}=\langle [0,1], [0,1], = ,\sigma,{\bf P} \rangle$ . Задачи о близости состоят в поиске в линейно-упорядоченном множестве объекта, ближайшего к объекту-запросу, и принадлежат типу: ${S_{ne}}=\langle [0,1], [0,1],{\rho_{ne}},\sigma,{\bf P} \rangle,$ где ${\rho_{ne}}$ задается на $[0,1]\times V$ и определяется соотношением $x{\rho_{ne}}y \Longleftrightarrow (y\in V)\& (x\leq y)\& (\neg (\exists y')((y'\in V)\& (x\leq y')\& (y'< y))).$ Справедлива теорема [2].

Теорема 1 Пусть

– ЗИП типа ${S_{id}}$ или типа ${S_{ne}}$ , ${\cal F}$ – базовое множество, содержащее арифметические операции и операции сравнения. Тогда $1<T(I,{\cal F})<2$ .

Задача включающего поиска принадлежит следующему типу:
$S_b=\langle B^n, B^n,{\succeq},\sigma,{\bf P}\rangle,$ где – единичный -мерный куб, ${\succeq}$ – отношение частичного порядка на "не меньше по-компонентно", ${\bf P}$ – равномерная вероятностная мера на . Справедлива теорема [3].

Теорема 2 Пусть базовое множество имеет вид ${\cal F}=\langle F,\emptyset\rangle$ , где $F\subseteq {\cal M}^n$ и ${\cal K}^n\subseteq F$ , и ${\cal M}^n$ – множество монотонных булевых функций, а ${\cal K}^n$ – множество элементарных монотонных конъюнкций. Тогда для любой ЗИП

типа

$T(I,{\cal F})\geq 2 R(I)$ и существуют такие ЗИП

типа

, что при $n \rightarrow \infty$ $T(I,{\cal F})= 2 R(I) (1 +\bar{o}(1)).$

Задача о доминировании состоит в поиске в конечном подмножестве -мерного пространства всех тех точек, которые не больше по каждой из компонент чем запрос, являющийся в данном случае точкой -мерного пространства. Пусть ${X_n}={[0,1]}^n$ . Отношение поиска ${\rho_1}$ определено на ${X_n}\times {X_n}$ и задается следующим соотношением: $(x_1,x_2,\ldots ,x_n){\rho_1}(y_1,y_2,\ldots ,y_n) \Longleftrightarrow y_i \leq x_i,\ i=\overline{1,n}.$ Тогда тип ${S_d}= \langle {X_n},{X_n},{\rho_1},\sigma,{\bf P}\rangle$ назовем типом задачи о доминировании. Задача интервального поиска состоит в поиске в конечном подмножестве -мерного пространства всех тех точек, которые попадают в -мерный параллелепипед-запрос. Пусть ${X_{in}}=\{ \tilde{x}=(u_1,v_1,\ldots ,u_n,v_n): 0\leq u_i \leq v_i \leq 1,\ i=\overline{1,n}\}$ . Отношение поиска ${\rho_2}$ определено на ${X_{in}}\times {X_n}$ и задается следующим соотношением: $(u_1,v_1,\ldots ,u_n,v_n){\rho_2}(y_1,\ldots ,y_n) \Longleftrightarrow u_i\leq y_i \leq v_i,\ i=\overline{1,n}.$ Тогда тип ${S_{in}}= \langle {X_{in}},{X_n},{\rho_2},\sigma,{\bf P}\rangle$ назовем типом интервального поиска. Справедлива следующая теорема [2,4].

Теорема 3 Пусть

– ЗИП типа ${S_d}$ ,

– ЗИП типа ${S_{in}}$ , ${\cal F}$ – базовое множество, содержащее арифметические операции и операции сравнения. Тогда $0 < T(I_1,{\cal F})-R(I_1)\leq 2\,n-1,$ $0 < T(I_2,{\cal F})-R(I_2)\leq 4\,n+1.$

Литература

1

Гасанов Э. Э. Информационно-графовая модель хранения и поиска данных. Интеллектуальные системы (1998) 3, 3-4, 163-192.

2

Гасанов Э. Э. Мгновенно решаемые задачи поиска. Дискретная математика (1996) 8, 3, 119-134.

3

Гасанов Э. Э. Нижняя оценка сложности информационных сетей для одного отношения частичного порядка. Дискретная математика (1996) 8, 4, 108-122.

4

Гасанов Э. Э. Функционально-сетевые базы данных и сверхбыстрые алгоритмы поиска. Изд. центр РГГУ, Москва, 1997.

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (грант 98-01-00130)

ДАН (2000) 374, N 4.

Наверх

Написать вебмастеру

Последние новости - в телеграм-канале кафедры МаТИС:

Решение проблемы оптимального синтеза информационных графов для базовых задач поиска информации

Гасанов Э.Э.Кафедра математической теории интеллектуальных систем, механико-математический факультет МГУ им М.В.Ломоносова

Литература

Гасанов Э.Э.
Кафедра математической теории интеллектуальных систем, механико-математический факультет МГУ им М.В.Ломоносова