У Бога все живы

Российский Родословный Фонд

Главная страница Поиск персоны О сайте Участники Пользователям Сотрудникам
Проблемы
Новости
Логин:
Пароль:

Проблемы

Основным критерием заполнения базы данных принят критерий достоверности информации, особенно родственных связей. Но, как в любой работе, в базе данных не избежать фактических ошибок. Не предполагается хранить разные противоречащие друг другу версии родства, даже если они и зафиксированы в литературе. В таких случаях ответственный за базу данных выбирает (сам или после консультаций со специалистами) для хранения версию родства, которую как эксперт считает правильной, а остальные версии можно приводить в комментариях к биографиям обсуждаемых персон. Таким образом, алгоритмы выборки по генеалогическим запросам всегда имеют дело с непротиворечивой (в генеалогическом смысле) базой данных. А внесенные ошибочные данные легко исправляются по мере углубления наших знаний. Для удобства исследователей список сомнительных мест в базе данных, или пока никак не разрешенных осложнений при заполнении базы данных будет приводиться отдельно и в алфавитном порядке по фамилиям.

Очень распространен подход, по которому достаточным основанием принятия некоторой версии родословия служит официальное утверждение ее департаментом герольдии. Мы ставим во главу угла первоисточники – сохранившиеся документы, более или менее современные зафиксированным в них событиям, конечно, когда мы об этих документах знаем. При этом сам процесс заполнения базы данных несколько противоречив. Чем больше в нем персоналий, тем легче анализ исходных данных при внесении их в б/д. Но каждая новая персона в источниках – это очень часто повод для принятия решения при большой степени неопределенности – и, следовательно, повод к совершению ошибки. Заложенный в интерфейсе метод автоматического поиска похожих персон – оказывает существенную поддержку для повышения уровня достоверности вносимой информации. Он концентрирует внимание заполняющего базу данных оператора-исследователя в сомнительных случаях. Но чудес не бывает – не всегда удается избежать ошибок, заложенных в предыдущих построениях, из которых черпается информация. Иной раз удается хотя бы отметить себе сомнительность построения родовых связей в надежде на будущие специальные исследования. Большую надежду питают авторы на конструктивную критику пользователей – выявление ошибок в построениях и указание на источники правильной версии.

Главный вопрос, который волнует разработчиков, как организовать совместную работу по полноценному заполнению б/д, но отступать от принципа централизованного ввода (или какой-то формы утверждения) генеалогической информации авторы не намерены. Значит, эту проблему остается решать во-первых, организационными мерами; во-вторых, расширением интерфейсов ввода и коррекции структурированной биографической информации и в-третьих, создания специфических запросов по поиску информации в базе данных.

Характерной особенностью этого сайта является выбранный подход хранения генеалогической информации в базе данных, а не в готовых, принятых для публикаций формах подачи материала. Каждая запрошенная страница готовится сервером генеалогического приложения на лету. Такой подход обеспечивает:

  • представление в обозримом виде разнообразных выборок из общего набора лиц;
  • непротиворечивость разных типов генеалогических представлений;
  • возможность быстрого исправления обнаруженных ошибок;
  • и постепенного наполнения и коррекции уже действующего сайта.

Поясним последний пункт. Сегодняшнее состояние российской генеалогии таково, что некоторые роды разработаны довольно подробно и тщательно, но и в них встречаются такие брачные связи, которые непосредственно выводят исследователя на неизученный род. Это с одной стороны не должно препятствовать работе с более или менее изученными родами, а с другой стороны должно привлекать внимание пользователей к белым пятнам, строго говоря, текущей версии базы данных, а часто, и вообще русской генеалогии.

При запуске описанного проекта нетрудно представить себе многочисленные направления расширения его информационной тематики, от описания усадеб, связанных с лицами, до служебного положения лиц или полученных ими наградах и т.д. Можно также говорить о разных вариантах представления информации вплоть до динамического представления жизни выбранного рода. Но авторы считают, что вопрос расширения тематики и разнообразия представлений может быть актуален только после значительного наполнения базы данных. (По нашему мнению должно быть не менее 300 тысяч человек.) Информационные возможности в базе данных имеют два основных аспекта: принципиальная возможность занесения, хранения и быстрой выборки некоторых структур, определяющих предметную область, и наполненность конкретной информацией по данной предметной области. Поэтому и расширение программного обеспечения под конкретную предметную область должно определяться желанием каких-либо лиц внести заметное количество соответствующей информации. Например, нетрудно дополнить программное обеспечение возможностью ввода библиографии, т.е. ссылок на публикации и/или архивное хранение дневников и воспоминаний конкретных лиц из базы данных, так чтобы запросами получать соответствующие выборки. Но для этого кто-то должен взяться за внесение этой информации сначала из опубликованных указателей (см. Воспоминания и дневники XVIII-XX вв. М., 1976; История дореволюционной России в дневниках и воспоминаниях, во многих томах и частях, и т.д.), а потом и дополнять по текущей литературе. Аналогично, можно говорить о создании указателя по родословным и/или фрагментам родословий, привязанных к фамилиям. Или, например, о связи конкретных лиц с имениями и усадьбами.

Итак, основная проблема, нами не решенная, это распределенное заполнение базы данных. Сейчас уже есть многочисленные примеры генеалогических баз данных (смотри, например, М.Б.Петриченко. Компьютер в генеалогических исследованиях. М., 2004; Бычкова М.Е., Смирнов М.И. Генеалогия в России: история и перспективы. М., 2004), в том числе и на основе Wiki-технологий (Родовид). Будущее покажет насколько эта популярная технология применима в такой специфической области знаний, какой является генеалогия. Мы сознательно не применяем Wiki-технологию, так как считаем, что основным требованием к генеалогической базе данных является ее непротиворечивость и адекватность в области родственных отношений. А к этому можно стремиться, только пропуская всю вводимую информацию в этой части через редакционный коллектив. Биография же, напротив, имеет локальное значение, и поэтому возможные ошибки в ней менее опасны для пользователей.

Специфичность генеалогической б/д, по нашему представлению, заключается в двух аспектах:

  1. необходимость работы с неопределенными и размытыми данными,
  2. наличие стандартных генеалогических запросов, а именно:
    • построения родового древа,
    • дерева потомков,
    • дерева предков,
    • возможно, еще некоторых.
Первый пункт носит технический характер. Второй пункт и делает базу данных генеалогической. Подчеркнем, до тех пор, пока мы храним всю информацию о людях, вплоть до их родителей и детей, но не можем автоматически (в приемлемых временных рамках) обработать ни одного из генеа-запросов и представить результаты в наглядном виде – это все еще биографическая б/д, а не генеалогическая, какие бы удобные средства последовательного просмотра лиц одного рода там ни были.

При заполнении базы данных каждое вновь вводимое лицо должно автоматически проверяться на наличие или отсутствие его в базе данных. Эта задача на самом деле очень непростая, так как при вводе мы обычно ограничены в знаниях о вводимом лице. Это касается и имен, и отчеств, и дат жизни. Даже русские фамилии часто имеют вариативное написание, тем более разнообразен перевод на русский язык иностранных фамилий. Иногда мы в источниках встречаемся с разным написанием фамилии даже для одного лица, а тем более для разных лиц из одного рода. Типичен также разброс в датах рождения и смерти – один-два года сдвига при этом вообще можно считать нормой для многих источников информации, не говоря уж о том, что зачастую человек упоминается и вовсе без дат жизни. Кроме того, то, что мы знаем о человеке в момент ввода, может не совпадать с той информацией, с которой он уже хранится в базе данных. Например, вводим лицо с датой рождения, а в базе данных известен только год смерти. То же относится и к биографическим данным о вводимом лице. Бывает трудно оценить насколько эти данные противоречат или соотносятся с данными сравниваемого лица. Всё это подталкивает оператора-исследователя к ошибочным решениям, приводящим к дублированным записям одного лица. Поэтому должны применяться эвристические алгоритмы сравнения лиц при вводе. Занося лицо в базу данных, мы предполагаем, что его там еще нет – и неизбежно сталкиваемся с ошибками двух родов.

  • Ошибка первого рода – ошибка объединения – рассмотрев содержимое базы данных, мы (ошибочно!) посчитали некоторое лицо в ней совпавшим с вводимым, и вместо ввода нового лица корректируем информацию о имеющемся другом лице.
  • Ошибка второго рода - ошибка дублирования - рассмотрев содержимое базы данных, мы (ошибочно!) посчитали, что вводимого лица еще нет и занесли его как новое лицо, тем самым продублировав его.
Количество допущенных ошибок при вводе существенно зависит от качества алгоритма сравнения лиц. Поэтому мы очень настороженно относимся к декларируемым возможностям автоматического "втягивания" фрагментов чужих баз данных. При этом имеют в виду только техническую возможность дополнить свою базу данных информацией из другой базы данных, а качество (в генеалогическом смысле) объединенной таким образом базы данных вовсе не обсуждается.

Естественно, наполнение базы данных опирается на весь корпус российских родословий, изученных в предшествующие эпохи. Поэтому дворянское сословие представлено существенно полнее прочих. Но это не принципиальная установка. Родословия всех сословий будут представлены в базе данных, тем более, что относительная сословная изолированность, наблюдавшаяся в прежние века, давно ушла в прошлое, а в 20-м веке практически изжила себя. Основная установка, да и то нестрого выполняемая, состоит в том, чтобы стремиться к родственной связности. Чтобы пользователь, блуждая по базе данных, переходя от одного родословия к другому родственному, воочию мог убедиться, что все люди если и не братья, то свойственники.


Покритиковать (и вообще поговорить) можно либо в разделе сайта ВГД, посвященного нашей базе данных, либо письмом администратору сайта.