Чебышевский сборник
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Чебышевский сб.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Чебышевский сборник, 2019, том 20, выпуск 2, страницы 93–107
DOI: https://doi.org/10.22405/2226-8383-2018-20-2-93-107
(Mi cheb755)
 

Новый подход к поиску строковой медианы и визуализация строковых кластеров

Д. В. Горбачев, Е. П. Офицеров

Тульский государственный университет (г. Тула)
Список литературы:
Аннотация: Рассматривается следующая задача о поиске медианы набора строк:
$$ c=\mathrm{argmin}_{a\in U}\sum_{b\in D}d(a,b), $$
где $D\subset G^{*}$ — конечный набор строк над алфавитом $G$, $U\subseteq G^{*}$, $d$ — редакционное расстояние Левенштейна. Эта задача имеет важные приложения, например в биоинформатике при анализе белковых последовательностей. Однако известно, что в общем случае для $U=G^{*}$ задача о медиане является NP-сложной. Поэтому для приближенного решения были предложены эвристические алгоритмы, в частности, жадный алгоритм. Мы предлагаем новый гибкий подход, базирующийся на гладкой аппроксимации расстояния Левенштейна $\tilde{d}$. В его основе лежит стохастическое кодирование символьных последовательностей и следующая формула для редакционного расстояния:
$$ d(X_{1},X_{2})=\min_{(X_{1}',X_{2}'')_{e}\subseteq X_{1}\times X_{2}} \Bigl\{\frac{1}{2}\,\|X_{1}'-X_{2}''\|_{1}+|X_{1}|-|X_{1}'|+ |X_{2}|-|X_{2}''|\Bigr\}, $$
где минимум берется по всем подпоследовательностям $(X_{1}',X_{2}'')_{e}$ равной длины. С одной стороны, стохастическое кодирование расширяет класс, на котором ищется экстремум. Однако наш основной результат показывает, что медиана не меняется. С другой стороны, теперь мы можем воспользоваться гладкими методами оптимизации, если заменить минимум в определении выше его гладким приближением. Мы приводим детали реализации на основе градиентного спуска, включая рекуррентные формулы расчета $\tilde{d}$. Эффективный расчет приближенной медианы позволяет, например, применить метод $k$-средних для кластеризации строк. Мы даем способ визуализации этих кластеров на основе метода стохастического вложения соседей tSNE.
Ключевые слова: редакционное расстояние Левенштейна, строковая медиана, гладкий минимум, градиентный спуск, метод $k$-средних, визуализация строкового кластера.
Финансовая поддержка
Результаты исследования опубликованы при финансовой поддержке ТулГУ в рамках научного проекта №: НИР_2018_28.
Поступила в редакцию: 18.05.2019
Принята в печать: 12.07.2019
Тип публикации: Статья
УДК: 519.72
Образец цитирования: Д. В. Горбачев, Е. П. Офицеров, “Новый подход к поиску строковой медианы и визуализация строковых кластеров”, Чебышевский сб., 20:2 (2019), 93–107
Цитирование в формате AMSBIB
\RBibitem{GorOfi19}
\by Д.~В.~Горбачев, Е.~П.~Офицеров
\paper Новый подход к поиску строковой медианы и визуализация строковых кластеров
\jour Чебышевский сб.
\yr 2019
\vol 20
\issue 2
\pages 93--107
\mathnet{http://mi.mathnet.ru/cheb755}
\crossref{https://doi.org/10.22405/2226-8383-2018-20-2-93-107}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/cheb755
  • https://www.mathnet.ru/rus/cheb/v20/i2/p93
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Статистика просмотров:
    Страница аннотации:193
    PDF полного текста:131
    Список литературы:20
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024