×

Вы используете устаревший браузер Internet Explorer. Некоторые функции сайта им не поддерживаются.

Рекомендуем установить один из следующих браузеров: Firefox, Opera или Chrome.

Контактная информация

+7-863-218-40-00 доб.200-80
ivdon3@bk.ru

  • U-образное распределение интенсивности тем в модели латентного размещения Дирихле: функция плотности распределения и метод идентификации параметров

    • Аннотация
    • pdf

    Статья посвящена описанию и математическому обоснованию U-образного распределения долей тем, возникающего в модели латентного размещения Дирихле при симметричных гиперпараметрах. Показано, что бимодальная форма обусловлена сведением Дирихле-вектора к бета-распределению, что делает традиционные одномодальные аппроксимации некорректными. Предложена составная вероятностная модель, объединяющая бета-, гамма- и пуассоновские компоненты, а также ковариационный учёт семантической связности. Параметры модели определяются методом дифференциальной эволюции по критерию, включающему расстояние Васерштейна и дивергенции Дженсена–Шеннона и Кульбака–Лейблера. На корпусе текстов информационного поля Госкорпорации «Росатом» установлено, что новая модель точнее логнормальной, Парето, экспоненциальной и нормальной аппроксимаций, позволяя надёжно характеризовать тематические потоки и поддерживать решения в задачах мониторинга больших текстовых данных.

    Ключевые слова: системный анализ, латентное размещение Дирихле, тематическое моделирование, латентное размещение Дирихле, интенсивность тематического сигнала, бета-распределение, гамма-распределение, пуассоновский процесс, дивергенция Дженсена–Шеннона

    2.3.1 - Системный анализ, управление и обработка информации