ivdon3@bk.ru
Статья посвящена описанию и математическому обоснованию U-образного распределения долей тем, возникающего в модели латентного размещения Дирихле при симметричных гиперпараметрах. Показано, что бимодальная форма обусловлена сведением Дирихле-вектора к бета-распределению, что делает традиционные одномодальные аппроксимации некорректными. Предложена составная вероятностная модель, объединяющая бета-, гамма- и пуассоновские компоненты, а также ковариационный учёт семантической связности. Параметры модели определяются методом дифференциальной эволюции по критерию, включающему расстояние Васерштейна и дивергенции Дженсена–Шеннона и Кульбака–Лейблера. На корпусе текстов информационного поля Госкорпорации «Росатом» установлено, что новая модель точнее логнормальной, Парето, экспоненциальной и нормальной аппроксимаций, позволяя надёжно характеризовать тематические потоки и поддерживать решения в задачах мониторинга больших текстовых данных.
Ключевые слова: системный анализ, латентное размещение Дирихле, тематическое моделирование, латентное размещение Дирихле, интенсивность тематического сигнала, бета-распределение, гамма-распределение, пуассоновский процесс, дивергенция Дженсена–Шеннона