(c) Larry Ewing, Simon Budig, Garrett LeSage
с 1994 г.

Кафедра Информатики и Математического Обеспечения

ПетрГУ | ИМиИТ | О кафедре | Проекты | Лаборатория ИТС | Семинары НФИ/AMICT
Сотрудники | Учебный процесс | Табель-календарь | Курсовые и выпускные работы
Вычислительные ресурсы | Публикации | Архив новостей | Контактная информация (English)

Анализатор спама

Вернуться к списку проектовНа главную страницу курса

Заказчик

ООО Плейрикс: Гавриков Иван, ivan.gavrikov@playrix.com.

Инструктор

Димитров Вячеслав Михайлович, преподаватель кафедры Информатики и математического обеспечения. Эл.почта: dimitrov@cs.karelia.ru. Раб.тел.: 711015. Офис: 215 каб.

Аннотация проекта

Разработать систему анализа сообщений приложения на предмет наличия там спама, т.е. наличия регулярно повторяющихся одинаковых или почти одинаковых сообщений или последовательностей сообщений.

Исходные данные:

  1. Файлы с данными формате txt, которые содержат набор строк с отметками времени и телом сообщения. Входной файл может быть большой длины.
  2. В общем случае отметки времени в каждой строчке разные, но не обязательно.
  3. Сообщения могут полностью или частично повторяться
  4. Последовательность из нескольких сообщений может полностью или частично повторяться. Между такими повторяющимися последовательностями могут находиться другие сообщения, которые в свою очередь тоже могут образовывать последовательность.

Обязательный функционал:

  1. Анализ данных, опираясь на все его содержимое.
  2. Анализ файла при последовательном получении каждой новой строки
  3. Сам по себе факт повторяющихся сообщений на длительном промежутке времени не является спамом. Необходимо предусмотреть регулировку или набор регулировок чувствительности.

Дополнительный функционал:

  1. Сообщения в последовательности могут повторяться не в том же порядке при повторении.
  2. Предоставить отчет анализа, в котором “подозрительным сообщениям” будет указана вероятность того, что это спам.

Ссылки

  1. Нечёткий поиск в тексте и словаре
  2. Approximate string matching

Разработчики

  1. Хромина Анна Александровна, 22305
  2. Морозова Екатерина Сергеевна, 22305
  3. Су Сонг, 22305
  4. Головко Дмитрий Олегович, 22306
  5. Сысоев Сергей Васильевич, 22306