Категория > Новости > Нескучный Data Science. Пишем на языке R собственный детектор спама - «Новости»

Нескучный Data Science. Пишем на языке R собственный детектор спама - «Новости»

17-07-2020, 20:03. Автор: Mansfield

Работать в Data Science, как ты мог слышать, — престижно и денежно. В этой статье я познакомлю тебя с азами языка R, который используют в «науке о данных». Мы напишем так называемый наивный байесовский классификатор, который будет детектить в почте спам. Конструируя программу, ты увидишь, как сухая скучная математика может быть вполне наглядной и полезной. Ты сможешь написать и понять эту программу, даже если никогда не сталкивался ни с чем подобным.

Сначала, впрочем, должен предупредить, что для полного понимания будет хорошо, если ты уже знаком с азами статических методов. Я, конечно, постараюсь изложить материал так, чтобы у вдумчивого читателя, незнакомого со статистикой, тоже был шанс вникнуть в тему, но теоретические основы статистики останутся за рамками этой статьи.

Плюс я исхожу из того, что ты, с одной стороны, хорошо подкован в теории и практике программирования, разбираешься в алгоритмах и структурах данных, но, с другой стороны, еще не сталкивался с языком R. Я познакомлю тебя с ним в том объеме, которого тебе хватит, чтобы комфортно написать, запустить и понять первую программу.

Знакомимся с языком R и готовим рабочее место

Для начала посмотрим, как установить R и как в нем запускать и отлаживать программы, как искать и устанавливать нужные библиотеки (в мире R они называются пакетами), как удобно искать документацию к разным функциям.

Язык R чрезвычайно мощный в том, что касается обработки и анализа данных. Де-факто это стандарт в Data Science. Язык создан математиками-статистиками для математиков-статистиков. В нем, как и в других инструментах, предназначенных для наукоемких вычислений, самый ходовой тип данных — это вектор. Самая популярная структура данных в R — это data frame (срез данных). Срез данных представляет собой матрицу с атрибутами, которая по виду очень похожа на реляционную БД.

IDE для R качай с официального сайта. Доступны версии для трех ОС: Linux, Mac и Windows. Установка должна пройти легко, но если что-то пойдет не так, попробуй первым делом заглянуть в FAQ.

Теперь запускаем IDE. Выглядеть она будет примерно так.

Подсветка синтаксиса здесь, конечно, так себе — вернее, ее вообще нет, — так что код можно спокойно писать в каком-нибудь другом редакторе, а IDE использовать только для запуска уже готового кода. Лично я пишу на R в онлайновом редакторе на rextester.com.

Чтобы установить нужный пакет (библиотеку), используй функцию install.packages. Р’ install.packages есть полезная опция — suggests. РџРѕ СѓРјРѕР»С‡Р°РЅРёСЋ РµР№ РїСЂРёСЃРІРѕРµРЅРѕ Р·РЅР°С‡РµРЅРёРµ FALSE. Но если перевести ее в TRUE, install.packages подгрузит и установит все вторичные пакеты, на которые полагается тот пакет, который ты ставишь. Рекомендую всегда устанавливать эту опцию в TRUE, РѕСЃРѕР±РµРЅРЅРѕ РєРѕРіРґР° РЅР°С‡РёРЅР°РµС€СЊ СЃ С‡РёСЃС‚РѕРіРѕ Р»РёСЃС‚Р° Рё С‚РѕР»СЊРєРѕ-С‚РѕР»СЊРєРѕ (РїРµСЂРµ)СѓСЃС‚Р°РЅРѕРІРёР» R.

Р’РѕС‚ С‚РµР±Рµ РґР»СЏ СѓРґРѕР±СЃС‚РІР° СЃРєСЂРёРїС‚, РєРѕС‚РѕСЂС‹Р№ РїСЂРѕРІРµСЂСЏРµС‚, СѓСЃС‚Р°РЅРѕРІР»РµРЅС‹ Р»Рё РЅСѓР¶РЅС‹Рµ С‚РµР±Рµ РїР°РєРµС‚С‹. Р•СЃР»Рё РєР°РєРёРµ-С‚Рѕ РёР· РЅРёС… РЅРµ СѓСЃС‚Р°РЅРѕРІР»РµРЅС‹, СЃРєСЂРёРїС‚ РїРѕРґРіСЂСѓР¶Р°РµС‚ Рё СѓСЃС‚Р°РЅР°РІР»РёРІР°РµС‚ РёС…. РџРµСЂРµРїРµС‡Р°С‚Р°Р№ Рё СЃРѕС…СЂР°РЅРё СЃРєСЂРёРїС‚ РІ С„Р°Р№Р» update_packages.r. Сейчас он подгружает только два пакета, которые нам понадобятся, когда будем писать детектор спама. По мере необходимости можешь добавлять и другие пакеты.

Чтобы выполнить скрипт (и этот, и все остальные, которые ты напишешь), сначала переключи рабочую директорию на ту, куда его сохранил. Для этого введи в консоль R функцию setwd (РЅР°РїСЂРёРјРµСЂ, setwd("e:/work/r")). Потом выполни команду source РІРѕС‚ С‚Р°РєРёРј РѕР±СЂР°Р·РѕРј: source("install_packages.r"). Она запустит твой скрипт, и ты увидишь, как подгружаются пакеты, которые у тебя еще не установлены.

Чтобы подключить пакет к программе, используй функцию library РёР»Рё require. Например, library('tm').

Р§С‚РѕР±С‹ РЅР°Р№С‚Рё РґРѕРєСѓРјРµРЅС‚Р°С†РёСЋ Рє С„СѓРЅРєС†РёРё, РїСЂРѕСЃС‚Рѕ РІРІРµРґРё РІ РєРѕРЅСЃРѕР»Рё ?xxx, где xxx вЂ” РёРјСЏ РёРЅС‚РµСЂРµСЃСѓСЋС‰РµР№ С‚РµР±СЏ С„СѓРЅРєС†РёРё. IDE РѕС‚РєСЂРѕРµС‚ РІ Р±СЂР°СѓР·РµСЂРµ СЃС‚СЂР°РЅРёС†Сѓ СЃ РёРЅС„РѕСЂРјР°С†РёРµР№ РїРѕ СЌС‚РѕР№ С„СѓРЅРєС†РёРё.

РЎРєР°С‡РёРІР°РµРј СЃРїР°Рј

РЎРЅР°С‡Р°Р»Р° РґР°РІР°Р№ РїРѕРґРіРѕС‚РѕРІРёРј РЅР°Р±РѕСЂС‹ РґР°РЅРЅС‹С… РґР»СЏ С‚СЂРµРЅРёСЂРѕРІРєРё Рё РїСЂРѕРІРµСЂРєРё Р±СѓРґСѓС‰РµРіРѕ РґРµС‚РµРєС‚РѕСЂР°. РџСЂРµРґР»Р°РіР°СЋ РІР·СЏС‚СЊ РёС… РёР· Р°СЂС…РёРІР° Apache SpamAssassin. РџРѕ СЃСЃС‹Р»РєРµ С‚С‹ РЅР°Р№РґРµС€СЊ РїРѕРґР±РѕСЂРєСѓ РїРёСЃРµРј, СЂР°СЃС„Р°СЃРѕРІР°РЅРЅСѓСЋ РїРѕ С‚СЂРµРј РєР°С‚РµРіРѕСЂРёСЏРј: spam (СЃРѕР±СЃС‚РІРµРЅРЅРѕ, СЃРїР°Рј), easy_ham (РїСЂР°РІРѕРјРµСЂРЅС‹Рµ РїРёСЃСЊРјР°, РєРѕС‚РѕСЂС‹Рµ Р»РµРіРєРѕ РѕС‚Р»РёС‡РёС‚СЊ РѕС‚ СЃРїР°РјР°), hard_ham (РїСЂР°РІРѕРјРµСЂРЅС‹Рµ РїРёСЃСЊРјР°, РєРѕС‚РѕСЂС‹Рµ С‚СЏР¶РµР»Рѕ РѕС‚Р»РёС‡РёС‚СЊ РѕС‚ СЃРїР°РјР°).

РЎРѕР·РґР°Р№ РІ СЃРІРѕРµР№ СЂР°Р±РѕС‡РµР№ РґРёСЂРµРєС‚РѕСЂРёРё РїР°РїРєСѓ data. Перейди в нее и создай в ней еще пять папок:

easy_nonspam_learn, easy_nonspam_verify;

spam_learn, spam_verify;

hard_nonspam_verify.

РџРѕ РїР°РїРєР°Рј spam_learn и spam_verify СЂР°СЃРїСЂРµРґРµР»Рё РїРѕ-Р±СЂР°С‚СЃРєРё РїРёСЃСЊРјР° РёР· spam. По папкам easy_nonspam_learn, easy_nonspam_verify – из папки 'easy_ham'. В папку hard_nonspam_verify СЃРєРѕРїРёСЂСѓР№ РІСЃРµ РїРёСЃСЊРјР° РёР· hard_ham.

Как ты уже наверно догадался, письмами из папок _learn РјС‹ Р±СѓРґРµРј С‚СЂРµРЅРёСЂРѕРІР°С‚СЊ СЃРІРѕР№ РґРµС‚РµРєС‚РѕСЂ РѕС‚Р»РёС‡Р°С‚СЊ СЃРїР°Рј РѕС‚ РЅРµ-СЃРїР°РјР°, Р° РїРёСЃСЊРјР°РјРё РёР· РїР°РїРѕРє _verify – будем проверять, как хорошо он научился это делать.

Но почему тогда мы не создали папку hard_nonspam_learn? Р”Р»СЏ РѕСЃС‚СЂРѕС‚С‹ СЌРєСЃРїРµСЂРёРјРµРЅС‚Р°! РњС‹ Р±СѓРґРµРј С‚СЂРµРЅРёСЂРѕРІР°С‚СЊ РґРµС‚РµРєС‚РѕСЂ С‚РѕР»СЊРєРѕ С‚РµРјРё РїРёСЃСЊРјР°РјРё, РєРѕС‚РѕСЂС‹Рµ Р»РµРіРєРѕ РѕС‚Р»РёС‡РёС‚СЊ РѕС‚ СЃРїР°РјР°. Рђ РІ РєРѕРЅС†Рµ РїРѕСЃРјРѕС‚СЂРёРј, СЃРјРѕР¶РµС‚ Р»Рё РѕРЅ СѓР·РЅР°РІР°С‚СЊ РІ РїРёСЃСЊРјР°С… РёР· РєР°С‚РµРіРѕСЂРёРё hard_nonspam правомерную почту без предварительной тренировки.

Конструируем признаки

Теперь, когда у нас есть исходные данные для тренировки и проверки, нам нужно «сконструировать признаки», которые наш детектор будет выискивать в сырых текстовых файлах с письмами. Умение конструировать признаки — один из базовых навыков в Data Science. Залог успеха здесь — профессиональная интуиция, которая приходит с годами практики. Компьютеры пока еще не могут делать эту работу автомагически, вместо нас. И, скорее всего, никогда не смогут.

С другой стороны, компьютеры могут облегчить нашу работу по конструированию признаков. В частности, у R есть пакет tm (от слов Text Mining), предназначенный для анализа текстов. С его помощью мы подсчитаем, какие слова чаще всего встречаются в спаме и в не-спаме, и будем использовать их частотность в качестве признаков.

Современные детекторы спама делают значительно больше, чем подсчитывание частоты слов, но, как ты скоро убедишься, даже наш простенький детектор будет весьма неплохо отделять спам от не-спама.

В основу нашего детектора положим наивный байесовский классификатор. Логика его работы такая: если видим слово, которое в спаме встречается чаще, чем в не-спаме, то кладем его в копилку спам-признаков. По такому же принципу формируем копилку признаков для не-спама.

Как эти признаки помогут нам отделять спам от не-спама? Мы ищем в анализируемом письме оба вида признаков. Если в итоге получается, что признаков спама больше, чем признаков не-спама, значит письмо спамное, иначе — правомерное.

Вычисляя вероятности того, спам ли наше письмо, мы не учитываем, что какие-то слова могут быть взаимозависимыми. Мы оцениваем каждое слово в отрыве от всех остальных слов. На статистическом сленге такой подход называется «статистической независимостью». Когда математики-статистики исходят из такого предположения, не будучи до конца уверенными в том, что оно здесь правомерно, они говорят: «Наша модель наивная». Отсюда и название: наивный байесовский классификатор, а не просто байесовский классификатор.

Пишем функцию чтения писем из файлов

Сначала подгружаем библиотеки, которые нам понадобятся, и прописываем пути к папкам, в которых хранятся файлы с письмами.

Каждый отдельно взятый файл с письмом состоит из двух блоков: заголовок с метаданными и содержание письма. Первый блок отделен от второго пустой строкой (это особенность протокола электронной почты описана в RFC822). Метаданные нам не нужны. Нас интересует только содержимое письма. Поэтому напишем функцию, которая считывает его из файла с письмом.

Что мы тут делаем? В языке R файловый ввод/вывод осуществляется точно так же, как и в большинстве других языков программирования. Функция getMessage РїРѕР»СѓС‡Р°РµС‚ РЅР° РІС…РѕРґРµ РїСѓС‚СЊ Рє С„Р°Р№Р»Сѓ Рё РѕС‚РєСЂС‹РІР°РµС‚ РµРіРѕ РІ СЂРµР¶РёРјРµ rt (read as text — читать как обычный текст).

Обрати внимание, здесь мы используем кодировку Latin-1. Зачем? Потому что во многих письмах есть символы, которых нет в кодировке ASCII.

Функция readLines СЃС‡РёС‚С‹РІР°РµС‚ С‚РµРєСЃС‚РѕРІС‹Р№ С„Р°Р№Р» РїРѕСЃС‚СЂРѕС‡РЅРѕ. РљР°Р¶РґР°СЏ СЃС‚СЂРѕРєР° СЃС‚Р°РЅРѕРІРёС‚СЃСЏ РѕС‚РґРµР»СЊРЅС‹Рј СЌР»РµРјРµРЅС‚РѕРј РІ РІРµРєС‚РѕСЂРµ text.

После того как мы прочитали из файла все строки, ищем первую пустую, а затем извлекаем все строки после нее. Результат помещаем в вектор msg. РљР°Рє С‚С‹, РЅР°РІРµСЂРЅРѕ, РїРѕРЅСЏР», msg — это и есть содержимое письма, без заголовочных метаданных.

Наконец, сворачиваем весь вектор msg РІ РµРґРёРЅС‹Р№ Р±Р»РѕРє С‚РµРєСЃС‚Р° (СЃРј. С‡Р°СЃС‚СЊ РєРѕРґР° СЃ С„СѓРЅРєС†РёРµР№ paste). В качестве разделителя строк используем символ n. Зачем? Так его будет удобнее обрабатывать. И быстрее.

Считываем все письма со спамом

Сейчас создадим вектор, который будет содержать текстовые сообщения из всех спамных писем. Каждый отдельно взятый элемент вектора — это отдельное письмо. Зачем нам такой вектор? Мы будем с его помощью тренировать свой детектор.

Сначала мы получаем список всех файлов из папки со спамом. Но там, помимо писем, еще хранится файл cmds (служебный файл с длинным списком Unix-команд на перемещение файлов), который нам не нужен. Поэтому вторая строчка из предыдущего фрагмента кода удаляет имя этого файла из итогового списка.

Чтобы создать нужный нам вектор, воспользуемся функцией sapply, РєРѕС‚РѕСЂР°СЏ РїСЂРёРјРµРЅРёС‚ С„СѓРЅРєС†РёСЋ getMessage ко всем именам файлов, которые мы только что получили при помощи dir.

РћР±СЂР°С‚Рё РІРЅРёРјР°РЅРёРµ, Р·РґРµСЃСЊ РјС‹ РїРµСЂРµРґР°РµРј РІ sapply безымянную функцию — чтобы объединить имя файла и путь к каталогу, где он лежит. Привыкай, для языка R это весьма распространенная конструкция.

Готовим корпус текстов для спамных писем

Теперь нам надо создать корпус текстов. С его помощью мы сможем манипулировать термами в письмах (в корпусной лингвистике составные части текста, в том числе слова, называют термами). Зачем нам это? Чтобы сконструировать признаки спама для нашего детектора.

Технически это значит, что нам надо создать терм-документную матрицу (TDM), у которой N СЃС‚СЂРѕРє Рё M столбцов (N вЂ“ РєРѕР»РёС‡РµСЃС‚РІРѕ СѓРЅРёРєР°Р»СЊРЅС‹С… С‚РµСЂРјРѕРІ, РЅР°Р№РґРµРЅРЅС‹С… РІРѕ РІСЃРµС… РґРѕРєСѓРјРµРЅС‚Р°С…; M — количество документов в корпусе текстов). Ячейка [iTerm, jDoc] СѓРєР°Р·С‹РІР°РµС‚, СЃРєРѕР»СЊРєРѕ СЂР°Р· С‚РµСЂРј СЃ РЅРѕРјРµСЂРѕРј iTerm встречается в письме с номером jDoc.

Р¤СѓРЅРєС†РёСЏ getTDM получает на входе вектор со всеми текстовыми сообщениями из всех спамных писем, а на выходе выдает TDM.

Пакет tm РїРѕР·РІРѕР»СЏРµС‚ РєРѕРЅСЃС‚СЂСѓРёСЂРѕРІР°С‚СЊ РєРѕСЂРїСѓСЃ С‚РµРєСЃС‚РѕРІ РЅРµСЃРєРѕР»СЊРєРёРјРё СЃРїРѕСЃРѕР±Р°РјРё, РІ С‚РѕРј С‡РёСЃР»Рµ РёР· РІРµРєС‚РѕСЂР° РїРёСЃРµРј (СЃРјРѕС‚СЂРё С„СѓРЅРєС†РёСЋ VectorSource). Если тебе интересны альтернативные источники, набери в R-консоли ?getSources.

РќРѕ РїСЂРµР¶РґРµ С‡РµРј РєРѕРЅСЃС‚СЂСѓРёСЂРѕРІР°С‚СЊ РєРѕСЂРїСѓСЃ, РјС‹ РґРѕР»Р¶РЅС‹ СЃРєР°Р·Р°С‚СЊ РїР°РєРµС‚Сѓ tm, как надо вычищать и нормализовывать текст. Свои пожелания мы передаем через параметр control, РєРѕС‚РѕСЂС‹Р№ РїСЂРµРґСЃС‚Р°РІР»СЏРµС‚ СЃРѕР±РѕР№ СЃРїРёСЃРѕРє РѕРїС†РёР№.

РљР°Рє РІРёРґРёС€СЊ, РјС‹ Р·РґРµСЃСЊ РёСЃРїРѕР»СЊР·СѓРµРј С‡РµС‚С‹СЂРµ РѕРїС†РёРё.

stopwords=TRUE — не принимать во внимание 488 стоп-слов (распространенные слова английского языка). Чтобы посмотреть, какие слова входят в этот список, набери в консоли stopwords().

removePunctuation=TRUE и removeNumbers=TRUE вЂ” РіРѕРІРѕСЂСЏС‚ СЃР°РјРё Р·Р° СЃРµР±СЏ. РњС‹ РёС… РёСЃРїРѕР»СЊР·СѓРµРј РґР»СЏ СѓРјРµРЅСЊС€РµРЅРёСЏ С€СѓРјР° РѕС‚ СЃРѕРѕС‚РІРµС‚СЃС‚РІСѓСЋС‰РёС… СЃРёРјРІРѕР»РѕРІ. РўРµРј Р±РѕР»РµРµ С‡С‚Рѕ РјРЅРѕРіРёРµ РЅР°С€Рё РїРёСЃСЊРјР° РЅР°РїРёС‡РєР°РЅС‹ HTML-С‚РµРіР°РјРё.

minDocFreq=2 — строки в нашей TDM нужно создавать только для тех термов, которые встречаются в корпусе текстов больше одного раза.

Перейти обратно к новости