Обзор средств проверки уникальности контента

Иногда защитники авторских прав превращают саму идею охраны интеллектуальной собственности в фарс. Порой складывается впечатление, что вот-вот появится некто, кто запатентует алфавит и начнет взымать со всех людей на планете деньги за использование букв в переписке. Охрана прав на музыкальные произведения, фильмы, программное обеспечение – все это настолько надоело обычным людям, что когда происходит «торжество справедливости» и правоохранительные органы закрывают очередные файлообменные сети, либо накрывают сеть сбыта пиратских дисков, общественность оказывается далеко не всегда на стороне законных владельцев авторских прав, а сочувствие вызывает, скорее, другая сторона.

Несмотря на подобное отношение многих людей к этой проблеме, иногда установить подлинность авторских прав действительно необходимо. Хотя бы для того, чтобы изобличить обычную ложь, ведь если человек присвоил результат чужой работы, это равносильно краже. Пожалуй, самый часто встречаемый пример такого воровства — плагиат текста.

Если посмотреть в толковом словаре значение слова «плагиат», можно увидеть примерно следующее: «умышленное присвоение авторства чужого произведения». Практически каждый из нас хотя бы раз в жизни списывал у товарища домашнее задание в школе. В каком-то смысле, это тоже плагиат. Разница между приведенной трактовкой и привычным для многих пониманием этого слова заключается лишь в том, что последствия «детского» преступления не столь заметны, как в случае со «взрослым» заимствованием чужого текста. Когда человек выдает чужие мысли за свои и, к тому же, получает за это материальное вознаграждение, он тем самым нарушает закон и совершает преступление.

Как отличить плагиат от оригинальной работы автора? Если бы на этот вопрос можно было дать простой ответ в нескольких строчках, проблемы плагиата (по крайней мере, заимствования текста) не существовало бы вообще. Но все не так просто. Даже когда подозревается вероятность плагиата между двумя текстами, определить идентичные фрагменты довольно сложно. Представьте себе ситуацию, когда у редактора на руках две рукописи, которые следует сравнить. Плагиат может быть полным, а может быть и частичным. Как отыскать одинаковые фрагменты? А если такой «второй рукописи» нет вообще, то как в этом случае проверить, не украден ли текст? Конечно, наиболее эффективный метод борьбы с плагиатом — поиск аналогов в интернете.

И тут мы сталкиваемся с очередной проблемой. Многие плагиаторы прекрасно понимают, что тщательный поиск в глобальной сети может выдать их аферу. Поэтому часто применяется технология рерайтинга (от английского слова rewrite – «переписывать»). Вот простой пример рерайтинга. Исходное предложение: «Эффективность работы за компьютером во многом зависит от того, насколько быстро можно задействовать тот или иной инструмент Windows». Переписанный вариант: «Производительность пользователя, при работе с ПК, напрямую зависит от скорости доступа к различным системным функциям». Второй вариант выглядит грубее, но процент совпадения текста довольно низкий, поэтому обычный метод сравнения в этом случае не очень эффективен. Мы говорим «не очень», поскольку обычно статья все же содержит некоторый набор терминов, к которым нельзя подобрать синонимы. Именно поэтому не очень искусного рерайтера легко «поймать» так же, как и классического плагиатора.

Если вы полагаете, что проблема рерайтинга появилась только недавно, с возникновением интернета, вы ошибаетесь. На самом деле, подобный вариант плагиата уходит корнями далеко в прошлое. В истории человечества известно немало фактов, когда известные писатели страдали от того самого «рерайтинга», которым сейчас так наполнен интернет.

Например, нельзя не вспомнить легендарное произведение Владимира Гиляровского «Москва и москвичи», описывающее дореволюционную Россию. Одна из запоминающихся сцен в этой книге — разговор в кабачке издателя с «литературным рабом», где в качестве задания автору предлагается заново переписать популярное произведение Николая Васильевича Гоголя «Тарас Бульба» – с аналогичной, но слегка измененной сюжетной линией. Вам это ничего не напоминает?

Такой вариант нарушения авторских прав, как использование чужих идей и придуманных образов, тоже придуман не вчера. Например, знаменитый испанский писатель Мигель де Сервантес Сааведра, автор легендарного «Дон Кихота», был немало удивлен и разгневан, увидев в 1615 году в продаже второй том этой книги, написанный никому не известным Алонсо Фернандесом Авельянедой несколькими годами ранее. Считается, что этот эпизод пагубно отразился на здоровье Сервантеса и приблизил его скорую смерть.

Есть и другие примеры заимствования идеи. Так, например, два очень хороших и любимых нами автора, Джон Бойнтон Пристли и Герберт Уэллс, написали очень похожие по стилю произведения — «Другое место» и «Белая дверь в зеленой стене». Сейчас трудно сказать, заимствовал ли один из авторов у другого. В этих рассказах нет общих имен, да и сюжет похож лишь частично. Но, с другой стороны, ведь в то время не было компьютеров, поэтому украсть кусок чужого произведения было гораздо более трудоемко, чем в наши дни – необходимо было, по крайней мере, переписать его из чужой книги в свою. Современным плагиаторам живется гораздо лучше – писать ничего не нужно, достаточно просто скопировать текст из источника и вставить его в свою «рукопись».

Все способы борьбы с плагиатом мы разделили на две большие группы: программные методы поиска плагиата и интернет-сервисы.

Программы для обнаружения плагиата

Advego Plagiatus 1.0.1 Beta

  • Разработчик: «Адвего»
  • Размер дистрибутива: 1,23 Мб
  • Распространение: бесплатно

Данная утилита выполняет поиск аналогичного текста по специальной базе, составленной, по словам авторов программы, из большого числа ресурсов. Для определения подлинности текста Advego Plagiatus использует два метода анализа уникальности – простой и глубокий. Первый метод используется программой по умолчанию и работает несколько быстрее. Второй способ более точный, но требует больше времени на поиск схожих фраз и словосочетаний в интернете.

Процедура поиска аналогичных фрагментов в других онлайновых публикациях может занимать от одной до нескольких минут. Чтобы сократить время ожидания, в настройках проверки текста можно установить пороговое значение уникальности, при котором уже можно делать вывод о том, что статья переписана или скопирована. Если Advego Plagiatus определит, что значение уникальности ниже порогового, он прекратит поиск.

Для проверки можно использовать как готовый текст, вводя его в поле редактора, так и ссылку на уже опубликованный материал. При вводе ссылки программа анализирует код страницы, автоматически определяя текст статьи. Текст, полученный из ссылки, можно посмотреть на вкладке «Чистый» документ». После того, как статья по ссылке будет обнаружена, можно жать на кнопку «Проверить уникальность», и программа начнет исследовать полученный контент.

По завершению процесса обработки данных на экране появится вердикт программы. В предоставленном отчете показывается степень уникальности текста, процент совпадения, а также источники, откуда этот материал мог быть украден.

Advego Plagiatus распространяется бесплатно и в большинстве случаев точно идентифицирует плагиат. Кроме того, утилита не требует установки и регулярно обновляется. Программа может работать, используя соединение через прокси-сервер.

Double Content Finder 1.2

  • Разработчик: TextBroker
  • Размер дистрибутива: 400 кб
  • Распространение: бесплатно

Утилита Double Content Finder работает очень просто – вы вводите текст, ссылку на интернет-публикацию или выбираете текстовый файл на жестком диске, после чего нажимаете кнопку «Далее». Программа начинает поиск в интернете и, в случае обнаружения идентичных материалов, показывает ссылки на источники плагиата. Максимальное количество предоставляемых ссылок на источники – 50.

Приложение работает полностью автономно — нет никаких настроек, отсутствуют какие-либо параметры уточнения запроса. Утилита бесплатная и воспринимает русский текст.

К сожалению, движок Double Content Finder несовершенен. Программа ориентирована главным образом на поиск идентичных текстов. Малейший рерайтинг, и утилита уже воспринимает текст как уникальный, хотя он таковым может и не являться. В связи с низкой эффективностью определения плагиата, эту утилиту мы бы рекомендовали использовать для поиска ресурсов, которые занимаются копированием уникального авторского контента без получения разрешения от правообладателя.

Praide Unique Content Analyser 2

  • Разработчик: com-seo.ru
  • Размер дистрибутива: 3,9 Мб
  • Распространение: бесплатно

Praide Unique Content Analyser 2 предоставляет гораздо более гибкий инструмент для поиска плагиата, чем описанный выше Double Content Finder. Программа работает с одним из трех вариантов ввода данных – со ссылкой на web-страницу с проверяемым текстом, с файлом в формате TXT или HTML, а также с текстом, введенным вручную или вставленным из буфера обмена. Если для проверки текста выбрана ссылка на страницу, программа покажет весь обнаруженный на странице текст и даст пользователю возможность убрать ненужные слова.

Анализ текста происходит очень медленно, дольше всех сервисов и приложений, рассмотренных в этой статье. В какой-то степени это объясняется большим количеством запросов, отсылаемых программой. Утилита Praide Unique Content Analyser использует для проверки аутентичности текста сразу несколько проверенных поисковых систем: Yahoo, «Яндекс», Mail.Ru, Google, причем в настройках можно указывать, к каким именно поисковикам следует прибегать в процессе исследования контента. Для продвинутых пользователей в программе предусмотрена отдельная возможность добавления новой поисковой системы.

Чтобы проверка текста приложением не мешала основной работе пользователя, можно использовать фоновый режим. Эта опция весьма кстати, ведь общее время проверки может занимать более часа.

В настройках программы можно использовать защиту IP-адреса, чтобы ее не блокировали поисковые системы, принимая за робота. Кроме этого, Praide Unique Content Analyser поддерживает соединение через прокси-сервер, позволяя работать со списками таких серверов.

Онлайн-сервисы для оценки уникальности текста и определения плагиата

Copyscape

Проект Copyscape — это разработка компании Indigo Stream Technologies Ltd. Он является одним из самых лучших web-инструментов, с помощью которого можно вывести на чистую воду недобросовестного автора.

Бесплатный сервис Copyscape работает по принципу поисковой системы, проверка плагиата сводится к поиску аналогичного содержания в интернете. В поле поиска вводится адрес страницы, на которой опубликован текст, после чего движок обрабатывает запрос и выдает несколько адресов страниц, которые содержат текст, наиболее похожий на тот, что присутствует на проверяемом ресурсе. Если перейти по одной из предложенных ссылок, можно посмотреть, какая именно часть текста совпадает — на новой странице одинаковые фразы и слова будут выделены цветом.

Сами разработчики подчеркивают, что сервис является лишь инструментом для поиска одинаковых текстов, а делать вывод о наличии плагиата может лишь сам пользователь, ведь не исключены ошибочные совпадения.

Помимо бесплатного поиска плагиата в сети, сервис Copyscape предлагает ряд платных услуг, в числе которых — ежедневный или еженедельный мониторинг интернет-страниц на предмет появления плагиата, возможность пакетного выполнения проверок (до 10 000 страниц одновременно), анализ офлайнового контента. Коммерческая версия проекта также дает возможность установить список ресурсов, которые движок Copyscape не будет использовать для проверки плагиата.

Проект Copyscape не только предоставляет онлайновый сервис для определения фактов кражи чужого текста, но также содержит немало полезной информации. Так, в частности, тут можно найти рекомендации относительно того, каким образом можно отстаивать свои авторские права, а также как следует поступить автору, если он стал свидетелем плагиата. Кроме этого, на форуме  Copyscape образовалось целое сообщество, которое совместными усилиями борется с этим явлением и делится опытом.

«Антиплагиат»

Система «Антиплагиат» ориентирована, главным образом, на поиск плагиата в студенческих работах. Базовая версия сервиса бесплатна, но есть и коммерческий вариант – система «Антиплагиат.ВУЗ», разработанная специально для высших учебных заведений.

Онлайновый сервис предоставляет два варианта проверки на наличие плагиата: быстрый и подробный.

Сервис быстрой проверки дает возможность проанализировать набранный текст, однако при этом имеет некоторое ограничение — введенный в специальное поле текст не может содержать более пяти тысяч знаков.

Если же требуется проверить статью или другое произведение большего объема, следует использовать второй вариант проверки. Для этого нужно использовать возможности специальной админ-панели, в которую можно попасть после регистрации на сайте. После активирования учетной записи на сайт можно будет загрузить текстовые документы (предварительно обязательно заархивировав их в формат RAR или ZIP). Размер загружаемых файлов не должен превышать 20 мегабайт. Сервис распознает текст в документах RTF, PDF, TXT, HTML, DOC (MS Word).

Файл отчета, подготовленного сервисом, может быть сохранен на жестком диске для просмотра в режиме офлайн. Правда, для этого необходимо установить специальное средство для просмотра отчетов системы антиплагиата Antiplagiat ReportViewer. Скачать это утилиту можно здесь.

К сожалению, эффективность работы данного сервиса ниже средней. Время, которое тратится на анализ схожей информации, очень велико — небольшой файл, загруженный нами в базу данных сервиса, обрабатывался минут десять, причем результат оказался неудовлетворительным, поскольку очевидный плагиат не был распознан.

Создатели этой системы утверждают, что их метод обнаружения совпадений имеет множество степеней защиты от рерайтинга — поиск синонимов, анализ измененных знаков препинания и т.д. Тем не менее, на практике оказывается, что все эти хитрости бессильны перед обычным «копи-пастом». Судя по всему, база данных движка, по которой определяются схожие фрагменты произведения, недостаточна для того, чтобы с высокой долей достоверности находить заимствование.

Miratools

Miratools – один из наиболее удачных отечественных сервисов для определения ворованного контента. Сервис существует в двух версиях — промо (бесплатной) и коммерческой. Первый вариант, разумеется, содержит ограниченные возможности.

Во-первых, на промо-версии Miratools количество проверок не может быть более десяти в сутки. Во-вторых, количество знаков в «пробном фрагменте» не может превышать 3000. Достоверность определения плагиата сервисом Miratools хорошая, однако скорость обработки текста довольно низкая, от сервера долгое время может не быть ответа, и может показаться, что сервис «забыл» про то, что пользователем был сделан запрос.

Заключение сервиса Miratools о достоверности текста содержит процент уникальности текста — чем выше этот показатель, тем меньше найдено плагиата. В проверенном фрагменте выделены те участки, которые совпали с аналогичным текстом на одном или нескольких интернет-ресурсах. Если поднести курсор к выделенному тексту, появится всплывающее окно, в котором будет отображена фраза и группа ссылок, где встречается это словосочетание или предложение. Таким образом, можно увидеть не просто список сайтов, откуда украден текст, но и проследить, какая его часть откуда была заимствована.

В платной версии Miratools есть много дополнительных полезных опций — возможность проверки группы текстов, планировщик заданий с возможностью регулярной онлайновой проверки, ручная настройка параметров Шингл (число слов, по которым будет сделана выборка) и ГАП (участок текста, пропускаемый после обнаружения выборки с плагиатом).

FIndCopy

Российский сервис FindCopy позволяет проверить статью, размещенную по указанной ссылке, или сам текст. Результат проверки — адреса источников, где движок обнаружил искомый текст. Также напротив каждого результата есть ссылка «сравнить текст», которая позволит открыть страницу, где помимо оригинального текста (если был введен URL интернет-страницы, то сервис покажет только текст на ней) будет в отдельном фрейме показана копия сайта, где предположительно расположен заимствованный текст. В подозреваемой копии с помощью подсветки выделяются одинаковые фразы.

При использовании бесплатной проверки текста придется терпеть следующие ограничения: список результатов сервиса будет состоять только из пяти пунктов, а проверку можно будет делать не чаще, чем один раз в две минуты. Также будет ограничено время хранения результатов быстрой проверки — не более семи дней. Все эти ограничения снимаются в платной версии.

На сервисе FindCopy присутствует еще одна несложная, но полезная функция, с помощью которой также можно искать ворованный текст — сравнительный анализ двух текстовых фрагментов. Процент определения плагиата на этом сервисе высокий, это видно даже при столь небольшом списке выдаваемых результатов.

Istio.com

Российский сервис Istio.com использует для проверки текста две крупные поисковые системы – «Яндекс» (для текстов на русском языке) и Yahoo! (для англоязычных текстов). Введя текст в специальную форму, можно быстро узнать, является ли он уникальным. Если текст не уникальный, сервис сразу же сообщит об этом и предоставит ссылки на сайты, на которых он был обнаружен.

После обработки введенной ссылки сервис подсчитывает объем текста и выдает статистику, в том числе количество символов с учетом пробелов и без них, TOP-10 наиболее часто встречаемых слов, количество слов. Сервис также пытается определить приблизительную тематику текста.

Сервис также может выполнять проверку орфографии и разбирать содержимое на слова. Так, можно просмотреть все слова, которые использовались автором в тексте, исключая так называемые стоп-слова (это, как правило, предлоги и другие часто используемые слова, которые сами по себе не несут никакой смысловой нагрузки).

Еще одна интересная функция этого сервиса – составление карты текста. Карта текста чем-то напоминает облако тегов, которое можно часто встретить на страницах современных сайтов. Составляющие этого облака – слова, которые часто встречаются в тексте. Чем чаще упоминается слово, тем больше его размер на карте. Благодаря этому, можно с первого взгляда определить, какие слова встречаются в тексте чаще всего.

Поисковик — самый простой способ выявления плагиата

Как мы убедились, существует достаточно много сервисов и программ для поиска плагиата. Однако существует еще один, самый простой и быстрый способ определения уникальности текста – скопировать из нее фразу, заключить в кавычки и выполнить поиск в Google, в «Яндексе» или в другом поисковике. Можно также использовать поисковую машину Nigma.ru, которая выполняет поиск сразу в нескольких системах: «Яндекс», Google, «Рамблер», Bing, Yahoo, Altavista, Aport и в собственной базе Nigma. Возможно, таким способом не всегда удастся обнаружить плагиат (особенно если статья или реферат были скопированы не полностью), однако явное нарушение авторских прав поисковые машины сразу же покажут.

Заключение

Проблема поиска плагиата — головная боль не только для пострадавшего автора, у которого украли текст. Помимо авторов, которые несут прямые убытки, связанные с этим правонарушением, серьезно страдают крупные издательства, случайно опубликовавшие недобросовестный текст. К таким издательствам вполне могут быть предъявлены иски потерпевшей стороны. Вдобавок, плагиат подрывает имидж и доверие, поэтому для организаций, которые сотрудничают с авторами, инструменты для проверки подлинности текста просто необходимы. Надеемся, что эта статья поспособствует тому, чтобы у нарушителей авторских прав стало меньше шансов нажиться на труде честного человека.

ЗЫ. Примечание от автора блога 🙂 Просто не могу пройти мимо этой полезной статьи на 3dnews.ru и не опубликовать ее у себя 🙂