Поиск похожих изображений с помощью программы Czkawka

Czkawka logo

Инструкция по поиску похожих (дубликатов) изображений посредством программы Czkawka

Установка

Программа Czkawka доступна для установки на Linux (Snap, Flatpak, AppImage), Windows (EXE), macOS (DMG) на русском языке.

Flatpak logo

Установка программы через Flatpak пакет

flatpak install flathub com.github.qarmin.czkawka

Установка другими способами


Инструкция

Интерфейс программы Czkawka

Графический интерфейс построен из разных частей:

1. Панель с выбором конкретных каталогов для использования или исключения. Также здесь указаны разрешенные расширения и размеры файлов

2. Выбор используемого инструмента

3. Главное окно результатов — позволяет выбирать, удалять, настраивать результаты

4. Нижняя панель — содержат кнопки, которые выполняют определенные действия с данными (например, их выбор) или, например, скрывают/ показывают части графического интерфейса

5. Текстовая панель — выводит сообщения/предупреждения/ошибки о выполненных действиях. Пользователь может скрыть это

6. Предварительный просмотр изображений — используется в поиске дубликатов файлов и похожих изображений. Размер нельзя изменить, но можно отключить

7. Кнопки, которые открывают окно «О программе» (показывает информацию о приложении) и настройки, в которых можно настроить сканирование


Добавление каталогов и настройка параметров сканирования

1. Первое, что нужно сделать, это добавить папки (каталоги), в которых необходимо осуществить поиск похожих (дубликатов) изображений


2. Также можно исключить каталоги, в которых не нужно осуществлять поиск похожих изображений


3. Также во вкладке “Параметры поиска” можно добавить исключаемые элементы, допустимые расширения (например, можно добавить только те форматы изображения, которые будут сканироваться: png, webp, jpg), а также можно выбрать размер файлов, которые будут просканированы



Настройка алгоритмов поиска

Далее выбираем вкладку “Похожие изображения” (слева в горизонтальном меню окна программы)

1. Здесь мы можем выбрать алгоритм масштабирования от самых быстрых, но с худшим результатом — это Nearest, и другими Lanczos3, Trianagle, Gaussian, CatmullRom


2. Также можно выбрать размер и тип хэша

Пояснения к выбору размера хэша

Каждый проверяемый образ создает специальный хэш, который можно сравнить друг с другом, и небольшая разница между ними означает, что эти изображения похожи.

8 хэшей размера достаточно хорошо, чтобы найти изображения, которые мало похожи на оригинал. С большим набором изображений (>1000) будет производиться большое количество ложных срабатываний, поэтому я рекомендую использовать такое количество размеров.

16 — это размер хэша по умолчанию, который является очень хорошим компромиссом между поиском даже небольшого размера похожих изображений и небольшим количеством хэш-коллизий.

32 и 64 хэши находят только очень похожие изображения, но у них почти не должно быть ложных положительных (может быть, за исключением некоторых изображений с альфа-каналом).

Пояснения к выбору типа хэша

Пользователи могут выбрать один из многих алгоритмов вычисления хэша.

Каждый имеет сильные и слабые точки и иногда даёт более качественные и иногда хуже результаты для разных изображений.

Поэтому для определения наилучшего из вас, требуется ручное тестирование.

3. Также можно выбрать уровень сходства (с помощью ползунка), а также можно включить “игнорировать одинаковый размер”


Далее нажимаем кнопку “Искать”

Результаты сканирования похожих изображений


Найденные похожие изображения, можно сравнить визуально сравнить изображения, а также переместить или удалить их


Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии