Дополнительная информация:
В программе
FNDup поиск дубликатов осуществляется двумя способами. Поиск полностью идентичных файлов методом
Fast Scan и методом
"Сканирование по схожести в %".
- Метод "Быстрое сканирование (Fast Scan)" анализирует начальные 8 КБ данных для ускорения, затем программа группирует файлы с одинаковым размером. Для таких групп вычисляется контрольная сумма (хэш-значение) по алгоритму MD5. Точность определения дубликатов в тестах показал 100%
- Метод "Сканирование по схожести в %". Метод предназначен для поиска похожих файлов, на основе их названий. В основе лежит алгоритм SequenceMatcher (библиотека difflib), который сравнивает названия файлов в нижнем регистре.
Представьте такую ситуацию: у вас есть папка с приложениями, с документами или программами. Со временем, если не следить за порядком, может накопиться различные версии одни их тех приложений или программ, документов, копии которых вы создадите.
Например:
Приложения Android разных версий:
- AirDroid 8.7.6.apk
- AirDroid 9.4.0 Google Play.apk
- AirDroid 9.6.1 Pro.apk
Программы для ПК разный версий:
- Adobe Photoshop 2026
- Adobe Photoshop CS6
Документы:
- Реферат Маркетинг.docx
- Реферат Маркетинг копия.docx
- Реферат Маркетинг копия (2).docx
Такие данные не будут полностью идентичны. Классические программы и методы по поиску дубликатов в таких данных не увидят дубликаты. Тут и поможет метод
"Сканирование по схожести в %".
Вы самостоятельно устанавливаете порог чувствительности. Например, при пороге чувствительности 80-85% программа определит все вышеуказанные примеры как дубликаты.
Метод позволяет искать не только файлы, но и дублирующиеся папки. Для оптимизации скорости программа игнорирует пары файлов, у которых разница в длине имен превышает 20 символов.