explorar

El tema de los archivos duplicados suele ser recurrente cuando tienes un disco duro pequeño y debes de controlar que éste no se llene de tanta basura. Generalmente, los archivos duplicados en el sistema cuando son bibliotecas o archivos de texto, no suelen ocupar mucho espacio en el disco pero si son cientos, sí puede ser un problema. Aparte de eso, es en el espacio de usuario donde más peso de archivos duplicados existen de mayor magnitud. dupeGuru viene en socorro de esto.

dupeGuru es una aplicación que tiene una interfaz gráfica simple e intuitiva escrita en el lenguaje Python.

dupeGuru solicita una o varias carpetas para buscar archivos duplicados, pero el programa también puede cargar los resultados de una sesión de búsqueda previamente guardada.

El programa tiene 3 modos principales, estándard, música e imágenes, como se indica en la imagen de abajo.

dp

El modo estándar es para cualquier tipo de archivos pero no ofrece características especializadas.

Hay un modo de música que escanea las etiquetas y muestra información específica de la música en las ventanas de resultados duplicados. Soporta la comparación de etiquetas y su ventana de resultados tiene muchas columnas de información relacionadas con el audio.

También hay un modo de imágenes que puede realizar búsquedas exclusivas de imágenes. Esto te permite encontrar imágenes que son similares, pero no exactamente iguales. Cada imagen se abre en el modo de mapa de bits RGB, luego crea una cuadrícula de 15×15 y calcula el color promedio de cada cuadrícula. Luego el programa los compara examinando cada viñeta de la cuadrícula (un color promedio) que se compara con su correspondiente cuadrícula en la otra imagen y se calcula la diferencia de color. Los resultados obtenidos se suman para obtener una “puntuación” final para poder borrar lo que está duplicado.

El programa soporta 3 tipos de tipos de escaneo:

  • Nombre de archivo (también conocido como escaneos de palabras).
  • Contenidos: Los escaneos de contenidos son mucho más simples que los de palabras. El programa lee los archivos y si el contenido es exactamente el mismo, los dos archivos se tratan como duplicados.
  • Carpetas: Un tipo especial de escaneo de contenidos. Funciona como un escaneo de contenidos normal, pero en lugar de intentar encontrar archivos duplicados, intenta encontrar carpetas duplicadas. Una carpeta se duplica a otra si todos los archivos que contiene tienen el mismo contenido que el archivo de la otra carpeta.

Una vez finalizado el análisis, dupeGuru muestra un panel de resultados que ofrece filtrado, búsqueda y una serie de acciones como enviar los archivos marcados a la papelera, mover o copiar archivos, cambiar el nombre y mucho más.

Puedes guardar los resultados en el formato propio de dupeGuru, y/o exportarlos a formatos HTML y CSV.

dupeGuru tiene una buena gama de opciones de personalización. Accede a las opciones de personalización haciendo clic en el botón Más opciones.

Algunas de las opciones están atenuadas en función del tipo de análisis que hayas seleccionado. Si el tipo de escaneo es “Contenido” o “Carpetas”, la ponderación de las palabras y la coincidencia de palabras similares aparecen en gris.

opciones

La importancia de las palabras cambia ligeramente la forma en que se calcula el porcentaje de coincidencia, haciendo que las palabras más grandes valgan más. Con la valuación de palabras, en lugar de tener un valor de 1 en el recuento de duplicados y en el recuento total de palabras, cada palabra tiene un valor igual al número de caracteres que tiene.

La coincidencia de similitudes significa que las palabras similares serán tratadas como coincidencias. Dos palabras se consideran similares si se pueden igualar con sólo unas pocas operaciones de edición (quitar una letra, añadir una, etc.).

explorar

La instalación parece sencilla en distribuciones que no son Arch Linux, donde hay un paquete pre-compilado en AUR, por lo que no he probado la instalación en otro sistema. En cualquier caso los pasos son sencillos:

$ git clone https://github.com/arsenetar/dupeguru.git
$ cd dupeguru
$ make -j4
$ make run

Los escaneos de contenido son mucho más sencillos que los escaneos de palabras. La utilidad Tee lee los archivos y si el contenido es exactamente igual, los dos archivos se tratan como duplicados.

La fiabilidad es crucial con una herramienta de este tipo. No debes borrar los archivos que se necesitan.

He ejecutado la utilidad intensamente, y puedo constatar que el programa es fiable. Pero aún así recomendaría una buena estrategia de respaldo.

 

Fuente: maslinux

¿Quién está en línea?

Hay 34969 invitados y ningún miembro en línea