Сравнить несколько сотен текстовых файлов и удалить в них дубликаты строк

silmarion

Полезный
Регистрация
21 Июн 2012
Сообщения
194
Реакции
19
Доброй всем ночи, не знаю в тот ли я раздел написал, если что заранее прошу прощения.

В общем есть несколько сотен текстовых файлов, от 10 до 100мб в общем порядка 20гб.
Нужно их сравнить построчно, и удалить дубликаты строк.
Возможно ли это?
Если да то как?
 
textpipe сможет.
 
Можно сделать "финт ушами". Взять и записать каждую строку в БД используя это Для просмотра ссылки Войди или Зарегистрируйся
И потом уже спокойно делать выборку из БД по n-кило строк и писать в файлы.
 
Поиск юзать, не умеем?)

Для просмотра ссылки Войди или Зарегистрируйся и дрругие темы.

А как сделать это с помощью textpipe это в другой топик.
Поиском пользоваться умею, textpipe установлен, 9,5 версия
там есть поиск дубликатов в файлах, ищет внутри 1 файла, делает он это все очень медленно (у меня батник делает это в 100 раз быстрее)
а мне нужно сравнить несколько файлов
 
Поиском пользоваться умею, textpipe установлен, 9,5 версия
там есть поиск дубликатов в файлах, ищет внутри 1 файла, делает он это все очень медленно (у меня батник делает это в 100 раз быстрее)
а мне нужно сравнить несколько файлов
если медленно то тут или в компе или хз где проблема. Я им обрабатывал файлы по 20-50 гигов.
 
если медленно то тут или в компе или хз где проблема. Я им обрабатывал файлы по 20-50 гигов.
Медленно как медленно, главная проблема в том, что мне нужно файлы между собой сравнивать, и оставлять их уже очищенные как есть
 
А какие критерии для сравнения?
Ну к примеру: имеем 10 файлов, берем первый файл, читаем из него все строки, удаляем строки из первого файла в остальных.
Или: имеем 10 файлов, берем первый файл, читаем из него все строки, удаляем строки из первого файла в остальных, берем следующий, проводим те же манипуляции, потом следующий и т.д.
 
Алгоритм 1. файлы в один объединить возможно? Если да, то решение примерно в 4-5 строк.

Если нет, то алгоритм 2 брутфорса, на поиск строки в файле.

Третий алгоритм, объединить в один файл, оставить только дубли строк, после найти эти строки в файлах и удалить их. В конец одного из них дописать удаленную строку.
 
Назад
Сверху