Обработка больших объемов баз. [Вопрос]

Есть папка с базами (70гб).
Чем можно обработать их ? Под обработкой подразумеваю : Склеить + почистить от дублей.
Софт легиона не предлагать ,он почему то крашиться у меня (
 
Быстрая обработка баз данных в Linux подобных ОС.
Маленькая шпора.

Склейка баз
Код:
cat file1 file2 file3 > outfile
file1, file2, file3 - это наши базы, а outfile - выходной файл. Данная команда объеденяет все файлы в один (склеивает)
Можно использовать сразу для склейки всех файлов в директории:
Код:
cat * > outfile

Выборка из баз
Что такое grep, и с чем его едят (для большего понимания возможностей обработки) xttps://habrahabr.ru/post/229501/

Код:
grep -P "(google.com|yahoo.com|aol.com)" file1 > outfile
Данной командой мы делаем поиск строк, содержащих один из перечисленных доменов, и выносим строку в отдельный файл.
Можно сделать так:
Код:
cat file1 | grep google.com > outfile
чтобы вынести все строки с доменом google.com из файла file1.

Возможности grep очень большие, и все их я описывать не буду. grep так же поддерживает регулярки, и прч.

Подсчёт строк в базе
Код:
wc -l file1
Где file1 - название базы.

разделение баз
Код:
split -l 10000 file1 splitfile_
Данная команда разделит файл (file1) на файлы по 10000 строк. Название файлов будет splitfile_a, splitfile_b, и.т.д. В конце добавится буква каждого нового файла.

Удаление дубликатов
Код:
sort file1 | uniq -u > outfile
Данной командой мы сначала сортируем file1, и удаляем дублирующие строки, а после записываем результат в outfile.
Ну или просто sort -u :D


Далее можно комбинировать эти команды, и быстро обрабатывать базы)
 
Быстрая обработка баз данных в Linux подобных ОС.
Маленькая шпора.

Склейка баз
Код:
cat file1 file2 file3 > outfile
file1, file2, file3 - это наши базы, а outfile - выходной файл. Данная команда объеденяет все файлы в один (склеивает)
Можно использовать сразу для склейки всех файлов в директории:
Код:
cat * > outfile

Выборка из баз
Что такое grep, и с чем его едят (для большего понимания возможностей обработки) xttps://habrahabr.ru/post/229501/

Код:
grep -P "(google.com|yahoo.com|aol.com)" file1 > outfile
Данной командой мы делаем поиск строк, содержащих один из перечисленных доменов, и выносим строку в отдельный файл.
Можно сделать так:
Код:
cat file1 | grep google.com > outfile
чтобы вынести все строки с доменом google.com из файла file1.

Возможности grep очень большие, и все их я описывать не буду. grep так же поддерживает регулярки, и прч.

Подсчёт строк в базе
Код:
wc -l file1
Где file1 - название базы.

разделение баз
Код:
split -l 10000 file1 splitfile_
Данная команда разделит файл (file1) на файлы по 10000 строк. Название файлов будет splitfile_a, splitfile_b, и.т.д. В конце добавится буква каждого нового файла.

Удаление дубликатов
Код:
sort file1 | uniq -u > outfile
Данной командой мы сначала сортируем file1, и удаляем дублирующие строки, а после записываем результат в outfile.
Ну или просто sort -u :D


Далее можно комбинировать эти команды, и быстро обрабатывать базы)
я нашел решение даже на Винде,позже опубликую .
 
Похожие темы

Название темы