Форум пользователей MySQL

FaWuS · 23.02.2011 11:27:49

Доброго времени суток, всем.
В связи с датой, заодно, всех мужчин с праздником

Таблица (InnoDB):

- (BIGINT,18) (PRIMARY, UNSIGNED, AUTO_INC)

- (CHAR,200)

- (CHAR,200)

- (INT,8)

- (INT,8)

- (INT,9)

Добавляться будут данные по ~1 тысяче записей в секунду отдельными запросами* (продолжительность такой нагрузки 8-10 часов в сутки).
По расчётам в течение 3 лет таблица будет иметь порядка 20 млрд. записей.

Данные будут считываться единственным образом:

"SELECT * FROM table WHERE id=1234"

Т.е. будет выбираться строка целиком по PRIMARY.

Считываться данные будут от 1 до 100 тысяч раз в секунду отдельными запросами**
Количество запросов будет расти пропорционально общему количеству записей в таблице.

* - каждый запрос выполняется отдельно, т.к. их источники распределены и требуют немедленного возврата ID для добавленной строки
** - каждый запрос выполняется отдельно, т.к. их источники распределены

Прошу совета у опытных людей - что необходимо изменить, улучшить или дополнить для оптимального решения задачи?

rgbeast · 23.02.2011 20:37:10

1. Проверьте скорость вставки на Innodb и сравните с MyISAM. Кажется, что MyISAM будет вставлять быстрее.

2. Имеет смысл создавать несколько таблиц. Например, одну таблицу в неделю. В таком случае вставка будет только в последнюю таблицу и не будет затрагивать остальные, которые можно постепенно переводить в COMPRESSED. В отдельной маленькой таблице можно хранить диапазоны id в каждой из таблиц (это можно кэшировать в memcached), таким образом SELECT всегда будет обращаться только к одной таблице.

3. Количество простых выборок в секунду говорит, что удобно будет использовать плагин HandlerSocket.

4. Вставка быстрее без индексов. Если можно последную таблицу формировать без индексов, а потом создавать индекс, то это будет ускорением (вопрос в том, какая будет потеря на селектах). Как вариант - рабочую копию последней таблицы хранить в таблице типа MEMORY, чтобы избежать потерь на полном скане по сравнению с индексным поиском.

paulus · 24.02.2011 01:17:15

А меня пугает CHAR(200). Кажется, это не осмысленное действие —
использовать 200 байт там, где можно использовать от 1 до 201.

FaWuS · 24.02.2011 09:23:28

rgbeast написал:
1. Проверьте скорость вставки на Innodb и сравните с MyISAM. Кажется, что MyISAM будет вставлять быстрее.

Вставки и выборки будут производиться в перемешку. Боюсь блокирование в MyISAM приведёт к большим затупам, даже если только вставку MyISAM отработает быстрее.

rgbeast написал:
2. Имеет смысл создавать несколько таблиц. Например, одну таблицу в неделю. В таком случае вставка будет только в последнюю таблицу и не будет затрагивать остальные, которые можно постепенно переводить в COMPRESSED. В отдельной маленькой таблице можно хранить диапазоны id в каждой из таблиц (это можно кэшировать в memcached), таким образом SELECT всегда будет обращаться только к одной таблице.

Идея понятная и отличная, спасибо! Есть несколько вопросов:
- Можно ли это реализовать силами MySQL или это делается на стороне?
- После каждой вставки нужно получать присвоенный ID обратно. Как при таком разложении по таблицам это делать? (опять же, если силами MySQL)

rgbeast написал:
3. Количество простых выборок в секунду говорит, что удобно будет использовать плагин HandlerSocket.

Погуглил - похоже отличным дополнением будет.
Большое спасибо!

rgbeast написал:
4. Вставка быстрее без индексов. Если можно последную таблицу формировать без индексов, а потом создавать индекс, то это будет ускорением (вопрос в том, какая будет потеря на селектах). Как вариант - рабочую копию последней таблицы хранить в таблице типа MEMORY, чтобы избежать потерь на полном скане по сравнению с индексным поиском.

Отлично! Можно без индекса. Частота обращений считается большей, чем дольше данные лежат в базе. Т.е. свежедобавленные данные выбираться часто не должны. Тут опять же возникает 2 вопрос - силами MySQL или на стороне?

paulus написал:
А меня пугает CHAR(200). Кажется, это не осмысленное действие —
использовать 200 байт там, где можно использовать от 1 до 201.

Я исходил из соображений, что статическая таблица лучше динамической. Хотя, учитывая, что выборка по CHAR столбцам не будет производиться, возможно действительно стоит сделать их переменными. Спасибо!

paulus · 24.02.2011 23:28:29

Со стороны MySQL разбить таблицу можно с помощью partitioning, но лучше
закладывать также и шардирование в код: оно все равно понадобится, и чем
раньше Вы его заложите, тем больше сил сэкономите вдальнейшем.

Форум пользователей MySQL

#1 23.02.2011 11:27:49

20 млрд. записей в таблице

#2 23.02.2011 20:37:10

Re: 20 млрд. записей в таблице

#3 24.02.2011 01:17:15

Re: 20 млрд. записей в таблице

#4 24.02.2011 09:23:28

Re: 20 млрд. записей в таблице

rgbeast написал:

rgbeast написал:

rgbeast написал:

rgbeast написал:

paulus написал:

#5 24.02.2011 23:28:29

Re: 20 млрд. записей в таблице

Board footer