Задавайте вопросы, мы ответим
Вы не зашли.
Всем привет
Пытаюсь собрать кластер с транспортом между локальными sql-ndb нодами через shmem.
Сейчас пока всё (sql,mgmd,ndb) версии 5.0.9, чуть позже попробую кластор 7.0.9.
Так вот, для одной пары всё получилось, для второй чёто не срастается.
В config.ini mgmd прописал
[SHM]
NodeId1=2
NodeId2=4
ShmKey=123
SigNum=10
[SHM]
NodeId1=3
NodeId2=5
ShmKey=123
SigNum=10
Для пары 2-4 всё, повторюсь, работает.
Shmem сегмент создался, оба процесса к нему приаттачились, в логах написали что все connected, mgmd тоже показывается что всё ок.
Для пары 3-5 сегмент создался, процессы к нему вроде как приаттачились (если верить lsof).
[root@oel2 ~]# ipcs -m
------ Shared Memory Segments --------
key shmid owner perms bytes nattch status
0x0000007b 294912 mysql 700 1048576 2
[root@oel2 ~]# lsof | grep 294912
ndbd 30865 mysql DEL REG 0,9 294912 /SYSV0000007b
mysqld 31038 mysql DEL REG 0,9 294912 /SYSV0000007b
В логи ndbd и mysqld написали что запустились, в логе mgm про старт mysqld node 5 написали что connected (ndb же в свой лог не должен писать что к нему приконнектились?)
2010-03-01 15:52:16 [MgmSrvr] INFO -- Node 5: mysqld --server-id=5
2010-03-01 15:52:17 [MgmSrvr] INFO -- Node 3: Node 5 Connected
2010-03-01 15:52:17 [MgmSrvr] INFO -- Node 3: Node 5: API version 5.0.90
при этом в mgm консоли этот узел не в кластере
ndb_mgm> show
Connected to Management Server at: localhost:1186
Cluster Configuration
---------------------
[ndbd(NDB)] 2 node(s)
id=2 @192.168.2.11 (Version: 5.0.90, Nodegroup: 0, Master)
id=3 @192.168.2.12 (Version: 5.0.90, Nodegroup: 0)
[ndb_mgmd(MGM)] 1 node(s)
id=1 @192.168.2.1 (Version: 5.0.90)
[mysqld(API)] 2 node(s)
id=4 @192.168.2.11 (Version: 5.0.90)
id=5 (not connected, accepting connect from oel2)
В чём может быть проблема?
Неактивен
7.0.9 через shm вообще работать не хочет
ndb стартует, сегмент делает, коннекты по tcp принимает
при попытке поднять рядом sql ноду и присосаться через shm стабильно (на обоих узлах) получаю
Failed to ADD epollfd: 3 fd 27734 node 4 to epoll-set, errno: 9 Bad file descriptor
2010-03-01 17:50:02 [ndbd] INFO -- Received signal 6. Running error handler.
2010-03-01 17:50:02 [ndbd] INFO -- Signal 6 received; Aborted
2010-03-01 17:50:02 [ndbd] INFO -- ndbd.cpp
2010-03-01 17:50:02 [ndbd] INFO -- Error handler signal shutting down system
2010-03-01 17:50:02 [ndbd] INFO -- Error handler shutdown completed - exiting
2010-03-01 17:50:02 [ndbd] ALERT -- Node 2: Forced node shutdown completed. Initiated by signal 6. Caused by error 6000: 'Error OS signal received(Internal error, programming error or missing error message, please report a bug). Temporary error, restart node'.
ndb нода при этом помирает
Отредактированно artemg (01.03.2010 18:03:08)
Неактивен
я упорный 8)
ndb-6.3.26 - та же картина
tcp - всё работает -
-- NDB Cluster -- Management Client --
ndb_mgm> show
Connected to Management Server at: localhost:1186
Cluster Configuration
---------------------
[ndbd(NDB)] 2 node(s)
id=2 @192.168.2.11 (mysql-5.1.35 ndb-6.3.26, Nodegroup: 0, Master)
id=3 @192.168.2.12 (mysql-5.1.35 ndb-6.3.26, Nodegroup: 0)
[ndb_mgmd(MGM)] 1 node(s)
id=1 @192.168.2.1 (mysql-5.1.35 ndb-6.3.26)
[mysqld(API)] 2 node(s)
id=4 @192.168.2.11 (mysql-5.1.35 ndb-6.3.26)
id=5 @192.168.2.12 (mysql-5.1.35 ndb-6.3.26)
shm - ndbd стартует, сегмент создаёт, по tcp пускает, как только к ней пытается присосаться локальная sql нода, умирает с
Failed to ADD epollfd: 3 fd 1048576 node 4 to epoll-set, errno: 9 Bad file descriptor
2010-03-01 18:47:39 [ndbd] INFO -- Received signal 6. Running error handler.
2010-03-01 18:47:39 [ndbd] INFO -- Signal 6 received; Aborted
2010-03-01 18:47:39 [ndbd] INFO -- main.cpp
2010-03-01 18:47:39 [ndbd] INFO -- Error handler signal shutting down system
2010-03-01 18:47:41 [ndbd] INFO -- Error handler shutdown completed - exiting
2010-03-01 18:47:41 [ndbd] ALERT -- Node 2: Forced node shutdown completed. Initiated by signal 6. Caused by error 6000: 'Error OS signal received(Internal error, programming error or missing error message, please report a bug). Temporary error, restart node'.
в системном логе никаких segfault-ов, вообще ничего
Отредактированно artemg (01.03.2010 18:59:11)
Неактивен
А почему ShmKey одинаковый для обоих соединений?
Неактивен
Да какая разница, они ж (процессы и shm сегменты) на разных хостах?
Ну можно сделать разный, но я очень сомневаюсь что дело в этом.
Сегмент то создаётся, порцессы к нему аттачатся.
Кроме того на 7.0.9/6.3.26 я пробовал с одной [shm] секцией (вторая через tcp), оно даже для одной пары не хочет работать.
Неактивен
Судя по документации shm и не должна работать, ее для чего-то сделали, а потом так и не довели до стабильного состояния. Напишите в bugtracker про 7.0.9/6.3.26 ( http://bugs.mysql.com/ )
Неактивен
с другим shmkey на 5.0.9 всё по-прежнему
[SHM]
NodeId1=2
NodeId2=4
ShmKey=123
SigNum=10
[SHM]
NodeId1=3
NodeId2=5
ShmKey=321
SigNum=10
[root@oel1 ~]# ipcs -m
------ Shared Memory Segments --------
key shmid owner perms bytes nattch status
0x0000007b 557056 mysql 700 1048576 2
[root@oel1 ~]# lsof | grep 557056
ndbd 1267 mysql DEL REG 0,9 557056 /SYSV0000007b
mysqld 1785 mysql DEL REG 0,9 557056 /SYSV0000007b
[root@oel2 ~]# ipcs -m
------ Shared Memory Segments --------
key shmid owner perms bytes nattch status
0x00000141 98305 mysql 700 1048576 2
[root@oel2 ~]# lsof | grep 98305
ndbd 8051 mysql DEL REG 0,9 98305 /SYSV00000141
mysqld 9009 mysql DEL REG 0,9 98305 /SYSV00000141
Connected to Management Server at: localhost:1186
Cluster Configuration
---------------------
[ndbd(NDB)] 2 node(s)
id=2 @192.168.2.11 (Version: 5.0.90, Nodegroup: 0, Master)
id=3 @192.168.2.12 (Version: 5.0.90, Nodegroup: 0)
[ndb_mgmd(MGM)] 1 node(s)
id=1 @192.168.2.1 (Version: 5.0.90)
[mysqld(API)] 2 node(s)
id=4 @192.168.2.11 (Version: 5.0.90)
id=5 (not connected, accepting connect from oel2)
Ну в документации написано что оно experimental only and not for production.
Собственно я и эксперементирую, странно что его вообще нельзя заставить работать, зачем тогда его в общедоступной документации как возможную опцию описывать?
Про баг в 7.0.9/6.3.26 отпишусь, если разберусь как.
Неактивен
Бывают экспериментальные опции, которые со временем становятся стабильными. А эта опция есть достаточно давно, но стабильной не стала, а даже, похоже, наоборот. Значит у них не было ресурсов заниматься этой частью и она так и осталась. На багтрекер напишите, получите какой-нибудь ответ.
Неактивен
ну так убрали бы из доки, если оно совсем никак не работает, люди бы не тратили время на попытки заставить его взлететь.
Неактивен