Форум пользователей MySQL

artemg · 01.03.2010 16:14:43

Всем привет
Пытаюсь собрать кластер с транспортом между локальными sql-ndb нодами через shmem.
Сейчас пока всё (sql,mgmd,ndb) версии 5.0.9, чуть позже попробую кластор 7.0.9.
Так вот, для одной пары всё получилось, для второй чёто не срастается.
В config.ini mgmd прописал

[SHM]
NodeId1=2
NodeId2=4
ShmKey=123
SigNum=10
[SHM]
NodeId1=3
NodeId2=5
ShmKey=123
SigNum=10

Для пары 2-4 всё, повторюсь, работает.
Shmem сегмент создался, оба процесса к нему приаттачились, в логах написали что все connected, mgmd тоже показывается что всё ок.

Для пары 3-5 сегмент создался, процессы к нему вроде как приаттачились (если верить lsof).

[root@oel2 ~]# ipcs -m

------ Shared Memory Segments --------
key shmid owner perms bytes nattch status
0x0000007b 294912 mysql 700 1048576 2

[root@oel2 ~]# lsof | grep 294912
ndbd 30865 mysql DEL REG 0,9 294912 /SYSV0000007b
mysqld 31038 mysql DEL REG 0,9 294912 /SYSV0000007b

В логи ndbd и mysqld написали что запустились, в логе mgm про старт mysqld node 5 написали что connected (ndb же в свой лог не должен писать что к нему приконнектились?)

2010-03-01 15:52:16 [MgmSrvr] INFO -- Node 5: mysqld --server-id=5
2010-03-01 15:52:17 [MgmSrvr] INFO -- Node 3: Node 5 Connected
2010-03-01 15:52:17 [MgmSrvr] INFO -- Node 3: Node 5: API version 5.0.90

при этом в mgm консоли этот узел не в кластере

ndb_mgm> show
Connected to Management Server at: localhost:1186
Cluster Configuration
---------------------
[ndbd(NDB)] 2 node(s)
id=2 @192.168.2.11 (Version: 5.0.90, Nodegroup: 0, Master)
id=3 @192.168.2.12 (Version: 5.0.90, Nodegroup: 0)

[ndb_mgmd(MGM)] 1 node(s)
id=1 @192.168.2.1 (Version: 5.0.90)

[mysqld(API)] 2 node(s)
id=4 @192.168.2.11 (Version: 5.0.90)
id=5 (not connected, accepting connect from oel2)

В чём может быть проблема?

artemg · 01.03.2010 18:01:55

7.0.9 через shm вообще работать не хочет
ndb стартует, сегмент делает, коннекты по tcp принимает
при попытке поднять рядом sql ноду и присосаться через shm стабильно (на обоих узлах) получаю

Failed to ADD epollfd: 3 fd 27734 node 4 to epoll-set, errno: 9 Bad file descriptor
2010-03-01 17:50:02 [ndbd] INFO -- Received signal 6. Running error handler.
2010-03-01 17:50:02 [ndbd] INFO -- Signal 6 received; Aborted
2010-03-01 17:50:02 [ndbd] INFO -- ndbd.cpp
2010-03-01 17:50:02 [ndbd] INFO -- Error handler signal shutting down system
2010-03-01 17:50:02 [ndbd] INFO -- Error handler shutdown completed - exiting
2010-03-01 17:50:02 [ndbd] ALERT -- Node 2: Forced node shutdown completed. Initiated by signal 6. Caused by error 6000: 'Error OS signal received(Internal error, programming error or missing error message, please report a bug). Temporary error, restart node'.

ndb нода при этом помирает

Отредактированно artemg (01.03.2010 18:03:08)

artemg · 01.03.2010 18:57:26

я упорный 8)
ndb-6.3.26 - та же картина
tcp - всё работает -

-- NDB Cluster -- Management Client --
ndb_mgm> show
Connected to Management Server at: localhost:1186
Cluster Configuration
---------------------
[ndbd(NDB)] 2 node(s)
id=2 @192.168.2.11 (mysql-5.1.35 ndb-6.3.26, Nodegroup: 0, Master)
id=3 @192.168.2.12 (mysql-5.1.35 ndb-6.3.26, Nodegroup: 0)

[ndb_mgmd(MGM)] 1 node(s)
id=1 @192.168.2.1 (mysql-5.1.35 ndb-6.3.26)

[mysqld(API)] 2 node(s)
id=4 @192.168.2.11 (mysql-5.1.35 ndb-6.3.26)
id=5 @192.168.2.12 (mysql-5.1.35 ndb-6.3.26)

shm - ndbd стартует, сегмент создаёт, по tcp пускает, как только к ней пытается присосаться локальная sql нода, умирает с

Failed to ADD epollfd: 3 fd 1048576 node 4 to epoll-set, errno: 9 Bad file descriptor
2010-03-01 18:47:39 [ndbd] INFO -- Received signal 6. Running error handler.
2010-03-01 18:47:39 [ndbd] INFO -- Signal 6 received; Aborted
2010-03-01 18:47:39 [ndbd] INFO -- main.cpp
2010-03-01 18:47:39 [ndbd] INFO -- Error handler signal shutting down system
2010-03-01 18:47:41 [ndbd] INFO -- Error handler shutdown completed - exiting
2010-03-01 18:47:41 [ndbd] ALERT -- Node 2: Forced node shutdown completed. Initiated by signal 6. Caused by error 6000: 'Error OS signal received(Internal error, programming error or missing error message, please report a bug). Temporary error, restart node'.

в системном логе никаких segfault-ов, вообще ничего

Отредактированно artemg (01.03.2010 18:59:11)

rgbeast · 02.03.2010 10:39:58

А почему ShmKey одинаковый для обоих соединений?

artemg · 02.03.2010 10:57:52

Да какая разница, они ж (процессы и shm сегменты) на разных хостах?
Ну можно сделать разный, но я очень сомневаюсь что дело в этом.
Сегмент то создаётся, порцессы к нему аттачатся.

Кроме того на 7.0.9/6.3.26 я пробовал с одной [shm] секцией (вторая через tcp), оно даже для одной пары не хочет работать.

rgbeast · 02.03.2010 11:05:58

Судя по документации shm и не должна работать, ее для чего-то сделали, а потом так и не довели до стабильного состояния. Напишите в bugtracker про 7.0.9/6.3.26 ( http://bugs.mysql.com/ )

artemg · 02.03.2010 11:28:22

с другим shmkey на 5.0.9 всё по-прежнему

[SHM]
NodeId1=2
NodeId2=4
ShmKey=123
SigNum=10
[SHM]
NodeId1=3
NodeId2=5
ShmKey=321
SigNum=10

[root@oel1 ~]# ipcs -m

------ Shared Memory Segments --------
key shmid owner perms bytes nattch status
0x0000007b 557056 mysql 700 1048576 2

[root@oel1 ~]# lsof | grep 557056
ndbd 1267 mysql DEL REG 0,9 557056 /SYSV0000007b
mysqld 1785 mysql DEL REG 0,9 557056 /SYSV0000007b

[root@oel2 ~]# ipcs -m

------ Shared Memory Segments --------
key shmid owner perms bytes nattch status
0x00000141 98305 mysql 700 1048576 2

[root@oel2 ~]# lsof | grep 98305
ndbd 8051 mysql DEL REG 0,9 98305 /SYSV00000141
mysqld 9009 mysql DEL REG 0,9 98305 /SYSV00000141

Connected to Management Server at: localhost:1186
Cluster Configuration
---------------------
[ndbd(NDB)] 2 node(s)
id=2 @192.168.2.11 (Version: 5.0.90, Nodegroup: 0, Master)
id=3 @192.168.2.12 (Version: 5.0.90, Nodegroup: 0)

[ndb_mgmd(MGM)] 1 node(s)
id=1 @192.168.2.1 (Version: 5.0.90)

[mysqld(API)] 2 node(s)
id=4 @192.168.2.11 (Version: 5.0.90)
id=5 (not connected, accepting connect from oel2)

Ну в документации написано что оно experimental only and not for production.
Собственно я и эксперементирую, странно что его вообще нельзя заставить работать, зачем тогда его в общедоступной документации как возможную опцию описывать?

Про баг в 7.0.9/6.3.26 отпишусь, если разберусь как.

rgbeast · 02.03.2010 11:32:06

Бывают экспериментальные опции, которые со временем становятся стабильными. А эта опция есть достаточно давно, но стабильной не стала, а даже, похоже, наоборот. Значит у них не было ресурсов заниматься этой частью и она так и осталась. На багтрекер напишите, получите какой-нибудь ответ.

artemg · 02.03.2010 11:47:16

ну так убрали бы из доки, если оно совсем никак не работает, люди бы не тратили время на попытки заставить его взлететь.

Форум пользователей MySQL

#1 01.03.2010 16:14:43

про shm транспорт

#2 01.03.2010 18:01:55

Re: про shm транспорт

#3 01.03.2010 18:57:26

Re: про shm транспорт

#4 02.03.2010 10:39:58

Re: про shm транспорт

#5 02.03.2010 10:57:52

Re: про shm транспорт

#6 02.03.2010 11:05:58

Re: про shm транспорт

#7 02.03.2010 11:28:22

Re: про shm транспорт

#8 02.03.2010 11:32:06

Re: про shm транспорт

#9 02.03.2010 11:47:16

Re: про shm транспорт

Board footer