(转)小心使用zeromq

2013/09/15 15:08
阅读数 428
1.关于介绍zeromq的就不说了,可以自己去看官方guide很详细
2.主要说下在使用过程中需要注意的地方
1)使用如果使用c++的接口的时候,在你自己的类中或者apache模块中
需要将zmq::context_t 对象定义在zmq::socket_t对象的前面,这样可以保证销毁的顺序

2)使用sub-pub时候,如果sub没有调用setsockopt设置过滤项(设置NULL则接受所有),那么将会接收不到任何的消息,默认会阻塞所有消息

3)如果是后台服务集群使用且zmq需要bind端口的,那么最好在iptables中进行下过滤,不要让外部链接
连接过来,否则会造成cpu空转;关于cpu空转将会在最后说

4)客户端连接服务器时,每个客户端中的zmq,每个连接使用一个socket,虽然可以一个socket可以调用connect多次,也就是连接多个server。但是,记住,最好是一个socket只调用一次connect

5)使用zmq的程序,运行一段时间后(可能几天),如果你碰到异常退出,并且你使用nohup运行的log
nohup.out中显示zeromq connection timeout,那么你可以zeromq/src/tcp_socket.cpp文件中的203行看是write的时候出错。
[cpp]   view plain copy
  1. int zmq::tcp_socket_t::write (const void *data, int size)  
  2. {  
  3.     ssize_t nbytes = send (s, data, size, 0);  
  4.   
  5.     //  Several errors are OK. When speculative write is being done we may not  
  6.     //  be able to write a single byte to the socket. Also, SIGSTOP issued  
  7.     //  by a debugging tool can result in EINTR error.  
  8.     if (nbytes == -1 && (errno == EAGAIN || errno == EWOULDBLOCK ||  
  9.           errno == EINTR))  
  10.         return 0;  
  11.   
  12.     //  Signalise peer failure.  
  13.     if (nbytes == -1 && (errno == ECONNRESET || errno == EPIPE))  
  14.         return -1;  
  15.   
  16.     errno_assert (nbytes != -1);  
  17.     return (size_t) nbytes;  
  18. }  


这是由于 errno_assert (nbytes != -1);造成的,但是,真正的原因是nbytes==-1时,errno==ETIMEDOUT ,在前面一行中没有去添加对这个timeout的判断,另外,可以参考该文件中对win上的处理。因此,这里如果你碰到了timeout错误,那么请将errno == ETIMEOUT加入到errno==EPIPE后面,然后重新编译

6)关于cpu空转。首先你可以用top 程序名,去看你的程序的cpu使用率是否是100%,而且基本固定不变,那么这时候,你就需要怀疑是否你的程序的问题,然后通过lsof -p 程序的进程号,去查看是否有文件描述符有can't identify protocol,还要注意下,是否有外网的ip连接到你的zmq的监听的端口。
然后,你可以在zeromq/src/epoll.cpp中的loop,rm_fd,add_fd函数中打log,看看在监听到EPOLLERR|EPOLLHUP
的文件描述符是不是lsof -p 查看到的can't identify protocol的文件描述符一致。其实,只要做到前面5点,那么cpu
空转基本是不会出现的。

ps:最后,希望碰到问题,大家能自己思考为什么会出现这样的问题,该如何解决,对自己的提升会有很大的帮助

展开阅读全文
打赏
0
1 收藏
分享
加载中
更多评论
打赏
0 评论
1 收藏
0
分享
返回顶部
顶部