<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">Hi Alexander, <div class=""><br class=""></div><div class="">In general we try to keep the RS as light as possible, which means we do not run unwanted applications or packet captures over there. </div><div class="">Nevertheless, we didn’t observe busy HDD issues but that is also a valid point. </div><div class=""><br class=""></div><div class="">As per Ondrej’s feedback, it seems there is a kernel issue, maybe bug or scalability, so I will schedule a maintenance to update the kernel</div><div class="">on the servers and see if it fixes the problem.</div><div class=""><br class=""></div><div class=""><br class=""><div class="">
<div dir="auto" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0); letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration: none; word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">Best regards,<br class=""><br class="">Stavros Konstantaras | Sr. Network Engineer | AMS-IX <br class="">M +31 (0) 620 89 51 04 | T +31 20 305 8999<br class=""><a href="http://ams-ix.net" class="">ams-ix.net</a></div>
</div>
<div><br class=""><blockquote type="cite" class=""><div class="">On 29 Feb 2020, at 01:08, Alexander Zubkov <<a href="mailto:green@qrator.net" class="">green@qrator.net</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div class="">Hi,<br class=""><br class="">Can it be some IO issue? We had similar problems with bird making an<br class="">IO loop for too much time so that hold timers were expired by that<br class="">time. It was probably caused when it was writing a log file on a busy<br class="">HDD. But we catch those with syslog too, because that write is<br class="">blocking for the bird too.<br class="">But nevertheless the OS should have been replying something in the TCP<br class="">session in your case - accepting the segments or showing that the<br class="">window is full. As far as I know bird does not have its own TCP stack,<br class="">so the OS is to be blamed for that part. It can be stuck for some<br class="">reason/bug or as other people suggested it could be sending packets<br class="">somewhere else or not knowing where to send them.<br class=""><br class="">On Fri, Feb 28, 2020 at 4:46 PM Ondrej Zajicek <<a href="mailto:santiago@crfreenet.org" class="">santiago@crfreenet.org</a>> wrote:<br class=""><blockquote type="cite" class=""><br class="">On Fri, Feb 28, 2020 at 03:33:06PM +0100, Stavros Konstantaras wrote:<br class=""><blockquote type="cite" class="">HI Alarig,<br class=""><br class="">Thank you for sharing your experiences. I don’t have the MSS currently but if that was the case, wouldn’t have experienced the drops more frequently?<br class="">Currently it happens once per month (or 0.8 per month) and contrary to your case which was 100% network related, in our case we don’t even see the<br class="">reply packet being generated and leaving the box.<br class=""><br class="">What puzzles me also and based on the capture, is that I don’t see the TCP-ACK messages being sent to the customer. If BIRD opens a TCP socket<br class="">(not a simple RAW socket), I assume that the TCP connection will be handled by the OS and BIRD will push data segments (BGP keep alive messages) when ready.<br class=""><br class="">But as per output, I don’t see the TCP ack messages at all. Is BIRD handling the TCP communication as well?<br class=""></blockquote><br class="">Hi<br class=""><br class="">That is a good point. BIRD uses regular TCP socket, so if you do not see<br class="">TCP ack, then it is likely an underlying (kernel) issue. There were some<br class="">reports of IPv6 issues in recent kernels [*]<br class=""><br class="">Also, the log message:<br class=""><br class="">Feb 20 21:46:11 rs1-mng bird6: 2001:7F8:1::A500:19:7727:1: Received: Hold timer expired<br class=""><br class="">shows that the notification message was received by the BIRD. The packet<br class="">dump shows that keepalives were not sent by BIRD side. You could enable<br class="">'debug all' for given peer to see if BIRD tries to send keepalives. You<br class="">could also monitor state of socket using 'ss' tool.<br class=""><br class="">[*] <a href="https://bird.network.cz/pipermail/bird-users/2020-February/014270.html" class="">https://bird.network.cz/pipermail/bird-users/2020-February/014270.html</a><br class=""><br class="">--<br class="">Elen sila lumenn' omentielvo<br class=""><br class="">Ondrej 'Santiago' Zajicek (<a href="mailto:santiago@crfreenet.org" class="">email: santiago@crfreenet.org</a>)<br class="">OpenPGP encrypted e-mails preferred (KeyID 0x11DEADC3, <a href="http://wwwkeys.pgp.net" class="">wwwkeys.pgp.net</a>)<br class="">"To err is human -- to blame it on a computer is even more so."<br class=""><br class=""></blockquote></div></div></blockquote></div><br class=""></div></body></html>