2009-08-22 11 views
1

Ich schreibe einen Daemon in c auf Linux. Es fängt Signale SIGHUP, SIGTERM, SIGINT und SIGQUIT auf, protokolliert sie mit Syslog und beendet. Wenn es SIGSEGV empfängt, wird es Core-Dumps. Wenn diese auftreten, geschieht alles wie erwartet, aber hin und wieder wird es beendet ... wird nicht sauber beendet, protokolliert das Signal nicht und hinterlässt keinen Kernspeicherauszug. Ich bin ratlos und nicht sicher, wie das Problem zu debuggen ist. Auf welche Weise kann es anders als diese Signale aufhören? Gibt es eine offensichtliche Antwort, etwas, das mir fehlt? Welche anderen Debugging-Praktiken empfehlen Sie, ein scheinbar sporadisches Problem in einem Daemon-Prozess zu beheben?Debugging eines Dämons, der unerwartet beendet

Antwort

3

Wenn Ihr Daemon mit Netzwerk-Sockets arbeitet, ist es sehr wahrscheinlich SIGPIPE - Sie erhalten dies, wenn Sie versuchen, in einen Socket (oder eine Pipe) zu schreiben, der von der anderen Seite geschlossen wurde. Beachten Sie, dass selbst wenn Sie überprüfen, ob der Socket beschreibbar ist, bevor Sie ihn schreiben (z. B. mit select()), er immer zwischen diesem Check und dem Write selbst geschlossen werden kann.

+0

Ah! Ich benutze Sockets und fange SIGPIPE nicht ein, habe nicht daran gedacht, ich wette, das ist es. Momentan befindet sich mein Aufruf von select() in einer Schleife, die bricht, wenn sie unterbrochen wird, aber ich möchte in der Schleife bleiben, wenn es ein SIGPIPE ist. Aus deinem Kommentar entnehme ich, dass ein select() -Aufruf niemals von einem SIGPIPE unterbrochen wird, sondern nur von read()/write() -Aufrufen, stimmt das? – user19745

+1

Ihr Prozess wird nicht von 'SIGPIPE' aus' select() 'signalisiert, aber es wird mit dem als lesbar markierten Dateideskriptor zurückgegeben (damit Sie feststellen können, dass er geschlossen wurde). 'SIGPIPE' wird nur von' write() 's ausgelöst. Wenn Sie 'SIGPIPE' ignorieren oder behandeln, wird' write() '' EPIPE' zurückgeben. – caf

2

Sie können die Eltern des Daemons herumstehen lassen und darauf warten, und dann den übergeordneten Grund für das Beenden des Dämons (dh ob es signalisiert wurde oder es beendet wurde) protokollieren lassen.

+0

Dies ist eine ausgezeichnete Lösung, wie können Sie diese Informationen von den Eltern erhalten, sobald das Kind starb? – user19745

+0

Geben Sie im übergeordneten Element "call wait" WIFEXITED/WIFSIGNALED ein, um festzustellen, was passiert ist, und rufen Sie dann syslog mit der entsprechenden Protokollnachricht auf. Überprüfen Sie die Manpage für warten. –

1

Nun, es gibt viele andere Signale, die dazu führen, dass es beendet wird, einschließlich natürlich SIGKILL, die Sie nichts tun können. Im Grunde alles, was in dem folgenden Inhalt von man 7 signal wo Action ist Term oder Core (obwohl letztere zumindest würde einen Core Dump verlassen):

First the signals described in the original POSIX.1-1990 standard. 

    Signal  Value  Action Comment 
    ------------------------------------------------------------------------- 
    SIGHUP  1  Term Hangup detected on controlling terminal 
           or death of controlling process 
    SIGINT  2  Term Interrupt from keyboard 
    SIGQUIT  3  Core Quit from keyboard 
    SIGILL  4  Core Illegal Instruction 

    SIGABRT  6  Core Abort signal from abort(3) 
    SIGFPE  8  Core Floating point exception 
    SIGKILL  9  Term Kill signal 
    SIGSEGV  11  Core Invalid memory reference 
    SIGPIPE  13  Term Broken pipe: write to pipe with no readers 
    SIGALRM  14  Term Timer signal from alarm(2) 
    SIGTERM  15  Term Termination signal 
    SIGUSR1 30,10,16 Term User-defined signal 1 
    SIGUSR2 31,12,17 Term User-defined signal 2 
    SIGCHLD 20,17,18 Ign  Child stopped or terminated 
    SIGCONT 19,18,25 Cont Continue if stopped 
    SIGSTOP 17,19,23 Stop Stop process 
    SIGTSTP 18,20,24 Stop Stop typed at tty 
    SIGTTIN 21,21,26 Stop tty input for background process 
    SIGTTOU 22,22,27 Stop tty output for background process 

    The signals SIGKILL and SIGSTOP cannot be caught, blocked, or ignored. 

    Next the signals not in the POSIX.1-1990 standard but described in SUSv2 and POSIX.1-2001. 

    Signal  Value  Action Comment 
    ------------------------------------------------------------------------- 
    SIGBUS  10,7,10  Core Bus error (bad memory access) 
    SIGPOLL     Term Pollable event (Sys V). Synonym of SIGIO 
    SIGPROF  27,27,29 Term Profiling timer expired 
    SIGSYS  12,-,12  Core Bad argument to routine (SVr4) 
    SIGTRAP  5  Core Trace/breakpoint trap 
    SIGURG  16,23,21 Ign  Urgent condition on socket (4.2BSD) 
    SIGVTALRM 26,26,28 Term Virtual alarm clock (4.2BSD) 
    SIGXCPU  24,24,30 Core CPU time limit exceeded (4.2BSD) 
    SIGXFSZ  25,25,31 Core File size limit exceeded (4.2BSD) 

    Up to and including Linux 2.2, the default behaviour for SIGSYS, SIGXCPU, SIGXFSZ, and (on architectures other than SPARC 
    and MIPS) SIGBUS was to terminate the process (without a core dump). (On some other Unices the default action for SIGX- 
    CPU and SIGXFSZ is to terminate the process without a core dump.) Linux 2.4 conforms to the POSIX.1-2001 requirements 
    for these signals, terminating the process with a core dump. 

    Next various other signals. 

    Signal  Value  Action Comment 
    -------------------------------------------------------------------- 
    SIGIOT   6  Core IOT trap. A synonym for SIGABRT 
    SIGEMT  7,-,7  Term 
    SIGSTKFLT -,16,-  Term Stack fault on coprocessor (unused) 
    SIGIO  23,29,22 Term I/O now possible (4.2BSD) 
    SIGCLD  -,-,18  Ign  A synonym for SIGCHLD 
    SIGPWR  29,30,19 Term Power failure (System V) 
    SIGINFO  29,-,-    A synonym for SIGPWR 
    SIGLOST  -,-,-  Term File lock lost 
    SIGWINCH 28,28,20 Ign  Window resize signal (4.3BSD, Sun) 
    SIGUNUSED -,31,-  Term Unused signal (will be SIGSYS) 
2

gdb Attach, um es mit

gdb -p <pid>
Stellen Sie sicher, mit der Option -g kompiliert und nehmen Sie ein Backtrace, sobald es beendet wird. Viel Glück!

+0

Ich wusste nicht, dass du das tun könntest! Das ist großartig, weil der Daemon auf einem Server läuft, auf den ich keinen physischen Zugriff habe. Ich bin regelmäßig mit meinem Laptop unterwegs und kann ein offenes Terminal nicht überwachen, wenn ich unterwegs bin. Auf diese Weise kann ich gdb bei Bedarf anhängen/entfernen, ohne den Daemon herunterzufahren. Ausgezeichnet! – user19745

1

Ein Shell-Wrapper kann den Exit-Status Ihres Daemons abfangen. Hier ist, wie es funktioniert:

$ ./waitstatus true 
pid 1512: exit status 0 (success) 

$ ./waitstatus false 
pid 1514: exit status 1 (abnormal) 

$ ./waitstatus perl -e 'exit 21' 
pid 1518: exit status 21 (abnormal) 

$ ./waitstatus perl -e 'kill TERM => $$' 
pid 1520: terminated on signal 15 

$ ./waitstatus no-such-command 
pid 1522: command not found: no-such-command 

$ ./waitstatus /sbin/EACCES.contrived 
pid 1524: command not executable: /sbin/EACCES.contrived 

... und hier ist, wie es umgesetzt hat:

$ cat ./waitstatus 
#! /bin/bash 

"[email protected]" & 
PID=$! 

wait $PID 
STATUS=$? 

if [ $STATUS -gt 128 ]; then 
    MSG="terminated on signal $(($STATUS - 128))"; 
else 
    case $STATUS in 
    0) 
     MSG="exit status 0 (success)" 
     ;; 
    127) 
     MSG="command not found: $1" 
     ;; 
    126) 
     MSG="command not executable: $1" 
     ;; 
    *) 
     MSG="exit status $STATUS (abnormal)" 
     ;; 
    esac 
fi 

echo "pid $PID: $MSG" 
exit $STATUS 

Sie könnten das letzte echo Linie auf einen Aufruf Ihres Systems logger Befehl, zum Beispiel ändern möchten, Leiten Sie die Statusmeldung an syslog.